JP7495498B2 - 情報処理装置、学習機器、撮像装置、情報処理装置の制御方法、及びプログラム - Google Patents

情報処理装置、学習機器、撮像装置、情報処理装置の制御方法、及びプログラム Download PDF

Info

Publication number
JP7495498B2
JP7495498B2 JP2022533785A JP2022533785A JP7495498B2 JP 7495498 B2 JP7495498 B2 JP 7495498B2 JP 2022533785 A JP2022533785 A JP 2022533785A JP 2022533785 A JP2022533785 A JP 2022533785A JP 7495498 B2 JP7495498 B2 JP 7495498B2
Authority
JP
Japan
Prior art keywords
image
training data
specific subject
data generation
focus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022533785A
Other languages
English (en)
Other versions
JPWO2022004303A1 (ja
JPWO2022004303A5 (ja
Inventor
亮宏 内田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Publication of JPWO2022004303A1 publication Critical patent/JPWO2022004303A1/ja
Publication of JPWO2022004303A5 publication Critical patent/JPWO2022004303A5/ja
Application granted granted Critical
Publication of JP7495498B2 publication Critical patent/JP7495498B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/67Focus control based on electronic image sensor signals
    • H04N23/675Focus control based on electronic image sensor signals comprising setting of focusing regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/617Upgrading or updating of programs or applications for camera control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • H04N23/631Graphical user interfaces [GUI] specially adapted for controlling image capture or setting capture parameters
    • H04N23/632Graphical user interfaces [GUI] specially adapted for controlling image capture or setting capture parameters for displaying or modifying preview images prior to image capturing, e.g. variety of image resolutions or capturing parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • H04N23/633Control of cameras or camera modules by using electronic viewfinders for displaying additional information relating to control or operation of the camera
    • H04N23/635Region indicators; Field of view indicators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Studio Devices (AREA)

Description

本開示の技術は、情報処理装置、学習機器、撮像装置、情報処理装置の制御方法、及びプログラムに関する。
国際公開第2008/133237号には、物体空間を撮影する撮像装置が開示されている。この撮像装置は、被写体特徴点学習手段と、被写体特徴点学習情報格納部と、撮影候補画像情報取得手段と、画像検索処理手段と、撮影条件調整手段とを備えることを特徴とする。被写体特徴点学習手段は、物体空間を撮影して得た画像情報から、所定の被写体の像を検出するとともに、被写体の像の特徴点を示す被写体特徴点学習情報を抽出する。被写体特徴点学習情報格納部は、被写体特徴点学習情報を格納する。撮影候補画像情報取得手段は、撮影の候補となる画像である撮影候補画像を取得する。画像検索処理手段は、取得した撮影候補画像から、撮影候補画像に含まれる少なくとも1つの被写体の像が有する特徴点を示す撮影候補画像特徴点情報の中に、被写体特徴点学習情報格納部に予め格納されていた被写体特徴点学習情報が示す特徴点と一致する特徴点を示すものが含まれているか否かを判定する。撮影条件調整手段は、判定の結果、撮影候補画像特徴点情報の中に、被写体特徴点学習情報が示す特徴点と一致する特徴点を示すものが含まれている場合に、撮影候補画像中の、撮影候補画像特徴点情報に対応する被写体に対して撮影条件の最適化を行わせるように、撮影条件の最適化を行う撮影条件最適化手段に指示を行う。
特開2013-80428号公報には、第1装置が学習により適応させた第1学習データを取得する取得ステップと、第2装置が学習により適応させる第2学習データのデータ形式に基づいて、取得した第1学習データを、第2学習データのデータ形式に適合するデータ形式の学習データに変換するデータ変換ステップと、をコンピュータに実行させるプログラムが開示されている。
本開示の技術に係る一つの実施形態は、イメージセンサによって撮像されることで得られる撮像画像から、機械学習に用いる特定被写体画像が手作業で選択される場合に比べ、機械学習に用いるデータを簡便に収集することができる情報処理装置を提供する。
本開示の技術に係る第1の態様は、プロセッサと、プロセッサに接続又は内蔵されたメモリと、を備えた情報処理装置であって、プロセッサが、特定被写体をフォーカス対象領域としたフォーカス動作を伴う撮像がイメージセンサによって行われた場合に、撮像によって得られた撮像画像内の特定被写体を示す特定被写体画像に関する特定被写体データを、機械学習に用いるデータとして出力する情報処理装置である。
本開示の技術に係る第2の態様は、機械学習が、教師有り機械学習であり、プロセッサが、特定被写体画像に関する情報であるラベルを特定被写体データに付与し、特定被写体データを、教師有り機械学習に用いるトレーニングデータとして出力する第1の態様に係る情報処理装置である。
本開示の技術に係る第3の態様は、プロセッサが、イメージセンサから出力された信号に基づいた表示用動画像がモニタに表示されている状態で、フォーカス対象領域を他画像領域と区別可能な態様で表示し、特定被写体画像が、撮像画像内のフォーカス対象領域の位置に対応する画像である第1の態様又は第2の態様に係る情報処理装置である。
本開示の技術に係る第4の態様は、プロセッサが、表示用動画像において、フォーカス対象領域を取り囲む枠を表示することで、フォーカス対象領域を他画像領域と区別可能な態様で表示する第3の態様に係る情報処理装置である。
本開示の技術に係る第5の態様は、枠の位置が、与えられた位置変更指示に従って変更可能である第4の態様に係る情報処理装置である。
本開示の技術に係る第6の態様は、枠のサイズが、与えられたサイズ変更指示に従って変更可能である第4の態様又は第5の態様に係る情報処理装置である。
本開示の技術に係る第7の態様は、プロセッサが、撮像画像とフォーカス対象領域の座標とを、機械学習に用いるデータとして出力する第1の態様から第6の態様の何れか一つの態様に係る情報処理装置である。
本開示の技術に係る第8の態様は、プロセッサが、イメージセンサから出力された信号に基づいた表示用動画像をモニタに表示し、表示用動画像において、フォーカス対象領域の指定を受け付け、フォーカス対象領域を含む所定領域のうち、フォーカス対象領域に対する類似度を示す類似評価値が第1既定範囲内にある領域に基づいて、特定被写体画像を抽出する第1の態様又は第2の態様に係る情報処理装置である。
本開示の技術に係る第9の態様は、プロセッサが、フォーカス対象領域を他画像領域と区別可能な態様で表示する第8の態様に係る情報処理装置である。
本開示の技術に係る第10の態様は、フォーカス対象領域及び特定被写体画像のうちの少なくとも一方が、所定領域が分割されることで得られた分割領域単位で定められている第8の態様又は第9の態様に係る情報処理装置である。
本開示の技術に係る第11の態様は、類似評価値が、フォーカス動作に使用されたフォーカス評価値に基づく値である第8の態様から第10の態様の何れか一つの態様に係る情報処理装置である。
本開示の技術に係る第12の態様は、類似評価値が、所定領域の色情報に基づく色評価値である第8の態様から第11の態様の何れか一つの態様に係る情報処理装置である。
本開示の技術に係る第13の態様は、プロセッサが、表示用動画像において特定被写体を示す表示用特定被写体画像と、特定被写体画像との相違度が第2既定範囲を超えている場合、異常検出処理を行い、表示用特定被写体画像は、類似評価値に基づいて定められている第8の態様から第12の態様の何れか一つの態様に係る情報処理装置である。
本開示の技術に係る第14の態様は、特定被写体データが、特定被写体画像の座標を含み、プロセッサが、撮像画像と特定被写体画像の座標とを、機械学習に用いるデータとして出力する第1の態様から第13の態様の何れか一つの態様に係る情報処理装置である。
本開示の技術に係る第15の態様は、特定被写体データが、撮像画像から切り出された特定被写体画像であり、プロセッサが、切り出された特定被写体画像を、機械学習に用いるデータとして出力する第1の態様から第14の態様の何れか一つの態様に係る情報処理装置である。
本開示の技術に係る第16の態様は、プロセッサが、データをメモリに記憶し、メモリに記憶されているデータを用いて機械学習を行う第1の態様から第15の態様の何れか一つの態様に係る情報処理装置である。
本開示の技術に係る第17の態様は、第1の態様から第15の態様の何れか一つの態様に係る情報処理装置から出力されたデータを受け付ける受付デバイスと、受付デバイスによって受け付けられたデータを用いて機械学習を行う演算装置と、を備える学習機器である。
本開示の技術に係る第18の態様は、第1の態様から第16の態様のうちの何れか一つの態様に係る情報処理装置と、イメージセンサと、を備える撮像装置である。
本開示の技術に係る第19の態様は、イメージセンサが、複数の合焦位置で撮像し、プロセッサが、撮像が行われることによって得られる複数の撮像画像について、特定被写体に合焦している合焦画像から得られる特定被写体画像の座標を、特定被写体に合焦していない非合焦画像における特定被写体画像の座標として出力する第18の態様に係る撮像装置である。
本開示の技術に係る第20の態様は、特定被写体をフォーカス対象領域としたフォーカス動作を伴う撮像がイメージセンサによって行われた場合に、撮像によって得られた撮像画像内の特定被写体を示す特定被写体画像に関する特定被写体データを、機械学習に用いるデータとして出力することを含む情報処理装置の制御方法である。
本開示の技術に係る第21の態様は、コンピュータに、特定被写体をフォーカス対象領域としたフォーカス動作を伴う撮像がイメージセンサによって行われた場合に、撮像によって得られた撮像画像内の特定被写体を示す特定被写体画像に関する特定被写体データを、機械学習に用いるデータとして出力することを含む処理を実行させるためのプログラムである。
トレーニングデータ生成システムの一例を示す概略図である。 撮像装置の前面側の外観の一例を示す斜視図である。 撮像装置の背面側の外観の一例を示す背面図である。 撮像装置のブロック図である。 トレーニングデータ撮像モードが選択された場合に、ラベル選択画面がモニタに表示される態様の一例を示す撮像装置の背面図である。 モニタに表示されたライブビュー画像に、AF枠を重畳表示している態様の一例を示す撮像装置の背面図である。 被写体の顔の位置に合わせてAF枠の位置を変更する態様の一例を示す撮像装置の背面図である。 被写体の顔の位置に合わせてAF枠のサイズを変更する態様の一例を示す撮像装置の背面図である。 AF枠の位置座標の一例を示す説明図である。 第1実施形態に係る情報処理装置から出力されたトレーニングデータが、データベースに記憶される態様の一例を示す説明図である。 第1実施形態に係る情報処理装置によって行われるトレーニングデータ生成処理の流れの一例を示すフローチャートである。 被写体の左眼の位置に合わせてAF枠の位置及びサイズを変更させる態様の一例を示す撮像装置の背面図である。 第2実施形態に係る情報処理装置が、分割領域毎の合焦位置間距離に応じて、本露光画像から特定被写体画像を抽出する態様の一例を示す説明図である。 第2実施形態に係る情報処理装置を有する撮像装置の光電変換素子に含まれる各画素の配置の一例を示す概略図である。 図14に示す光電変換素子に含まれる第1位相差画素及第2位相差画素に対する被写体光の入射特性の一例を示す概念図である。 第2実施形態に係る情報処理装置によって行われるトレーニングデータ生成処理の流れの一例を示すフローチャートである。 第3実施形態に係る情報処理装置が、分割領域毎の色差に応じて、本露光画像から特定被写体画像を抽出する態様の一例を示す説明図である。 第3実施形態に係る情報処理装置によって行われるトレーニングデータ生成処理の流れの一例を示すフローチャートである。 第4実施形態に係る情報処理装置によって行われるトレーニングデータ生成処理の流れの一例を示すフローチャートである。 ライブビュー画像と本露光画像との間で、特定被写体画像のサイズの相違度がサイズ既定範囲を超える場合、第5実施形態に係る情報処理装置が警告情報を学習機器に出力する態様の一例を示す説明図である。 ライブビュー画像と本露光画像との間で、特定被写体画像の中心位置の相違度が位置既定範囲を超える場合、第5実施形態に係る情報処理装置が警告情報を学習機器に出力する態様の一例を示す説明図である。 第5実施形態に係る情報処理装置によって行われるトレーニングデータ生成処理の流れの一例を示すフローチャートである。 図22Aに示すフローチャートの続きである。 第6実施形態に係る情報処理装置が、特定被写体画像の位置座標を決定する態様の一例を示す説明図である。 第6実施形態に係る情報処理装置から出力されたトレーニングデータが、データベースに記憶される態様の一例を示す説明図である。 第6実施形態に係る情報処理装置によって行われるトレーニングデータ生成処理の流れの一例を示すフローチャートである。 本露光画像から特定被写体画像を切り出して出力する場合のトレーニングデータの一例を示す説明図である。 トレーニングデータ生成プログラムが記憶されている記憶媒体から、トレーニングデータ生成プログラムが撮像装置内のコントローラにインストールされる態様の一例を示すブロック図である。
以下、添付図面に従って本開示の技術に係る撮像装置と撮像装置の動作方法との実施形態の一例について説明する。
先ず、以下の説明で使用される文言について説明する。
CPUとは、“Central Processing Unit”の略称を指す。RAMとは、“Random Access Memory”の略称を指す。NVMとは、“Non-Volatile Memory”の略称を指す。ICとは、“Integrated Circuit”の略称を指す。ASICとは、“Application Specific Integrated Circuit”の略称を指す。PLDとは、“Programmable Logic Device”の略称を指す。FPGAとは、“Field-Programmable Gate Array”の略称を指す。SoCとは、“System-on-a-chip”の略称を指す。SSDとは、“Solid State Drive”の略称を指す。USBとは、“Universal Serial Bus”の略称を指す。HDDとは、“Hard Disk Drive”の略称を指す。EEPROMとは、“Electrically Erasable and Programmable Read Only Memory”の略称を指す。ELとは、“Electro-Luminescence”の略称を指す。I/Fとは、“Interface”の略称を指す。UIとは、“User Interface”の略称を指す。TOFとは、“Time of Flight”の略称を指す。fpsとは、“frame per second”の略称を指す。MFとは、“Manual Focus”の略称を指す。AFとは、“Auto Focus”の略称を指す。以下では、説明の便宜上、本開示の技術に係る「プロセッサ」の一例として、CPUを例示しているが、本開示の技術に係る「プロセッサ」は、CPU及びGPU等のように複数の処理装置の組み合わせであってもよい。本開示の技術に係る「プロセッサ」の一例として、CPU及びGPUの組み合わせが適用される場合、GPUは、CPUの制御下で動作し、画像処理の実行を担う。
本明細書の説明において、「垂直」とは、完全な垂直の他に、本開示の技術が属する技術分野で一般的に許容される誤差を含めた意味合いでの垂直を指す。
以下の説明において、モニタに表示される「画像」以外で、「画像データ」ではなく「画像」と表現されている場合、「画像」には「画像を示すデータ(画像データ)」の意味も含まれる。本明細書において、「画像内の被写体」とは、画像内に像として含まれる被写体を意味する。
[第1実施形態]
一例として図1に示すように、トレーニングデータ生成システム10は、撮像装置12、学習機器14、及び学習機器14に接続されたデータベース16を備える。
撮像装置12は、例えば、デジタルカメラである。撮像装置12は、インターネット等の通信網を介して、学習機器14に通信可能に接続されている。撮像装置12は、撮像系の動作モードとして、通常撮像モードと、トレーニングデータ撮像モードとを有する。通常撮像モードでは、撮像装置12は、メカニカルシャッタ48(図4参照)を作動させることで、イメージセンサ24の受光面24A(図4参照)に結像された画像(以下、「本露光画像」と称する)をメモリに記憶する。トレーニングデータ撮像モードでは、撮像装置12は、本露光画像内の特定被写体を示す画像(以下、「特定被写体画像」と称する)に関するデータを、機械学習に用いるデータとして、学習機器14に出力する。以下、特定被写体画像に関するデータを「特定被写体データ」とも称する。なお、機械学習は、例えば、ディープラーニング、及び畳み込みニューラルネットワーク等を含む。
学習機器14は、例えば、コンピュータである。データベース16は、HDD又はEEPROM等のストレージを備え、学習機器14によって受け付けられたデータを記憶する。
機械学習に用いるデータとは、例えば、機械学習において、モデルを構築するために用いられるトレーニングデータである。本実施形態において、トレーニングデータは、特定被写体データと、特定被写体画像に関する情報であるラベルとを含むラベル付き画像データである。学習機器14は、トレーニングデータを用いて教師有り機械学習を行うことにより、画像に写る被写体のクラスを分類するクラス分類モデルを構築する。
図1に示す例では、撮像装置12のユーザ11(以下、単に「ユーザ11」と称する)は、撮像装置12をトレーニングデータ撮像モードに設定して、特定被写体A、B、及びCを順次撮像する。ユーザ11は、特定被写体Aを撮像する前に、撮像装置12において、受付部60(図4参照)を介して、「顔」を示すラベルLAを選択しておく。撮像装置12は、特定被写体Aを撮像することで得られた本露光画像PA内の特定被写体画像SAに関する特定被写体データと、ラベルLAとを対応付けて、トレーニングデータ17Aとして、学習機器14に出力する。学習機器14は、トレーニングデータ17Aを受け付け、特定被写体画像SAに関する特定被写体データとラベルLAとを対応付けてデータベース16に記憶する。
同様に、ユーザ11は、特定被写体Bを撮像する前に、撮像装置12において、受付部60(図4参照)を介して、「車」を示すラベルLBを選択しておく。撮像装置12は、特定被写体Bを撮像することで得られた本露光画像PB内の特定被写体画像SBに関する特定被写体データと、ラベルLBとを対応付けて、トレーニングデータ17Bとして、学習機器14に出力する。学習機器14は、トレーニングデータ17Bを受け付け、特定被写体画像SBに関する特定被写体データとラベルLBとを対応付けてデータベース16に記憶する。
また、ユーザ11は、特定被写体Cを撮像する前に、撮像装置12において、受付部60(図4参照)を介して、「花」を示すラベルLCを選択しておく。撮像装置12は、特定被写体Cを撮像することで得られた本露光画像PC内の特定被写体画像SCに関する特定被写体データと、ラベルLCとを対応付けて、トレーニングデータ17Cとして、学習機器14に出力する。学習機器14は、トレーニングデータ17Cを受け付け、特定被写体画像SCに関する特定被写体データとラベルLCとを対応付けてデータベース16に記憶する。
ここで、本露光画像PA、PB、及びPCは、本開示の技術に係る「撮像画像」の一例である。特定被写体A、B、及びCは、本開示の技術に係る「特定被写体」の一例である。特定被写体画像SA、SB、及びSCは、本開示の技術に係る「特定被写体画像」の一例である。特定被写体データは、本開示の技術に係る「特定被写体データ」の一例である。なお、以下の説明において、本露光画像PA、PB、及びPCを区別して説明する必要がない場合には、包括的に「本露光画像P」と称する。また、以下の説明において、特定被写体A、B、及びCを区別して説明する必要がない場合には、符号を付けずに「特定被写体」と称する。また、以下の説明において、特定被写体画像SA、SB、及びSCを区別して説明する必要がない場合には、包括的に「特定被写体画像S」と称する。
ラベルLA、LB、及びLCは、本開示の技術に係る「ラベル」の一例である。トレーニングデータ17A、17B、及び17Cは、本開示の技術に係る「データ」及び「トレーニングデータ」の一例である。なお、以下の説明において、ラベルLA、LB、及びLCを区別して説明する必要がない場合には、包括的に「ラベルL」と称する。また、以下の説明において、トレーニングデータ17A、17B、及び17Cを区別して説明する必要がない場合には、包括的に「トレーニングデータ17」と称する。
一例として図2に示すように、撮像装置12は、レンズ交換式で、かつ、レフレックスミラーが省略されたデジタルカメラである。撮像装置12は、撮像装置本体20と、撮像装置本体20に交換可能に装着される交換レンズ22と、を備えている。なお、ここでは、撮像装置12の一例として、レンズ交換式で、かつ、レフレックスミラーが省略されたデジタルカメラが挙げられているが、本開示の技術はこれに限定されず、レンズ固定式のデジタルカメラであってもよいし、レフレックスミラーが省略されていないデジタルカメラであってもよいし、スマートデバイス、ウェアラブル端末、細胞観察装置、眼科観察装置、又は外科顕微鏡等の各種の電子機器に内蔵されるデジタルカメラであってもよい。
撮像装置本体20には、イメージセンサ24が設けられている。イメージセンサ24は、光電変換素子80(図14参照)を備えている。イメージセンサ24は、受光面24A(図14参照)を有する。イメージセンサ24は、受光面24Aの中心と光軸OAとが一致するように撮像装置本体20内に配置されている。
イメージセンサ24は、CMOSイメージセンサである。交換レンズ22が撮像装置本体20に装着された場合に、被写体を示す被写体光は、交換レンズ22を透過してイメージセンサ24に結像され、被写体の画像を示す画像データがイメージセンサ24によって生成される。ここで、イメージセンサ24は、本開示の技術に係る「イメージセンサ」の一例である。
なお、本実施形態では、イメージセンサ24としてCMOSイメージセンサを例示しているが、本開示の技術はこれに限定されず、例えば、イメージセンサ24がCCDイメージセンサ等の他種類のイメージセンサであっても本開示の技術は成立する。
撮像装置本体20の上面には、レリーズボタン26及びダイヤル28が設けられている。ダイヤル28は、撮像装置12の動作モードを設定する際に操作される。撮像装置12の動作モードとしては、通常撮像モードとトレーニングデータ撮像モードとを含む撮像系の動作モードと、再生モードを含む再生系の動作モードがある。
レリーズボタン26は、撮像準備指示部及び撮像指示部として機能し、撮像準備指示状態と撮像指示状態との2段階の押圧操作が検出可能である。撮像準備指示状態とは、例えば待機位置から中間位置(半押し位置)まで押下される状態を指し、撮像指示状態とは、中間位置を超えた最終押下位置(全押し位置)まで押下される状態を指す。なお、以下では、「待機位置から半押し位置まで押下される状態」を「半押し状態」といい、「待機位置から全押し位置まで押下される状態」を「全押し状態」という。また、以下では、レリーズボタン26が最終押下位置(全押し位置)まで押下される操作を「本露光操作」ともいう。なお、「本露光操作」は、例えば後述のタッチパネル・モニタ3がタッチされる等、別の方法で行われても良い。
一例として図3に示すように、撮像装置本体20の背面には、タッチパネル・モニタ30及び指示キー32が設けられている。
タッチパネル・モニタ30は、モニタ34及びタッチパネル36(図4も参照)を備えている。モニタ34の一例としては、有機ELディスプレイが挙げられる。モニタ34は、有機ELディスプレイではなく、無機ELディスプレイ、液晶ディスプレイなどの他種類のディスプレイであってもよい。なお、モニタ34は、本開示の技術に係る「モニタ」の一例である。
モニタ34は、画像及び/又は文字情報等を表示する。モニタ34は、撮像装置12が撮像系の動作モードの場合に、ライブビュー画像用の撮像、すなわち、連続的な撮像が行われることにより得られたライブビュー画像の表示に用いられる。ライブビュー画像用の撮像(以下、「ライブビュー画像用撮像」とも称する)は、例えば、60fpsのフレームレートに従って行われる。なお、ライブビュー画像用撮像のフレームレートは、60fpsに限らず、60fpsよりも高くても低くてもよい。
ここで、ライブビュー画像とは、イメージセンサ24によって撮像されることにより得られた画像データに基づく表示用の動画像を指す。ここで、ライブビュー画像は、本開示の技術に係る「表示用動画像」の一例である。ライブビュー画像は、一般的には、スルー画像とも称される。また、モニタ34は、本露光画像Pの表示にも用いられる。更に、モニタ34は、撮像装置12が再生モードの場合の再生画像の表示及びメニュー画面等の表示にも用いられる。
タッチパネル36は、透過型のタッチパネルであり、モニタ34の表示領域の表面に重ねられている。タッチパネル36は、指又はスタイラスペン等の指示体による接触を検知することで、ユーザ11からの指示を受け付ける。
なお、本実施形態では、タッチパネル・モニタ30の一例として、タッチパネル36がモニタ34の表示領域の表面に重ねられているアウトセル型のタッチパネル・ディスプレイを挙げているが、これはあくまでも一例に過ぎない。例えば、タッチパネル・モニタ30として、オンセル型又はインセル型のタッチパネル・ディスプレイを適用することも可能である。
指示キー32は、各種の指示を受け付ける。ここで、「各種の指示」とは、例えば、各種メニューを選択可能なメニュー画面の表示の指示、1つ又は複数のメニューの選択の指示、選択内容の確定の指示、選択内容の消去の指示、ズームイン、ズームアウト、及びコマ送り等の各種の指示等を指す。また、これらの指示はタッチパネル36によってされてもよい。
一例として図4に示すように、撮像装置12は、マウント37及び38を備えている。マウント37は、撮像装置本体20に設けられている。マウント38は、交換レンズ22において、マウント37の位置に対向する位置に設けられている。交換レンズ22は、マウント37にマウント38が結合されることにより撮像装置本体20に交換可能に装着される。
一例として図4に示すように、撮像レンズ40は、対物レンズ40A、フォーカスレンズ40B、及び絞り40Cを備えている。対物レンズ40A、フォーカスレンズ40B、及び絞り40Cは、被写体側(物体側)から撮像装置本体20側(像側)にかけて、光軸OAに沿って、対物レンズ40A、フォーカスレンズ40B、及び絞り40Cの順に配置されている。
また、交換レンズ22は、スライド機構42、モータ44及び46を備えている。スライド機構42には、光軸OAに沿ってスライド可能にフォーカスレンズ40Bが取り付けられている。また、スライド機構42にはモータ44が接続されており、スライド機構42は、モータ44の動力を受けて作動することでフォーカスレンズ40Bを光軸OAに沿って移動させる。
絞り40Cは、開口の大きさが可変な絞りである。絞り40Cにはモータ46が接続されており、絞り40Cは、モータ46の動力を受けて作動することで露出を調節する。なお、交換レンズ22の構成物及び/又は動作方法は、必要に応じて変更可能である。
モータ44及び46は、マウント38を介して撮像装置本体20に接続されており、撮像装置本体20からの命令に従って駆動が制御される。なお、本実施形態では、モータ44及び46の一例として、ステッピングモータが採用されている。従って、モータ44及び46は、撮像装置本体20からの命令によりパルス信号に同期して動作する。また、図4に示す例では、モータ44及び46が交換レンズ22に設けられている例が示されているが、これに限らず、モータ44及び46のうちの一方が撮像装置本体20に設けられていてもよいし、モータ44及び46の双方が撮像装置本体20に設けられていてもよい。
撮像装置12は、通常撮像モードの場合に、撮像装置本体20に対して与えられた指示に従って、MFモード及びAFモードのうちの一方に選択的に設定される。MFモードは、手動でピントを合わせる動作モードである。MFモードでは、例えば、ユーザ11によって交換レンズ22のフォーカスリング(図示省略)が操作されることで、フォーカスリングの操作量に応じた移動量でフォーカスレンズ40Bが光軸OAに沿って移動し、これによってピントが調節される。
AFモードでは、レリーズボタン26が半押し状態にされることにより、撮像装置本体20が被写体距離に応じた合焦位置の演算を行い、演算して得た合焦位置に向けてフォーカスレンズ40Bを移動させることで、ピントを調節する。その後、引き続きレリーズボタン26が全押し状態にされることにより、撮像装置本体20は本露光動作(後述)を行う。ここで、合焦位置とは、ピントが合っている状態でのフォーカスレンズ40Bの光軸OA上での位置を指す。
なお、トレーニングデータ撮像モードの場合、撮像装置12はAFモードに設定される。以下では、説明の便宜上、フォーカスレンズ40Bを合焦位置に合わせる制御を「AF制御」とも称する。また、以下では、説明の便宜上、合焦位置の演算を「AF演算」とも称する。
撮像装置本体20は、メカニカルシャッタ48を備えている。メカニカルシャッタ48は、フォーカルプレーンシャッタであり、絞り40Cと受光面24Aとの間に配置されている。メカニカルシャッタ48は、モータ等の駆動源(図示省略)からの動力を受けることで作動する。メカニカルシャッタ48は、撮像レンズ40を透過してイメージセンサ24の受光面24Aに結像される被写体光を遮る遮光機構(図示省略)を有する。メカニカルシャッタ48が遮光機構を開閉するタイミングに応じて、撮像装置12は、本露光動作を行う。本露光動作とは、受光面24Aに結像された画像(本露光画像P)の画像データを取り込んでメモリに記憶する動作を指す。なお、本露光動作は、本開示の技術にかかる「撮像」の一例である。
撮像装置本体20は、コントローラ50及びUI系デバイス52を備えている。コントローラ50は、撮像装置12の全体を制御する。UI系デバイス52は、ユーザ11に対して情報を提示したり、ユーザ11からの指示を受け付けたりするデバイスである。コントローラ50には、バスライン58を介してUI系デバイス52が接続されており、コントローラ50は、UI系デバイス52からの各種情報の取得、及びUI系デバイス52の制御を行う。なお、コントローラ50は、本開示の技術に係る「情報処理装置」の一例である。
コントローラ50は、CPU50A、NVM50B、RAM50C、制御I/F50D、及び入力I/F50Eを備えている。CPU50A、NVM50B、RAM50C、制御I/F50D、及び入力I/F50Eは、バスライン58を介して相互に接続されている。
CPU50Aは、本開示の技術に係る「プロセッサ」の一例である。CPU50Aは、撮像装置12の全体を制御する。NVM50Bは、本開示の技術に係る「メモリ」の一例である。NVM50Bの一例としては、EEPROMが挙げられる。ただし、EEPROMはあくまでも一例に過ぎず、例えば、EEPROMに代えて強誘電体メモリであってもよく、撮像装置12に搭載可能な不揮発性メモリであれば如何なるメモリであってもよい。RAM50Cは、各種プログラムの実行時のワークエリア等として用いられる揮発性のメモリである。
NVM50Bには、各種プログラム51が記憶されている。CPU50Aは、NVM50Bから必要なプログラム51を読み出し、読み出したプログラム51をRAM50C上で実行することで、撮像装置12を統括的に制御する。
制御I/F50Dは、FPGAを有するデバイスであり、イメージセンサ24に接続されている。CPU50Aは、制御I/F50Dを介してイメージセンサ24を制御する。また、制御I/F50Dは、マウント37及び38を介してモータ44及び46に接続されており、CPU50Aは、制御I/F50Dを介してモータ44及び46を制御する。
入力I/F50Eは、イメージセンサ24に接続されている。入力I/F50Eは、イメージセンサ24から出力される画像データを受け付ける。コントローラ50は、画像データに対して、例えば、ホワイトバランス調整、シャープネス調整、ガンマ補正、色空間変換処理、及び色差補正などの公知の信号処理を施すことによって、本露光画像Pを示す本露光画像データを生成する。
バスライン58には、外部I/F54が接続されている。外部I/F54は、FPGAを有するデバイスである。外部I/F54には、USBメモリ又はメモリカード等の外部装置(図示省略)が接続される。外部I/F54は、CPU50Aと外部装置との間の各種情報の授受を司る。CPU50Aは、外部I/F54を介して、本露光画像データを外部装置に記憶させる。
また、バスライン58には、通信I/F56が接続されている。通信I/F56は、インターネット等の通信網を介して、学習機器14に通信可能に接続されている。トレーニングデータ撮像モードにおいて、CPU50Aは、通信I/F56を介して、トレーニングデータ17を学習機器14に出力する。
UI系デバイス52は、タッチパネル・モニタ30及び受付部60を備えている。モニタ34及びタッチパネル36は、バスライン58に接続されている。従って、CPU50Aは、モニタ34に対して各種情報を表示させ、タッチパネル36によって受け付けられた各種指示に従って動作する。
受付部60は、タッチパネル36及びハードキー部62を備えている。ハードキー部62は、複数のハードキーであり、レリーズボタン26、ダイヤル28、及び指示キー32を含む。ハードキー部62は、バスライン58に接続されており、CPU50Aは、ハードキー部62によって受け付けられた各種指示に従って動作する。
なお、図4に示す例では、図示の都合上、バスライン58として1本のバスが図示されているが、複数本のバスであってもよい。バスライン58は、シリアルバスであってもよいし、データバス、アドレスバス、及びコントロールバス等を含むパラレルバスであってもよい。
NVM50Bに記憶されている各種プログラム51には、トレーニングデータ生成プログラム51Aが含まれる。撮像装置12がトレーニングデータ撮像モードに設定された場合、CPU50Aは、NVM50Bからトレーニングデータ生成プログラム51Aを読み出し、読み出したトレーニングデータ生成プログラム51AをRAM50C上で実行することで、トレーニングデータ生成部53として動作する。トレーニングデータ生成部53は、トレーニングデータ生成処理を実行する。トレーニングデータ生成部53によって行われるトレーニングデータ生成処理について、以下に具体的に説明する。
一例として図5に示すように、トレーニングデータ撮像モードにおいて、トレーニングデータ生成部53は、タッチパネル・モニタ30上にラベル選択画面64を表示する。ラベル選択画面64には、「被写体に付与するラベルを選択してください」というメッセージ64Aと、複数のラベル候補が羅列された表64Bが表示されている。
表64Bの第1列目には、比較的大きな属性を示すラベル候補(以下、「大ラベル候補」とも称する)が表示されている。大ラベル候補は、例えば、「人物」「乗り物」及び「建築物」である。表64Bのその他の列には、第1列目の大ラベル候補を細分化した属性を示すラベル候補(以下、「小ラベル候補」とも称する)が表示される。例えば、大ラベル候補が「人物」の場合、小ラベル候補としては、「顔」「男性」「女性」及び「子供」が挙げられる。ユーザ11は、指示体でタッチパネル36に接触することで、表64Bから任意のラベル候補を選択する。
図1に示す特定被写体Aを撮像する場合には、一例として図5に示すように、ユーザ11は、タッチパネル・モニタ30を介して、表64Bに列記されたラベル候補の中から「顔」のラベルを選択する。なお、図5に列記したラベル候補は一例であり、ラベル候補はこれに限定されない。また、ラベル候補の表示方法はこれに限定されない。図5に示す例では1つの小ラベル候補が選択されているが、大ラベル候補が選択されてもよいし、又は複数の小ラベル候補が選択されてもよい。
トレーニングデータ生成部53は、選択されたラベルLを受け付ける。トレーニングデータ生成部53は、受け付けたラベルLをRAM50Cに記憶する。
一例として図6に示すように、ラベルLを受け付けた後、トレーニングデータ生成部53は、イメージセンサ24から出力された撮像信号に基づいたライブビュー画像66をモニタ34に表示させる。また、トレーニングデータ撮像モードにおいて、トレーニングデータ生成部53は、ライブビュー画像66が表示されているモニタ34の中央に、AF枠68を重畳表示する。AF枠68とは、AFモードにおいて、フォーカスを合わせる対象となる領域(以下、「フォーカス対象領域」と称する)を、ライブビュー画像66上で、他の画像領域と区別可能に表示するための枠である。なお、AF枠68は、本開示の技術に係る「枠」の一例である。また、フォーカス対象領域は、本開示の技術に係る「フォーカス対象領域」の一例である。また、撮像信号は、本開示の技術に係る「信号」の一例である。
AF枠68は、矩形の枠線68Aと、枠線68Aの四方に配置された4つの三角矢印68B-U、68B-D、68B-R、及び68B-Lとを含む。以下、三角矢印68B-U、68B-D、68B-R、及び68B-Lを区別して説明する必要がない場合には、包括的に「三角矢印68B」と称する。
ユーザ11は、指示体で、タッチパネル36上の三角矢印68Bに接触することにより、トレーニングデータ生成部53に対して、AF枠68の位置を各三角矢印68Bが示す方向に移動させる位置変更指示を与えることができる。トレーニングデータ生成部53は、与えられた位置変更指示に従って、モニタ34上でAF枠68の位置を変更する。ここで、位置変更指示は、本開示の技術に係る「位置変更指示」の一例である。なお、タッチパネル36に表示された三角矢印68Bは、ユーザ11からの位置変更指示を受け付けるための手段の一例に過ぎず、受付部60を介してユーザ11からの位置変更指示を受け付けることができれば、その手段は限定されない。
例えば、図6において、ユーザ11は、指示体でタッチパネル36上の三角矢印68B-U及び68B-Lに接触することにより、トレーニングデータ生成部53に対して、枠線68Aが特定被写体Aの顔を示す領域を取り囲むようにAF枠68を移動させる位置変更指示を与える。これにより、AF枠68は、例えば、図7に示す位置に移動する。
また、ユーザ11は、タッチパネル・モニタ30に表示された枠線68A上で、ピンチイン又はピンチアウト動作を行うことにより、トレーニングデータ生成部53に対して、枠線68Aのサイズを変更させるサイズ変更指示を与えることができる。一例として図8に示すように、図7に示す例に比べて撮像レンズ40のズーム倍率を低くした場合には、ユーザ11は、トレーニングデータ生成部53に対して、枠線68Aが特定被写体Aの顔を示す領域を取り囲むように、枠線68Aのサイズを小さく変更させるサイズ変更指示を与える。トレーニングデータ生成部53は、与えられたサイズ変更指示に従って、モニタ34上で枠線68Aのサイズを変更する。なお、サイズ変更指示は、本開示の技術に係る「サイズ変更指示」の一例である。なお、ピンチイン及びピンチアウト動作は、ユーザ11からのサイズ変更指示を受け付けるための手段の一例に過ぎず、受付部60を介してユーザ11からの位置変更指示を受け付けることができれば、その手段は限定されない。
ユーザ11は、AF枠68の位置及びサイズを変更した後、レリーズボタン26を半押し位置まで押下するAF動作を行う。ここで、AF動作は、本開示の技術に係る「フォーカス動作」の一例である。AF動作が行われた場合、トレーニングデータ生成部53は、ライブビュー画像66において、枠線68Aで取り囲まれた領域を、フォーカス対象領域Fに指定する。
トレーニングデータ生成部53は、フォーカス対象領域Fの位置を示す位置座標を取得する。一例として図9に示すように、フォーカス対象領域Fの位置座標は、ライブビュー画像66の左下角を原点O(0,0)として、枠線68Aの右下角Q1Aの座標(X1A,Y1A)と、枠線68Aの左上角Q2Aの座標(X2A,Y2A)とで表される。トレーニングデータ生成部53は、取得したフォーカス対象領域Fの位置座標をRAM50Cに記憶する。なお、位置座標は、本開示の技術に係る「座標」の一例である。
ユーザ11が、AF動作を行った後、レリーズボタン26を全押し位置まで押下した場合に、撮像装置12によって本露光動作が行われ、トレーニングデータ生成部53は、本露光画像PAから、特定被写体画像SAとして、フォーカス対象領域Fを示す画像を抽出する。一例として図10に示すように、トレーニングデータ生成部53は、特定被写体画像SAに関する特定被写体データとラベルLAとを対応付けて、トレーニングデータ17Aとして、学習機器14に出力する。特定被写体画像SAに関する特定被写体データは、本露光画像PAと、本露光画像PA内の特定被写体画像SAの位置を示す位置座標、すなわちフォーカス対象領域Fの位置座標とを含む。
同様に、トレーニングデータ撮像モードにおいて、ユーザ11が、特定被写体Bを取り囲むようにAF枠68を移動させた後、撮像装置12に対して、AF動作及び本露光動作を行わせた場合、トレーニングデータ生成部53は、本露光画像PBから、特定被写体画像SBとして、フォーカス対象領域Fを示す画像を抽出する。トレーニングデータ生成部53は、特定被写体画像SBに関する特定被写体データとラベルLBとを対応付けて、トレーニングデータ17Bとして、学習機器14に出力する。特定被写体画像SBに関する特定被写体データは、本露光画像PBと、本露光画像PB内の特定被写体画像SBの位置を示す位置座標とを含む。
同様に、トレーニングデータ撮像モードにおいて、ユーザ11が、特定被写体Cを取り囲むようにAF枠68を移動させた後、撮像装置12に対して、AF動作及び本露光動作を行わせた場合、トレーニングデータ生成部53は、本露光画像PCから、特定被写体画像SCとして、フォーカス対象領域Fを示す画像を抽出する。トレーニングデータ生成部53は、特定被写体画像SCに関する特定被写体データとラベルLCとを対応付けて、トレーニングデータ17Cとして、学習機器14に出力する。特定被写体画像SCに関する特定被写体データは、本露光画像PCと、本露光画像PC内の特定被写体画像SCの位置を示す位置座標とを含む。
学習機器14は、コンピュータ15と、入出力I/F14Dとを備えている。入出力I/F14Dは、撮像装置12の通信I/F56と通信可能に接続されている。入出力I/F14Dは、撮像装置12からトレーニングデータ17を受け付ける。コンピュータ15は、入出力I/F14Dによって受け付けられたトレーニングデータ17をデータベース16に記憶する。また、コンピュータ15は、データベース16からトレーニングデータ17を読み出し、読み出したトレーニングデータ17を用いて機械学習を行う。
コンピュータ15は、CPU14A、NVM14B、及びRAM14Cを備えている。CPU14Aは、学習機器14の全体を制御する。NVM14Bの一例としては、EEPROMが挙げられる。ただし、EEPROMはあくまでも一例に過ぎず、例えば、EEPROMに代えて強誘電体メモリであってもよく、学習機器14に搭載可能な不揮発性メモリであれば如何なるメモリであってもよい。RAM14Cは、各種プログラムの実行時のワークエリア等として用いられる揮発性のメモリである。
NVM14Bには、学習実行プログラム72が記憶されている。CPU14Aは、NVM14Bから学習実行プログラム72を読み出し、読み出した学習実行プログラム72をRAM14C上で実行することで、学習実行部76として動作する。学習実行部76は、学習実行プログラム72に従って、トレーニングデータ17を使ってニューラルネットワーク74を学習させることで、教師有り学習モデルを構築する。
次に、本第1実施形態に係る撮像装置12の作用について図11を参照しながら説明する。図11には、トレーニングデータ生成部53によって実行されるトレーニングデータ生成処理の流れの一例が示されている。トレーニングデータ生成処理は、CPU50Aが、トレーニングデータ生成プログラム51Aを実行することで実現される。トレーニングデータ生成処理は、撮像装置12がトレーニングデータ撮像モードに設定された場合に開始される。
図11に示すトレーニングデータ生成処理では、先ず、ステップST101で、トレーニングデータ生成部53は、例えば、図5に示すようなラベル選択画面64をタッチパネル・モニタ30に表示させる。この後、トレーニングデータ生成処理は、ステップST102に移行する。
ステップST102で、トレーニングデータ生成部53は、タッチパネル・モニタ30上でラベルLが選択されたか否かを判定する。ステップST102において、ラベルLが選択された場合、判定が肯定されて、トレーニングデータ生成処理はステップST103に移行する。ステップST102において、ラベルLが選択されていない場合、判定が否定されて、トレーニングデータ生成処理はステップST101に移行する。
ステップST103で、トレーニングデータ生成部53は、タッチパネル・モニタ30にライブビュー画像66を表示させる。この後、トレーニングデータ生成処理は、ステップST104に移行する。
ステップST104で、トレーニングデータ生成部53は、タッチパネル・モニタ30に表示しているライブビュー画像66に、AF枠68を重畳表示する。この後、トレーニングデータ生成処理は、ステップST105に移行する。
ステップST105で、トレーニングデータ生成部53は、ユーザ11からの位置変更指示及びサイズ変更指示に従って、AF枠68の位置及びサイズを変更する。ユーザ11は、ライブビュー画像66において、特定被写体を示す領域がAF枠68の枠線68Aで取り囲まれるように、受付部60を介して、位置変更指示及びサイズ変更指示を与える。この後、トレーニングデータ生成処理は、ステップST106に移行する。
ステップST106で、トレーニングデータ生成部53は、AF動作が行われたか否かを判定する。ステップST106において、AF動作が行われた場合、判定が肯定されて、トレーニングデータ生成処理はステップST107に移行する。ステップST106において、AF動作が行われていない場合、判定が否定されて、トレーニングデータ生成処理はステップST105に移行する。
ステップST107で、トレーニングデータ生成部53は、AF枠68で示されるフォーカス対象領域Fの位置座標を取得する。この後、トレーニングデータ生成処理はステップST108に移行する。
ステップST108で、トレーニングデータ生成部53は、本露光が行われたか否かを判定する。ステップST108において、本露光が行われた場合、判定が肯定されて、トレーニングデータ生成処理はステップST109に移行する。ステップST108において、本露光が行われていない場合、判定が否定されて、トレーニングデータ生成処理はステップST106に移行する。
ステップST109で、トレーニングデータ生成部53は、本露光画像Pを取得する。この後、トレーニングデータ生成処理はステップST110に移行する。
ステップST110で、トレーニングデータ生成部53は、本露光画像Pから、特定被写体画像Sとして、フォーカス対象領域Fを示す画像を抽出する。この後、トレーニングデータ生成処理はステップST111に移行する。
ステップST111で、トレーニングデータ生成部53は、特定被写体データとラベルLとを対応付けて学習機器14に出力する。特定被写体データは、本露光画像Pと、特定被写体画像Sの位置座標、すなわちフォーカス対象領域Fの位置座標とを含む。学習機器14は、受け付けた特定被写体データとラベルLとを、トレーニングデータ17としてデータベース16に記憶する。これにより、トレーニングデータ生成処理が終了する。
以上説明したように、本第1実施形態において、トレーニングデータ生成部53は、特定被写体をフォーカス対象領域としたフォーカス動作を伴う本露光動作がイメージセンサ24によって行われた場合に、本露光動作によって得られた本露光画像P内の特定被写体画像Sに関する特定被写体データを、機械学習に用いるトレーニングデータ17として出力する。従って、本構成によれば、イメージセンサ24によって撮像されることで得られた本露光画像Pから、特定被写体画像Sが手作業で抽出される場合に比べ、機械学習に用いるトレーニングデータ17を簡便に収集することができる。
また、本第1実施形態において、機械学習は、教師有り機械学習である。トレーニングデータ生成部53は、特定被写体画像Sに関する情報であるラベルLを特定被写体データに付与し、特定被写体データを、教師有り機械学習に用いるトレーニングデータ17として出力する。従って、本構成によれば、教師有り機械学習に必要なトレーニングデータ17を収集することができる。
また、本第1実施形態において、トレーニングデータ生成部53は、イメージセンサ24から出力された撮像信号に基づいたライブビュー画像66をモニタ34に表示させる。トレーニングデータ生成部53は、ライブビュー画像66において、AF枠68を用いて、フォーカス対象領域Fを他画像領域と区別可能な態様で表示する。特定被写体画像Sは、本露光画像P内のフォーカス対象領域Fの位置に対応する画像である。従って、本構成によれば、特定被写体画像Sがフォーカス対象領域Fの位置と無関係である場合に比べ、特定被写体画像Sを容易に抽出することができる。
また、本第1実施形態において、トレーニングデータ生成部53は、ライブビュー画像66に、フォーカス対象領域Fを取り囲むAF枠68を表示することで、フォーカス対象領域Fを他画像領域と区別可能な態様で表示する。従って、本構成によれば、AF枠68が表示されない場合に比べ、ユーザ11が特定被写体画像Sを認識しやすい。
また、本第1実施形態において、AF枠68の位置は、与えられた位置変更指示に従って変更可能である。従って、本構成によれば、AF枠68の位置が固定されている場合に比べ、ユーザ11は、フォーカス対象領域Fを自由に移動させることができる。
また、本第1実施形態において、AF枠68のサイズは、与えられたサイズ変更指示に従って変更可能である。従って、本構成によれば、AF枠68のサイズが固定されている場合に比べ、ユーザ11は、フォーカス対象領域Fのサイズを自由に変更させることができる。
また、本第1実施形態において、特定被写体データは、特定被写体画像Sの位置座標を含む。トレーニングデータ生成部53は、本露光画像Pと、フォーカス対象領域Fの位置座標、すなわち特定被写体画像Sの位置座標とを、機械学習に用いるトレーニングデータ17として出力する。従って、本構成によれば、特定被写体画像Sを切り出して出力する場合に比べ、処理工程が少なくて済むという利点がある。
また、本第1実施形態において、学習機器14は、撮像装置12のコントローラ50から出力された特定被写体データを受け付ける入出力I/F14Dと、入出力I/F14Dによって受け付けられた特定被写体データを用いて機械学習を行うコンピュータ15と、を備える。また、撮像装置12は、コントローラ50と、イメージセンサ24とを備える。従って、本構成によれば、イメージセンサ24によって撮像されることで得られた本露光画像Pから、学習に用いる特定被写体画像Sが手作業で選択される場合に比べ、学習機器14は、学習に用いるトレーニングデータ17を簡便に収集することができる。
なお、上記第1実施形態では、一例として図1に示すように、1人のユーザ11が同一の撮像装置12を使って複数の特定被写体A、B、及びCを撮像することで、トレーニングデータ17A、17B、及び17Cを取得しているが、本開示の技術はこれに限定されない。複数のユーザが、それぞれ別の撮像装置12を用いて異なる被写体を撮像し、複数の撮像装置12から同一の学習機器14にトレーニングデータ17が出力されてもよい。この場合、複数のユーザにより取得されたトレーニングデータ17が同一の学習機器14に出力されることで、学習機器14は、効率的にトレーニングデータ17を収集することができる。
また、上記第1実施形態では、トレーニングデータ生成部53は、特定被写体画像Sの位置座標として、枠線68Aの右下角Q1A及び左上角Q2Aの座標を出力するが、本開示の技術はこれに限定されない。トレーニングデータ生成部53は、枠線68Aの右上角及び左下角の座標を出力してもよい。または、トレーニングデータ生成部53は、枠線68Aの1つ角の座標と、枠線68Aを構成する縦及び横の辺の長さを出力してもよい。または、トレーニングデータ生成部53は、枠線68Aの中心の座標と、中心から縦及び横の辺までの長さを出力してもよい。また、特定被写体画像Sの位置座標は、ライブビュー画像66の左下角を原点とした場合の座標で表したが、本開示の技術はこれに限定されず、ライブビュー画像66の他の角を原点としてもよく、又はライブビュー画像66の中心を原点としてもよい。
[第2実施形態]
本第2実施形態は、AF枠68で取り囲まれることによって指定されたフォーカス対象領域Fが、特定被写体画像Sとして抽出されないという点で、上記第1実施形態と異なる。以下、第1実施形態との相違点を具体的に説明する。以下の説明において、第1実施形態と同様の構成及び作用については同一の符号を付し、その説明を省略する。
一例として図12に示すように、本第2実施形態において、タッチパネル・モニタ30には、イメージセンサ24から出力された撮像信号に基づいたライブビュー画像66が表示され、さらに、AF枠68がライブビュー画像66に重畳表示されている。図12に示す例では、トレーニングデータ生成部53は、ライブビュー画像66において、受付部60を介して、ユーザ11からの位置変更指示及びサイズ変更指示を受け付けることにより、特定被写体Aの左眼を示す画像上にAF枠68を配置する。この後、AF動作が行われることによって、枠線68Aで取り囲まれた特定被写体Aの左眼の領域が、フォーカス対象領域Fに指定される。トレーニングデータ生成部53は、ライブビュー画像66において、フォーカス対象領域Fの指定を受け付ける。この後、撮像装置12が本露光動作を行うことによって、トレーニングデータ生成部53は、フォーカス対象領域Fに合焦した本露光画像Pを取得する。
一例として図13に示すように、撮像によって得られた本露光画像Pにおいて、トレーニングデータ生成部53は、フォーカス対象領域Fを含む候補領域78を設定する。候補領域78は、特定被写体画像Sを抽出する候補となる領域である。なお、候補領域78は、本開示の技術に係る「所定領域」の一例である。
候補領域78は、例えば、9行×9列のマトリクス状に分割されている。以下では、各分割領域を区別して表すために、説明の便宜上、図13に示すように、各分割領域の位置に応じて符号が付されている。例えば、候補領域78の1行目1列目に位置する分割領域に符号D11を付し、候補領域78の2行目1列目に位置する分割領域に符号D21を付す。また、分割領域を区別して説明する必要がない場合には、包括的に「分割領域D」と称する。なお、分割領域Dは、本開示の技術に係る「分割領域」の一例である。
候補領域78の中心に位置する分割領域D55は、フォーカス対象領域Fに一致している。つまり、フォーカス対象領域Fの位置及びサイズは、分割領域D単位で指定されている。
一例として図14に示すように、イメージセンサ24は、光電変換素子80を備えている。光電変換素子80は、マトリクス状に配置された複数の感光画素を有しており、受光面24Aは、これらの感光画素によって形成されている。感光画素は、フォトダイオードPDを有する画素であり、受光した光を光電変換し、受光量に応じた電気信号を出力する。各分割領域Dの画像データは、複数のフォトダイオードPDから出力された電気信号に基づいて生成される。
フォトダイオードPDには、カラーフィルタが配置されている。カラーフィルタは、輝度信号を得るために最も寄与するG(緑色)波長域に対応するGフィルタ、R(赤色)波長域に対応するRフィルタ、及びB(青色)波長域に対応するBフィルタを含む。
光電変換素子80は、位相差画素84と、位相差画素84とは異なる画素である非位相差画素86との2種類の感光画素を備えている。一般的に、非位相差画素86は、通常画素とも称される。光電変換素子80は、非位相差画素86として、R画素、G画素、及びB画素の3種類の感光画素を有する。R画素、G画素、B画素、及び位相差画素84は、行方向(例えば、撮像装置本体20の底面を水平面に接触させた状態での水平方向)及び列方向(例えば、水平方向に対して垂直な方向である垂直方向)の各々に既定の周期性で規則的に配置されている。R画素は、Rフィルタが配置されたフォトダイオードPDに対応する画素であり、G画素及び位相差画素84は、Gフィルタが配置されたフォトダイオードPDに対応する画素であり、B画素は、Bフィルタが配置されたフォトダイオードPDに対応する画素である。
受光面24Aには、複数の位相差画素ライン82Aと複数の非位相差画素ライン82Bとが配列されている。位相差画素ライン82Aは、位相差画素84を含む水平ラインである。具体的には、位相差画素ライン82Aは、位相差画素84と非位相差画素86とが混在している水平ラインである。非位相差画素ライン82Bは、複数の非位相差画素86のみを含む水平ラインである。
受光面24Aには、位相差画素ライン82Aと、既定ライン数分の非位相差画素ライン82Bとが列方向に沿って交互に配置されている。ここで言う「既定ライン数」とは、例えば、2ラインを指す。なお、ここでは、既定ライン数として、2ラインを例示しているが、本開示の技術はこれに限らず、既定ライン数は、3ライン以上の数ラインであってもよいし、十数ライン、数十ライン、又は数百ライン等であってもよい。
位相差画素ライン82Aは、1行目から最終行にかけて列方向に2行飛ばしで配列されている。位相差画素ライン82Aの一部の画素が位相差画素84である。具体的には、位相差画素ライン82Aは、位相差画素84と非位相差画素86とが周期的に配列された水平ラインである。
位相差画素84は、第1位相差画素84-Lと第2位相差画素84-Rとに大別される。位相差画素ライン82Aには、G画素として第1位相差画素84-Lと第2位相差画素84-Rとがライン方向に数画素間隔で交互に配置されている。
第1位相差画素84-L及び第2位相差画素84-Rは、列方向で交互に現れるように配置されている。図14に示す例では、4列目において、1行目から列方向に沿って第1位相差画素84-L、第2位相差画素84-R、第1位相差画素84-L、及び第2位相差画素84-Rの順に配置されている。すなわち、第1位相差画素84-Lと第2位相差画素84-Rとが1行目から列方向に沿って交互に配置されている。また、図14に示す例では、10列目において、1行目から列方向に沿って第2位相差画素84-R、第1位相差画素84-L、第2位相差画素84-R、及び第1位相差画素84-Lの順に配置されている。すなわち、第2位相差画素84-Rと第1位相差画素84-Lとが1行目から列方向に沿って交互に配置されている。
一例として図15に示すように、第1位相差画素84-Lは、遮光部材88-L、マイクロレンズ90、及びフォトダイオードPDを備えている。第1位相差画素84-Lでは、マイクロレンズ90とフォトダイオードPDの受光面との間に遮光部材88-Lが配置されている。フォトダイオードPDの受光面における行方向の左半分(受光面から被写体を臨む場合の左側、換言すると、被写体から受光面を臨む場合の右側)は、遮光部材88-Lによって遮光されている。
第2位相差画素84-Rは、遮光部材88-R、マイクロレンズ90、及びフォトダイオードPDを備えている。第2位相差画素84-Rでは、マイクロレンズ90とフォトダイオードPDの受光面との間に遮光部材88-Rが配置されている。フォトダイオードPDの受光面における行方向の右半分(受光面から被写体を臨む場合の右側、換言すると、被写体から受光面を臨む場合の左側)は、遮光部材88-Rによって遮光されている。なお、以下では、説明の便宜上、遮光部材88-L及び88-Rを区別して説明する必要がない場合、「遮光部材88」と称する。
撮像レンズ40の射出瞳を通過する光束は、左領域通過光92L及び右領域通過光92Rに大別される。左領域通過光92Lとは、撮像レンズ40の射出瞳を通過する光束のうち、位相差画素84側から被写体側を臨む場合の左半分の光束を指し、右領域通過光92Rとは、撮像レンズ40の射出瞳を通過する光束のうち、位相差画素84側から被写体側を臨む場合の右半分の光束を指す。撮像レンズ40の射出瞳を通過する光束は、瞳分割部として機能するマイクロレンズ90、遮光部材88-L、及び遮光部材88-Rにより左右に分割され、第1位相差画素84-Lが被写体光として左領域通過光92Lを受光し、第2位相差画素84-Rが被写体光として右領域通過光92Rを受光する。この結果、左領域通過光92Lに対応する被写体像に相当する第1位相差画像データと、右領域通過光92Rに対応する被写体像に相当する第2位相差画像データとが光電変換素子80によって生成される。
トレーニングデータ生成部53は、フォーカス対象領域Fを撮像する位相差画素84のうち、同一の位相差画素ライン82Aに配置された第1位相差画素84-Lから1ライン分の第1位相差画像データを取得し、同一の位相差画素ライン82Aに配置された第2位相差画素84-Rから1ライン分の第2位相差画像データを取得する。トレーニングデータ生成部53は、1ライン分の第1位相差画像データと1ライン分の第2位相差画像データとのずれ量αに基づいて、フォーカス対象領域Fまでの距離を測定する。なお、ずれ量αからフォーカス対象領域Fまでの距離が導出される方法は公知技術であるので、ここでの詳細な説明は省略する。
トレーニングデータ生成部53は、測定されたフォーカス対象領域Fまでの距離に基づいてAF演算を行うことにより、フォーカスレンズ40Bの合焦位置を導出する。以下、フォーカス対象領域Fまでの距離に基づいて導出されたフォーカスレンズ40Bの合焦位置を「フォーカス対象領域合焦位置」とも称する。トレーニングデータ生成部53は、フォーカスレンズ40Bをフォーカス対象領域合焦位置に合わせるフォーカス動作を行う。
また、トレーニングデータ生成部53は、各分割領域Dについて、各分割領域Dを撮像する位相差画素84のうち、同一の位相差画素ライン82Aに配置された第1位相差画素84-Lから1ライン分の第1位相差画像データを取得し、同一の位相差画素ライン82Aに配置された第2位相差画素84-Rから1ライン分の第2位相差画像データを取得する。トレーニングデータ生成部53は、1ライン分の第1位相差画像データと1ライン分の第2位相差画像データとのずれ量αに基づいて、各分割領域Dまでの距離を測定する。
トレーニングデータ生成部53は、測定された各分割領域Dまでの距離に基づいてAF演算を行うことにより、各分割領域Dにおけるフォーカスレンズ40Bの合焦位置を導出する。以下、各分割領域Dまでの距離に基づいて導出されたフォーカスレンズ40Bの合焦位置を「分割領域合焦位置」とも称する。
トレーニングデータ生成部53は、各分割領域Dについて、フォーカス対象領域合焦位置から分割領域合焦位置までの距離(以下、「合焦位置間距離」と称する)が、予め定められた距離閾値未満であるか否かを判定する。トレーニングデータ生成部53は、合焦位置間距離が、距離閾値未満である分割領域Dは、フォーカス対象領域Fとの類似度が高い領域であると特定する。ここで、距離閾値は、例えば、実機による試験及び/又はコンピュータ・シミュレーション等によって、特定被写体画像Sを抽出するための閾値として予め導き出された値である。距離閾値は、固定値であってもよいし、与えられた指示及び/又は条件(例えば、撮像条件等)に応じて変更される可変値であってもよい。
なお、合焦位置間距離は、本開示の技術に係る「類似評価値」の一例である。また、フォーカス対象領域合焦位置は、本開示の技術に係る「フォーカス評価値」の一例である。また、距離閾値は、本開示の技術に係る「第1既定範囲」の一例である。
図13に示す例では、トレーニングデータ生成部53は、候補領域78に含まれる81個の分割領域Dのうち、フォーカス対象領域F(分割領域D55)を除く80個の分割領域Dについて、合焦位置間距離を算出する。トレーニングデータ生成部53は、算出した合焦位置間距離が、距離閾値未満であるか否かを判定する。図13において、ハッチングで示される分割領域Dが、合焦位置間距離が距離閾値未満であると判定された分割領域、すなわちフォーカス対象領域Fとの類似度が高いと特定された分割領域である。
トレーニングデータ生成部53は、特定された分割領域Dに基づいて、本露光画像Pから特定被写体画像Sを抽出する。図13に示す例では、トレーニングデータ生成部53は、特定された分割領域Dを過不足なく取り囲むように、分割領域D単位で、矩形の特定被写体画像Sを抽出している。
次に、本第2実施形態に係る撮像装置12の作用について図16を参照しながら説明する。図16には、第2実施形態に係るトレーニングデータ生成処理の流れの一例が示されている。
図16において、ステップST201~ステップST209は、図11のステップST101~ステップST109と同じであるので、説明を省略する。
ステップST210で、トレーニングデータ生成部53は、本露光画像Pにおいて、候補領域78及び分割領域Dを設定する。この後、トレーニングデータ生成処理はステップST211に移行する。
ステップST211で、トレーニングデータ生成部53は、各分割領域Dの合焦位置間距離を算出する。この後、トレーニングデータ生成処理はステップST212に移行する。
ステップST212で、トレーニングデータ生成部53は、合焦位置間距離が距離閾値未満である分割領域Dを特定する。この後、トレーニングデータ生成処理は、ステップST213に移行する。
ステップST213で、トレーニングデータ生成部53は、特定された分割領域Dに基づいて、本露光画像Pから特定被写体画像Sを抽出する。また、トレーニングデータ生成部53は、抽出された特定被写体画像Sの位置座標を取得する。この後、トレーニングデータ生成処理は、ステップST214に移行する。
ステップST214で、トレーニングデータ生成部53は、特定被写体データとラベルLとを対応付けて学習機器14に出力する。特定被写体データは、本露光画像Pと特定被写体画像Sの位置座標とを含むデータである。学習機器14は、受け付けた特定被写体データ及びラベルLを、トレーニングデータ17として、データベース16に記憶する。これにより、トレーニングデータ生成処理が終了する。
以上説明したように、本第2実施形態において、トレーニングデータ生成部53は、イメージセンサ24から出力された撮像信号に基づいたライブビュー画像66をタッチパネル・モニタ30に表示させる。トレーニングデータ生成部53は、ライブビュー画像66において、ユーザ11から受付部60を介してフォーカス対象領域Fの指定を受け付ける。トレーニングデータ生成部53は、フォーカス対象領域Fを含む候補領域78のうち、フォーカス対象領域Fに対する類似度を示す合焦位置間距離が、距離閾値未満である分割領域Dに基づいて、本露光画像Pから特定被写体画像Sを抽出する。従って、本構成によれば、ユーザ11が、特定被写体Aの一部をフォーカス対象領域Fとして撮像を行うことで、特定被写体Aの全体を示す特定被写体画像Sが本露光画像Pから抽出されるので、特定被写体Aの全体をフォーカス対象領域Fに指定しなくてはならない場合に比べ、簡単な操作で学習に用いるトレーニングデータ17を収集することができる。
また、本第2実施形態において、トレーニングデータ生成部53は、フォーカス対象領域Fを取り囲むAF枠68を表示することで、フォーカス対象領域Fを他画像領域と区別可能な態様で表示する。従って、本構成によれば、AF枠68が表示されない場合に比べ、ユーザ11が特定被写体画像Sを認識しやすい。
また、本第2実施形態において、フォーカス対象領域F及び特定被写体画像Sのうちの少なくとも一方は、候補領域78が分割されることで得られた分割領域D単位で定められている。従って、本構成によれば、候補領域78が分割されていない場合に比べ、本露光画像Pから特定被写体画像Sを抽出するのに要する処理が容易になる。
また、本第2実施形態において、フォーカス動作に使用されたフォーカス対象領域合焦位置から各分割領域合焦位置までの距離(合焦位置間距離)が、フォーカス対象領域Fに対する類似度を示す類似評価値として用いられる。従って、本構成によれば、トレーニングデータ生成部53は、フォーカス動作に使用されたフォーカス対象領域合焦位置を用いない場合に比べ、本露光画像Pから特定被写体画像Sを容易に抽出することができる。
なお、本第2実施形態において、一例として図13に示すように、フォーカス対象領域Fが1個の分割領域D55を含んでいるが、フォーカス対象領域Fは、2個以上の分割領域Dを含むように指定されてもよい。また、候補領域78の位置及びサイズは、図13に示す例に限定されず、候補領域78は、フォーカス対象領域Fを含むのであれば、任意の位置及びサイズに設定され得る。また、分割領域Dの個数、位置、及びサイズも、図13に示す例に限定されず、任意に変更可能である。
なお、上記第2実施形態では、一例として図13に示すように、矩形の特定被写体画像Sを例示したが、本開示の技術はこれに限定されない。トレーニングデータ生成部53は、本露光画像Pのうち、フォーカス対象領域Fに対する合焦位置間距離が距離閾値未満である分割領域D、すなわち図13においてハッチングで示される分割領域Dのみを、特定被写体画像Sとして抽出してもよい。
[第3実施形態]
本第3実施形態は、類似評価値として、合焦位置間距離の代わりに、候補領域78の色情報に基づく色評価値を用いる点で、第2実施形態と異なっている。以下、第2実施形態との相違点を説明する。以下の説明において、第1及び第2実施形態と同様の構成及び作用については同一の符号を付し、その説明を省略する。
一例として図17に示すように、本露光画像Pには、前記第2実施形態と同様にフォーカス対象領域F、候補領域78、及び複数の分割領域Dが設定されている。トレーニングデータ生成部53は、各分割領域DのRGB積算値を算出する。RGB積算値とは、各分割領域DのRGB毎の電気信号を積算した値である。また、トレーニングデータ生成部53は、RGB積算値に基づいて、各分割領域Dの色を示すRGB値を算出する。
トレーニングデータ生成部53は、フォーカス対象領域Fに相当する分割領域D55の色を基準として、フォーカス対象領域Fと各分割領域Dとの色差(以下、単に「色差」と称する)を算出する。なお、フォーカス対象領域FのRGB値が(R,G,B)であり、分割領域DのRGB値が(R,G,B)である場合、フォーカス対象領域Fと分割領域Dとの色差は、次の式を用いて算出される。
色差={(R-R+(G-G+(B-B1/2
トレーニングデータ生成部53は、各分割領域Dについて、算出された色差が、予め定められた色差閾値未満であるか否かを判定する。トレーニングデータ生成部53は、色差が、色差閾値未満である分割領域Dは、フォーカス対象領域Fとの類似度が高い領域であると特定する。ここで、色差閾値は、例えば、実機による試験及び/又はコンピュータ・シミュレーション等によって、特定被写体画像Sを抽出するための閾値として予め導き出された値である。色差閾値は、固定値であってもよいし、与えられた指示及び/又は条件(例えば、撮像条件等)に応じて変更される可変値であってもよい。なお、RGB値は、本開示の技術に係る「色情報」の一例である。また、色差は、本開示の技術に係る「類似評価値」及び「色評価値」の一例である。また、色差閾値は、本開示の技術に係る「第1既定範囲」の一例である。
図17に示す例では、トレーニングデータ生成部53は、候補領域78に含まれる81個の分割領域Dのうち、フォーカス対象領域F(分割領域D55)を除く80個の分割領域Dについて、色差を算出する。トレーニングデータ生成部53は、算出した色差が、色差閾値未満であるか否かを判定する。図17において、ハッチングで示される分割領域Dが、色差が色差閾値未満であると判定された分割領域、すなわちフォーカス対象領域Fとの類似度が高いと特定された分割領域である。
トレーニングデータ生成部53は、特定された分割領域Dを過不足なく取り囲むように、分割領域D単位で、本露光画像Pから矩形の特定被写体画像Sを抽出する。
次に、本第3実施形態に係る撮像装置12の作用について図18を参照しながら説明する。図18には、第3実施形態に係るトレーニングデータ生成処理の流れの一例が示されている。
図18において、ステップST301~ステップST309は、図11のステップST101~ステップST109と同じであるので、説明を省略する。また、図18において、ステップST310は、図16のステップST210と同じであるので、説明を省略する。
ステップST311で、トレーニングデータ生成部53は、各分割領域Dの色差を算出する。この後、トレーニングデータ生成処理はステップST312に移行する。
ステップST312で、トレーニングデータ生成部53は、色差が色差閾値未満である分割領域Dを特定する。この後、トレーニングデータ生成処理は、ステップST313に移行する。
ステップST313で、トレーニングデータ生成部53は、特定された分割領域Dに基づいて、本露光画像Pから特定被写体画像Sを抽出する。また、トレーニングデータ生成部53は、抽出された特定被写体画像Sの位置座標を取得する。この後、トレーニングデータ生成処理は、ステップST314に移行する。
ステップST314で、トレーニングデータ生成部53は、特定被写体データとラベルLとを対応付けて学習機器14に出力する。特定被写体データは、本露光画像Pと特定被写体画像Sの位置座標とを含むデータである。学習機器14は、受け付けた特定被写体データ及びラベルLをトレーニングデータ17としてデータベース16に記憶する。これにより、トレーニングデータ生成処理が終了する。
以上説明したように、本第3実施形態において、フォーカス対象領域Fと各分割領域Dとの色差が、類似評価値として用いられる。従って、本構成によれば、トレーニングデータ生成部53は、フォーカス対象領域Fと各分割領域Dとの色差を用いない場合に比べ、本露光画像Pから特定被写体画像Sを容易に抽出することができる。
なお、本第3実施形態では、トレーニングデータ生成部53は、フォーカス対象領域Fと各分割領域Dとの色差を、類似評価値として用いたが、本開示の技術はこれに限らない。トレーニングデータ生成部53は、フォーカス対象領域Fと各分割領域Dとの色差に加えて、又は、色差の代わりに、フォーカス対象領域Fと各分割領域Dとの彩度の差を類似評価値として用いてもよい。
[第4実施形態]
本第4実施形態では、トレーニングデータ生成部53は、合焦位置間距離と色差の両方を用いて、本露光画像Pから特定被写体画像Sを抽出する。本第4実施形態に係る撮像装置12の構成は、上記第1実施形態と同じであるので、説明を省略する。また、本第4実施形態に係る合焦位置間距離及び色差の算出方法は、上記第2及び第3実施形態と同じであるので、説明を省略する。
本第4実施形態に係る撮像装置12の作用について図19を参照しながら説明する。図19には、第4実施形態に係るトレーニングデータ生成処理の流れの一例が示されている。
図19において、ステップST401~ステップST409は、図11のステップST101~ステップST109と同じであるので、説明を省略する。また、図19において、ステップST410は、図16のステップST210と同じであるので、説明を省略する。
ステップST411で、トレーニングデータ生成部53は、各分割領域Dの合焦位置間距離を算出する。この後、トレーニングデータ生成処理はステップST412に移行する。
ステップST412で、トレーニングデータ生成部53は、各分割領域Dの色差を算出する。この後、トレーニングデータ生成処理はステップST413に移行する。
ステップST413で、トレーニングデータ生成部53は、合焦位置間距離が距離閾値未満であり、かつ、色差が色差閾値未満である分割領域Dを特定する。この後、トレーニングデータ生成処理は、ステップST414に移行する。
ステップST414で、トレーニングデータ生成部53は、特定された分割領域Dに基づいて、本露光画像Pから特定被写体画像Sを抽出する。またトレーニングデータ生成部53は、抽出された特定被写体画像Sの位置座標を取得する。この後、トレーニングデータ生成処理は、ステップST415に移行する。
ステップST415で、トレーニングデータ生成部53は、特定被写体データとラベルLとを対応付けて学習機器14に出力する。学習機器14は、受け付けた特定被写体データ及びラベルLを、トレーニングデータ17として、データベース16に記憶する。これにより、トレーニングデータ生成処理が終了する。
以上説明したように、本第4実施形態において、合焦位置間距離と色差の両方が、類似評価値として用いられる。従って、本構成によれば、トレーニングデータ生成部53は、合焦位置間距離と色差の両方を用いない場合に比べ、本露光画像Pから特定被写体画像Sを精度良く抽出することができる。
[第5実施形態]
本第5実施形態は、例えば、特定被写体が動く物体である場合に有効である。本第5実施形態では、AF動作から本露光動作までの間に特定被写体が移動して、本露光画像Pから抽出される特定被写体画像Sの信頼度が低いと判断される場合、信頼度が低いことを示す警告情報が、特定被写体データに付与される。以下、図20~図22を参照して、本第5実施形態について説明する。なお、本第5実施形態に係る撮像装置12の構成は、上記第1実施形態と同じであるので、説明を省略する。
一例として図20に示すように、ユーザ11がAF動作を行った場合、トレーニングデータ生成部53は、例えば、60fpsのフレームレートで連続的に撮像されたライブビュー画像66のうちの1フレームを取得する。トレーニングデータ生成部53は、1フレームのライブビュー画像66において、上記第2実施形態で説明した合焦位置間距離、及び/又は上記第3実施形態で説明した色差に基づいて、特定被写体を示す画像(以下、「ライブビュー特定被写体画像LS」と称する)を抽出する。なお、ライブビュー特定被写体画像LSは、本開示の技術に係る「表示用特定被写体画像」の一例である。
トレーニングデータ生成部53は、抽出したライブビュー特定被写体画像LSの右下角Q1Lと左上角Q2Lの座標を、ライブビュー特定被写体画像LSの位置座標として求める。また、トレーニングデータ生成部53は、ライブビュー特定被写体画像LSの位置座標に基づいて、ライブビュー特定被写体画像LSのサイズと、ライブビュー特定被写体画像LSの中心点QCLの座標(XCL,YCL)(以下、「ライブビュー特定被写体画像LSの中心座標」と称する)とを求める。
その後、ユーザ11が本露光操作を行った場合、トレーニングデータ生成部53は、本露光画像Pを取得する。トレーニングデータ生成部53は、上記ライブビュー特定被写体画像LSを抽出したのと同様の方法で、本露光画像Pから特定被写体画像Sを抽出する。
トレーニングデータ生成部53は、抽出した特定被写体画像Sの右下角Q1Eと左上角Q2Eの座標を、特定被写体画像Sの位置座標として求める。また、トレーニングデータ生成部53は、特定被写体画像Sの位置座標に基づいて、特定被写体画像Sのサイズと、特定被写体画像Sの中心点QCEの座標(XCE,YCE)(以下、「特定被写体画像Sの中心座標」と称する)とを求める。
トレーニングデータ生成部53は、ライブビュー特定被写体画像LSのサイズと、特定被写体画像Sのサイズとを比較することにより、ライブビュー特定被写体画像LSと特定被写体画像Sとのサイズ相違度を算出する。一例として図20に示すように、トレーニングデータ生成部53は、算出したサイズ相違度が予め定められたサイズ既定範囲を超える場合、抽出された特定被写体画像Sの信頼度が低いことを警告する警告情報を、特定被写体データ及びラベルLと共に学習機器14に出力する。なお、サイズ相違度は、本開示の技術に係る「相違度」の一例である。また、サイズ既定範囲は、本開示の技術に係る「第2既定範囲」の一例である。また、警告情報を出力する処理は、本開示の技術に係る「異常検出処理」の一例である。
また、トレーニングデータ生成部53は、ライブビュー特定被写体画像LSの中心座標と、特定被写体画像Sの中心座標とを比較することにより、ライブビュー特定被写体画像LSと特定被写体画像Sとの中心位置の相違度を算出する。一例として図21に示すように、トレーニングデータ生成部53は、算出した中心位置の相違度が予め定められた位置既定範囲を超える場合、抽出された特定被写体画像Sの信頼度が低いことを警告する警告情報を、特定被写体データ及びラベルLと共に学習機器14に出力する。なお、中心位置の相違度は、本開示の技術に係る「相違度」の一例である。また、位置既定範囲は、本開示の技術に係る「第2既定範囲」の一例である。
本第5実施形態に係る撮像装置12の作用について図22A及び図22Bを参照しながら説明する。図22A及び図22Bには、第5実施形態に係るトレーニングデータ生成処理の流れの一例が示されている。
図22Aにおいて、ステップST501~ステップST507は、図11のステップST101~ステップST107と同じであるので、説明を省略する。
ステップST508で、トレーニングデータ生成部53は、ライブビュー画像66のうち1フレームを取得する。この後、トレーニングデータ生成処理はステップST509に移行する。
ステップST509で、トレーニングデータ生成部53は、取得した1フレームのライブビュー画像66において、候補領域78及び分割領域Dを設定する。この後、トレーニングデータ生成処理はステップST510に移行する。
ステップST510で、トレーニングデータ生成部53は、各分割領域Dの合焦位置間距離及び/又は色差を算出する。この後、トレーニングデータ生成処理はステップST511に移行する。
ステップST511で、トレーニングデータ生成部53は、“合焦位置間距離<距離閾値”及び/又は“色差<色差閾値”を満たす分割領域Dを特定する。この後、トレーニングデータ生成処理は、ステップST512に移行する。
ステップST512で、トレーニングデータ生成部53は、特定された分割領域Dに基づいて、1フレームのライブビュー画像66からライブビュー特定被写体画像LSを抽出する。この後、トレーニングデータ生成処理は、ステップST513に移行する。
ステップST513で、トレーニングデータ生成部53は、ライブビュー特定被写体画像LSの位置座標、サイズ、及び中心座標を算出する。この後、トレーニングデータ生成処理は、ステップST514に移行する。
ステップST514で、トレーニングデータ生成部53は、本露光が行われたか否かを判定する。ステップST514において、本露光が行われた場合、判定が肯定されて、トレーニングデータ生成処理はステップST515に移行する。ステップST514において、本露光が行われていない場合、判定が否定されて、トレーニングデータ生成処理はステップST506に移行する。
ステップST515で、トレーニングデータ生成部53は、本露光画像Pを取得する。この後、トレーニングデータ生成処理は、ステップST516に移行する。
ステップST516で、トレーニングデータ生成部53は、本露光画像Pにおいて、候補領域78及び分割領域Dを設定する。この後、トレーニングデータ生成処理はステップST517に移行する。
ステップST517で、トレーニングデータ生成部53は、各分割領域Dの合焦位置間距離及び/又は色差を算出する。この後、トレーニングデータ生成処理はステップST518に移行する。
ステップST518で、トレーニングデータ生成部53は、“合焦位置間距離<距離閾値”及び/又は“色差<色差閾値”を満たす分割領域Dを特定する。この後、トレーニングデータ生成処理は、ステップST519に移行する。
ステップST519で、トレーニングデータ生成部53は、特定された分割領域Dに基づいて、本露光画像Pから特定被写体画像Sを抽出する。この後、トレーニングデータ生成処理は、ステップST520に移行する。
ステップST520で、トレーニングデータ生成部53は、特定被写体画像Sの位置座標、サイズ、及び中心座標を算出する。この後、トレーニングデータ生成処理は、ステップST521に移行する。
ステップST521で、トレーニングデータ生成部53は、ライブビュー特定被写体画像LSのサイズと特定被写体画像Sのサイズとを比較することによって、ライブビュー特定被写体画像LSと特定被写体画像Sとのサイズ相違度を算出する。この後、トレーニングデータ生成処理はステップST522に移行する。
ステップST522で、トレーニングデータ生成部53は、算出したサイズ相違度がサイズ既定範囲内か否かを判定する。ステップST522において、サイズ相違度がサイズ既定範囲内の場合、判定が肯定されて、トレーニングデータ生成処理はステップST523に移行する。ステップST522において、サイズ相違度がサイズ既定範囲を超える場合、判定が否定されて、トレーニングデータ生成処理はステップST526に移行する。
ステップST523で、トレーニングデータ生成部53は、ライブビュー特定被写体画像LSの中心位置と特定被写体画像Sの中心位置とを比較することによって、ライブビュー特定被写体画像LSと特定被写体画像Sとの中心位置の相違度を算出する。この後、トレーニングデータ生成処理はステップST524に移行する。
ステップST524で、トレーニングデータ生成部53は、算出した中心位置の相違度が位置既定範囲内か否かを判定する。ステップST524において、中心位置の相違度が位置既定範囲内の場合、判定が肯定されて、トレーニングデータ生成処理はステップST525に移行する。ステップST524において、中心位置の相違度が位置既定範囲を超える場合、判定が否定されて、トレーニングデータ生成処理はステップST526に移行する。
ステップST525で、トレーニングデータ生成部53は、特定被写体データとラベルLとを対応付けて学習機器14に出力する。特定被写体データは、本露光画像Pと、特定被写体画像Sの位置座標とを含むデータである。一方、ステップST526で、トレーニングデータ生成部53は、特定被写体データ及びラベルLに加えて、警告情報を学習機器14に出力する。これにより、トレーニングデータ生成処理が終了する。
以上説明したように、本第5実施形態によれば、トレーニングデータ生成部53は、ライブビュー画像66から抽出されたライブビュー特定被写体画像LSと、本露光画像Pから抽出された特定被写体画像Sとの間のサイズ相違度がサイズ既定範囲を超える場合、又はライブビュー特定被写体画像LSと特定被写体画像Sとの間の中心位置の相違度が位置既定範囲を超える場合、警告情報を学習機器14に出力する。従って、信頼度が低いと判断された特定被写体画像Sに関する特定被写体データは、警告情報が付与されて学習機器14に出力されるので、警告情報が付与されない場合に比べ、トレーニングデータ17の品質が向上する。
なお、上記第5実施形態では、トレーニングデータ生成部53は、信頼度が低いと判断した特定被写体画像Sに関する特定被写体データに、警告情報を付与して学習機器14に出力するが、本開示の技術はこれに限定されない。トレーニングデータ生成部53は、信頼度が低いと判断した特定被写体画像Sに関する特定被写体データを、学習機器14に出力しなくてもよい。また、トレーニングデータ生成部53は、特定被写体データに、特定被写体画像Sに対する信頼度を示す信頼度数を付与して学習機器14に出力してもよい。この場合、学習機器14は、信頼度数を参照して、信頼度数が低い特定被写体データを受け付けなくてもよい。
[第6実施形態]
本第6実施形態では、トレーニングデータ生成部53は、イメージセンサ24に対して、複数の合焦位置で本露光動作を行わせることによって、フォーカス対象領域Fにピントが合っている本露光画像P(以下、「合焦画像」とも称する)に加えて、フォーカス対象領域Fにピントが合っていない本露光画像P(以下、「非合焦画像」とも称する)を取得させる。トレーニングデータ生成部53は、合焦画像に写っている特定被写体画像Sに関する特定被写体データを、トレーニングデータ17として出力するだけではなく、非合焦画像に写っている特定被写体画像Sに関する特定被写体データを、トレーニングデータ17として出力する。以下、図23~図25を参照して、本第6実施形態について説明する。なお、本第6実施形態に係る撮像装置12の構成は、上記第1実施形態と同じであるので、説明を省略する。
一例として図23に示すように、トレーニングデータ生成部53は、イメージセンサ24に対して、フォーカス対象領域Fまでの距離に基づいてAF演算を行うことにより導出された合焦位置を含む、複数の合焦位置で本露光動作を行わせる。例えば、特定被写体Aの左眼の位置をフォーカス対象領域Fとして撮像を行った場合(図12参照)、トレーニングデータ生成部53は、イメージセンサ24に対して、フォーカス対象領域Fまでの距離に基づいて導出された合焦位置を含む、5か所の合焦位置で本露光動作を行わせる。なお、5か所の合焦位置は、本開示の技術に係る「複数の合焦位置」の一例である。
これにより、イメージセンサ24は、特定被写体Aにピントが合っている本露光画像(合焦画像)P3の他に、特定被写体Aにピントが合っていない本露光画像(非合焦画像)P1、P2、P4、及びP5を出力する。非合焦画像P1及びP2は、特定被写体Aよりも撮像装置12に近い被写体に合焦している前ピン画像である。また、非合焦画像P4及びP5は、特定被写体Aよりも撮像装置12から遠い被写体に合焦している後ピン画像である。なお、合焦画像P3は、本開示の技術に係る「合焦画像」の一例である。非合焦画像P1、P2、P4、及びP5は、本開示の技術に係る「非合焦画像」の一例である。
トレーニングデータ生成部53は、上記第2実施形態で説明した合焦位置間距離、及び/又は上記第3実施形態で説明した色差に基づいて、合焦画像P3から特定被写体画像Sを抽出する。また、トレーニングデータ生成部53は、抽出した特定被写体画像Sの位置座標を求める。
一例として図24に示すように、トレーニングデータ生成部53は、合焦画像P3と、特定被写体画像Sの位置座標と、ラベルLとを対応付けて、トレーニングデータ17-3として学習機器14に出力する。
また、トレーニングデータ生成部53は、各非合焦画像P1、P2、P4、又はP5と、合焦画像P3から抽出された特定被写体画像Sの位置座標と、ラベルLとを対応付けて、トレーニングデータ17-1、17-2、17-4、又は17-5として学習機器14に出力する。すなわち、トレーニングデータ生成部53は、合焦画像P3から抽出された特定被写体画像Sの位置座標を、非合焦画像P1、P2、P4、又はP5における特定被写体画像Sの位置座標として出力する。学習機器14は、トレーニングデータ17-1~17-5を受け付けて、データベース16に記憶する。
本第6実施形態に係る撮像装置12の作用について図25を参照しながら説明する。図25には、本第6実施形態に係るトレーニングデータ生成処理の流れの一例が示されている。
図25において、ステップST601~ステップST607は、図11のステップST101~ステップST107と同じであるので、説明を省略する。
ステップST608で、トレーニングデータ生成部53は、本露光操作が行われたか否かを判定する。ステップST608において、本露光操作が行われた場合には、判定が肯定されて、フォーカス対象領域Fまでの距離に基づく合焦位置を含む複数の合焦位置で本露光動作が行われ、トレーニングデータ生成処理はステップST609に移行する。ステップST608において、本露光操作が行われていない場合には、判定が否定されて、トレーニングデータ生成処理はステップST606に移行する。
ステップST609で、トレーニングデータ生成部53は、複数の本露光画像P1~P5を取得する。複数の本露光画像P1~P5のうち、本露光画像P3は合焦画像であり、本露光画像P1、P2、P4、及びP5は非合焦画像である。この後、トレーニングデータ生成処理はステップST610に移行する。
ステップST610で、トレーニングデータ生成部53は、合焦画像P3において、候補領域78及び分割領域Dを設定する。この後、トレーニングデータ生成処理はステップST611に移行する。
ステップST611で、トレーニングデータ生成部53は、各分割領域Dの合焦位置間距離及び/又は色差を算出する。この後、トレーニングデータ生成処理はステップST612に移行する。
ステップST612で、トレーニングデータ生成部53は、合焦位置間距離が距離閾値未満、及び/又は、色差が色差閾値未満である分割領域Dを特定する。この後、トレーニングデータ生成処理は、ステップST613に移行する。
ステップST613で、トレーニングデータ生成部53は、特定された分割領域Dに基づいて、本露光画像(合焦画像)P3から特定被写体画像Sを抽出する。この後、トレーニングデータ生成処理は、ステップST614に移行する。
ステップST614で、トレーニングデータ生成部53は、特定被写体画像Sの位置座標を取得する。この後、トレーニングデータ生成処理は、ステップST615に移行する。
ステップST615で、特定被写体データとラベルLとを対応付けて学習機器14に出力する。特定被写体データは、本露光画像P1~P5の各々と、本露光画像P3から抽出された特定被写体画像Sの位置座標とを含むデータである。従って、本第6実施形態では、トレーニングデータ生成処理を一度実行することによって、5種類の特定被写体データが出力される。学習機器14は、特定被写体データとラベルLとを対応付けてデータベース16に記憶する。これにより、トレーニングデータ生成処理が終了する。
以上説明したように、本第6実施形態において、イメージセンサ24は、複数の合焦位置で本露光動作を行う。トレーニングデータ生成部53は、本露光動作が行われることによって得られる複数の本露光画像P1~P5の各々について、合焦画像P3から得られる特定被写体画像Sの位置座標を、非合焦画像P1、P2、P4、及びP5の各々における特定被写体画像Sの位置座標として出力する。従って、本構成によれば、特定被写体画像Sが手作業で抽出される場合に比べ、トレーニングデータ生成部53は、合焦画像P3に含まれる特定被写体画像Sに関する特定被写体データと、非合焦画像P1、P2、P4、及びP5の各々に含まれる特定被写体画像Sに関する特定被写体データとを簡便に取得することができる。
また、本構成によれば、トレーニングデータ生成部53は、一度のラベルLの選択により複数の本露光画像P1~P5に個別にラベルを付与することができる。これにより、複数の本露光画像P1~P5にラベルLを付与する手間を省くことができる。また、トレーニングデータ生成部53は、撮影後に本露光画像P1~P5にラベルLを付与しても良い。その場合も、一度のラベルLの選択により、連続的に撮像された複数の本露光画像P1~P5にラベルLが付与されることが望ましい。撮影後に個別にラベルLを付与しようとすると、非合焦画像のボケ方によっては何の画像か分からなくなる問題が生じることがある。しかし、一度のラベルLの選択により、連続的に撮像された複数の本露光画像P1~P5に同じラベルLが付与されることにより、そのような問題を解消することができる。この場合、トレーニングデータ生成部53は、合焦画像P3に対して選択されたラベルLを、非合焦画像P1、P2、P4、及びP5の各々に付与することが望ましい。
なお、上記第6実施形態では、一度の本露光動作において、トレーニングデータ生成部53は、5か所の合焦位置で撮像を行うことによって得られた5種類の特定被写体データを出力するが、本開示の技術はこれに限定されない。イメージセンサ24が撮像を行う合焦位置は、5か所よりも多くても少なくてもよい。トレーニングデータ生成部53は、合焦位置の数に応じた種類分の特定被写体データを出力する。
また、上記第6実施形態において、トレーニングデータ生成部53は、非合焦画像P1、P2、P4、及びP5を含む特定被写体データに、非合焦の度合いを示すAF評価値を付与してもよい。また、トレーニングデータ生成部53は、AF評価値に基づいて、「合焦」又は「非合焦」を示すラベルを特定被写体データに付与してもよい。これにより、AF評価値が付与されない場合に比べ、トレーニングデータ17の品質が向上する。
上記第1~第6実施形態において、特定被写体データは、本露光画像Pと、特定被写体画像Sの位置座標とを含むが、本開示の技術はこれに限定されない。一例として図26に示すように、特定被写体データは、本露光画像Pから切り出された特定被写体画像Sであってもよい。トレーニングデータ生成部53は、本露光画像Pから切り出した特定被写体画像Sを、ラベルLと対応付けて、機械学習に用いるトレーニングデータ17として出力する。この構成によれば、本露光画像Pが切り出されずに出力される場合に比べ、出力される特定被写体データのサイズが小さくなる。なお、「トレーニングデータ生成部53が、特定被写体データを機械学習に用いるデータとして出力する」とは、具体的には、トレーニングデータ生成部53が、本露光画像Pと特定被写体画像Sの位置座標とを記憶する記憶処理、又は本露光画像Pから特定被写体画像Sを切り出す切出処理等を含む。
また、上記第1~第6実施形態において、枠線68Aは矩形であるが、本開示の技術はこれに限定されず、枠線68Aの形状は任意に変更可能である。
また、上記第1~第6実施形態において、AF枠68で取り囲まれた領域をフォーカス対象領域Fとすることで、フォーカス対象領域Fが他画像領域と区別可能な態様で表示されるが、本開示の技術はこれに限定されない。トレーニングデータ生成部53は、例えば、ライブビュー画像66に矢印を表示し、矢印で指示された領域をフォーカス対象領域Fとしてもよい。また、トレーニングデータ生成部53は、例えば、指示体によるタッチパネル36への接触を感知することでフォーカス対象領域Fの指定を受け付け、指定されたフォーカス対象領域Fを他画像領域と区別可能な色で表示してもよい。
また、上記第1~第6実施形態において、学習機器14は、撮像装置12から出力されたトレーニングデータ17をデータベース16に記憶し、データベース16に記憶されているトレーニングデータ17を用いて機械学習を行うが、本開示の技術はこれに限定されない。例えば、撮像装置12のCPU50Aが、自身で取得したトレーニングデータ17をNVM50Bに記憶し、NVM50Bに記憶されているトレーニングデータ17を用いて機械学習を行ってもよい。この構成によれば、撮像装置12が、トレーニングデータ17の取得と学習とを実行することができるので、トレーニングデータ17の取得と学習とを別の装置で行う場合に比べ、装置の数が少なくて済む。
また、上記第1~第6実施形態において、撮像装置12がトレーニングデータ撮像モードに設定された場合、トレーニングデータ生成部53は、AF動作及び本露光動作よりも前に、ラベル選択画面64をタッチパネル・モニタ30に表示させて、ユーザ11にラベルLを選択させるが、本開示の技術はこれに限定されない。トレーニングデータ生成部53は、イメージセンサ24に本露光画像Pを取得させた後、ラベル選択画面64をタッチパネル・モニタ30に表示させて、ユーザ11からラベルLの選択を受け付けてもよい。
また、上記第1~第6実施形態において、トレーニングデータ生成部53は、特定被写体データとラベルLとを対応付けて、教師有り機械学習に用いるトレーニングデータ17として、学習機器14に出力するが、本開示の技術はこれに限定されない。トレーニングデータ生成部53は、特定被写体データのみを学習機器14に出力してもよい。この場合、ユーザ11は、学習機器14において、特定被写体データに対するラベル付けを行ってもよい。また、特定被写体データに対するラベル付けは、行われなくてもよい。この場合、特定被写体データは、教師無し機械学習のトレーニングデータとして用いられてもよいし、従来のパターン認識技術に用いられてもよい。
また、上記第1~第6実施形態において、非位相差画素群86Gと位相差画素群84Gとを併用する形態例を挙げて説明したが、本開示の技術はこれに限定されない。例えば、非位相差画素群86G及び位相差画素群84Gに代えて、位相差画像データと非位相差画像データとが選択的に生成されて読み出されるエリアセンサとしてもよい。この場合、エリアセンサには、複数の感光画素が2次元状に配列されている。エリアセンサに含まれる感光画素には、例えば、遮光部材を有しない独立した一対のフォトダイオードが用いられる。非位相差画像データが生成されて読み出される場合、感光画素の全領域(一対のフォトダイオード)によって光電変換が行われ、位相差画像データが生成されて読み出される場合(例えば、パッシブ方式の測距を行う場合)、一対のフォトダイオードのうちの一方のフォトダイオードによって光電変換が行われる。ここで、一対のフォトダイオードのうちの一方のフォトダイオードは、上記実施形態で説明した第1位相差画素84-Lに対応するフォトダイオードであり、一対のフォトダイオードのうちの一方のフォトダイオードは、上記実施形態で説明した第2位相差画素84-Rに対応するフォトダイオードである。なお、エリアセンサに含まれる全ての感光画素によって位相差画像データと非位相差画像データとが選択的に生成されて読み出されるようにしてもよいが、これに限らず、エリアセンサに含まれる一部の感光画素によって位相差画像データと非位相差画像データとが選択的に生成されて読み出されるようにしてもよい。
また、上記第1~第6実施形態において、位相差方式を例に挙げて、フォーカス対象領域Fまでの距離を導出する方法について説明したが、本開示の技術はこれに限定されず、TOF方式、又はコントラスト方式を用いてもよい。
また、上記第1~第6実施形態では、NVM50Bにトレーニングデータ生成プログラム51Aが記憶されている形態例を挙げて説明したが、本開示の技術はこれに限定されない。例えば、図27に示すように、トレーニングデータ生成プログラム51Aが記憶媒体100に記憶されていてもよい。記憶媒体100は、非一時的記憶媒体である。記憶媒体100の一例としては、SSD又はUSBメモリなどの任意の可搬型の記憶媒体が挙げられる。
記憶媒体100に記憶されているトレーニングデータ生成プログラム51Aは、コントローラ50にインストールされる。CPU50Aは、トレーニングデータ生成プログラム51Aに従ってトレーニングデータ生成処理を実行する。
また、通信網(図示省略)を介してコントローラ50に接続される他のコンピュータ又はサーバ装置等の記憶部にトレーニングデータ生成プログラム51Aを記憶させておき、上述の撮像装置12の要求に応じてトレーニングデータ生成プログラム51Aがダウンロードされ、コントローラ50にインストールされるようにしてもよい。
なお、コントローラ50に接続される他のコンピュータ又はサーバ装置等の記憶部、又は記憶媒体100にトレーニングデータ生成プログラム51Aの全てを記憶させておく必要はなく、トレーニングデータ生成プログラム51Aの一部を記憶させておいてもよい。
図4に示す例では、撮像装置12にコントローラ50が内蔵されている態様例が示されているが、本開示の技術はこれに限定されず、例えば、コントローラ50が撮像装置12の外部に設けられるようにしてもよい。
図4に示す例では、CPU50Aは、単数のCPUであるが、複数のCPUであってもよい。また、CPU50Aに代えてGPUを適用してもよい。
図4に示す例では、コントローラ50が例示されているが、本開示の技術はこれに限定されず、コントローラ50に代えて、ASIC、FPGA、及び/又はPLDを含むデバイスを適用してもよい。また、コントローラ50に代えて、ハードウェア構成及びソフトウェア構成の組み合わせを用いてもよい。
上記実施形態で説明したトレーニングデータ生成処理を実行するハードウェア資源としては、次に示す各種のプロセッサを用いることができる。プロセッサとしては、例えば、ソフトウェア、すなわち、プログラムを実行することで、トレーニングデータ生成処理を実行するハードウェア資源として機能する汎用的なプロセッサであるCPUが挙げられる。また、プロセッサとしては、例えば、FPGA、PLD、又はASICなどの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路が挙げられる。何れのプロセッサにもメモリが内蔵又は接続されており、何れのプロセッサもメモリを使用することでトレーニングデータ生成処理を実行する。
トレーニングデータ生成処理を実行するハードウェア資源は、これらの各種のプロセッサのうちの1つで構成されてもよいし、同種または異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGAの組み合わせ、又はCPUとFPGAとの組み合わせ)で構成されてもよい。また、トレーニングデータ生成処理を実行するハードウェア資源は1つのプロセッサであってもよい。
1つのプロセッサで構成する例としては、第1に、1つ以上のCPUとソフトウェアの組み合わせで1つのプロセッサを構成し、このプロセッサが、トレーニングデータ生成処理を実行するハードウェア資源として機能する形態がある。第2に、SoCなどに代表されるように、トレーニングデータ生成処理を実行する複数のハードウェア資源を含むシステム全体の機能を1つのICチップで実現するプロセッサを使用する形態がある。このように、トレーニングデータ生成処理は、ハードウェア資源として、上記各種のプロセッサの1つ以上を用いて実現される。
更に、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子などの回路素子を組み合わせた電気回路を用いることができる。また、上記のトレーニングデータ生成処理はあくまでも一例である。従って、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよいことは言うまでもない。
以上に示した記載内容及び図示内容は、本開示の技術に係る部分についての詳細な説明であり、本開示の技術の一例に過ぎない。例えば、上記の構成、機能、作用、及び効果に関する説明は、本開示の技術に係る部分の構成、機能、作用、及び効果の一例に関する説明である。よって、本開示の技術の主旨を逸脱しない範囲内において、以上に示した記載内容及び図示内容に対して、不要な部分を削除したり、新たな要素を追加したり、置き換えたりしてもよいことは言うまでもない。また、錯綜を回避し、本開示の技術に係る部分の理解を容易にするために、以上に示した記載内容及び図示内容では、本開示の技術の実施を可能にする上で特に説明を要しない技術常識等に関する説明は省略されている。
本明細書において、「A及び/又はB」は、「A及びBのうちの少なくとも1つ」と同義である。つまり、「A及び/又はB」は、Aだけであってもよいし、Bだけであってもよいし、A及びBの組み合わせであってもよい、という意味である。また、本明細書において、3つ以上の事柄を「及び/又は」で結び付けて表現する場合も、「A及び/又はB」と同様の考え方が適用される。
本明細書に記載された全ての文献、特許出願及び技術規格は、個々の文献、特許出願及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。

Claims (6)

  1. プロセッサと、
    前記プロセッサに接続又は内蔵されたメモリと、を備えた情報処理装置であって、
    前記プロセッサは、
    特定被写体をフォーカス対象領域としたフォーカス動作を伴う撮像がイメージセンサによって行われた場合に、前記撮像によって得られた撮像画像と前記フォーカス対象領域の座標とを、機械学習に用いるデータとして出力する
    情報処理装置。
  2. 前記プロセッサは、
    前記データを前記メモリに記憶し、
    前記メモリに記憶されている前記データを用いて前記機械学習を行う
    請求項1に記載の情報処理装置。
  3. 請求項1又は請求項に記載の情報処理装置から出力された前記データを受け付ける受付デバイスと、
    前記受付デバイスによって受け付けられた前記データを用いて前記機械学習を行う演算装置と、
    を備える学習機器。
  4. 請求項1又は請求項2に記載の情報処理装置と、
    前記イメージセンサと、
    を備える撮像装置。
  5. 特定被写体をフォーカス対象領域としたフォーカス動作を伴う撮像がイメージセンサによって行われた場合に、前記撮像によって得られた撮像画像と前記フォーカス対象領域の座標とを、機械学習に用いるデータとして出力することを含む
    情報処理装置の制御方法。
  6. コンピュータに、
    特定被写体をフォーカス対象領域としたフォーカス動作を伴う撮像がイメージセンサによって行われた場合に、前記撮像によって得られた撮像画像と前記フォーカス対象領域の座標とを、機械学習に用いるデータとして出力することを含む
    処理を実行させるためのプログラム。
JP2022533785A 2020-06-30 2021-06-08 情報処理装置、学習機器、撮像装置、情報処理装置の制御方法、及びプログラム Active JP7495498B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020113522 2020-06-30
JP2020113522 2020-06-30
PCT/JP2021/021754 WO2022004303A1 (ja) 2020-06-30 2021-06-08 情報処理装置、学習機器、撮像装置、情報処理装置の制御方法、及びプログラム

Publications (3)

Publication Number Publication Date
JPWO2022004303A1 JPWO2022004303A1 (ja) 2022-01-06
JPWO2022004303A5 JPWO2022004303A5 (ja) 2023-03-10
JP7495498B2 true JP7495498B2 (ja) 2024-06-04

Family

ID=79315226

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022533785A Active JP7495498B2 (ja) 2020-06-30 2021-06-08 情報処理装置、学習機器、撮像装置、情報処理装置の制御方法、及びプログラム

Country Status (4)

Country Link
US (1) US20230131704A1 (ja)
JP (1) JP7495498B2 (ja)
CN (1) CN115735211A (ja)
WO (1) WO2022004303A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011160044A (ja) 2010-01-29 2011-08-18 Sanyo Electric Co Ltd 撮像装置
JP2016099668A (ja) 2014-11-18 2016-05-30 キヤノン株式会社 学習方法、学習装置、画像認識方法、画像認識装置及びプログラム
JP2019118097A (ja) 2017-12-26 2019-07-18 キヤノン株式会社 画像処理方法、画像処理装置、撮像装置、プログラム、記憶媒体
JP2019215489A (ja) 2018-06-14 2019-12-19 オリンパス株式会社 撮像装置および焦点調節方法
JP2020091702A (ja) 2018-12-06 2020-06-11 オリンパス株式会社 撮像装置および撮像方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011160044A (ja) 2010-01-29 2011-08-18 Sanyo Electric Co Ltd 撮像装置
JP2016099668A (ja) 2014-11-18 2016-05-30 キヤノン株式会社 学習方法、学習装置、画像認識方法、画像認識装置及びプログラム
JP2019118097A (ja) 2017-12-26 2019-07-18 キヤノン株式会社 画像処理方法、画像処理装置、撮像装置、プログラム、記憶媒体
JP2019215489A (ja) 2018-06-14 2019-12-19 オリンパス株式会社 撮像装置および焦点調節方法
JP2020091702A (ja) 2018-12-06 2020-06-11 オリンパス株式会社 撮像装置および撮像方法

Also Published As

Publication number Publication date
CN115735211A (zh) 2023-03-03
WO2022004303A1 (ja) 2022-01-06
US20230131704A1 (en) 2023-04-27
JPWO2022004303A1 (ja) 2022-01-06

Similar Documents

Publication Publication Date Title
US9628696B2 (en) Image processing apparatus, image processing method, image pickup apparatus, method of controlling image pickup apparatus, and non-transitory computer-readable storage medium
US10904425B2 (en) Image processing apparatus, control method therefor, and storage medium for evaluating a focusing state of image data
US20130128081A1 (en) Methods and Apparatus for Reducing Plenoptic Camera Artifacts
JP6548367B2 (ja) 画像処理装置、撮像装置、画像処理方法及びプログラム
JP5938281B2 (ja) 撮像装置およびその制御方法ならびにプログラム
JP6147080B2 (ja) 顕微鏡システム、貼り合わせ領域の決定方法、及び、プログラム
KR20190068618A (ko) 단말기를 위한 촬영 방법 및 단말기
JP2011027902A (ja) 画像処理装置、撮像装置及び画像処理方法
JP2013123123A (ja) ステレオ画像生成装置、ステレオ画像生成方法及びステレオ画像生成用コンピュータプログラム
JP2010256530A (ja) 顕微鏡装置
JP5583242B2 (ja) 画像処理装置およびその制御方法、並びにプログラム
US10429632B2 (en) Microscopy system, microscopy method, and computer-readable recording medium
TWI508554B (zh) 基於光場相機的影像對焦處理方法及其系統
JP7495498B2 (ja) 情報処理装置、学習機器、撮像装置、情報処理装置の制御方法、及びプログラム
JP2010170025A (ja) 画像出力システム、画像出力方法及び画像出力プログラム
WO2022004302A1 (ja) 画像処理装置、撮像装置、画像処理方法、及びプログラム
JP2015198340A (ja) 画像処理装置およびその制御方法、並びにプログラム
JP7373297B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP6312410B2 (ja) アライメント装置、顕微鏡システム、アライメント方法、及びアライメントプログラム
JP2016099432A (ja) 焦点検出装置及び方法、プログラム、記憶媒体
JP5769534B2 (ja) 撮像装置、撮像方法、およびプログラム
JP7311617B2 (ja) 処理装置、電子機器、処理方法、及びプログラム
WO2022004305A1 (ja) 撮像支援装置、撮像装置、撮像支援方法、及びプログラム
WO2022145294A1 (ja) 画像処理装置、撮像装置、画像処理方法、及びプログラム
JP2021125741A (ja) 画像処理装置およびその制御方法、撮像装置、プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221226

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240409

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240423

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240523

R150 Certificate of patent or registration of utility model

Ref document number: 7495498

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150