JP2023004357A - 情報処理装置、情報処理方法、及びプログラム - Google Patents
情報処理装置、情報処理方法、及びプログラム Download PDFInfo
- Publication number
- JP2023004357A JP2023004357A JP2021105981A JP2021105981A JP2023004357A JP 2023004357 A JP2023004357 A JP 2023004357A JP 2021105981 A JP2021105981 A JP 2021105981A JP 2021105981 A JP2021105981 A JP 2021105981A JP 2023004357 A JP2023004357 A JP 2023004357A
- Authority
- JP
- Japan
- Prior art keywords
- image
- focus
- information processing
- captured image
- subject
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 60
- 238000003672 processing method Methods 0.000 title claims description 4
- 238000000034 method Methods 0.000 claims description 24
- 238000003384 imaging method Methods 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 description 37
- 238000010586 diagram Methods 0.000 description 22
- 238000012545 processing Methods 0.000 description 21
- 238000011156 evaluation Methods 0.000 description 19
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 238000004040 coloring Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/67—Focus control based on electronic image sensor signals
- H04N23/675—Focus control based on electronic image sensor signals comprising setting of focusing regions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09G—ARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
- G09G5/00—Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
- G09G5/02—Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the way in which colour is displayed
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09G—ARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
- G09G5/00—Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
- G09G5/36—Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of a graphic pattern, e.g. using an all-points-addressable [APA] memory
- G09G5/38—Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of a graphic pattern, e.g. using an all-points-addressable [APA] memory with means for controlling the display position
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/61—Control of cameras or camera modules based on recognised objects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/61—Control of cameras or camera modules based on recognised objects
- H04N23/611—Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/617—Upgrading or updating of programs or applications for camera control
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/63—Control of cameras or camera modules by using electronic viewfinders
- H04N23/631—Graphical user interfaces [GUI] specially adapted for controlling image capture or setting capture parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/63—Control of cameras or camera modules by using electronic viewfinders
- H04N23/633—Control of cameras or camera modules by using electronic viewfinders for displaying additional information relating to control or operation of the camera
- H04N23/635—Region indicators; Field of view indicators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09G—ARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
- G09G2340/00—Aspects of display data processing
- G09G2340/12—Overlay of images, i.e. displayed pixel being the result of switching between the corresponding input pixels
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Studio Devices (AREA)
- Focusing (AREA)
- Indication In Cameras, And Counting Of Exposures (AREA)
- Automatic Focus Adjustment (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、情報処理装置、情報処理方法、及びプログラムに関する。
画像から任意の物体を検出する物体検出処理が、デジタルカメラの機能に応用されている。デジタルカメラでは、撮像している景色から物体を検出し、検出した物体を被写体として合焦を行うことが可能である。
特許文献1では、被写体の各々に優先順位が設定され、検出された被写体に応じて変更された優先順位に基づいて焦点距離を含む撮影のパラメータを変更する技術が開示されている。また、特許文献2に係る発明においては、予め設定された優先順位に基づいて撮影条件を設定すべき注目被写体の選択を可能としつつ、撮影者の意図によってその選択を可能となっている。さらに特許文献3では、検出された被写体のサイズなどのパラメータを用いて、被写体毎に優先順位を決定するための優先度が算出されている。
Xingyi Zhou et al.,"Objects as Points",[online],令和1年4月25日, [令和3年6月2日検索],インターネット<URL:https://arxiv.org/abs/1904.07850>
Alexy Bochkovskiy et al.,"YOLOv4:Optimal Speed and Accuracy of Object Detection",[online],令和2年4月23日,EESS,[令和3年6月2日検索],インターネット<URL:https://arxiv.org/abs/2004.10934>
Chris Burges et al.,"Learning to Rank using Gradient Descent",[online],平成17年8月7日,ICML,[令和3年6月2日検索],インターネット<URL:https://icml.cc/2015/wp-content/uploads/2015/06/icml_ranking.pdf>
特許文献1~3のいずれにおいても、オートフォーカスによる合焦に用いる優先度の算出方法は人手で設計されている。すなわち、特許文献1及び2においては検出対象の物体に予め優先順位が設定されており、特許文献3(及び2)では検出対象の位置又はサイズなどの撮影条件を考慮して優先度を算出する式が設計されている。
しかしながら、ユーザの判断によって合焦の対象を選択する場合には、その選択は主観的なものとなり揺らぎやすい。特許文献1~3のようにルールに従って画像中のAFの優先度を定めるのみでは、このような主観的な判断を表現するには十分とは言えない。
本発明は、ユーザが主観的に合焦対象としたい位置を出力する学習モデルを用いて、画像中の合焦対象を設定することを目的とする。
本発明の目的を達成するために、例えば、一実施形態に係る情報処理装置は以下の構成を備える。すなわち、撮像画像を取得する取得手段と、前記撮像画像を入力として、前記撮像画像の被写体の位置における、前記撮像画像中の複数の前記被写体のうちの合焦優先度を出力する出力手段と、を備え、前記出力手段は、入力された画像中の各被写体の位置における合焦優先度を出力するように事前に学習されている学習モデルに前記撮像画像を入力することにより、前記合焦優先度を出力することを特徴とする。
ユーザが主観的に合焦対象としたい位置を出力する学習モデルを用いて、画像中の合焦対象を設定する。
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
[実施形態1]
本実施形態では、デジタルカメラによる撮像時に、撮像画像から合焦対象の候補(合焦候補)とする被写体を検出するとともに、撮像画像中の各位置における合焦優先度を示す情報を出力するカメラシステムが説明される。
本実施形態では、デジタルカメラによる撮像時に、撮像画像から合焦対象の候補(合焦候補)とする被写体を検出するとともに、撮像画像中の各位置における合焦優先度を示す情報を出力するカメラシステムが説明される。
図1は、本実施形態に係る情報処理装置100のハードウェア構成の一例を示すブロック図である。情報処理装置100は、CPU101、メモリ102、入力部103、記憶部104、表示部105、及び通信部106を備える。CPU101は、図2に示される情報処理装置100の各機能部による処理を行う。メモリ102は、例えばROM及びRAMであり、CPU101が利用するデータ又はプログラム等を格納する。入力部103は、タッチパネル、ボタン、レバー、又はマウス及びキーボードなどであり、ユーザの入力を取得する。記憶部104は、後述する学習装置機能部による処理の結果、又は撮像装置による撮像画像、などの各種データを格納する。表示部105は、(例えば、カメラに備え付けられた)液晶ディスプレイなどであり、撮像画像、又はCPU101による処理の結果などを表示しユーザに提示する。通信部106は外部の装置と通信し、例えば撮像装置による撮像画像を取得してもよく、外部の装置へのユーザの入力を取得してもよい。
図2(a)は、本実施形態に係る情報処理装置の検出処理のための機能構成の一例を示すブロック図である。情報処理装置100は、画像取得部110、推論部111、及び検出部112を備える。以下、情報処理装置100は外部の撮像装置200から撮像画像を取得し、取得した撮像画像に対して各機能部による処理を行うものとして説明を行う。しかしながら、情報処理装置100が不図示の撮像部を有し、撮像部が撮像する画像に対して後述する検出処理を行ってもよい。
画像取得部110は、撮像装置200から撮像画像を取得する。ここでは、撮像画像は1つの画像であるものとするが、時間的に連続した画像群(動画像)など複数の画像が取得され、そのうちの1つに対して後続する処理が行われてもよい。推論部111は、撮像画像中の被写体の位置情報を推定する。ここで、被写体の位置情報とは、撮像画像中の被写体の位置と、その被写体の大きさ(幅及び高さ)と、であるものとする。また、推論部111は、被写体の位置情報とともに、画像中の各位置における合焦適正度(合焦優先度)を推定する。
推論部111は、例えばニューラルネットワーク(NN)又はSVMなど既知の機械学習手法を用いたLearning to Rank(ランク学習)手法により、画像中の合焦適正度を推定する。このランク学習で用いられる学習モデルは、後述する学習部203により学習が行われ、各パラメータが記憶部104に格納される。
本実施形態に係る合焦適正度とは、撮像画像中の各位置における、ピントを合わせる位置としての優先度を示す情報である。合焦適正度は、例えば0以上100以下の範囲で各部分領域ごとに設定されてもよく、ピントを合わせる位置としての優先順位として1から順に設定されてもよく、優先度高/中/低などの程度による設定がされてもよく、その態様は特に限定されない。また、本実施形態においてはオートフォーカス(AF)機能によってピントの調整が行われるものとして説明が行われるが、合焦の方法はその限りではなく、手動で行われてもよい。
図4は、撮像画像を入力として推論部111によって出力される各データの一例を示す図である。図4において推論部111は、多層CNNを用いて、画像における各被写体の位置を示すマップ(センターマップ)、各被写体の大きさを示すマップ(サイズマップ)、及び各位置における合焦適正度を示すマップ(適正度マップ)の3つのマップを出力している。ここでは、例えば推論部111は、非特許文献1、又は非特許文献2などに示される公知の物体検出技術において用いられるネットワーク構造を採用することができる。すなわち、推論部111は、まず画像をbackboneと呼ばれるネットワークに入力して中間特徴量を出力する。次いで推論部111は、その中間特徴量を、被写体の位置を推定するタスク、大きさを推定するタスク、及び各位置の合焦適正度を推定するタスクのそれぞれにわかれたネットワークに入力することで、上述の3つのマップを得ることができる。
ここで、各マップは2次元の配列であり、グリッドで表現される。また、各マップは画像の畳み込み又は圧縮を繰り返すことによって、画像の特徴を示す値を配列に保持している。マップの出力過程により、各マップは、入力となる撮像画像の解像度を小さくしたサイズとなるものとする。
図5及び図6は、撮像画像を推論部111に入力した場合の推定処理を説明するための図である。図5は、撮像装置200によって撮像された画像500を示しており、この画像500が推論部111に入力される。推論部111は、画像500が入力されると、図6に示されるような適正度マップ600を出力する。適正度マップ600は、入力画像をグリッド状の部分領域へと分割し、各グリッドの合焦適正度の値を要素として有する配列として表現される。ここで、適正度マップ600は、配列の各要素が、黒い箇所が白い箇所よりも合焦適正度が高くなるよう、濃淡を使って表現されている。図6の例では、位置601の合焦適正度が10、位置602の合焦適正度が80、位置603の合焦適正度が50、及び位置604の合焦適正度が20となっており、位置602の色が一番濃い黒となっている。
図7は、推論部111によって推定されるセンターマップの一例を示す図である。ここでは、推論部111は、画像500を入力として、適正度マップ600と同様のグリッド分割による、各グリッドにおける被写体の中心位置としての尤度を要素として有する配列としてセンターマップを推論している。センターマップ700においては、椅子のある位置701、人物の顔のある位置702、車の中心の位置703、ライトの位置704、及びタイヤの位置705の尤度が高くなっており、尤度が高いほど黒色が濃くなる濃淡の表示が行われている。
図8は、推論部111によって推定されるサイズマップの一例を示す図である。図8の例では、推論部111は、画像500を入力として、適正度マップ600と同様のグリッド分割により表示される、被写体の幅を表すサイズマップ800と、被写体の高さを表すサイズマップ810と、を推定している。サイズマップ800は被写体の位置を中心としてその被写体の幅を長さとして有する横向きの線分をグリッド上に表示しており、サイズマップ810は被写体の位置を中心として被写体の高さを長さとして有する縦向きの線分をグリッド上に表示している。サイズマップ800においては、椅子の幅801、人物の顔の幅802、車の幅803、ライトの幅804、タイヤの幅805が表示されている。また、サイズマップ810においては、椅子の高さ811、人物の顔の高さ812、車の高さ813、ライトの高さ814、タイヤの高さ815が表示されている。
検出部112は、推論部111が推定した被写体の位置情報と合焦適正度とに基づいて、画像用の合焦候補として物体枠(バウンディングボックス)を生成し、合焦適正度とともに検出結果として出力する。検出部112は、推論部111が推論したセンターマップ及びサイズマップを参照して、被写体の位置及び大きさを算出することができる。この例では、検出部112は、合焦候補それぞれについて、被写体の位置及び大きさから物体枠を生成し、その被写体の合焦適正度とを対応付けてカメラの画面上に表示してもよい。例えば、検出部112は、検出された被写体をそれぞれ含む物体枠の内部に、その被写体位置の合焦適正度を示す数値を表示してもよく、合焦適正度に応じた色の物体枠で表示を行ってもよい。以下、物体枠の合焦適正度とは、その物体枠に含まれる被写体の位置に対応付けられた合焦適正度を指すものとする。
合焦適正度に応じた色の物体枠とは、物体枠の枠線又はその内部が、合焦適正度に応じた濃淡の色を有する物体枠であってもよい。また、検出部112は、物体枠の内側又は枠が、その物体枠の合焦適正度が閾値を超えているかに応じて異なる色で表示を行ってもよい。例えば、検出部112は、物体枠の内側又は枠の色を、合焦適正度が第1の閾値を超える場合には緑、第1の閾値以下かつ第2の閾値を超える場合には黄、第2の閾値以下である場合には赤で表示を行うことができる。
図9は、検出部112が生成する物体枠の出力結果を表示する画面の一例を示す図である。図9の例では、人物を含む物体枠901と、馬を含む物体枠902と、が画面上に表示されている。ここで、馬よりも人物の位置の方が推論部が推論した合焦適正度が高いことが、物体枠901をより濃い色で表示することによって示されている。なお、検出部112は、推論された合焦適正度が最も高い物体枠(ここでは901)のみを表示し、その他の物体枠は表示しない構成であってもよい。その場合、検出部112は、例えば合焦対象とする物体枠を選択するUIを表示し、ユーザが物体枠を選択する場合には全物体枠を可視化して表示するなどしてもよい。
図2(b)は、本実施形態に係る情報処理装置の学習処理のための機能構成の一例を示すブロック図である。情報処理装置100の有する機能部は図2(a)と同様である。情報処理装置100は、学習モデルを生成する学習装置201と情報の送受信を行い、合焦適正度を出力する処理に用いる学習モデルを取得する。以下、情報処理装置100と学習装置201は別体の装置であるものとして説明を行うが、学習装置201の行う各処理が情報処理装置100によって行われてもよい。
学習装置201は、画像中の被写体の位置を示す位置情報と、その位置情報に加えて各位置に対応する合焦適正度を示す情報と、を有する教師データを複数含む教師データ群を取得する。次いで学習装置201は、取得した教師データ群を正解として、入力された画像に対して、画像中の検出される被写体の位置に合焦適正度を設定する学習モデルの学習を行う。そのために、学習装置201は、画像データベース部(DB部)210、評価部211、生成部212、及び学習部213を備える。DB部210は、学習モデルの学習における教師データとするための画像を複数格納する。
生成部212は、DB部210が格納する画像から教師データを複数生成して教師データ群とする。ここで、教師データとは、上述したように画像中の被写体の位置と、画像中の各位置における合焦適正度を示す情報(教師適正度)と、を有するデータである。そのために、学習装置201は、DB210に格納されている画像を情報処理装置100へと送信し、推論部111及び検出部112の処理によって画像中の被写体の位置を検出して取得する。なお、生成部212が教師データに含める被写体の位置は、情報処理装置100ではなく学習装置201自体によって検出されてもよい。
評価部211は、教師データに含めるための教師適正度を設定する。この教師適正度は、例えば画像中のパラメータに基づいて算出されてもよく、ユーザの入力に従って設定されてもよく、その取得手段は限定されない。
以下、教師適正度の設定方法の例について説明を行う。まず、教師適正度が画像中のパラメータに基づいて算出される場合について説明する。撮像写真において、人間が撮像した場合には、一般的には合焦した位置における鮮鋭度が高くなる。その観点から、評価部211は、教師画像中のパラメータとして鮮鋭度を用いて、教師適正度を算出してもよい。なお、ここで用いられる画像パラメータは、このようにピントを合わせる位置に見られる傾向を有する画像パラメータであれば、特に鮮鋭度に限定されるわけではない。ここでは、評価部211は、検出部112が生成した物体枠それぞれに対して教師適正度を算出して設定する。評価部211は、例えば物体枠1つに対して、物体枠内の画像を小領域に分割して、小領域内の画素値の分散をそれぞれ算出し、次いでその分散値全ての平均を、その物体枠の鮮鋭度とすることができる。なお、教師適正度は、推論部111が出力する各マップと同じサイズのマップ上に設定されるものとする。
また、被写界深度の浅い写真では、画像の焦点が合っている箇所と合っていない箇所の鮮鋭度の差が大きくなりやすい。そのような観点から、教師画像としては、所定の閾値となる被写界深度よりも浅い被写界深度で撮像された教師画像を用いてもよい。ここで用いる被写界深度の閾値は、ユーザが所望に設定することが可能である。
図11は、生成部212によって出力される、教師適正度が設定されたマップである教師データを、教師画像に(対応するサイズまで拡大して)重畳して表示する一例を示す図である。ここでは、生成部212は、推論部111が出力する各マップと同じサイズのマップ上の、教師画像に対応する位置に、評価部211が鮮鋭度に基づいて算出した教師適正度を設定している。ここで生成部212は、教師画像とマップとのスケール比を求めることにより、教師画像上の被写体の座標を教師適正度のマップ上の座標に変換することができる。領域1101は教師画像中の人物の瞳に対応する領域であり、鮮鋭度から算出される教師適正度が40に設定されている。領域1102は教師画像中の人物に対応する領域であり、鮮鋭度から算出される教師適正度が80に設定されている。領域1103は教師画像中の馬に対応する領域であり、鮮鋭度から算出される教師適正度が70に設定されている。図11の例では、領域1102が最も高い教師適正度を有するため、この領域が最も合焦位置として適していることを表している。
次いで、上述したように、教師適正度がユーザの入力に従って設定されている画像のデータが教師データに含まれていてもよい。その場合、評価部211は、教師データの画像(教師画像)に対する、ユーザによる合焦適正度の入力を取得する。ここでユーザは、例えば教師画像中の検出対象が写っている位置を指定し、その位置に合焦適正度を設定することができる。ここで設定される合焦適正度は、例えば(複数の教師画像に跨る)複数の種類の検出対象のうちの合焦の優先順位であってもよく、被写体に対して設定される評価値であってもよい。本実施形態に係る評価値は、例えば0以上100以下の範囲で設定された値(高いほど合焦を行う優先度が高い)であってもよく、優先度高/中/低などの評価であってもよい。ここで設定される合焦適正度及び評価値はユーザが入力した値であるが、画像中のパラメータを参照して設定又は補正が行われてもよい。
評価部211は、上述のユーザの入力に従って教師適正度を設定することができる。ここでは、評価部211は、画像中のユーザの指定がなかった位置については合焦を優先的に行わないものとして(合焦適正度が0、又は優先度が低など)設定することができる。また、評価部211は、ユーザが指定した位置を中心として、その位置からの距離に応じて教師適正度が変化するように設定を行ってもよい。すなわち評価部211は、ユーザが指定した位置の教師適正度はユーザが入力した合焦適正度の値とし、その位置から離れるほど教師適正度の値が低くなるように設定を行ってもよい。この場合、評価部211は、教師画像中のある位置の教師適正度を、ユーザが指定した位置からの距離に応じて減算してもよく、ユーザから指定した位置からの距離と閾値との大小関係に応じて優先度高/中/低に分類してもよい。また評価部211は、教師画像から検出対象の検出を行い、ユーザが指定した位置を含む検出対象の領域全体の教師適正度を、ユーザが入力した合焦適正度の値として設定してもよい。
このように教師適正度の設定を行うことにより、ユーザの主観に基づく合焦適正度を反映した教師データを生成し、学習を行うことが可能となる。
学習部213は、生成部212が生成した教師データを正解として、画像を入力として、その画像中の各位置における合焦適正度を出力する学習モデルの学習を行う。本実施形態においては、学習部213は、上述の学習モデルとして、推論部111が適正度マップを出力するためのパラメータを更新するものとして説明を行う。学習部213による学習モデルの学習方法は、画像を入力として上述のような合焦適正度を出力できるのであれば特に限定はされず、任意の公知手法により行うことが可能である。
学習部213は、例えば非特許文献3に記載のあるようなRankNetを用いたランク学習により、学習モデルに入力画像中の各位置間の順位付けを学習させてもよい。この場合、学習部213は、教師データのマップの要素数をNとして、i(1≦i≦N)番目の要素の値yiとj(1≦j≦N)番目の要素の値yjとの順序関係を学習させる。ここでは、yi及びyjに対応する、ある教師データから推論部111が推定する適正度マップの要素の値をxi及びxjとすると、誤差Cijは以下の式(1)によって算出される。
学習部213は、このCijを全ての組(i,j)について算出し、合計値をその教師データに対する最終的な誤差として算出する。次いで学習部213は、誤差逆伝播法によって推論部111のNNのパラメータを更新し、更新したパラメータを記憶部104に格納することができる。ここで更新した学習モデルを推論部111が用いることにより、画像を入力として合焦適正度を推定することが可能となる。なお、学習部213は、上述のランク学習ではなく、例えば教師データに含まれる教師適正度と同じ値の合焦適正度を出力するように学習を行ってもよい。
図3(a)は、本実施形態に係る情報処理装置100が行う合焦候補の検出処理の一例を示すフローチャートである。S301で画像取得部110は、撮像装置200から画像を取得する。S302で推論部111は、取得した画像からセンターマップ、サイズマップ、及び適正度マップを出力する。S303で検出部112は、S302で出力した各マップに基づいて、合焦候補として物体枠を生成し、合焦適正度とともに撮像装置200に出力する。
図10は、検出部112が行う物体枠の検出処理の一例を示すフローチャートである。S1001で検出部112は、推論部111が出力した各マップを取得する。S1002で検出部112は、センターマップとサイズマップとを用いて、画像中に物体枠を生成する。ここでは、検出部112は物体枠として、センターマップで推定される各被写体の位置を中心として、サイズマップに示される、中心位置が対応する被写体の幅及び高さを有する矩形領域を生成する。S1003で検出部112は、生成した物体枠を、適正度マップ上の物体枠の位置に対応する合焦適正度とともに撮像装置200に出力する。
ここで、撮像装置200は、基本的には最も合焦適正度の高い物体枠を合焦対象として設定する。しかしながら、実際に用いる合焦対象の設定はそのように限定されるわけではない。合焦対象とする物体枠は、例えば表示された各物体枠の中からユーザによって選択されてもよく、最も合焦適正度の高い物体枠が初期の合焦対象として設定され、ユーザの入力に基づいて変更される形式であってもよい。合焦対象を指定するユーザ入力が行われる場合については、実施形態2において詳細な説明を行う。
図3(b)は、本実施形態に係る学習装置201が行う学習モデルの学習処理の一例を示すフローチャートである。S311で評価部211と画像取得部110は、DB部210から教師画像を取得する。S312で推論部111は、教師画像からセンターマップ、サイズマップ、及び適正度マップを出力する。このセンターマップ及びサイズマップは検出部112に出力され、適正度マップは学習部213に出力される。
S313で検出部112は、S302と同様の処理によって物体枠を生成する。S314で評価部211は、教師画像から教師適正度を設定する。ここでは、評価部211は、S313で生成された物体枠と教師画像中の鮮鋭度とに基づいて教師適正度を設定する。S315で生成部212は、教師画像と、物体枠の座標値と、S313で設定した教師適正度と、を含む、教師データとなるマップを生成する。S316で学習部213は、S315で生成した教師データと、S312で出力した適正度マップと、に基づいて、推論部111の学習モデルのパラメータの更新を行い、学習モデルを学習させる。
このような構成によれば、入力された画像の各被写体の位置における合焦優先度を出力するように事前に学習されている学習モデルを用いて、撮像画像の被写体の位置における、複数の被写体のうちの合焦優先度を出力することが可能となる。したがって、人間の主観に基づく合焦位置を出力する学習モデルにより、撮像画像中の合焦対象を決定することができる。
[実施形態2]
実施形態1においては、学習モデルによって画像内の位置ごとに合焦適正度が推論され、最も合焦位置として適している(合焦適正度が高い)位置が示された。しかしながら、ここで推論される合焦適正度が最も高い位置の被写体が、必ずしもユーザの望む合焦対象になるとは限らない。そのような観点から、本実施形態に係る情報処理装置100は、まず実施形態1と同様に学習された学習モデルに撮像画像を入力して合焦適正度の設定を行う。次いで、情報処理装置100は、設定した合焦適正度をユーザに提示し、合焦位置(合焦対象)を指定するユーザ入力を取得する。以下、合焦対象とは、合焦位置に存在する被写体、又はその被写体を含む撮像画像上の物体枠を指すものとする。
実施形態1においては、学習モデルによって画像内の位置ごとに合焦適正度が推論され、最も合焦位置として適している(合焦適正度が高い)位置が示された。しかしながら、ここで推論される合焦適正度が最も高い位置の被写体が、必ずしもユーザの望む合焦対象になるとは限らない。そのような観点から、本実施形態に係る情報処理装置100は、まず実施形態1と同様に学習された学習モデルに撮像画像を入力して合焦適正度の設定を行う。次いで、情報処理装置100は、設定した合焦適正度をユーザに提示し、合焦位置(合焦対象)を指定するユーザ入力を取得する。以下、合焦対象とは、合焦位置に存在する被写体、又はその被写体を含む撮像画像上の物体枠を指すものとする。
図12は、本実施形態に係る情報処理装置100は、実施形態1と同様の構成を有し同様の処理を行うため、重複する説明は省略する。また、以下に説明する撮像装置200の各機能部は、実施形態1と同様に、情報処理装置100の外部の装置に含まれていてもよく、情報処理装置100と同一の装置内に実装されていてもよい。本実施形態に係る撮像装置200は、撮像部1201、切出し部1202、画像生成部1203、表示部1204、順位付与部1205、選択記憶部1206、操作部1207、及び切替部1208を備える。
撮像部1201は、撮像装置200の外部の景色を撮像画像(画像データ)として取得する。切出し部1202は、撮像部1201が取得した撮像画像の一部分を、部分画像として切り出す。切出し部1202は、詳細な説明は図15を参照して後述するが、合焦位置を指定するユーザ入力を取得した場合に、指定された合焦位置に基づいて撮像画像の一部分を切り出して部分画像を生成することができる。以下、情報処理装置100によって、撮像部1201が取得した撮像画像、又は切出し部1202が切り出した部分画像(これらを区別せず「入力画像」と呼ぶ)を入力として、学習モデルによって合焦適正度の設定が行われる。
順位付与部1205は、情報処理装置100により設定された合焦適正度が高い順に、入力画像中の物体枠の順位付けを行う。また、順位付与部1205は、選択記憶部1206に格納している、合焦対象とする物体枠の情報を更新する。ここで順位付与部1205は、入力画像に設定された物体枠のいずれかが、選択記憶部1206に格納されている物体枠と同一であるか否かを判定してもよい。これらの物体枠が同一である場合には、選択記憶部1206に格納されているその物体枠の位置(座標値)を、入力画像に設定された値に更新する。入力画像に設定された物体枠のいずれも選択記憶部1206に格納されている物体枠と同一でない場合には、選択記憶部1206に格納された合焦対象の情報の情報を削除し、新たに設定を行う。この同一であるか否かの判定は、例えばIntersection over Union(IoU)の計算など、同一対象か否かを判定する公知の技術によって行うことが可能である。この場合では、順位付与部1205は、2つの物体枠のIoUが予め設定された閾値以上であるか否かに応じて、それらの物体枠が同一対象であるかを判定することができる。なお、順位付与部1205は、選択記憶部1206に格納されている、合焦対象として設定されている物体枠が入力画像中に存在する場合であっても、それとは関係なく入力画像中の合焦適正度が最も高い物体枠を合焦対象として設定してもよい。
画像生成部1203は、順位付与部1205によって設定された順位とともに、物体枠を入力画像中に重畳表示した画像を生成する。ここでの物体枠の表示の形式は、物体枠の順位がユーザに提示できるのであれば特に限定されない。例えば画像生成部1203は、物体枠ごとに合焦適正度に基づいて異なる表示を行ってもよく、最も順位が高い物体枠とその他の物体枠とで異なる表示を行ってもよい。ここでは、画像生成部1203は、順位に応じた濃淡表示により各物体枠を表示してもよく、順位に対応する色付けによって各物体枠を表示してもよく、各物体枠とともに順位を数字で表示してもよい。また例えば画像生成部1203は、順位が一番高い物体枠を実線で(強調して)表示し、他の物体枠を点線又は破線などで表示してもよく、順位が一番高い物体枠のみを表示してもよい。
表示部1204は、画像生成部1203が生成した画像を表示し、ユーザに提示する。図14は、表示部1204が、カメラである撮像装置200の画面上に表示する画像の一例を示す図である。ここでは、画像上に被写体として車が5つ検出されており、それぞれ対応する物体枠とともに合焦適正度の順位が表示されている。ここで、順位が1位である物体枠1402は実線で表示されており、順位が2位である物体枠1401及びその他の物体枠は破線で表示されている。ここでは、詳細は後述するが、物体枠1402がユーザによって(タッチ操作などで)指定された場合には、図15に示されるような、物体枠1402近傍の領域が拡大表示される。また、物体枠1401がユーザによって指定された場合には、合焦対象を物体枠1401に設定する。
ここで、表示部1204は、操作部1207を介して、合焦位置を指定するユーザ入力を取得することができる。合焦位置の指定は、例えばタッチパネル上の対応する領域へのタッチ操作によって入力されてもよく、レバー又はボタンなどの機械式スイッチへの操作によって入力されてもよく、合焦位置を選択するユーザ入力であれば特に限定はされない。操作部1207は、そのようなユーザ入力を取得するために機能する。例えば、表示部1204がデジタルカメラに搭載されているタッチパネルに表示される各物体枠(合焦対象の候補)に対して、タッチパネルの操作を介してユーザによる合焦位置の指定を受け付けることが可能である。
切替部1208は、合焦位置の設定を切り替える。切替部1208は、例えば順位付与部1205によって付与された順位が1位の物体枠が、選択記憶部1206で記憶されている(合焦位置の物体枠とされている)物体枠と異なる場合に、その1位の物体枠を合焦位置に切り替えてもよい。また切替部1208は、合焦位置を指定するユーザ入力を取得している場合に、そのユーザ入力によって指定されている物体枠を合焦位置として設定し、その設定を選択記憶部1206に記憶してもよい。
図15は、図14の物体枠1402がユーザによって選択された場合に、切出し部1202によって切り出される部分画像を表示する画面の一例を示す図である。切出し部1202は、図14の画面からユーザによって選択された物体枠1402近傍の領域を切り出し、拡大して画面に表示する。ここでは、拡大後の被写体の細かいパーツ又は人物などに対して新たに合焦適正度とともに物体枠が設定されており、人物の頭部に順位として一位が付与されている。そのため、切替部1208により合焦位置が人物の頭部に設定される。このような処理によれば、注目する被写体の近傍の領域に対して、さらに細かなパーツ又は人物などを合焦対象として設定することが可能となる。
図13は、本実施形態に係る合焦対象の設定処理の一例を示すフローチャートである。S1301で撮像部1201は、撮像画像を取得して切出し部1202に出力する。S1302で切出し部1202は、入力画像に対して、実施形態1と同様の処理によって物体枠を設定する。
S1303で順位付与部1205は、選択記憶部1206に格納している、合焦対象とする物体枠の情報を更新する。S1304で順位付与部1205は、画像中の物体枠に、合焦適正度が高い順に順位付けを行う。S1305で順位付与部1205は、合焦対象に設定していた物体枠が存在しているか否かを判定する。存在している場合には合焦対象は変更されずに処理がS1307へと進み、そうでない場合には処理がS1306へと進む。
S1306で切替部1208は、順位付与部1205が設定した、最も順位の高い物体枠を合焦対象として設定し、処理をS1307へと進める。S1307で画像生成部1203は、順位付与部1205によって設定された順位とともに、物体枠を入力画像中に重畳表示した画像を生成する。S1308で表示部1204は、S1307で生成した画像を表示する。
S1309で表示部1204は、操作部1207を介した、合焦位置を指定するユーザ入力を取得する。ここでユーザ入力を取得しない場合には、表示部1204は順位が一位の物体枠を合焦対象として設定して処理を終了する。ユーザ入力を取得した場合には処理がS1310へと進む。
S1310で表示部1204は、ユーザ入力によって指定された物体枠が、選択記憶部1206に格納されている合焦対象の物体枠であるか否かを判定する。合焦対象の物体枠である場合には処理がS1312へと進み、そうでない場合には処理がS1311へと進む。S1311で切替部1208は、指定されている物体枠を合焦対象に設定し、処理をS1307へと戻す。
S1312で切出し部1202は、合焦対象の物体枠の近傍の領域を部分画像として切り出し、切り出した画像を入力画像としてS1302に処理を戻す。ここで、物体枠の近傍の領域とは、物体枠から高さ方向と幅方向にそれぞれ所定の幅を追加した領域であってもよく、物体枠そのものであってもよい。
このような処理によれば、撮像画像中の合焦位置を指定するユーザの入力を取得し、ユーザの入力による指定に従って合焦位置の変更を行うことが可能となる。したがって、学習モデルによって推論された合焦適正度が最も高い位置の被写体がユーザの所望の被写体とならない場合であっても、所望の被写体に合焦位置を合わせることが可能となる。
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。
100:情報処理装置、110:画像取得部、111:推論部、112:検出部、104:記憶部
Claims (20)
- 撮像画像を取得する取得手段と、
前記撮像画像を入力として、前記撮像画像の被写体の位置における、前記撮像画像中の複数の前記被写体のうちの合焦優先度を出力する出力手段と、を備え、
前記出力手段は、入力された画像中の各被写体の位置における合焦優先度を出力するように事前に学習されている学習モデルに前記撮像画像を入力することにより、前記合焦優先度を出力することを特徴とする、情報処理装置。 - 前記撮像画像を撮像する撮像装置の、前記撮像画像における合焦位置を決定する決定手段をさらに備えることを特徴とする、請求項1に記載の情報処理装置。
- 前記決定手段は、前記出力手段が出力する前記合焦優先度に基づいて、前記撮像画像における合焦位置を決定することを特徴とする、請求項2に記載の情報処理装置。
- 前記撮像画像中の合焦位置のユーザによる指定を取得する第2の取得手段と、
前記ユーザによる指定に従って、前記撮像画像における前記合焦位置の変更を行う変更手段と、
をさらに備えることを特徴とする、請求項1乃至3の何れか一項に記載の情報処理装置。 - 前記出力手段が出力する前記合焦優先度をユーザに提示する提示手段をさらに備えることを特徴とする、請求項4に記載の情報処理装置。
- 前記提示手段は、前記撮像画像上の被写体を含む物体枠それぞれについて、前記学習モデルが出力する前記合焦優先度に応じた表示を行うことにより、前記学習モデルが出力する前記合焦優先度を前記ユーザに提示することを特徴とする、請求項5に記載の情報処理装置。
- 前記提示手段は、前記撮像画像上の、前記学習モデルが出力する前記合焦優先度が最も高い位置の被写体を含む第1の物体枠を第1の表示により表示し、前記第1の物体枠とは異なる第2の物体枠を第2の表示により表示することを特徴とする、請求項5又は6に記載の情報処理装置。
- 前記提示手段は、前記第2の取得手段が取得した前記ユーザによる指定によって前記第2の物体枠が指定されている場合に、前記第2の物体枠の表示を第1の表示に変更し、前記第1の物体枠の表示を第2の表示に変更することを特徴とする、請求項7に記載の情報処理装置。
- 前記第1の表示と前記第2の表示とが、物体枠の枠線の色、前記枠線の内部の色、前記枠線の形式、又は前記枠線の濃淡について異なる表示であることを特徴とする、請求項7又は8に記載の情報処理装置。
- 前記出力手段は、前記撮像画像中の前記被写体を含む物体枠の近傍の領域から切り出される部分画像を前記学習モデルの入力として、前記部分画像の被写体の位置における、前記部分画像の中の複数の前記被写体のうちの合焦優先度をさらに出力することを特徴とする、請求項1乃至9の何れか一項に記載の情報処理装置。
- 教師画像中の位置ごとの合焦優先度を示す情報を有する教師データを複数含む教師データ群を取得する第1の取得手段と、
前記教師データ群を正解として、撮像画像を入力とした場合に、前記撮像画像の被写体の位置に対応付けて、前記撮像画像中の複数の前記被写体のうちの合焦優先度を出力する学習モデルの学習を行う学習手段と、
を備えることを特徴とする、情報処理装置。 - 前記第1の取得手段は、前記教師画像の画像パラメータに基づいて、前記合焦優先度を示す情報を算出することを特徴とする、請求項11に記載の情報処理装置。
- 前記第1の取得手段は、第1の被写界深度で撮像された教師画像の画像パラメータに基づいて、前記合焦優先度を示す情報を算出し、
前記第1の被写界深度は、閾値となる第2の被写界深度より浅いことを特徴とする、請求項12に記載の情報処理装置。 - 前記画像パラメータは鮮鋭度であることを特徴とする、請求項12又は13に記載の情報処理装置。
- 前記学習モデルの出力は、前記教師画像中の被写体の位置を含む物体枠内の各位置に対応付けて、前記物体枠の合焦優先度を示すことを特徴とする、請求項11乃至14の何れか一項に記載の情報処理装置。
- 前記合焦優先度は、前記物体枠の間の他の物体枠に対する前記合焦優先度を示すことを特徴とする、請求項15に記載の情報処理装置。
- 前記学習モデルがニューラルネットワークであることを特徴とする、請求項1乃至16の何れか一項に記載の情報処理装置。
- 撮像画像を取得する工程と、
前記撮像画像を入力として、前記撮像画像の被写体の位置における、前記撮像画像中の複数の前記被写体のうちの合焦優先度を出力する工程と、を備え、
前記合焦優先度は、教師画像中の各被写体の位置における合焦優先度を出力するように事前に学習されている学習モデルに前記撮像画像を入力することにより、出力されることを特徴とする、情報処理方法。 - 教師画像中の位置ごとの合焦優先度を示す情報を有する教師データを複数含む教師データ群を取得する工程と、
前記教師データ群を正解として、撮像画像を入力とした場合に、前記撮像画像の被写体の位置に、前記撮像画像中の複数の前記被写体のうちの合焦優先度を設定する学習モデルの学習を行う学習手段と、
を備えることを特徴とする、情報処理方法。 - コンピュータを、請求項1乃至17の何れか一項に記載の情報処理装置の各手段として機能させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021105981A JP2023004357A (ja) | 2021-06-25 | 2021-06-25 | 情報処理装置、情報処理方法、及びプログラム |
US17/845,014 US20230370721A1 (en) | 2021-06-25 | 2022-06-21 | Information processing apparatus, information processing method, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021105981A JP2023004357A (ja) | 2021-06-25 | 2021-06-25 | 情報処理装置、情報処理方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023004357A true JP2023004357A (ja) | 2023-01-17 |
Family
ID=85100744
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021105981A Pending JP2023004357A (ja) | 2021-06-25 | 2021-06-25 | 情報処理装置、情報処理方法、及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230370721A1 (ja) |
JP (1) | JP2023004357A (ja) |
-
2021
- 2021-06-25 JP JP2021105981A patent/JP2023004357A/ja active Pending
-
2022
- 2022-06-21 US US17/845,014 patent/US20230370721A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230370721A1 (en) | 2023-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10997696B2 (en) | Image processing method, apparatus and device | |
US9361680B2 (en) | Image processing apparatus, image processing method, and imaging apparatus | |
KR101605983B1 (ko) | 얼굴 검출을 이용한 이미지 재구성 | |
US9626584B2 (en) | Image cropping suggestion using multiple saliency maps | |
US9805445B2 (en) | Image zooming | |
EP3306527B1 (en) | A method of cropping an image, an apparatus for cropping an image, a program and a storage medium | |
US20090231628A1 (en) | Image Processing Apparatus, Image Processing Method, Computer Program for Image Processing | |
JP6552256B2 (ja) | 画像処理装置及び画像処理装置の制御方法 | |
JP4672587B2 (ja) | 画像出力方法および装置ならびにプログラム | |
JP2017143354A (ja) | 画像処理装置及び画像処理方法 | |
JP7312026B2 (ja) | 画像処理装置、画像処理方法およびプログラム | |
JP2021111228A (ja) | 学習装置、学習方法、及びプログラム | |
JP2023004357A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP2005316958A (ja) | 赤目検出装置および方法並びにプログラム | |
JP2005260597A (ja) | デジタルカメラ、および、プログラム | |
JP6632134B2 (ja) | 画像処理装置、画像処理方法およびコンピュータプログラム | |
JP2019145092A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
US11762532B2 (en) | Image processing device, control method therefor, imaging device, and recording medium | |
JP6381212B2 (ja) | 撮像装置及びその制御方法 | |
US11743573B2 (en) | Imaging apparatus for adjusting photographing conditions according to photographed images and method for controlling imaging apparatus | |
JP7113327B1 (ja) | 撮像装置 | |
US20220366542A1 (en) | Apparatus for estimating defocusing of image, method thereof, and non-transitory computer-readable storage medium | |
US11461957B2 (en) | Information processing device, information processing method, and program | |
US20220277458A1 (en) | Systems and methods for extracting headshots from images | |
JP2009205466A (ja) | 画像出力方法、画像出力装置および画像出力プログラム |