JP2023004357A

JP2023004357A - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP2023004357A
Application number: JP2021105981A
Authority: JP
Inventors: 雄太堀川; Yuta Horikawa
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2023-01-17
Also published as: US20230370721A1

Abstract

【課題】ユーザが主観的に合焦対象としたい位置を出力する学習モデルを用いて、画像中の合焦対象を設定する。
【解決手段】撮像画像を取得する。入力された画像中の各被写体の位置における合焦優先度を出力するように事前に学習されている学習モデルに撮像画像を入力することにより、撮像画像の被写体の位置における、撮像画像中の複数の被写体のうちの合焦優先度を出力する。
【選択図】図１１

Description

本発明は、情報処理装置、情報処理方法、及びプログラムに関する。

画像から任意の物体を検出する物体検出処理が、デジタルカメラの機能に応用されている。デジタルカメラでは、撮像している景色から物体を検出し、検出した物体を被写体として合焦を行うことが可能である。

特許文献１では、被写体の各々に優先順位が設定され、検出された被写体に応じて変更された優先順位に基づいて焦点距離を含む撮影のパラメータを変更する技術が開示されている。また、特許文献２に係る発明においては、予め設定された優先順位に基づいて撮影条件を設定すべき注目被写体の選択を可能としつつ、撮影者の意図によってその選択を可能となっている。さらに特許文献３では、検出された被写体のサイズなどのパラメータを用いて、被写体毎に優先順位を決定するための優先度が算出されている。

特開２０２０－５７８７１号公報特開２０１０－８７５７２号公報特開２０１０－１４１６１６号公報

ＸｉｎｇｙｉＺｈｏｕｅｔａｌ．，"ＯｂｊｅｃｔｓａｓＰｏｉｎｔｓ"，［online］，令和１年４月２５日，［令和３年６月２日検索］，インターネット＜ＵＲＬ：https://arxiv.org/abs/1904.07850＞ＡｌｅｘｙＢｏｃｈｋｏｖｓｋｉｙｅｔａｌ．，"ＹＯＬＯｖ４：ＯｐｔｉｍａｌＳｐｅｅｄａｎｄＡｃｃｕｒａｃｙｏｆＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎ"，［online］，令和２年４月２３日，ＥＥＳＳ，［令和３年６月２日検索］，インターネット＜ＵＲＬ：https://arxiv.org/abs/2004.10934＞ＣｈｒｉｓＢｕｒｇｅｓｅｔａｌ．，"ＬｅａｒｎｉｎｇｔｏＲａｎｋｕｓｉｎｇＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ"，［online］，平成１７年８月７日，ＩＣＭＬ，［令和３年６月２日検索］，インターネット＜ＵＲＬ：https://icml.cc/2015/wp-content/uploads/2015/06/icml_ranking.pdf＞

特許文献１～３のいずれにおいても、オートフォーカスによる合焦に用いる優先度の算出方法は人手で設計されている。すなわち、特許文献１及び２においては検出対象の物体に予め優先順位が設定されており、特許文献３（及び２）では検出対象の位置又はサイズなどの撮影条件を考慮して優先度を算出する式が設計されている。

しかしながら、ユーザの判断によって合焦の対象を選択する場合には、その選択は主観的なものとなり揺らぎやすい。特許文献１～３のようにルールに従って画像中のＡＦの優先度を定めるのみでは、このような主観的な判断を表現するには十分とは言えない。

本発明は、ユーザが主観的に合焦対象としたい位置を出力する学習モデルを用いて、画像中の合焦対象を設定することを目的とする。

本発明の目的を達成するために、例えば、一実施形態に係る情報処理装置は以下の構成を備える。すなわち、撮像画像を取得する取得手段と、前記撮像画像を入力として、前記撮像画像の被写体の位置における、前記撮像画像中の複数の前記被写体のうちの合焦優先度を出力する出力手段と、を備え、前記出力手段は、入力された画像中の各被写体の位置における合焦優先度を出力するように事前に学習されている学習モデルに前記撮像画像を入力することにより、前記合焦優先度を出力することを特徴とする。

ユーザが主観的に合焦対象としたい位置を出力する学習モデルを用いて、画像中の合焦対象を設定する。

実施形態１に係る情報処理装置のハードウェア構成を示す図。実施形態１に係る情報処理装置の検出側と学習側の機能構成を示す図。実施形態１に係る検出処理と学習処理を示すフローチャート。実施形態１に係る情報処理装置の用いるＮＮを示す図。実施形態１に係る情報処理装置が用いる入力画像を示す図。実施形態１に係る情報処理装置により推定される合焦適正度の出力を示す図。実施形態１に係る情報処理装置により推定される位置の出力を示す図。実施形態１に係る情報処理装置により推定される大きさの出力を示す図。実施形態１に係る情報処理装置により出力される物体枠の表示例を示す図。実施形態１に係る情報処理装置が行う詳細な検出処理のフローチャート。実施形態１に係る情報処理装置が用いる教師データを示す図。実施形態２に係る情報処理装置の機能構成を示す図。実施形態２に係る合焦対象の設定処理を示すフローチャート。実施形態２に係る物体枠を表示する画面を説明するための図。実施形態２に係る合焦対象を選択した拡大画面を説明するための図。

以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

［実施形態１］
本実施形態では、デジタルカメラによる撮像時に、撮像画像から合焦対象の候補（合焦候補）とする被写体を検出するとともに、撮像画像中の各位置における合焦優先度を示す情報を出力するカメラシステムが説明される。

図１は、本実施形態に係る情報処理装置１００のハードウェア構成の一例を示すブロック図である。情報処理装置１００は、ＣＰＵ１０１、メモリ１０２、入力部１０３、記憶部１０４、表示部１０５、及び通信部１０６を備える。ＣＰＵ１０１は、図２に示される情報処理装置１００の各機能部による処理を行う。メモリ１０２は、例えばＲＯＭ及びＲＡＭであり、ＣＰＵ１０１が利用するデータ又はプログラム等を格納する。入力部１０３は、タッチパネル、ボタン、レバー、又はマウス及びキーボードなどであり、ユーザの入力を取得する。記憶部１０４は、後述する学習装置機能部による処理の結果、又は撮像装置による撮像画像、などの各種データを格納する。表示部１０５は、（例えば、カメラに備え付けられた）液晶ディスプレイなどであり、撮像画像、又はＣＰＵ１０１による処理の結果などを表示しユーザに提示する。通信部１０６は外部の装置と通信し、例えば撮像装置による撮像画像を取得してもよく、外部の装置へのユーザの入力を取得してもよい。

図２（ａ）は、本実施形態に係る情報処理装置の検出処理のための機能構成の一例を示すブロック図である。情報処理装置１００は、画像取得部１１０、推論部１１１、及び検出部１１２を備える。以下、情報処理装置１００は外部の撮像装置２００から撮像画像を取得し、取得した撮像画像に対して各機能部による処理を行うものとして説明を行う。しかしながら、情報処理装置１００が不図示の撮像部を有し、撮像部が撮像する画像に対して後述する検出処理を行ってもよい。

画像取得部１１０は、撮像装置２００から撮像画像を取得する。ここでは、撮像画像は１つの画像であるものとするが、時間的に連続した画像群（動画像）など複数の画像が取得され、そのうちの１つに対して後続する処理が行われてもよい。推論部１１１は、撮像画像中の被写体の位置情報を推定する。ここで、被写体の位置情報とは、撮像画像中の被写体の位置と、その被写体の大きさ（幅及び高さ）と、であるものとする。また、推論部１１１は、被写体の位置情報とともに、画像中の各位置における合焦適正度（合焦優先度）を推定する。

推論部１１１は、例えばニューラルネットワーク（ＮＮ）又はＳＶＭなど既知の機械学習手法を用いたＬｅａｒｎｉｎｇｔｏＲａｎｋ（ランク学習）手法により、画像中の合焦適正度を推定する。このランク学習で用いられる学習モデルは、後述する学習部２０３により学習が行われ、各パラメータが記憶部１０４に格納される。

本実施形態に係る合焦適正度とは、撮像画像中の各位置における、ピントを合わせる位置としての優先度を示す情報である。合焦適正度は、例えば０以上１００以下の範囲で各部分領域ごとに設定されてもよく、ピントを合わせる位置としての優先順位として１から順に設定されてもよく、優先度高／中／低などの程度による設定がされてもよく、その態様は特に限定されない。また、本実施形態においてはオートフォーカス（ＡＦ）機能によってピントの調整が行われるものとして説明が行われるが、合焦の方法はその限りではなく、手動で行われてもよい。

図４は、撮像画像を入力として推論部１１１によって出力される各データの一例を示す図である。図４において推論部１１１は、多層ＣＮＮを用いて、画像における各被写体の位置を示すマップ（センターマップ）、各被写体の大きさを示すマップ（サイズマップ）、及び各位置における合焦適正度を示すマップ（適正度マップ）の３つのマップを出力している。ここでは、例えば推論部１１１は、非特許文献１、又は非特許文献２などに示される公知の物体検出技術において用いられるネットワーク構造を採用することができる。すなわち、推論部１１１は、まず画像をｂａｃｋｂｏｎｅと呼ばれるネットワークに入力して中間特徴量を出力する。次いで推論部１１１は、その中間特徴量を、被写体の位置を推定するタスク、大きさを推定するタスク、及び各位置の合焦適正度を推定するタスクのそれぞれにわかれたネットワークに入力することで、上述の３つのマップを得ることができる。

ここで、各マップは２次元の配列であり、グリッドで表現される。また、各マップは画像の畳み込み又は圧縮を繰り返すことによって、画像の特徴を示す値を配列に保持している。マップの出力過程により、各マップは、入力となる撮像画像の解像度を小さくしたサイズとなるものとする。

図５及び図６は、撮像画像を推論部１１１に入力した場合の推定処理を説明するための図である。図５は、撮像装置２００によって撮像された画像５００を示しており、この画像５００が推論部１１１に入力される。推論部１１１は、画像５００が入力されると、図６に示されるような適正度マップ６００を出力する。適正度マップ６００は、入力画像をグリッド状の部分領域へと分割し、各グリッドの合焦適正度の値を要素として有する配列として表現される。ここで、適正度マップ６００は、配列の各要素が、黒い箇所が白い箇所よりも合焦適正度が高くなるよう、濃淡を使って表現されている。図６の例では、位置６０１の合焦適正度が１０、位置６０２の合焦適正度が８０、位置６０３の合焦適正度が５０、及び位置６０４の合焦適正度が２０となっており、位置６０２の色が一番濃い黒となっている。

図７は、推論部１１１によって推定されるセンターマップの一例を示す図である。ここでは、推論部１１１は、画像５００を入力として、適正度マップ６００と同様のグリッド分割による、各グリッドにおける被写体の中心位置としての尤度を要素として有する配列としてセンターマップを推論している。センターマップ７００においては、椅子のある位置７０１、人物の顔のある位置７０２、車の中心の位置７０３、ライトの位置７０４、及びタイヤの位置７０５の尤度が高くなっており、尤度が高いほど黒色が濃くなる濃淡の表示が行われている。

図８は、推論部１１１によって推定されるサイズマップの一例を示す図である。図８の例では、推論部１１１は、画像５００を入力として、適正度マップ６００と同様のグリッド分割により表示される、被写体の幅を表すサイズマップ８００と、被写体の高さを表すサイズマップ８１０と、を推定している。サイズマップ８００は被写体の位置を中心としてその被写体の幅を長さとして有する横向きの線分をグリッド上に表示しており、サイズマップ８１０は被写体の位置を中心として被写体の高さを長さとして有する縦向きの線分をグリッド上に表示している。サイズマップ８００においては、椅子の幅８０１、人物の顔の幅８０２、車の幅８０３、ライトの幅８０４、タイヤの幅８０５が表示されている。また、サイズマップ８１０においては、椅子の高さ８１１、人物の顔の高さ８１２、車の高さ８１３、ライトの高さ８１４、タイヤの高さ８１５が表示されている。

検出部１１２は、推論部１１１が推定した被写体の位置情報と合焦適正度とに基づいて、画像用の合焦候補として物体枠（バウンディングボックス）を生成し、合焦適正度とともに検出結果として出力する。検出部１１２は、推論部１１１が推論したセンターマップ及びサイズマップを参照して、被写体の位置及び大きさを算出することができる。この例では、検出部１１２は、合焦候補それぞれについて、被写体の位置及び大きさから物体枠を生成し、その被写体の合焦適正度とを対応付けてカメラの画面上に表示してもよい。例えば、検出部１１２は、検出された被写体をそれぞれ含む物体枠の内部に、その被写体位置の合焦適正度を示す数値を表示してもよく、合焦適正度に応じた色の物体枠で表示を行ってもよい。以下、物体枠の合焦適正度とは、その物体枠に含まれる被写体の位置に対応付けられた合焦適正度を指すものとする。

合焦適正度に応じた色の物体枠とは、物体枠の枠線又はその内部が、合焦適正度に応じた濃淡の色を有する物体枠であってもよい。また、検出部１１２は、物体枠の内側又は枠が、その物体枠の合焦適正度が閾値を超えているかに応じて異なる色で表示を行ってもよい。例えば、検出部１１２は、物体枠の内側又は枠の色を、合焦適正度が第１の閾値を超える場合には緑、第１の閾値以下かつ第２の閾値を超える場合には黄、第２の閾値以下である場合には赤で表示を行うことができる。

図９は、検出部１１２が生成する物体枠の出力結果を表示する画面の一例を示す図である。図９の例では、人物を含む物体枠９０１と、馬を含む物体枠９０２と、が画面上に表示されている。ここで、馬よりも人物の位置の方が推論部が推論した合焦適正度が高いことが、物体枠９０１をより濃い色で表示することによって示されている。なお、検出部１１２は、推論された合焦適正度が最も高い物体枠（ここでは９０１）のみを表示し、その他の物体枠は表示しない構成であってもよい。その場合、検出部１１２は、例えば合焦対象とする物体枠を選択するＵＩを表示し、ユーザが物体枠を選択する場合には全物体枠を可視化して表示するなどしてもよい。

図２（ｂ）は、本実施形態に係る情報処理装置の学習処理のための機能構成の一例を示すブロック図である。情報処理装置１００の有する機能部は図２（ａ）と同様である。情報処理装置１００は、学習モデルを生成する学習装置２０１と情報の送受信を行い、合焦適正度を出力する処理に用いる学習モデルを取得する。以下、情報処理装置１００と学習装置２０１は別体の装置であるものとして説明を行うが、学習装置２０１の行う各処理が情報処理装置１００によって行われてもよい。

学習装置２０１は、画像中の被写体の位置を示す位置情報と、その位置情報に加えて各位置に対応する合焦適正度を示す情報と、を有する教師データを複数含む教師データ群を取得する。次いで学習装置２０１は、取得した教師データ群を正解として、入力された画像に対して、画像中の検出される被写体の位置に合焦適正度を設定する学習モデルの学習を行う。そのために、学習装置２０１は、画像データベース部（ＤＢ部）２１０、評価部２１１、生成部２１２、及び学習部２１３を備える。ＤＢ部２１０は、学習モデルの学習における教師データとするための画像を複数格納する。

生成部２１２は、ＤＢ部２１０が格納する画像から教師データを複数生成して教師データ群とする。ここで、教師データとは、上述したように画像中の被写体の位置と、画像中の各位置における合焦適正度を示す情報（教師適正度）と、を有するデータである。そのために、学習装置２０１は、ＤＢ２１０に格納されている画像を情報処理装置１００へと送信し、推論部１１１及び検出部１１２の処理によって画像中の被写体の位置を検出して取得する。なお、生成部２１２が教師データに含める被写体の位置は、情報処理装置１００ではなく学習装置２０１自体によって検出されてもよい。

評価部２１１は、教師データに含めるための教師適正度を設定する。この教師適正度は、例えば画像中のパラメータに基づいて算出されてもよく、ユーザの入力に従って設定されてもよく、その取得手段は限定されない。

以下、教師適正度の設定方法の例について説明を行う。まず、教師適正度が画像中のパラメータに基づいて算出される場合について説明する。撮像写真において、人間が撮像した場合には、一般的には合焦した位置における鮮鋭度が高くなる。その観点から、評価部２１１は、教師画像中のパラメータとして鮮鋭度を用いて、教師適正度を算出してもよい。なお、ここで用いられる画像パラメータは、このようにピントを合わせる位置に見られる傾向を有する画像パラメータであれば、特に鮮鋭度に限定されるわけではない。ここでは、評価部２１１は、検出部１１２が生成した物体枠それぞれに対して教師適正度を算出して設定する。評価部２１１は、例えば物体枠１つに対して、物体枠内の画像を小領域に分割して、小領域内の画素値の分散をそれぞれ算出し、次いでその分散値全ての平均を、その物体枠の鮮鋭度とすることができる。なお、教師適正度は、推論部１１１が出力する各マップと同じサイズのマップ上に設定されるものとする。

また、被写界深度の浅い写真では、画像の焦点が合っている箇所と合っていない箇所の鮮鋭度の差が大きくなりやすい。そのような観点から、教師画像としては、所定の閾値となる被写界深度よりも浅い被写界深度で撮像された教師画像を用いてもよい。ここで用いる被写界深度の閾値は、ユーザが所望に設定することが可能である。

図１１は、生成部２１２によって出力される、教師適正度が設定されたマップである教師データを、教師画像に（対応するサイズまで拡大して）重畳して表示する一例を示す図である。ここでは、生成部２１２は、推論部１１１が出力する各マップと同じサイズのマップ上の、教師画像に対応する位置に、評価部２１１が鮮鋭度に基づいて算出した教師適正度を設定している。ここで生成部２１２は、教師画像とマップとのスケール比を求めることにより、教師画像上の被写体の座標を教師適正度のマップ上の座標に変換することができる。領域１１０１は教師画像中の人物の瞳に対応する領域であり、鮮鋭度から算出される教師適正度が４０に設定されている。領域１１０２は教師画像中の人物に対応する領域であり、鮮鋭度から算出される教師適正度が８０に設定されている。領域１１０３は教師画像中の馬に対応する領域であり、鮮鋭度から算出される教師適正度が７０に設定されている。図１１の例では、領域１１０２が最も高い教師適正度を有するため、この領域が最も合焦位置として適していることを表している。

次いで、上述したように、教師適正度がユーザの入力に従って設定されている画像のデータが教師データに含まれていてもよい。その場合、評価部２１１は、教師データの画像（教師画像）に対する、ユーザによる合焦適正度の入力を取得する。ここでユーザは、例えば教師画像中の検出対象が写っている位置を指定し、その位置に合焦適正度を設定することができる。ここで設定される合焦適正度は、例えば（複数の教師画像に跨る）複数の種類の検出対象のうちの合焦の優先順位であってもよく、被写体に対して設定される評価値であってもよい。本実施形態に係る評価値は、例えば０以上１００以下の範囲で設定された値（高いほど合焦を行う優先度が高い）であってもよく、優先度高／中／低などの評価であってもよい。ここで設定される合焦適正度及び評価値はユーザが入力した値であるが、画像中のパラメータを参照して設定又は補正が行われてもよい。

評価部２１１は、上述のユーザの入力に従って教師適正度を設定することができる。ここでは、評価部２１１は、画像中のユーザの指定がなかった位置については合焦を優先的に行わないものとして（合焦適正度が０、又は優先度が低など）設定することができる。また、評価部２１１は、ユーザが指定した位置を中心として、その位置からの距離に応じて教師適正度が変化するように設定を行ってもよい。すなわち評価部２１１は、ユーザが指定した位置の教師適正度はユーザが入力した合焦適正度の値とし、その位置から離れるほど教師適正度の値が低くなるように設定を行ってもよい。この場合、評価部２１１は、教師画像中のある位置の教師適正度を、ユーザが指定した位置からの距離に応じて減算してもよく、ユーザから指定した位置からの距離と閾値との大小関係に応じて優先度高／中／低に分類してもよい。また評価部２１１は、教師画像から検出対象の検出を行い、ユーザが指定した位置を含む検出対象の領域全体の教師適正度を、ユーザが入力した合焦適正度の値として設定してもよい。

このように教師適正度の設定を行うことにより、ユーザの主観に基づく合焦適正度を反映した教師データを生成し、学習を行うことが可能となる。

学習部２１３は、生成部２１２が生成した教師データを正解として、画像を入力として、その画像中の各位置における合焦適正度を出力する学習モデルの学習を行う。本実施形態においては、学習部２１３は、上述の学習モデルとして、推論部１１１が適正度マップを出力するためのパラメータを更新するものとして説明を行う。学習部２１３による学習モデルの学習方法は、画像を入力として上述のような合焦適正度を出力できるのであれば特に限定はされず、任意の公知手法により行うことが可能である。

学習部２１３は、例えば非特許文献３に記載のあるようなＲａｎｋＮｅｔを用いたランク学習により、学習モデルに入力画像中の各位置間の順位付けを学習させてもよい。この場合、学習部２１３は、教師データのマップの要素数をＮとして、ｉ（１≦ｉ≦Ｎ）番目の要素の値ｙ_ｉとｊ（１≦ｊ≦Ｎ）番目の要素の値ｙ_ｊとの順序関係を学習させる。ここでは、ｙ_ｉ及びｙ_ｊに対応する、ある教師データから推論部１１１が推定する適正度マップの要素の値をｘ_ｉ及びｘ_ｊとすると、誤差Ｃ_ｉｊは以下の式（１）によって算出される。

学習部２１３は、このＣ_ｉｊを全ての組（ｉ，ｊ）について算出し、合計値をその教師データに対する最終的な誤差として算出する。次いで学習部２１３は、誤差逆伝播法によって推論部１１１のＮＮのパラメータを更新し、更新したパラメータを記憶部１０４に格納することができる。ここで更新した学習モデルを推論部１１１が用いることにより、画像を入力として合焦適正度を推定することが可能となる。なお、学習部２１３は、上述のランク学習ではなく、例えば教師データに含まれる教師適正度と同じ値の合焦適正度を出力するように学習を行ってもよい。

図３（ａ）は、本実施形態に係る情報処理装置１００が行う合焦候補の検出処理の一例を示すフローチャートである。Ｓ３０１で画像取得部１１０は、撮像装置２００から画像を取得する。Ｓ３０２で推論部１１１は、取得した画像からセンターマップ、サイズマップ、及び適正度マップを出力する。Ｓ３０３で検出部１１２は、Ｓ３０２で出力した各マップに基づいて、合焦候補として物体枠を生成し、合焦適正度とともに撮像装置２００に出力する。

図１０は、検出部１１２が行う物体枠の検出処理の一例を示すフローチャートである。Ｓ１００１で検出部１１２は、推論部１１１が出力した各マップを取得する。Ｓ１００２で検出部１１２は、センターマップとサイズマップとを用いて、画像中に物体枠を生成する。ここでは、検出部１１２は物体枠として、センターマップで推定される各被写体の位置を中心として、サイズマップに示される、中心位置が対応する被写体の幅及び高さを有する矩形領域を生成する。Ｓ１００３で検出部１１２は、生成した物体枠を、適正度マップ上の物体枠の位置に対応する合焦適正度とともに撮像装置２００に出力する。

ここで、撮像装置２００は、基本的には最も合焦適正度の高い物体枠を合焦対象として設定する。しかしながら、実際に用いる合焦対象の設定はそのように限定されるわけではない。合焦対象とする物体枠は、例えば表示された各物体枠の中からユーザによって選択されてもよく、最も合焦適正度の高い物体枠が初期の合焦対象として設定され、ユーザの入力に基づいて変更される形式であってもよい。合焦対象を指定するユーザ入力が行われる場合については、実施形態２において詳細な説明を行う。

図３（ｂ）は、本実施形態に係る学習装置２０１が行う学習モデルの学習処理の一例を示すフローチャートである。Ｓ３１１で評価部２１１と画像取得部１１０は、ＤＢ部２１０から教師画像を取得する。Ｓ３１２で推論部１１１は、教師画像からセンターマップ、サイズマップ、及び適正度マップを出力する。このセンターマップ及びサイズマップは検出部１１２に出力され、適正度マップは学習部２１３に出力される。

Ｓ３１３で検出部１１２は、Ｓ３０２と同様の処理によって物体枠を生成する。Ｓ３１４で評価部２１１は、教師画像から教師適正度を設定する。ここでは、評価部２１１は、Ｓ３１３で生成された物体枠と教師画像中の鮮鋭度とに基づいて教師適正度を設定する。Ｓ３１５で生成部２１２は、教師画像と、物体枠の座標値と、Ｓ３１３で設定した教師適正度と、を含む、教師データとなるマップを生成する。Ｓ３１６で学習部２１３は、Ｓ３１５で生成した教師データと、Ｓ３１２で出力した適正度マップと、に基づいて、推論部１１１の学習モデルのパラメータの更新を行い、学習モデルを学習させる。

このような構成によれば、入力された画像の各被写体の位置における合焦優先度を出力するように事前に学習されている学習モデルを用いて、撮像画像の被写体の位置における、複数の被写体のうちの合焦優先度を出力することが可能となる。したがって、人間の主観に基づく合焦位置を出力する学習モデルにより、撮像画像中の合焦対象を決定することができる。

［実施形態２］
実施形態１においては、学習モデルによって画像内の位置ごとに合焦適正度が推論され、最も合焦位置として適している（合焦適正度が高い）位置が示された。しかしながら、ここで推論される合焦適正度が最も高い位置の被写体が、必ずしもユーザの望む合焦対象になるとは限らない。そのような観点から、本実施形態に係る情報処理装置１００は、まず実施形態１と同様に学習された学習モデルに撮像画像を入力して合焦適正度の設定を行う。次いで、情報処理装置１００は、設定した合焦適正度をユーザに提示し、合焦位置（合焦対象）を指定するユーザ入力を取得する。以下、合焦対象とは、合焦位置に存在する被写体、又はその被写体を含む撮像画像上の物体枠を指すものとする。

図１２は、本実施形態に係る情報処理装置１００は、実施形態１と同様の構成を有し同様の処理を行うため、重複する説明は省略する。また、以下に説明する撮像装置２００の各機能部は、実施形態１と同様に、情報処理装置１００の外部の装置に含まれていてもよく、情報処理装置１００と同一の装置内に実装されていてもよい。本実施形態に係る撮像装置２００は、撮像部１２０１、切出し部１２０２、画像生成部１２０３、表示部１２０４、順位付与部１２０５、選択記憶部１２０６、操作部１２０７、及び切替部１２０８を備える。

撮像部１２０１は、撮像装置２００の外部の景色を撮像画像（画像データ）として取得する。切出し部１２０２は、撮像部１２０１が取得した撮像画像の一部分を、部分画像として切り出す。切出し部１２０２は、詳細な説明は図１５を参照して後述するが、合焦位置を指定するユーザ入力を取得した場合に、指定された合焦位置に基づいて撮像画像の一部分を切り出して部分画像を生成することができる。以下、情報処理装置１００によって、撮像部１２０１が取得した撮像画像、又は切出し部１２０２が切り出した部分画像（これらを区別せず「入力画像」と呼ぶ）を入力として、学習モデルによって合焦適正度の設定が行われる。

順位付与部１２０５は、情報処理装置１００により設定された合焦適正度が高い順に、入力画像中の物体枠の順位付けを行う。また、順位付与部１２０５は、選択記憶部１２０６に格納している、合焦対象とする物体枠の情報を更新する。ここで順位付与部１２０５は、入力画像に設定された物体枠のいずれかが、選択記憶部１２０６に格納されている物体枠と同一であるか否かを判定してもよい。これらの物体枠が同一である場合には、選択記憶部１２０６に格納されているその物体枠の位置（座標値）を、入力画像に設定された値に更新する。入力画像に設定された物体枠のいずれも選択記憶部１２０６に格納されている物体枠と同一でない場合には、選択記憶部１２０６に格納された合焦対象の情報の情報を削除し、新たに設定を行う。この同一であるか否かの判定は、例えばＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ（ＩｏＵ）の計算など、同一対象か否かを判定する公知の技術によって行うことが可能である。この場合では、順位付与部１２０５は、２つの物体枠のＩｏＵが予め設定された閾値以上であるか否かに応じて、それらの物体枠が同一対象であるかを判定することができる。なお、順位付与部１２０５は、選択記憶部１２０６に格納されている、合焦対象として設定されている物体枠が入力画像中に存在する場合であっても、それとは関係なく入力画像中の合焦適正度が最も高い物体枠を合焦対象として設定してもよい。

画像生成部１２０３は、順位付与部１２０５によって設定された順位とともに、物体枠を入力画像中に重畳表示した画像を生成する。ここでの物体枠の表示の形式は、物体枠の順位がユーザに提示できるのであれば特に限定されない。例えば画像生成部１２０３は、物体枠ごとに合焦適正度に基づいて異なる表示を行ってもよく、最も順位が高い物体枠とその他の物体枠とで異なる表示を行ってもよい。ここでは、画像生成部１２０３は、順位に応じた濃淡表示により各物体枠を表示してもよく、順位に対応する色付けによって各物体枠を表示してもよく、各物体枠とともに順位を数字で表示してもよい。また例えば画像生成部１２０３は、順位が一番高い物体枠を実線で（強調して）表示し、他の物体枠を点線又は破線などで表示してもよく、順位が一番高い物体枠のみを表示してもよい。

表示部１２０４は、画像生成部１２０３が生成した画像を表示し、ユーザに提示する。図１４は、表示部１２０４が、カメラである撮像装置２００の画面上に表示する画像の一例を示す図である。ここでは、画像上に被写体として車が５つ検出されており、それぞれ対応する物体枠とともに合焦適正度の順位が表示されている。ここで、順位が１位である物体枠１４０２は実線で表示されており、順位が２位である物体枠１４０１及びその他の物体枠は破線で表示されている。ここでは、詳細は後述するが、物体枠１４０２がユーザによって（タッチ操作などで）指定された場合には、図１５に示されるような、物体枠１４０２近傍の領域が拡大表示される。また、物体枠１４０１がユーザによって指定された場合には、合焦対象を物体枠１４０１に設定する。

ここで、表示部１２０４は、操作部１２０７を介して、合焦位置を指定するユーザ入力を取得することができる。合焦位置の指定は、例えばタッチパネル上の対応する領域へのタッチ操作によって入力されてもよく、レバー又はボタンなどの機械式スイッチへの操作によって入力されてもよく、合焦位置を選択するユーザ入力であれば特に限定はされない。操作部１２０７は、そのようなユーザ入力を取得するために機能する。例えば、表示部１２０４がデジタルカメラに搭載されているタッチパネルに表示される各物体枠（合焦対象の候補）に対して、タッチパネルの操作を介してユーザによる合焦位置の指定を受け付けることが可能である。

切替部１２０８は、合焦位置の設定を切り替える。切替部１２０８は、例えば順位付与部１２０５によって付与された順位が１位の物体枠が、選択記憶部１２０６で記憶されている（合焦位置の物体枠とされている）物体枠と異なる場合に、その１位の物体枠を合焦位置に切り替えてもよい。また切替部１２０８は、合焦位置を指定するユーザ入力を取得している場合に、そのユーザ入力によって指定されている物体枠を合焦位置として設定し、その設定を選択記憶部１２０６に記憶してもよい。

図１５は、図１４の物体枠１４０２がユーザによって選択された場合に、切出し部１２０２によって切り出される部分画像を表示する画面の一例を示す図である。切出し部１２０２は、図１４の画面からユーザによって選択された物体枠１４０２近傍の領域を切り出し、拡大して画面に表示する。ここでは、拡大後の被写体の細かいパーツ又は人物などに対して新たに合焦適正度とともに物体枠が設定されており、人物の頭部に順位として一位が付与されている。そのため、切替部１２０８により合焦位置が人物の頭部に設定される。このような処理によれば、注目する被写体の近傍の領域に対して、さらに細かなパーツ又は人物などを合焦対象として設定することが可能となる。

図１３は、本実施形態に係る合焦対象の設定処理の一例を示すフローチャートである。Ｓ１３０１で撮像部１２０１は、撮像画像を取得して切出し部１２０２に出力する。Ｓ１３０２で切出し部１２０２は、入力画像に対して、実施形態１と同様の処理によって物体枠を設定する。

Ｓ１３０３で順位付与部１２０５は、選択記憶部１２０６に格納している、合焦対象とする物体枠の情報を更新する。Ｓ１３０４で順位付与部１２０５は、画像中の物体枠に、合焦適正度が高い順に順位付けを行う。Ｓ１３０５で順位付与部１２０５は、合焦対象に設定していた物体枠が存在しているか否かを判定する。存在している場合には合焦対象は変更されずに処理がＳ１３０７へと進み、そうでない場合には処理がＳ１３０６へと進む。

Ｓ１３０６で切替部１２０８は、順位付与部１２０５が設定した、最も順位の高い物体枠を合焦対象として設定し、処理をＳ１３０７へと進める。Ｓ１３０７で画像生成部１２０３は、順位付与部１２０５によって設定された順位とともに、物体枠を入力画像中に重畳表示した画像を生成する。Ｓ１３０８で表示部１２０４は、Ｓ１３０７で生成した画像を表示する。

Ｓ１３０９で表示部１２０４は、操作部１２０７を介した、合焦位置を指定するユーザ入力を取得する。ここでユーザ入力を取得しない場合には、表示部１２０４は順位が一位の物体枠を合焦対象として設定して処理を終了する。ユーザ入力を取得した場合には処理がＳ１３１０へと進む。

Ｓ１３１０で表示部１２０４は、ユーザ入力によって指定された物体枠が、選択記憶部１２０６に格納されている合焦対象の物体枠であるか否かを判定する。合焦対象の物体枠である場合には処理がＳ１３１２へと進み、そうでない場合には処理がＳ１３１１へと進む。Ｓ１３１１で切替部１２０８は、指定されている物体枠を合焦対象に設定し、処理をＳ１３０７へと戻す。

Ｓ１３１２で切出し部１２０２は、合焦対象の物体枠の近傍の領域を部分画像として切り出し、切り出した画像を入力画像としてＳ１３０２に処理を戻す。ここで、物体枠の近傍の領域とは、物体枠から高さ方向と幅方向にそれぞれ所定の幅を追加した領域であってもよく、物体枠そのものであってもよい。

このような処理によれば、撮像画像中の合焦位置を指定するユーザの入力を取得し、ユーザの入力による指定に従って合焦位置の変更を行うことが可能となる。したがって、学習モデルによって推論された合焦適正度が最も高い位置の被写体がユーザの所望の被写体とならない場合であっても、所望の被写体に合焦位置を合わせることが可能となる。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

１００：情報処理装置、１１０：画像取得部、１１１：推論部、１１２：検出部、１０４：記憶部

Claims

撮像画像を取得する取得手段と、
前記撮像画像を入力として、前記撮像画像の被写体の位置における、前記撮像画像中の複数の前記被写体のうちの合焦優先度を出力する出力手段と、を備え、
前記出力手段は、入力された画像中の各被写体の位置における合焦優先度を出力するように事前に学習されている学習モデルに前記撮像画像を入力することにより、前記合焦優先度を出力することを特徴とする、情報処理装置。
前記撮像画像を撮像する撮像装置の、前記撮像画像における合焦位置を決定する決定手段をさらに備えることを特徴とする、請求項１に記載の情報処理装置。
前記決定手段は、前記出力手段が出力する前記合焦優先度に基づいて、前記撮像画像における合焦位置を決定することを特徴とする、請求項２に記載の情報処理装置。
前記撮像画像中の合焦位置のユーザによる指定を取得する第２の取得手段と、
前記ユーザによる指定に従って、前記撮像画像における前記合焦位置の変更を行う変更手段と、
をさらに備えることを特徴とする、請求項１乃至３の何れか一項に記載の情報処理装置。
前記出力手段が出力する前記合焦優先度をユーザに提示する提示手段をさらに備えることを特徴とする、請求項４に記載の情報処理装置。
前記提示手段は、前記撮像画像上の被写体を含む物体枠それぞれについて、前記学習モデルが出力する前記合焦優先度に応じた表示を行うことにより、前記学習モデルが出力する前記合焦優先度を前記ユーザに提示することを特徴とする、請求項５に記載の情報処理装置。
前記提示手段は、前記撮像画像上の、前記学習モデルが出力する前記合焦優先度が最も高い位置の被写体を含む第１の物体枠を第１の表示により表示し、前記第１の物体枠とは異なる第２の物体枠を第２の表示により表示することを特徴とする、請求項５又は６に記載の情報処理装置。
前記提示手段は、前記第２の取得手段が取得した前記ユーザによる指定によって前記第２の物体枠が指定されている場合に、前記第２の物体枠の表示を第１の表示に変更し、前記第１の物体枠の表示を第２の表示に変更することを特徴とする、請求項７に記載の情報処理装置。
前記第１の表示と前記第２の表示とが、物体枠の枠線の色、前記枠線の内部の色、前記枠線の形式、又は前記枠線の濃淡について異なる表示であることを特徴とする、請求項７又は８に記載の情報処理装置。
前記出力手段は、前記撮像画像中の前記被写体を含む物体枠の近傍の領域から切り出される部分画像を前記学習モデルの入力として、前記部分画像の被写体の位置における、前記部分画像の中の複数の前記被写体のうちの合焦優先度をさらに出力することを特徴とする、請求項１乃至９の何れか一項に記載の情報処理装置。
教師画像中の位置ごとの合焦優先度を示す情報を有する教師データを複数含む教師データ群を取得する第１の取得手段と、
前記教師データ群を正解として、撮像画像を入力とした場合に、前記撮像画像の被写体の位置に対応付けて、前記撮像画像中の複数の前記被写体のうちの合焦優先度を出力する学習モデルの学習を行う学習手段と、
を備えることを特徴とする、情報処理装置。
前記第１の取得手段は、前記教師画像の画像パラメータに基づいて、前記合焦優先度を示す情報を算出することを特徴とする、請求項１１に記載の情報処理装置。
前記第１の取得手段は、第１の被写界深度で撮像された教師画像の画像パラメータに基づいて、前記合焦優先度を示す情報を算出し、
前記第１の被写界深度は、閾値となる第２の被写界深度より浅いことを特徴とする、請求項１２に記載の情報処理装置。
前記画像パラメータは鮮鋭度であることを特徴とする、請求項１２又は１３に記載の情報処理装置。
前記学習モデルの出力は、前記教師画像中の被写体の位置を含む物体枠内の各位置に対応付けて、前記物体枠の合焦優先度を示すことを特徴とする、請求項１１乃至１４の何れか一項に記載の情報処理装置。
前記合焦優先度は、前記物体枠の間の他の物体枠に対する前記合焦優先度を示すことを特徴とする、請求項１５に記載の情報処理装置。
前記学習モデルがニューラルネットワークであることを特徴とする、請求項１乃至１６の何れか一項に記載の情報処理装置。
撮像画像を取得する工程と、
前記撮像画像を入力として、前記撮像画像の被写体の位置における、前記撮像画像中の複数の前記被写体のうちの合焦優先度を出力する工程と、を備え、
前記合焦優先度は、教師画像中の各被写体の位置における合焦優先度を出力するように事前に学習されている学習モデルに前記撮像画像を入力することにより、出力されることを特徴とする、情報処理方法。
教師画像中の位置ごとの合焦優先度を示す情報を有する教師データを複数含む教師データ群を取得する工程と、
前記教師データ群を正解として、撮像画像を入力とした場合に、前記撮像画像の被写体の位置に、前記撮像画像中の複数の前記被写体のうちの合焦優先度を設定する学習モデルの学習を行う学習手段と、
を備えることを特徴とする、情報処理方法。
コンピュータを、請求項１乃至１７の何れか一項に記載の情報処理装置の各手段として機能させるためのプログラム。