JP6679679B2

JP6679679B2 - 制御装置、方法およびプログラム

Info

Publication number: JP6679679B2
Application number: JP2018174632A
Authority: JP
Inventors: 慧徐
Original assignee: SZ DJI Technology Co Ltd
Current assignee: SZ DJI Technology Co Ltd
Priority date: 2018-09-19
Filing date: 2018-09-19
Publication date: 2020-04-15
Anticipated expiration: 2038-09-19
Also published as: JP2020048058A

Description

本発明は、制御装置、方法およびプログラムに関する。

画像を撮像する撮像装置では、所定の評価値を参照して、自動的にレンズの位置を制御して焦点を合わせることが行われている。当該評価値としては、例えば、画像のコントラストの評価値などが用いられている。

このようなＡＦ（Autofocus）方式では、例えば、レンズを移動させるギアを動かすＤＣ（Direct Current）モータと、当該ギアの回転量を検出する回転センサを用いて、オートフォーカスの制御が行われる。また、このようなＡＦ方式では、例えば、ギアの隙間（いわゆるバックラッシュ）を考慮して、コントラストが上昇していく方向にギアを動かして焦点を合わせる。当該方向はいわゆる山登りの方向と呼ばれ、山登りの方向での制御は山登り制御と呼ばれる。

しかしながら、このようなＡＦ方式では、レンズを移動させて評価値を取得し、取得された評価値に基づいてレンズの合焦位置を決定する。このため、このようなＡＦ方式では、オートフォーカスの制御による合焦状態が実現されるまでに要する時間が長い場合があった。

特許文献１には、対話の主題ラベルを推定する主題推定システムが開示されている（特許文献１参照。）。主題推定システムは、畳み込みニューラルネットワークを備える。畳み込みニューラルネットワークは、畳み込み層と、プーリング層と、全結合層とを備える。畳み込み層では、１以上のトピック依存畳み込み層が、トピックに依存した畳み込み演算を行う。また、畳み込み層では、１つのトピック非依存畳み込み層が、当該トピックに依存しない畳み込み演算を行う。
しかしながら、特許文献１に係る主題推定システムは対話の主題ラベルを推定するものであり、撮像装置におけるレンズの合焦については記載あるいは示唆が無かった。

特開２０１７−５９２０５号公報

上述のように、従来の撮像装置では、オートフォーカスの制御による合焦状態が実現されるまでに要する時間が長い場合があった。また、撮像装置では、レンズの位置以外のパラメータの制御についても、当該パラメータの適正値を取得するまでに要する時間が長い場合があった。

本発明は、このような事情を考慮してなされたもので、パラメータの適正値を取得するまでに要する時間を短くすることができる制御装置、方法およびプログラムを提供することを課題とする。

本発明の一態様に係る制御装置は、合焦位置に対応するレンズ位置において取得された第１の画像および前記第１の画像が撮像されたときの第１の情報を取得する取得部と、前記合焦位置に対応するレンズ位置において取得された基準画像から取得された複数の第２の画像、前記第１の画像、および前記第１の情報から得られる特徴マップに基づくパラメータに対応するレンズ位置が前記合焦位置に対応するレンズ位置から予め定められた位置にまで近付くように前記パラメータの演算で用いられる重み付け値を調整することで、前記パラメータの各値と確率との対応において真値の推定確率が所定の確率以上となるように、前記パラメータを演算する制御部と、を備える。

本発明の一態様に係る制御装置は、前記制御部は、複数の前記第２の画像、前記第１の画像、および前記第１の情報に対して少なくとも畳み込み演算およびプーリング演算を行うことで前記特徴マップを得る、構成とされてもよい。

本発明の一態様に係る制御装置は、前記制御部は、前記重み付け値をフィルタ係数の値とするフィルタを用いて前記畳み込み演算を行う、構成とされてもよい。

本発明の一態様に係る制御装置は、前記第２の画像は、前記基準画像が取得されたレンズ位置からずれたレンズ位置に対応するボケ画像である、構成とされてもよい。

本発明の一態様に係る制御装置は、前記第２の画像は、前記基準画像に点拡がり関数が施されて取得された画像である、構成とされてもよい。

本発明の一態様に係る制御装置は、前記点拡がり関数は、前記第１の画像が取得されたときに用いられたレンズと同じレンズ特性を有する、構成とされてもよい。

本発明の一態様に係る制御装置は、前記基準画像は、テストチャートまたはカラーチャートである、構成とされてもよい。

本発明の一態様に係る制御装置は、前記基準画像は、解像度、歪み、色収差、あるいは、周波数特性のうちの１以上を測定するために用いられる、構成とされてもよい。

本発明の一態様に係る制御装置は、複数の合焦枠に対応する複数の前記合焦位置について、複数の前記合焦位置に対応する複数のレンズ位置において複数の前記第１の画像が取得される、構成とされてもよい。

本発明の一態様に係る制御装置は、前記第１の情報は、露出値あるいはＦ値のうちの少なくとも１つを含む、構成とされてもよい。

本発明の一態様に係る制御装置は、前記パラメータは、撮像装置の合焦に用いられ、推定確率が最も高い前記パラメータの値が前記合焦位置の値として採用される、構成とされてもよい。

本発明の一態様に係る方法は、制御装置が、合焦位置に対応するレンズ位置において取得された第１の画像および前記第１の画像が撮像されたときの第１の情報を取得する段階と、前記合焦位置に対応するレンズ位置において取得された基準画像から取得された複数の第２の画像、前記第１の画像、および前記第１の情報から得られる特徴マップに基づくパラメータに対応するレンズ位置が前記合焦位置に対応するレンズ位置から予め定められた位置にまで近付くように前記パラメータの演算で用いられる重み付け値を調整することで、前記パラメータの各値と確率との対応において真値の推定確率が所定の確率以上となるように、前記パラメータを演算する段階と、を備える。

本発明の一態様に係るプログラムは、合焦位置に対応するレンズ位置において取得された第１の画像および前記第１の画像が撮像されたときの第１の情報を取得する段階と、前記合焦位置に対応するレンズ位置において取得された基準画像から取得された複数の第２の画像、前記第１の画像、および前記第１の情報から得られる特徴マップに基づくパラメータに対応するレンズ位置が前記合焦位置に対応するレンズ位置から予め定められた位置にまで近付くように前記パラメータの演算で用いられる重み付け値を調整することで、前記パラメータの各値と確率との対応において真値の推定確率が所定の確率以上となるように、前記パラメータを演算する段階と、をコンピュータに実行させるためのプログラムである。

本発明によれば、パラメータの適正値を取得するまでに要する時間を短くすることができる。

本発明の一実施形態に係る学習システムの機能ブロックの一例を示す図である。本発明の一実施形態に係る隠れ層における処理の詳細を説明するための図である。本発明の一実施形態に係るＲＮＮのイメージの一例を示す図である。本発明の一実施形態に係る主題情報の一例を示す図である。本発明の一実施形態に係る撮像情報の一例を示す図である。本発明の一実施形態に係る学習結果の一例を示す図である。本発明の一実施形態に係るチャネル情報の他の一例を示す図である。本発明の一実施形態に係る撮像装置の概略的な構造を示す図である。本発明の一実施形態に係る撮像装置の概略的な機能構成を示す図である。本発明の他の実施形態に係る撮像システムの概略的な機能構成を示す図である。演算部あるいは制御部のハードウェア構成の一例を示す図である。無人航空機および遠隔操作装置の外観の一例を示す図である。

以下、図面を参照し、本発明の実施形態について説明する。
図１は、本発明の一実施形態に係る学習システム１の機能ブロックの一例を示す図である。
学習システム１は、学習装置１１と、撮像装置１２と、記憶媒体１３とを備える。

撮像装置１２は、概略的に、レンズ１５１と、取得部１５２とを備える。
撮像装置１２では、レンズ１５１を通過した光によって被写体２１の画像を撮像する。撮像装置１２によって撮像された画像の一部がＲＯＩ（Region Of Interest）１０１１として抽出される。
撮像装置１２では、取得部１５２が、ＲＯＩ１０１１の画像が撮像されたときの情報を取得する。本実施形態では、当該情報は、レンズ１５１に関する情報（以下、説明の便宜上、「レンズ情報」ともいう。）である。取得部１５２は、取得されたレンズ情報１０１３を出力する。本実施形態では、レンズ情報１０１３は、レンズ１５１の位置を特定する情報を含む。レンズ情報１０１３は、さらに、Ｆ値、露出のうちの１以上に関する情報を含んでもよい。

撮像装置１２によって得られたＲＯＩ１０１１とレンズ情報１０１３との組み合わせが、記憶媒体１３に記憶される。当該組み合わせとして、例えば、複数の異なる組み合わせが記憶媒体１３に記憶される。複数の異なる組み合わせでは、ＲＯＩ１０１１が異なってもよい。また、複数の異なる組み合わせでは、ＲＯＩ１０１１が同一であり、レンズ情報１０１３が異なってもよい。
その後、記憶媒体１３に記憶された組み合わせが学習装置１１に入力される。

ここで、図１の例では、撮像装置１２から出力される組み合わせが記憶媒体１３を介して学習装置１１に入力されるが、この構成に限られない。例えば、撮像装置１２から出力される組み合わせが、ネットワーク（図示せず）を介して伝送されて、学習装置１１に入力されてもよい。

学習装置１１は、演算部１１１と、基準画像１０１４の記憶部１１２と、ＰＳＦ部１１３と、主題情報（Ground Truth）１０２４の記憶部１１４と、比較部１１５とを備える。
演算部１１１は、入力層１２１と、１段目の隠れ層１２２と、２段目の隠れ層１２３と、全結合層１２４と、出力層１２５と、算出部１２６とを備える。
隠れ層１２２は、畳み込み部１３１と、プーリング部１３２と、発火部１３３とを備える。
同様に、隠れ層１２３は、畳み込み部１４１と、プーリング部１４２と、発火部１４３とを備える。

演算部１１１は、ニューラルネットワークを使用している。ニューラルネットワークでは、例えば、複数のノードと複数のエッジを用いて演算の経路が構成される。ニューラルネットワークの各層では、複数のノードがエッジを介して結ばれる。各層は活性化関数を実行する部分を有してもよい。活性化関数としては、例えば、ステップ関数、シグモイド関数、ソフトマックス関数、ＲｅＬＵ関数などが知られている。各エッジはフィルタ係数に相当する重みを有する。

演算部１１１は、撮像に使用される所定のパラメータの適正値を推論する。本実施形態では、パラメータとしてレンズ１５１の位置が用いられている。パラメータの適正値として、レンズ１５１の合焦位置が用いられている。
ここで、演算部１１１は、例えば、深層学習（Deep Learning）を行うＤＮＮ（Deep neural network）を使用してもよい。
なお、演算部１１１は、ニューラルネットワークを使用しなくてもよい。

記憶部１１２は、基準画像１０１４を記憶する。記憶部１１２は、メモリである。
基準画像１０１４として、テストチャートが用いられている。テストチャートは、白黒のチャートであってもよく、あるいは、カラーのチャート（カラーチャート）であってもよい。テストチャートは、白黒のチャートとカラーのチャートとの組み合わせであってもよい。
テストチャートは、本実施形態では、撮像装置１２におけるレンズ１５１の位置、Ｆ値、露出などのパラメータが理想的な適正値であるときの画像である。テストチャートは、例えば、撮像された画像であってもよい。テストチャートは、例えば、撮像以外の手法で生成された画像であってもよい。

なお、一般に、テストチャートは、撮像装置１２の性能を試験するために生成されている。テストチャートとしては、例えば、試験項目ごとに適した画像が用意されている場合がある。当該試験項目としては、例えば、解像度、歪み、色収差、周波数特性などがある。

ＰＳＦ部１１３は、基準画像１０１４に対して、点拡がり関数（ＰＳＦ：Point Spread Function）を施す。点拡がり関数は、光学系の点光源に対する応答を表す関数である。これにより、ＰＳＦ部１１３は、基準画像１０１４から、複数の画像を生成する。これらの画像は、レンズ１５１の位置が合焦位置からずれたときの画像（以下、説明の便宜上、「ボケ画像」ともいう。）である。図１の例では、nが２以上の整数を表すとして、n個のボケ画像（Defocus Image）１０１２−１〜１０１２−ｎを生成する。

ここで、点拡がり関数は、レンズ１５１の位置が焦点位置からずれた位置にあるときのボケを基準画像１０１４に与える。複数のボケ画像１０１２−１〜１０１２−nは、例えば、レンズ１５１の位置が等間隔で異なる場合のボケ画像であってもよい。複数のボケ画像１０１２−１〜１０１２−nは、例えば、レンズ１５１の位置が等間隔ではなく異なる場合のボケ画像であってもよい。

点拡がり関数としては、ＲＯＩ１０１１の撮像に使用されるレンズ１５１の特性と同じ特性を有する関数が用いられる。これにより、点拡がり関数は、レンズ１５１が用いられる場合と同様なボケを実現する。
複数のボケ画像１０１２−１〜１０１２−ｎの数は、２以上であればよく、多い方が良い。

入力層１２１に、ＲＯＩ１０１１と、複数のボケ画像１０１２−１〜１０１２−ｎと、レンズ情報１０１３とが入力される。
入力層１２１は、入力された情報に対して所定の演算を行い、その演算の結果を隠れ層１２２に出力する。
隠れ層１２２では、畳み込み部１３１が、入力層１２１から入力された情報に対して畳み込み（Convolution）の処理を行う。次に、隠れ層１２２では、プーリング部１３２が、畳み込みの結果に対して、プーリング（Pooling）の処理を行う。次に、隠れ層１２２では、発火部１３３が、プーリングの結果に対して、発火（例えば、ＲｅＬＵ関数）の処理を行う。
隠れ層１２２では、発火部１３３が、発火の結果を隠れ層１２３に出力する。

隠れ層１２３では、隠れ層１２２から入力された情報に対して、隠れ層１２２と同様な処理を行う。
すなわち、畳み込み部１４１は、畳み込み部１３１と同様な処理を行う。プーリング部１４２は、プーリング部１３２と同様な処理を行う。発火部１４３は、発火部１３３と同様な処理を行う。
隠れ層１２３では、発火部１４３が、発火の結果を全結合層１２４に出力する。
ここで、それぞれの隠れ層１２２、１２３の畳み込み部１３１、１４１は、フィルタ係数を用いて畳み込みの処理を行う。学習の初期には、当該フィルタ係数として、初期値が設定される。学習中には、当該フィルタ係数が更新されていく。当該フィルタ係数は、重み付け係数などとも呼ばれる。当該フィルタ係数の値は、重み付け値などとも呼ばれる。
なお、本実施形態では、演算部１１１が、２層の隠れ層１２２、１２３を備える場合を示すが、これに限られない。例えば、演算部１１１は、３層以上の隠れ層を備えてもよい。また、演算部１１１は、１層の隠れ層を備えてもよい。

全結合層１２４は、隠れ層１２３から入力された情報に対して、全結合の処理を行う。全結合層１２４は、全結合の結果を出力層１２５に出力する。
出力層１２５は、全結合層１２４から入力された情報に対して所定の演算を行い、その演算の結果を算出部１２６に出力する。
算出部１２６は、出力層１２５から入力された情報に対して、ソフトマックス関数を施す。これにより、算出部１２６は、パラメータの値と、当該値となる確率との対応を算出する。当該対応は、パラメータの複数の異なる値と、それぞれの値となる確率との対応であってもよい。算出部１２６は、当該対応を比較部１１５に出力する。

記憶部１１４は、主題情報１０２４を記憶する。記憶部１１４は、メモリである。主題情報１０２４は、例えば、学習装置１１を使用するユーザによって記憶部１１４に記憶されてもよい。ここで、主題情報１０２４は、真値である。真値は、演算部１１１への入力情報に対する適正な出力情報を表す。本実施形態では、真値は、ＲＯＩ１０１１とレンズ情報１０１３と複数のボケ画像１０１２−１〜１０１２−ｎに対する適正なレンズ１５１の合焦位置を表す。
なお、主題情報１０２４としては、例えば、レンズ１５１が特定の焦点距離の位置にある場合に様々な条件で撮像された大量の画像に基づく情報であってもよい。当該条件としては、例えば、Ｆ値、露出、ＲＯＩなどのうちの１以上に関する条件であってもよい。

比較部１１５は、算出部１２６から入力された情報と、記憶部１１４に記憶された主題情報１０２４とを比較する。比較部１１５によって比較に用いる主題情報１０２４は、例えば、ユーザによって指定されてもよい。
そして、比較部１１５は、比較の結果に基づいて、当該情報と当該主題情報１０２４との一致度を高めるように、演算部１１１に設定される畳み込み部１３１、１４１のフィルタ係数を更新する。また、比較部１１５は、当該情報と当該主題情報１０２４との一致度が所定の閾値に達した場合に、学習が完了であることを判定する。学習が完了になった場合には、その時点のフィルタ係数が学習結果として記憶部１１４あるいは演算部１１１などに記憶される。

図２を用いて、本発明の一実施形態に係る隠れ層１２２、１２３における処理の詳細を説明する。なお、本実施形態では、隠れ層１２２における処理と、隠れ層１２３における処理とは同様である。このため、ここでは、隠れ層１２２における処理を説明する。
本実施形態では、チャネル情報１００１が隠れ層１２２に入力される。
チャネル情報１００１は、ＲＯＩ１０１１と、ｎ個のボケ画像１０１２−１〜１０１２−ｎと、レンズ位置画像１０２１と、露出画像１０２２と、Ｆ値画像１０２３を含む。これらの画像は、すべて、幅（width）と高さ（height）が均一である。また、チャネル情報１００１に含まれるすべての画像の数がｍ（ｍは整数を表す。）であるとする。

ここで、レンズ位置画像１０２１は、ＲＯＩ１０１１が撮像された時点におけるレンズ１５１の位置を特定する情報を含む。露出画像１０２２は、ＲＯＩ１０１１が撮像された時点における露出を特定する情報を含む。Ｆ値画像１０２３は、ＲＯＩ１０１１が撮像された時点におけるＦ値を特定する情報を含む。

レンズ位置画像１０２１は、画像中の任意の箇所にレンズ１５１の位置を特定する情報を含んでもよい。また、レンズ位置画像１０２１では、レンズ１５１の位置を特定する情報が含まれない箇所は０値であってもよい。
同様に、露出画像１０２２は、画像中の任意の箇所にレンズ１５１の露出を特定する情報を含んでもよい。また、露出画像１０２２では、レンズ１５１の露出を特定する情報が含まれない箇所は０値であってもよい。
同様に、Ｆ値画像１０２３は、画像中の任意の箇所にＦ値を特定する情報を含んでもよい。また、Ｆ値画像１０２３では、Ｆ値を特定する情報が含まれない箇所は０値であってもよい。

なお、本実施形態では、レンズ位置画像１０２１と、露出画像１０２２と、Ｆ値画像１０２３とを別の画像としたが、これに限られない。例えば、これらのうちの２以上の画像に含まれる情報が、共通の画像とされてもよい。
また、露出画像１０２２と、Ｆ値画像１０２３のうちの一方または両方がチャネル情報１００１に含まれなくてもよい。

畳み込み部１３１は、畳み込み演算を行う。
畳み込み演算では、Ｎを１以上の整数として、Ｎ個のフィルタ情報１０３１−１〜１０３１−Ｎを用いる。それぞれのフィルタ情報１０３１−１〜１０３１−Ｎは、チャネル情報１００１と同じｍチャネルの情報である。それぞれのフィルタ情報１０３１−１〜１０３１−Ｎは、チャネルごとに複数の画素を有する。それぞれの画素には、それぞれの画素のフィルタ係数の値が設定されている。

畳み込み演算では、特徴マップ１１０１を取得する。
特徴マップ１１０１は、Ｎ個の特徴画像１１１１−１〜１１１１−Ｎを含む。それぞれの特徴画像１１１１−１〜１１１１−Ｎは、それぞれのチャネルの畳み込み演算の結果を含む。

プーリング部１３２は、プーリング演算を行う。
プーリング演算では、畳み込み演算によって取得された特徴マップ１１０１を、さらに縮小して新たな特徴マップ（図示せず）を生成する。プーリング演算では、例えば、画像における注目領域の出力値が最大値となる領域を取得し、これにより特徴を抽出する。
図２の例では、特徴マップ１１０１に含まれる１つのチャネルの一部の画素情報１１２１を示してある。画素情報１１２１のうち、縦に２個および横に２個の画素の領域を注目領域１１２２とする。プーリング演算では、注目領域１１２２に含まれる４個の画素の画素値ｐ０〜ｐ４のうち、最大となる値を当該注目領域１１２２の出力値として出力する。

ここで、畳み込み演算は画像の局所的な特徴を抽出する。そして、プーリング演算は、畳み込み演算によって抽出された局所的な特徴をさらにまとめる。これらの演算によって、入力画像の特徴を維持しながら、当該入力画像を縮小していく。

発火部１３３は、発火演算を行う。
発火演算では、プーリング演算によって抽出された特徴マップ（図示せず）に対して、それぞれの画素の画素値に所定の関数を演算する。当該所定の関数は、例えば、画素値が０未満である場合に０を出力する。また、当該所定の関数は、例えば、画素値が０以上である場合に所定の値ａを出力する。
図２の例では、発火演算によって得られた特徴マップ１１３１は、発火の関数の結果を含む。当該特徴マップ１１３１は、例えば、Ｎ個のチャネルを有する。当該特徴マップ１１３１は、例えば、チャネル情報１００１と比べて、幅が１／２となっており、高さが１／２となっている。

ここで、図３は、本発明の一実施形態に係るＲＮＮ（Recurrent Neural Network）のイメージの一例を示す図である。
ＲＮＮでは、所定の処理部において、繰り返し処理を実行するなかで、前回以前の処理結果の一部を引き継いで演算を行う。

図３には、説明の便宜上、横軸に時間を示してある。
図３の例では、時間が早い方から遅い方への順で、時間ｔ１〜ｔＬを示してある。Ｌは２以上の整数を表す。
一例として、撮像装置１２に対する被写体２１の配置関係が固定されたまま、撮像装置１２のレンズ１５１が光軸に沿って一定の方向に一定速度で移動する場合を想定する。

図３に示されるｎ個の処理部１６１−１〜１６１−Ｌは、同じ処理部であるが、時間ｔ１〜ｔＬによってフィルタ係数が更新されていくイメージを示してある。
なお、当該処理部は、例えば、１つの隠れ層１２２に相当する処理部であってもよい。また、当該処理部は、例えば、演算部１１１における任意の部分であってもよい。
また、説明の便宜上、各時間ｔ１〜ｔＬに処理部１６１−１〜１６１−Ｌに入力される情報を撮像情報１０２５−１〜１０２５−Ｌとして説明する。撮像情報１０２５−１〜１０２５−Ｌは、ＲＯＩに関する情報とともに、レンズに関する情報を含んでもよい。
図３の説明では、撮像装置１２のレンズ１５１の位置を、基準位置からの所定方向へのずれｄ１〜ｄＬで表す。

まず、時間ｔ１では、撮像装置１２のレンズ１５１の位置がｄ１である。撮像情報１０２５−１は、このレンズ１５１の位置で撮像された画像から抽出された画像に関する情報である。
処理部１６１−１は、撮像情報１０２５−１を入力して、所定の演算結果を出力する。また、処理部１６１−１は、当該演算結果を求める際に得られた情報を、次の時間ｔ２に当該処理部１６１−１によって使用するために、当該処理部１６１−１に出力する。

時間ｔ２以降においても、時間ｔ１における処理部１６１−１と同様な動作を行う。
すなわち、ｉ＝１〜Ｌとして、時間ｔｉでは、撮像装置１２のレンズ１５１の位置がｄｉである。撮像情報１０２５−ｉは、このレンズ１５１の位置で撮像された画像から抽出された画像に関する情報である。
処理部１６１−ｉは、撮像情報１０２５−ｉを入力して、所定の演算結果を出力する。また、処理部１６１−ｉは、当該演算結果を求める際に得られた情報を、次の時間ｔ（ｉ＋１）に当該処理部１６１−ｉによって使用するために、当該処理部１６１−ｉに出力する。

このように、図３の例では、所定の処理部が、時間的に変化するレンズ１５１の位置ごとに、過去の演算で得られた情報を未来の演算で使用するために自己に伝達する。
このように、ＲＮＮでは、時間的に前後する情報の関連性を用いることで、学習の効果を高めることが可能である。

図３の例では、好ましい一例として、複数のボケ画像１０１２−１〜１０１２−ｎは、それぞれの時間ｔ１〜ｔＬにおけるレンズ１５１の位置と同じレンズ位置が想定されたボケ画像を含む。なお、複数のボケ画像１０１２−１〜１０１２−ｎは、他のレンズ位置が想定された画像を含んでもよい。

図４は、本発明の一実施形態に係る主題情報２０１１の一例を示す図である。
主題情報２０１１は、ＲＯＩごとに、レンズの位置、Ｆ値、露出の値（露出値）を格納する。主題情報２０１１は、例えば、図１に示される主題情報１０２４として使用される。レンズの位置とは例えばフォーカスレンズの位置である。

図５は、本発明の一実施形態に係る撮像情報２０１２の一例を示す図である。
撮像情報２０１２は、ＲＯＩごとに、レンズの位置、Ｆ値、露出の値（露出値）を格納する。撮像情報２０１２は、撮像装置１２によりＲＯＩの画像が撮像されたときの情報である。

図６は、本発明の一実施形態に係る学習結果２０１３の一例を示す図である。
学習結果２０１３は、パラメータの各値と、確率とを対応付けて格納する。図６の例では、パラメータとして、レンズ１５１の合焦位置に相当する焦点距離が用いられている。
学習結果２０１３は、学習装置１１により学習が行われた結果である。

学習装置１１は、学習結果２０１３が主題情報２０１１に近付くように、演算部１１１のフィルタ係数を更新していく。
例えば、主題情報２０１１に、レンズ１５１の所定の焦点距離（説明の便宜上、第１の焦点距離という。）において、Ｆ値および露出を様々な条件として撮像したときの情報が設定される。また、学習装置１１では、主題情報２０１１に含まれる１つまたは複数のＲＯＩと、レンズ情報と、多数のボケ画像を使用して、学習のための演算を行う。そして、学習装置１１では、この演算の結果として得られる第１の焦点距離の推定確率が所定の確率以上になるまで、比較部１１５による比較およびフィルタ係数の更新を行う。学習装置１１では、第１の焦点距離の推定確率が所定の確率以上になったときに、学習を完了する。

具体例として、学習装置１１では、ＲＯＩ（１）とレンズ情報と多数のボケ画像を入力して演算を行う。そして、学習装置１１では、比較部１１５による比較の結果、第１の焦点距離の推定確率が所定の確率よりも低いと判定した場合には、フィルタ係数を更新する。その後、学習装置１１では、ＲＯＩ（２）とレンズ情報と多数のボケ画像を入力して演算を行う。そして、学習装置１１では、比較部１１５による比較の結果、第１の焦点距離の推定確率が所定の確率よりも低いと判定した場合には、フィルタ係数を更新する。以降も同様に、学習装置１１では、第１の焦点距離における確率が所定の確率以上となるまで、同様な処理を繰り返して行う。
このように、学習装置１１では、例えば、ＲＯＩ（１）、ＲＯＩ（２）、・・・というように、異なるＲＯＩを使用して何度も繰り返して学習を行うことで、理想的なフィルタ係数を取得することができる。なお、１つのＲＯＩが学習に使用されてもよい。学習に２つ以上の異なるＲＯＩが使用される場合、例えば、学習に１つのＲＯＩが使用される場合よりも、多様なＲＯＩの画像に適用することが可能である。

図７は、本発明の一実施形態に係るチャネル情報１２０１の他の一例を示す図である。
チャネル情報１２０１は、ＲＯＩ１２１１と、ｎ個のボケ画像１２１２−１〜１２１２−ｎを含む。これらの画像は、すべて、幅（width）と高さ（height）が均一である。
図７に示されるチャネル情報１２０１は、図２に示されるチャネル情報１００１と比べて、レンズ位置画像１０２１と、露出画像１０２２と、Ｆ値画像１０２３を含まない。図７の例では、レンズ位置画像１０２１と、露出画像１０２２と、Ｆ値画像１０２３は、例えば、チャネル情報１２０１とは別に学習装置１１に入力されて使用されてもよい。つまり、レンズ情報１０１３は、学習装置１１において、画像以外の形式で利用されてもよい。

本実施形態に係る学習装置１１では、例えば、次のような処理を行う。
すなわち、演算部１１１は、合焦位置に対応するレンズ１５１の位置において取得されたＲＯＩ１０１１を取得する。また、演算部１１１は、当該ＲＯＩ１０１１が撮像されたときのレンズ情報１０１３を取得する。そして、演算部１１１は、合焦位置に対応するレンズ位置において取得された基準画像１０１４から取得された複数のボケ画像１０１２−１〜１０１２−ｎ、当該ＲＯＩ１０１１、およびレンズ情報１０１３を、学習モデルに入力する。演算部１１１および比較部１１５は、合焦位置に対応するレンズ位置から予め定められた位置にまで近付くように、フィルタ係数（重み付け値）を更新して調整することで、パラメータを演算する。このようにして得られたパラメータは、合焦位置に対応するレンズ位置から予め定められた位置にまで近付いた値となる。ここで、合焦位置に対応するレンズ位置から予め定められた位置は、例えば、誤差が許容される範囲で任意に設定されてもよい。

このように、本実施形態に係る学習装置１１では、所定の合焦位置に対応するレンズ位置で取得された画像と、当該所定の合焦位置に対応するレンズ位置で取得された基準画像１０１４から生成された複数のボケ画像１０１２−１〜１０１２−ｎを用いて、機械学習を行う。その過程で、本実施形態に係る学習装置１１では、学習モデルの重み付け値を調整しながら、理想的なアルゴリズムを算出する。

なお、本実施形態では、パラメータの推論により得られる値は、例えば、厳密な真値と一致しなくてもよく、実用上で有効な程度で、真値に対して予め定められた範囲内でずれていてもよい。
また、本実施形態に係る学習装置１１では、例えば、複数の異なるＲＯＩに関する情報が学習モデルに入力されて学習が行われてもよい。複数の異なるＲＯＩは、例えば、複数の異なる合焦枠に対応するものであり、複数の合焦位置に対応し、複数のレンズ位置において取得された画像である。例えば、撮像装置１２によって撮像された画像に複数の異なる合焦枠が存在し、それぞれの合焦枠ごとにＲＯＩが得られる。

次に、学習結果に基づく推論を使用する撮像装置について説明する。
図８は、本発明の一実施形態に係る撮像装置２０１の概略的な外観の構造を示す図である。
撮像装置２０１は、概略的に、本体部２１１と、鏡筒部２１２とを備える。鏡筒部２１２は、レンズ２１３を備える。本体部２１１は、ボタン２１４〜２１６と、ファインダー２１７とを備える。
ここで、各ボタン２１４〜２１６は、ユーザによって操作されて、例えば、電源、シャッター、露光などに関する予め定められた指示を受け付ける。
なお、撮像装置２０１の構造は、図８に示される構造に限定されず、他の構造が用いられてもよい。
ここで、本実施形態では、撮像装置２０１を図１に示される撮像装置１２とは別の装置として説明する。撮像装置２０１は、図１に示される撮像装置１２と同じ装置であってもよい。

図９は、本発明の一実施形態に係る撮像装置２０１の概略的な機能構成を示す図である。
撮像装置２０１は、鏡筒部２１２に、レンズ２１３と、環状の回転カム２２１と、レンズ枠２３１と、位置検出素子２３２とを備える。撮像装置２０１は、本体部２１１に、ギアボックス２２２と、撮像部２２３とを備える。
ギアボックス２２２は、ＤＣ（Direct Current）モータ２５１と、ギア２５２と、２相の回転センサ２５３とを備える。
撮像部２２３は、撮像素子２４１と、操作部２４２と、表示部２４３と、メモリ２４４と、制御部２４５とを備える。制御部２４５は、取得部３１１と、演算部３１２と、合焦部３１３とを備える。

鏡筒部２１２の構成について説明する。
レンズ２１３はレンズ枠２３１に取り付けられて支持される。レンズ枠２３１には、回転カム２２１に設けられたカム溝（図示せず）に嵌合するカムピン（図示せず）が設けられている。そして、回転カム２２１の回転機構によって、レンズ枠２３１はカム溝に沿って移動することが可能である。これにより、レンズ枠２３１に取り付けられたレンズ２１３は、所定の移動可能軸Ｄ１に沿って移動することが可能である。レンズ２１３の移動可能軸Ｄ１は、レンズ２１３の光軸に平行な軸である。つまり、レンズ２１３は、当該レンズ２１３の光軸に沿って移動することが可能である。回転カム２２１が所定の回転方向に回転させられると、レンズ２１３が移動可能軸Ｄ１に沿った所定の一の方向に移動する。逆に、回転カム２２１が当該所定の回転方向とは反対の方向に回転させられると、レンズ２１３が移動可能軸Ｄ１に沿った当該一の方向とは反対の方向に移動する。なお、図９には、レンズ２１３の移動可能軸Ｄ１を示してある。

位置検出素子２３２としては、任意の素子が用いられてもよい。一例として、位置検出素子２３２としては、磁気抵抗効果素子であるＭＲ（Magneto Resistive）センサが用いられてもよい。
位置検出素子２３２は、レンズ２１３の相対的な位置を検出する。なお、位置検出素子２３２は、レンズ２１３の基準位置が定められる場合に、当該基準位置からの相対的な位置を検出してもよい。当該位置は絶対的な位置となる。さらに、位置検出素子２３２は、レンズ２１３の移動方向を検出してもよい。
位置検出素子２３２は、検出されたレンズ２１３の位置に関する情報を制御部２４５に出力する。
なお、レンズ２１３としては、様々なレンズが用いられてもよく、例えば、交換可能なレンズが用いられてもよい。

ギアボックス２２２の構成について説明する。
ここで、ギア２５２は、例えば、複数のギアがかみ合った構成を有しているが、本実施形態では、説明の便宜上、１個のギアに着目して説明する。
ＤＣモータ２５１は、制御部２４５によって制御されて、ギア２５２を回転させる。ギア２５２の回転によって回転カム２２１が回転させられることで、レンズ２１３が移動可能軸Ｄ１に沿って移動する構成となっている。ギア２５２が所定の回転方向に回転させられると、レンズ２１３が移動可能軸Ｄ１に沿った所定の一の方向に移動する。逆に、ギア２５２が当該所定の回転方向とは反対の方向に回転させられると、レンズ２１３が移動可能軸Ｄ１に沿った当該一の方向とは反対の方向に移動する。

回転センサ２５３は、ギア２５２の回転量を検出する。ギア２５２が同一の方向に回転させられる間、発生したパルスの数とギア２５２の回転量とが比例する。また、ギア２５２の回転量とレンズ２１３の移動量とが比例する。
また、本実施形態では、回転センサ２５３は、回転量に応じた波形として、サイン波とコサイン波といった２相の波形を検出する。これにより、回転センサ２５３によって、ギア２５２の回転量とともに、ギア２５２が回転する方向を特定することが可能である。
回転センサ２５３は、検出された回転量および回転方向を表す情報を制御部２４５に出力する。

なお、本実施形態では、位置検出素子２３２によってレンズ２１３の位置を特定する情報を検出するが、これに限られない。例えば、制御部２４５は、回転センサ２５３によって検出されるギア２５２の回転量に基づいて、レンズ２１３の位置を特定する情報を検出してもよい。

撮像部２２３の構成について説明する。
撮像素子２４１は、レンズ２１３の光軸上に配置されている。撮像素子２４１は、レンズ２１３を通過した光により得られる画像を撮像する。撮像素子２４１は、撮像された画像を制御部２４５に出力する。

操作部２４２は、ユーザによって操作されるボタンなどである。操作部２４２は、本実施形態では、図８に示されるボタン２１４〜２１６などを備える。
表示部２４３は、撮像素子２４１から得られる画像などを表示する画面を有する。表示部２４３は、本実施形態では、図８に示されるファインダー２１７の画面に画像を表示する。
メモリ２４４は、情報を記憶する。メモリ２４４は、本実施形態では、制御部２４５によって制御される。なお、本実施形態では、撮像部２２３にメモリ２４４が備えられる場合を示すが、メモリがレンズ２１３などに備えられる構成が用いられてもよい。

メモリ２４４には、図１に示される学習装置１１により用いられた複数のボケ画像１０１２−１〜１０１２−ｎを記憶している。なお、メモリ２４４には、基準画像１０１４が記憶されていてもよい。この場合、撮像装置２０１は、ＰＳＦ部（図示せず）を備え、当該ＰＳＦ部によって、当該基準画像１０１４から複数のボケ画像１０１２−１〜１０１２−ｎを生成する。

制御部２４５は、撮像に関する各種の制御を行う。制御部２４５は、例えば、操作部２４２に対する操作を受け付ける処理、表示部２４３の画面に画像を表示する処理、撮像素子２４１から画像を受信する処理、メモリ２４４に情報を記憶する処理、メモリ２４４から情報を削除する処理、ＤＣモータ２５１を駆動させる処理、回転センサ２５３から回転に関する情報を受信する処理、位置検出素子２３２からレンズ２１３の位置に関する情報を受信する処理などの制御を行う。
例えば、制御部２４５では、ＤＣモータ２５１の駆動を制御して、レンズ２１３を移動可能軸Ｄ１に沿って移動させる。これにより、レンズ２１３が移動可能軸Ｄ１に沿って移動する。また、制御部２４５は、ＤＣモータ２５１の駆動を制御する際に、Ｆ値、露出等を検出してもよい。

取得部３１１は、撮像素子２４１から得られる画像を取得する。当該画像は、表示部２４３の画面に表示される。また、当該画像は、シャッターボタンが押された場合、撮像された画像としてメモリ２４４に記憶される。当該シャッターボタンは、例えば、ボタン２１５である。
また、取得部３１１は、取得された画像からＲＯＩを抽出する。

また、取得部３１１は、位置検出素子２３２から当該位置検出素子２３２によって検出されたレンズ２１３の位置に関する情報を取得する。また、取得部３１１は、Ｆ値に関する情報および露光に関する情報を取得する。つまり、取得部３１１は、図１に示されるレンズ情報１０１３と同様なレンズ情報を取得する。
なお、メモリ２４４以外にも鏡筒部２１２内にもメモリ（図示せず）が設けられてもよい。鏡筒部２１２内のメモリにはメモリ２４４に対して格納される情報と同じ情報を格納することができる。鏡筒部２１２内のメモリにはレンズ２１３を駆動させるための情報を格納することができる。

また、取得部３１１は、回転センサ２５３から当該回転センサ２５３によって検出された回転に関する情報を取得する。
ここで、回転センサ２５３によって検出される回転量は、レンズ２１３の絶対的な位置ではなく、レンズ２１３の相対的な位置を特定する。

なお、本実施形態では、２相の位置検出素子２３２を用いる場合を示すが、３相以上の位置検出素子が用いられてもよい。また、１相の位置検出素子が用いられてもよい。１相の位置検出素子が用いられる場合、レンズ２１３の移動方向は、例えば、制御部２４５によって、ＤＣモータ２５１の駆動方向などに基づいて判定されてもよい。
同様に、本実施形態では、２相の回転センサ２５３を用いる場合を示すが、３相以上の回転センサが用いられてもよい。また、１相の回転センサが用いられてもよい。１相の回転センサが用いられる場合、レンズ２１３の移動方向は、例えば、制御部２４５によって、ＤＣモータ２５１の駆動方向などに基づいて判定されてもよい。

演算部３１２は、図１に示される学習装置１１の演算部１１１と同様な機能を有している。ここで、演算部３１２は、図１に示される学習装置１１の演算部１１１と比べて、例えば、ＲＮＮのフィードバックの機能を備えていなくてもよい。なお、演算部３１２は、図１に示される学習装置１１の演算部１１１と同様に、例えば、ＲＮＮのフィードバックの機能を備えてもよい。
演算部３１２では、それぞれの隠れ層の畳み込み部（図示せず）には、図１に示される学習装置１１によって既に行われた学習の結果が設定されている。具体的には、畳み込み部のフィルタ係数として、学習の結果として最終的に得られたフィルタ係数が設定されている。

演算部３１２は、取得部３１１によって取得されたＲＯＩとレンズ情報と、複数のボケ画像１０１２−１〜１０１２−ｎを用いて、図１に示される学習装置１１の演算部１１１と同様な演算を行う。これにより、演算部３１２は、パラメータの値と推定確率との対応を取得する。そして、演算部３１２は、推定確率が最も高いパラメータの値を採用する。本実施形態では、当該パラメータは、レンズ２１３の合焦位置である。
合焦部３１３は、ＤＣモータ２５１の駆動を制御することで、演算部３１２によって演算された情報によって特定される合焦位置に、レンズ２１３を移動させる制御を行う。

このように、図９の例では、撮像装置２０１によって、得られた画像のＲＯＩとレンズ情報と複数のボケ画像１０１２−１〜１０１２−ｎに基づいて、オートフォーカスの制御による合焦位置を決定することができる。
ここで、図１に示される学習装置１１による学習結果であるフィルタ係数は、それぞれの撮像装置２０１に搭載される演算部３１２に設定される。学習は、例えば、撮像装置２０１の出荷前に行われる。そして、それぞれの撮像装置２０１は、例えば、学習結果であるフィルタ係数が設定された状態で出荷される。なお、撮像装置２０１の出荷後には、例えば、撮像装置２０１に設定されたフィルタ係数は固定され、さらなる学習はされない。

図１０は、本発明の他の実施形態に係る撮像システム４０１の概略的な機能構成を示す図である。
撮像システム４０１は、サーバ装置４１１と、撮像装置４１２と、ネットワーク４１３とを備える。
ネットワーク４１３は、例えば、無線のネットワークであってもよく、あるいは、有線のネットワークであってもよい。なお、ネットワーク４１３では、例えば、基地局装置（図示せず）などによって、サーバ装置４１１あるいは撮像装置４１２と通信してもよい。
ここで、撮像装置４１２の外観は、図８に示される撮像装置２０１の外観と同様である。図１０の例では、図８および図９に示されるものと同じ部分については、同じ符号を付して説明する。

撮像装置４１２について説明する。
撮像装置４１２は、鏡筒部２１２に、レンズ２１３と、環状の回転カム２２１と、レンズ枠２３１と、位置検出素子２３２とを備える。撮像装置４１２は、本体部２１１に、ギアボックス２２２と、撮像部４２１とを備える。
ここで、鏡筒部２１２の機能ブロックと、ギアボックス２２２の機能ブロックは、図９に示される撮像装置２０１と同様である。

撮像部４２１は、撮像素子２４１と、操作部２４２と、表示部２４３と、メモリ２４４と、外部インタフェース４５１と、制御部４５２とを備える。制御部４５２は、取得部４７１と、送信部４７２と、受信部４７３と、合焦部４７４とを備える。
ここで、撮像素子２４１と、操作部２４２と、表示部２４３と、メモリ２４４は、図９に示される撮像装置２０１の場合と同様である。

外部インタフェース４５１は、ネットワーク４１３を介してサーバ装置４１１と通信するインタフェースである。ネットワーク４１３が無線のネットワークである場合には、外部インタフェース４５１は無線通信する機能を有する。ネットワーク４１３が有線のネットワークである場合には、外部インタフェース４５１は有線通信する機能を有する。

取得部４７１は、図９に示される撮像装置２０１の取得部３１１と同様な機能を有している。
送信部４７２は、取得部４７１により取得された画像のＲＯＩと、レンズ情報を、ネットワーク４１３を介して、サーバ装置４１１に送信する。当該レンズ情報は、当該画像が撮像されたときの情報である。
受信部４７３は、サーバ装置４１１からネットワーク４１３を介して伝送されてきたレンズ２１３の合焦位置を特定する情報を受信する。
合焦部４７４は、ＤＣモータ２５１の駆動を制御することで、受信部４７３により受信された情報によって特定される合焦位置に、レンズ２１３を移動させる制御を行う。

サーバ装置４１１について説明する。
サーバ装置４１１は、受信部４３１と、演算部４３２と、送信部４３３と、記憶部４３４とを備える。

記憶部４３４は、図１に示される学習装置１１により用いられた複数のボケ画像１０１２−１〜１０１２−ｎを記憶する。なお、記憶部４３４には、基準画像１０１４が記憶されていてもよい。この場合、サーバ装置４１１は、ＰＳＦ部（図示せず）を備え、当該ＰＳＦ部によって、当該基準画像１０１４から複数のボケ画像１０１２−１〜１０１２−ｎを生成する。記憶部４３４は、メモリである。
受信部４３１は、撮像装置４１２からネットワーク４１３を介して伝送されてきたＲＯＩとレンズ情報を受信する。

演算部４３２は、図１に示される学習装置１１の演算部１１１と同様な機能を有している。ここで、演算部４３２は、図１に示される学習装置１１の演算部１１１と比べて、例えば、ＲＮＮのフィードバックの機能を備えていなくてもよい。なお、演算部４３２は、図１に示される学習装置１１の演算部１１１と同様に、例えば、ＲＮＮのフィードバックの機能を備えてもよい。
演算部４３２では、それぞれの隠れ層の畳み込み部（図示せず）には、図１に示される学習装置１１によって既に行われた学習の結果が設定されている。具体的には、畳み込み部のフィルタ係数として、学習の結果として最終的に得られたフィルタ係数が設定されている。

演算部４３２は、受信部４３１により受信されたＲＯＩとレンズ情報と、記憶部４３４に記憶された複数のボケ画像１０１２−１〜１０１２−ｎを用いて、図１に示される学習装置１１の演算部１１１と同様な演算を行う。これにより、演算部４３２は、パラメータの値と推定確率との対応を取得する。そして、演算部４３２は、推定確率が最も高いパラメータの値を採用する。本実施形態では、当該パラメータは、レンズ２１３の合焦位置である。
送信部４３３は、演算部４３２により取得されたパラメータの値を特定する情報をネットワーク４１３を介して撮像装置４１２に送信する。これにより、撮像装置４１２では、当該情報に基づいて、レンズ２１３を合焦位置に移動させる制御を行う。

このように、図１０の例では、撮像装置４１２によって、得られた画像のＲＯＩとレンズ情報に基づいて、サーバ装置４１１によって、オートフォーカスの制御による合焦位置を決定することができる。
具体的には、撮像システム４０１では、撮像装置４１２によって得られた画像のＲＯＩおよびレンズ情報をネットワーク４１３を介してサーバ装置４１１に送信する。サーバ装置４１１は、撮像装置４１２から受信されたＲＯＩおよびレンズ情報を用いて所定の演算を行い、合焦位置を推定して、当該合焦位置を撮像装置４１２に通知する。これにより、撮像装置４１２では、適正な合焦位置を把握することができる。
なお、図１０には、１個の撮像装置４１２を示したが、複数の撮像装置４１２に対して１個のサーバ装置４１１が対応することが可能である。

以上のように、本実施形態に係る学習システム１、撮像装置２０１あるいは撮像システム４０１では、ニューラルネットワークを用いてレンズ２１３の合焦位置を推定することで、合焦位置の推定精度を向上させることができる。また、ＲＮＮとＤＮＮとの一方または両方を用いることで、推定精度の向上を図ることができる。
本実施形態に係る学習システム１、撮像装置２０１あるいは撮像システム４０１では、テストチャートから生成された複数のボケ画像１０１２−１〜１０１２−ｎを用いて合焦位置を推定することで、合焦位置の推定精度を向上させることができる。
本実施形態に係る学習システム１、撮像装置２０１あるいは撮像システム４０１では、例えば、レンズ２１３のユニットに応じて発生し得る推定のバラツキを無視できる程度に、推定精度を向上させることができる。

また、本実施形態に係る撮像装置２０１あるいは撮像システム４０１では、例えば、１枚の画像およびそのレンズ情報を取得することで、オートフォーカスによる制御で、合焦位置を決定することが可能である。この場合、本実施形態に係る撮像装置２０１あるいは撮像システム４０１では、例えば、コントラストの評価値などを用いる従来のＡＦ方式と比べて、合焦位置の推定速度を向上させることができる。

また、本実施形態に係る学習システム１では、演算のアルゴリズム自体を調整しなくても、演算に使用されるフィルタ係数を更新することで、推定精度を向上させることができる。このため、本実施形態に係る学習システム１では、例えば、推定精度が良好ではない状況のデータを用いた学習を行うことで、当該状況における推定精度を向上させるように、フィルタ係数を更新することができる。

具体的には、学習装置１１では、演算部１１１（演算部１１１は、取得部の一例である。）が、合焦位置に対応するレンズ位置において取得された第１の画像（図１の例では、ＲＯＩ１０１１）、および第１の画像が撮像されたときの第１の情報（図１の例では、レンズ情報１０１３）を取得する。そして、演算部１１１および比較部１１５（演算部１１１および比較部１１５は、制御部の一例である。）が、合焦位置に対応するレンズ位置において取得された基準画像（図１の例では、基準画像１０１４）から取得された複数の第２の画像（図１の例では、ボケ画像１０１２−１〜１０１２−ｎ）、第１の画像、および第１の情報から得られる特徴マップ（図２の例では、特徴マップ１１３１）に基づくパラメータ（図１の例では、演算部１１１による演算結果）に対応するレンズ位置が合焦位置に対応するレンズ位置から予め定められた位置にまで近付くように当該パラメータの演算で用いられる重み付け値（図１の例では、演算部１１１での演算に使用されるフィルタ係数）を調整することで当該パラメータを演算する。
制御部は、例えば、複数の第２の画像、第１の画像、および第１の情報に対して少なくとも畳み込み演算およびプーリング演算を行うことで特徴マップを得る。
制御部は、例えば、重み付け値をフィルタ係数の値とするフィルタを用いて畳み込み演算を行う。

ここで、第２の画像は、例えば、基準画像が取得されたレンズ位置からずれたレンズ位置に対応するボケ画像である。
また、第２の画像は、例えば、基準画像に点拡がり関数が施されて取得された画像である。
また、点拡がり関数は、例えば、第１の画像が取得されたときに用いられたレンズ（図１の例では、レンズ１５１）と同じレンズ特性を有する。
また、基準画像は、例えば、テストチャートまたはカラーチャートである。
また、基準画像は、例えば、解像度、歪み、色収差、あるいは、周波数特性のうちの１以上を測定するために用いられる。

また、学習装置１１では、例えば、複数の合焦枠に対応する複数の合焦位置について、これら複数の合焦位置に対応する複数のレンズ位置において複数の第１の画像（図１の例では、複数の異なるＲＯＩ１０１１）が取得されてもよい。
また、第１の情報は、例えば、露出値あるいはＦ値のうちの少なくとも１つを含む。
また、例えば、パラメータは、撮像装置（図９、図１０の例では、撮像装置２０１、４１２）の合焦に用いられる。

また、本実施形態に係る撮像装置２０１では、取得部３１１が、第１の画像（図９の例では、ＲＯＩ）および当該第１の画像が撮像されたときの情報（図９の例では、レンズ情報）を取得する。制御部２４５が、取得された第１の画像、当該情報、およびパラメータの適正値からのずれごとに対応した複数の第２の画像（図９の例では、複数のボケ画像）を、パラメータの適正値を推定する学習モデル（図９の例では、演算部３１２の学習モデル）に入力することで、第１の画像の撮像に適したパラメータ（図９の例では、合焦位置）を演算する。
ここで、パラメータは、例えば、第１の画像の撮像に使用されるレンズ２１３の合焦に関するパラメータである。複数の第２の画像は、例えば、基準画像に対してパラメータの適正値からのずれごとに応じた点拡がり関数が施されて生成された画像である。
また、本実施形態に係る撮像装置２０１では、操作を受け付ける操作部２４２と、第３の画像を表示する表示部２４３と、第３の画像を撮像する撮像素子２４１と、を備える。なお、第３の画像は、任意の画像であってもよい。

また、本実施形態に係るサーバ装置４１１では、受信部４３１（受信部４３１は、取得部の一例である。）が、第１の画像（図１０の例では、ＲＯＩ）および当該第１の画像が撮像されたときの情報（図１０の例では、レンズ情報）を取得する。演算部４３２（演算部４３２は、制御部の一例である。）が、取得された第１の画像、当該情報、およびパラメータの適正値からのずれごとに対応した複数の第２の画像（図１０の例では、複数のボケ画像）を、パラメータの適正値を推定する学習モデル（図１０の例では、演算部４３２の学習モデル）に入力することで、第１の画像の撮像に適したパラメータ（図１０の例では、合焦位置）を演算する。

また、本実施形態に係る学習装置１１では、演算部１１１（演算部１１１は、取得部の一例である。）が、第４の画像（図１の例では、ＲＯＩ１０１１）および第４の画像が撮像されたときの情報（図１の例では、レンズ情報１０１３）を取得する。そして、演算部１１１および比較部１１５（演算部１１１および比較部１１５は、制御部の一例である。）が、取得された第４の画像、当該情報、およびパラメータの適正値からのずれごとに対応した複数の第５の画像（図１の例では、ボケ画像１０１２−１〜１０１２−ｎ）を、パラメータの適正値を推定する学習モデル（図１の例では、演算部１１１の学習モデル）に入力することで、第４の画像の撮像に適したパラメータ（図１の例では、演算部１１１からの演算結果）を取得し、取得されたパラメータとパラメータの適正値（図１の例では、レンズ１５１の合焦位置の真値）とに基づいて、当該学習モデルでの演算に使用される係数（図１の例では、演算部１１１での演算に使用されるフィルタ係数）を変更する。

ここで、本実施形態では、撮像に関するパラメータとして、レンズ２１３の合焦位置（合焦距離）が用いられたが、これに限られない。例えば、パラメータとして、撮像装置２０１、４１２のレンズ２１３と被写体である物体との相対的な位置関係が用いられてもよい。相対的な位置関係としては、例えば、距離が用いられてもよい。
また、本実施形態では、得られた画像から抽出されたＲＯＩを学習あるいは推論の処理対象としたが、これに限られない。例えば、本実施形態におけるＲＯＩの代わりに、得られた画像そのものが学習あるいは推論の処理対象とされてもよい。

また、本実施形態では、学習時にはＲＮＮを使用し、推論時にはＲＮＮを使用しないが、これに限られない。例えば、学習時にＲＮＮが使用されなくてもよい。また、推論時にＲＮＮが使用されてもよい。
また、本実施形態では、プーリングの後に発火が行われる場合を示したが、これに限られない。例えば、発火の後にプーリングが行われてもよい。
また、本実施形態では、機械学習の一例を示したが、他の任意の機械学習が用いられてもよい。

また、本実施形態では、撮像装置２０１には、学習の機能が備えられない構成を示したが、これに限られない。例えば、撮像装置２０１に、学習の機能が備えられてもよい。
また、本実施形態では、サーバ装置４１１には、学習の機能が備えられない構成を示したが、これに限られない。例えば、サーバ装置４１１に、学習の機能が備えられてもよい。
また、本実施形態では、撮像装置２０１、４１２によって撮像されたいわゆる生画像（ＲＡＷ画像）を演算に使用したが、これに限られない。例えば、撮像装置２０１、４１２によって撮像された後に加工された画像が演算に使用されてもよい。また、例えば、ＲＧＢ画像、あるいは、ＭＰＥＧ画像などが演算に使用されてもよい。
また、ＲＮＮが用いられる場合、時間的に前後の情報に関連がある画像が用いられると、より学習の精度を高められる可能性がある。このような画像の一例としては、動画像がある。

図１１は、演算部１１１、４３２あるいは制御部２４５、４５２のハードウェア構成の一例を示す図である。
なお、当該ハードウェア構成には、演算部１１１とともに記憶部１１２、１１４も含まれる。また、当該ハードウェア構成には、演算部４３２とともに記憶部４３４も含まれる。また、当該ハードウェア構成には、制御部２４５とともにメモリ２４４も含まれる。また、当該ハードウェア構成には、制御部４５２とともにメモリ２４４も含まれる。

このようなハードウェア構成は、一例として、コンピュータ５０１により構成される。
コンピュータ５０１は、ホストコントローラ５１１と、ＣＰＵ（Central Processing unit）５１２と、ＲＡＭ（Random access Memory）５１３と、入力／出力コントローラ５１４と、通信インタフェース５１５と、ＲＯＭ（Read only Memory）５１６とを備える。記憶部１１２、１１４、４３４あるいはメモリ２４４のそれぞれは、ＲＡＭ５１３、ＲＯＭ５１６であってもよい。

ホストコントローラ５１１は、ＣＰＵ５１２、ＲＡＭ５１３、入力／出力コントローラ５１４のそれぞれと接続されており、これらを相互に接続する。また、入力／出力コントローラ５１４は、通信インタフェース５１５とＲＯＭ５１６のそれぞれと接続されており、これらとホストコントローラ５１１とを接続する。
ＣＰＵ５１２は、例えば、ＲＡＭ５１３あるいはＲＯＭ５１６に格納されたプログラムを読み出して実行することにより、各種の処理あるいは制御を実行する。通信インタフェース５１５は、例えば、ネットワークを介して、他のデバイスと通信する。図９の例では、他のデバイスは、位置検出素子２３２、撮像素子２４１、操作部２４２、表示部２４３、ＤＣモータ２５１、回転センサ２５３であってもよい。図１０の例では、他のデバイスは、位置検出素子２３２、撮像素子２４１、操作部２４２、表示部２４３、外部インタフェース４５１、ＤＣモータ２５１、回転センサ２５３であってもよい。

例えば、実施形態に係る各装置（例えば、学習装置１１、撮像装置１２、２０１、４１２、サーバ装置４１１など）の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体（記憶媒体）に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、オペレーティング・システム（ＯＳ：Operating System）あるいは周辺機器等のハードウェアを含むものであってもよい。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、フラッシュメモリ等の書き込み可能な不揮発性メモリ、ＤＶＤ（Digital Versatile Disc）等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。また、記録媒体としては、例えば、一時的にデータを記録する記録媒体であってもよい。

さらに、「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークあるいは電話回線等の通信回線を介してプログラムが送信された場合のサーバあるいはクライアントとなるコンピュータシステム内部の揮発性メモリ（例えばＤＲＡＭ（Dynamic Random access Memory））のように、一定時間プログラムを保持しているものも含むものとする。
また、上記のプログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波によって他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）あるいは電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。
また、上記のプログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、上記のプログラムは、前述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

図１２は、無人航空機（ＵＡＶ：Unmanned Aerial Vehicle）６０１および遠隔操作装置６０２の外観の一例を示す図である。
ＵＡＶ６０１は、ＵＡＶ本体６１１と、ジンバル６１２と、複数の撮像装置６１３〜６１５とを備える。ＵＡＶ６０１は、回転翼によって飛行する飛行体の一例である。飛行体とは、ＵＡＶの他、空中を移動する他の航空機等を含む概念である。

ＵＡＶ本体６１１は、複数の回転翼を備える。ＵＡＶ本体６１１は、複数の回転翼の回転を制御することでＵＡＶ６０１を飛行させる。ＵＡＶ本体６１１は、例えば、４つの回転翼を用いてＵＡＶ６０１を飛行させる。回転翼の数は、４つには限定されない。

撮像装置６１５は、所望の撮像範囲に含まれる被写体を撮像する撮像用のカメラである。ジンバル６１２は、撮像装置６１５の姿勢を変更可能に、撮像装置６１５を支持する。ジンバル６１２は、撮像装置６１５を回転可能に支持する。例えば、ジンバル６１２は、撮像装置６１５を、アクチュエータを用いてピッチ軸で回転可能に支持する。ジンバル６１２は、撮像装置６１５を、アクチュエータを用いてさらにロール軸およびヨー軸のそれぞれを中心に回転可能に支持する。ジンバル６１２は、ヨー軸、ピッチ軸、およびロール軸の少なくとも１つを中心に撮像装置６１５を回転させることで、撮像装置６１５の姿勢を変更してもよい。

撮像装置６１３および撮像装置６１４は、ＵＡＶ６０１の飛行を制御するためにＵＡＶ６０１の周囲を撮像するセンシング用のカメラである。２つの撮像装置６１３、６１４が、ＵＡＶ６０１の機首である正面に設けられてもよい。さらに他の２つの撮像装置（図示省略）が、ＵＡＶ６０１の底面に設けられてもよい。正面側の２つの撮像装置６１３、６１４はペアとなり、いわゆるステレオカメラとして機能してもよい。底面側の２つの撮像装置（図示省略）もペアとなり、ステレオカメラとして機能してもよい。

撮像装置６１３および撮像装置６１４によって撮像された画像に基づいて、ＵＡＶ６０１の周囲の３次元空間データが生成されてもよい。ＵＡＶ６０１が備える撮像装置６１３、６１４の数は４つには限定されない。ＵＡＶ６０１は、少なくとも１つの撮像装置６１３、６１４を備えていればよい。ＵＡＶ６０１は、ＵＡＶ６０１の機首、機尾、側面、底面、および天井面のそれぞれに少なくとも１つの撮像装置６１３、６１４を備えてもよい。撮像装置６１３、６１４で設定できる画角は、撮像装置６１５で設定できる画角より広くてもよい。すなわち、撮像装置６１３、６１４の撮像範囲は、撮像装置６１５の撮像範囲より広くてもよい。撮像装置６１３、６１４は、単焦点レンズまたは魚眼レンズを有してもよい。

遠隔操作装置６０２は、ＵＡＶ６０１と通信して、ＵＡＶ６０１を遠隔操作する。遠隔操作装置６０２は、ＵＡＶ６０１と無線で通信してもよい。遠隔操作装置６０２は、ＵＡＶ６０１に上昇、下降、加速、減速、前進、後進、回転などのＵＡＶ６０１の移動に関する各種駆動命令を送信する。
ＵＡＶ６０１は、遠隔操作装置６０２から送信される命令を受信し、当該命令にしたがって各種の処理を行う。
本実施形態では、例えば、図１２に示される撮像装置６１３〜６１５のうちの１以上として、図１に示される撮像装置１２、図９に示される撮像装置２０１あるいは図１０に示される撮像装置４１２が用いられてもよい。

以上、本発明の実施形態について図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。

なお、学習装置１１、撮像装置２０１、あるいはサーバ装置４１１によって行われる処理の段階と同様な処理の段階を備える方法が実施されてもよい。
また、学習装置１１、撮像装置２０１、あるいはサーバ装置４１１をコンピュータにより構成する場合に、当該コンピュータのプロセッサによって実行されるプログラムが実施されてもよい。
また、例えば、図９に示される撮像装置２０１の制御部２４５の部分などの装置、あるいは、図１０に示されるサーバ装置４１１が、制御装置として捉えられてもよい。

１…学習システム、１１…学習装置、１２、２０１、４１２、６１３〜６１５…撮像装置、１３…記憶媒体、２１…被写体、１１１…演算部、１１２、１１４、４３４…記憶部、１１３…ＰＳＦ部、１１５…比較部、１２１…入力層、１２２、１２３…隠れ層、１２４…全結合層、１２５…出力層、１２６…算出部、１３１…畳み込み部、１３２…プーリング部、１３３…発火部、１５１…レンズ、１５２…取得部、１６１−１〜１６１−Ｌ…処理部、２１１…本体部、２１２…鏡筒部、２１３…レンズ、２１４〜２１６…ボタン、２１７…ファインダー、２２１…回転カム、２２２…ギアボックス、２２３、４２１…撮像部、２３１…レンズ枠、２３２…位置検出素子、２４１…撮像素子、２４２…操作部、２４３…表示部、２４４…メモリ、２４５、４５２…制御部、２５１…ＤＣモータ、２５２…ギア、２５３…回転センサ、３１１、４７１…取得部、３１２、４３２…演算部、３１３、４７４…合焦部、４０１…撮像システム、４１１…サーバ装置、４１３…ネットワーク、４３１、４７３…受信部、４３３、４７２…送信部、４５１…外部インタフェース、５０１…コンピュータ、５１１…ホストコントローラ、５１２…ＣＰＵ、５１３…ＲＡＭ、５１４…入力／出力コントローラ、５１５…通信インタフェース、５１６…ＲＯＭ、６０１…無人航空機、６０２…遠隔操作装置、６１１…ＵＡＶ本体、６１２…ジンバル、１００１、１２０１…チャネル情報、１０１１、１２１１…ＲＯＩ、１０１２−１〜１０１２―ｎ、１２１２−１〜１２１２−ｎ…ボケ画像、１０１３…レンズ情報、１０１４…基準画像、１０２１…レンズ位置画像、１０２２…露出画像、１０２３…Ｆ値画像、１０２４、２０１１…主題情報、１０２５−１〜１０２５−Ｌ…撮像情報、１０３１−１〜１０３１−Ｎ…フィルタ情報、１１０１、１１３１…特徴マップ、１１１１−１〜１１１１−Ｎ…特徴画像、１１２１…画素情報、１１２２…注目領域、２０１２…撮像情報、２０１３…学習結果

Claims

合焦位置に対応するレンズ位置において取得された第１の画像および前記第１の画像が撮像されたときの第１の情報を取得する取得部と、
前記合焦位置に対応するレンズ位置において取得された基準画像から取得された複数の第２の画像、前記第１の画像、および前記第１の情報から得られる特徴マップに基づくパラメータに対応するレンズ位置が前記合焦位置に対応するレンズ位置から予め定められた位置にまで近付くように前記パラメータの演算で用いられる重み付け値を調整することで、前記パラメータの各値と確率との対応において真値の推定確率が所定の確率以上となるように、前記パラメータを演算する制御部と、
を備える制御装置。
前記制御部は、複数の前記第２の画像、前記第１の画像、および前記第１の情報に対して少なくとも畳み込み演算およびプーリング演算を行うことで前記特徴マップを得る、
請求項１に記載の制御装置。
前記制御部は、前記重み付け値をフィルタ係数の値とするフィルタを用いて前記畳み込み演算を行う、
請求項２に記載の制御装置。
前記第２の画像は、前記基準画像が取得されたレンズ位置からずれたレンズ位置に対応するボケ画像である、
請求項１から請求項３のいずれか１項に記載の制御装置。
前記第２の画像は、前記基準画像に点拡がり関数が施されて取得された画像である、
請求項１から請求項４のいずれか１項に記載の制御装置。
前記点拡がり関数は、前記第１の画像が取得されたときに用いられたレンズと同じレンズ特性を有する、
請求項５に記載の制御装置。
前記基準画像は、テストチャートまたはカラーチャートである、
請求項１から請求項６のいずれか１項に記載の制御装置。
前記基準画像は、解像度、歪み、色収差、あるいは、周波数特性のうちの１以上を測定するために用いられる、
請求項１から請求項７のいずれか１項に記載の制御装置。
複数の合焦枠に対応する複数の前記合焦位置について、複数の前記合焦位置に対応する複数のレンズ位置において複数の前記第１の画像が取得される、
請求項１から請求項８のいずれか１項に記載の制御装置。
前記第１の情報は、露出値あるいはＦ値のうちの少なくとも１つを含む、
請求項１から請求項９のいずれか１項に記載の制御装置。
前記パラメータは、撮像装置の合焦に用いられ、推定確率が最も高い前記パラメータの値が前記合焦位置の値として採用される、
請求項１から請求項１０のいずれか１項に記載の制御装置。
制御装置が、
合焦位置に対応するレンズ位置において取得された第１の画像および前記第１の画像が撮像されたときの第１の情報を取得する段階と、
前記合焦位置に対応するレンズ位置において取得された基準画像から取得された複数の第２の画像、前記第１の画像、および前記第１の情報から得られる特徴マップに基づくパラメータに対応するレンズ位置が前記合焦位置に対応するレンズ位置から予め定められた位置にまで近付くように前記パラメータの演算で用いられる重み付け値を調整することで、前記パラメータの各値と確率との対応において真値の推定確率が所定の確率以上となるように、前記パラメータを演算する段階と、
を備える方法。
合焦位置に対応するレンズ位置において取得された第１の画像および前記第１の画像が撮像されたときの第１の情報を取得する段階と、
前記合焦位置に対応するレンズ位置において取得された基準画像から取得された複数の第２の画像、前記第１の画像、および前記第１の情報から得られる特徴マップに基づくパラメータに対応するレンズ位置が前記合焦位置に対応するレンズ位置から予め定められた位置にまで近付くように前記パラメータの演算で用いられる重み付け値を調整することで、前記パラメータの各値と確率との対応において真値の推定確率が所定の確率以上となるように、前記パラメータを演算する段階と、
をコンピュータに実行させるためのプログラム。