JP6679679B2 - 制御装置、方法およびプログラム - Google Patents

制御装置、方法およびプログラム Download PDF

Info

Publication number
JP6679679B2
JP6679679B2 JP2018174632A JP2018174632A JP6679679B2 JP 6679679 B2 JP6679679 B2 JP 6679679B2 JP 2018174632 A JP2018174632 A JP 2018174632A JP 2018174632 A JP2018174632 A JP 2018174632A JP 6679679 B2 JP6679679 B2 JP 6679679B2
Authority
JP
Japan
Prior art keywords
image
lens
information
value
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2018174632A
Other languages
English (en)
Other versions
JP2020048058A (ja
Inventor
慧 徐
慧 徐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SZ DJI Technology Co Ltd
Original Assignee
SZ DJI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SZ DJI Technology Co Ltd filed Critical SZ DJI Technology Co Ltd
Priority to JP2018174632A priority Critical patent/JP6679679B2/ja
Publication of JP2020048058A publication Critical patent/JP2020048058A/ja
Application granted granted Critical
Publication of JP6679679B2 publication Critical patent/JP6679679B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Focusing (AREA)
  • Automatic Focus Adjustment (AREA)
  • Studio Devices (AREA)

Description

本発明は、制御装置、方法およびプログラムに関する。
画像を撮像する撮像装置では、所定の評価値を参照して、自動的にレンズの位置を制御して焦点を合わせることが行われている。当該評価値としては、例えば、画像のコントラストの評価値などが用いられている。
このようなAF(Autofocus)方式では、例えば、レンズを移動させるギアを動かすDC(Direct Current)モータと、当該ギアの回転量を検出する回転センサを用いて、オートフォーカスの制御が行われる。また、このようなAF方式では、例えば、ギアの隙間(いわゆるバックラッシュ)を考慮して、コントラストが上昇していく方向にギアを動かして焦点を合わせる。当該方向はいわゆる山登りの方向と呼ばれ、山登りの方向での制御は山登り制御と呼ばれる。
しかしながら、このようなAF方式では、レンズを移動させて評価値を取得し、取得された評価値に基づいてレンズの合焦位置を決定する。このため、このようなAF方式では、オートフォーカスの制御による合焦状態が実現されるまでに要する時間が長い場合があった。
特許文献1には、対話の主題ラベルを推定する主題推定システムが開示されている(特許文献1参照。)。主題推定システムは、畳み込みニューラルネットワークを備える。畳み込みニューラルネットワークは、畳み込み層と、プーリング層と、全結合層とを備える。畳み込み層では、1以上のトピック依存畳み込み層が、トピックに依存した畳み込み演算を行う。また、畳み込み層では、1つのトピック非依存畳み込み層が、当該トピックに依存しない畳み込み演算を行う。
しかしながら、特許文献1に係る主題推定システムは対話の主題ラベルを推定するものであり、撮像装置におけるレンズの合焦については記載あるいは示唆が無かった。
特開2017−59205号公報
上述のように、従来の撮像装置では、オートフォーカスの制御による合焦状態が実現されるまでに要する時間が長い場合があった。また、撮像装置では、レンズの位置以外のパラメータの制御についても、当該パラメータの適正値を取得するまでに要する時間が長い場合があった。
本発明は、このような事情を考慮してなされたもので、パラメータの適正値を取得するまでに要する時間を短くすることができる制御装置、方法およびプログラムを提供することを課題とする。
本発明の一態様に係る制御装置は、合焦位置に対応するレンズ位置において取得された第1の画像および前記第1の画像が撮像されたときの第1の情報を取得する取得部と、前記合焦位置に対応するレンズ位置において取得された基準画像から取得された複数の第2の画像、前記第1の画像、および前記第1の情報から得られる特徴マップに基づくパラメータに対応するレンズ位置が前記合焦位置に対応するレンズ位置から予め定められた位置にまで近付くように前記パラメータの演算で用いられる重み付け値を調整することで、前記パラメータの各値と確率との対応において真値の推定確率が所定の確率以上となるように、前記パラメータを演算する制御部と、を備える。
本発明の一態様に係る制御装置は、前記制御部は、複数の前記第2の画像、前記第1の画像、および前記第1の情報に対して少なくとも畳み込み演算およびプーリング演算を行うことで前記特徴マップを得る、構成とされてもよい。
本発明の一態様に係る制御装置は、前記制御部は、前記重み付け値をフィルタ係数の値とするフィルタを用いて前記畳み込み演算を行う、構成とされてもよい。
本発明の一態様に係る制御装置は、前記第2の画像は、前記基準画像が取得されたレンズ位置からずれたレンズ位置に対応するボケ画像である、構成とされてもよい。
本発明の一態様に係る制御装置は、前記第2の画像は、前記基準画像に点拡がり関数が施されて取得された画像である、構成とされてもよい。
本発明の一態様に係る制御装置は、前記点拡がり関数は、前記第1の画像が取得されたときに用いられたレンズと同じレンズ特性を有する、構成とされてもよい。
本発明の一態様に係る制御装置は、前記基準画像は、テストチャートまたはカラーチャートである、構成とされてもよい。
本発明の一態様に係る制御装置は、前記基準画像は、解像度、歪み、色収差、あるいは、周波数特性のうちの1以上を測定するために用いられる、構成とされてもよい。
本発明の一態様に係る制御装置は、複数の合焦枠に対応する複数の前記合焦位置について、複数の前記合焦位置に対応する複数のレンズ位置において複数の前記第1の画像が取得される、構成とされてもよい。
本発明の一態様に係る制御装置は、前記第1の情報は、露出値あるいはF値のうちの少なくとも1つを含む、構成とされてもよい。
本発明の一態様に係る制御装置は、前記パラメータは、撮像装置の合焦に用いられ、推定確率が最も高い前記パラメータの値が前記合焦位置の値として採用される、構成とされてもよい。
本発明の一態様に係る方法は、制御装置が、合焦位置に対応するレンズ位置において取得された第1の画像および前記第1の画像が撮像されたときの第1の情報を取得する段階と、前記合焦位置に対応するレンズ位置において取得された基準画像から取得された複数の第2の画像、前記第1の画像、および前記第1の情報から得られる特徴マップに基づくパラメータに対応するレンズ位置が前記合焦位置に対応するレンズ位置から予め定められた位置にまで近付くように前記パラメータの演算で用いられる重み付け値を調整することで、前記パラメータの各値と確率との対応において真値の推定確率が所定の確率以上となるように、前記パラメータを演算する段階と、を備える。
本発明の一態様に係るプログラムは、合焦位置に対応するレンズ位置において取得された第1の画像および前記第1の画像が撮像されたときの第1の情報を取得する段階と、前記合焦位置に対応するレンズ位置において取得された基準画像から取得された複数の第2の画像、前記第1の画像、および前記第1の情報から得られる特徴マップに基づくパラメータに対応するレンズ位置が前記合焦位置に対応するレンズ位置から予め定められた位置にまで近付くように前記パラメータの演算で用いられる重み付け値を調整することで、前記パラメータの各値と確率との対応において真値の推定確率が所定の確率以上となるように、前記パラメータを演算する段階と、をコンピュータに実行させるためのプログラムである。
本発明によれば、パラメータの適正値を取得するまでに要する時間を短くすることができる。
本発明の一実施形態に係る学習システムの機能ブロックの一例を示す図である。 本発明の一実施形態に係る隠れ層における処理の詳細を説明するための図である。 本発明の一実施形態に係るRNNのイメージの一例を示す図である。 本発明の一実施形態に係る主題情報の一例を示す図である。 本発明の一実施形態に係る撮像情報の一例を示す図である。 本発明の一実施形態に係る学習結果の一例を示す図である。 本発明の一実施形態に係るチャネル情報の他の一例を示す図である。 本発明の一実施形態に係る撮像装置の概略的な構造を示す図である。 本発明の一実施形態に係る撮像装置の概略的な機能構成を示す図である。 本発明の他の実施形態に係る撮像システムの概略的な機能構成を示す図である。 演算部あるいは制御部のハードウェア構成の一例を示す図である。 無人航空機および遠隔操作装置の外観の一例を示す図である。
以下、図面を参照し、本発明の実施形態について説明する。
図1は、本発明の一実施形態に係る学習システム1の機能ブロックの一例を示す図である。
学習システム1は、学習装置11と、撮像装置12と、記憶媒体13とを備える。
撮像装置12は、概略的に、レンズ151と、取得部152とを備える。
撮像装置12では、レンズ151を通過した光によって被写体21の画像を撮像する。撮像装置12によって撮像された画像の一部がROI(Region Of Interest)1011として抽出される。
撮像装置12では、取得部152が、ROI1011の画像が撮像されたときの情報を取得する。本実施形態では、当該情報は、レンズ151に関する情報(以下、説明の便宜上、「レンズ情報」ともいう。)である。取得部152は、取得されたレンズ情報1013を出力する。本実施形態では、レンズ情報1013は、レンズ151の位置を特定する情報を含む。レンズ情報1013は、さらに、F値、露出のうちの1以上に関する情報を含んでもよい。
撮像装置12によって得られたROI1011とレンズ情報1013との組み合わせが、記憶媒体13に記憶される。当該組み合わせとして、例えば、複数の異なる組み合わせが記憶媒体13に記憶される。複数の異なる組み合わせでは、ROI1011が異なってもよい。また、複数の異なる組み合わせでは、ROI1011が同一であり、レンズ情報1013が異なってもよい。
その後、記憶媒体13に記憶された組み合わせが学習装置11に入力される。
ここで、図1の例では、撮像装置12から出力される組み合わせが記憶媒体13を介して学習装置11に入力されるが、この構成に限られない。例えば、撮像装置12から出力される組み合わせが、ネットワーク(図示せず)を介して伝送されて、学習装置11に入力されてもよい。
学習装置11は、演算部111と、基準画像1014の記憶部112と、PSF部113と、主題情報(Ground Truth)1024の記憶部114と、比較部115とを備える。
演算部111は、入力層121と、1段目の隠れ層122と、2段目の隠れ層123と、全結合層124と、出力層125と、算出部126とを備える。
隠れ層122は、畳み込み部131と、プーリング部132と、発火部133とを備える。
同様に、隠れ層123は、畳み込み部141と、プーリング部142と、発火部143とを備える。
演算部111は、ニューラルネットワークを使用している。ニューラルネットワークでは、例えば、複数のノードと複数のエッジを用いて演算の経路が構成される。ニューラルネットワークの各層では、複数のノードがエッジを介して結ばれる。各層は活性化関数を実行する部分を有してもよい。活性化関数としては、例えば、ステップ関数、シグモイド関数、ソフトマックス関数、ReLU関数などが知られている。各エッジはフィルタ係数に相当する重みを有する。
演算部111は、撮像に使用される所定のパラメータの適正値を推論する。本実施形態では、パラメータとしてレンズ151の位置が用いられている。パラメータの適正値として、レンズ151の合焦位置が用いられている。
ここで、演算部111は、例えば、深層学習(Deep Learning)を行うDNN(Deep neural network)を使用してもよい。
なお、演算部111は、ニューラルネットワークを使用しなくてもよい。
記憶部112は、基準画像1014を記憶する。記憶部112は、メモリである。
基準画像1014として、テストチャートが用いられている。テストチャートは、白黒のチャートであってもよく、あるいは、カラーのチャート(カラーチャート)であってもよい。テストチャートは、白黒のチャートとカラーのチャートとの組み合わせであってもよい。
テストチャートは、本実施形態では、撮像装置12におけるレンズ151の位置、F値、露出などのパラメータが理想的な適正値であるときの画像である。テストチャートは、例えば、撮像された画像であってもよい。テストチャートは、例えば、撮像以外の手法で生成された画像であってもよい。
なお、一般に、テストチャートは、撮像装置12の性能を試験するために生成されている。テストチャートとしては、例えば、試験項目ごとに適した画像が用意されている場合がある。当該試験項目としては、例えば、解像度、歪み、色収差、周波数特性などがある。
PSF部113は、基準画像1014に対して、点拡がり関数(PSF:Point Spread Function)を施す。点拡がり関数は、光学系の点光源に対する応答を表す関数である。これにより、PSF部113は、基準画像1014から、複数の画像を生成する。これらの画像は、レンズ151の位置が合焦位置からずれたときの画像(以下、説明の便宜上、「ボケ画像」ともいう。)である。図1の例では、nが2以上の整数を表すとして、n個のボケ画像(Defocus Image)1012−1〜1012−nを生成する。
ここで、点拡がり関数は、レンズ151の位置が焦点位置からずれた位置にあるときのボケを基準画像1014に与える。複数のボケ画像1012−1〜1012−nは、例えば、レンズ151の位置が等間隔で異なる場合のボケ画像であってもよい。複数のボケ画像1012−1〜1012−nは、例えば、レンズ151の位置が等間隔ではなく異なる場合のボケ画像であってもよい。
点拡がり関数としては、ROI1011の撮像に使用されるレンズ151の特性と同じ特性を有する関数が用いられる。これにより、点拡がり関数は、レンズ151が用いられる場合と同様なボケを実現する。
複数のボケ画像1012−1〜1012−nの数は、2以上であればよく、多い方が良い。
入力層121に、ROI1011と、複数のボケ画像1012−1〜1012−nと、レンズ情報1013とが入力される。
入力層121は、入力された情報に対して所定の演算を行い、その演算の結果を隠れ層122に出力する。
隠れ層122では、畳み込み部131が、入力層121から入力された情報に対して畳み込み(Convolution)の処理を行う。次に、隠れ層122では、プーリング部132が、畳み込みの結果に対して、プーリング(Pooling)の処理を行う。次に、隠れ層122では、発火部133が、プーリングの結果に対して、発火(例えば、ReLU関数)の処理を行う。
隠れ層122では、発火部133が、発火の結果を隠れ層123に出力する。
隠れ層123では、隠れ層122から入力された情報に対して、隠れ層122と同様な処理を行う。
すなわち、畳み込み部141は、畳み込み部131と同様な処理を行う。プーリング部142は、プーリング部132と同様な処理を行う。発火部143は、発火部133と同様な処理を行う。
隠れ層123では、発火部143が、発火の結果を全結合層124に出力する。
ここで、それぞれの隠れ層122、123の畳み込み部131、141は、フィルタ係数を用いて畳み込みの処理を行う。学習の初期には、当該フィルタ係数として、初期値が設定される。学習中には、当該フィルタ係数が更新されていく。当該フィルタ係数は、重み付け係数などとも呼ばれる。当該フィルタ係数の値は、重み付け値などとも呼ばれる。
なお、本実施形態では、演算部111が、2層の隠れ層122、123を備える場合を示すが、これに限られない。例えば、演算部111は、3層以上の隠れ層を備えてもよい。また、演算部111は、1層の隠れ層を備えてもよい。
全結合層124は、隠れ層123から入力された情報に対して、全結合の処理を行う。全結合層124は、全結合の結果を出力層125に出力する。
出力層125は、全結合層124から入力された情報に対して所定の演算を行い、その演算の結果を算出部126に出力する。
算出部126は、出力層125から入力された情報に対して、ソフトマックス関数を施す。これにより、算出部126は、パラメータの値と、当該値となる確率との対応を算出する。当該対応は、パラメータの複数の異なる値と、それぞれの値となる確率との対応であってもよい。算出部126は、当該対応を比較部115に出力する。
記憶部114は、主題情報1024を記憶する。記憶部114は、メモリである。主題情報1024は、例えば、学習装置11を使用するユーザによって記憶部114に記憶されてもよい。ここで、主題情報1024は、真値である。真値は、演算部111への入力情報に対する適正な出力情報を表す。本実施形態では、真値は、ROI1011とレンズ情報1013と複数のボケ画像1012−1〜1012−nに対する適正なレンズ151の合焦位置を表す。
なお、主題情報1024としては、例えば、レンズ151が特定の焦点距離の位置にある場合に様々な条件で撮像された大量の画像に基づく情報であってもよい。当該条件としては、例えば、F値、露出、ROIなどのうちの1以上に関する条件であってもよい。
比較部115は、算出部126から入力された情報と、記憶部114に記憶された主題情報1024とを比較する。比較部115によって比較に用いる主題情報1024は、例えば、ユーザによって指定されてもよい。
そして、比較部115は、比較の結果に基づいて、当該情報と当該主題情報1024との一致度を高めるように、演算部111に設定される畳み込み部131、141のフィルタ係数を更新する。また、比較部115は、当該情報と当該主題情報1024との一致度が所定の閾値に達した場合に、学習が完了であることを判定する。学習が完了になった場合には、その時点のフィルタ係数が学習結果として記憶部114あるいは演算部111などに記憶される。
図2を用いて、本発明の一実施形態に係る隠れ層122、123における処理の詳細を説明する。なお、本実施形態では、隠れ層122における処理と、隠れ層123における処理とは同様である。このため、ここでは、隠れ層122における処理を説明する。
本実施形態では、チャネル情報1001が隠れ層122に入力される。
チャネル情報1001は、ROI1011と、n個のボケ画像1012−1〜1012−nと、レンズ位置画像1021と、露出画像1022と、F値画像1023を含む。これらの画像は、すべて、幅(width)と高さ(height)が均一である。また、チャネル情報1001に含まれるすべての画像の数がm(mは整数を表す。)であるとする。
ここで、レンズ位置画像1021は、ROI1011が撮像された時点におけるレンズ151の位置を特定する情報を含む。露出画像1022は、ROI1011が撮像された時点における露出を特定する情報を含む。F値画像1023は、ROI1011が撮像された時点におけるF値を特定する情報を含む。
レンズ位置画像1021は、画像中の任意の箇所にレンズ151の位置を特定する情報を含んでもよい。また、レンズ位置画像1021では、レンズ151の位置を特定する情報が含まれない箇所は0値であってもよい。
同様に、露出画像1022は、画像中の任意の箇所にレンズ151の露出を特定する情報を含んでもよい。また、露出画像1022では、レンズ151の露出を特定する情報が含まれない箇所は0値であってもよい。
同様に、F値画像1023は、画像中の任意の箇所にF値を特定する情報を含んでもよい。また、F値画像1023では、F値を特定する情報が含まれない箇所は0値であってもよい。
なお、本実施形態では、レンズ位置画像1021と、露出画像1022と、F値画像1023とを別の画像としたが、これに限られない。例えば、これらのうちの2以上の画像に含まれる情報が、共通の画像とされてもよい。
また、露出画像1022と、F値画像1023のうちの一方または両方がチャネル情報1001に含まれなくてもよい。
畳み込み部131は、畳み込み演算を行う。
畳み込み演算では、Nを1以上の整数として、N個のフィルタ情報1031−1〜1031−Nを用いる。それぞれのフィルタ情報1031−1〜1031−Nは、チャネル情報1001と同じmチャネルの情報である。それぞれのフィルタ情報1031−1〜1031−Nは、チャネルごとに複数の画素を有する。それぞれの画素には、それぞれの画素のフィルタ係数の値が設定されている。
畳み込み演算では、特徴マップ1101を取得する。
特徴マップ1101は、N個の特徴画像1111−1〜1111−Nを含む。それぞれの特徴画像1111−1〜1111−Nは、それぞれのチャネルの畳み込み演算の結果を含む。
プーリング部132は、プーリング演算を行う。
プーリング演算では、畳み込み演算によって取得された特徴マップ1101を、さらに縮小して新たな特徴マップ(図示せず)を生成する。プーリング演算では、例えば、画像における注目領域の出力値が最大値となる領域を取得し、これにより特徴を抽出する。
図2の例では、特徴マップ1101に含まれる1つのチャネルの一部の画素情報1121を示してある。画素情報1121のうち、縦に2個および横に2個の画素の領域を注目領域1122とする。プーリング演算では、注目領域1122に含まれる4個の画素の画素値p0〜p4のうち、最大となる値を当該注目領域1122の出力値として出力する。
ここで、畳み込み演算は画像の局所的な特徴を抽出する。そして、プーリング演算は、畳み込み演算によって抽出された局所的な特徴をさらにまとめる。これらの演算によって、入力画像の特徴を維持しながら、当該入力画像を縮小していく。
発火部133は、発火演算を行う。
発火演算では、プーリング演算によって抽出された特徴マップ(図示せず)に対して、それぞれの画素の画素値に所定の関数を演算する。当該所定の関数は、例えば、画素値が0未満である場合に0を出力する。また、当該所定の関数は、例えば、画素値が0以上である場合に所定の値aを出力する。
図2の例では、発火演算によって得られた特徴マップ1131は、発火の関数の結果を含む。当該特徴マップ1131は、例えば、N個のチャネルを有する。当該特徴マップ1131は、例えば、チャネル情報1001と比べて、幅が1/2となっており、高さが1/2となっている。
ここで、図3は、本発明の一実施形態に係るRNN(Recurrent Neural Network)のイメージの一例を示す図である。
RNNでは、所定の処理部において、繰り返し処理を実行するなかで、前回以前の処理結果の一部を引き継いで演算を行う。
図3には、説明の便宜上、横軸に時間を示してある。
図3の例では、時間が早い方から遅い方への順で、時間t1〜tLを示してある。Lは2以上の整数を表す。
一例として、撮像装置12に対する被写体21の配置関係が固定されたまま、撮像装置12のレンズ151が光軸に沿って一定の方向に一定速度で移動する場合を想定する。
図3に示されるn個の処理部161−1〜161−Lは、同じ処理部であるが、時間t1〜tLによってフィルタ係数が更新されていくイメージを示してある。
なお、当該処理部は、例えば、1つの隠れ層122に相当する処理部であってもよい。また、当該処理部は、例えば、演算部111における任意の部分であってもよい。
また、説明の便宜上、各時間t1〜tLに処理部161−1〜161−Lに入力される情報を撮像情報1025−1〜1025−Lとして説明する。撮像情報1025−1〜1025−Lは、ROIに関する情報とともに、レンズに関する情報を含んでもよい。
図3の説明では、撮像装置12のレンズ151の位置を、基準位置からの所定方向へのずれd1〜dLで表す。
まず、時間t1では、撮像装置12のレンズ151の位置がd1である。撮像情報1025−1は、このレンズ151の位置で撮像された画像から抽出された画像に関する情報である。
処理部161−1は、撮像情報1025−1を入力して、所定の演算結果を出力する。また、処理部161−1は、当該演算結果を求める際に得られた情報を、次の時間t2に当該処理部161−1によって使用するために、当該処理部161−1に出力する。
時間t2以降においても、時間t1における処理部161−1と同様な動作を行う。
すなわち、i=1〜Lとして、時間tiでは、撮像装置12のレンズ151の位置がdiである。撮像情報1025−iは、このレンズ151の位置で撮像された画像から抽出された画像に関する情報である。
処理部161−iは、撮像情報1025−iを入力して、所定の演算結果を出力する。また、処理部161−iは、当該演算結果を求める際に得られた情報を、次の時間t(i+1)に当該処理部161−iによって使用するために、当該処理部161−iに出力する。
このように、図3の例では、所定の処理部が、時間的に変化するレンズ151の位置ごとに、過去の演算で得られた情報を未来の演算で使用するために自己に伝達する。
このように、RNNでは、時間的に前後する情報の関連性を用いることで、学習の効果を高めることが可能である。
図3の例では、好ましい一例として、複数のボケ画像1012−1〜1012−nは、それぞれの時間t1〜tLにおけるレンズ151の位置と同じレンズ位置が想定されたボケ画像を含む。なお、複数のボケ画像1012−1〜1012−nは、他のレンズ位置が想定された画像を含んでもよい。
図4は、本発明の一実施形態に係る主題情報2011の一例を示す図である。
主題情報2011は、ROIごとに、レンズの位置、F値、露出の値(露出値)を格納する。主題情報2011は、例えば、図1に示される主題情報1024として使用される。レンズの位置とは例えばフォーカスレンズの位置である。
図5は、本発明の一実施形態に係る撮像情報2012の一例を示す図である。
撮像情報2012は、ROIごとに、レンズの位置、F値、露出の値(露出値)を格納する。撮像情報2012は、撮像装置12によりROIの画像が撮像されたときの情報である。
図6は、本発明の一実施形態に係る学習結果2013の一例を示す図である。
学習結果2013は、パラメータの各値と、確率とを対応付けて格納する。図6の例では、パラメータとして、レンズ151の合焦位置に相当する焦点距離が用いられている。
学習結果2013は、学習装置11により学習が行われた結果である。
学習装置11は、学習結果2013が主題情報2011に近付くように、演算部111のフィルタ係数を更新していく。
例えば、主題情報2011に、レンズ151の所定の焦点距離(説明の便宜上、第1の焦点距離という。)において、F値および露出を様々な条件として撮像したときの情報が設定される。また、学習装置11では、主題情報2011に含まれる1つまたは複数のROIと、レンズ情報と、多数のボケ画像を使用して、学習のための演算を行う。そして、学習装置11では、この演算の結果として得られる第1の焦点距離の推定確率が所定の確率以上になるまで、比較部115による比較およびフィルタ係数の更新を行う。学習装置11では、第1の焦点距離の推定確率が所定の確率以上になったときに、学習を完了する。
具体例として、学習装置11では、ROI(1)とレンズ情報と多数のボケ画像を入力して演算を行う。そして、学習装置11では、比較部115による比較の結果、第1の焦点距離の推定確率が所定の確率よりも低いと判定した場合には、フィルタ係数を更新する。その後、学習装置11では、ROI(2)とレンズ情報と多数のボケ画像を入力して演算を行う。そして、学習装置11では、比較部115による比較の結果、第1の焦点距離の推定確率が所定の確率よりも低いと判定した場合には、フィルタ係数を更新する。以降も同様に、学習装置11では、第1の焦点距離における確率が所定の確率以上となるまで、同様な処理を繰り返して行う。
このように、学習装置11では、例えば、ROI(1)、ROI(2)、・・・というように、異なるROIを使用して何度も繰り返して学習を行うことで、理想的なフィルタ係数を取得することができる。なお、1つのROIが学習に使用されてもよい。学習に2つ以上の異なるROIが使用される場合、例えば、学習に1つのROIが使用される場合よりも、多様なROIの画像に適用することが可能である。
図7は、本発明の一実施形態に係るチャネル情報1201の他の一例を示す図である。
チャネル情報1201は、ROI1211と、n個のボケ画像1212−1〜1212−nを含む。これらの画像は、すべて、幅(width)と高さ(height)が均一である。
図7に示されるチャネル情報1201は、図2に示されるチャネル情報1001と比べて、レンズ位置画像1021と、露出画像1022と、F値画像1023を含まない。図7の例では、レンズ位置画像1021と、露出画像1022と、F値画像1023は、例えば、チャネル情報1201とは別に学習装置11に入力されて使用されてもよい。つまり、レンズ情報1013は、学習装置11において、画像以外の形式で利用されてもよい。
本実施形態に係る学習装置11では、例えば、次のような処理を行う。
すなわち、演算部111は、合焦位置に対応するレンズ151の位置において取得されたROI1011を取得する。また、演算部111は、当該ROI1011が撮像されたときのレンズ情報1013を取得する。そして、演算部111は、合焦位置に対応するレンズ位置において取得された基準画像1014から取得された複数のボケ画像1012−1〜1012−n、当該ROI1011、およびレンズ情報1013を、学習モデルに入力する。演算部111および比較部115は、合焦位置に対応するレンズ位置から予め定められた位置にまで近付くように、フィルタ係数(重み付け値)を更新して調整することで、パラメータを演算する。このようにして得られたパラメータは、合焦位置に対応するレンズ位置から予め定められた位置にまで近付いた値となる。ここで、合焦位置に対応するレンズ位置から予め定められた位置は、例えば、誤差が許容される範囲で任意に設定されてもよい。
このように、本実施形態に係る学習装置11では、所定の合焦位置に対応するレンズ位置で取得された画像と、当該所定の合焦位置に対応するレンズ位置で取得された基準画像1014から生成された複数のボケ画像1012−1〜1012−nを用いて、機械学習を行う。その過程で、本実施形態に係る学習装置11では、学習モデルの重み付け値を調整しながら、理想的なアルゴリズムを算出する。
なお、本実施形態では、パラメータの推論により得られる値は、例えば、厳密な真値と一致しなくてもよく、実用上で有効な程度で、真値に対して予め定められた範囲内でずれていてもよい。
また、本実施形態に係る学習装置11では、例えば、複数の異なるROIに関する情報が学習モデルに入力されて学習が行われてもよい。複数の異なるROIは、例えば、複数の異なる合焦枠に対応するものであり、複数の合焦位置に対応し、複数のレンズ位置において取得された画像である。例えば、撮像装置12によって撮像された画像に複数の異なる合焦枠が存在し、それぞれの合焦枠ごとにROIが得られる。
次に、学習結果に基づく推論を使用する撮像装置について説明する。
図8は、本発明の一実施形態に係る撮像装置201の概略的な外観の構造を示す図である。
撮像装置201は、概略的に、本体部211と、鏡筒部212とを備える。鏡筒部212は、レンズ213を備える。本体部211は、ボタン214〜216と、ファインダー217とを備える。
ここで、各ボタン214〜216は、ユーザによって操作されて、例えば、電源、シャッター、露光などに関する予め定められた指示を受け付ける。
なお、撮像装置201の構造は、図8に示される構造に限定されず、他の構造が用いられてもよい。
ここで、本実施形態では、撮像装置201を図1に示される撮像装置12とは別の装置として説明する。撮像装置201は、図1に示される撮像装置12と同じ装置であってもよい。
図9は、本発明の一実施形態に係る撮像装置201の概略的な機能構成を示す図である。
撮像装置201は、鏡筒部212に、レンズ213と、環状の回転カム221と、レンズ枠231と、位置検出素子232とを備える。撮像装置201は、本体部211に、ギアボックス222と、撮像部223とを備える。
ギアボックス222は、DC(Direct Current)モータ251と、ギア252と、2相の回転センサ253とを備える。
撮像部223は、撮像素子241と、操作部242と、表示部243と、メモリ244と、制御部245とを備える。制御部245は、取得部311と、演算部312と、合焦部313とを備える。
鏡筒部212の構成について説明する。
レンズ213はレンズ枠231に取り付けられて支持される。レンズ枠231には、回転カム221に設けられたカム溝(図示せず)に嵌合するカムピン(図示せず)が設けられている。そして、回転カム221の回転機構によって、レンズ枠231はカム溝に沿って移動することが可能である。これにより、レンズ枠231に取り付けられたレンズ213は、所定の移動可能軸D1に沿って移動することが可能である。レンズ213の移動可能軸D1は、レンズ213の光軸に平行な軸である。つまり、レンズ213は、当該レンズ213の光軸に沿って移動することが可能である。回転カム221が所定の回転方向に回転させられると、レンズ213が移動可能軸D1に沿った所定の一の方向に移動する。逆に、回転カム221が当該所定の回転方向とは反対の方向に回転させられると、レンズ213が移動可能軸D1に沿った当該一の方向とは反対の方向に移動する。なお、図9には、レンズ213の移動可能軸D1を示してある。
位置検出素子232としては、任意の素子が用いられてもよい。一例として、位置検出素子232としては、磁気抵抗効果素子であるMR(Magneto Resistive)センサが用いられてもよい。
位置検出素子232は、レンズ213の相対的な位置を検出する。なお、位置検出素子232は、レンズ213の基準位置が定められる場合に、当該基準位置からの相対的な位置を検出してもよい。当該位置は絶対的な位置となる。さらに、位置検出素子232は、レンズ213の移動方向を検出してもよい。
位置検出素子232は、検出されたレンズ213の位置に関する情報を制御部245に出力する。
なお、レンズ213としては、様々なレンズが用いられてもよく、例えば、交換可能なレンズが用いられてもよい。
ギアボックス222の構成について説明する。
ここで、ギア252は、例えば、複数のギアがかみ合った構成を有しているが、本実施形態では、説明の便宜上、1個のギアに着目して説明する。
DCモータ251は、制御部245によって制御されて、ギア252を回転させる。ギア252の回転によって回転カム221が回転させられることで、レンズ213が移動可能軸D1に沿って移動する構成となっている。ギア252が所定の回転方向に回転させられると、レンズ213が移動可能軸D1に沿った所定の一の方向に移動する。逆に、ギア252が当該所定の回転方向とは反対の方向に回転させられると、レンズ213が移動可能軸D1に沿った当該一の方向とは反対の方向に移動する。
回転センサ253は、ギア252の回転量を検出する。ギア252が同一の方向に回転させられる間、発生したパルスの数とギア252の回転量とが比例する。また、ギア252の回転量とレンズ213の移動量とが比例する。
また、本実施形態では、回転センサ253は、回転量に応じた波形として、サイン波とコサイン波といった2相の波形を検出する。これにより、回転センサ253によって、ギア252の回転量とともに、ギア252が回転する方向を特定することが可能である。
回転センサ253は、検出された回転量および回転方向を表す情報を制御部245に出力する。
なお、本実施形態では、位置検出素子232によってレンズ213の位置を特定する情報を検出するが、これに限られない。例えば、制御部245は、回転センサ253によって検出されるギア252の回転量に基づいて、レンズ213の位置を特定する情報を検出してもよい。
撮像部223の構成について説明する。
撮像素子241は、レンズ213の光軸上に配置されている。撮像素子241は、レンズ213を通過した光により得られる画像を撮像する。撮像素子241は、撮像された画像を制御部245に出力する。
操作部242は、ユーザによって操作されるボタンなどである。操作部242は、本実施形態では、図8に示されるボタン214〜216などを備える。
表示部243は、撮像素子241から得られる画像などを表示する画面を有する。表示部243は、本実施形態では、図8に示されるファインダー217の画面に画像を表示する。
メモリ244は、情報を記憶する。メモリ244は、本実施形態では、制御部245によって制御される。なお、本実施形態では、撮像部223にメモリ244が備えられる場合を示すが、メモリがレンズ213などに備えられる構成が用いられてもよい。
メモリ244には、図1に示される学習装置11により用いられた複数のボケ画像1012−1〜1012−nを記憶している。なお、メモリ244には、基準画像1014が記憶されていてもよい。この場合、撮像装置201は、PSF部(図示せず)を備え、当該PSF部によって、当該基準画像1014から複数のボケ画像1012−1〜1012−nを生成する。
制御部245は、撮像に関する各種の制御を行う。制御部245は、例えば、操作部242に対する操作を受け付ける処理、表示部243の画面に画像を表示する処理、撮像素子241から画像を受信する処理、メモリ244に情報を記憶する処理、メモリ244から情報を削除する処理、DCモータ251を駆動させる処理、回転センサ253から回転に関する情報を受信する処理、位置検出素子232からレンズ213の位置に関する情報を受信する処理などの制御を行う。
例えば、制御部245では、DCモータ251の駆動を制御して、レンズ213を移動可能軸D1に沿って移動させる。これにより、レンズ213が移動可能軸D1に沿って移動する。また、制御部245は、DCモータ251の駆動を制御する際に、F値、露出等を検出してもよい。
取得部311は、撮像素子241から得られる画像を取得する。当該画像は、表示部243の画面に表示される。また、当該画像は、シャッターボタンが押された場合、撮像された画像としてメモリ244に記憶される。当該シャッターボタンは、例えば、ボタン215である。
また、取得部311は、取得された画像からROIを抽出する。
また、取得部311は、位置検出素子232から当該位置検出素子232によって検出されたレンズ213の位置に関する情報を取得する。また、取得部311は、F値に関する情報および露光に関する情報を取得する。つまり、取得部311は、図1に示されるレンズ情報1013と同様なレンズ情報を取得する。
なお、メモリ244以外にも鏡筒部212内にもメモリ(図示せず)が設けられてもよい。鏡筒部212内のメモリにはメモリ244に対して格納される情報と同じ情報を格納することができる。鏡筒部212内のメモリにはレンズ213を駆動させるための情報を格納することができる。
また、取得部311は、回転センサ253から当該回転センサ253によって検出された回転に関する情報を取得する。
ここで、回転センサ253によって検出される回転量は、レンズ213の絶対的な位置ではなく、レンズ213の相対的な位置を特定する。
なお、本実施形態では、2相の位置検出素子232を用いる場合を示すが、3相以上の位置検出素子が用いられてもよい。また、1相の位置検出素子が用いられてもよい。1相の位置検出素子が用いられる場合、レンズ213の移動方向は、例えば、制御部245によって、DCモータ251の駆動方向などに基づいて判定されてもよい。
同様に、本実施形態では、2相の回転センサ253を用いる場合を示すが、3相以上の回転センサが用いられてもよい。また、1相の回転センサが用いられてもよい。1相の回転センサが用いられる場合、レンズ213の移動方向は、例えば、制御部245によって、DCモータ251の駆動方向などに基づいて判定されてもよい。
演算部312は、図1に示される学習装置11の演算部111と同様な機能を有している。ここで、演算部312は、図1に示される学習装置11の演算部111と比べて、例えば、RNNのフィードバックの機能を備えていなくてもよい。なお、演算部312は、図1に示される学習装置11の演算部111と同様に、例えば、RNNのフィードバックの機能を備えてもよい。
演算部312では、それぞれの隠れ層の畳み込み部(図示せず)には、図1に示される学習装置11によって既に行われた学習の結果が設定されている。具体的には、畳み込み部のフィルタ係数として、学習の結果として最終的に得られたフィルタ係数が設定されている。
演算部312は、取得部311によって取得されたROIとレンズ情報と、複数のボケ画像1012−1〜1012−nを用いて、図1に示される学習装置11の演算部111と同様な演算を行う。これにより、演算部312は、パラメータの値と推定確率との対応を取得する。そして、演算部312は、推定確率が最も高いパラメータの値を採用する。本実施形態では、当該パラメータは、レンズ213の合焦位置である。
合焦部313は、DCモータ251の駆動を制御することで、演算部312によって演算された情報によって特定される合焦位置に、レンズ213を移動させる制御を行う。
このように、図9の例では、撮像装置201によって、得られた画像のROIとレンズ情報と複数のボケ画像1012−1〜1012−nに基づいて、オートフォーカスの制御による合焦位置を決定することができる。
ここで、図1に示される学習装置11による学習結果であるフィルタ係数は、それぞれの撮像装置201に搭載される演算部312に設定される。学習は、例えば、撮像装置201の出荷前に行われる。そして、それぞれの撮像装置201は、例えば、学習結果であるフィルタ係数が設定された状態で出荷される。なお、撮像装置201の出荷後には、例えば、撮像装置201に設定されたフィルタ係数は固定され、さらなる学習はされない。
図10は、本発明の他の実施形態に係る撮像システム401の概略的な機能構成を示す図である。
撮像システム401は、サーバ装置411と、撮像装置412と、ネットワーク413とを備える。
ネットワーク413は、例えば、無線のネットワークであってもよく、あるいは、有線のネットワークであってもよい。なお、ネットワーク413では、例えば、基地局装置(図示せず)などによって、サーバ装置411あるいは撮像装置412と通信してもよい。
ここで、撮像装置412の外観は、図8に示される撮像装置201の外観と同様である。図10の例では、図8および図9に示されるものと同じ部分については、同じ符号を付して説明する。
撮像装置412について説明する。
撮像装置412は、鏡筒部212に、レンズ213と、環状の回転カム221と、レンズ枠231と、位置検出素子232とを備える。撮像装置412は、本体部211に、ギアボックス222と、撮像部421とを備える。
ここで、鏡筒部212の機能ブロックと、ギアボックス222の機能ブロックは、図9に示される撮像装置201と同様である。
撮像部421は、撮像素子241と、操作部242と、表示部243と、メモリ244と、外部インタフェース451と、制御部452とを備える。制御部452は、取得部471と、送信部472と、受信部473と、合焦部474とを備える。
ここで、撮像素子241と、操作部242と、表示部243と、メモリ244は、図9に示される撮像装置201の場合と同様である。
外部インタフェース451は、ネットワーク413を介してサーバ装置411と通信するインタフェースである。ネットワーク413が無線のネットワークである場合には、外部インタフェース451は無線通信する機能を有する。ネットワーク413が有線のネットワークである場合には、外部インタフェース451は有線通信する機能を有する。
取得部471は、図9に示される撮像装置201の取得部311と同様な機能を有している。
送信部472は、取得部471により取得された画像のROIと、レンズ情報を、ネットワーク413を介して、サーバ装置411に送信する。当該レンズ情報は、当該画像が撮像されたときの情報である。
受信部473は、サーバ装置411からネットワーク413を介して伝送されてきたレンズ213の合焦位置を特定する情報を受信する。
合焦部474は、DCモータ251の駆動を制御することで、受信部473により受信された情報によって特定される合焦位置に、レンズ213を移動させる制御を行う。
サーバ装置411について説明する。
サーバ装置411は、受信部431と、演算部432と、送信部433と、記憶部434とを備える。
記憶部434は、図1に示される学習装置11により用いられた複数のボケ画像1012−1〜1012−nを記憶する。なお、記憶部434には、基準画像1014が記憶されていてもよい。この場合、サーバ装置411は、PSF部(図示せず)を備え、当該PSF部によって、当該基準画像1014から複数のボケ画像1012−1〜1012−nを生成する。記憶部434は、メモリである。
受信部431は、撮像装置412からネットワーク413を介して伝送されてきたROIとレンズ情報を受信する。
演算部432は、図1に示される学習装置11の演算部111と同様な機能を有している。ここで、演算部432は、図1に示される学習装置11の演算部111と比べて、例えば、RNNのフィードバックの機能を備えていなくてもよい。なお、演算部432は、図1に示される学習装置11の演算部111と同様に、例えば、RNNのフィードバックの機能を備えてもよい。
演算部432では、それぞれの隠れ層の畳み込み部(図示せず)には、図1に示される学習装置11によって既に行われた学習の結果が設定されている。具体的には、畳み込み部のフィルタ係数として、学習の結果として最終的に得られたフィルタ係数が設定されている。
演算部432は、受信部431により受信されたROIとレンズ情報と、記憶部434に記憶された複数のボケ画像1012−1〜1012−nを用いて、図1に示される学習装置11の演算部111と同様な演算を行う。これにより、演算部432は、パラメータの値と推定確率との対応を取得する。そして、演算部432は、推定確率が最も高いパラメータの値を採用する。本実施形態では、当該パラメータは、レンズ213の合焦位置である。
送信部433は、演算部432により取得されたパラメータの値を特定する情報をネットワーク413を介して撮像装置412に送信する。これにより、撮像装置412では、当該情報に基づいて、レンズ213を合焦位置に移動させる制御を行う。
このように、図10の例では、撮像装置412によって、得られた画像のROIとレンズ情報に基づいて、サーバ装置411によって、オートフォーカスの制御による合焦位置を決定することができる。
具体的には、撮像システム401では、撮像装置412によって得られた画像のROIおよびレンズ情報をネットワーク413を介してサーバ装置411に送信する。サーバ装置411は、撮像装置412から受信されたROIおよびレンズ情報を用いて所定の演算を行い、合焦位置を推定して、当該合焦位置を撮像装置412に通知する。これにより、撮像装置412では、適正な合焦位置を把握することができる。
なお、図10には、1個の撮像装置412を示したが、複数の撮像装置412に対して1個のサーバ装置411が対応することが可能である。
以上のように、本実施形態に係る学習システム1、撮像装置201あるいは撮像システム401では、ニューラルネットワークを用いてレンズ213の合焦位置を推定することで、合焦位置の推定精度を向上させることができる。また、RNNとDNNとの一方または両方を用いることで、推定精度の向上を図ることができる。
本実施形態に係る学習システム1、撮像装置201あるいは撮像システム401では、テストチャートから生成された複数のボケ画像1012−1〜1012−nを用いて合焦位置を推定することで、合焦位置の推定精度を向上させることができる。
本実施形態に係る学習システム1、撮像装置201あるいは撮像システム401では、例えば、レンズ213のユニットに応じて発生し得る推定のバラツキを無視できる程度に、推定精度を向上させることができる。
また、本実施形態に係る撮像装置201あるいは撮像システム401では、例えば、1枚の画像およびそのレンズ情報を取得することで、オートフォーカスによる制御で、合焦位置を決定することが可能である。この場合、本実施形態に係る撮像装置201あるいは撮像システム401では、例えば、コントラストの評価値などを用いる従来のAF方式と比べて、合焦位置の推定速度を向上させることができる。
また、本実施形態に係る学習システム1では、演算のアルゴリズム自体を調整しなくても、演算に使用されるフィルタ係数を更新することで、推定精度を向上させることができる。このため、本実施形態に係る学習システム1では、例えば、推定精度が良好ではない状況のデータを用いた学習を行うことで、当該状況における推定精度を向上させるように、フィルタ係数を更新することができる。
具体的には、学習装置11では、演算部111(演算部111は、取得部の一例である。)が、合焦位置に対応するレンズ位置において取得された第1の画像(図1の例では、ROI1011)、および第1の画像が撮像されたときの第1の情報(図1の例では、レンズ情報1013)を取得する。そして、演算部111および比較部115(演算部111および比較部115は、制御部の一例である。)が、合焦位置に対応するレンズ位置において取得された基準画像(図1の例では、基準画像1014)から取得された複数の第2の画像(図1の例では、ボケ画像1012−1〜1012−n)、第1の画像、および第1の情報から得られる特徴マップ(図2の例では、特徴マップ1131)に基づくパラメータ(図1の例では、演算部111による演算結果)に対応するレンズ位置が合焦位置に対応するレンズ位置から予め定められた位置にまで近付くように当該パラメータの演算で用いられる重み付け値(図1の例では、演算部111での演算に使用されるフィルタ係数)を調整することで当該パラメータを演算する。
制御部は、例えば、複数の第2の画像、第1の画像、および第1の情報に対して少なくとも畳み込み演算およびプーリング演算を行うことで特徴マップを得る。
制御部は、例えば、重み付け値をフィルタ係数の値とするフィルタを用いて畳み込み演算を行う。
ここで、第2の画像は、例えば、基準画像が取得されたレンズ位置からずれたレンズ位置に対応するボケ画像である。
また、第2の画像は、例えば、基準画像に点拡がり関数が施されて取得された画像である。
また、点拡がり関数は、例えば、第1の画像が取得されたときに用いられたレンズ(図1の例では、レンズ151)と同じレンズ特性を有する。
また、基準画像は、例えば、テストチャートまたはカラーチャートである。
また、基準画像は、例えば、解像度、歪み、色収差、あるいは、周波数特性のうちの1以上を測定するために用いられる。
また、学習装置11では、例えば、複数の合焦枠に対応する複数の合焦位置について、これら複数の合焦位置に対応する複数のレンズ位置において複数の第1の画像(図1の例では、複数の異なるROI1011)が取得されてもよい。
また、第1の情報は、例えば、露出値あるいはF値のうちの少なくとも1つを含む。
また、例えば、パラメータは、撮像装置(図9、図10の例では、撮像装置201、412)の合焦に用いられる。
また、本実施形態に係る撮像装置201では、取得部311が、第1の画像(図9の例では、ROI)および当該第1の画像が撮像されたときの情報(図9の例では、レンズ情報)を取得する。制御部245が、取得された第1の画像、当該情報、およびパラメータの適正値からのずれごとに対応した複数の第2の画像(図9の例では、複数のボケ画像)を、パラメータの適正値を推定する学習モデル(図9の例では、演算部312の学習モデル)に入力することで、第1の画像の撮像に適したパラメータ(図9の例では、合焦位置)を演算する。
ここで、パラメータは、例えば、第1の画像の撮像に使用されるレンズ213の合焦に関するパラメータである。複数の第2の画像は、例えば、基準画像に対してパラメータの適正値からのずれごとに応じた点拡がり関数が施されて生成された画像である。
また、本実施形態に係る撮像装置201では、操作を受け付ける操作部242と、第3の画像を表示する表示部243と、第3の画像を撮像する撮像素子241と、を備える。なお、第3の画像は、任意の画像であってもよい。
また、本実施形態に係るサーバ装置411では、受信部431(受信部431は、取得部の一例である。)が、第1の画像(図10の例では、ROI)および当該第1の画像が撮像されたときの情報(図10の例では、レンズ情報)を取得する。演算部432(演算部432は、制御部の一例である。)が、取得された第1の画像、当該情報、およびパラメータの適正値からのずれごとに対応した複数の第2の画像(図10の例では、複数のボケ画像)を、パラメータの適正値を推定する学習モデル(図10の例では、演算部432の学習モデル)に入力することで、第1の画像の撮像に適したパラメータ(図10の例では、合焦位置)を演算する。
また、本実施形態に係る学習装置11では、演算部111(演算部111は、取得部の一例である。)が、第4の画像(図1の例では、ROI1011)および第4の画像が撮像されたときの情報(図1の例では、レンズ情報1013)を取得する。そして、演算部111および比較部115(演算部111および比較部115は、制御部の一例である。)が、取得された第4の画像、当該情報、およびパラメータの適正値からのずれごとに対応した複数の第5の画像(図1の例では、ボケ画像1012−1〜1012−n)を、パラメータの適正値を推定する学習モデル(図1の例では、演算部111の学習モデル)に入力することで、第4の画像の撮像に適したパラメータ(図1の例では、演算部111からの演算結果)を取得し、取得されたパラメータとパラメータの適正値(図1の例では、レンズ151の合焦位置の真値)とに基づいて、当該学習モデルでの演算に使用される係数(図1の例では、演算部111での演算に使用されるフィルタ係数)を変更する。
ここで、本実施形態では、撮像に関するパラメータとして、レンズ213の合焦位置(合焦距離)が用いられたが、これに限られない。例えば、パラメータとして、撮像装置201、412のレンズ213と被写体である物体との相対的な位置関係が用いられてもよい。相対的な位置関係としては、例えば、距離が用いられてもよい。
また、本実施形態では、得られた画像から抽出されたROIを学習あるいは推論の処理対象としたが、これに限られない。例えば、本実施形態におけるROIの代わりに、得られた画像そのものが学習あるいは推論の処理対象とされてもよい。
また、本実施形態では、学習時にはRNNを使用し、推論時にはRNNを使用しないが、これに限られない。例えば、学習時にRNNが使用されなくてもよい。また、推論時にRNNが使用されてもよい。
また、本実施形態では、プーリングの後に発火が行われる場合を示したが、これに限られない。例えば、発火の後にプーリングが行われてもよい。
また、本実施形態では、機械学習の一例を示したが、他の任意の機械学習が用いられてもよい。
また、本実施形態では、撮像装置201には、学習の機能が備えられない構成を示したが、これに限られない。例えば、撮像装置201に、学習の機能が備えられてもよい。
また、本実施形態では、サーバ装置411には、学習の機能が備えられない構成を示したが、これに限られない。例えば、サーバ装置411に、学習の機能が備えられてもよい。
また、本実施形態では、撮像装置201、412によって撮像されたいわゆる生画像(RAW画像)を演算に使用したが、これに限られない。例えば、撮像装置201、412によって撮像された後に加工された画像が演算に使用されてもよい。また、例えば、RGB画像、あるいは、MPEG画像などが演算に使用されてもよい。
また、RNNが用いられる場合、時間的に前後の情報に関連がある画像が用いられると、より学習の精度を高められる可能性がある。このような画像の一例としては、動画像がある。
図11は、演算部111、432あるいは制御部245、452のハードウェア構成の一例を示す図である。
なお、当該ハードウェア構成には、演算部111とともに記憶部112、114も含まれる。また、当該ハードウェア構成には、演算部432とともに記憶部434も含まれる。また、当該ハードウェア構成には、制御部245とともにメモリ244も含まれる。また、当該ハードウェア構成には、制御部452とともにメモリ244も含まれる。
このようなハードウェア構成は、一例として、コンピュータ501により構成される。
コンピュータ501は、ホストコントローラ511と、CPU(Central Processing unit)512と、RAM(Random access Memory)513と、入力/出力コントローラ514と、通信インタフェース515と、ROM(Read only Memory)516とを備える。記憶部112、114、434あるいはメモリ244のそれぞれは、RAM513、ROM516であってもよい。
ホストコントローラ511は、CPU512、RAM513、入力/出力コントローラ514のそれぞれと接続されており、これらを相互に接続する。また、入力/出力コントローラ514は、通信インタフェース515とROM516のそれぞれと接続されており、これらとホストコントローラ511とを接続する。
CPU512は、例えば、RAM513あるいはROM516に格納されたプログラムを読み出して実行することにより、各種の処理あるいは制御を実行する。通信インタフェース515は、例えば、ネットワークを介して、他のデバイスと通信する。図9の例では、他のデバイスは、位置検出素子232、撮像素子241、操作部242、表示部243、DCモータ251、回転センサ253であってもよい。図10の例では、他のデバイスは、位置検出素子232、撮像素子241、操作部242、表示部243、外部インタフェース451、DCモータ251、回転センサ253であってもよい。
例えば、実施形態に係る各装置(例えば、学習装置11、撮像装置12、201、412、サーバ装置411など)の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体(記憶媒体)に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、オペレーティング・システム(OS:Operating System)あるいは周辺機器等のハードウェアを含むものであってもよい。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、DVD(Digital Versatile Disc)等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。また、記録媒体としては、例えば、一時的にデータを記録する記録媒体であってもよい。
さらに、「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークあるいは電話回線等の通信回線を介してプログラムが送信された場合のサーバあるいはクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random access Memory))のように、一定時間プログラムを保持しているものも含むものとする。
また、上記のプログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波によって他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)あるいは電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記のプログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、上記のプログラムは、前述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
図12は、無人航空機(UAV:Unmanned Aerial Vehicle)601および遠隔操作装置602の外観の一例を示す図である。
UAV601は、UAV本体611と、ジンバル612と、複数の撮像装置613〜615とを備える。UAV601は、回転翼によって飛行する飛行体の一例である。飛行体とは、UAVの他、空中を移動する他の航空機等を含む概念である。
UAV本体611は、複数の回転翼を備える。UAV本体611は、複数の回転翼の回転を制御することでUAV601を飛行させる。UAV本体611は、例えば、4つの回転翼を用いてUAV601を飛行させる。回転翼の数は、4つには限定されない。
撮像装置615は、所望の撮像範囲に含まれる被写体を撮像する撮像用のカメラである。ジンバル612は、撮像装置615の姿勢を変更可能に、撮像装置615を支持する。ジンバル612は、撮像装置615を回転可能に支持する。例えば、ジンバル612は、撮像装置615を、アクチュエータを用いてピッチ軸で回転可能に支持する。ジンバル612は、撮像装置615を、アクチュエータを用いてさらにロール軸およびヨー軸のそれぞれを中心に回転可能に支持する。ジンバル612は、ヨー軸、ピッチ軸、およびロール軸の少なくとも1つを中心に撮像装置615を回転させることで、撮像装置615の姿勢を変更してもよい。
撮像装置613および撮像装置614は、UAV601の飛行を制御するためにUAV601の周囲を撮像するセンシング用のカメラである。2つの撮像装置613、614が、UAV601の機首である正面に設けられてもよい。さらに他の2つの撮像装置(図示省略)が、UAV601の底面に設けられてもよい。正面側の2つの撮像装置613、614はペアとなり、いわゆるステレオカメラとして機能してもよい。底面側の2つの撮像装置(図示省略)もペアとなり、ステレオカメラとして機能してもよい。
撮像装置613および撮像装置614によって撮像された画像に基づいて、UAV601の周囲の3次元空間データが生成されてもよい。UAV601が備える撮像装置613、614の数は4つには限定されない。UAV601は、少なくとも1つの撮像装置613、614を備えていればよい。UAV601は、UAV601の機首、機尾、側面、底面、および天井面のそれぞれに少なくとも1つの撮像装置613、614を備えてもよい。撮像装置613、614で設定できる画角は、撮像装置615で設定できる画角より広くてもよい。すなわち、撮像装置613、614の撮像範囲は、撮像装置615の撮像範囲より広くてもよい。撮像装置613、614は、単焦点レンズまたは魚眼レンズを有してもよい。
遠隔操作装置602は、UAV601と通信して、UAV601を遠隔操作する。遠隔操作装置602は、UAV601と無線で通信してもよい。遠隔操作装置602は、UAV601に上昇、下降、加速、減速、前進、後進、回転などのUAV601の移動に関する各種駆動命令を送信する。
UAV601は、遠隔操作装置602から送信される命令を受信し、当該命令にしたがって各種の処理を行う。
本実施形態では、例えば、図12に示される撮像装置613〜615のうちの1以上として、図1に示される撮像装置12、図9に示される撮像装置201あるいは図10に示される撮像装置412が用いられてもよい。
以上、本発明の実施形態について図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
なお、学習装置11、撮像装置201、あるいはサーバ装置411によって行われる処理の段階と同様な処理の段階を備える方法が実施されてもよい。
また、学習装置11、撮像装置201、あるいはサーバ装置411をコンピュータにより構成する場合に、当該コンピュータのプロセッサによって実行されるプログラムが実施されてもよい。
また、例えば、図9に示される撮像装置201の制御部245の部分などの装置、あるいは、図10に示されるサーバ装置411が、制御装置として捉えられてもよい。
1…学習システム、11…学習装置、12、201、412、613〜615…撮像装置、13…記憶媒体、21…被写体、111…演算部、112、114、434…記憶部、113…PSF部、115…比較部、121…入力層、122、123…隠れ層、124…全結合層、125…出力層、126…算出部、131…畳み込み部、132…プーリング部、133…発火部、151…レンズ、152…取得部、161−1〜161−L…処理部、211…本体部、212…鏡筒部、213…レンズ、214〜216…ボタン、217…ファインダー、221…回転カム、222…ギアボックス、223、421…撮像部、231…レンズ枠、232…位置検出素子、241…撮像素子、242…操作部、243…表示部、244…メモリ、245、452…制御部、251…DCモータ、252…ギア、253…回転センサ、311、471…取得部、312、432…演算部、313、474…合焦部、401…撮像システム、411…サーバ装置、413…ネットワーク、431、473…受信部、433、472…送信部、451…外部インタフェース、501…コンピュータ、511…ホストコントローラ、512…CPU、513…RAM、514…入力/出力コントローラ、515…通信インタフェース、516…ROM、601…無人航空機、602…遠隔操作装置、611…UAV本体、612…ジンバル、1001、1201…チャネル情報、1011、1211…ROI、1012−1〜1012―n、1212−1〜1212−n…ボケ画像、1013…レンズ情報、1014…基準画像、1021…レンズ位置画像、1022…露出画像、1023…F値画像、1024、2011…主題情報、1025−1〜1025−L…撮像情報、1031−1〜1031−N…フィルタ情報、1101、1131…特徴マップ、1111−1〜1111−N…特徴画像、1121…画素情報、1122…注目領域、2012…撮像情報、2013…学習結果

Claims (13)

  1. 合焦位置に対応するレンズ位置において取得された第1の画像および前記第1の画像が撮像されたときの第1の情報を取得する取得部と、
    前記合焦位置に対応するレンズ位置において取得された基準画像から取得された複数の第2の画像、前記第1の画像、および前記第1の情報から得られる特徴マップに基づくパラメータに対応するレンズ位置が前記合焦位置に対応するレンズ位置から予め定められた位置にまで近付くように前記パラメータの演算で用いられる重み付け値を調整することで、前記パラメータの各値と確率との対応において真値の推定確率が所定の確率以上となるように、前記パラメータを演算する制御部と、
    を備える制御装置。
  2. 前記制御部は、複数の前記第2の画像、前記第1の画像、および前記第1の情報に対して少なくとも畳み込み演算およびプーリング演算を行うことで前記特徴マップを得る、
    請求項1に記載の制御装置。
  3. 前記制御部は、前記重み付け値をフィルタ係数の値とするフィルタを用いて前記畳み込み演算を行う、
    請求項2に記載の制御装置。
  4. 前記第2の画像は、前記基準画像が取得されたレンズ位置からずれたレンズ位置に対応するボケ画像である、
    請求項1から請求項3のいずれか1項に記載の制御装置。
  5. 前記第2の画像は、前記基準画像に点拡がり関数が施されて取得された画像である、
    請求項1から請求項4のいずれか1項に記載の制御装置。
  6. 前記点拡がり関数は、前記第1の画像が取得されたときに用いられたレンズと同じレンズ特性を有する、
    請求項5に記載の制御装置。
  7. 前記基準画像は、テストチャートまたはカラーチャートである、
    請求項1から請求項6のいずれか1項に記載の制御装置。
  8. 前記基準画像は、解像度、歪み、色収差、あるいは、周波数特性のうちの1以上を測定するために用いられる、
    請求項1から請求項7のいずれか1項に記載の制御装置。
  9. 複数の合焦枠に対応する複数の前記合焦位置について、複数の前記合焦位置に対応する複数のレンズ位置において複数の前記第1の画像が取得される、
    請求項1から請求項8のいずれか1項に記載の制御装置。
  10. 前記第1の情報は、露出値あるいはF値のうちの少なくとも1つを含む、
    請求項1から請求項9のいずれか1項に記載の制御装置。
  11. 前記パラメータは、撮像装置の合焦に用いられ、推定確率が最も高い前記パラメータの値が前記合焦位置の値として採用される、
    請求項1から請求項10のいずれか1項に記載の制御装置。
  12. 制御装置が、
    合焦位置に対応するレンズ位置において取得された第1の画像および前記第1の画像が撮像されたときの第1の情報を取得する段階と、
    前記合焦位置に対応するレンズ位置において取得された基準画像から取得された複数の第2の画像、前記第1の画像、および前記第1の情報から得られる特徴マップに基づくパラメータに対応するレンズ位置が前記合焦位置に対応するレンズ位置から予め定められた位置にまで近付くように前記パラメータの演算で用いられる重み付け値を調整することで、前記パラメータの各値と確率との対応において真値の推定確率が所定の確率以上となるように、前記パラメータを演算する段階と、
    を備える方法。
  13. 合焦位置に対応するレンズ位置において取得された第1の画像および前記第1の画像が撮像されたときの第1の情報を取得する段階と、
    前記合焦位置に対応するレンズ位置において取得された基準画像から取得された複数の第2の画像、前記第1の画像、および前記第1の情報から得られる特徴マップに基づくパラメータに対応するレンズ位置が前記合焦位置に対応するレンズ位置から予め定められた位置にまで近付くように前記パラメータの演算で用いられる重み付け値を調整することで、前記パラメータの各値と確率との対応において真値の推定確率が所定の確率以上となるように、前記パラメータを演算する段階と、
    をコンピュータに実行させるためのプログラム。
JP2018174632A 2018-09-19 2018-09-19 制御装置、方法およびプログラム Expired - Fee Related JP6679679B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018174632A JP6679679B2 (ja) 2018-09-19 2018-09-19 制御装置、方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018174632A JP6679679B2 (ja) 2018-09-19 2018-09-19 制御装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2020048058A JP2020048058A (ja) 2020-03-26
JP6679679B2 true JP6679679B2 (ja) 2020-04-15

Family

ID=69901943

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018174632A Expired - Fee Related JP6679679B2 (ja) 2018-09-19 2018-09-19 制御装置、方法およびプログラム

Country Status (1)

Country Link
JP (1) JP6679679B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04330411A (ja) * 1991-05-02 1992-11-18 Olympus Optical Co Ltd 自動合焦装置
JPH0854557A (ja) * 1994-08-09 1996-02-27 Nikon Corp カメラのオートフォーカス装置
US7668388B2 (en) * 2005-03-03 2010-02-23 Mitutoyo Corporation System and method for single image focus assessment
KR100799829B1 (ko) * 2006-10-11 2008-01-31 삼성전기주식회사 신경망을 이용한 오토포커싱 방법
KR20090002685A (ko) * 2007-07-02 2009-01-09 삼성전기주식회사 오토 포커싱 장치 및 방법

Also Published As

Publication number Publication date
JP2020048058A (ja) 2020-03-26

Similar Documents

Publication Publication Date Title
CN102298070B (zh) 估算无人机,尤其是能够在自动驾驶下执行悬停飞行的无人机的水平速度的方法
JP6570327B2 (ja) 制御装置、撮像装置、制御方法、プログラム、および、記憶媒体
EP3704508B1 (en) Aperture supervision for single-view depth prediction
KR102640227B1 (ko) 카메라 패닝 또는 모션에서 배경 블러링을 생성하는 시스템 및 방법
WO2019227441A1 (zh) 可移动平台的拍摄控制方法和设备
CN109451240B (zh) 对焦方法、装置、计算机设备和可读存储介质
CN106998413A (zh) 图像处理设备、摄像设备和图像处理方法
WO2020172800A1 (zh) 可移动平台的巡检控制方法和可移动平台
JP6878736B2 (ja) 制御装置、移動体、制御方法、及びプログラム
CN111194433A (zh) 用于构图和捕捉图像的方法和系统
Wang et al. Automated camera-exposure control for robust localization in varying illumination environments
CN108298101B (zh) 云台旋转的控制方法及装置、无人机
KR102155154B1 (ko) 드론을 이용한 예술사진 촬영방법 및 그 기능을 갖는 드론
WO2022151473A1 (zh) 拍摄控制方法、拍摄控制装置及云台组件
WO2021184341A1 (en) Autofocus method and camera system thereof
JP6679679B2 (ja) 制御装置、方法およびプログラム
WO2018227345A1 (zh) 控制方法和无人机
JP6790318B2 (ja) 無人航空機、制御方法、及びプログラム
CN112514366A (zh) 图像处理方法、图像处理装置和图像处理系统
US20220046177A1 (en) Control device, camera device, movable object, control method, and program
US20220188993A1 (en) Control apparatus, photographing apparatus, control method, and program
JP6503607B2 (ja) 撮像制御装置、撮像装置、撮像システム、移動体、撮像制御方法、及びプログラム
CN110036411A (zh) 生成电子三维漫游环境的装置和方法
US11125970B2 (en) Method for lens autofocusing and imaging device thereof
CN112154477A (zh) 图像处理方法、装置和可移动平台

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180919

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191008

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200318

R150 Certificate of patent or registration of utility model

Ref document number: 6679679

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees