JP7614754B2

JP7614754B2 - 画像処理方法、プログラム、画像処理装置、学習装置、学習方法、学習済みモデルの生成方法、および、画像処理システム

Info

Publication number: JP7614754B2
Application number: JP2020123171A
Authority: JP
Inventors: 正和小林
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2025-01-16
Anticipated expiration: 2040-07-17
Also published as: JP2025031902A; US20230128856A1; JP2022019374A; WO2022014148A1; JP7815411B2

Description

本発明は、光学系を用いて撮像された撮像画像から、距離情報を推定する画像処理方法に関する。

非特許文献１には、単一の光学系を用いて撮像された撮像画像のデフォーカスぼけから、機械学習モデルを用いて距離情報を推定する方法が開示されている。

ＰｈｙｓｉｃａｌＣｕｅｂａｓｅｄＤｅｐｔｈ－ＳｅｎｓｉｎｇｂｙＣｏｌｏｒＣｏｄｉｎｇｗｉｔｈＤｅａｂｅｒｒａｔｉｏｎＮｅｔｗｏｒｋ，ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１９０８．００３２９

非特許文献１に開示された方法は、様々な収差が発生する光学系で撮像した撮像画像から距離情報を推定する場合、推定の精度低下、または学習負荷と保持データ量の増大を招く。光学系では、焦点距離、絞り値、およびフォーカス距離などにより、デフォーカスぼけが変化する。このため、デフォーカスぼけから距離情報を推定するには、以下の２つの方法が考えられる。

第１の方法は、光学系で発生し得るデフォーカスぼけ全てを含む学習データで、機械学習モデルを学習する方法である。しかし、学習データに似たような形状のデフォーカスぼけが複数含まれている場合、各々のデフォーカスぼけに対する距離情報の推定精度は低下する。第２の方法は、光学系で発生し得るデフォーカスぼけを各々、類似する複数のグループに分け、各グループの学習データで個別に機械学習モデルを学習する方法である。しかしこの場合、高倍率なズームレンズなどの様々な収差が発生する光学系では、グループ数が膨大になり、学習負荷と保持データ量（学習した機械学習モデルのウエイトを示すデータの容量）が増大する。このため、距離情報の推定精度と、学習負荷および保持データ量とを両立させることは困難である。

そこで本発明の目的は、機械学習モデルの学習負荷と保持データ量を抑制して、撮像画像のデフォーカスぼけから高精度に距離情報を推定することが可能な画像処理方法などを提供することである。

本発明の一側面としての画像処理方法は、光学系を用いた撮像によって得られた撮像画像と、該光学系の状態を示すマップとを含む入力データを取得する工程と、前記入力データを機械学習モデルに入力することで、前記撮像画像における被写体距離の情報を推定する工程とを有し、前記光学系の状態は、焦点距離、絞り値、またはフォーカス距離の少なくとも一つを含み、前記機械学習モデルは、訓練画像と、該訓練画像における被写体距離の情報を有する正解画像と、光学系の状態に関する情報とを用いた訓練によって得られた学習済みモデルであり、前記マップは、前記撮像画像の画素数と、前記光学系の状態に関する情報とに基づいて生成され、前記光学系の状態を示す数値を要素として有する情報である。

本発明の他の目的及び特徴は、以下の実施例において説明される。

本発明によれば、機械学習モデルの学習負荷と保持データ量を抑制して、撮像画像のデフォーカスぼけから高精度に距離情報を推定することが可能な画像処理方法などを提供することができる。

実施例１における機械学習モデルの構成を示す図である。実施例１における画像処理システムのブロック図である。実施例１における画像処理システムの外観図である。実施例１におけるデフォーカスぼけの大きさと被写体距離との関係を示す図である。実施例１におけるデフォーカス位置での点像強度分布を示す図である。実施例１におけるレンズステートを変化させたときのデフォーカスぼけの大きさと被写体距離との関係を示す図である。実施例１乃至３におけるウエイトの学習に関するフローチャートである。実施例１における推定画像の生成に関するフローチャートである。実施例２における機械学習モデルの構成を示す図である。実施例２における画像処理システムのブロック図である。実施例２における画像処理システムの外観図である。実施例２における撮像素子と光学系のイメージサークルとの関係を示す図である。実施例２における推定画像の生成に関するフローチャートである。実施例３における画像処理システムのブロック図である。実施例３における画像処理システムの外観図である。実施例３における推定画像の生成に関するフローチャートである。

以下、本発明の実施例について、図面を参照しながら詳細に説明する。各図において、同一の部材については同一の参照符号を付し、重複する説明は省略する。

本実施例の具体的な説明を行う前に、本発明の要旨を説明する。本発明は、単一の光学系を用いて撮像された撮像画像のデフォーカスぼけから、機械学習モデルを用いて距離情報を推定する。デフォーカスぼけの形状は合焦位置からの距離に応じて変化するため、この性質を利用して距離情報を推定することができる。機械学習モデルは、例えば、ニューラルネットワーク、遺伝的プログラミング、またはベイジアンネットワークなどを含む。ニューラルネットワークは、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）などを含む。機械学習モデルに入力される入力データは、撮像画像と、撮像画像を撮像した際の光学系の状態に関する情報とを含む。光学系の状態は、例えば、光学系の焦点距離、絞り値、またはフォーカス距離などであるが、これらに限定されるものではない。

機械学習モデルの学習と学習後の推定において、光学系の状態に関する情報を入力することで、機械学習モデルは撮像画像に作用しているデフォーカスぼけが光学系のどの状態で発生したものか特定することができる。これにより、機械学習モデルは、学習に様々な形状のデフォーカスぼけが含まれていても、光学系の状態ごとに異なる距離情報の推定を行うウエイトを学習する。このため、各デフォーカスぼけに対して高精度な距離情報を推定することができる。したがって、距離情報の推定精度の低下を抑制し、様々な形状のデフォーカスぼけを含む学習データを一括で学習することが可能となる。その結果、学習負荷と保持データ量を抑制して、撮像画像のデフォーカスぼけから高精度に距離情報を推定することができる。

なお以下では、機械学習モデルのウエイトを学習する段階のことを学習フェーズとし、学習済みのウエイトを用いた機械学習モデルで距離情報の推定を行う段階のことを推定フェーズとする。

まず、図２および図３を参照して、本発明の実施例１における画像処理システムについて説明する。図２は、画像処理システム１００のブロック図である。図３は、画像処理システム１００の外観図である。

画像処理システム１００は、学習装置１０１、撮像装置（画像処理装置）１０２、およびネットワーク１０３を有する。学習装置１０１と撮像装置１０２は、有線または無線であるネットワーク１０３を介して接続される。学習装置１０１は、記憶部１１１、取得部１１２、演算部１１３、および更新部１１４を有し、機械学習モデルで距離情報の推定を行うためのウエイトを学習する（学習済みモデルを製造する）。撮像装置１０２は、被写体空間を撮像して撮像画像を取得し、撮像後または予め読み出したウエイトの情報を用いて、撮像画像から距離情報の推定をする。学習装置１０１で実行されるウエイトの学習、および、撮像装置１０２で実行される距離情報の推定に関する詳細については後述する。

撮像装置１０２は、結像光学系（光学系）１２１および撮像素子１２２を有する。結像光学系１２１は、被写体空間から入射した光を集光し、光学像（被写体像）を形成する。撮像素子１２２は、光学像を光電変換によって電気信号へ変換し、撮像画像を生成する。撮像素子１２２は、例えばＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）センサや、ＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌ－ＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）センサなどである。

画像処理部１２３は、取得部（取得手段）１２３ａおよび距離推定部（推定手段）１２３ｂを有し、撮像画像から距離情報を推定した推定画像（距離情報画像）を生成する。推定画像の生成には、学習装置１０１で学習された学習済みのウエイトの情報が用いられる。ウエイトの情報は、記憶部１２４に記憶されている。記録媒体１２５は、推定画像を保存する。または、記録媒体１２５に撮像画像を保存し、画像処理部１２３が該撮像画像を読み込んで推定画像を生成してもよい。表示部１２６は、ユーザの指示に従って、記録媒体１２５に保存された推定画像を表示する。システムコントローラ１２７は、上記の一連の動作を制御する。

次に、図４を参照して、デフォーカスぼけの形状と被写体距離に関して説明する。図４は、デフォーカスぼけの大きさと被写体距離との関係を示す図であり、軸上におけるデフォーカスぼけの大きさ（ピクセル）と被写体距離（ｍｍ）との関係を幾何光学的に計算した結果を示す。図４において、横軸は被写体距離（ｍｍ）、縦軸はデフォーカスぼけの大きさ（ｐｘ）をそれぞれ示す。計算条件は、合焦位置２５００ｍｍ、Ｆ値１．４、焦点距離５０ｍｍ、画素ピッチ５．５μｍとしている。

被写体が合焦位置から離れる程、デフォーカスぼけのサイズは大きくなる。例えば、被写体距離が５０００ｍｍの場合は約６５ピクセルであり、被写体距離が６０００ｍｍの場合は約７５ピクセルとなる。一方で、被写体距離が１７００ｍｍの場合も約６５ピクセルであり、被写体距離が５０００ｍｍの場合とデフォーカスぼけの大きさが同じである。しかし、実際の光学系においては、収差の影響によりＰＳＦ（ＰｏｉｎｔＳｐｒｅａｄＦｕｎｃｔｉｏｎ）の大きさは同じでも強度分布が異なる。なお本実施例において、ＰＳＦの大きさとはＰＳＦが強度を持つ範囲に相当し、ＰＳＦの形状とはＰＳＦの強度分布に相当する。このため、５０００ｍｍと１７００ｍｍにおけるデフォーカスぼけを区別して距離情報の推定が可能である。具体的には、強度分布が異なることで、ガウスぼけ、玉ぼけ、二線ぼけ等の違いが生じる。

ここで、図５を参照して、二線ぼけ、玉ぼけ、ガウスぼけについて説明する。図５（Ａ）は、二線ぼけの点像強度分布（ＰＳＦ）を示す図である。図５（Ａ）において、横軸は空間座標（位置）、縦軸は強度を示す。この点は、後述の図５（Ｂ）、（Ｃ）に関しても同様である。図５（Ａ）に示されるように、二線ぼけは、ピークが分離したＰＳＦを有する。デフォーカス距離におけるＰＳＦが図５（Ａ）のような形状を有する場合、本来は１本の線である被写体が、デフォーカスした際に２重にぼけているように見える。図５（Ｂ）は、玉ぼけのＰＳＦを示す図である。玉ぼけは、強度がフラットなＰＳＦを有する。図５（Ｃ）は、ガウスぼけのＰＳＦを示す図である。ガウスぼけは、ガウス分布のＰＳＦを有する。以上のように、デフォーカスぼけの形状と被写体距離との間には相関関係があり、デフォーカスぼけの形状から距離情報の推定が可能である。

次に、図６を参照して、デフォーカスぼけの形状とレンズステート（焦点距離、絞り値、フォーカス距離）に関して説明する。デフォーカスぼけの形状は、レンズステートに応じて変化する。図６は、レンズステートを変化させたときのデフォーカスぼけの大きさと被写体距離との関係を示す図である。図６は、図４のレンズステートから、焦点距離、絞り値、およびフォーカス距離を変化させたときの、軸上におけるデフォーカスぼけの大きさ（ピクセル）と被写体距離（ｍｍ）との関係を幾何光学的に計算した結果を示している。図６の結果は、図４のレンズステートから焦点距離を８０ｍｍ（二点鎖線１００１）、絞り値をＦ２．８（一点鎖線１００２）、フォーカス距離を５０００ｍｍ（点線１００３）に変化させた場合である。

図６に示されるように、レンズステートに応じてデフォーカスぼけの大きさと被写体距離の関係が変化している。すなわち、レンズステートが変化すると、特定のデフォーカスぼけの大きさに対応する被写体距離が多数存在することになる。上述したように、特定のレンズステートにおけるデフォーカスは数が少ないため、ＰＳＦの強度分布から距離情報の推定が可能である。しかし、学習するデフォーカスぼけの数が増えると、デフォーカスぼけの形状のみから距離情報を推定することは難しく、推定精度が低下する。そこで本実施例では、撮像画像と共に光学系の状態に関する情報を機械学習モデルに入力することで、光学系の状態ごとに異なる距離情報の推定を行うウエイトを学習する。これにより、各デフォーカスぼけに対して高精度な距離情報の推定が可能となる。

次に、図７を参照して、学習装置１０１で実行されるウエイトの学習（学習フェーズ）について説明する。図７は、ウエイトの学習（学習済みモデルの製造方法）に関するフローチャートである。図７の各ステップは、主に、学習装置１０１の各部により実行される。なお本実施例では、機械学習モデルとしてＣＮＮを使用するが、他のモデルについても同様に適用可能である。

まずステップＳ１０１において、取得部１１２は、記憶部１１１から１組以上の正解画像と訓練入力データを取得する。訓練入力データは、ＣＮＮの学習フェーズにおける入力データである。訓練入力データは、訓練画像と、訓練画像に対応する光学系の状態に関する情報とを含む。訓練画像と正解画像は、デフォーカスぼけの作用した画像とデフォーカスぼけに対応した距離情報画像のペアである。訓練画像はデフォーカスぼけの作用した画像であり、正解画像はデフォーカスぼけに対応した距離情報画像である。距離情報画像は、訓練画像の１つのチャンネル成分と同じ要素数（画素数）である。一例として、距離情報画像が、被写体距離の取り得る範囲に基づいて正規化された数値を有する場合を示す。Ｌを被写体距離とし、被写体距離の最小値および最大値をそれぞれＬ_ｍｉｎ、Ｌ_ｍａｘとする。このとき、正規化されたｌは、以下の式（１）で求められる。

なお、数値の取り方に制限はなく、最至近を１とし、撮像装置から最も離れた距離を０としてもよい。また、被写体距離の取り得る範囲に基づいて正規化された数値ではなく、取り得るデフォーカスぼけの大きさに基づいて正規化された数値を距離情報画像としてもよい。この場合、フォーカス距離の前後で同じ大きさのデフォーカスぼけが存在する。そのため、前ぼけと後ぼけを区別できる情報を有していることが望ましい。例えば、距離情報画像の１チャンネル目をデフォーカスぼけの大きさに基づいて正規化された数値とし、２チャンネル目をフォーカス距離に対する前後の位置関係を示す数値とすればいい。１枚の訓練画像には、特定の焦点距離、絞り値、フォーカス距離におけるデフォーカスぼけが作用している。

訓練画像に対応する光学系の状態に関する情報とは、特定の焦点距離、絞り値、またはフォーカス距離の少なくとも一つを示す情報である。換言すると、光学系の状態に関する情報とは、訓練画像に作用しているデフォーカスぼけを特定する情報である。本実施例において、光学系の状態に関する情報は、焦点距離、絞り値、およびフォーカス距離の全てを含む。ただし本実施例は、これに限定されるものではなく、光学系の状態に関する情報は、焦点距離、絞り値、およびフォーカス距離の一部のみを含むものでもよく、また、他の情報を含んでいてもよい。

以下、記憶部１１１に記憶されている、正解画像と訓練入力データの生成方法の例を示す。第一の例は、原画像を被写体として、撮像シミュレーションを行う方法である。原画像は、実写画像やＣＧ（ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓ）画像などである。様々な被写体に対して正しく距離情報の推定を行うことができるように、原画像は、様々な強度と方向を有するエッジや、テクスチャ、グラデーション、平坦部などを有する画像であることが望ましい。原画像は、１枚でも複数枚でもよい。訓練画像は、デフォーカスぼけを原画像に作用させて撮像シミュレーションを行った画像である。

本実施例では、結像光学系１２１の状態（Ｚ，Ｆ，Ｄ）で発生するデフォーカスぼけを作用させる。ここで、Ｚは焦点距離、Ｆは絞り値、Ｄはフォーカス距離の状態を示す。撮像素子１２２が複数の色成分を取得する場合、各色成分のデフォーカスぼけを原画像に作用させる。デフォーカスぼけの作用は、原画像に対してＰＳＦ（ＰｏｉｎｔＳｐｒｅａｄＦｕｎｃｔｉｏｎ）を畳み込むか、または原画像の周波数特性とＯＴＦ（ＯｐｔｉｃａｌＴｒａｎｓｆｅｒＦｕｎｃｔｉｏｎ）の積をとることで実行できる。（Ｚ，Ｆ，Ｄ）で指定されるデフォーカスぼけを作用させた訓練画像に対応する光学系の状態に関する情報は、（Ｚ，Ｆ，Ｄ）を特定する情報である。

正解画像は、デフォーカスぼけに対応した距離情報画像である。正解画像と訓練画像は、未現像のＲＡＷ画像でも現像後の画像でもよい。１枚以上の原画像に対し、複数の異なる（Ｚ，Ｆ，Ｄ）のデフォーカスぼけを作用させ、複数組の正解画像と訓練画像を生成する。本実施例では、結像光学系１２１で発生するデフォーカスぼけ全てに対する距離情報の推定を、一括で学習する。故に、（Ｚ，Ｆ，Ｄ）を結像光学系１２１が取り得る範囲で変化させ、複数組の正解画像と訓練画像を生成する。また、同一の（Ｚ，Ｆ，Ｄ）においても、像高とアジムスに依存して複数のデフォーカスぼけが存在するため、異なる像高とアジムスごとにも正解画像と訓練画像の組を生成する。

好ましくは、原画像は、撮像素子１２２の輝度飽和値よりも高い信号値を有する。これは、実際の被写体においても、特定の露出条件で撮像装置１０２により撮像を行った際、輝度飽和値に収まらない被写体が存在するためである。正解画像は、原画像を撮像素子１２２の輝度飽和値で信号をクリップすることにより生成される。訓練画像は、ぼけを作用させた後、輝度飽和値によってクリップすることで生成される。

正解画像と訓練入力データの生成方法の第二の例は、結像光学系１２１と撮像素子１２２による実写画像を使用する方法である。結像光学系１２１が（Ｚ，Ｆ，Ｄ）の状態で撮像し、訓練画像を得る。訓練画像に対応する光学系の状態に関する情報は、（Ｚ，Ｆ，Ｄ）を特定する情報である。正解画像は、訓練画像を撮影する際に距離情報を取得することで得られる。距離情報は、ＴｏＦ（ＴｉｍｅＯｆＦｌｉｇｈｔ）センサ等を使用するか、撮像した被写体が全画角で同一距離の場合は、メジャー等の計測器具を使用することでも取得することができる。なお、前述の２つの方法で生成した訓練画像と正解画像とから、既定の画素数の部分領域を抽出して学習に用いてもよい。

続いて、図７のステップＳ１０２において、演算部１１３は、訓練入力データをＣＮＮへ入力し、出力画像を生成する。ここで、図１を参照して、本実施例における出力画像の生成に関して説明する。図１は、機械学習モデルの構成を示す図である。訓練入力データは、訓練画像２０１と光学系の状態に関する情報（ｚ，ｆ，ｄ）２０２とを含む。訓練画像２０１は、グレースケールでも、複数のチャンネル成分を有していてもよい。正解画像も同様である。（ｚ，ｆ，ｄ）２００は、正規化された（Ｚ，Ｆ，Ｄ）である。正規化は、焦点距離、絞り値、およびフォーカス距離のそれぞれに関して、結像光学系１２１の取り得る範囲に基づいて行われる。

例えば、Ｚを焦点距離、Ｆを絞り値、Ｄを撮像装置１０２からフォーカス被写体までの距離の絶対値の逆数とする。結像光学系１２１の焦点距離Ｚの最小値と最大値をそれぞれＺ_ｍｉｎ、Ｚ_ｍａｘ、絞り値Ｆの最小値と最大値をそれぞれＦ_ｍｉｎ、Ｆ_ｍａｘ、フォーカス可能な距離の絶対値の逆数Ｄの最小値と最大値をそれぞれＤ_ｍｉｎ、Ｄ_ｍａｘとする。ここで、フォーカス可能な距離が無限遠の場合、Ｄ_ｍｉｎ＝１／｜∞｜＝０である。正規化された（ｚ，ｆ，ｄ）は、以下の式（２）で求められる。

ｘは（ｚ，ｆ，ｄ）のいずれか、Ｘは（Ｚ，Ｆ，Ｄ）のいずれかを示すダミー変数である。なお、Ｘ_ｍｉｎ＝Ｘ_ｍａｘの場合、ｘは定数とする。または、ｘには自由度がないため、光学系の状態に関する情報から除外する。ここで、一般にフォーカス距離が近くなるほど、結像光学系１２１の性能変化は大きくなるため、Ｄを距離の逆数としている。

本実施例において、ＣＮＮ２１１は、第１のサブネットワーク２２１および第２のサブネットワーク２２３を有する。第１のサブネットワーク２２１は、１層以上の畳み込み層またはフルコネクション層を有する。第２のサブネットワーク２２３は、１層以上の畳み込み層を有する。畳み込み層（フィルタ）が影響する範囲は、フィルタの層数とサイズによって決まる。例えば、フィルタの層数を２０層、サイズを３×３画素とした場合、注目画素から最大２０画素離れた画素まで影響が及ぶことになる。フィルタの層数と大きさは、学習するデフォーカスぼけの大きさに応じて決定することが好ましい。すなわち、デフォーカスぼけの大きさが４０画素の場合、フィルタの層数を２０層、サイズを３×３画素とすることで、デフォーカスぼけ全体にフィルタが適用される。

学習の初回において、ＣＮＮ２１１のウエイト（フィルタの各要素とバイアスの値）は、乱数により生成される。第１のサブネットワーク２２１は、光学系の状態に関する情報（ｚ，ｆ，ｄ）２０２を入力とし、特徴マップに変換したステートマップ２０３を生成する。ステートマップ２０３は、光学系の状態を示すマップであり、訓練画像２０１の１つのチャンネル成分と同じ要素数（画素数）である。本実施例において、ステートマップ２０３は、撮像画像の画素数と、光学系の状態に関する情報とに基づいて生成される。また本実施例において、ステートマップに２０３おける同一のチャンネルの要素は、互いに同一の数値を有する。

連結層（ｃｏｎｃａｔｅｎａｔｉｏｎｌａｙｅｒ）２２２は、訓練画像２０１とステートマップ２０３とをチャンネル方向に規定の順番で連結する。なお、訓練画像２０１とステートマップ２０３の間に他のデータを連結しても構わない。第２のサブネットワーク２２３は、連結した訓練画像２０１とステートマップ２０３を入力とし、出力画像２０４を生成する。ステップＳ１０１にて複数組の訓練入力データを取得している場合、それぞれに対して出力画像２０４を生成する。また、訓練画像２０１を第３のサブネットワークによって特徴マップへ変換し、特徴マップとステートマップ２０３を連結層２２２で連結する構成としてもよい。

続いて、図７のステップＳ１０３において、更新部１１４は、出力画像と正解画像の誤差から、ＣＮＮのウエイトを更新する。本実施例では、出力画像と正解画像における信号値の差のユークリッドノルムをロス関数とする。ただし、ロス関数はこれに限定されるものではない。ステップＳ１０１にて複数組の訓練入力データと正解画像を取得している場合、各組に対してロス関数の値を算出する。更新部１１４は、算出されたロス関数の値から、誤差逆伝播法（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）などによりウエイトを更新する。

続いてステップＳ１０４において、更新部１１４は、ウエイトの学習が完了したかを判定する。完了は、学習（ウエイトの更新）の反復回数が規定の回数に達したかや、更新時のウエイトの変化量が規定値より小さいかなどによって、判定することができる。未完と判定された場合はステップＳ１０１へ戻り、１組以上の新たな訓練入力データと正解画像を取得する。一方、完了と判定された場合は学習を終了し、ウエイトの情報を記憶部１１１に保存する。

次に、図８を参照して、画像処理部１２３で実行される撮像画像の距離情報の推定（推定フェーズ）に関して説明する。図８は、推定画像の生成に関するフローチャートである。図８の各ステップは、主に、画像処理部１２３の各部により実行される。

まずステップＳ２０１において、取得部１２３ａは、入力データとウエイトの情報とを取得する。入力データは、撮像画像と、撮像画像を撮像した際の光学系の状態に関する情報とを含む。取得する撮像画像は、撮像画像の全体の一部でもよい。光学系の情報に関する情報は、結像光学系１２１の焦点距離、絞り値、およびフォーカス距離の状態を示す（ｚ，ｆ，ｄ）である。ウエイトの情報は、記憶部１２４から読み出して取得することができる。

続いてステップＳ２０２において、距離推定部１２３ｂは、入力データをＣＮＮに入力し、推定画像を生成する。推定画像は、撮像画像に対して、結像光学系１２１に起因するデフォーカスぼけから距離情報が推定された画像である。学習時と同様に、図１に示されるＣＮＮを用いて推定画像を生成する。ＣＮＮには、取得された学習済みのウエイトが使用される。なお、入力データの大きさ（画素数）に制限はなく、ＣＮＮが有する畳み込み層が影響する範囲より大きくてもよい。畳み込み層が影響する範囲に収まるように撮像画像を分割してＣＮＮへ入力する場合、個々の分割画像ごとに距離情報を推定するため、処理時間が増加する。このため、機械学習モデルの構造は、畳み込み層が影響する範囲より入力データが大きくてもよい構造とすることが好ましい。すなわち、距離情報の一部の領域を得るため（推定するため）に機械学習モデルが用いる撮像画像の領域は、機械学習モデルに入力される撮像画像の全体よりも小さいような構造とすることが好ましい。本実施例では、結像光学系の取り得る全ての（ｚ，ｆ，ｄ）に対して、一括で距離情報推定のウエイトを学習している。このため、全ての（ｚ，ｆ，ｄ）の撮像画像に対して、同一のウエイトを用いたＣＮＮで距離情報の推定が実行される。

以上の構成により、本実施例によれば、機械学習モデルの学習負荷と保持データ量を抑制して、撮像画像のデフォーカスぼけから高精度に距離情報を推定することが可能な画像処理システムを実現することができる。

次に、図１０および図１１を参照して、本発明の実施例２における画像処理システムに関して説明する。図１０は、本実施例における画像処理システム３００のブロック図である。図１１は、画像処理システム３００の外観図である。

画像処理システム３００は、学習装置３０１、撮像装置３０２、画像推定装置（画像処理装置）３０３、および、ネットワーク３０４、３０５を有する。学習装置３０１と画像推定装置３０３は、ネットワーク３０４を介して互いに通信可能である。撮像装置３０２と画像推定装置３０３は、ネットワーク３０５を介して互いに通信可能である。学習装置３０１は、記憶部３０１ａ、取得部３０１ｂ、生成部３０１ｃ、および、更新部３０１ｄを有し、距離情報の推定に用いる機械学習モデルのウエイトを学習する。なお、ウエイトの学習、およびウエイトを用いた距離情報の推定に関する詳細については後述する。

撮像装置３０２は、光学系３０２ａ、撮像素子３０２ｂ、取得部３０２ｃ、記録媒体３０２ｄ、および、システムコントローラ３０２ｅを有する。光学系３０２ａは、被写体空間から入射した光を集光し、光学像（被写体像）を形成する。撮像素子３０２ｂは、光学像を光電変換によって電気信号へ変換し、撮像画像を生成する。

画像推定装置（画像処理装置）３０３は、記憶部３０３ａ、距離推定部（推定手段）３０３ｂ、および、取得部（取得手段）３０３ｃを有する。画像推定装置３０３は、撮像装置３０２で撮像された撮像画像（またはその少なくとも一部）に対して、距離情報の推定をした推定画像を生成する。推定画像の生成には、学習装置３０１で学習された学習済みのウエイトの情報が用いられる。ウエイトの情報は、記憶部３０３ａに記憶されている。取得部３０２ｃは推定画像を取得し、記録媒体３０２ｄは推定画像を保存する。システムコントローラ３０２ｅは、撮像装置３０２の一連の動作を制御する。

次に、図７を参照して、学習装置３０１で実行されるウエイトの学習（学習フェーズ）について説明する。図７の各ステップは、主に、学習装置３０１の各部により実行される。なお本実施例では、機械学習モデルとしてＣＮＮを使用するが、他のモデルについても同様に適用可能である。また、実施例１と同様の説明については省略する。

まずステップＳ１０１において、取得部３０１ｂは、１組以上の正解画像と訓練入力データとを記憶部３０１ａから取得する。記憶部３０１ａには、光学系３０２ａと撮像素子３０２ｂの複数種類の組み合わせに対して、訓練画像が保存されている。本実施例２は、距離情報推定のウエイトの学習を、光学系３０２ａの種類ごとに一括で行う。このため、まずウエイトを学習する光学系３０２ａの種類を決定し、それに対応する訓練画像の集合から、訓練画像を取得する。ある種類の光学系３０２ａに対応する訓練画像の集合はそれぞれ、焦点距離、絞り値、フォーカス距離、像高、アジムスなどが異なるデフォーカスぼけの作用した画像の集合である。

本実施例では、図９に示されるＣＮＮの構成で学習を行う。図９は、本実施例における機械学習モデルの構成を示す図である。訓練入力データ４０４は、訓練画像４０１、ステートマップ４０２、および、位置マップ４０３を含む。ステートマップ４０２と位置マップ４０３の生成は、本ステップで行われる。位置マップは、撮像画像の各画素の位置に関する情報である。ステートマップ４０２と位置マップ４０３はそれぞれ、取得した訓練画像に作用しているデフォーカスぼけに対応する（Ｚ，Ｆ，Ｄ）と（Ｘ，Ｙ）を示すマップである。（Ｘ，Ｙ）は、図１２で示される像面の座標（水平方向と垂直方向）であり、極座標表示で像高とアジムスに対応する。本実施例において座標（Ｘ，Ｙ）は、光学系３０２ａの光軸を原点とする。

図１２は、光学系３０２ａのイメージサークル５０１、撮像素子３０２ｂの第１の有効画素領域５０２および第２の有効画素領域５０３と、座標（Ｘ，Ｙ）との関係を示す図である。撮像素子３０２ｂのサイズは、撮像装置３０２の種類に応じて異なる。このため撮像装置３０２は、第１の有効画素領域５０２を有する種類と、第２の有効画素領域５０３を有する種類が存在する。光学系３０２ａに接続可能な撮像装置３０２のうち、最大サイズの撮像素子３０２ｂを有する撮像装置３０２は、第１の有効画素領域５０２を有する。

図９の位置マップ４０３は、座標（Ｘ，Ｙ）を正規化した（ｘ，ｙ）に基づいて生成される。正規化は、光学系３０２ａのイメージサークル５０１に基づく長さ（イメージサークルの半径）５１１で、（Ｘ，Ｙ）を除することによって行われる。または、Ｘを原点から第１の有効画素領域の水平方向の長さ５１２で、Ｙを原点から第１の有効画素領域の垂直方向の長さ５１３で、それぞれ除して正規化してもよい。仮に、撮像画像の端が常に１となるように（Ｘ，Ｙ）を正規化すると、異なるサイズの撮像素子３０２ｂで撮像した画像によって、（ｘ，ｙ）が同じ値でも示す位置（Ｘ，Ｙ）が異なり、（ｘ，ｙ）とぼけの対応が一意に決まらない。これにより、距離情報推定精度の低下を招く。位置マップ４０３は、（ｘ，ｙ）の値をそれぞれチャンネル成分に有する２チャンネルのマップである。なお、位置マップ４０３に極座標を用いてもよく、原点の取り方も図１２に限定されるものではない。

ステートマップ４０２は、正規化された（ｚ，ｆ，ｄ）の値をそれぞれチャンネル成分に有する３チャンネルのマップである。すなわち本実施例において、ステートマップ４０２は、光学系の焦点距離、絞り値、またはフォーカス距離の少なくとも二つを示す数値をそれぞれ異なるチャンネルの要素として有する。訓練画像４０１、ステートマップ４０２、および位置マップ４０３のそれぞれの１チャンネルあたりの要素数（画素数）は等しい。なお、位置マップ４０３とステートマップ４０２の構成はこれに限定されるものではない。第１の有効画素領域５０２を複数の部分領域に分割し、各部分領域に数値を割り当てることで、位置マップを１チャンネルで表現してもよい。また、（Ｚ，Ｆ，Ｄ）も同様に、それぞれを軸とした３次元空間で複数の部分領域に分割して数値を割り当て、ステートマップを１チャンネルで表現してもよい。訓練画像４０１、ステートマップ４０２、および、位置マップ４０３は、図９の連結層４１１でチャンネル方向に規定の順番で連結され、訓練入力データ４０４が生成される。

続いて、図７のステップＳ１０２において、生成部３０１ｃは、訓練入力データ４０４をＣＮＮ４１２へ入力し、出力画像４０５を生成する。続いてステップＳ１０３において、更新部３０１ｄは、出力画像と正解画像の誤差から、ＣＮＮのウエイトを更新する。続いてステップＳ１０４において、更新部３０１ｄは、学習が完了したか否かを判定する。学習済みのウエイトの情報は、記憶部３０１ａに記憶される。

次に、図１３を参照して、画像推定装置３０３で実行される撮像画像の距離情報の推定（推定フェーズ）に関して、図１３は、推定画像の生成に関するフローチャートである。図１３の各ステップは、主に、画像推定装置３０３の各部により実行される。

まずステップＳ３０１において、取得部３０３ｃは、撮像画像（またはその少なくとも一部）を取得する。続いてステップＳ３０２において、取得部３０３ｃは、撮像画像に対応するウエイトの情報を取得する。本実施例では、光学系３０２ａの種類ごとのウエイトの情報が、予め記憶部３０１ａから読み出され、記憶部３０３ａに記憶されている。このため、撮像画像の撮像に用いた光学系３０２ａの種類に対応したウエイトの情報を記憶部３０３ａから取得する。撮像に用いた光学系３０２ａの種類は、例えば、撮像画像のファイル内のメタデータなどから特定する。

続いてステップＳ３０３において、取得部３０３ｃは、撮像画像に対応するステートマップと位置マップを生成し、入力データを生成する。ステートマップは、撮像画像の画素数と、撮像画像を撮像した際の光学系３０２ａの状態（Ｚ，Ｆ，Ｄ）の情報と、に基づいて生成される。撮像画像とステートマップの１チャンネルあたりの要素数（画素数）は、等しい。（Ｚ，Ｆ，Ｄ）は、例えば、撮像画像のメタデータなどから特定する。位置マップは、撮像画像の画素数と、撮像画像の各画素の位置の情報と、に基づいて生成される。撮像画像と位置マップの１チャンネルあたりの要素数（画素数）は、等しい。撮像画像のメタデータなどから、撮像画像の撮像に用いた撮像素子３０２ｂの有効画素領域の大きさを特定し、例えば同様に特定した光学系３０２ａのイメージサークルの長さを用いて、正規化された位置マップを生成する。入力データは、図９と同様に、撮像画像、ステートマップ、および位置マップをチャンネル方向に規定の順序で連結して生成する。なお、ステップＳ３０２とステップＳ３０３の順序は問わない。また、撮像画像の撮像時にステートマップと位置マップを生成し、撮像画像と合わせて保存しておいても構わない。

続いてステップＳ３０４において、距離推定部３０３ｂは、図９と同様に、入力データをＣＮＮに入力し、推定画像を生成する。

次に、本実施例の効果を高める好ましい条件に関して説明する。入力データは、撮像画像の撮像に用いた撮像素子３０２ｂの画素ピッチに関する情報も含むことが好ましい。これにより、撮像素子３０２ｂの種類に依らず、高精度な距離情報の推定が可能となる。画素ピッチによって、画素開口劣化の強さや、画素に対するデフォーカスぼけの大きさが変化する。学習フェーズにおいて、訓練画像に対応する画素ピッチを特定する情報を、訓練入力データに含ませる。例えば、正規化された画素ピッチの数値を要素とするマップを含む。正規化には、複数種類の撮像装置３０２のうち最大の画素ピッチを除数とするとよい。推定フェーズでも同様のマップを入力データに含めることで、距離情報推定の精度を向上できる。このようなマップは、撮像画像の画素数に基づいて生成される。

次に、図１４および図１５を参照して、本発明の実施例３における画像処理システムに関して説明する。図１４は、本実施例における画像処理システム６００のブロック図である。図１５は、画像処理システム６００の外観図である。

画像処理システム６００は、学習装置６０１、レンズ装置６０２、撮像装置６０３、制御装置（第１の装置）６０４、画像推定装置（第２の装置）６０５、および、ネットワーク６０６、６０７を有する。学習装置６０１と画像推定装置６０５は、ネットワーク６０６を介して互いに通信可能である。制御装置６０４と画像推定装置６０５は、ネットワーク６０７を介して互いに通信可能である。学習装置６０１および画像推定装置６０５はそれぞれ、例えばサーバである。制御装置６０４は、パーソナルコンピュータやモバイル端末などのユーザが操作する機器である。学習装置６０１は、記憶部６０１ａ、取得部６０１ｂ、演算部６０１ｃ、および、更新部６０１ｄを有し、レンズ装置６０２と撮像装置６０３を用いて撮像された撮像画像から距離情報の推定をする機械学習モデルのウエイトを学習する。なお、本実施例の学習方法は実施例１と同様のため、その説明を省略する。

撮像装置６０３は撮像素子６０３ａを有し、撮像素子６０３ａがレンズ装置６０２の形成した光学像を光電変換して撮像画像を取得する。レンズ装置６０２と撮像装置６０３とは着脱可能であり、互いに複数種類と組み合わることが可能である。制御装置６０４は、通信部６０４ａ、記憶部６０４ｂ、および、表示部６０４ｃを有し、有線または無線で接続された撮像装置６０３から取得した撮像画像に対して、実行する処理をユーザの操作に従って制御する。または、撮像装置６０３で撮像した撮像画像を予め記憶部６０４ｂに記憶しておき、撮像画像を読み出してもよい。

画像推定装置６０５は、通信部６０５ａ、記憶部６０５ｂ、取得部６０５ｃ、および、距離推定部６０５ｄを有する。画像推定装置６０５は、ネットワーク６０７を介して接続された制御装置６０４の要求に応じて、撮像画像の距離情報推定処理を実行する。画像推定装置６０５は、ネットワーク６０６を介して接続された学習装置６０１から、学習済みのウエイトの情報を距離情報の推定時または予め取得し、撮像画像の距離情報の推定に用いる。距離情報の推定後の推定画像は、再び制御装置６０４へ伝送されて、記憶部６０４ｂに記憶され、表示部６０４ｃに表示される。なお、学習装置６０１で行う学習データの生成とウエイトの学習（学習フェーズ）は、実施例１と同様のため、それらの説明を省略する。

次に、図１６を参照して、制御装置６０４と画像推定装置６０５で実行される距離情報の推定（推定フェーズ）に関して説明する。図１６は、本実施例における推定画像の生成に関するフローチャートである。

まずステップＳ４０１において、通信部６０４ａは、画像推定装置６０５へ撮像画像と距離情報の推定処理の実行に関する要求とを送信する。

続いてステップＳ５０１において、通信部６０５ａは、制御装置６０４から送信された撮像画像と処理の要求とを受信して取得する。続いてステップＳ５０２において、取得部６０５ｃは、撮像画像に対応する学習済みのウエイトの情報を記憶部６０５ｂから取得する。ウエイトの情報は、予め記憶部６０１ａから読み出され、記憶部６０５ｂに記憶されている。

続いてステップＳ５０３において、取得部６０５ｃは、撮像画像に対応する光学系の状態に関する情報を取得して、入力データを生成する。撮像画像のメタデータから、撮像画像を撮像した際の結像光学系６０２の種類、焦点距離、絞り値、およびフォーカス距離を特定する情報を取得し、図１と同様に、ステートマップ（レンズステートマップ）を生成する。入力データは、撮像画像とステートマップをチャンネル方向に既定の順序で連結して生成する。

続いてステップＳ５０４において、距離推定部６０５ｄは、入力データを生成器に入力し、距離情報の推定をした推定画像を生成する。生成器には、ウエイトの情報が使用される。続いてステップＳ５０５において、通信部６０５ａは、推定画像を制御装置６０４へ送信する。

続いてステップＳ４０２において、通信部６０４ａは、画像推定装置６０５から送信された推定画像を取得する。

（その他の実施例）
本発明は、上述の実施例の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

各実施例によれば、機械学習モデルの学習負荷と保持データ量を抑制し、撮像画像のデフォーカスぼけから高精度に距離情報を推定することが可能な画像処理方法、プログラム、画像処理装置、学習済みモデルの製造方法、画像処理システムを提供することができる。

以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。

１０２撮像装置（画像処理装置）
１２３ａ取得部（取得手段）
１２３ｂ距離推定部（生成手段）

Claims

光学系を用いた撮像によって得られた撮像画像と、該光学系の状態を示すマップとを含む入力データを取得する工程と、
前記入力データを機械学習モデルに入力することで、前記撮像画像における被写体距離の情報を推定する工程と、を有し、
前記光学系の状態は、焦点距離、絞り値、またはフォーカス距離の少なくとも一つを含み、
前記機械学習モデルは、訓練画像と、該訓練画像における被写体距離の情報を有する正解画像と、光学系の状態に関する情報とを用いた訓練によって得られた学習済みモデルであり、
前記マップは、前記撮像画像の画素数と、前記光学系の状態に関する情報とに基づいて生成され、前記光学系の状態を示す数値を要素として有する情報であることを特徴とする画像処理方法。
前記マップは、複数のチャンネルを含み、
前記複数のチャンネルはそれぞれ、前記光学系の前記焦点距離、前記絞り値、または前記フォーカス距離のいずれかを示す数値をチャンネルの要素として有することを特徴とする請求項１に記載の画像処理方法。
前記複数のチャンネルのうちの一つのチャンネルに含まれる各要素は、互いに同一の数値であることを特徴とする請求項２に記載の画像処理方法。
前記入力データは、前記撮像画像の各画素の位置に関する情報を更に有することを特徴とする請求項１乃至３のいずれか一項に記載の画像処理方法。
前記撮像画像は、撮像素子を用いた撮像により取得され、
前記位置に関する情報は、前記撮像素子上での前記光学系のイメージサークルの半径を正規化することで得られた数値を有することを特徴とする請求項４に記載の画像処理方法。
前記撮像画像は、撮像素子を用いた撮像により取得され、
前記入力データは、前記撮像素子の画素ピッチに関する情報を更に有することを特徴とする請求項１乃至５のいずれか一項に記載の画像処理方法。
請求項１乃至６のいずれか一項に記載の画像処理方法をコンピュータに実行させることを特徴とするプログラム。
光学系を用いた撮像によって得られた撮像画像と、該光学系の状態を示すマップとを含む入力データを取得する取得手段と、
前記入力データを機械学習モデルに入力することで、前記撮像画像における被写体距離の情報を推定する推定手段と、を有し、
前記光学系の状態は、焦点距離、絞り値、またはフォーカス距離の少なくとも一つを含み、
前記機械学習モデルは、訓練画像と、該訓練画像における被写体距離の情報を有する正解画像と、光学系の状態に関する情報とを用いた訓練によって得られた学習済みモデルであり、
前記マップは、前記撮像画像の画素数と、前記光学系の状態に関する情報とに基づいて生成され、前記光学系の状態を示す数値を要素として有する情報であることを特徴とする画像処理装置。
入力された画像における被写体距離の情報を推定する機械学習モデルの学習を行う学習方法であって、
訓練画像と、該訓練画像に応じた距離情報を有する正解画像と、光学系の状態を示すマップとを取得する工程と、
前記訓練画像と、前記正解画像と、前記光学系の状態に関する情報とに基づいて、前記機械学習モデルの学習を行う工程と、を有し、
前記光学系の状態は、焦点距離、絞り値、またはフォーカス距離の少なくとも一つを含み、
前記マップは、前記訓練画像の画素数と、前記光学系の状態に関する情報とに基づいて生成され、前記光学系の状態を示す数値を要素として有する情報であることを特徴とする学習方法。
請求項９に記載の学習方法をコンピュータに実行させることを特徴とするプログラム。
入力された画像における被写体距離の情報を推定する機械学習モデルの学習を行う学習済みモデルの生成方法であって、
訓練画像と、該訓練画像に応じた距離情報を有する正解画像と、光学系の状態を示すマップとを取得する工程と、
前記訓練画像と、前記正解画像と、前記光学系の状態に関する情報とに基づいて、前記機械学習モデルの学習を行う工程と、を有し、
前記光学系の状態は、焦点距離、絞り値、またはフォーカス距離の少なくとも一つを含み、
前記マップは、前記訓練画像の画素数と、前記光学系の状態に関する情報とに基づいて生成され、前記光学系の状態を示す数値を要素として有する情報であることを特徴とする学習済みモデルの生成方法。
入力された画像における被写体距離の情報を推定する機械学習モデルの学習を行う学習装置であって、
訓練画像と、該訓練画像に応じた距離情報を有する正解画像と、光学系の状態を示すマップとを取得する取得手段と、
前記訓練画像と、前記正解画像と、前記光学系の状態に関する情報とに基づいて、前記機械学習モデルの学習を行う学習手段と、を有し、
前記光学系の状態は、焦点距離、絞り値、またはフォーカス距離の少なくとも一つを含み、
前記マップは、前記訓練画像の画素数と、前記光学系の状態に関する情報とに基づいて生成され、前記光学系の状態を示す数値を要素として有する情報であることを特徴とする学習装置。
請求項８に記載の画像処理装置と、該画像処理装置と通信可能な制御装置とを有する画像処理システムであって、
前記制御装置は、前記撮像画像に対する処理の実行に関する要求を前記画像処理装置に送信する送信手段を有し、
前記画像処理装置は、前記要求に基づいて前記撮像画像に対する処理を実行する手段を有することを特徴とする画像処理システム。