以下、本実施形態について説明する。なお、以下に説明する本実施形態は、請求の範囲に記載された本発明の内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本発明の必須構成要件であるとは限らない。例えば、以下では情報処理システムを医療用内視鏡に適用する場合を例に説明するが、これに限定されず、本発明の情報処理システムを種々の撮影システム又は映像表示システムに適用できる。例えば、スチールカメラ、ビデオカメラ、テレビ受像機、顕微鏡、又は工業用内視鏡に、本発明の情報処理システムを適用できる。
図1は、本実施形態の情報処理システム100の構成例を説明するブロック図である。本情報処理システム100は、記憶部110と、処理部130を含む。記憶部110は、機械学習された学習済みモデル120を記憶する。学習済みモデル120は、処理対象画像のデフォーカスによるボケを補正した補正画像を出力するプログラムモジュールであり、後述の機械学習が行われることにより生成または更新される。処理対象画像とは、例えば図1に示すように第1撮像系101によって撮影された画像データであるが、これに限らず、詳細は後述する。なお、本実施形態において、デジタルデータとして処理可能な画像データを単に画像と呼ぶことがある。学習画像群32Gとは、第1学習画像32-1、第2学習画像32-2、…、第N学習画像32-Nからなる学習画像32の集合であり、正解画像36とともに詳細は後述する。つまり、本実施形態の処理部130は、学習済みモデル120を用いて、第1撮像系101によって撮影された画像である処理対象画像の第1撮像系101のデフォーカスによるボケを補正する。なお、記憶部110、処理部130を、それぞれ記憶装置、処理装置とも呼ぶ。
本実施形態における機械学習とは、例えば教師あり学習である。教師あり学習における訓練データは、入力データと正解ラベルとを対応付けたデータセットである。具体的には本実施形態の学習済みモデル120は、様々なボケの影響をシミュレートした学習画像32からなる入力データと、フォーカスが合った正解画像36からなる正解ラベルとを対応づけたデータセットに基づいた教師あり学習によって生成されている。
本実施形態の処理部130は、下記のハードウェアにより構成される。ハードウェアは、デジタル信号を処理する回路及びアナログ信号を処理する回路の少なくとも一方を含むことができる。例えば、ハードウェアは、回路基板に実装された1又は複数の回路装置や、1又は複数の回路素子で構成することができる。1又は複数の回路装置は例えばIC等である。1又は複数の回路素子は例えば抵抗、キャパシタ等である。
また、処理部130は、下記のプロセッサにより実現されてもよい。本実施形態の処理部130は、情報を記憶するメモリと、メモリに記憶された情報に基づいて動作するプロセッサと、を含む。メモリは例えば記憶部110である。情報は、例えばプログラムと各種のデータ等である。プロセッサは、ハードウェアを含む。プロセッサは、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)等、各種のプロセッサを用いることが可能である。メモリは、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)などの半導体メモリであってもよいし、レジスタであってもよいし、ハードディスク装置等の磁気記憶装置であってもよいし、光学ディスク装置等の光学式記憶装置であってもよい。例えば、メモリはコンピューターにより読み取り可能な命令を格納しており、当該命令がプロセッサにより実行されることで、処理部130の各部の機能が処理として実現されることになる。ここでの命令は、プログラムを構成する命令セットの命令でもよいし、プロセッサのハードウェア回路に対して動作を指示する命令であってもよい。
また、本実施形態の学習済みモデル120は、図2の構成例に示す情報処理システム100に用いられてもよい。つまり、本実施形態の学習済みモデル120は、学習済みモデル120を記憶する記憶部110と、入力部140と、処理部130と、出力部150を含む情報処理システム100に用いられ、学習画像群32Gと正解画像36とを含むデータセットによって機械学習されている。
入力部140は、外部から処理対象画像を受信するインターフェースである。具体的には、例えば図1、図2に示すように第1撮像系101から画像データを処理対象画像として受信する画像データインターフェースである。例えば入力部140は、受信した処理対象画像を、学習済みモデル120への入力データとし、処理部130が後述する処理を行うことで、入力部140としての機能が果たされる。つまり、本実施形態の学習済みモデル120において、入力部140は、第1撮像系101によって撮影された画像である処理対象画像を学習済みモデル120に入力する。
出力部150は、前述の補正画像を外部に送信するインターフェースである。例えば学習済みモデル120からの出力データを、出力部150が送信した補正画像とすることで、出力部150としての機能を果たす。補正画像の送信先は、例えば情報処理システム100に接続された所定の表示装置であり、例えば出力部150を当該所定の表示装置と接続可能なインターフェースとすることで表示装置に補正画像が表示され、出力部150としての機能を果たす。なお、補正画像の出力先は外部機器の記憶装置等であってもよい。
図3は、本実施形態の情報処理システム100によって行われる手法を説明するフローチャートである。処理部130は、処理対象画像読み込み(ステップS10)、学習済みモデル読み込み(ステップS20)を行った後に、補正処理(ステップS30)を行う。具体的には例えば処理部130は、入力部140を介して受信した処理対象画像を、記憶部110から読み出した学習済みモデル120に入力する処理を行う。学習済みモデル120は、入力データである処理対象画像が学習画像32と共通していると判断した場合、出力すべきデータは正解画像36と推定することから、処理対象画像が入力されると正解画像36を出力する。処理対象画像と正解画像36を比較すると、正解画像36は、処理対象画像における第1撮像系101のデフォーカスによるボケを補正した画像という関係が成り立つ。つまり、処理部130は、学習済みモデル120を用いて、処理対象画像の第1撮像系101のデフォーカスによるボケを補正する補正処理(ステップS30)を行う。
その後、処理部130は、補正画像出力(ステップS40)を行う。具体的には、前述のように出力部150が機能することで、補正画像が所望の出力先に出力される。言い換えれば、出力部150は、補正処理による補正画像を出力する。
次に、学習済みモデル120の機械学習について説明する。機械学習は例えば学習装置10によって行われる。図4は、学習装置10の構成例を示すブロック図である。学習装置10は、例えば通信部12と学習装置処理部16と学習装置記憶部18を含む。
通信部12は情報処理システム100と所定の通信方式で通信可能な通信インターフェースである。所定の通信方式は例えばWi-Fi(登録商標)等の無線通信規格に準拠した通信方式であるが、これに限らずUSB等の有線通信規格に準拠した通信方式であってもよい。これにより、学習装置10は、後述する手法により機械学習した学習済みモデル120を情報処理システム100に送信し、情報処理システム100は学習済みモデル120を更新することができる。なお、図4は、学習装置10と情報処理システム100を別々にした例であるが、情報処理システム100が学習装置10に相当する学習サーバを含む構成例にすることを妨げるものではない。
学習装置処理部16は、通信部12、学習装置記憶部18等の各機能部との間でデータの入出力制御を行う。学習装置処理部16は、図1の処理部130と同様のプロセッサにより実現できる。学習装置処理部16は、学習装置記憶部18から読みだした所定のプログラム、図4に不図示の操作部からの操作入力信号等に基づいて、各種の演算処理を実行し、情報処理システム100へのデータ出力動作等を制御する。ここでの所定のプログラムは、機械学習プログラムを含む。つまり、学習装置処理部16は、学習装置記憶部18から機械学習プログラムと必要なデータ等を読み出して実行することで、機械学習の機能を果たす。
学習装置記憶部18は、不図示の機械学習プログラムのほか、訓練モデル20、所定被写体画像30、光学系情報40を記憶する。学習装置記憶部18は、前述の記憶部110と同様の半導体メモリ等により実現できる。なお、学習装置記憶部18は、さらに他の情報を含んでもよい。他の情報とは、例えば後述の撮像素子情報50等である。
所定被写体画像30は、処理対象画像に係る被写体の画像であり、後述する学習画像32及び正解画像36は、所定被写体画像30に基づき作成される。つまり、学習装置記憶部18には、処理対象画像となり得る被写体の種類の数だけの所定被写体画像30が予め記憶されている。より具体的な例を挙げると、情報処理システム100が後述する内視鏡システム300に用いられる場合、後述する内視鏡スコープ310により撮像される内腔等の撮像画像が、所定被写体画像30となる。なお、以降の説明において、所定被写体画像30を撮像する撮像系について特に問わない場合における撮像系を便宜上、任意の撮像系104と呼ぶことにする。撮像系を限定した上で所定被写体画像30を撮像した場合については後述する。
訓練モデル20は、学習装置処理部16による機械学習の対象となるモデルである。ここでのモデルとは、推定対象データと推定結果データとの対応関係を導出する情報である。より具体的には、推定対象データである学習画像32から、推定結果データである出力画像34を導出する情報である。本実施形態の訓練モデル20において、モデルの少なくとも一部にニューラルネットワークNNが含まれている。ニューラルネットワークNNの詳細については図6で後述する。なお、前述のように、情報処理システム100と学習装置10が一体化されている場合は、学習済みモデル120を対象に機械学習してもよい。
例えば第1学習画像32-1が訓練モデル20に入力されると、訓練モデル20は、第1出力画像34-1を出力する。同様に、第N学習画像32-Nが訓練モデル20に入力されると、訓練モデル20は第N出力画像34-Nを出力する。つまり、図5に示すように、本実施形態の学習装置10において、第1学習画像32-1~第N学習画像32-NからなるN個の画像が学習画像群32Gとして訓練モデル20に入力される。
図6は、ニューラルネットワークNNを説明する模式図である。ニューラルネットワークNNは、データが入力される入力層と、入力層からの出力に基づいて演算を行う中間層と、中間層からの出力に基づいてデータを出力する出力層を有する。図6においては、中間層が2層であるネットワークを例示するが、中間層は1層であってもよいし、3層以上であってもよい。また各層に含まれるノードの数は図6の例に限定されず、種々の変形実施が可能である。図6に示すように、所与の層に含まれるノードは、隣接する層のノードと結合される。各結合には重み付け係数が設定されている。各ノードは、前段のノードの出力と重み付け係数を乗算し、乗算結果の合計値を求める。さらに各ノードは、合計値に対してバイアスを加算し、加算結果に活性化関数を適用することによって当該ノードの出力を求める。この処理を、入力層から出力層へ向けて順次実行することによって、ニューラルネットワークNNの出力が求められる。なお活性化関数としては、シグモイド関数やReLU関数等の種々の関数が知られており、本実施形態ではそれらを広く適用可能である。
ニューラルネットワークNNには種々の構成のモデルが知られており、本実施形態ではそれらを広く適用可能である。例えばニューラルネットワークNNは、CNN(Convolutional Neural Network)であってもよいし、RNN(Recurrent Neural Network)であってもよいし、他のモデルであってもよい。
図7は、学習済みモデル作成処理(ステップS100)の処理例を説明するフローチャートである。学習済みモデル作成処理(ステップS100)は機械学習により学習済みモデル120を作成または更新する処理である。学習装置処理部16は、所定被写体画像読み込み(ステップS110)を行った後、画像データ生成処理(ステップS120)を行う。例えば学習装置処理部16は、学習装置記憶部18から所定被写体画像30を読み出し、所定被写体画像30を用いて学習画像32と正解画像36を生成する所定の処理を行う。所定の処理とは、デフォーカスシミュレート処理(ステップS200)、ベストフォーカスシミュレート処理(ステップS300)等であり、詳細は後述する。
その後、学習装置処理部16は、補正学習処理(ステップS130)を行う。例えば学習装置処理部16は、学習装置記憶部18から訓練モデル20を読み出す処理と、画像データ生成処理(ステップS120)で生成した学習画像32を訓練モデル20に入力する処理と、訓練モデル20から出力された出力画像34と正解画像36に基づいて機械学習処理を行う。
出力画像34と正解画像36に基づく機械学習処理とは、例えば図8に示すように、第1出力画像34-1~第N出力画像34-Nを正解画像36になるようにニューラルネットワークNNのネットワークパラメータを変更する処理である。ニューラルネットワークNNのネットワークパラメータを変更する処理とは、具体的には例えばニューラルネットワークNNにおける適切な重み付け係数の更新を行う処理である。ここでの重み付け係数は、バイアスを含む。重み付け係数の更新においては、例えば出力層から入力層に向かって重み付け係数を更新していく誤差逆伝播法を利用することができる。つまり、学習装置10は、学習データのうちの入力データをモデルに入力し、そのときの重み付け係数を用いてモデル構成に従った順方向演算を行うことによって出力を求める。当該出力と、正解ラベルとに基づいて誤差関数が算出され、当該誤差関数を小さくするように、重み付け係数の更新が行われる。
より具体的には、例えば学習装置処理部16は、訓練モデル20に含まれるニューラルネットワークNNに、第1学習画像32-1を入力データとして入力し、そのときの重み付け係数を用いた順方向の演算を行うことによって、出力データである第1出力画像34-1を出力する。学習装置処理部16は、第1出力画像34-1と正解ラベルである正解画像36に基づいて、誤差関数を演算する。そして誤差関数を小さくするように、重み付け係数を更新する処理を行う。また、学習装置処理部16は、第2出力画像34-2~第N出力画像34-Nについても、同様の処理を繰り返し行う。このようにすることで、複数種類の学習画像32に対して一の正解画像36が出力できるように、訓練モデル20は機械学習される。これにより、機械学習された訓練モデル20を学習済みモデル120として情報処理システム100に出力することで、記憶部110に記憶された学習済みモデル120は更新される。なお、図4では学習装置10と情報処理システム100は通信部12を介して通信接続されているように図示しているが、学習装置10と情報処理システム100は通信接続されていなくてもよい。この場合、例えばユーザは、情報記憶媒体に訓練モデル20を学習済みモデル120として一時的に記憶させる処理を学習装置10に対して行い、当該情報記憶媒体を所持して情報処理システム100の有る位置まで移動し、当該情報記憶媒体に基づき学習済みモデル120を更新する処理を情報処理システム100に対して行うことで、学習済みモデル120の更新が実現できる。
図9は、本実施形態の第1撮像系101について、光軸を横軸にした場合における焦点深度と被写界深度の関係を説明する図である。なお、図9は便宜的な図示であり、第1撮像系101の具体的なレンズの構成を示すものではない。例えば図9において、DP1に示す範囲が、第1撮像系101の光学設計上の焦点深度に対応する被写界深度である。そのため、例えば被写体と第1撮像系101の距離がD1に示す第1物体距離であった場合、被写体は被写界深度の範囲外に位置していることから、第1撮像系101により撮像すると、デフォーカスによるボケの影響を含む処理対象画像が得られる。また、例えば被写体と第1撮像系101の距離がD2に示す第2物体距離であった場合、当該被写体は被写界深度内に位置していることから、フォーカスが合った処理対象画像となる。なお、例えば被写体と第1撮像系101の距離がD3に示す物体距離であった場合、つまり被写界深度において光軸上のP1に示す位置はベストフォーカス条件を満たす位置である。なお、図9では、D1に示す第1物体距離及びD2に示す第2物体距離はP1に示す位置から近点側に図示しているが、近点側に限定されるものではなく、遠点側であってもよい。以下の説明及び図示において、近点側の物体距離等を例示しつつ本実施形態の手法を説明するが、本実施形態の手法は遠点側の物体距離等を用いても適用できることを妨げるものではない。
例えば第1撮像系101を搭載するシステムにおいて、画素を微細化して高解像度化を図ると、被写界深度が狭くなるため、被写界深度の拡大が望まれる。また、例えば第1撮像系101を後述する内視鏡システム300の内視鏡スコープ310に用いる場合、所望の被写体に対して内視鏡スコープ310をベストフォーカスの位置に合わせる作業は困難を伴うことから、被写界深度の拡大が望まれている。
そこで、本実施形態では、予め撮像した所定被写体画像30に対してボケの影響をシミュレートした画像を学習画像32とし、フォーカスが合った画像を正解画像36とするデータセットとして図8等で前述した機械学習を行った学習済みモデル120が情報処理システム100に組み込まれる。このようにすることで、デフォーカスによるボケの影響が付加された撮像画像を処理対象画像とし、図3の処理を行うことにより、フォーカスが合った補正画像として情報処理システム100から出力される。これにより、第1撮像系101の被写界深度の範囲を実質的に拡大することができる。
より具体的には、被写界深度を図9のDP1に示す範囲から、DP2に示す範囲まで実質的に拡大することができる。実質的に拡大するとは、光学的には被写界深度が拡大されていないが、情報処理システム100が行う画像処理により、本来被写界深度の範囲外に位置する被写体を、あたかも被写界深度の範囲内に位置しているように撮像できる範囲まで、見かけ上被写界深度を拡大することである。つまり、第1撮像系101からD1に示す物体距離だけ離れた位置に被写体が位置すると、ボケが付加された処理対象画像が第1撮像系101から出力されるが、DP2に示す実質的な被写界深度の範囲内に、当該位置が位置しているため、当該処理対象画像は、フォーカスが合う補正画像に補正され、情報処理システム100から出力される。また、以降の説明において、本実施形態の学習済みモデル120を用いて拡大した、図9のDP2に示す実質的な被写界深度を目標被写界深度と呼ぶ。なお、ここでのフォーカスが合う補正画像とは、画像全体で厳密にフォーカスが合う必要は無い。例えば出力された補正画像の一部がボケていても、例えば内視鏡スコープ310を用いた処置等が実行可能であれば、情報処理システム100の機能として足りるとユーザは判断してもよい。つまり、本実施形態の目標被写界深度の距離は、光学的に定まる被写界深度の距離より広い距離ではあるが、ユーザの許容度合い等に応じて変動し得る距離である。したがって、図9に示すDP2は便宜的に示しているに過ぎず、一定の長さを示しているものではない。以降の説明においても同様である。
本実施形態の学習済みモデル120は、DP2に示す目標被写界深度とDP1に示す被写界深度との差として、図9のDP10に示す範囲に位置した被写体を撮像して得られたボケ画像を、フォーカスが合う画像に補正できるよう機械学習されている。言い換えれば、DP10に示す距離が、機械学習に必要な距離である。
当該機械学習に必要な学習画像32と正解画像36を生成するための画像データ生成処理(ステップS120)の手法について、図10を用いて説明する。なお、画像データ生成処理の手法は図10に限らず、後述するように種々の変形実施が可能である。そこで図10に示す画像データ生成処理は、ステップS120-1とも呼ぶことができるものとする。
なお本実施形態の所定被写体画像30はいずれの例においても、撮像した撮像系のフォーカスが合う物体距離によって撮像されているものとする。
学習装置処理部16は、任意の撮像系104によって撮像された所定被写体画像30に対してデフォーカスシミュレート処理(ステップS200)を行うことにより学習画像32を生成する。以降の説明において、例えば第1学習画像32-1を生成するためのデフォーカスシミュレート処理はステップS200-1とも呼ぶことができるものとし、同様に第N学習画像32-Nを生成するためのデフォーカスシミュレート処理はステップS200-Nと呼ぶことができるものとする。後述するステップS202、ステップS204、ステップS206、ステップS208、ステップS210、ステップS220、ステップS230も同様である。例えば学習装置処理部16は、デフォーカスシミュレート処理(ステップS200-1)によって第1学習画像32-1を生成するにあたり、読み込んだ光学系情報40から第1物体距離の情報を選択する。同様に、学習装置処理部16は、ステップS200-2によって第2学習画像32-2を生成するにあたり、読み込んだ光学系情報40から第2物体距離の情報を選択する。つまり、本実施形態において、第N学習画像32-Nに対応する光学系情報40は、第N物体距離であり、学習装置処理部16は、第N学習画像32-Nを生成するにあたり、光学系情報40から対応する第N物体距離の情報を選択すると拡張して表現できる。以降の説明において、デフォーカスシミュレート処理は、第1学習画像32-1を生成するための処理について例示するが、第2学習画像32-2~第N学習画像32-Nを生成する場合についても同様の処理となる。
また、学習装置処理部16は、ベストフォーカスシミュレート処理(ステップS300)を所定被写体画像30に対して行うことにより正解画像36を生成する。例えば学習装置処理部16は、読み込んだ光学系情報40から第1撮像系101のフォーカスが合う物体距離の情報を選択する。第1撮像系101のフォーカスが合う物体距離の情報は、例えばD3に示すように、第1撮像系101から図9のP1に示す点までの設計上の距離であり、いわゆるベストフォーカス条件に相当する物体距離である。
なお、本実施形態の画像データ生成処理は、図11のようにしてもよい。図11に示す画像データ生成処理は、ステップS120-2とも呼ぶことができるものとする。また、図10と同様の処理については、説明を適宜省略する。
図11のステップS120-2においては、ベストフォーカスシミュレート処理(ステップS300)を行わず、正解画像36を所定被写体画像30そのものとする点で、図10のステップS120-1と異なる。所定被写体画像30が任意の撮像系104のフォーカスが合う物体距離で撮像されている画像であるならば、正解画像36として利用可能だからである。
図12、図13を用いてデフォーカスシミュレート処理(ステップS200)について説明する。デフォーカスシミュレート処理(ステップS200)を行うにあたり読み込む光学系情報40は、伝達関数または点像分布関数の情報を含む。伝達関数または点像分布関数は光軸方向のデフォーカス量と、光軸に垂直な平面における像高に依存して変化する。例えば、第1物体距離において、光軸に垂直な方向かつ所定被写体画像30と同じサイズの領域を、領域FC11-1、領域FC12-1、領域FC13-1、領域FC21-1、領域FC22-1、領域FC23-1、領域FC31-1、領域FC32-1、領域FC33-1に分割したとする。この場合、第1物体距離における伝達関数または点像分布関数は分割した領域ごとに異なる値を示し得る。同様に、例えば、第N物体距離において、光軸に垂直な方向かつ所定被写体画像30と同じサイズの領域を、領域FC11-N、領域FC12-N、領域FC13-N、領域FC21-N、領域FC22-N、領域FC23-N、領域FC31-N、領域FC32-N、領域FC33-Nに分割したとする。この場合、第N物体距離における伝達関数または点像分布関数は分割した領域ごとに異なる値を示し得る。また、領域FC11-1の伝達関数または点像分布関数と領域FC11-Nの伝達関数または点像分布関数は異なる値を示し得る。領域FC12-1と領域FC12-N、…、領域FC33-1と領域FC33-Nの場合についても同様である。このように、学習画像群32GがN個からなる学習画像32の集合であるならば、図12に示すように、機械学習を行うにあたり伝達関数または点像分布関数の情報は膨大となる。
その点、本実施形態においては、機械学習を行うにあたり、光軸上の伝達関数または点像分布関数を用いる。本実施形態において、領域FC22-1が第1撮像系101の光軸が通る領域とする。つまり、領域FC22-1における伝達関数または点像分布関数が、第1物体距離における第1撮像系101の光軸上の伝達関数または点像分布関数である。同様に、領域FC22-Nにおける第N物体距離における伝達関数または点像分布関数が、第N物体距離における第1撮像系101の光軸上の伝達関数または点像分布関数である。なお、図12では伝達関数または点像分布関数を9分割しているが、あくまでも例示であり、図13においても同様である。例えば図12の領域FC22-1~FC22-Nは、縦方向と横方向にそれぞれ所定の画素数が含まれる集合であるが、1画素であってもよい。つまり、本実施形態における光軸上の伝達関数または点像分布関数とは、光軸を通る1画素分の面積または当該画素を含む所定の数の画素分の面積の少なくとも一方における、伝達関数または点像分布関数である。
図13に示すように、デフォーカスシミュレート処理(ステップS200)において、所定被写体画像30に対して、第1撮像系101の光軸上の伝達関数または光軸上の点像分布関数に基づき、ボケの影響をシミュレートする処理(ステップS210)が行われる。なお、ステップS210の詳細は後述する。つまり、所定被写体画像30の光軸上の以外の領域に対しても、第1撮像系101の光軸上の伝達関数または光軸上の点像分布関数に基づき、ステップS210が行われる。例えば所定被写体画像30を図12と同様に、領域AR11、領域AR12、領域AR13、領域AR21、領域AR22、領域AR23、領域AR31、領域AR32、領域AR33に9分割したとする。例えば第1学習画像32-1を生成する場合、学習装置処理部16は、図12のFC22-1に示す、光軸上の伝達関数または点像分布関数を用いて領域AR11に対してステップS210-1の演算を行う。なお、以降の説明及び図13の図示において、この演算をAR11*FC22-1と簡略して表記する。他の領域を用いるステップS210等の演算についても同様である。また、ここでの「*」は、詳細は後述するが、例えば点像分布関数としてPSFを用いる場合はコンボリューションを示す。また、例えば伝達関数としてOTFを用いる場合は、「*」は、領域AR11をフーリエ変換した周波数特性に、領域FC22-1のOTFを乗算することを示す。
さらに、学習装置処理部16は、領域AR12~領域AR33に対しても、FC22-1に示す光軸上の伝達関数または点像分布関数を用いてステップS210-1を行う。つまり、図13では一部省略しているが、学習装置処理部16は、AR12*FC22-1、AR13*FC22-1、AR21*FC22-1、AR22*FC22-1、AR23*FC22-1、AR31*FC22-1、AR32*FC22-1、AR33*FC22-1を行っている。このように、学習装置処理部16は、所定被写体画像30と同一の領域を所望の数の領域に分割し、分割したうちの1つ領域の伝達関数または点像分布関数を用いて、ステップS210を行う。
同様に、生成された第1学習画像32-1を、領域BR11-1、領域BR12-1、領域BR13-1、領域BR21-1、領域BR22-1、領域BR23-1、領域BR31-1、領域BR32-1、領域BR33-1に9分割したとする。領域BR11-1は、前述の領域AR11に対してステップS210-1を行った結果に対応する。つまり、図13に示すようにBR11-1=AR11*FC22-1となる。同様に、BR12-1=AR12*FC22-1、BR13-1=AR13*FC22-1、BR21-1=AR21*FC22-1、BR22-1=AR22*FC22-1、BR23-1=AR23*FC22-1、BR31-1=AR31*FC22-1、BR32-1=AR32*FC22-1、BR33-1=AR33*FC22-1となる。
この手法は、第N学習画像32-Nを生成する場合においても同様である。つまり学習装置処理部16は、図示は省略するが、BR11-N=AR11*FC22-N、BR12-N=AR12*FC22-N、…、BR22-N=AR22*FC22-N、…、BR32-N=AR32*FC22-N、BR33-N=AR33*FC22-Nを行っている。以上のことから、各学習画像32における第1撮像系101の光軸上の領域(BR22)及び光軸上以外の領域(BR11、…、BR21、BR23、…BR33)に対し、光軸上の伝達関数または点像分布関数(FC22)に基づいてデフォーカスシミュレート処理(ステップS200)が行われる。
本実施形態の伝達関数とは、光学伝達関数またはOTFとも言うことができる。OTFはOptical Transfer Functionの略である。また、本実施形態の点像分布関数は点広がり関数またはPSFとも言うことができる。PSFはPoint Spread Functionの略である。OTFはPSFをフーリエ変換した結果である。言い換えれば、PSFはOTFを逆フーリエ変換した結果である。また、OTFは複素関数であり、OTFの絶対値は変調伝達関数、振幅伝達関数またはMTFという。MTFはModulation Transfer Functionの略である。
以上のことから、本実施形態の情報処理システム100は、学習画像群32Gと正解画像36とを含むデータセットによって機械学習された学習済みモデル120を記憶する記憶部110と、学習済みモデル120を用いて、第1撮像系101によって撮影された画像である処理対象画像の第1撮像系101のデフォーカスによるボケを補正する処理部130と、を含む。学習画像群32Gは、任意の撮像系104で撮像された所定被写体に任意の撮像系104のフォーカスが合った所定被写体画像30に対し、複数の物体距離における第1撮像系101の伝達関数または点像分布関数に基づいて、第1撮像系101のデフォーカスによるボケの影響をシミュレートするデフォーカスシミュレート処理(ステップS200)が行われたことで生成される複数の学習画像32を含む。複数の学習画像32の各学習画像32における第1撮像系101の光軸上の領域及び光軸上以外の領域に対し、光軸上の伝達関数または点像分布関数に基づいてデフォーカスシミュレート処理が行われる。正解画像36は、第1撮像系101のフォーカスが合う物体距離における伝達関数または点像分布関数に基づいて、第1撮像系101のフォーカスが合う状態を所定被写体画像30に対しシミュレートするベストフォーカスシミュレート処理(ステップS300)が行われたことで生成される画像、または、所定被写体画像30そのものである。学習済みモデル120は、各学習画像32が正解画像36になるように機械学習される。
このように、本実施形態の情報処理システム100は、学習済みモデル120を記憶する記憶部110と処理部130を含むことから、第1撮像系101によって撮像された処理対象画像にデフォーカスによるボケの影響が含まれていても、ボケの影響を補正した補正画像を出力することができる。これにより、第1撮像系101の被写界深度を実質的に拡大することができる。また、学習画像群32Gと正解画像36を任意の撮像系104で撮像された所定被写体画像30に基づき予め作成していることから、処理対象画像に係る被写体が、第1撮像系101で初めて撮像する被写体である場合において、予め機械学習した学習済みモデル120を用いることができる。また、各学習画像32における第1撮像系101の光軸上の領域及び光軸上以外の領域に対し、光軸上の伝達関数または点像分布関数に基づいてデフォーカスシミュレート処理(ステップS200)が行われていることから、デフォーカスシミュレート処理(ステップS200)に必要な情報量を少なくすることができる。これにより、機械学習に必要なニューラルネットワークNNの規模を適切にした学習済みモデル120を作成することが出来る。これにより、学習済みモデル120を情報処理システム100へ容易に実装することができる。
また、本実施形態の手法は、学習済みモデル120として実現することもできる。つまり、本実施形態の学習済みモデル120は、学習済みモデル120を記憶する記憶部110と、入力部140と、処理部130と、出力部150を含む情報処理システム100に用いられ、学習画像群32Gと正解画像36とを含むデータセットによって機械学習されている。学習画像群32Gは、任意の撮像系104で撮像された所定被写体に任意の撮像系104のフォーカスが合った所定被写体画像30に対し、複数の物体距離における第1撮像系101の伝達関数または点像分布関数に基づいて、第1撮像系101のデフォーカスによるボケの影響をシミュレートするデフォーカスシミュレート処理が行われたことで生成される複数の学習画像32を含む。複数の学習画像32の各学習画像32における第1撮像系101の光軸上の領域及び光軸上以外の領域に対し、光軸上の伝達関数または点像分布関数に基づいてデフォーカスシミュレート処理が行われる。正解画像36は、第1撮像系101のフォーカスが合う物体距離における伝達関数または点像分布関数に基づいて、第1撮像系101のフォーカスが合う状態を所定被写体画像30に対しシミュレートするベストフォーカスシミュレート処理が行われたことで生成される画像、または、所定被写体画像30そのものである。学習済みモデル120は、各学習画像32が正解画像36になるように機械学習される。入力部140は、第1撮像系101によって撮影された画像である処理対象画像を学習済みモデル120に入力する。処理部130は、学習済みモデル120を用いて、処理対象画像の第1撮像系101のデフォーカスによるボケを補正する補正処理を行う。出力部150は、補正処理による補正画像を出力する。このようにすることで、上記と同様の効果を得ることができる。
また、本実施形態の手法は、情報処理方法として実現することもできる。つまり、本実施形態の情報処理方法は、学習画像群32Gと正解画像36を含むデータセットによって機械学習された学習済みモデル120によって、第1撮像系101によって撮影された画像である処理対象画像の第1撮像系101のデフォーカスによるボケを補正する。学習画像群32Gは、任意の撮像系104で撮像された所定被写体に任意の撮像系104のフォーカスが合った所定被写体画像30に対し、複数の物体距離における第1撮像系101の伝達関数または点像分布関数に基づいて、第1撮像系101のデフォーカスによるボケの影響をシミュレートするデフォーカスシミュレート処理が行われたことで生成される複数の学習画像32を含む。複数の学習画像32の各学習画像32における第1撮像系101の光軸上の領域及び光軸上以外の領域に対し、光軸上の伝達関数または点像分布関数に基づいてデフォーカスシミュレート処理が行われる。正解画像36は、第1撮像系101のフォーカスが合う物体距離における伝達関数または点像分布関数に基づいて、第1撮像系101のフォーカスが合う状態を所定被写体画像30に対しシミュレートするベストフォーカスシミュレート処理が行われたことで生成される画像、または、所定被写体画像30そのものである。学習済みモデル120は、各学習画像32が正解画像36になるように機械学習される。このようにすることで、上記と同様の効果を得ることができる。
また、本実施形態の手法は、学習済みモデル120記憶している情報記憶媒体として実現することもできる。このようにすることで、学習装置10で機械学習した訓練モデル20を当該情報記憶媒体に記憶させることができる。これにより、情報処理システム100に当該情報記憶媒体を接続することで当該訓練モデル20を最新の学習済みモデル120として更新することができる。これにより、所定の事情においても、上記と同様の効果を得る事ができる。所定の事情とは、例えば学習装置10が位置する位置と情報処理システム100が位置する位置が離れている事情、学習装置10と情報処理システム100間でデータの通信が出来ない事情等である。
また、本実施形態の手法は、内視鏡システム300として実現してもよい。例えば本実施形態の内視鏡システム300は、上記した情報処理システム100を含むプロセッサユニット200と、プロセッサユニット200に接続され、処理対象画像を撮像する内視鏡スコープ310と、を含む。このようにすることで、上記の効果を有する情報処理システム100を含む内視鏡システム300を構築することができる。
内視鏡システム300は、より詳細には例えば図14のような構成例にすることができる。内視鏡システム300は、内視鏡スコープ310と操作部320と表示部330とプロセッサユニット200を含む。プロセッサユニット200は、ストレージ部210と制御部220と情報処理システム100を含む。図14の情報処理システム100は、図2で前述した構成の他、ストレージインターフェース160をさらに含む。なお、図2と同様の構成については説明を適宜省略する。
内視鏡スコープ310は、不図示の先端部に撮像装置を含む。当該撮像装置は、第1撮像系101を含む。内視鏡スコープ310の先端部は体腔内に挿入され、撮像装置が腹腔内の画像を撮影し、その撮像データが内視鏡スコープ310からプロセッサユニット200へ送信される。操作部320は、ユーザが内視鏡システム300を操作するための装置であり、例えばボタン、又はダイヤル、フットスイッチ、タッチパネル等である。表示部330は、内視鏡スコープ310が撮像した画像を表示する装置であり、例えば液晶ディスプレイであるが、例えばタッチパネルとして操作部320と一体的なハードウェアとしてもよい。
プロセッサユニット200は、内視鏡システム300における制御、画像処理等の各処理を行う。例えば制御部220は、操作部320から入力された情報に基づいて、内視鏡システム300のモード切り替え、ズーム動作、表示切り替え等を行うことでプロセッサユニット200としての機能が実現される。ストレージ部210は、内視鏡スコープ310が撮像した画像を記録する。ストレージ部210は、例えば半導体メモリ、ハードディスクドライブ、又は光学ドライブ等である。
なお、図14に示す構成例では、内視鏡スコープ310のケーブルが接続されるコネクター又は撮像データを受信するインターフェース回路等を、入力部140にすることで、内視鏡スコープ310からの撮像データを受信する機能を実現しているが、プロセッサユニット200にさらに撮像データを受信するインターフェース回路を設けてもよい。
ストレージインターフェース160は、ストレージ部210にアクセスするためのインターフェースである。ストレージインターフェース160は、入力部140が受信した画像データをストレージ部210に記録する。記録した画像データを再生する際には、ストレージインターフェース160は、ストレージ部210から画像データを読み出し、その画像データを処理部130に送信する。処理部130は、入力部140又はストレージインターフェース160からの画像データを処理対象画像として、図3で前述した処理を行う。これにより処理部130は、出力部150を介して補正画像を出力し、表示部330にはフォーカスが合っている補正画像が表示される。
なお、本実施形態の内視鏡システム300は、例えば図15に示す構成例にしてもよい。図15の構成例は、情報処理システム100とプロセッサユニット200が別々に設けられる点で、図14の構成例と異なる。情報処理システム100とプロセッサユニット200は、例えばUSB等の機器間通信により接続されてもよいし、或いはLAN又はWAN等のネットワーク通信により接続されてもよい。情報処理システム100は、1又は複数の情報処理装置によって構成される。情報処理システム100が複数の情報処理装置で構成される場合、情報処理システム100は、ネットワークを介して接続された複数のPC又は複数のサーバ等が並列処理を行うクラウドシステムであってもよい。図15のストレージ部170は、図14のストレージ部210に対応する。
プロセッサユニット200は、制御部220と撮像データ受信部230と入力部240と出力部250と処理部260と表示インターフェース270を含む。撮像データ受信部230は、図14の入力部140と同様のインターフェース回路等で構成され、内視鏡スコープ310からの撮像データを受信する。処理部260は、撮像データ受信部230が受信した画像データを、出力部250を介して情報処理システム100に送信する。情報処理システム100は、受信した画像データを処理対象画像として図3の処理を行い、補正画像を生成する。入力部240は、情報処理システム100から出力部150を介して送信される補正画像を受信し、その補正画像を処理部260に出力する。処理部260は表示インターフェース270を介して補正画像を表示部330に出力する。これにより、表示部330に補正画像が表示される。図15の表示インターフェース270は、図14の出力部150と同様のハードウェアにより構成され、図14の出力部150と同様の機能を実現させている。なお、図15において、情報処理システム100の入力部140と出力部150を別々のインターフェースで構成してもよいが、入力部140と出力部150の機能を単一の入出力インターフェースで実現してもよい。プロセッサユニット200の入力部240と出力部250についても同様である。
本実施形態の手法は上記に限らず、種々の変形実施が可能である。例えば、光学系情報40に含まれる各物体距離は、対応するMTFの差に基づいて決定してもよい。例えば学習画像群32Gは、第1物体距離の伝達関数または点像分布関数に基づきステップS200-1を行った第1学習画像32-1と、第2物体距離の伝達関数または点像分布関数に基づきステップS200-2を行った第2学習画像32-2から構成されているものとする。また、第1物体距離は第2物体距離と比べてデフォーカス量が大きい物体距離であるものとする。この場合において、MTFの空間周波数依存性を定性的に図示すると、第2物体距離に基づくMTFは図16のA0に示す通りとなり、第1物体距離に基づくMTFはA1に示す通りとなる。そして、例えばB0に示す所定空間周波数を決めると、C0に示すようにMTFの差が決まる。そこで、C0に示すMTFの差が所定値よりも小さくなるように、第1物体距離と第2物体距離が決定される。
また、ここでのMTFの差とは、隣接する物体距離におけるMTFの差である。例えば学習画像群32Gとして、第1学習画像32-1と、第2学習画像32-2と、第3学習画像32-3があるとする。また、第1物体距離、第2物体距離、第3物体距離の順に、デフォーカス量が大きい物体距離であるものとする。この場合、図17のA10が第3物体距離におけるMTFの周波数特性を示し、A11が第2物体距離におけるMTFの周波数特性を示し、A12が第1物体距離におけるMTFの周波数特性を示す。そして、B0に示す所定周波数において、C10に示したA10のMTFとA11のMTFの差、C11に示したA11のMTFとA12のMTFの差の両方が、所定値よりも低いものとする。言い換えれば、B0に示す所定周波数において、A10のMTFとA12のMTFの差は、所定値として考慮していない。以上のことから、本実施形態の情報処理システム100において、物体距離は、第1撮像系101のMTFの所定空間周波数において、隣接する物体距離におけるMTFの値の差が所定値以下であるように設定される。このようにすることで、機械学習におけるデータセットの組み合わせを適切にすることができる。前述したように、機械学習された学習済みモデル120は、第1学習画像32-1と第2学習画像32-2のいずれも正解画像36に補正できるように補正処理(ステップS30)を行う。さらに、第1物体距離と第2物体距離の間の物体距離で撮像された処理対象画像も、補正処理(ステップS30)により正解画像36に補正するには、第1学習画像32-1と第2学習画像32-2に付加されたボケの影響の差が一定範囲内であることが好ましい。その点、本実施形態の手法を適用することで、所定被写体画像30に対してシミュレートするボケの影響度を示すMTFに基づいて、各学習画像の物体距離を規定していることから、適切な学習画像群32Gを生成することができる。これにより、機械学習において適切なデータセットとすることができる。
また、光学系情報40は、第1撮像系101のベストフォーカス条件における物体距離を含んでもよい。ベストフォーカス条件における物体距離は、具体的には例えば図9のD3に示す距離である。例えば学習装置処理部16は、所定被写体画像30に対してベストフォーカス条件における物体距離を用いた伝達関数または点像分布関数を用いてベストフォーカスシミュレート処理(ステップS300)を行うことにより、正解画像36を生成してもよい。つまり本実施形態の情報処理システム100において、フォーカスが合う物体距離は、ベストフォーカス条件における物体距離である。このようにすることで、適切な正解画像36を生成することが出来る。
本実施形態において、物体距離に基づく伝達関数または点像分布関数と、学習画像32は1対1に対応するようになっているものとする。より具体的には、例えばデフォーカスシミュレート処理(ステップS200)において、1の所定被写体画像30に対して、第1物体距離による伝達関数または点像分布関数と、第2物体距離による伝達関数または点像分布関数の両方を用いて、第3学習画像32-3を生成する処理は行われないものとする。つまり、本実施形態の情報処理システム100において、各学習画像32は、複数の物体距離のうちいずれか1つの物体距離における伝達関数または点像分布関数に基づいて、所定被写体画像30に対してデフォーカスシミュレート処理(ステップS200)が行われたことで生成される画像である。このようにすることで、学習画像群32Gにおける各学習画像32の関係を明確にすることができる。
なお、一般的な光学系において、空間周波数が高くなるについてMTFは低下し、かつ周期性をもって変化するが、MTFは絶対値であることから、図17のB1に示す高空間周波数領域において、MTFは折り返されながら表示される。そのため、高空間周波数領域においては、1のMTFがどの物体距離に対応するかを一義的に決めることができない。なお、例えば図9のP2に示す、目標拡大被写界深度の近点における物体距離よりも短い物体距離のMTFは、B0に示す空間周波数において0になっても構わない。例えば図17のA12が目標拡大被写界深度の近点における物体距離におけるMTFであると仮定した場合、折り返しが発生している最も低い空間周波数より低い空間周波数が、B0に示す空間周波数であればよい。目標被写界深度外の物体距離の伝達関数または点像分布関数は、本実施形態の機械学習にそもそも使用しないからである。なお、ここでの目標拡大被写界深度は、前述と同様、一定の値を示すものではない。以上のことから、本実施形態の情報処理システム100において、処理部130は、学習済みモデル120を用いて、処理対象画像に対し第1撮像系101のデフォーカスによるボケを補正することで、第1撮像系101の被写界深度が、被写界深度より広い目標拡大被写界深度に拡大された画像を推定する。また、所定空間周波数は、目標拡大被写界深度の近点におけるMTFの値がゼロになる、最も低い空間周波数よりも低い空間周波数である。このようにすることで、空間周波数とMTFを1対1に対応づけるために必要な所定空間周波数の範囲を適切に決めることができる。
より具体的には、B0に示す所定空間周波数は、例えば規格化周波数として0.1であることが望まれる。つまり、本実施形態の情報処理システム100において、所定空間周波数は、第1撮像系101の撮像素子のナイキスト周波数の1/5の空間周波数である。このようにすることで、多くの光学系について、空間周波数とMTFを1対1に対応づけることができる。これにより、多くの種類の光学系が撮像した処理対象画像に対して本実施形態の手法を適用させることができる。
また、本実施形態の光学系情報40は、被写界深度内の物体距離と被写界深度外の物体距離による組み合わせとしてもよい。具体的には例えば光学系情報40は、図9のD1に示す被写界深度外の第1物体距離と、D2に示す第2物体距離を含んでもよい。言い換えれば、本実施形態の情報処理システム100において、複数の物体距離のうち第1物体距離は、被写界深度外の物体距離であり、複数の物体距離のうち第2物体距離は、被写界深度内の物体距離である。このようにすることで、デフォーカスシミュレート処理(ステップS200)により、ボケの影響を大きくシミュレートした第1学習画像32-1と、ボケの影響を小さくシミュレートした第2学習画像32-2を、正解画像36と組み合わせたデータセットとすることができる。これにより、これらのデータセットで機械学習した学習済みモデル120は、広い範囲でボケの影響を受けた処理対象画像を補正処理(ステップS30)によって補正することができる。
また、所定値は、学習画像群32Gを構成する学習画像32の数に基づいて決めてもよい。例えば図16において、A0に示すMTFが、ベストフォーカス条件に対応する物体距離におけるMTFであり、A1に示すMTFが目標被写界深度の近点に対応する物体距離におけるMTFであるものとする。この場合、例えば空間周波数をB0に示す空間周波数に決定すると、C0に示す範囲を最大とするMTFの範囲が一義的に決定される。そして、C0に示す範囲を、所望の学習画像32の個数に基づき分割した値が所定値となって決定される。以上のことから、本実施形態の情報処理システム100において、所定値は、2以上に設定可能な物体距離の個数に基づいて決定される。このようにすることで、機械学習の負荷を考慮して機械学習に必要なデータセットの数を決めることができる。
なお、前述のように空間周波数を固定するとMTFの範囲が一義的に決定されることから、所定値を予め決定し、当該所定値に基づき学習画像32の個数を決定してもよく、ユーザが事情に応じて機械学習の方針を決定すればよい。
なお、所定値は0.2以下であることが望ましい。つまり、本実施形態の情報処理システム100において、所定値は、0.2以下であるように設定される。なお、一般的な光学系において、前述した空間周波数を望ましい範囲に決定すると、取り得るMTFの範囲は0.2程度と考えられる。そのため、例えば所定値を0.2として設定すると、学習画像群32Gを構成する学習画像32の個数は2となる。また、この場合において、第1物体距離は被写界深度外の物体距離となり、第2物体距離は被写界深度内の物体距離になると考えられる。
また、所定値は0.1以下であることが望ましい。つまり、本実施形態の情報処理システム100において、所定値は、0.1以下であるように設定される。さらに、所定値は0.05以下であることが望ましい。つまり、本実施形態の情報処理システム100において、所定値は、0.05以下であるように設定される。このようにすることで、学習画像群32Gを構成する学習画像32の個数をより増やすことができる。これにより、学習済みモデル120は、機械学習に用いていない物体距離以外の物体距離で撮像された処理対象画像を入力した場合、ボケの影響を適切に除去した補正画像を出力できる可能性が高くなる。つまり、学習済みモデル120の補正処理(ステップS30)の精度をより向上させることができる。なお、学習画像群32Gを構成する学習画像32の個数が増えると、機械学習の処理負担が大きくなる。そのため、学習画像群32Gを構成する学習画像32の適切な個数は、事情に応じて適宜決定される。
次に、学習装置処理部16が点像分布関数によってデフォーカスシミュレート処理(ステップS200)等を行う具体的な手法を説明する。例えばステップS200-1によって第1学習画像32-1を生成する場合において、図18に示すように、学習装置処理部16は、第1撮像系101の第1物体距離のPSFを用いて、所定被写体画像30に対してコンボリューション演算処理を行う。なおコンボリューションは、畳み込み積分とも呼ぶことができる。また、ここでの第1物体距離のPSFは、図12のFC22-1に示す領域からなるPSFである。つまり、図18の手法の場合、PSFのコンボリューション演算処理が図13のステップS210に対応する。同様に、ステップS200-Nによって第N学習画像32-Nを生成する場合において、学習装置処理部16は、第1撮像系101の第N物体距離のPSFを用いて、所定被写体画像30に対してコンボリューション演算する処理を行う。なお、PSFのコンボリューション演算処理に基づくデフォーカスシミュレート処理をステップS200-Aと呼ぶことができるものとする。以上のことから、本実施形態の情報処理システム100において、デフォーカスシミュレート処理(ステップS200)は、所定被写体画像30に対し、第1撮像系101それぞれの物体距離におけるPSFをコンボリューション演算する処理である。このようにすることで、PSFを用いた学習画像32及び正解画像36によるデータセットによって機械学習を行った学習済みモデル120を生成することができる。
次に、学習装置処理部16が伝達関数によってデフォーカスシミュレート処理(ステップS200)を行う具体的な手法を説明する。例えば第1学習画像32-1を生成する場合において、図19に示すように、学習装置処理部16は、所定被写体画像30をフーリエ変換する処理と、当該フーリエ変換の結果である周波数特性に対して第1撮像系101の第1物体距離のOTFを乗算する処理と、当該乗算を行った周波数特性を逆フーリエ変換する処理を行う。また、ここでの第1物体距離のOTFは、図12のFC22-1に示す領域からなるOTFである。つまり、図19の手法の場合、OTFの乗算が図13のステップS210に対応する。同様に、ステップS200-Nによって第N学習画像32-Nを生成する場合において、学習装置処理部16は、所定被写体画像30をフーリエ変換する処理と、当該フーリエ変換の結果である周波数特性対して第1撮像系101の第N物体距離のOTFを乗算する処理と、当該乗算した周波数特性を逆フーリエ変換する処理を行う。なお、なお、OTFの乗算に基づくデフォーカスシミュレート処理をステップS200-Bと呼ぶことができるものとする。以上のことから、本実施形態の情報処理システム100において、デフォーカスシミュレート処理(ステップS200)は、所定被写体画像30にフーリエ変換を行い、当該フーリエ変換の結果である所定被写体画像30の周波数特性に対し第1撮像系101のそれぞれの物体距離におけるOTFを乗算し、乗算された周波数特性を逆フーリエ変換する処理である。このようにすることで、OTFを用いた学習画像32及び正解画像36によるデータセットによって機械学習を行った学習済みモデル120を生成することができる。
なお、PSFとOTFの関係は前述した通りであるから、図18の処理に関する演算処理結果と、図19の処理に関する演算処理結果は、数学的に等価である。デフォーカスシミュレート処理(ステップS200)において、PSFとOTFのいずれを用いるかは、ユーザが適宜選択すればよい。
同様に、学習装置処理部16は、点像分布関数を用いてベストフォーカスシミュレート処理(ステップS300)を行ってもよい。例えば図20に示すように、学習装置処理部16は、第1撮像系101のフォーカスが合う物体距離のPSFを用いて、所定被写体画像30に対してコンボリューション演算処理を行うことにより、正解画像36を生成する。なお、PSFのコンボリューション演算処理に基づくベストフォーカスシミュレート処理をステップS300-Aとも呼ぶことができるものとする。
また、学習装置処理部16は、伝達関数を用いてベストフォーカスシミュレート処理(ステップS300)を行ってもよい。例えば図21に示すように、学習装置処理部16は、所定被写体画像30をフーリエ変換する処理と、当該フーリエ変換の結果である周波数特性に対して第1撮像系101のフォーカスが合う物体距離のOTFを乗算する処理と、当該乗算を行った周波数特性を逆フーリエ変換する処理を行うことで、正解画像36を生成する。なお、OTFの乗算に基づくベストフォーカスシミュレート処理をステップS300-Bとも呼ぶことができるものとする。
なお、以降の説明においては、PSFを用いた手法を適用して学習画像32及び正解画像36を生成する例を代表として例示するが、OTFを用いた手法が適用できることを妨げるものではない。
また、例えば本実施形態の第1撮像系101は、レトロフォーカスタイプのレンズ構成であってもよい。レトロフォーカスタイプは、逆望遠タイプとも呼ばれる。例えば被写体側から負の屈曲力のレンズと、正の屈曲力のレンズを配置すること等により、レトロフォーカスタイプのレンズ構成は実現される。以降の説明において、被写体側のレンズ群を前レンズ群と呼び、像側のレンズ群を後レンズ群と呼ぶものとする。
レトロフォーカスタイプの具体的なレンズ構成は、種々の公知な構成を採用することができる。例えば図22に示す光学系の場合、被写体側から順にG1に示す前レンズ群と、S1に示す明るさ絞りと、G2に示す後レンズ群と、CG1に示すカバーガラスで構成されている。なお、図22において、説明の便宜上、光学系を構成する各レンズ等の間隔は正確に図示していない。例えば図22において、L6に示す正レンズとCG1に示すカバーガラスは、実際は接合されているが、便宜上間隔を空けて図示している。後述する図23、図25も同様である。
図22において、G1に示す前レンズ群は、L1に示す物体側負レンズと、L2に示す正レンズを含み、全体として負の屈曲力を有する。G2に示す後レンズ群は、L3に示す正レンズと、L4に示す正レンズとL5に示す負レンズを接合したレンズと、L6に示す正レンズを含み、全体として正の屈曲力を有する。
なお、前レンズ群または後レンズ群は、複数のレンズ群から構成されてもよい。例えば図23に示す第1撮像系101は、G11に示すレンズ群が前レンズ群として機能し、G12に示すレンズ群とG13に示すレンズ群が、後レンズ群として機能する。例えばG11に示すレンズ群は、被写体側から順に、L11に示すような像側に凹面を向けた平凹レンズと、L12に示すような負メニスカスレンズを含み、全体として負の屈折力を有する。
また、例えばG12に示すレンズ群は、L13に示す被写体側正レンズと、L14に示す像側正レンズを含む。なお、L13に示すレンズとL14に示すレンズまでの間に、S11に示す明るさ絞りをさらに配置してもよい。このようにすることで、当該明るさ絞りを挟んで屈折力が対称となるように光学系が構成されるため、コマ収差や非点収差を良好に補正することができる。
G13に示すレンズ群は、全体として正の屈折力を有する。また、G13に示すレンズ群は、L15に示す正レンズとL16に示す負レンズから構成される接合レンズを含んでもよい。これにより、球面収差とコマ収差を良好に補正することができる。また、G13に示すレンズ群は、L17に示す平凸レンズをさらに含んでもよい。これにより、広い視野を確保することができる。なお、図23ではL17に示す平凸レンズとCG11に示すカバーガラスを離して図示しているが、実際は接合されている。CG11に示すカバーガラスは不図示の撮像素子に設けられ、L17に示す平凸レンズは、当該撮像素子の位置決めに利用される。
また、例えば第1撮像系101は、平行平板をさらに含めてもよい。平行平板はフィルタとも呼ばれる。平行平板は例えば図22のF1の位置、図23のF11の位置に配置されているが、他の位置に配置することもできる。平行平板は例えば像点の位置を調整する目的等に利用される。
また、上記したレトロフォーカスタイプのレンズ構成を含む第1撮像系101において、最大画角でのディストーション量は-30%以下になることが望ましい。具体的には例えば、図24のE1に示す被写体が、第1撮像系101によって図24のE2に示す画像として撮像されたとする。この場合において、最大画角でのディストーション量(%)の値は、E1に示す被写体のPDに示す長さと、E2に示す画像のADに示す長さを用いて、(AD-PD)/PD×100として表すことができる。そして当該値が-30より負の値であることが望ましい。以上のことから、本実施形態の情報処理システム100において、第1撮像系101は、レトロフォーカスタイプのレンズ構成であり、最大画角でのディストーション量が-30%以下である。このようにすることで、画像中心に比べて周辺の倍率が小さくなるため、光軸上以外の領域の伝達関数または点像分布関数を小さくすることができる。また、光軸上の領域の伝達関数または点像分布関数と、光軸上以外の領域の伝達関数または点像分布関数の差を小さくすることができる。これにより、ボケの影響のシミュレート結果がより正確な学習画像32を生成することができる。
なお、前レンズ群または後レンズ群は、単一のレンズから構成されてもよい。例えば図25に示す第1撮像系101は、G21に示すレンズ群と、G22に示すレンズ群と、S21に示す明るさ絞りと、G23に示すレンズ群と、CG21に示すカバーガラスを含む。G21に示すレンズ群は、L21に示す単一の負レンズを含み、負の屈折力を有する。つまり、G21に示すレンズ群は、前レンズ群の一部として機能する。なお、G23に示すレンズ群は、L23に示す正レンズと、L24に示す正レンズとL25に示す負レンズを接合したレンズと、L26に示す正レンズを含み、全体として正の屈折力を有する。つまり、G23に示すレンズ群は、後レンズ群として機能する。
また、本実施形態の第1撮像系101は、位相変調素子をさらに含んでもよい。例えば図25の第2レンズ群G2は、L22に示す正レンズと、S21に示す明るさ絞りとPMに示す位相変調素子を含む。PMに示す位相変調素子は第1撮像系101の瞳の位置に配置される。PMに示す位相変調素子は、波面符号化(Wavefront Coding:WFC)を適用した素子であり、例えばPMSに示す位相変調面を有する。なお波面符号化は被写界深度拡大技術(Extended Depth of Field:EDOF)に用いられる公知な手法であるため詳細な説明は省略する。
なお、図25において、PMSが示す位相変調面は、光軸に直交する座標を用いて所定の3次関数で表されるように図示しているが、位相変調面の表面形状はこれに限られず、他の表面形状を採用してもよい。また、図25では位相変調面を像側に図示しているが、被写体側に有しても同様の効果を得ることができる。また、G22に示すレンズ群は、全体として正の屈折力を有し、レトロフォーカスタイプの前レンズ群の一部としても機能する。
また、第1撮像系101のMTFは、PMに示す位相変調素子を含むことにより、デフォーカスに対する変化が鈍くなる。言い換えれば、当該位相変調素子を含むことにより、物体距離の変化に対して第1撮像系101のMTFが一致するように作用する。より具体的には、例えば当該位相変調素子を含む第1撮像系101における第1物体距離のMTFと第2物体距離のMTFの差は、当該位相変調素子を含まない第1撮像系101における第1物体距離のMTFと第2物体距離のMTFの差に比べて、小さくなる。
例えば図26に示すMTFと空間周波数との関係において、A20はフォーカスが合う物体距離における第1撮像系101のMTFであり、A21は、A20に係る物体距離よりもデフォーカス量が大きい物体距離のMTFであり、A22は、A21に係る物体距離よりもデフォーカス量が大きい物体距離のMTFであるものとする。また、A20~A22は、位相変調素子を含まない第1撮像系101のMTFであるものとする。前述のB0に示す所定空間周波数を決定すると、A20のMTFとA21のMTFの差はC20に示す差となり、A21のMTFとA22のMTFの差はC21に示す差となる。なお、図26において、B0に示す空間周波数より高周波数側のMTFの図示を一部省略している。
ここで、第1撮像系101に、PMに示す位相変調素子を含ませたことにより、A20に示すMTFはA30に示すMTFに変化し、A21に示すMTFはA31に示すMTFに変化し、A22に示すMTFはA32に示すMTFに変化する。また、C20に示すMTFの差は、C30に示すように小さくなり、C21に示すMTFの差はC31に示すように小さくなる。以上のことから、本実施形態の情報処理システム100において、第1撮像系101は、伝達関数または点像分布関数を変化させる光波面変調素子をさらに含む。このようにすることで、機械学習に必要な距離を短くすることができるため、機械学習に必要なデータセットの数を少なくすることができる。
なお、上記のデフォーカスシミュレート処理等(ステップS200)の例は、任意の撮像系104で撮像された所定被写体画像30に対し第1撮像系101の光学情報に基づき学習画像32を生成するための処理例であるが、本実施形態の手法はこれらに限られない。例えば、学習装置処理部16は、所定被写体画像30から任意の撮像系104による撮像の影響の除去をシミュレートした処理をさらに含むようにデフォーカスシミュレート処理を行ってもよい。
図27に、第1撮像系101で撮像された所定被写体画像30-1に対して、第1撮像系101の影響の除去による撮像の影響の除去をシミュレートした処理をさらに含む場合における、画像データ生成処理の例を示す。なお、図27に示す画像データ生成処理はステップS122とも呼ぶことができるものとする。図27のステップS122と図11のステップS120-2を比較すると、デフォーカスシミュレート処理の内容が異なる。なお、図27において、ベストフォーカスシミュレート処理(ステップS300)を行わずに、正解画像36は所定被写体画像30-1そのものとする点で、図11と共通する。所定被写体画像30-1は第1撮像系101のベストフォーカス条件によって撮像された画像だからであり、ステップS202と同様の処理を行う必要がそもそも無いからである。
図28に、画像データ生成処理(ステップS122)におけるデフォーカスシミュレート処理(ステップS202-1)の例を示す。例えば第1学習画像32-1を生成する場合、学習装置処理部16は、所定被写体画像30-1に対し、所定被写体画像30-1の撮影時における第1撮像系101の影響の除去をシミュレートする処理(ステップS220-1)を行う。ステップS220-1は、第1撮像系101のフォーカスが合う物体距離における伝達関数または点像分布関数と、第1撮像系101の第1物体距離における伝達関数または点像分布関数に基づき行われる。
より具体的には、学習装置処理部16は、例えば所定被写体画像30に対し第1撮像系101のフォーカスが合う物体距離におけるPSFをデコンボリューションする演算処理と、第1撮像系101の第1物体距離におけるPSFをコンボリューションする演算処理(ステップS200-A)を、適宜組み合わせた演算処理を行う。適宜組み合わせた演算処理とは、一方の演算処理と他方の演算処理の一部または全部を、任意の順序で組み合わせた演算処理であるが、一方の演算処理と他方の演算処理を別々に行うことを妨げるものではなく、所定の事情に応じて適宜決定される。以降の説明においても同様である。なお、所定の事情とは、例えば機械学習に要する処理時間、プロセッサへの処理負担等である。つまり、ステップS220-1が行われることで、例えば所定被写体画像30-1に対し第1撮像系101のフォーカスが合う物体距離におけるPSFをデコンボリューションする演算処理の効果と、第1撮像系101の第1物体距離におけるPSFをコンボリューションする演算処理(ステップS200-A)の効果の両方が反映された演算処理結果を得ることができる。
以上のことから、本実施形態の情報処理システム100において、任意の撮像系104は第1撮像系101である。デフォーカスシミュレート処理(ステップS202)は、第1撮像系101のフォーカスが合う物体距離における伝達関数または点像分布関数と、第1撮像系101の複数の物体距離における伝達関数または点像分布関数に基づいて、所定被写体画像30-1から第1撮像系101の影響を除く処理(ステップS212)をさらに含む。このようにすることで、より正確な学習画像32を生成することができる。図10、図11に示す手法による学習画像32及び正解画像36は、任意の撮像系104の影響と第1撮像系101の両方の影響を所定被写体に与えているのに対し、図27、図28に示す手法による学習画像32及び正解画像36は、第1撮像系101のみの影響を所定被写体に与えている。これにより、より適切なデータセットによる機械学習を行うことができる。
同様に、任意の撮像系104の撮像の影響の除去をシミュレートした処理を含む、画像データ生成処理の例を図29に示す。なお、図29において、第2撮像系102を任意の撮像系104の代表として図示している。また、第2撮像系102は、第1撮像系101と比べて撮像素子の解像度が高い撮像系であるものとする。また、図29に示す画像データ生成処理はステップS124とも呼ぶことができるものとし、ステップS124の元となる画像は所定被写体画像30-2とも呼ぶことができるものとする。
図29のステップS126は、図10のステップS120-1を比較すると、撮像素子情報50をさらに読み込んだ上で、デフォーカスシミュレート処理(ステップS204)とベストフォーカスシミュレート処理(ステップS304)を行う点で相違する。撮像素子情報50は、第1撮像系101及び任意の撮像系104が有する撮像素子の解像度に関係する情報である。つまり、図29の例の場合、学習装置記憶部18には、図4には図示していない撮像素子情報50がさらに記憶されている。なお、撮像素子情報50は、デフォーカスシミュレート処理(ステップS204)及びベストフォーカスシミュレート処理(ステップS304)の演算処理にも用いられる。
図30に、図29に示す画像データ生成処理(ステップS124)におけるデフォーカスシミュレート処理の例を示す。図29、図30に示すデフォーカスシミュレート処理はステップS204とも呼ぶことができる。例えば第1学習画像32-1を生成する場合、学習装置処理部16は、所定被写体画像30-2に対し、第2撮像系102と第1撮像系101の差をシミュレートする処理(ステップS230-1)と、所定被写体画像30を縮小する処理(ステップS240)と、図30に不図示の撮像素子情報50に基づく演算処理を適宜組み合わせた演算処理を行う。ステップS230-1は、第2撮像系102のフォーカスが合う物体距離における伝達関数または点像分布関数と、第1撮像系101の第1物体距離における伝達関数または点像分布関数に基づき行われる。つまり、ステップS230-1が行われることで、例えば所定被写体画像30-2に対し第2撮像系102のフォーカスが合う物体距離におけるPSFをデコンボリューションする演算処理の効果と、第1撮像系101の第1物体距離におけるPSFをコンボリューションする演算処理(ステップS200-A)の効果の両方が反映された演算処理結果を得ることができる。また、ステップS204-1が行われることで、ステップS230-1の演算処理の効果と、ステップS240の演算処理の効果と、撮像素子情報50に基づく演算処理の効果が反映された演算処理結果を得ることができる。
図31に、図29に示すベストフォーカスシミュレート処理の例を示す。図29、図31に示すベストフォーカスシミュレート処理はステップS304とも呼ぶことができる。例えば学習装置処理部16は、所定被写体画像30-2に対し、第2撮像系102と第1撮像系101の差をシミュレートする処理(ステップS330)と、所定被写体画像30-2を縮小する処理(ステップS340)と図31に不図示の撮像素子情報50に基づく演算処理を適宜組み合わせた処理を行う。これにより、学習装置処理部16は、正解画像36を生成することができる。図31のステップS330は、第2撮像系102のフォーカスが合う物体距離における伝達関数または点像分布関数と、第1撮像系101のフォーカスが合う物体距離における伝達関数または点像分布関数に基づき行われる。つまり、ステップS330が行われることで、例えば所定被写体画像30-2に対し第2撮像系102のフォーカスが合う物体距離におけるPSFをデコンボリューションする演算処理の効果と、第1撮像系101のフォーカスが合う距離におけるPSFをコンボリューションする演算処理(ステップS300-A)の効果の両方が反映された演算処理結果を得ることができる。また、図31のステップS340は、図30のステップS240と同様の演算処理である。また、ステップS304が行われることで、ステップS330の演算処理の効果と、ステップS340の演算処理の効果と、撮像素子情報50に基づく演算処理の効果が反映された演算処理結果を得ることができる。なお、図31のベストフォーカスシミュレート処理(ステップS304)からステップS330を省略した処理によって正解画像36を生成してもよい。言い換えれば、正解画像36は、所定被写体画像30-2に対し、ステップS340に相当する処理を行うことによって生成してもよい。所定被写体画像30-2が任意の撮像系104のフォーカスが合う物体距離で撮像されている画像であるならば、ステップS340により所定被写体画像30-2の画素数を変更することで、正解画像36にできる場合があるからである。
以上のことから、本実施形態の情報処理システム100において、デフォーカスシミュレート処理(ステップS204)は、任意の撮像系104と第1撮像系101の差をシミュレートする処理(ステップS230)と、所定被写体画像30-2を縮小する処理(ステップS240)をさらに含む。正解画像36は、ベストフォーカスシミュレート処理(ステップS304)が行われたことで生成される画像、または、所定被写体画像30-2を縮小した処理が行われたことで生成される画像である。デフォーカスシミュレート処理(ステップS204)における任意の撮像系104と第1撮像系101の差をシミュレートする処理(ステップS230)は、任意の撮像系104のフォーカスが合う物体距離における伝達関数または点像分布関数と、第1撮像系101の複数の物体距離における伝達関数または点像分布関数に基づく。ベストフォーカスシミュレート処理(ステップS304)は、任意の撮像系104と第1撮像系101の差をシミュレートする処理(ステップS330)と、所定被写体画像30-2を縮小する処理(ステップS340)を、さらに含む。ベストフォーカスシミュレート処理(ステップS304)における任意の撮像系104と第1撮像系101の差をシミュレートする処理(ステップS330)は、任意の撮像系104のフォーカスが合う物体距離での伝達関数または点像分布関数と、第1撮像系101のフォーカスが合う物体距離での伝達関数または点像分布関数に基づく。
また、本実施形態の手法は、任意の撮像系104と第1撮像系101で撮像方式が異なる場合についても適用できる。例えば図32に示すように、第1撮像系101は同時式撮像素子106を含むものとする。また、図33に示すように、任意の撮像系104はモノクロ撮像素子108を含むものとする。図33を用いて、この場合における画像データ生成処理の手法を説明する。なお、図33の画像データ生成処理はステップS126とも呼ぶことができるものとし、ステップS126の元となる画像は所定被写体画像30-3とも呼ぶことができるものとする。図33は、デフォーカスシミュレート処理(ステップS206)及びベストフォーカスシミュレート処理(ステップS306)の内容と、ステップS206及びステップS306を行う前に、色ずれ判定処理(ステップS190)が行われることが、図29と異なる。なお、図33において、第2撮像系102は、任意の撮像系104の代表としての例示であることは、図29の例と同じである。また、色ずれ判定処理(S190)は、例えば所定被写体画像30-3の飽和部周辺等の色付き量を所定の閾値と比較する処理である。なお、色ずれとは、モノクロ撮像素子108を用いて被写体を撮像した場合、撮像タイミングの相違等によってR画像、G画像及びB画像の間に生じるずれである。なお、同時式撮像素子106で撮像される処理対象画像には色ずれは生じない。また、所定被写体画像30-3の飽和部周辺等の色付き量とは、所定被写体画像30-3の白色として写るエリアの周辺において、色ずれによって発生する色付き量である。つまり図33のステップS206、ステップS306は、ステップS190によって、飽和部周辺等の色付き量が所定の閾値以下と判断された所定被写体画像30-3を使用している。これにより、ステップS206が行われることにより、色ずれの影響を少なくした学習画像32を生成することができる。同様に、ステップS306が行われることにより、色ずれの影響を少なくした正解画像36を生成することができる。これにより、任意の撮像系104と第1撮像系101で撮像方式が異なる場合について、適切な学習画像32と正解画像36からなるデータセットを生成することができる。
図34に、図33に示す画像データ生成処理(ステップS126)におけるデフォーカスシミュレート処理の例を示す。図33、図34に示すデフォーカスシミュレート処理はステップS206とも呼ぶことができる。図34は、所定被写体画像30-3からモザイク画像を生成する処理(ステップS250)と、モザイク画像をデモザイキングする処理(ステップS252)をさらに含む点で、図30と異なる。例えば第1学習画像32-1を生成する場合、学習装置処理部16は、所定被写体画像30-3に対し、前述のステップS230-1と、前述のステップS240と、ステップS250と、ステップS252と、図34に不図示の撮像素子情報50に基づく演算処理を適宜組み合わせた演算処理を行う。つまり、ステップS206-1が行われることで、ステップS230-1の演算処理の効果と、ステップS240の演算処理の効果と、ステップS250の演算処理の効果と、ステップS252の演算処理の効果と、撮像素子情報50に基づく演算処理の効果が反映された演算処理結果を得ることができる。
ステップS250とステップS252について具体的に説明する。所定被写体画像30-3は、複数の波長帯域の光が順次に照射される場合において、それぞれの波長帯域の光が照射されるタイミングで、モノクロ撮像素子108により撮像された複数の画像を合成する処理によって得られる面順次式画像である。そして例えば図35に示すように、前述のステップS206-1において、ステップS250を含む処理によって、モザイク画像が生成される。そして、ステップS252を含む処理によって、モザイク画像から再度面順次式画像が生成されることにより、第1学習画像32-1が生成される。なお、図35のステップS206-1において、ステップS250とステップS252以外の処理の図示は省略している。
図36に、図33に示す画像データ生成処理(ステップS126)におけるベストフォーカスシミュレート処理の例を示す。図33、図36に示すベストフォーカスシミュレート処理はステップS306とも呼ぶことができる。図36は、所定被写体画像30-3からモザイク画像を生成する処理(ステップS350)と、モザイク画像をデモザイキングする処理(ステップS352)をさらに含む点で、図31と異なる。また、図36のステップS350は、図34のステップS250と同様の処理であり、図36のステップS352は、図34のステップS252と同様の処理である。例えば学習装置処理部16は、前述のステップS330-1と、前述のステップS340と、ステップS350と、ステップS352と、図36に不図示の撮像素子情報50に基づく演算処理を適宜組み合わせた演算処理を行う。これにより、学習装置処理部16は、正解画像36を生成することができる。これにより、ステップS306が行われることで、ステップS330の演算処理の効果と、ステップS340の演算処理の効果と、ステップS350の演算処理の効果と、ステップS352の演算処理の効果と、撮像素子情報50に基づく演算処理の効果が反映された演算処理結果を得ることができる。なお、ベストフォーカスシミュレート処理(ステップS306)からステップS330、ステップS350及びステップS352を省略した処理によって正解画像36を生成してもよい。言い換えれば、正解画像36は、所定被写体画像30-3に対し、ステップS340に相当する処理を行うことによって生成してもよい。
以上のことから、本実施形態の情報処理システム100において、任意の撮像系104は、モノクロ撮像素子108を含む。所定被写体画像30-3は、複数の波長帯域の光が順次に照射される場合において、それぞれの波長帯域の光が照射されるタイミングで、モノクロ撮像素子108により撮像された複数の画像を合成する処理によって得られる面順次式画像である。第1撮像系101は、互いに色が異なる複数の画素を有し、かつ、それぞれの画素に1色が割り当てられた同時式撮像素子106を含む。デフォーカスシミュレート処理(ステップS206)は、所定被写体画像30-3からそれぞれの画素に1色が割り当てられたモザイク画像を生成する処理と、モザイク画像をデモザイキングする処理と、任意の撮像系104と第1撮像系101の差をシミュレートする処理と、所定被写体画像30-3を縮小する処理と、をさらに含む。デフォーカスシミュレート処理(ステップS206)における任意の撮像系104と第1撮像系101の差をシミュレートする処理は、任意の撮像系104のフォーカスが合う物体距離における伝達関数または点像分布関数と、第1撮像系101の複数の物体距離における伝達関数または点像分布関数に基づく。正解画像36は、ベストフォーカスシミュレート処理(ステップS306)が行われたことで生成される画像、または、所定被写体画像30-3を縮小した処理が行われたことにより生成される画像である。ベストフォーカスシミュレート処理(ステップS306)は、モザイク画像を生成する処理と、モザイク画像をデモザイキングする処理と、任意の撮像系104と第1撮像系101の差をシミュレートする処理と、所定被写体画像30-3を縮小する処理を、さらに含む。ベストフォーカスシミュレート処理(ステップS306)における任意の撮像系104と第1撮像系101の差をシミュレートする処理は、任意の撮像系104のフォーカスが合う物体距離における伝達関数または点像分布関数と、第1撮像系101のフォーカスが合う物体距離における伝達関数または点像分布関数に基づく。このようにすることで、所定被写体画像30の撮像方式と処理対象画像の撮像方式が異なった場合において、より適切な学習画像32と正解画像36のデータセットを生成することができる。
また、撮像方式によって、学習済みモデル120を使い分けるようにしてもよい。つまり、本実施形態の情報処理システム100は、例えば図37に示すように、記憶部110は、第1学習済みモデル121と、第2学習済みモデル122を記憶してもよい。
記憶部110が第1学習済みモデル121と第2学習済みモデル122を記憶する場合、図3に示したフローは、例えば図38のフローにしてもよい。処理部130は、処理対象画像読み込み(ステップS10)を行った後、第1撮像系101の撮像方式を確認する処理(ステップS12)を行う。撮像方式が面順次式である場合、第1学習済みモデル読み込み(ステップS21)、補正処理(ステップS31)、補正画像出力(ステップS41)を行う。一方、撮像方式がベイヤー同時式である場合、第2学習済みモデル読み込み(ステップS22)、補正処理(ステップS32)、補正画像出力(ステップS42)を行う。なお、図38のステップS21及びステップS22は、図3のステップS20に対応する処理である。同様に、図38のステップS31及びステップS32は、図3のステップS30に対応する処理であり、図38のステップS41及びステップS42は、図3のステップS40に対応する処理である。
また、この場合において、図7のステップS100は、図39のステップS101及び図40のステップS102のようにしてもよい。具体的には、図39の第1学習済みモデル作成処理(ステップS101)は、図7のステップS100に対して、画像データ生成処理を図29のステップS124とすればよい。同様に、図40の第2学習済みモデル作成処理(ステップS102)は、図7のステップS100に対して、画像データ生成処理を図33のステップS126とすればよい。
また、本実施形態の手法は、任意の撮像系104と第1撮像系101で観察方式が異なる場合についても適用できる。図41を用いて、観察方式が異なる場合における画像データ生成処理の手法を説明する。なお、図41の画像データ生成処理はステップS128とも呼ぶことができるものとし、ステップS128の元となる画像は所定被写体画像30-4とも呼ぶことができるものとする。図41のステップS128は、デフォーカスシミュレート処理(ステップS208)及びベストフォーカスシミュレート処理(ステップS308)の内容と、ステップS206及びステップS306を行う前に、観察方式情報60を読み込む点で、図29のステップS124と異なる。観察方式情報60は、例えば第1撮像系101の観察方式に関する情報である。つまり、図41の例の場合、学習装置記憶部18には、図4には図示していない観察方式情報60がさらに記憶されている。なお、図41において、第2撮像系102は、任意の撮像系104の代表としての例示であることは、図29の例と同じである。
観察方式とは観察モードとも呼ぶことができる。観察方式が異なる場合とは、例えば観察に用いる光源が異なる場合であるが、例えばユーザが被写体を撮像する処理を行ってから所定被写体画像30-4を取得するまでの間に行われた画像処理の手法が異なる場合であってもよい。観察方式としては、例えば白色照明光を用いるWLI(White Light Imaging)モードと、白色光ではない特殊光を用いる特殊光観察モード等がある。特殊光観察モードは、2つの狭帯域光を用いるNBI(Narrow Band Imaging)モードがある。2つの狭帯域光は、青色の波長帯域に含まれる狭帯域光と、緑色の波長帯域に含まれる狭帯域光である。WLIとNBIでは、撮像素子が出力する画像信号からカラー画像を生成する際の画像処理が異なる。例えば、デモザイク処理の内容、又は画像処理におけるパラメータが異なる。また、特殊光観察モードとして、例えばRDI(Red Dichromatic Imaging)モードを採用することもできる。RDIモードは、アンバー色の波長帯域に含まれる狭帯域光と、緑色の波長帯域に含まれる狭帯域光と、赤色の波長帯域に含まれる狭帯域光を用いる観察モードであり、例えば米国特許第9,775,497号B2等に開示されている技術が用いられる。
図42に、所定被写体画像30-4から第1学習画像32-1を生成するデフォーカスシミュレート処理(ステップS208-1)の例を示す。図42のステップS208-1は、図30のステップS204-1と比較すると、WLIモード用処理(ステップS262)、NBIモード用処理(ステップS264)、RDIモード用処理(ステップS266)、TXIモード用処理(ステップS268)をさらに含む点で異なる。なお、TXIはTexture and Color Enhancement Imagingの略であり、詳細は後述する。
なお、図41のステップS128は、図29のS124に対し、上記した相違点となる処理等を追加した例としているが、これに限らず、例えば図33のステップS126に対して上記相違点となる処理等を追加してもよい。この場合、図示は省略するが、ステップS208及びステップS308を行う前に、図33の色ずれ判定処理(ステップS190)がさらに行われる。また、この場合における図42のステップS208は、図34のステップS240、ステップS250、ステップS252をさらに含む。同様に、この場合における図43のステップS308は、図36のステップS340、ステップS350、ステップS352をさらに含む。以降において、図29のステップS124及び図33のステップS126と重複する点については説明を適宜省略する。
例えば、フローチャートの図示は省略するが、学習装置処理部16は、観察方式情報60を読み込み、第1撮像系101に用いられた観察方式を取得する。そして学習装置処理部16は、取得した観察方式に対応する処理としてステップS262、ステップS264、ステップS266、ステップS268のいずれかを選択する。
例えば、第1撮像系101がTXIモードで撮像されている場合、その旨の情報が観察方式情報60として、学習装置記憶部18に記憶されている。そして学習装置処理部16は、観察方式情報60を読み込むことにより、所定被写体画像30-4はTXIモード用処理(ステップS368)を含むデフォーカスシミュレート処理(ステップS208)を行う。具体的には例えば、学習装置処理部16は、所定被写体画像30-4に対し、所定被写体画像30-4の表面構造に係る画像部分であるテクスチャ画像部分と、テクスチャ画像部分以外のベース画像部分に分解する処理を行う。そして、学習装置処理部16は、テクスチャ画像部分に係る表面構造を強調する第1処理と、ベース画像部分の明るさを最適化する第2処理と、第1処理に係る画像と第2処理に係る画像を合成した画像の色調を最適化する第3処理を行う。このようにすることで、所定被写体画像30-4に対し、TXIモードによる撮像の効果をシミュレートした学習画像32を得ることができる。これにより、より正確な学習画像32を含むデータセットで機械学習を行うことができる。
また、例えば、図示は省略するが、第1撮像系101がWLIモードまたはNBIモードで撮像されている場合、その旨の情報が観察方式情報60として、学習装置記憶部18に記憶されている。そして学習装置処理部16は、観察方式情報60を読み込むことにより、所定被写体画像30-4に対して光源に対応するよう色の補完を行う。また、色の補完は、例えば図34のステップS252とともに行ってもよい。例えば学習装置処理部16は、WLIモード用処理(ステップS262)を選択した場合、ステップS252とともにG画像を用いてR画像及びB画像を補間する処理を行う。また、例えば学習装置処理部16は、NBIモード用処理(ステップS264)を選択した場合、ステップS252とともG画像とB画像をそれぞれ独立に補間する処理を行う。
図43に、画像データ生成処理(ステップS128)において所定被写体画像30-4から正解画像36を生成するベストフォーカスシミュレート処理(ステップS308)の例を示す。図43のステップS308は、図31のステップS304と比較すると、WLIモード用処理(ステップS362)、NBIモード用処理(ステップS364)、RDIモード用処理(ステップS366)、TXIモード用処理(ステップS368)をさらに含む点で異なる。図43のステップS362は、図42のステップS262と同様の処理であり、図43のステップS364は、図42のステップS264と同様の処理であり、図43のステップS366は、図42のステップS266と同様の処理であり、図43のステップS368は、図42のステップS268と同様の処理である。なお、図43のベストフォーカスシミュレート処理(ステップS308)からステップS330等を省略した処理によって、正解画像36を生成してもよい。
なお、上記のように本実施形態について詳細に説明したが、本実施形態の新規事項および効果から実体的に逸脱しない多くの変形が可能であることは当業者には容易に理解できるであろう。従って、このような変形例はすべて本開示の範囲に含まれるものとする。例えば、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。また本実施形態及び変形例の全ての組み合わせも、本開示の範囲に含まれる。また情報処理システム、内視鏡システム、学習済みモデル、情報記憶媒体及び情報処理方法の構成及び動作等も、本実施形態で説明したものに限定されず、種々の変形実施が可能である。