JP2021196995A

JP2021196995A - 画像処理システム、画像処理方法及びプログラム

Info

Publication number: JP2021196995A
Application number: JP2020104315A
Authority: JP
Inventors: 康子園田; Yasuko Sonoda
Original assignee: Olympus Corp
Current assignee: Olympus Corp
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2021-12-27

Abstract

【課題】適切なボケ量の拡張画像を生成するための画像処理システム、画像処理方法及びプログラム等の提供。【解決手段】画像処理システム１００は、画像の目標ボケ量を表す第１ボケ量を取得する取得部１２０と、処理対象画像に付加するボケの度合いを示すボケ拡張量を決定する決定部１３０を含む。取得部１２０は、処理対象画像のボケ量である第２ボケ量を取得し、決定部１３０は、第１ボケ量及び第２ボケ量に基づいて、ボケ拡張量を決定する。【選択図】図２

Description

本発明は、画像処理システム、画像処理方法及びプログラム等に関する。

従来、機械学習における学習精度を向上させるために、データ拡張を行う手法が知られている。例えば非特許文献１には、学習時に自然画像をボケ拡張することによって、腫瘍の分類精度を向上させる手法が開示されている。なおボケ拡張とは、画像に対して、ボケ量を変更するデータ拡張を行うことを表す。

Hussain Z, Gimenez F, Yi D, Rubin D. "Differential data augmentation techniques for medical imaging classification tasks" AMIA annual symposium proceedings 2017 (p. 979). American Medical Informatics Association

従来、機械学習に用いられる学習用の画像は、被写体に合焦した画像であることが想定される。しかし、学習用の画像を取得する環境によっては、ボケている画像が取得される場合がある。既にボケている画像をさらにボケ拡張した上で機械学習を行うと、学習精度が悪くなる場合がある。

本開示の一態様は、画像の目標ボケ量を表す第１ボケ量を取得する取得部と、処理対象画像に付加するボケの度合いを示すボケ拡張量を決定する決定部と、を含み、前記取得部は、前記処理対象画像のボケ量である第２ボケ量を取得し、前記決定部は、前記第１ボケ量及び前記第２ボケ量に基づいて、前記ボケ拡張量を決定する画像処理システムに関係する。

本開示の他の態様は、検出対象画像を取得する画像取得部と、学習済モデルを記憶する記憶部と、前記学習済モデルに基づいて、前記検出対象画像から注目領域を検出する処理を行う処理部と、を含み、前記学習済モデルは、画像の目標ボケ量を表す第１ボケ量と、元画像のボケ量を表す第２ボケ量とに基づいて、前記元画像に付加するボケの度合いを示すボケ拡張量が決定されており、前記元画像に対して前記ボケ拡張量を用いてボケ拡張した画像を拡張画像としたときに、前記拡張画像と、前記拡張画像における前記注目領域を特定する正解データとを対応付けた訓練データに基づく機械学習を行うことによって生成されている画像処理システムに関係する。

本開示のさらに他の態様は、画像の目標ボケ量を表す第１ボケ量を取得し、処理対象画像のボケ量である第２ボケ量を取得し、前記第１ボケ量及び前記第２ボケ量に基づいて、前記処理対象画像に付加するボケの度合いを示すボケ拡張量を決定する画像処理方法に関係する。

本開示のさらに他の態様は、コンピュータを機能させるプログラムであって、前記プログラムは、画像の目標ボケ量を表す第１ボケ量を取得し、処理対象画像のボケ量である第２ボケ量を取得し、前記第１ボケ量及び前記第２ボケ量に基づいて、前記処理対象画像に付加するボケの度合いを示すボケ拡張量を決定するステップを前記コンピュータに実行させるプログラムに関係する。

図１（Ａ）は従来手法の課題の説明図、図１（Ｂ）は本実施形態の手法の説明図。画像処理システムの概略構成例。画像処理システムの構成例。図４（Ａ）、図４（Ｂ）は画像取得部が取得するデータの例。図５（Ａ）、図５（Ｂ）は取得部が取得するデータの例。決定部の出力データの例。拡張部の出力データの例。図８（Ａ）、図８（Ｂ）はニューラルネットワークの説明図。図９（Ａ）、図９（Ｂ）は第１の実施形態の処理を説明するフローチャート。学習処理を説明するフローチャート。推論装置である画像処理システムの構成例。内視鏡システムの構成例。第２の実施形態の手法を説明する図。第３の実施形態の処理を説明するフローチャート。注目領域に基づくボケ拡張を説明する図。

以下の開示において、提示された主題の異なる特徴を実施するための多くの異なる実施形態や実施例を提供する。もちろんこれらは単なる例であり、限定的であることを意図するものではない。さらに、本開示では、様々な例において参照番号および／または文字を反復している場合がある。このように反復するのは、簡潔明瞭にするためであり、それ自体が様々な実施形態および／または説明されている構成との間に関係があることを必要とするものではない。さらに、第１の要素が第２の要素に「接続されている」または「連結されている」と記述するとき、そのような記述は、第１の要素と第２の要素とが互いに直接的に接続または連結されている実施形態を含むとともに、第１の要素と第２の要素とが、その間に介在する１以上の他の要素を有して互いに間接的に接続または連結されている実施形態も含む。

１．第１の実施形態
非特許文献１等に開示されているように、機械学習において画像拡張（画像をデータ拡張すること）を適用する手法が広く知られている。自然画像に対して、画像拡張を適用することによって、拡張画像が生成される。このようにすれば、複数の拡張画像からなる拡張画像セットは、自然画像セットに比べて画像枚数が多く、且つ、多様な特性の画像を含む。そのため、拡張画像セットに基づいて機械学習を行うことによって、自然画像セットをそのまま用いる場合に比べて、学習精度の向上が可能になる。なお、画像拡張では、アフィン変換、ノイズ付加、ボケ拡張、明度変換等の種々の処理を用いることが可能であるが、本実施形態では、特にボケ拡張について考える。なお、ここでの自然画像とは、画像拡張に伴う加工が行われる前の画像である。

従来、学習に用いられる自然画像は、被写体に合焦している画像が用いられることが多い。例えば、画像から注目領域を検出するタスクを実行する学習済モデルを生成する機械学習を行う場合、注目領域に合焦している自然画像が用いられる。そのため、従来手法において画像拡張としてボケ拡張を行う場合、画像拡張パラメータであるボケ拡張量の設定が容易であった。

以下、画像のボケ度合いを表す指標をボケ量と表記する。ボケ量は、後述するようにエッジ検出等を含む画像処理によって求めることが可能である。以下では説明の便宜上、ボケ量が０以上の整数値である例について説明する。値が小さいほどボケが少なく、例えばボケ量０は合焦状態を表す。ただし、ボケ量の値は少数であってもよいし、隣り合うボケ量の間隔がより細かくてもよい。例えばボケ量は連続的な数値データであってもよい。

ボケ拡張量とは、画像拡張によって（自然）画像に対して付加されるボケの度合いを表す情報である。以下では説明の便宜上、ボケ拡張量はボケ量の増加量を表す情報であって、０以上の整数値であるものとして説明する。また、ボケ拡張量は１刻みで調整可能であるものとして説明する。ただし、ボケ拡張量は後述するフィルタの特性によって決定されるものであり、具体的な値や間隔は種々の変形実施が可能である。なおボケ拡張量が０とは、元の（自然）画像を加工せずに維持することを表す。

画像拡張においては、画像拡張パラメータを適切に設定することが重要である。ボケに関する画像拡張パラメータとは、上記ボケ拡張量である。ボケ拡張量が大きすぎると、拡張画像におけるボケ量が過剰に大きくなってしまう。拡張画像の注目領域が過剰にボケた場合、注目領域と、注目領域とは異なる領域との区別が難しくなるため、学習精度が低下してしまう。例えば学習が収束しにくくなったり、機械学習によって生成された学習済モデルの推定精度が低くなったりする可能性がある。一方、ボケ拡張量が小さすぎると、ボケた状態で撮像された注目領域を適切に検出できなくなってしまう。

従来手法においては、上述したように、自然画像は合焦している画像が十分多いと考えられる。よって、ボケ拡張量の上限値を設定すれば、設定した当該上限値を多数の自然画像に対して共通に適用することが可能である。例えば学習済モデル生成後の推論段階において、ボケ量が０〜３程度の範囲にある注目領域を検出するタスクを実行する場合、ボケ拡張量の上限値は３に設定される。従来手法では、自然画像のボケ量は合焦状態に対応する０であるケースが多いため、例えば各自然画像に対してボケ拡張量が０、１、２、３の４通りの画像拡張を行うことによって、ボケ量が０〜３程度の範囲にある拡張画像セットを取得可能である。

しかし、従来手法では適切な画像拡張を行うことが難しい場合があることがわかった。例えば、注目領域を対象としてＡＦ（Auto Focus）を実行することを目的として、内視鏡装置を用いて撮像された生体画像から注目領域を検出するタスクを実行する学習済モデルを生成する、という場合である。この場合の問題として、以下の２点が挙げられる。第１に、自然画像の多くが合焦しているという前提が成り立たない。第２に、検出すべき注目領域のボケ量が大きい。以下、詳細に説明する。

内視鏡装置を用いて撮像される生体画像とは、例えば管腔状の被写体の内部を撮像した画像である。ここでの管腔は、例えば大腸等の消化管である。症例画像として記憶されている生体画像は、注目領域に合焦している画像である蓋然性が高い。しかし、症例画像は、一般的な動物や風景等の画像に比べて数が少なく、画像拡張を考慮しても、機械学習に十分な枚数とすることは難しい。そのため、このケースにおける自然画像は、例えば診断や治療の際に撮像された動画像のうちの一部のフレームを、静止画像として抜き出すことによって取得される画像を含む。しかし、動画像から切り抜かれた静止画像は、被写体に合焦していないことも多い。理由としては、内視鏡装置を用いた観察では撮像部と被写体の位置関係の変化が大きいこと、管腔の軸に沿った方向を撮像すると撮像部に近い被写体と遠い被写体が同時に撮像されること、撮像素子の高解像度化に伴って被写界深度が狭くなっていること、等が考えられる。

この場合の自然画像には、もともとボケている画像が含まれてしまう。そのため、自然画像セットに対して、所与のボケ拡張量を用いて一律に画像拡張を適用した場合、過剰にボケた拡張画像が生成されてしまうおそれがある。一方、ボケ拡張量の上限値を小さくした場合、過剰なボケは抑制可能かもしれないが、拡張画像のボケ量が不足してしまう。

またＡＦは、フォーカスレンズを制御することによって、合焦していない被写体を合焦状態に移行させる手法である。ＡＦによって注目領域に合焦させるためには、画像中に含まれる非合焦状態の注目領域を適切に検出できなくてはならない。即ち、ＡＦを想定するケースでは、ＡＦ以外の場合に比べて、推論段階における注目領域のボケ量が大きくなる蓋然性が高い。例えば、コントラストＡＦでは、コントラスト値の勾配が認識可能であれば、フォーカスレンズを適切な方向へ駆動できる。そのため、コントラスト値の勾配が認識可能な程度のボケ量であれば、当該ボケ量の注目領域を検出することに対する要求がある。そのためには、ボケ拡張量を一律に抑制することは好ましくない。

以上のように、本開示で想定するケースでは、自然画像のボケ量のばらつきが大きく、且つ、ボケ量の大きい被写体を検出するためにボケ拡張量をある程度大きくする必要がある。結果として、自然画像セットに対して一律にボケ拡張を行った場合、過剰なボケが発生しやすく、学習精度が低下するおそれが大きい。

図１（Ａ）は、従来手法の課題を説明する図である。上述したように、本開示では自然画像のボケ量は画像ごとにばらつく。例えば自然画像Ａのボケ量は２であり、自然画像Ｂのボケ量は５であり、自然画像Ｃのボケ量は１である。ＡＦ等を考慮して、推論段階でボケ量５相当の注目領域を検出するタスクを実行することを考える。この場合、ボケ量０の自然画像からボケ量５の拡張画像を生成する必要があるため、ボケ拡張量の上限値は５となる。従来と同様に一律の画像拡張を行った場合、自然画像Ａに基づいてボケ量７の拡張画像Ａが生成される。同様に、自然画像Ｂに基づいてボケ量１０の拡張画像Ｂが生成され、自然画像Ｃに基づいてボケ量６の拡張画像Ｃが生成される。これらの拡張画像は、過剰なボケ拡張が行われており、学習精度の低下につながる。

よって本開示では、自然画像のボケ量を評価し、評価結果に基づいてボケ拡張量を決定する。図１（Ｂ）は、本開示の処理を説明する図である。例えば、本開示の画像処理システム１００は、ボケ量算出処理を行うことによって、自然画像Ａ，Ｂ，Ｃのボケ量が、それぞれ２、５、１であると判定する。そして当該ボケ量に基づいて、自然画像ごとにボケ拡張量が決定される。具体的には、ボケ量５の拡張画像を生成する必要がある場合、すなわち、目標とするボケ量が５の場合、この目標ボケ量と自然画像のボケ量との差を算出することで自然画像のボケ拡張量を決定する。例えば図１（Ｂ）に示したように、自然画像Ａのボケ拡張量は３に決定され、自然画像Ｂのボケ拡張量は０に決定され、自然画像Ｃのボケ拡張量は４に決定される。このようにすれば、図１（Ｂ）に示すように、拡張画像のボケ量が５以下に抑制されるため、拡張画像のボケ量が過剰となることを抑制できる。また、ボケ量が少ない自然画像Ａや自然画像Ｃについては、相対的に大きなボケ拡張量が設定されるため、拡張画像のボケ量が不足することも抑制できる。

図２は、本実施形態の画像処理システム１００の構成を示す図である。画像処理システム１００は、取得部１２０と、決定部１３０を含む。ただし画像処理システム１００は図２の構成に限定されず、他の構成を追加する等の変形実施が可能である。

取得部１２０は、画像の目標ボケ量を表す第１ボケ量を取得する。また取得部１２０は、処理対象画像のボケ量である第２ボケ量を取得する。ここでの処理対象画像とは、画像拡張の対象となる画像であって、上記の自然画像に対応する。なお取得部１２０は、画像からボケ量を算出する処理と、算出されたボケ量に基づいて第１ボケ量及び第２ボケ量を決定する処理と、を実行してもよい。この場合の取得部１２０は、これらの処理を実行するプロセッサによって実現される。ただし、画像処理システム１００の外部の情報処理装置においてボケ量算出、及び、第１ボケ量及び第２ボケ量の決定処理が行われ、取得部１２０は、当該第１ボケ量及び第２ボケ量を取得してもよい。この場合の取得部１２０は、外部の情報処理装置との間の通信インターフェースを制御するプロセッサによって実現される。ここでの通信インターフェースは、インターネットやイントラネット等を経由した通信を行う通信チップ、通信デバイスであってもよい。或いは、通信インターフェースは、ＵＳＢ（Universal Serial Bus）等の他のインターフェースであってもよい。

決定部１３０は、第１ボケ量と第２ボケ量に基づいて、ボケ拡張量を決定する。本実施形態では、処理対象画像ごとに第２ボケ量がばらつくことを想定しているため、決定部１３０は、処理対象画像ごとにボケ拡張量を決定する。

本実施形態の手法によれば、処理対象画像のボケ量に応じて、処理対象画像ごとに目標ボケ量を満足するようなボケ拡張量が決定される。そのため、過剰なボケが付加されることや、ボケ量が不足することが抑制される。本実施形態の手法を用いて生成された拡張画像セットは、ボケに関して所望の特性を有する拡張画像の集合となる。結果として、当該拡張画像セットを用いた機械学習によって生成された学習済モデルの推定精度を高くすることが可能になる。

図３は、画像処理システム１００の詳細な構成例である。画像処理システム１００は、画像取得部１１０と、取得部１２０と、決定部１３０と、拡張部１４０と、学習部１５０を含む。ただし画像処理システム１００は図３の構成に限定されず、一部の構成を省略したり、他の構成を追加する等の変形実施が可能である。例えば図２に示したように、画像取得部１１０、拡張部１４０、学習部１５０は省略可能である。

例えば図３に示す画像処理システム１００は、拡張画像セットの生成と、当該拡張画像セットに基づく学習を実行する学習装置である。ただし学習部１５０は省略されてもよく、この場合、画像処理システム１００は学習用の拡張画像セットを生成し、当該拡張画像セットを外部の学習装置に出力する。また画像処理システム１００は、学習部１５０が生成した学習済モデルに基づく推論処理を行う不図示の推論部を含んでもよい。この場合、画像処理システム１００は、学習装置と推論装置の両方として機能する。例えば本実施形態の画像処理システム１００は、図１２を用いて後述する内視鏡システム３００に含まれてもよい。

なお本実施形態の画像処理システム１００は、下記のハードウェアにより構成される。ハードウェアは、デジタル信号を処理する回路及びアナログ信号を処理する回路の少なくとも一方を含むことができる。例えば、ハードウェアは、回路基板に実装された１又は複数の回路装置や、１又は複数の回路素子で構成することができる。１又は複数の回路装置は例えばＩＣ（Integrated Circuit）、ＦＰＧＡ（field-programmable gate array）等である。１又は複数の回路素子は例えば抵抗、キャパシター等である。

また画像処理システム１００の各部は、下記のプロセッサにより実現されてもよい。画像処理システム１００は、情報を記憶するメモリと、メモリに記憶された情報に基づいて動作するプロセッサと、を含む。情報は、例えばプログラムと各種のデータ等である。プロセッサは、ハードウェアを含む。プロセッサは、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）等、各種のプロセッサを用いることが可能である。メモリは、ＳＲＡＭ（Static Random Access Memory）、ＤＲＡＭ（Dynamic Random Access Memory）などの半導体メモリであってもよいし、レジスタであってもよいし、ＨＤＤ（Hard Disk Drive）等の磁気記憶装置であってもよいし、光学ディスク装置等の光学式記憶装置であってもよい。例えば、メモリはコンピュータにより読み取り可能な命令を格納しており、当該命令がプロセッサにより実行されることで、画像処理システム１００の各部の機能が処理として実現されることになる。画像処理システム１００の各部とは、例えば図３に示した画像取得部１１０、取得部１２０、決定部１３０、拡張部１４０、学習部１５０である。ここでの命令は、プログラムを構成する命令セットの命令でもよいし、プロセッサのハードウェア回路に対して動作を指示する命令であってもよい。さらに、画像処理システム１００の各部の全部または一部をクラウドコンピューティングで実現し、後述する各処理をクラウドコンピューティング上で行うこともできる。

画像取得部１１０は、画像拡張に用いる画像を取得する。画像取得部１１０は、例えば画像取得用のインターフェースを制御するプロセッサにより実現される。画像取得部１１０は、処理対象画像取得部１１１と、参照画像取得部１１２を含む。

処理対象画像取得部１１１は、複数の処理対象画像を取得する。処理対象画像は、上述したように、画像拡張の対象となる画像である。処理対象画像は、例えば内視鏡を用いて撮像された生体内画像である。

参照画像取得部１１２は、参照画像を取得する。参照画像は、第１ボケ量の算出に用いられる画像である。例えば参照画像は、推論段階において取得されると想定される画像である。例えば本実施形態の手法を用いて生成された学習済モデルが、図１２に示す内視鏡システム３００で利用される場合、参照画像は、内視鏡システム３００と同様の機種を用いて、推論段階と同じ波長帯域の光源３５２によって、推論段階で観察する部位と同じ部位を撮像した画像群である。ただし、参照画像は推論段階で取得されるであろう画像群と類似する特性を有すればよく、内視鏡システム３００の機種等については厳密に一致する必要はない。

図４（Ａ）は、処理対象画像取得部１１１が取得するデータの例である。例えば処理対象画像取得部１１１は、処理対象画像を一意に識別するＩＤと、処理対象画像と、アノテーション結果と、が対応付けられたデータを複数取得する。本開示における処理対象画像は、機械学習の対象となる画像である。機械学習は、例えば教師あり学習であるため、各処理対象画像には、正解データが対応付けられる。アノテーションとは、画像に対してメタデータを付加することを表し、アノテーション結果とはアノテーションによって付加されたデータを表す。生体内画像に対するアノテーションは、例えば医師等の専門的な知識を有するユーザによって行われる。推論段階において画像から注目領域を検出するタスクを行う場合、アノテーション結果とは処理対象画像の注目領域に関する情報である。アノテーション結果は、例えば注目領域の有無、位置、サイズ、形状等を表す情報である。アノテーション結果は、画像における座標値等の情報であってもよいし、注目領域を表すマスク画像データであってもよい。また注目領域が複数の種類に分類可能である場合、アノテーション結果は分類結果を表す情報を含んでもよい。

なお本実施形態における注目領域とは、ユーザにとって観察の優先順位が他の領域よりも相対的に高い領域である。ユーザが診断や治療を行う医者である場合、注目領域は、例えば病変部を写した領域に対応する。ただし、医者が観察したいと欲した対象が泡や残渣であれば、注目領域は、その泡部分や残渣部分を写した領域であってもよい。即ち、ユーザが注目すべき対象は観察目的によって異なるが、その観察に際し、ユーザにとって観察の優先順位が他の領域よりも相対的に高い領域が注目領域となる。

図４（Ｂ）は、参照画像取得部１１２が取得するデータの例である。例えば参照画像取得部１１２は、参照画像を一意に識別するＩＤと、参照画像と、が対応付けられたデータを複数取得する。

取得部１２０は、参照画像に基づく第１ボケ量と、処理対象画像に基づく第２ボケ量を取得する。取得部１２０は、複数の処理対象画像のそれぞれからボケ量を算出する処理を行う。まず取得部１２０は、処理対象画像からエッジを抽出する処理を行う。エッジ抽出は、ソーベル法等の種々の手法が知られており、本実施形態ではそれらの手法を広く適用可能である。次に取得部１２０は、抽出したエッジに基づいて、処理対象画像のボケ量を求める。例えば取得部１２０は、エッジにおける輝度勾配を求め、当該輝度勾配に反比例する指標値を求める。取得部１２０は、各方向のエッジについて求められた複数の指標値に基づいて、処理対象画像のボケ量を求める。また取得部１２０は、各参照画像についても同様に、ボケ量を算出する。

図５（Ａ）、図５（Ｂ）は、取得部１２０の処理によって取得されるデータの例である。図５（Ａ）に示すように、各処理対象画像について求められたボケ量が、当該処理対象画像の第２ボケ量となる。即ち、処理対象画像に関しては、ＩＤと、処理対象画像と、アノテーション結果と、第２ボケ量と、が対応付けられた情報が取得される。例えばＩＤ１の処理対象画像の第２ボケ量は２であり、ＩＤ２の処理対象画像の第２ボケ量は５であり、ＩＤ３の処理対象画像の第２ボケ量は１である。

図５（Ｂ）に示すように、参照画像についても、各参照画像に基づいてボケ量が算出される。結果として、ＩＤと、参照画像と、当該参照画像のボケ量と、が対応付けられた情報が取得される。取得部１２０は、参照画像のボケ量に基づいて、目標ボケ量である第１ボケ量を決定する処理を行う。

本実施形態における第１ボケ量は、拡張画像におけるボケ量の上限値に相当する情報である。換言すれば、推論段階において、第１ボケ量までのボケ度合いの注目領域は検出する必要がある、という要求から、第１ボケ量が決定される。例えば取得部１２０は、図５（Ｂ）に示す複数の参照画像のボケ量の最大値を、第１ボケ量として決定する。或いは取得部１２０は、参照画像のボケ量の分布に基づいて外れ値を除外した上で最大値を求め、当該最大値を第１ボケ量としてもよい。その他、第１ボケ量の具体的な決定処理は種々の変形実施が可能である。以下では、取得部１２０が取得した第１ボケ量が５である例について説明する。

決定部１３０は、取得部１２０が取得した第１ボケ量及び第２ボケ量に基づいてボケ拡張量を決定する処理を行う。具体的には、決定部１３０は、ボケ拡張量を適用したボケ拡張後の拡張画像のボケ量が、第１ボケ量を超えないようにボケ拡張量を決定する。

図６は、決定部１３０の処理によって取得されるデータの例である。例えば決定部１３０は、第２ボケ量が２であるＩＤ１の処理対象画像について、ボケ拡張量を３以下に決定する。ボケ拡張量を３以下とすることによって、ＩＤ１の処理対象画像に基づいて生成される拡張画像のボケ量が、第１ボケ量である５を超えることを抑制できる。例えばボケ拡張量が１刻みで変更可能である場合、決定部１３０は、ＩＤ１の処理対象画像に適用するボケ拡張量として、０、１、２、３の４つを決定する。

また決定部１３０は、第２ボケ量が５であるＩＤ２の処理対象画像について、第１ボケ量である５との差分に基づいて、ボケ拡張量を０に決定する。また決定部１３０は、第２ボケ量が１であるＩＤ３の処理対象画像について、第１ボケ量である５との差分に基づいて、ボケ拡張量を４以下に決定する。例えば決定部１３０は、ＩＤ３の処理対象画像に適用するボケ拡張量として、０、１、２、３、４の５つを決定する。

なお、以上では第１ボケ量を超えない範囲であれば、適用可能なすべてのボケ拡張量が採用される例を説明した。例えば、ＩＤ１の処理対象画像に示したように、第１ボケ量が５であり、第２ボケ量が２である場合、ボケ拡張量として３だけでなく、２や１も採用される。ただし、第１ボケ量を超えない範囲のボケ拡張量のうち、一部のボケ拡張量が省略されてもよい。

拡張部１４０は、決定部１３０によって決定されたボケ拡張量に基づいて、画像拡張を行うことによって拡張画像セットを生成する。なおここでは、便宜上、ボケ拡張量が０の画像も拡張画像に含まれるものとする。ボケ拡張量が０の画像とは、処理対象画像そのものである。ただし、ボケ拡張量が０より大きい画像を拡張画像と定義し、当該拡張画像と元の処理対象画像とを含む画像セットを拡張画像セットと考えてもよい。

拡張部１４０は、例えば所与のフィルタ処理を行うことによって、画像拡張を行う。ここでのフィルタは、ガウシアンフィルタであってもよいし、移動平均フィルタであってもよいし、エッジ保存等の選択的ローパスフィルタであってもよい。またここでのフィルタは、ピクセル化を行うフィルタであってもよいし、他の平滑化フィルタであってもよい。この際、フィルタ特性を変更することによって、ボケ量の増加度合いを調整できる。ここでのフィルタ特性は、フィルタサイズやフィルタ係数等を含む。例えば、拡張部１４０は、特性の異なるｎ通りのフィルタ処理のいずれかを選択することによって、ｎ通りのボケ拡張量を適用した画像拡張を実行可能である。

図７は、拡張部１４０の処理によって取得されるデータの例であり、具体的には拡張画像セットを含む訓練データを表す図である。例えば拡張部１４０は、拡張画像を一意に識別するＩＤと、拡張画像と、当該拡張画像に対応するアノテーション結果と、が対応付けられたデータを複数取得する。

例えば図６に示したように、ＩＤ１の処理対象画像に適用するボケ拡張量として、０、１、２、３の４つが決定されている。この場合、拡張部１４０は、ＩＤ１の処理対象画像に対して、ボケ拡張量０の画像拡張を行うことによって、ＩＤ１の拡張画像を生成する。ＩＤ１の拡張画像は、ＩＤ１の処理対象画像そのものである。同様に、拡張部１４０は、ＩＤ１の処理対象画像に対して、ボケ拡張量１、２、３の画像拡張を行うことによって、ＩＤ２、３、４の拡張画像を生成する。ＩＤ１〜４の拡張画像は、いずれも元画像がＩＤ１の処理対象画像であるため、当該処理対象画像のアノテーション結果が対応付けられる。

また図６に示したように、ＩＤ２の処理対象画像に適用するボケ拡張量として、０が決定されている。この場合、拡張部１４０は、ＩＤ２の処理対象画像に対して、ボケ拡張量０の画像拡張を行うことによって、ＩＤ５の拡張画像を生成する。ＩＤ５の拡張画像は、ＩＤ２の処理対象画像そのものである。ＩＤ５の拡張画像には、ＩＤ２の処理対象画像のアノテーション結果が対応付けられる。

これ以降についても同様であり、拡張部１４０は、決定部１３０において決定されたボケ拡張量に基づいて、画像拡張を行う。

学習部１５０は、拡張部１４０によって生成された拡張画像セットに基づいて、機械学習を行う。以下、機械学習の概要について説明する。以下では、ニューラルネットワークを用いた機械学習について説明するが、本実施形態の手法はこれに限定されない。本実施形態においては、例えばＳＶＭ（support vector machine）等の他のモデルを用いた機械学習が行われてもよいし、ニューラルネットワークやＳＶＭ等の種々の手法を発展させた手法を用いた機械学習が行われてもよい。

図８（Ａ）は、ニューラルネットワークを説明する模式図である。ニューラルネットワークは、データが入力される入力層と、入力層からの出力に基づいて演算を行う中間層と、中間層からの出力に基づいてデータを出力する出力層を有する。図８（Ａ）においては、中間層が２層であるネットワークを例示するが、中間層は１層であってもよいし、３層以上であってもよい。また各層に含まれるノードの数は図８（Ａ）の例に限定されず、種々の変形実施が可能である。なお精度を考慮すれば、本実施形態の学習は多層のニューラルネットワークを用いたディープラーニングを用いることが望ましい。ここでの多層とは、狭義には４層以上である。

図８（Ａ）に示すように、所与の層に含まれるノードは、隣接する層のノードと結合される。各結合には重み付け係数が設定されている。各ノードは、前段のノードの出力と重み付け係数を乗算し、乗算結果の合計値を求める。さらに各ノードは、合計値に対してバイアスを加算し、加算結果に活性化関数を適用することによって当該ノードの出力を求める。この処理を、入力層から出力層へ向けて順次実行することによって、ニューラルネットワークの出力が求められる。なお活性化関数としては、シグモイド関数やＲｅＬＵ関数等の種々の関数が知られており、本実施形態ではそれらを広く適用可能である。

ニューラルネットワークにおける学習は、適切な重み付け係数を決定する処理である。ここでの重み付け係数は、バイアスを含む。具体的には、学習部１５０は、訓練データのうちの入力データをニューラルネットワークに入力し、そのときの重み付け係数を用いた順方向の演算を行うことによって出力を求める。学習部１５０は、当該出力と、訓練データのうちの正解データとに基づいて、誤差関数を演算する。そして誤差関数を小さくするように、重み付け係数を更新する。重み付け係数の更新では、例えば出力層から入力層に向かって重み付け係数を更新していく誤差逆伝播法を利用可能である。

またニューラルネットワークは例えばＣＮＮ（Convolutional Neural Network）であってもよい。図８（Ｂ）は、ＣＮＮを説明する模式図である。ＣＮＮは、畳み込み演算を行う畳み込み層とプーリング層を含む。畳み込み層は、フィルタ処理を行う層である。プーリング層は、縦方向、横方向のサイズを縮小するプーリング演算を行う層である。図８（Ｂ）に示す例は、畳み込み層及びプーリング層による演算を複数回行った後、全結合層による演算を行うことによって出力を求めるネットワークである。全結合層とは、所与の層のノードに対して前の層の全てのノードが結合される場合の演算処理を行う層であり、図８（Ａ）を用いて上述した各層の演算に対応する。なお、図８（Ｂ）では不図示であるが、ＣＮＮを用いる場合も図８（Ａ）と同様に活性化関数による演算処理が行われる。ＣＮＮは種々の構成が知られており、本実施形態においてはそれらを広く適用可能である。例えば本実施形態では、Faster R-CNN、YOLO V2等、種々の構成のＣＮＮを利用できる。

ＣＮＮを用いる場合も、処理の手順は図８（Ａ）と同様である。即ち、学習部１５０は、訓練データのうちの入力データをＣＮＮに入力し、そのときのフィルタ特性を用いたフィルタ処理やプーリング演算を行うことによって出力を求める。当該出力と、正解データとに基づいて誤差関数が算出され、当該誤差関数を小さくするように、フィルタ特性を含む重み付け係数の更新が行われる。ＣＮＮの重み付け係数を更新する際にも、例えば誤差逆伝播法を利用可能である。

本実施形態における訓練データは、図７に示したとおりであり、入力データが拡張画像であり、正解データがアノテーション結果である。即ち、本実施形態におけるニューラルネットワークは、画像を入力として受け付け、当該画像に基づく順方向の演算を行うことによって、注目領域に関する情報を出力する。

図９（Ａ）、図９（Ｂ）は、本実施形態の処理を説明するフローチャートである。図９（Ａ）の処理が開始されると、まずステップＳ１０１において、参照画像取得部１１２は、参照画像を取得する。ステップＳ１０２において、取得部１２０は、参照画像のエッジを抽出する処理を行う。ステップＳ１０３において、取得部１２０は、抽出したエッジに基づいて参照画像のボケ量を算出する。ステップＳ１０４において、取得部１２０は、各参照画像から算出されたボケ量に基づいて、第１ボケ量を決定する。

図９（Ｂ）の処理が開始されると、まずステップＳ２０１において、処理対象画像取得部１１１は、処理対象画像を取得する。ステップＳ２０２において、取得部１２０は、処理対象画像のエッジを抽出する処理を行う。ステップＳ２０３において、取得部１２０は、抽出したエッジに基づいて処理対象画像のボケ量を算出する。ステップＳ２０４において、取得部１２０は、各処理対象画像から算出されたボケ量を、第２ボケ量として決定する。

ステップＳ２０５において、決定部１３０は、ステップＳ１０４で取得された第１ボケ量と、ステップＳ２０４で取得された第２ボケ量とに基づいて、ボケ拡張量を決定する。ステップＳ２０６において、拡張部１４０は、決定されたボケ拡張量に基づいて画像拡張を行うことによって、拡張画像セットを生成する。ステップＳ２０７において、学習部１５０は、拡張画像セットと、アノテーション結果を対応付けた訓練データに基づいて、機械学習を行う。学習部１５０は、機械学習の結果である学習済モデルを出力する。

図１０は、ステップＳ２０７の学習処理を説明するフローチャートである。まずステップＳ３０１及びステップＳ３０２において、学習部１５０は、１つの拡張画像と、当該拡張用画像に対応付けられたアノテーション結果を取得する。例えば学習部１５０は、図７に示すデータのうちの１行分のデータを読み出す処理を行う。

ステップＳ３０３において、学習部１５０は、誤差関数を求める処理を行う。具体的には、学習部１５０は、拡張画像をニューラルネットワークに入力し、その際の重み付け係数に基づいて順方向の演算を行う。そして学習部１５０は、演算結果と、アノテーション結果の比較処理に基づいて誤差関数を求める。さらにステップＳ３０３において、学習部１５０は、誤差関数を小さくするように重み付け係数を更新する処理を行う。この処理は、上述したように誤差逆伝播法等を利用可能である。ステップＳ３０１〜Ｓ３０３の処理が、１つの訓練データに基づく１回の学習処理に対応する。

ステップＳ３０４において、学習部１５０は学習処理を終了するか否かを判定する。例えば学習部１５０は、ステップＳ３０１〜Ｓ３０３の処理を所定回数行った場合に学習処理を終了してもよい。或いは、画像処理システム１００は、多数の訓練データの一部を検証データとして保持していてもよい。検証データは、学習結果の精度を確認するためのデータであり、重み付け係数の更新には使用されないデータである。学習部１５０は、検証データを用いた推定処理の正解率が所定閾値を超えた場合に、学習処理を終了してもよい。

ステップＳ３０４でＮｏの場合、ステップＳ３０１に戻り、次の訓練データに基づく学習処理が継続される。ステップＳ３０４でＹｅｓの場合、学習処理が終了される。学習部１５０は、生成した学習済モデルの情報を出力する。学習済モデルの情報は、例えば図１２を用いて後述する内視鏡システム３００の記憶部３３３に記憶される。なお、学習処理の流れは図１０に限定されない。機械学習においてはバッチ学習、ミニバッチ学習等の種々の手法が知られており、本実施形態ではこれらを広く適用可能である。

以上で説明したように、本実施形態の手法では、処理対象画像のボケ量である第２ボケ量を評価し、評価結果に基づいてボケ拡張量が決定される。これにより、複数の処理対象画像のボケ量のばらつきが大きい場合であっても、画像拡張の結果である拡張画像セットのボケ量を適切な範囲とすることが可能になる。

また本実施形態の決定部１３０は、第２ボケ量の処理対象画像に対して、ボケ拡張量を用いてボケ拡張した拡張画像のボケ量が、第１ボケ量以下になるように、ボケ拡張量を決定してもよい。このようにすれば、拡張画像のボケ量が第１ボケ量以下に抑制されるため、ボケ量が過剰な拡張画像が生成されることを抑制できる。結果として、拡張画像を用いた学習精度の向上が可能になる。

また本実施形態の取得部１２０は、図５（Ｂ）に示したように、参照画像のボケ量を取得し、取得した参照画像のボケ量に基づいて、第１ボケ量を取得してもよい。本実施形態における第１ボケ量は、具体的には拡張画像のボケ量の上限である。このようにすれば、参照画像に基づく適切な第１ボケ量を取得することが可能になる。上述したように、参照画像として推論段階で取得される画像と類似する特性の画像を取得しておくことによって、学習精度向上が可能になる。

また本実施形態の決定部１３０は、取得した第２ボケ量が大きいほど小さくなるボケ拡張量を決定してもよい。例えば図６に示したように、ボケ拡張量の最大値は、処理対象画像の第２ボケ量が大きいほど小さくなる。このようにすれば、ボケ量が過剰な拡張画像が生成されることを抑制できる。

また本実施形態の決定部１３０は、取得した第２ボケ量が第１ボケ量以上の場合、ボケ拡張量を０に決定する。例えば図６に示すＩＤ２の処理対象画像では、第２ボケ量と第１ボケ量がともに５であるため、ボケ拡張量の最大値が０に決定される。このようにすれば、ボケ量が過剰な拡張画像が生成されることを抑制できる。

また本実施形態の画像処理システム１００は、図３に示すように、処理対象画像を取得する画像取得部１１０をさらに含んでもよい。ここでの画像取得部１１０は、狭義には処理対象画像取得部１１１である。取得部１２０は、画像取得部１１０が取得した処理対象画像に基づいて、処理対象画像のボケ量を求める処理を行うことによって、第２ボケ量を取得する。

このようにすれば、画像処理システム１００において、処理対象画像を取得すること、及び当該処理対象画像に対する画像処理を行うことによって、第２ボケ量を求めることが可能になる。

また画像取得部１１０は、参照画像を取得してもよい。ここでの画像取得部１１０は、狭義には参照画像取得部１１２である。取得部１２０は、画像取得部１１０が取得した参照画像に基づいて、参照画像のボケ量を求める処理を行うことによって、第１ボケ量を取得する。

このようにすれば、画像処理システム１００において、参照画像を取得すること、及び当該参照画像に対する画像処理を行うことによって、第１ボケ量を求めることが可能になる。上述したように、本実施形態では、例えば複数の参照画像から求められる複数のボケ量の統計量に基づいて第１ボケ量が求められる。なお、ボケ量を算出する処理は処理対象画像と参照画像で共通化が可能であるため、効率的な構成により本実施形態の画像処理システム１００を実現できる。

また本実施形態の画像処理システム１００は、図３に示したように、拡張部１４０と、学習部１５０を含んでもよい。拡張部１４０は、処理対象画像に対して、決定したボケ拡張量を用いてボケ拡張した拡張画像を生成する。学習部１５０は、拡張画像と、拡張画像における注目領域を特定する正解データとを対応付けたデータを含む訓練データに基づく機械学習を行うことによって、検出対象画像から注目領域を検出する学習済モデルを生成する。

このようにすれば、画像処理システム１００において、画像拡張を行うこと、及び、当該画像拡張によって取得された拡張画像セットに基づく機械学習を行うことが可能になる。換言すれば、本実施形態の画像処理システム１００は、学習装置として機能することが可能である。

また本実施形態における処理対象画像は、内視鏡装置を用いて撮像された生体内画像である。上述したように、内視鏡装置を用いた生体内画像を対象とした場合、学習用の画像として合焦している画像を大量に取得することが難しい。即ち、学習用に収集した画像のボケ量がばらつく蓋然性が高い。その点、本実施形態の手法では処理対象画像のボケ量を評価した上で画像拡張が行われるため、生体内画像を対象とした場合であっても適切な画像拡張を実行する事が可能である。

また本実施形態の手法は、上記の手法に基づいて生成された学習済モデルを用いて推論処理を行う画像処理システム２００に適用できる。ここでの画像処理システム２００は、推論装置に対応する。

図１１は、推論装置である画像処理システム２００の構成を示す図である。画像処理システム２００は、検出対象画像を取得する画像取得部２１０と、学習済モデルを記憶する記憶部２２０と、学習済モデルに基づいて、検出対象画像から注目領域を検出する処理を行う処理部２３０と、を含む。

学習済モデルは、元画像に対してボケ拡張量を用いてボケ拡張した画像である拡張画像と、拡張画像における注目領域を特定する正解データとを対応付けたデータを含む訓練データに基づく機械学習を行うことによって生成されている。上述したように、ここでのボケ拡張量は、元画像に付加するボケの度合いを示す情報であって、画像の目標ボケ量を表す第１ボケ量と、元画像のボケ量を表す第２ボケ量とに基づいて決定されている。推論装置である画像処理システム２００は、例えば内視鏡システム３００に含まれる。

図１２は、推論装置に対応する内視鏡システム３００の構成を説明する図である。内視鏡システム３００は、挿入部３１０と、処理装置３３０と、表示部３４０と、光源装置３５０を含む。ただし、内視鏡システム３００の構成は図１２に限定されず、一部の構成を省略したり、他の構成を追加する等の種々の変形実施が可能である。

光源装置３５０は、照明光を発光する光源３５２を含む。光源３５２は、キセノン光源であってもよいし、ＬＥＤ（light emitting diode）であってもよいし、レーザー光源であってもよい。また光源３５２は他の光源であってもよく、発光方式は限定されない。

挿入部３１０は、対物光学系３１１、撮像素子３１２、照明レンズ３１４、ライトガイド３１５を含む。ライトガイド３１５は、光源３５２からの照明光を、挿入部３１０の先端まで導光する。照明レンズ３１４は、ライトガイド３１５によって導光された照明光を被写体に照射する。対物光学系３１１は、被写体から反射した反射光を、被写体像として結像する。対物光学系３１１は、例えばフォーカスレンズを含み、フォーカスレンズの位置に応じて被写体像が結像する位置を変更可能である。例えば挿入部３１０は、制御部３３２からの制御に基づいてフォーカスレンズを駆動する不図示のアクチュエータを含む。制御部３３２は、ＡＦ（ＡｕｔｏＦｏｃｕｓ）制御を行う。

撮像素子３１２は、対物光学系３１１を経由した被写体からの光を受光する。撮像素子３１２はモノクロセンサであってもよいし、カラーフィルタを備えた素子であってもよい。カラーフィルタは、広く知られたベイヤフィルタであってもよいし、補色フィルタであってもよいし、他のフィルタであってもよい。補色フィルタとは、シアン、マゼンタ及びイエローの各色フィルタを含むフィルタである。

処理装置３３０は、画像処理やシステム全体の制御を行う。処理装置３３０が、推論装置である画像処理システム２００に対応する。処理装置３３０は、前処理部３３１、制御部３３２、記憶部３３３、検出処理部３３５、後処理部３３６を含む。例えば、前処理部３３１が、画像処理システム２００の画像取得部２１０に対応する。検出処理部３３５が、画像処理システム２００の処理部２３０に対応する。記憶部３３３が、画像処理システム２００の記憶部２２０に対応する。また、制御部３３２、後処理部３３６等が処理部２３０に含まれてもよい。

処理装置３３０は、例えばコネクタを経由して挿入部３１０と接続される１つの装置であるが、これには限定されない。例えば、処理装置３３０の一部又は全部の構成は、ネットワークを介して接続可能なＰＣ（Personal Computer）やサーバシステム等の他の情報処理装置によって構築されてもよい。例えば、処理装置３３０はクラウドコンピューティングによって実現されてもよい。ここでのネットワークは、イントラネット等のプライベートネットワークであってもよいし、インターネット等の公衆通信網であってもよい。またネットワークは有線、無線を問わない。

前処理部３３１は、撮像素子３１２から順次出力されるアナログ信号をデジタルの画像に変換するＡ／Ｄ変換と、Ａ／Ｄ変換後の画像データに対する各種補正処理を行う。なお、撮像素子３１２にＡ／Ｄ変換回路が設けられ、前処理部３３１におけるＡ／Ｄ変換が省略されてもよい。ここでの補正処理とは、例えばカラーマトリクス補正処理、構造強調処理、ノイズ低減処理、ＡＧＣ（automatic gain control）等を含む。また前処理部３３１は、ホワイトバランス処理等の他の補正処理を行ってもよい。前処理部３３１は、処理後の画像を、検出対象画像として検出処理部３３５に出力する。また前処理部３３１は、処理後の画像を後処理部３３６に出力する。

検出処理部３３５は、検出対象画像から注目領域を検出する検出処理を行う。また検出処理部３３５は、検出された注目領域の確からしさを表す推定確率を出力する。例えば検出処理部３３５は、記憶部３３３に記憶される学習済モデルの情報に従って動作することによって、検出処理を行う。

後処理部３３６は、前処理部３３１、検出処理部３３５の出力に基づく後処理を行い、後処理後の画像を表示部３４０に出力する。例えば後処理部３３６は、前処理部３３１からの画像に対して、検出処理部３３５における検出結果を付加し、付加後の画像を表示する処理を行ってもよい。

制御部３３２は、撮像素子３１２、前処理部３３１、検出処理部３３５、後処理部３３６、光源３５２と互いに接続され、各部を制御する。

表示部３４０は、例えば液晶ディスプレイやＥＬ（Electro-Luminescence）ディスプレイ等である。

また本実施形態の手法は、以下の各ステップを実行する画像処理方法に適用できる。画像処理方法は、画像の目標ボケ量を表す第１ボケ量を取得し、処理対象画像のボケ量である第２ボケ量を取得し、第１ボケ量及び第２ボケ量に基づいて、処理対象画像に付加するボケの度合いを示すボケ拡張量を決定する。

また、本実施形態の画像処理システム１００の各部は、プロセッサ上で動作するプログラムのモジュールとして実現されてもよい。例えば、取得部１２０は、第１ボケ量及び第２ボケ量を算出する算出モジュールとして実現されてもよいし、第１ボケ量及び第２ボケ量を取得するためのインターフェースを制御する制御モジュールとして実現されてもよい。決定部１３０は、ボケ拡張量を決定する処理を行う処理モジュールとして実現される。

また、本実施形態の画像処理システム１００が行う処理を実現するプログラムは、例えばコンピュータによって読み取り可能な媒体である情報記憶装置に格納できる。情報記憶装置は、例えば光ディスク、メモリカード、ＨＤＤ、或いは半導体メモリなどによって実現できる。半導体メモリは例えばＲＯＭである。画像処理システム１００は、情報記憶装置に格納されるプログラムに基づいて本実施形態の種々の処理を行う。即ち情報記憶装置は、画像処理システム１００の各部としてコンピュータを機能させるためのプログラムを記憶する。コンピュータは、入力装置、処理部、記憶部、出力部を備える装置である。具体的には本実施形態に係るプログラムは、図９（Ａ）及び図９（Ｂ）に示す各ステップを、コンピュータに実行させるためのプログラムである。

具体的には、本実施形態の手法は、コンピュータを機能させるプログラムに適用できる。当該プログラムは、画像の目標ボケ量を表す第１ボケ量を取得し、処理対象画像のボケ量である第２ボケ量を取得し、前記第１ボケ量及び前記第２ボケ量に基づいて、処理対象画像に付加するボケの度合いを示すボケ拡張量を決定する、ステップをコンピュータに実行させる。

２．第２の実施形態
第１の実施形態では、第１ボケ量が拡張画像のボケ量の最大値に対応する例について説明した。例えば取得部１２０は、参照画像のボケ量の最大値、或いはそれに類する情報を、第１ボケ量として取得する。

ただし第１ボケ量はこれに限定されない。本実施形態の取得部１２０は、複数の処理対象画像の第２ボケ量の分布を表す分布情報と、複数の参照画像のボケ量の分布を表す参照分布情報との差に基づいて、第１ボケ量を取得してもよい。以下、具体的に説明する。

画像処理システム１００の構成は、図２及び図３を用いて上述した例と同様である。また、画像処理システム１００における処理の流れも、図９（Ａ）、図９（Ｂ）、図１０を用いて上述した例と同様である。

本実施形態の取得部１２０は、処理対象画像及び参照画像からボケ量を算出することによって、図５（Ａ）、図５（Ｂ）に示す情報を取得する。取得部１２０は、図５（Ａ）に示す複数の第２ボケ量に基づいて、処理対象画像のボケ量の分布である分布情報を求める。分布情報は、ボケ量と、当該ボケ量である処理対象画像の枚数を対応付けた情報であり、例えばヒストグラムである。なお分布情報は、確率関数によって表される確率分布であってもよい。

また取得部１２０は、図５（Ｂ）に示す複数の参照画像から求められた複数のボケ量に基づいて、参照画像のボケ量の分布である参照分布情報を求める。参照分布情報は分布情報と同様に、ボケ量と、当該ボケ量である参照画像の枚数を対応付けた情報であり、例えばヒストグラムである。参照分布情報は、確率関数によって表される確率分布であってもよい。

図１３は、分布情報と参照分布情報の関係を例示する図である。図１３のＡ１が参照分布情報に対応し、Ａ２が分布情報に対応する。Ａ１は参照画像のボケ量の分布そのものであってもよいし、当該分布を所定倍した情報であってもよい。図１３のＡ１とＡ２の比較からわかるように、分布情報は、参照分布情報に比べてボケ量の多い画像が不足する傾向がみられる。例えば、ボケ量ｘ１の画像をｍ１枚増やすことによって、分布情報を参照分布情報に近づけることが可能になる。ボケ量ｘ２、ｘ３、ｘ４についても同様に、それぞれ画像枚数がｍ２、ｍ３、ｍ４枚増えることによって、分布情報が参照分布情報に近づく。

本実施形態の取得部１２０は、ボケ拡張量を決定するための情報として、第１ボケ量と、当該第１ボケ量の画像の必要枚数とを対応付けた情報を求める。

例えばボケ量ｘの画像がｍ枚不足している場合、決定部１３０は、ボケ量がｘ未満の処理対象画像のうち、ｍ枚の画像を拡張対象として決定する。そして、ｍ枚の処理対象画像の各画像について、当該処理対象画像の第２ボケ量と、第１ボケ量であるｘとに基づいて、ボケ拡張量を決定する。例えば第１ボケ量であるｘが５であり、処理対象画像の第２ボケ量が４の場合、決定部１３０は、第１ボケ量と第２ボケ量の差を算出し、ボケ拡張量を１とする。即ち決定部１３０は、第１の実施形態と同様に、目標となる第１ボケ量と、処理対象画像の第２ボケ量に基づいて、処理対象画像ごとにボケ拡張量を決定する。

本実施形態の決定部１３０は、上記ｘを変えながら、各ボケ量について必要な枚数の拡張画像を生成するための処理対象画像を選択する処理と、各処理対象画像に対して適用されるボケ拡張量を決定する処理を行う。この処理の結果として、例えば図６と同様に、処理対象画像に対して、少なくとも０を含む１つ以上のボケ拡張量が対応付けられた情報が取得される。なお本実施形態では、第１ボケ量の値ごとに、拡張画像の元画像となる処理対象画像が決定される。そのため、第２ボケ量が２の処理対象画像が、ボケ量５の拡張画像を生成する元画像として採用されたが、ボケ量４の拡張画像を生成する元画像として採用されないというケースも生じうる。換言すれば、第２ボケ量が２である処理対象画像にボケ拡張量として３が対応付けられた場合であっても、当該処理対象画像にそれよりも小さい２や１といったボケ拡張量が適用されないこともあり得る。各処理対象画像に対応付けられるボケ拡張量は、処理対象画像を選択する基準による。

ボケ量がｘの拡張画像をｍ枚生成する場合であって、ボケ量がｘ未満の処理対象画像の枚数がｓ枚である場合を考える。ここでｓはｓ＞ｍを満たす整数である。この場合、決定部１３０は、ボケ量がｘの画像を生成する画像拡張の対象となるｍ枚の画像を、ｓ枚の処理対象画像から選択する必要がある。この際、決定部１３０は、ボケ拡張量の総和が小さくなるように、拡張対象となる画像を決定してもよい。具体的には、決定部１３０は。ボケ量がｘ未満の処理対象画像のうち、ボケ量が大きい処理対象画像を優先して選択する。例えばボケ量５の拡張画像を生成する場合、ボケ量４の処理対象画像はボケ拡張量が１と小さいため選択される優先度が高く、ボケ量１の処理対象画像はボケ拡張量が４と大きいため選択される優先度が低い。このようにすれば、画像拡張におけるボケ拡張量を抑制することが可能になる。換言すれば、元画像に対する過剰な加工を抑制する事が可能になる。

ただし、拡張対象となる画像の選択手法はこれに限定されない。例えば上記の例とは逆に、ボケ拡張量が大きくなる画像が優先的に選択されてもよい。或いは、各ボケ量から均等に処理対象画像が選択されてもよい。或いは、ｓ枚の処理対象画像からランダムにｍ枚の処理対象画像が選択されてもよい。

また以上では、ボケ量ごとに、参照分布情報と分布情報の差分を求める手法について説明した。ただし本実施形態の手法は、分布情報を参照分布情報に近づけるものであればよく、具体的な処理はこれに限定されない。

例えば、拡張画像セットの分布を示す拡張分布情報と、参照分布情報の距離を小さくするように、各処理対象画像に適用されるボケ拡張量が決定されてもよい。拡張画像セットとは、各処理対象画像から生成された拡張画像を含む画像セットである。

２つの分布の間の距離は、例えば下式（１）に基づいて求める事が可能である。下式（１）におけるｐ（ｘ）は拡張分布情報に対応する確率関数であり、ｐ’（ｘ）は参照分布情報に対応する確率関数である。本実施形態では、ｘはボケ量を表し、ｐ（ｘ）は、拡張画像の総数に対する、ボケ量ｘの拡張画像の比率を表す。ｐ’（ｘ）は参照画像の総数に対する、ボケ量ｘの参照画像の比率を表す。決定部１３０は、下式（１）における距離が所与の距離閾値以下となるようなボケ拡張量を探索する処理を行う。下式（１）のｐ（ｘ）は、複数の処理対象画像について、それぞれ適用されるボケ拡張量を決定することによって、その値が決定される。１つの処理対象画像に関するボケ拡張量は、上述したように、少なくとも０を含む１以上の値の組み合わせである。例えば決定部１３０は、下式（１）のＬ２を目的関数とし、当該Ｌ２を最小にするような最適化問題を解くことによって、各処理対象画像に適用されるボケ拡張量を決定する処理を行う。

本実施形態の手法によれば、拡張画像セットのボケ量の分布を、参照画像セットのボケ量の分布に近づけることが可能になる。本実施形態の手法によって生成される拡張画像セットは、推論段階において取得される画像とボケ量の分布が類似するため、学習済モデルの推論精度を高くすることが可能になる。その際、本実施形態では処理対象画像のボケ量に基づく分布情報を処理に用いるため、分布情報を参照分布情報に近づけるためのボケ拡張量を適切に決定することが可能である。

３．第３の実施形態
第１の実施形態及び第２の実施形態では、処理対象画像からボケ量を算出する際に対象とする領域について触れていない。例えば、取得部１２０は、処理対象画像全体からエッジ抽出処理、及びボケ量算出処理を行うことによって、当該処理対象画像の第２ボケ量を取得する。ただし、ボケ量算出の対象となる領域が限定されてもよい。

図１４は、本実施形態の処理を説明するフローチャートである。図１４の処理が開始されると、まずステップＳ４０１において、処理対象画像取得部１１１は、処理対象画像を取得する。

ステップＳ４０２において、取得部１２０は、処理対象画像から注目領域を抽出する処理を行う。例えば処理対象画像取得部１１１は、図４（Ａ）を用いて上述したように、処理対象画像と、アノテーション結果を対応付けたデータを取得する。アノテーション結果は、注目領域に関する情報である。取得部１２０は、アノテーション結果を用いることによって、処理対象画像から注目領域を抽出する。

ステップＳ４０３において、取得部１２０は、抽出された注目領域のうち、鏡面反射のない領域を抽出する。鏡面反射がある領域では、白飛び等が発生するためエッジの情報を適切に検出することが難しい。ステップＳ４０３の処理を行うことによって、ボケ量算出に適さない領域を処理から除外することが可能になる。

ステップＳ４０４において、取得部１２０は、注目領域であって鏡面反射のない領域からエッジを抽出する処理を行う。ステップＳ４０５において、取得部１２０は、抽出したエッジに基づいて処理対象画像のボケ量を算出する。ここでのボケ量は、注目領域のボケ量に対応する。ステップＳ４０６において、取得部１２０は、各処理対象画像の注目領域から算出されたボケ量を、第２ボケ量として決定する。

ステップＳ４０７において、決定部１３０は、ステップＳ１０４で取得された第１ボケ量と、ステップＳ４０６で取得された第２ボケ量とに基づいて、ボケ拡張量を決定する。ステップＳ４０８において、拡張部１４０は、決定されたボケ拡張量に基づいて画像拡張を行うことによって、拡張画像セットを生成する。ステップＳ４０９において、学習部１５０は、拡張画像セットと、アノテーション結果を対応付けた訓練データに基づいて、機械学習を行う。学習部１５０は、機械学習の結果である学習済モデルを出力する。

図１５は、本実施形態の手法を説明する図である。上述したように、本実施形態の取得部１２０は、処理対象画像の注目領域に基づいて、第２ボケ量を求める。なおボケ量の算出領域は、注目領域に対応する領域であればよく、例えば図１５に示すように、注目領域を含む矩形領域である。例えば第２ボケ量の算出対象領域は、当該算出対象領域に占める注目領域の割合が所定閾値以上となる領域であり、算出対象領域に注目領域以外の領域が含まれてもよいし、注目領域の一部が算出対象領域に含まれなくてもよい。

このようにすれば、注目領域のボケ度合いを表す情報を、第２ボケ量として取得することが可能になる。そのため、決定部１３０で決定されるボケ拡張量は、注目領域を適切にボケさせる値となる。即ち、拡張画像における注目領域のボケ量が、第１ボケ量に基づく適切な範囲となるため、学習精度向上が可能になる。例えば、注目領域と、注目領域以外のボケ量が大きく異なる場合であっても、当該注目領域以外のボケ量による影響を抑制することが可能になる。

４．第４の実施形態
第３の実施形態では、第２ボケ量の算出対象領域を注目領域に対応する領域とする例について説明した。ただし、注目領域に基づく処理はこれに限定されない。例えば拡張部１４０は、決定部１３０が決定したボケ拡張量に基づいて、注目領域に対応する領域を対象として画像拡張を行ってもよい。例えば拡張部１４０は、ガウシアンフィルタ等のフィルタ処理を、注目領域の周辺領域を対象として実行する。

このようにすれば、処理対象画像のうち、注目領域以外の領域に対して過剰な加工を行うことを抑制できる。例えば注目領域は病変領域であり、それ以外の領域とは正常領域である。この場合、正常領域を画像拡張の対象から除外することによって、正常領域と病変領域の差異が少なくなることを抑制できるため、学習精度の向上が可能になる。

なお、第３の実施形態と第４の実施形態の手法は組み合わされてもよい。具体的には、取得部１２０は、注目領域に対応する領域に基づいて第２ボケ量を取得する。決定部１３０は、当該第２ボケ量に基づいて、ボケ拡張量を決定する。拡張部１４０は、決定されたボケ拡張量に基づいて、注目領域の周辺領域に対して画像拡張を行う。このようにすれば、注目領域を考慮した適切なボケ拡張量を決定すること、及び、注目領域以外の領域の加工を抑制することが可能になる。

以上、本実施形態およびその変形例について説明したが、本開示は、各実施形態やその変形例そのままに限定されるものではなく、実施段階では、要旨を逸脱しない範囲内で構成要素を変形して具体化することができる。また、上記した各実施形態や変形例に開示されている複数の構成要素を適宜組み合わせることができる。例えば、各実施形態や変形例に記載した全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態や変形例で説明した構成要素を適宜組み合わせてもよい。このように、本開示の主旨を逸脱しない範囲内において種々の変形や応用が可能である。また、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。

１００…画像処理システム、１１０…画像取得部、１１１…処理対象画像取得部、１１２…参照画像取得部、１２０…取得部、１３０…決定部、１４０…拡張部、１５０…学習部、３００…内視鏡システム、３１０…挿入部、３１１…対物光学系、３１２…撮像素子、３１４…照明レンズ、３１５…ライトガイド、３３０…処理装置、３３１…前処理部、３３２…制御部、３３３…記憶部、３３５…検出処理部、３３６…後処理部、３４０…表示部、３５０…光源装置、３５２…光源

Claims

画像の目標ボケ量を表す第１ボケ量を取得する取得部と、
処理対象画像に付加するボケの度合いを示すボケ拡張量を決定する決定部と、
を含み、
前記取得部は、
前記処理対象画像のボケ量である第２ボケ量を取得し、
前記決定部は、
前記第１ボケ量及び前記第２ボケ量に基づいて、前記ボケ拡張量を決定することを特徴とする画像処理システム。
請求項１において、
前記決定部は、
前記第２ボケ量の前記処理対象画像に対して、前記ボケ拡張量を用いてボケ拡張した拡張画像のボケ量が、前記第１ボケ量以下になるように、前記ボケ拡張量を決定することを特徴とする画像処理システム。
請求項１において、
前記取得部は、
複数の前記処理対象画像の前記第２ボケ量の分布を表す分布情報と、複数の参照画像のボケ量の分布を表す参照分布情報との差に基づいて、前記第１ボケ量を取得することを特徴とする画像処理システム。
請求項２において、
前記取得部は、
参照画像のボケ量を取得し、
取得した前記参照画像のボケ量に基づいて、前記第１ボケ量を取得することを特徴とする画像処理システム。
請求項２において、
前記決定部は、
取得した前記第２ボケ量が大きいほど小さくなる前記ボケ拡張量を決定することを特徴とする画像処理システム。
請求項１において、
前記決定部は、
取得した前記第２ボケ量が前記第１ボケ量以上の場合、前記ボケ拡張量を０に決定することを特徴とする画像処理システム。
請求項１において、
前記処理対象画像を取得する画像取得部をさらに含み、
前記取得部は、
前記画像取得部が取得した前記処理対象画像に基づいて、前記処理対象画像のボケ量を求める処理を行うことによって、前記第２ボケ量を取得することを特徴とする画像処理システム。
請求項７において、
前記取得部は、
前記処理対象画像の注目領域に基づいて、前記第２ボケ量を求めることを特徴とする画像処理システム。
請求項７において、
前記画像取得部は、参照画像を取得し、
前記取得部は、
前記画像取得部が取得した前記参照画像に基づいて、前記参照画像のボケ量を求める処理を行うことによって、前記第１ボケ量を取得することを特徴とする画像処理システム。
請求項１において、
前記処理対象画像に対して、決定した前記ボケ拡張量を用いてボケ拡張した拡張画像を生成する拡張部と、
前記拡張画像と、前記拡張画像における注目領域を特定する正解データとを対応付けた訓練データに基づく機械学習を行うことによって、検出対象画像から前記注目領域を検出する学習済モデルを生成する学習部と、
を含むことを特徴とする画像処理システム。
請求項１において、
前記処理対象画像は、内視鏡装置を用いて撮像された生体内画像であることを特徴とする画像処理システム。
検出対象画像を取得する画像取得部と、
学習済モデルを記憶する記憶部と、
前記学習済モデルに基づいて、前記検出対象画像から注目領域を検出する処理を行う処理部と、
を含み、
前記学習済モデルは、
画像の目標ボケ量を表す第１ボケ量と、元画像のボケ量を表す第２ボケ量とに基づいて、前記元画像に付加するボケの度合いを示すボケ拡張量が決定されており、前記元画像に対して前記ボケ拡張量を用いてボケ拡張した画像を拡張画像としたときに、前記拡張画像と、前記拡張画像における前記注目領域を特定する正解データとを対応付けた訓練データに基づく機械学習を行うことによって生成されていることを特徴とする画像処理システム。
画像の目標ボケ量を表す第１ボケ量を取得し、
処理対象画像のボケ量である第２ボケ量を取得し、
前記第１ボケ量及び前記第２ボケ量に基づいて、前記処理対象画像に付加するボケの度合いを示すボケ拡張量を決定する、
ことを特徴とする画像処理方法。
コンピュータを機能させるプログラムであって、
前記プログラムは、
画像の目標ボケ量を表す第１ボケ量を取得し、
処理対象画像のボケ量である第２ボケ量を取得し、
前記第１ボケ量及び前記第２ボケ量に基づいて、前記処理対象画像に付加するボケの度合いを示すボケ拡張量を決定する、
ステップを前記コンピュータに実行させることを特徴とするプログラム。