JP2021196995A - 画像処理システム、画像処理方法及びプログラム - Google Patents
画像処理システム、画像処理方法及びプログラム Download PDFInfo
- Publication number
- JP2021196995A JP2021196995A JP2020104315A JP2020104315A JP2021196995A JP 2021196995 A JP2021196995 A JP 2021196995A JP 2020104315 A JP2020104315 A JP 2020104315A JP 2020104315 A JP2020104315 A JP 2020104315A JP 2021196995 A JP2021196995 A JP 2021196995A
- Authority
- JP
- Japan
- Prior art keywords
- image
- blur
- amount
- expansion
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 168
- 238000003672 processing method Methods 0.000 title claims abstract description 7
- 238000000034 method Methods 0.000 claims description 98
- 230000008569 process Effects 0.000 claims description 63
- 238000009826 distribution Methods 0.000 claims description 48
- 238000010801 machine learning Methods 0.000 claims description 27
- 238000003860 storage Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 15
- 238000001727 in vivo Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 21
- 238000001514 detection method Methods 0.000 description 17
- 238000004364 calculation method Methods 0.000 description 13
- 238000013528 artificial neural network Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 238000013527 convolutional neural network Methods 0.000 description 11
- 238000007781 pre-processing Methods 0.000 description 11
- 238000012986 modification Methods 0.000 description 10
- 230000004048 modification Effects 0.000 description 10
- 230000003287 optical effect Effects 0.000 description 8
- 238000012805 post-processing Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000007796 conventional method Methods 0.000 description 6
- 238000005286 illumination Methods 0.000 description 6
- 238000003780 insertion Methods 0.000 description 6
- 230000037431 insertion Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000011176 pooling Methods 0.000 description 5
- 238000012937 correction Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 230000003902 lesion Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 235000003407 Sigesbeckia orientalis Nutrition 0.000 description 1
- 240000003801 Sigesbeckia orientalis Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 210000001035 gastrointestinal tract Anatomy 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 210000002429 large intestine Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 229910052724 xenon Inorganic materials 0.000 description 1
- FHNFHKCVQCLJFQ-UHFFFAOYSA-N xenon atom Chemical compound [Xe] FHNFHKCVQCLJFQ-UHFFFAOYSA-N 0.000 description 1
Images
Landscapes
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
【課題】 適切なボケ量の拡張画像を生成するための画像処理システム、画像処理方法及びプログラム等の提供。【解決手段】 画像処理システム100は、画像の目標ボケ量を表す第1ボケ量を取得する取得部120と、処理対象画像に付加するボケの度合いを示すボケ拡張量を決定する決定部130を含む。取得部120は、処理対象画像のボケ量である第2ボケ量を取得し、決定部130は、第1ボケ量及び第2ボケ量に基づいて、ボケ拡張量を決定する。【選択図】 図2
Description
本発明は、画像処理システム、画像処理方法及びプログラム等に関する。
従来、機械学習における学習精度を向上させるために、データ拡張を行う手法が知られている。例えば非特許文献1には、学習時に自然画像をボケ拡張することによって、腫瘍の分類精度を向上させる手法が開示されている。なおボケ拡張とは、画像に対して、ボケ量を変更するデータ拡張を行うことを表す。
Hussain Z, Gimenez F, Yi D, Rubin D. "Differential data augmentation techniques for medical imaging classification tasks" AMIA annual symposium proceedings 2017 (p. 979). American Medical Informatics Association
従来、機械学習に用いられる学習用の画像は、被写体に合焦した画像であることが想定される。しかし、学習用の画像を取得する環境によっては、ボケている画像が取得される場合がある。既にボケている画像をさらにボケ拡張した上で機械学習を行うと、学習精度が悪くなる場合がある。
本開示の一態様は、画像の目標ボケ量を表す第1ボケ量を取得する取得部と、処理対象画像に付加するボケの度合いを示すボケ拡張量を決定する決定部と、を含み、前記取得部は、前記処理対象画像のボケ量である第2ボケ量を取得し、前記決定部は、前記第1ボケ量及び前記第2ボケ量に基づいて、前記ボケ拡張量を決定する画像処理システムに関係する。
本開示の他の態様は、検出対象画像を取得する画像取得部と、学習済モデルを記憶する記憶部と、前記学習済モデルに基づいて、前記検出対象画像から注目領域を検出する処理を行う処理部と、を含み、前記学習済モデルは、画像の目標ボケ量を表す第1ボケ量と、元画像のボケ量を表す第2ボケ量とに基づいて、前記元画像に付加するボケの度合いを示すボケ拡張量が決定されており、前記元画像に対して前記ボケ拡張量を用いてボケ拡張した画像を拡張画像としたときに、前記拡張画像と、前記拡張画像における前記注目領域を特定する正解データとを対応付けた訓練データに基づく機械学習を行うことによって生成されている画像処理システムに関係する。
本開示のさらに他の態様は、画像の目標ボケ量を表す第1ボケ量を取得し、処理対象画像のボケ量である第2ボケ量を取得し、前記第1ボケ量及び前記第2ボケ量に基づいて、前記処理対象画像に付加するボケの度合いを示すボケ拡張量を決定する画像処理方法に関係する。
本開示のさらに他の態様は、コンピュータを機能させるプログラムであって、前記プログラムは、画像の目標ボケ量を表す第1ボケ量を取得し、処理対象画像のボケ量である第2ボケ量を取得し、前記第1ボケ量及び前記第2ボケ量に基づいて、前記処理対象画像に付加するボケの度合いを示すボケ拡張量を決定するステップを前記コンピュータに実行させるプログラムに関係する。
以下の開示において、提示された主題の異なる特徴を実施するための多くの異なる実施形態や実施例を提供する。もちろんこれらは単なる例であり、限定的であることを意図するものではない。さらに、本開示では、様々な例において参照番号および/または文字を反復している場合がある。このように反復するのは、簡潔明瞭にするためであり、それ自体が様々な実施形態および/または説明されている構成との間に関係があることを必要とするものではない。さらに、第1の要素が第2の要素に「接続されている」または「連結されている」と記述するとき、そのような記述は、第1の要素と第2の要素とが互いに直接的に接続または連結されている実施形態を含むとともに、第1の要素と第2の要素とが、その間に介在する1以上の他の要素を有して互いに間接的に接続または連結されている実施形態も含む。
1.第1の実施形態
非特許文献1等に開示されているように、機械学習において画像拡張(画像をデータ拡張すること)を適用する手法が広く知られている。自然画像に対して、画像拡張を適用することによって、拡張画像が生成される。このようにすれば、複数の拡張画像からなる拡張画像セットは、自然画像セットに比べて画像枚数が多く、且つ、多様な特性の画像を含む。そのため、拡張画像セットに基づいて機械学習を行うことによって、自然画像セットをそのまま用いる場合に比べて、学習精度の向上が可能になる。なお、画像拡張では、アフィン変換、ノイズ付加、ボケ拡張、明度変換等の種々の処理を用いることが可能であるが、本実施形態では、特にボケ拡張について考える。なお、ここでの自然画像とは、画像拡張に伴う加工が行われる前の画像である。
非特許文献1等に開示されているように、機械学習において画像拡張(画像をデータ拡張すること)を適用する手法が広く知られている。自然画像に対して、画像拡張を適用することによって、拡張画像が生成される。このようにすれば、複数の拡張画像からなる拡張画像セットは、自然画像セットに比べて画像枚数が多く、且つ、多様な特性の画像を含む。そのため、拡張画像セットに基づいて機械学習を行うことによって、自然画像セットをそのまま用いる場合に比べて、学習精度の向上が可能になる。なお、画像拡張では、アフィン変換、ノイズ付加、ボケ拡張、明度変換等の種々の処理を用いることが可能であるが、本実施形態では、特にボケ拡張について考える。なお、ここでの自然画像とは、画像拡張に伴う加工が行われる前の画像である。
従来、学習に用いられる自然画像は、被写体に合焦している画像が用いられることが多い。例えば、画像から注目領域を検出するタスクを実行する学習済モデルを生成する機械学習を行う場合、注目領域に合焦している自然画像が用いられる。そのため、従来手法において画像拡張としてボケ拡張を行う場合、画像拡張パラメータであるボケ拡張量の設定が容易であった。
以下、画像のボケ度合いを表す指標をボケ量と表記する。ボケ量は、後述するようにエッジ検出等を含む画像処理によって求めることが可能である。以下では説明の便宜上、ボケ量が0以上の整数値である例について説明する。値が小さいほどボケが少なく、例えばボケ量0は合焦状態を表す。ただし、ボケ量の値は少数であってもよいし、隣り合うボケ量の間隔がより細かくてもよい。例えばボケ量は連続的な数値データであってもよい。
ボケ拡張量とは、画像拡張によって(自然)画像に対して付加されるボケの度合いを表す情報である。以下では説明の便宜上、ボケ拡張量はボケ量の増加量を表す情報であって、0以上の整数値であるものとして説明する。また、ボケ拡張量は1刻みで調整可能であるものとして説明する。ただし、ボケ拡張量は後述するフィルタの特性によって決定されるものであり、具体的な値や間隔は種々の変形実施が可能である。なおボケ拡張量が0とは、元の(自然)画像を加工せずに維持することを表す。
画像拡張においては、画像拡張パラメータを適切に設定することが重要である。ボケに関する画像拡張パラメータとは、上記ボケ拡張量である。ボケ拡張量が大きすぎると、拡張画像におけるボケ量が過剰に大きくなってしまう。拡張画像の注目領域が過剰にボケた場合、注目領域と、注目領域とは異なる領域との区別が難しくなるため、学習精度が低下してしまう。例えば学習が収束しにくくなったり、機械学習によって生成された学習済モデルの推定精度が低くなったりする可能性がある。一方、ボケ拡張量が小さすぎると、ボケた状態で撮像された注目領域を適切に検出できなくなってしまう。
従来手法においては、上述したように、自然画像は合焦している画像が十分多いと考えられる。よって、ボケ拡張量の上限値を設定すれば、設定した当該上限値を多数の自然画像に対して共通に適用することが可能である。例えば学習済モデル生成後の推論段階において、ボケ量が0〜3程度の範囲にある注目領域を検出するタスクを実行する場合、ボケ拡張量の上限値は3に設定される。従来手法では、自然画像のボケ量は合焦状態に対応する0であるケースが多いため、例えば各自然画像に対してボケ拡張量が0、1、2、3の4通りの画像拡張を行うことによって、ボケ量が0〜3程度の範囲にある拡張画像セットを取得可能である。
しかし、従来手法では適切な画像拡張を行うことが難しい場合があることがわかった。例えば、注目領域を対象としてAF(Auto Focus)を実行することを目的として、内視鏡装置を用いて撮像された生体画像から注目領域を検出するタスクを実行する学習済モデルを生成する、という場合である。この場合の問題として、以下の2点が挙げられる。第1に、自然画像の多くが合焦しているという前提が成り立たない。第2に、検出すべき注目領域のボケ量が大きい。以下、詳細に説明する。
内視鏡装置を用いて撮像される生体画像とは、例えば管腔状の被写体の内部を撮像した画像である。ここでの管腔は、例えば大腸等の消化管である。症例画像として記憶されている生体画像は、注目領域に合焦している画像である蓋然性が高い。しかし、症例画像は、一般的な動物や風景等の画像に比べて数が少なく、画像拡張を考慮しても、機械学習に十分な枚数とすることは難しい。そのため、このケースにおける自然画像は、例えば診断や治療の際に撮像された動画像のうちの一部のフレームを、静止画像として抜き出すことによって取得される画像を含む。しかし、動画像から切り抜かれた静止画像は、被写体に合焦していないことも多い。理由としては、内視鏡装置を用いた観察では撮像部と被写体の位置関係の変化が大きいこと、管腔の軸に沿った方向を撮像すると撮像部に近い被写体と遠い被写体が同時に撮像されること、撮像素子の高解像度化に伴って被写界深度が狭くなっていること、等が考えられる。
この場合の自然画像には、もともとボケている画像が含まれてしまう。そのため、自然画像セットに対して、所与のボケ拡張量を用いて一律に画像拡張を適用した場合、過剰にボケた拡張画像が生成されてしまうおそれがある。一方、ボケ拡張量の上限値を小さくした場合、過剰なボケは抑制可能かもしれないが、拡張画像のボケ量が不足してしまう。
またAFは、フォーカスレンズを制御することによって、合焦していない被写体を合焦状態に移行させる手法である。AFによって注目領域に合焦させるためには、画像中に含まれる非合焦状態の注目領域を適切に検出できなくてはならない。即ち、AFを想定するケースでは、AF以外の場合に比べて、推論段階における注目領域のボケ量が大きくなる蓋然性が高い。例えば、コントラストAFでは、コントラスト値の勾配が認識可能であれば、フォーカスレンズを適切な方向へ駆動できる。そのため、コントラスト値の勾配が認識可能な程度のボケ量であれば、当該ボケ量の注目領域を検出することに対する要求がある。そのためには、ボケ拡張量を一律に抑制することは好ましくない。
以上のように、本開示で想定するケースでは、自然画像のボケ量のばらつきが大きく、且つ、ボケ量の大きい被写体を検出するためにボケ拡張量をある程度大きくする必要がある。結果として、自然画像セットに対して一律にボケ拡張を行った場合、過剰なボケが発生しやすく、学習精度が低下するおそれが大きい。
図1(A)は、従来手法の課題を説明する図である。上述したように、本開示では自然画像のボケ量は画像ごとにばらつく。例えば自然画像Aのボケ量は2であり、自然画像Bのボケ量は5であり、自然画像Cのボケ量は1である。AF等を考慮して、推論段階でボケ量5相当の注目領域を検出するタスクを実行することを考える。この場合、ボケ量0の自然画像からボケ量5の拡張画像を生成する必要があるため、ボケ拡張量の上限値は5となる。従来と同様に一律の画像拡張を行った場合、自然画像Aに基づいてボケ量7の拡張画像Aが生成される。同様に、自然画像Bに基づいてボケ量10の拡張画像Bが生成され、自然画像Cに基づいてボケ量6の拡張画像Cが生成される。これらの拡張画像は、過剰なボケ拡張が行われており、学習精度の低下につながる。
よって本開示では、自然画像のボケ量を評価し、評価結果に基づいてボケ拡張量を決定する。図1(B)は、本開示の処理を説明する図である。例えば、本開示の画像処理システム100は、ボケ量算出処理を行うことによって、自然画像A,B,Cのボケ量が、それぞれ2、5、1であると判定する。そして当該ボケ量に基づいて、自然画像ごとにボケ拡張量が決定される。具体的には、ボケ量5の拡張画像を生成する必要がある場合、すなわち、目標とするボケ量が5の場合、この目標ボケ量と自然画像のボケ量との差を算出することで自然画像のボケ拡張量を決定する。例えば図1(B)に示したように、自然画像Aのボケ拡張量は3に決定され、自然画像Bのボケ拡張量は0に決定され、自然画像Cのボケ拡張量は4に決定される。このようにすれば、図1(B)に示すように、拡張画像のボケ量が5以下に抑制されるため、拡張画像のボケ量が過剰となることを抑制できる。また、ボケ量が少ない自然画像Aや自然画像Cについては、相対的に大きなボケ拡張量が設定されるため、拡張画像のボケ量が不足することも抑制できる。
図2は、本実施形態の画像処理システム100の構成を示す図である。画像処理システム100は、取得部120と、決定部130を含む。ただし画像処理システム100は図2の構成に限定されず、他の構成を追加する等の変形実施が可能である。
取得部120は、画像の目標ボケ量を表す第1ボケ量を取得する。また取得部120は、処理対象画像のボケ量である第2ボケ量を取得する。ここでの処理対象画像とは、画像拡張の対象となる画像であって、上記の自然画像に対応する。なお取得部120は、画像からボケ量を算出する処理と、算出されたボケ量に基づいて第1ボケ量及び第2ボケ量を決定する処理と、を実行してもよい。この場合の取得部120は、これらの処理を実行するプロセッサによって実現される。ただし、画像処理システム100の外部の情報処理装置においてボケ量算出、及び、第1ボケ量及び第2ボケ量の決定処理が行われ、取得部120は、当該第1ボケ量及び第2ボケ量を取得してもよい。この場合の取得部120は、外部の情報処理装置との間の通信インターフェースを制御するプロセッサによって実現される。ここでの通信インターフェースは、インターネットやイントラネット等を経由した通信を行う通信チップ、通信デバイスであってもよい。或いは、通信インターフェースは、USB(Universal Serial Bus)等の他のインターフェースであってもよい。
決定部130は、第1ボケ量と第2ボケ量に基づいて、ボケ拡張量を決定する。本実施形態では、処理対象画像ごとに第2ボケ量がばらつくことを想定しているため、決定部130は、処理対象画像ごとにボケ拡張量を決定する。
本実施形態の手法によれば、処理対象画像のボケ量に応じて、処理対象画像ごとに目標ボケ量を満足するようなボケ拡張量が決定される。そのため、過剰なボケが付加されることや、ボケ量が不足することが抑制される。本実施形態の手法を用いて生成された拡張画像セットは、ボケに関して所望の特性を有する拡張画像の集合となる。結果として、当該拡張画像セットを用いた機械学習によって生成された学習済モデルの推定精度を高くすることが可能になる。
図3は、画像処理システム100の詳細な構成例である。画像処理システム100は、画像取得部110と、取得部120と、決定部130と、拡張部140と、学習部150を含む。ただし画像処理システム100は図3の構成に限定されず、一部の構成を省略したり、他の構成を追加する等の変形実施が可能である。例えば図2に示したように、画像取得部110、拡張部140、学習部150は省略可能である。
例えば図3に示す画像処理システム100は、拡張画像セットの生成と、当該拡張画像セットに基づく学習を実行する学習装置である。ただし学習部150は省略されてもよく、この場合、画像処理システム100は学習用の拡張画像セットを生成し、当該拡張画像セットを外部の学習装置に出力する。また画像処理システム100は、学習部150が生成した学習済モデルに基づく推論処理を行う不図示の推論部を含んでもよい。この場合、画像処理システム100は、学習装置と推論装置の両方として機能する。例えば本実施形態の画像処理システム100は、図12を用いて後述する内視鏡システム300に含まれてもよい。
なお本実施形態の画像処理システム100は、下記のハードウェアにより構成される。ハードウェアは、デジタル信号を処理する回路及びアナログ信号を処理する回路の少なくとも一方を含むことができる。例えば、ハードウェアは、回路基板に実装された1又は複数の回路装置や、1又は複数の回路素子で構成することができる。1又は複数の回路装置は例えばIC(Integrated Circuit)、FPGA(field-programmable gate array)等である。1又は複数の回路素子は例えば抵抗、キャパシター等である。
また画像処理システム100の各部は、下記のプロセッサにより実現されてもよい。画像処理システム100は、情報を記憶するメモリと、メモリに記憶された情報に基づいて動作するプロセッサと、を含む。情報は、例えばプログラムと各種のデータ等である。プロセッサは、ハードウェアを含む。プロセッサは、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)等、各種のプロセッサを用いることが可能である。メモリは、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)などの半導体メモリであってもよいし、レジスタであってもよいし、HDD(Hard Disk Drive)等の磁気記憶装置であってもよいし、光学ディスク装置等の光学式記憶装置であってもよい。例えば、メモリはコンピュータにより読み取り可能な命令を格納しており、当該命令がプロセッサにより実行されることで、画像処理システム100の各部の機能が処理として実現されることになる。画像処理システム100の各部とは、例えば図3に示した画像取得部110、取得部120、決定部130、拡張部140、学習部150である。ここでの命令は、プログラムを構成する命令セットの命令でもよいし、プロセッサのハードウェア回路に対して動作を指示する命令であってもよい。さらに、画像処理システム100の各部の全部または一部をクラウドコンピューティングで実現し、後述する各処理をクラウドコンピューティング上で行うこともできる。
画像取得部110は、画像拡張に用いる画像を取得する。画像取得部110は、例えば画像取得用のインターフェースを制御するプロセッサにより実現される。画像取得部110は、処理対象画像取得部111と、参照画像取得部112を含む。
処理対象画像取得部111は、複数の処理対象画像を取得する。処理対象画像は、上述したように、画像拡張の対象となる画像である。処理対象画像は、例えば内視鏡を用いて撮像された生体内画像である。
参照画像取得部112は、参照画像を取得する。参照画像は、第1ボケ量の算出に用いられる画像である。例えば参照画像は、推論段階において取得されると想定される画像である。例えば本実施形態の手法を用いて生成された学習済モデルが、図12に示す内視鏡システム300で利用される場合、参照画像は、内視鏡システム300と同様の機種を用いて、推論段階と同じ波長帯域の光源352によって、推論段階で観察する部位と同じ部位を撮像した画像群である。ただし、参照画像は推論段階で取得されるであろう画像群と類似する特性を有すればよく、内視鏡システム300の機種等については厳密に一致する必要はない。
図4(A)は、処理対象画像取得部111が取得するデータの例である。例えば処理対象画像取得部111は、処理対象画像を一意に識別するIDと、処理対象画像と、アノテーション結果と、が対応付けられたデータを複数取得する。本開示における処理対象画像は、機械学習の対象となる画像である。機械学習は、例えば教師あり学習であるため、各処理対象画像には、正解データが対応付けられる。アノテーションとは、画像に対してメタデータを付加することを表し、アノテーション結果とはアノテーションによって付加されたデータを表す。生体内画像に対するアノテーションは、例えば医師等の専門的な知識を有するユーザによって行われる。推論段階において画像から注目領域を検出するタスクを行う場合、アノテーション結果とは処理対象画像の注目領域に関する情報である。アノテーション結果は、例えば注目領域の有無、位置、サイズ、形状等を表す情報である。アノテーション結果は、画像における座標値等の情報であってもよいし、注目領域を表すマスク画像データであってもよい。また注目領域が複数の種類に分類可能である場合、アノテーション結果は分類結果を表す情報を含んでもよい。
なお本実施形態における注目領域とは、ユーザにとって観察の優先順位が他の領域よりも相対的に高い領域である。ユーザが診断や治療を行う医者である場合、注目領域は、例えば病変部を写した領域に対応する。ただし、医者が観察したいと欲した対象が泡や残渣であれば、注目領域は、その泡部分や残渣部分を写した領域であってもよい。即ち、ユーザが注目すべき対象は観察目的によって異なるが、その観察に際し、ユーザにとって観察の優先順位が他の領域よりも相対的に高い領域が注目領域となる。
図4(B)は、参照画像取得部112が取得するデータの例である。例えば参照画像取得部112は、参照画像を一意に識別するIDと、参照画像と、が対応付けられたデータを複数取得する。
取得部120は、参照画像に基づく第1ボケ量と、処理対象画像に基づく第2ボケ量を取得する。取得部120は、複数の処理対象画像のそれぞれからボケ量を算出する処理を行う。まず取得部120は、処理対象画像からエッジを抽出する処理を行う。エッジ抽出は、ソーベル法等の種々の手法が知られており、本実施形態ではそれらの手法を広く適用可能である。次に取得部120は、抽出したエッジに基づいて、処理対象画像のボケ量を求める。例えば取得部120は、エッジにおける輝度勾配を求め、当該輝度勾配に反比例する指標値を求める。取得部120は、各方向のエッジについて求められた複数の指標値に基づいて、処理対象画像のボケ量を求める。また取得部120は、各参照画像についても同様に、ボケ量を算出する。
図5(A)、図5(B)は、取得部120の処理によって取得されるデータの例である。図5(A)に示すように、各処理対象画像について求められたボケ量が、当該処理対象画像の第2ボケ量となる。即ち、処理対象画像に関しては、IDと、処理対象画像と、アノテーション結果と、第2ボケ量と、が対応付けられた情報が取得される。例えばID1の処理対象画像の第2ボケ量は2であり、ID2の処理対象画像の第2ボケ量は5であり、ID3の処理対象画像の第2ボケ量は1である。
図5(B)に示すように、参照画像についても、各参照画像に基づいてボケ量が算出される。結果として、IDと、参照画像と、当該参照画像のボケ量と、が対応付けられた情報が取得される。取得部120は、参照画像のボケ量に基づいて、目標ボケ量である第1ボケ量を決定する処理を行う。
本実施形態における第1ボケ量は、拡張画像におけるボケ量の上限値に相当する情報である。換言すれば、推論段階において、第1ボケ量までのボケ度合いの注目領域は検出する必要がある、という要求から、第1ボケ量が決定される。例えば取得部120は、図5(B)に示す複数の参照画像のボケ量の最大値を、第1ボケ量として決定する。或いは取得部120は、参照画像のボケ量の分布に基づいて外れ値を除外した上で最大値を求め、当該最大値を第1ボケ量としてもよい。その他、第1ボケ量の具体的な決定処理は種々の変形実施が可能である。以下では、取得部120が取得した第1ボケ量が5である例について説明する。
決定部130は、取得部120が取得した第1ボケ量及び第2ボケ量に基づいてボケ拡張量を決定する処理を行う。具体的には、決定部130は、ボケ拡張量を適用したボケ拡張後の拡張画像のボケ量が、第1ボケ量を超えないようにボケ拡張量を決定する。
図6は、決定部130の処理によって取得されるデータの例である。例えば決定部130は、第2ボケ量が2であるID1の処理対象画像について、ボケ拡張量を3以下に決定する。ボケ拡張量を3以下とすることによって、ID1の処理対象画像に基づいて生成される拡張画像のボケ量が、第1ボケ量である5を超えることを抑制できる。例えばボケ拡張量が1刻みで変更可能である場合、決定部130は、ID1の処理対象画像に適用するボケ拡張量として、0、1、2、3の4つを決定する。
また決定部130は、第2ボケ量が5であるID2の処理対象画像について、第1ボケ量である5との差分に基づいて、ボケ拡張量を0に決定する。また決定部130は、第2ボケ量が1であるID3の処理対象画像について、第1ボケ量である5との差分に基づいて、ボケ拡張量を4以下に決定する。例えば決定部130は、ID3の処理対象画像に適用するボケ拡張量として、0、1、2、3、4の5つを決定する。
なお、以上では第1ボケ量を超えない範囲であれば、適用可能なすべてのボケ拡張量が採用される例を説明した。例えば、ID1の処理対象画像に示したように、第1ボケ量が5であり、第2ボケ量が2である場合、ボケ拡張量として3だけでなく、2や1も採用される。ただし、第1ボケ量を超えない範囲のボケ拡張量のうち、一部のボケ拡張量が省略されてもよい。
拡張部140は、決定部130によって決定されたボケ拡張量に基づいて、画像拡張を行うことによって拡張画像セットを生成する。なおここでは、便宜上、ボケ拡張量が0の画像も拡張画像に含まれるものとする。ボケ拡張量が0の画像とは、処理対象画像そのものである。ただし、ボケ拡張量が0より大きい画像を拡張画像と定義し、当該拡張画像と元の処理対象画像とを含む画像セットを拡張画像セットと考えてもよい。
拡張部140は、例えば所与のフィルタ処理を行うことによって、画像拡張を行う。ここでのフィルタは、ガウシアンフィルタであってもよいし、移動平均フィルタであってもよいし、エッジ保存等の選択的ローパスフィルタであってもよい。またここでのフィルタは、ピクセル化を行うフィルタであってもよいし、他の平滑化フィルタであってもよい。この際、フィルタ特性を変更することによって、ボケ量の増加度合いを調整できる。ここでのフィルタ特性は、フィルタサイズやフィルタ係数等を含む。例えば、拡張部140は、特性の異なるn通りのフィルタ処理のいずれかを選択することによって、n通りのボケ拡張量を適用した画像拡張を実行可能である。
図7は、拡張部140の処理によって取得されるデータの例であり、具体的には拡張画像セットを含む訓練データを表す図である。例えば拡張部140は、拡張画像を一意に識別するIDと、拡張画像と、当該拡張画像に対応するアノテーション結果と、が対応付けられたデータを複数取得する。
例えば図6に示したように、ID1の処理対象画像に適用するボケ拡張量として、0、1、2、3の4つが決定されている。この場合、拡張部140は、ID1の処理対象画像に対して、ボケ拡張量0の画像拡張を行うことによって、ID1の拡張画像を生成する。ID1の拡張画像は、ID1の処理対象画像そのものである。同様に、拡張部140は、ID1の処理対象画像に対して、ボケ拡張量1、2、3の画像拡張を行うことによって、ID2、3、4の拡張画像を生成する。ID1〜4の拡張画像は、いずれも元画像がID1の処理対象画像であるため、当該処理対象画像のアノテーション結果が対応付けられる。
また図6に示したように、ID2の処理対象画像に適用するボケ拡張量として、0が決定されている。この場合、拡張部140は、ID2の処理対象画像に対して、ボケ拡張量0の画像拡張を行うことによって、ID5の拡張画像を生成する。ID5の拡張画像は、ID2の処理対象画像そのものである。ID5の拡張画像には、ID2の処理対象画像のアノテーション結果が対応付けられる。
これ以降についても同様であり、拡張部140は、決定部130において決定されたボケ拡張量に基づいて、画像拡張を行う。
学習部150は、拡張部140によって生成された拡張画像セットに基づいて、機械学習を行う。以下、機械学習の概要について説明する。以下では、ニューラルネットワークを用いた機械学習について説明するが、本実施形態の手法はこれに限定されない。本実施形態においては、例えばSVM(support vector machine)等の他のモデルを用いた機械学習が行われてもよいし、ニューラルネットワークやSVM等の種々の手法を発展させた手法を用いた機械学習が行われてもよい。
図8(A)は、ニューラルネットワークを説明する模式図である。ニューラルネットワークは、データが入力される入力層と、入力層からの出力に基づいて演算を行う中間層と、中間層からの出力に基づいてデータを出力する出力層を有する。図8(A)においては、中間層が2層であるネットワークを例示するが、中間層は1層であってもよいし、3層以上であってもよい。また各層に含まれるノードの数は図8(A)の例に限定されず、種々の変形実施が可能である。なお精度を考慮すれば、本実施形態の学習は多層のニューラルネットワークを用いたディープラーニングを用いることが望ましい。ここでの多層とは、狭義には4層以上である。
図8(A)に示すように、所与の層に含まれるノードは、隣接する層のノードと結合される。各結合には重み付け係数が設定されている。各ノードは、前段のノードの出力と重み付け係数を乗算し、乗算結果の合計値を求める。さらに各ノードは、合計値に対してバイアスを加算し、加算結果に活性化関数を適用することによって当該ノードの出力を求める。この処理を、入力層から出力層へ向けて順次実行することによって、ニューラルネットワークの出力が求められる。なお活性化関数としては、シグモイド関数やReLU関数等の種々の関数が知られており、本実施形態ではそれらを広く適用可能である。
ニューラルネットワークにおける学習は、適切な重み付け係数を決定する処理である。ここでの重み付け係数は、バイアスを含む。具体的には、学習部150は、訓練データのうちの入力データをニューラルネットワークに入力し、そのときの重み付け係数を用いた順方向の演算を行うことによって出力を求める。学習部150は、当該出力と、訓練データのうちの正解データとに基づいて、誤差関数を演算する。そして誤差関数を小さくするように、重み付け係数を更新する。重み付け係数の更新では、例えば出力層から入力層に向かって重み付け係数を更新していく誤差逆伝播法を利用可能である。
またニューラルネットワークは例えばCNN(Convolutional Neural Network)であってもよい。図8(B)は、CNNを説明する模式図である。CNNは、畳み込み演算を行う畳み込み層とプーリング層を含む。畳み込み層は、フィルタ処理を行う層である。プーリング層は、縦方向、横方向のサイズを縮小するプーリング演算を行う層である。図8(B)に示す例は、畳み込み層及びプーリング層による演算を複数回行った後、全結合層による演算を行うことによって出力を求めるネットワークである。全結合層とは、所与の層のノードに対して前の層の全てのノードが結合される場合の演算処理を行う層であり、図8(A)を用いて上述した各層の演算に対応する。なお、図8(B)では不図示であるが、CNNを用いる場合も図8(A)と同様に活性化関数による演算処理が行われる。CNNは種々の構成が知られており、本実施形態においてはそれらを広く適用可能である。例えば本実施形態では、Faster R-CNN、YOLO V2等、種々の構成のCNNを利用できる。
CNNを用いる場合も、処理の手順は図8(A)と同様である。即ち、学習部150は、訓練データのうちの入力データをCNNに入力し、そのときのフィルタ特性を用いたフィルタ処理やプーリング演算を行うことによって出力を求める。当該出力と、正解データとに基づいて誤差関数が算出され、当該誤差関数を小さくするように、フィルタ特性を含む重み付け係数の更新が行われる。CNNの重み付け係数を更新する際にも、例えば誤差逆伝播法を利用可能である。
本実施形態における訓練データは、図7に示したとおりであり、入力データが拡張画像であり、正解データがアノテーション結果である。即ち、本実施形態におけるニューラルネットワークは、画像を入力として受け付け、当該画像に基づく順方向の演算を行うことによって、注目領域に関する情報を出力する。
図9(A)、図9(B)は、本実施形態の処理を説明するフローチャートである。図9(A)の処理が開始されると、まずステップS101において、参照画像取得部112は、参照画像を取得する。ステップS102において、取得部120は、参照画像のエッジを抽出する処理を行う。ステップS103において、取得部120は、抽出したエッジに基づいて参照画像のボケ量を算出する。ステップS104において、取得部120は、各参照画像から算出されたボケ量に基づいて、第1ボケ量を決定する。
図9(B)の処理が開始されると、まずステップS201において、処理対象画像取得部111は、処理対象画像を取得する。ステップS202において、取得部120は、処理対象画像のエッジを抽出する処理を行う。ステップS203において、取得部120は、抽出したエッジに基づいて処理対象画像のボケ量を算出する。ステップS204において、取得部120は、各処理対象画像から算出されたボケ量を、第2ボケ量として決定する。
ステップS205において、決定部130は、ステップS104で取得された第1ボケ量と、ステップS204で取得された第2ボケ量とに基づいて、ボケ拡張量を決定する。ステップS206において、拡張部140は、決定されたボケ拡張量に基づいて画像拡張を行うことによって、拡張画像セットを生成する。ステップS207において、学習部150は、拡張画像セットと、アノテーション結果を対応付けた訓練データに基づいて、機械学習を行う。学習部150は、機械学習の結果である学習済モデルを出力する。
図10は、ステップS207の学習処理を説明するフローチャートである。まずステップS301及びステップS302において、学習部150は、1つの拡張画像と、当該拡張用画像に対応付けられたアノテーション結果を取得する。例えば学習部150は、図7に示すデータのうちの1行分のデータを読み出す処理を行う。
ステップS303において、学習部150は、誤差関数を求める処理を行う。具体的には、学習部150は、拡張画像をニューラルネットワークに入力し、その際の重み付け係数に基づいて順方向の演算を行う。そして学習部150は、演算結果と、アノテーション結果の比較処理に基づいて誤差関数を求める。さらにステップS303において、学習部150は、誤差関数を小さくするように重み付け係数を更新する処理を行う。この処理は、上述したように誤差逆伝播法等を利用可能である。ステップS301〜S303の処理が、1つの訓練データに基づく1回の学習処理に対応する。
ステップS304において、学習部150は学習処理を終了するか否かを判定する。例えば学習部150は、ステップS301〜S303の処理を所定回数行った場合に学習処理を終了してもよい。或いは、画像処理システム100は、多数の訓練データの一部を検証データとして保持していてもよい。検証データは、学習結果の精度を確認するためのデータであり、重み付け係数の更新には使用されないデータである。学習部150は、検証データを用いた推定処理の正解率が所定閾値を超えた場合に、学習処理を終了してもよい。
ステップS304でNoの場合、ステップS301に戻り、次の訓練データに基づく学習処理が継続される。ステップS304でYesの場合、学習処理が終了される。学習部150は、生成した学習済モデルの情報を出力する。学習済モデルの情報は、例えば図12を用いて後述する内視鏡システム300の記憶部333に記憶される。なお、学習処理の流れは図10に限定されない。機械学習においてはバッチ学習、ミニバッチ学習等の種々の手法が知られており、本実施形態ではこれらを広く適用可能である。
以上で説明したように、本実施形態の手法では、処理対象画像のボケ量である第2ボケ量を評価し、評価結果に基づいてボケ拡張量が決定される。これにより、複数の処理対象画像のボケ量のばらつきが大きい場合であっても、画像拡張の結果である拡張画像セットのボケ量を適切な範囲とすることが可能になる。
また本実施形態の決定部130は、第2ボケ量の処理対象画像に対して、ボケ拡張量を用いてボケ拡張した拡張画像のボケ量が、第1ボケ量以下になるように、ボケ拡張量を決定してもよい。このようにすれば、拡張画像のボケ量が第1ボケ量以下に抑制されるため、ボケ量が過剰な拡張画像が生成されることを抑制できる。結果として、拡張画像を用いた学習精度の向上が可能になる。
また本実施形態の取得部120は、図5(B)に示したように、参照画像のボケ量を取得し、取得した参照画像のボケ量に基づいて、第1ボケ量を取得してもよい。本実施形態における第1ボケ量は、具体的には拡張画像のボケ量の上限である。このようにすれば、参照画像に基づく適切な第1ボケ量を取得することが可能になる。上述したように、参照画像として推論段階で取得される画像と類似する特性の画像を取得しておくことによって、学習精度向上が可能になる。
また本実施形態の決定部130は、取得した第2ボケ量が大きいほど小さくなるボケ拡張量を決定してもよい。例えば図6に示したように、ボケ拡張量の最大値は、処理対象画像の第2ボケ量が大きいほど小さくなる。このようにすれば、ボケ量が過剰な拡張画像が生成されることを抑制できる。
また本実施形態の決定部130は、取得した第2ボケ量が第1ボケ量以上の場合、ボケ拡張量を0に決定する。例えば図6に示すID2の処理対象画像では、第2ボケ量と第1ボケ量がともに5であるため、ボケ拡張量の最大値が0に決定される。このようにすれば、ボケ量が過剰な拡張画像が生成されることを抑制できる。
また本実施形態の画像処理システム100は、図3に示すように、処理対象画像を取得する画像取得部110をさらに含んでもよい。ここでの画像取得部110は、狭義には処理対象画像取得部111である。取得部120は、画像取得部110が取得した処理対象画像に基づいて、処理対象画像のボケ量を求める処理を行うことによって、第2ボケ量を取得する。
このようにすれば、画像処理システム100において、処理対象画像を取得すること、及び当該処理対象画像に対する画像処理を行うことによって、第2ボケ量を求めることが可能になる。
また画像取得部110は、参照画像を取得してもよい。ここでの画像取得部110は、狭義には参照画像取得部112である。取得部120は、画像取得部110が取得した参照画像に基づいて、参照画像のボケ量を求める処理を行うことによって、第1ボケ量を取得する。
このようにすれば、画像処理システム100において、参照画像を取得すること、及び当該参照画像に対する画像処理を行うことによって、第1ボケ量を求めることが可能になる。上述したように、本実施形態では、例えば複数の参照画像から求められる複数のボケ量の統計量に基づいて第1ボケ量が求められる。なお、ボケ量を算出する処理は処理対象画像と参照画像で共通化が可能であるため、効率的な構成により本実施形態の画像処理システム100を実現できる。
また本実施形態の画像処理システム100は、図3に示したように、拡張部140と、学習部150を含んでもよい。拡張部140は、処理対象画像に対して、決定したボケ拡張量を用いてボケ拡張した拡張画像を生成する。学習部150は、拡張画像と、拡張画像における注目領域を特定する正解データとを対応付けたデータを含む訓練データに基づく機械学習を行うことによって、検出対象画像から注目領域を検出する学習済モデルを生成する。
このようにすれば、画像処理システム100において、画像拡張を行うこと、及び、当該画像拡張によって取得された拡張画像セットに基づく機械学習を行うことが可能になる。換言すれば、本実施形態の画像処理システム100は、学習装置として機能することが可能である。
また本実施形態における処理対象画像は、内視鏡装置を用いて撮像された生体内画像である。上述したように、内視鏡装置を用いた生体内画像を対象とした場合、学習用の画像として合焦している画像を大量に取得することが難しい。即ち、学習用に収集した画像のボケ量がばらつく蓋然性が高い。その点、本実施形態の手法では処理対象画像のボケ量を評価した上で画像拡張が行われるため、生体内画像を対象とした場合であっても適切な画像拡張を実行する事が可能である。
また本実施形態の手法は、上記の手法に基づいて生成された学習済モデルを用いて推論処理を行う画像処理システム200に適用できる。ここでの画像処理システム200は、推論装置に対応する。
図11は、推論装置である画像処理システム200の構成を示す図である。画像処理システム200は、検出対象画像を取得する画像取得部210と、学習済モデルを記憶する記憶部220と、学習済モデルに基づいて、検出対象画像から注目領域を検出する処理を行う処理部230と、を含む。
学習済モデルは、元画像に対してボケ拡張量を用いてボケ拡張した画像である拡張画像と、拡張画像における注目領域を特定する正解データとを対応付けたデータを含む訓練データに基づく機械学習を行うことによって生成されている。上述したように、ここでのボケ拡張量は、元画像に付加するボケの度合いを示す情報であって、画像の目標ボケ量を表す第1ボケ量と、元画像のボケ量を表す第2ボケ量とに基づいて決定されている。推論装置である画像処理システム200は、例えば内視鏡システム300に含まれる。
図12は、推論装置に対応する内視鏡システム300の構成を説明する図である。内視鏡システム300は、挿入部310と、処理装置330と、表示部340と、光源装置350を含む。ただし、内視鏡システム300の構成は図12に限定されず、一部の構成を省略したり、他の構成を追加する等の種々の変形実施が可能である。
光源装置350は、照明光を発光する光源352を含む。光源352は、キセノン光源であってもよいし、LED(light emitting diode)であってもよいし、レーザー光源であってもよい。また光源352は他の光源であってもよく、発光方式は限定されない。
挿入部310は、対物光学系311、撮像素子312、照明レンズ314、ライトガイド315を含む。ライトガイド315は、光源352からの照明光を、挿入部310の先端まで導光する。照明レンズ314は、ライトガイド315によって導光された照明光を被写体に照射する。対物光学系311は、被写体から反射した反射光を、被写体像として結像する。対物光学系311は、例えばフォーカスレンズを含み、フォーカスレンズの位置に応じて被写体像が結像する位置を変更可能である。例えば挿入部310は、制御部332からの制御に基づいてフォーカスレンズを駆動する不図示のアクチュエータを含む。制御部332は、AF(AutoFocus)制御を行う。
撮像素子312は、対物光学系311を経由した被写体からの光を受光する。撮像素子312はモノクロセンサであってもよいし、カラーフィルタを備えた素子であってもよい。カラーフィルタは、広く知られたベイヤフィルタであってもよいし、補色フィルタであってもよいし、他のフィルタであってもよい。補色フィルタとは、シアン、マゼンタ及びイエローの各色フィルタを含むフィルタである。
処理装置330は、画像処理やシステム全体の制御を行う。処理装置330が、推論装置である画像処理システム200に対応する。処理装置330は、前処理部331、制御部332、記憶部333、検出処理部335、後処理部336を含む。例えば、前処理部331が、画像処理システム200の画像取得部210に対応する。検出処理部335が、画像処理システム200の処理部230に対応する。記憶部333が、画像処理システム200の記憶部220に対応する。また、制御部332、後処理部336等が処理部230に含まれてもよい。
処理装置330は、例えばコネクタを経由して挿入部310と接続される1つの装置であるが、これには限定されない。例えば、処理装置330の一部又は全部の構成は、ネットワークを介して接続可能なPC(Personal Computer)やサーバシステム等の他の情報処理装置によって構築されてもよい。例えば、処理装置330はクラウドコンピューティングによって実現されてもよい。ここでのネットワークは、イントラネット等のプライベートネットワークであってもよいし、インターネット等の公衆通信網であってもよい。またネットワークは有線、無線を問わない。
前処理部331は、撮像素子312から順次出力されるアナログ信号をデジタルの画像に変換するA/D変換と、A/D変換後の画像データに対する各種補正処理を行う。なお、撮像素子312にA/D変換回路が設けられ、前処理部331におけるA/D変換が省略されてもよい。ここでの補正処理とは、例えばカラーマトリクス補正処理、構造強調処理、ノイズ低減処理、AGC(automatic gain control)等を含む。また前処理部331は、ホワイトバランス処理等の他の補正処理を行ってもよい。前処理部331は、処理後の画像を、検出対象画像として検出処理部335に出力する。また前処理部331は、処理後の画像を後処理部336に出力する。
検出処理部335は、検出対象画像から注目領域を検出する検出処理を行う。また検出処理部335は、検出された注目領域の確からしさを表す推定確率を出力する。例えば検出処理部335は、記憶部333に記憶される学習済モデルの情報に従って動作することによって、検出処理を行う。
後処理部336は、前処理部331、検出処理部335の出力に基づく後処理を行い、後処理後の画像を表示部340に出力する。例えば後処理部336は、前処理部331からの画像に対して、検出処理部335における検出結果を付加し、付加後の画像を表示する処理を行ってもよい。
制御部332は、撮像素子312、前処理部331、検出処理部335、後処理部336、光源352と互いに接続され、各部を制御する。
表示部340は、例えば液晶ディスプレイやEL(Electro-Luminescence)ディスプレイ等である。
また本実施形態の手法は、以下の各ステップを実行する画像処理方法に適用できる。画像処理方法は、画像の目標ボケ量を表す第1ボケ量を取得し、処理対象画像のボケ量である第2ボケ量を取得し、第1ボケ量及び第2ボケ量に基づいて、処理対象画像に付加するボケの度合いを示すボケ拡張量を決定する。
また、本実施形態の画像処理システム100の各部は、プロセッサ上で動作するプログラムのモジュールとして実現されてもよい。例えば、取得部120は、第1ボケ量及び第2ボケ量を算出する算出モジュールとして実現されてもよいし、第1ボケ量及び第2ボケ量を取得するためのインターフェースを制御する制御モジュールとして実現されてもよい。決定部130は、ボケ拡張量を決定する処理を行う処理モジュールとして実現される。
また、本実施形態の画像処理システム100が行う処理を実現するプログラムは、例えばコンピュータによって読み取り可能な媒体である情報記憶装置に格納できる。情報記憶装置は、例えば光ディスク、メモリカード、HDD、或いは半導体メモリなどによって実現できる。半導体メモリは例えばROMである。画像処理システム100は、情報記憶装置に格納されるプログラムに基づいて本実施形態の種々の処理を行う。即ち情報記憶装置は、画像処理システム100の各部としてコンピュータを機能させるためのプログラムを記憶する。コンピュータは、入力装置、処理部、記憶部、出力部を備える装置である。具体的には本実施形態に係るプログラムは、図9(A)及び図9(B)に示す各ステップを、コンピュータに実行させるためのプログラムである。
具体的には、本実施形態の手法は、コンピュータを機能させるプログラムに適用できる。当該プログラムは、画像の目標ボケ量を表す第1ボケ量を取得し、処理対象画像のボケ量である第2ボケ量を取得し、前記第1ボケ量及び前記第2ボケ量に基づいて、処理対象画像に付加するボケの度合いを示すボケ拡張量を決定する、ステップをコンピュータに実行させる。
2.第2の実施形態
第1の実施形態では、第1ボケ量が拡張画像のボケ量の最大値に対応する例について説明した。例えば取得部120は、参照画像のボケ量の最大値、或いはそれに類する情報を、第1ボケ量として取得する。
第1の実施形態では、第1ボケ量が拡張画像のボケ量の最大値に対応する例について説明した。例えば取得部120は、参照画像のボケ量の最大値、或いはそれに類する情報を、第1ボケ量として取得する。
ただし第1ボケ量はこれに限定されない。本実施形態の取得部120は、複数の処理対象画像の第2ボケ量の分布を表す分布情報と、複数の参照画像のボケ量の分布を表す参照分布情報との差に基づいて、第1ボケ量を取得してもよい。以下、具体的に説明する。
画像処理システム100の構成は、図2及び図3を用いて上述した例と同様である。また、画像処理システム100における処理の流れも、図9(A)、図9(B)、図10を用いて上述した例と同様である。
本実施形態の取得部120は、処理対象画像及び参照画像からボケ量を算出することによって、図5(A)、図5(B)に示す情報を取得する。取得部120は、図5(A)に示す複数の第2ボケ量に基づいて、処理対象画像のボケ量の分布である分布情報を求める。分布情報は、ボケ量と、当該ボケ量である処理対象画像の枚数を対応付けた情報であり、例えばヒストグラムである。なお分布情報は、確率関数によって表される確率分布であってもよい。
また取得部120は、図5(B)に示す複数の参照画像から求められた複数のボケ量に基づいて、参照画像のボケ量の分布である参照分布情報を求める。参照分布情報は分布情報と同様に、ボケ量と、当該ボケ量である参照画像の枚数を対応付けた情報であり、例えばヒストグラムである。参照分布情報は、確率関数によって表される確率分布であってもよい。
図13は、分布情報と参照分布情報の関係を例示する図である。図13のA1が参照分布情報に対応し、A2が分布情報に対応する。A1は参照画像のボケ量の分布そのものであってもよいし、当該分布を所定倍した情報であってもよい。図13のA1とA2の比較からわかるように、分布情報は、参照分布情報に比べてボケ量の多い画像が不足する傾向がみられる。例えば、ボケ量x1の画像をm1枚増やすことによって、分布情報を参照分布情報に近づけることが可能になる。ボケ量x2、x3、x4についても同様に、それぞれ画像枚数がm2、m3、m4枚増えることによって、分布情報が参照分布情報に近づく。
本実施形態の取得部120は、ボケ拡張量を決定するための情報として、第1ボケ量と、当該第1ボケ量の画像の必要枚数とを対応付けた情報を求める。
例えばボケ量xの画像がm枚不足している場合、決定部130は、ボケ量がx未満の処理対象画像のうち、m枚の画像を拡張対象として決定する。そして、m枚の処理対象画像の各画像について、当該処理対象画像の第2ボケ量と、第1ボケ量であるxとに基づいて、ボケ拡張量を決定する。例えば第1ボケ量であるxが5であり、処理対象画像の第2ボケ量が4の場合、決定部130は、第1ボケ量と第2ボケ量の差を算出し、ボケ拡張量を1とする。即ち決定部130は、第1の実施形態と同様に、目標となる第1ボケ量と、処理対象画像の第2ボケ量に基づいて、処理対象画像ごとにボケ拡張量を決定する。
本実施形態の決定部130は、上記xを変えながら、各ボケ量について必要な枚数の拡張画像を生成するための処理対象画像を選択する処理と、各処理対象画像に対して適用されるボケ拡張量を決定する処理を行う。この処理の結果として、例えば図6と同様に、処理対象画像に対して、少なくとも0を含む1つ以上のボケ拡張量が対応付けられた情報が取得される。なお本実施形態では、第1ボケ量の値ごとに、拡張画像の元画像となる処理対象画像が決定される。そのため、第2ボケ量が2の処理対象画像が、ボケ量5の拡張画像を生成する元画像として採用されたが、ボケ量4の拡張画像を生成する元画像として採用されないというケースも生じうる。換言すれば、第2ボケ量が2である処理対象画像にボケ拡張量として3が対応付けられた場合であっても、当該処理対象画像にそれよりも小さい2や1といったボケ拡張量が適用されないこともあり得る。各処理対象画像に対応付けられるボケ拡張量は、処理対象画像を選択する基準による。
ボケ量がxの拡張画像をm枚生成する場合であって、ボケ量がx未満の処理対象画像の枚数がs枚である場合を考える。ここでsはs>mを満たす整数である。この場合、決定部130は、ボケ量がxの画像を生成する画像拡張の対象となるm枚の画像を、s枚の処理対象画像から選択する必要がある。この際、決定部130は、ボケ拡張量の総和が小さくなるように、拡張対象となる画像を決定してもよい。具体的には、決定部130は。ボケ量がx未満の処理対象画像のうち、ボケ量が大きい処理対象画像を優先して選択する。例えばボケ量5の拡張画像を生成する場合、ボケ量4の処理対象画像はボケ拡張量が1と小さいため選択される優先度が高く、ボケ量1の処理対象画像はボケ拡張量が4と大きいため選択される優先度が低い。このようにすれば、画像拡張におけるボケ拡張量を抑制することが可能になる。換言すれば、元画像に対する過剰な加工を抑制する事が可能になる。
ただし、拡張対象となる画像の選択手法はこれに限定されない。例えば上記の例とは逆に、ボケ拡張量が大きくなる画像が優先的に選択されてもよい。或いは、各ボケ量から均等に処理対象画像が選択されてもよい。或いは、s枚の処理対象画像からランダムにm枚の処理対象画像が選択されてもよい。
また以上では、ボケ量ごとに、参照分布情報と分布情報の差分を求める手法について説明した。ただし本実施形態の手法は、分布情報を参照分布情報に近づけるものであればよく、具体的な処理はこれに限定されない。
例えば、拡張画像セットの分布を示す拡張分布情報と、参照分布情報の距離を小さくするように、各処理対象画像に適用されるボケ拡張量が決定されてもよい。拡張画像セットとは、各処理対象画像から生成された拡張画像を含む画像セットである。
2つの分布の間の距離は、例えば下式(1)に基づいて求める事が可能である。下式(1)におけるp(x)は拡張分布情報に対応する確率関数であり、p’(x)は参照分布情報に対応する確率関数である。本実施形態では、xはボケ量を表し、p(x)は、拡張画像の総数に対する、ボケ量xの拡張画像の比率を表す。p’(x)は参照画像の総数に対する、ボケ量xの参照画像の比率を表す。決定部130は、下式(1)における距離が所与の距離閾値以下となるようなボケ拡張量を探索する処理を行う。下式(1)のp(x)は、複数の処理対象画像について、それぞれ適用されるボケ拡張量を決定することによって、その値が決定される。1つの処理対象画像に関するボケ拡張量は、上述したように、少なくとも0を含む1以上の値の組み合わせである。例えば決定部130は、下式(1)のL2を目的関数とし、当該L2を最小にするような最適化問題を解くことによって、各処理対象画像に適用されるボケ拡張量を決定する処理を行う。
本実施形態の手法によれば、拡張画像セットのボケ量の分布を、参照画像セットのボケ量の分布に近づけることが可能になる。本実施形態の手法によって生成される拡張画像セットは、推論段階において取得される画像とボケ量の分布が類似するため、学習済モデルの推論精度を高くすることが可能になる。その際、本実施形態では処理対象画像のボケ量に基づく分布情報を処理に用いるため、分布情報を参照分布情報に近づけるためのボケ拡張量を適切に決定することが可能である。
3.第3の実施形態
第1の実施形態及び第2の実施形態では、処理対象画像からボケ量を算出する際に対象とする領域について触れていない。例えば、取得部120は、処理対象画像全体からエッジ抽出処理、及びボケ量算出処理を行うことによって、当該処理対象画像の第2ボケ量を取得する。ただし、ボケ量算出の対象となる領域が限定されてもよい。
第1の実施形態及び第2の実施形態では、処理対象画像からボケ量を算出する際に対象とする領域について触れていない。例えば、取得部120は、処理対象画像全体からエッジ抽出処理、及びボケ量算出処理を行うことによって、当該処理対象画像の第2ボケ量を取得する。ただし、ボケ量算出の対象となる領域が限定されてもよい。
図14は、本実施形態の処理を説明するフローチャートである。図14の処理が開始されると、まずステップS401において、処理対象画像取得部111は、処理対象画像を取得する。
ステップS402において、取得部120は、処理対象画像から注目領域を抽出する処理を行う。例えば処理対象画像取得部111は、図4(A)を用いて上述したように、処理対象画像と、アノテーション結果を対応付けたデータを取得する。アノテーション結果は、注目領域に関する情報である。取得部120は、アノテーション結果を用いることによって、処理対象画像から注目領域を抽出する。
ステップS403において、取得部120は、抽出された注目領域のうち、鏡面反射のない領域を抽出する。鏡面反射がある領域では、白飛び等が発生するためエッジの情報を適切に検出することが難しい。ステップS403の処理を行うことによって、ボケ量算出に適さない領域を処理から除外することが可能になる。
ステップS404において、取得部120は、注目領域であって鏡面反射のない領域からエッジを抽出する処理を行う。ステップS405において、取得部120は、抽出したエッジに基づいて処理対象画像のボケ量を算出する。ここでのボケ量は、注目領域のボケ量に対応する。ステップS406において、取得部120は、各処理対象画像の注目領域から算出されたボケ量を、第2ボケ量として決定する。
ステップS407において、決定部130は、ステップS104で取得された第1ボケ量と、ステップS406で取得された第2ボケ量とに基づいて、ボケ拡張量を決定する。ステップS408において、拡張部140は、決定されたボケ拡張量に基づいて画像拡張を行うことによって、拡張画像セットを生成する。ステップS409において、学習部150は、拡張画像セットと、アノテーション結果を対応付けた訓練データに基づいて、機械学習を行う。学習部150は、機械学習の結果である学習済モデルを出力する。
図15は、本実施形態の手法を説明する図である。上述したように、本実施形態の取得部120は、処理対象画像の注目領域に基づいて、第2ボケ量を求める。なおボケ量の算出領域は、注目領域に対応する領域であればよく、例えば図15に示すように、注目領域を含む矩形領域である。例えば第2ボケ量の算出対象領域は、当該算出対象領域に占める注目領域の割合が所定閾値以上となる領域であり、算出対象領域に注目領域以外の領域が含まれてもよいし、注目領域の一部が算出対象領域に含まれなくてもよい。
このようにすれば、注目領域のボケ度合いを表す情報を、第2ボケ量として取得することが可能になる。そのため、決定部130で決定されるボケ拡張量は、注目領域を適切にボケさせる値となる。即ち、拡張画像における注目領域のボケ量が、第1ボケ量に基づく適切な範囲となるため、学習精度向上が可能になる。例えば、注目領域と、注目領域以外のボケ量が大きく異なる場合であっても、当該注目領域以外のボケ量による影響を抑制することが可能になる。
4.第4の実施形態
第3の実施形態では、第2ボケ量の算出対象領域を注目領域に対応する領域とする例について説明した。ただし、注目領域に基づく処理はこれに限定されない。例えば拡張部140は、決定部130が決定したボケ拡張量に基づいて、注目領域に対応する領域を対象として画像拡張を行ってもよい。例えば拡張部140は、ガウシアンフィルタ等のフィルタ処理を、注目領域の周辺領域を対象として実行する。
第3の実施形態では、第2ボケ量の算出対象領域を注目領域に対応する領域とする例について説明した。ただし、注目領域に基づく処理はこれに限定されない。例えば拡張部140は、決定部130が決定したボケ拡張量に基づいて、注目領域に対応する領域を対象として画像拡張を行ってもよい。例えば拡張部140は、ガウシアンフィルタ等のフィルタ処理を、注目領域の周辺領域を対象として実行する。
このようにすれば、処理対象画像のうち、注目領域以外の領域に対して過剰な加工を行うことを抑制できる。例えば注目領域は病変領域であり、それ以外の領域とは正常領域である。この場合、正常領域を画像拡張の対象から除外することによって、正常領域と病変領域の差異が少なくなることを抑制できるため、学習精度の向上が可能になる。
なお、第3の実施形態と第4の実施形態の手法は組み合わされてもよい。具体的には、取得部120は、注目領域に対応する領域に基づいて第2ボケ量を取得する。決定部130は、当該第2ボケ量に基づいて、ボケ拡張量を決定する。拡張部140は、決定されたボケ拡張量に基づいて、注目領域の周辺領域に対して画像拡張を行う。このようにすれば、注目領域を考慮した適切なボケ拡張量を決定すること、及び、注目領域以外の領域の加工を抑制することが可能になる。
以上、本実施形態およびその変形例について説明したが、本開示は、各実施形態やその変形例そのままに限定されるものではなく、実施段階では、要旨を逸脱しない範囲内で構成要素を変形して具体化することができる。また、上記した各実施形態や変形例に開示されている複数の構成要素を適宜組み合わせることができる。例えば、各実施形態や変形例に記載した全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態や変形例で説明した構成要素を適宜組み合わせてもよい。このように、本開示の主旨を逸脱しない範囲内において種々の変形や応用が可能である。また、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。
100…画像処理システム、110…画像取得部、111…処理対象画像取得部、112…参照画像取得部、120…取得部、130…決定部、140…拡張部、150…学習部、300…内視鏡システム、310…挿入部、311…対物光学系、312…撮像素子、314…照明レンズ、315…ライトガイド、330…処理装置、331…前処理部、332…制御部、333…記憶部、335…検出処理部、336…後処理部、340…表示部、350…光源装置、352…光源
Claims (14)
- 画像の目標ボケ量を表す第1ボケ量を取得する取得部と、
処理対象画像に付加するボケの度合いを示すボケ拡張量を決定する決定部と、
を含み、
前記取得部は、
前記処理対象画像のボケ量である第2ボケ量を取得し、
前記決定部は、
前記第1ボケ量及び前記第2ボケ量に基づいて、前記ボケ拡張量を決定することを特徴とする画像処理システム。 - 請求項1において、
前記決定部は、
前記第2ボケ量の前記処理対象画像に対して、前記ボケ拡張量を用いてボケ拡張した拡張画像のボケ量が、前記第1ボケ量以下になるように、前記ボケ拡張量を決定することを特徴とする画像処理システム。 - 請求項1において、
前記取得部は、
複数の前記処理対象画像の前記第2ボケ量の分布を表す分布情報と、複数の参照画像のボケ量の分布を表す参照分布情報との差に基づいて、前記第1ボケ量を取得することを特徴とする画像処理システム。 - 請求項2において、
前記取得部は、
参照画像のボケ量を取得し、
取得した前記参照画像のボケ量に基づいて、前記第1ボケ量を取得することを特徴とする画像処理システム。 - 請求項2において、
前記決定部は、
取得した前記第2ボケ量が大きいほど小さくなる前記ボケ拡張量を決定することを特徴とする画像処理システム。 - 請求項1において、
前記決定部は、
取得した前記第2ボケ量が前記第1ボケ量以上の場合、前記ボケ拡張量を0に決定することを特徴とする画像処理システム。 - 請求項1において、
前記処理対象画像を取得する画像取得部をさらに含み、
前記取得部は、
前記画像取得部が取得した前記処理対象画像に基づいて、前記処理対象画像のボケ量を求める処理を行うことによって、前記第2ボケ量を取得することを特徴とする画像処理システム。 - 請求項7において、
前記取得部は、
前記処理対象画像の注目領域に基づいて、前記第2ボケ量を求めることを特徴とする画像処理システム。 - 請求項7において、
前記画像取得部は、参照画像を取得し、
前記取得部は、
前記画像取得部が取得した前記参照画像に基づいて、前記参照画像のボケ量を求める処理を行うことによって、前記第1ボケ量を取得することを特徴とする画像処理システム。 - 請求項1において、
前記処理対象画像に対して、決定した前記ボケ拡張量を用いてボケ拡張した拡張画像を生成する拡張部と、
前記拡張画像と、前記拡張画像における注目領域を特定する正解データとを対応付けた訓練データに基づく機械学習を行うことによって、検出対象画像から前記注目領域を検出する学習済モデルを生成する学習部と、
を含むことを特徴とする画像処理システム。 - 請求項1において、
前記処理対象画像は、内視鏡装置を用いて撮像された生体内画像であることを特徴とする画像処理システム。 - 検出対象画像を取得する画像取得部と、
学習済モデルを記憶する記憶部と、
前記学習済モデルに基づいて、前記検出対象画像から注目領域を検出する処理を行う処理部と、
を含み、
前記学習済モデルは、
画像の目標ボケ量を表す第1ボケ量と、元画像のボケ量を表す第2ボケ量とに基づいて、前記元画像に付加するボケの度合いを示すボケ拡張量が決定されており、前記元画像に対して前記ボケ拡張量を用いてボケ拡張した画像を拡張画像としたときに、前記拡張画像と、前記拡張画像における前記注目領域を特定する正解データとを対応付けた訓練データに基づく機械学習を行うことによって生成されていることを特徴とする画像処理システム。 - 画像の目標ボケ量を表す第1ボケ量を取得し、
処理対象画像のボケ量である第2ボケ量を取得し、
前記第1ボケ量及び前記第2ボケ量に基づいて、前記処理対象画像に付加するボケの度合いを示すボケ拡張量を決定する、
ことを特徴とする画像処理方法。 - コンピュータを機能させるプログラムであって、
前記プログラムは、
画像の目標ボケ量を表す第1ボケ量を取得し、
処理対象画像のボケ量である第2ボケ量を取得し、
前記第1ボケ量及び前記第2ボケ量に基づいて、前記処理対象画像に付加するボケの度合いを示すボケ拡張量を決定する、
ステップを前記コンピュータに実行させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020104315A JP2021196995A (ja) | 2020-06-17 | 2020-06-17 | 画像処理システム、画像処理方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020104315A JP2021196995A (ja) | 2020-06-17 | 2020-06-17 | 画像処理システム、画像処理方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021196995A true JP2021196995A (ja) | 2021-12-27 |
Family
ID=79195690
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020104315A Pending JP2021196995A (ja) | 2020-06-17 | 2020-06-17 | 画像処理システム、画像処理方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021196995A (ja) |
-
2020
- 2020-06-17 JP JP2020104315A patent/JP2021196995A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7104810B2 (ja) | 画像処理システム、学習済みモデル及び画像処理方法 | |
CN110232383B (zh) | 一种基于深度学习模型的病灶图像识别方法及病灶图像识别系统 | |
JP7231762B2 (ja) | 画像処理方法、学習装置、画像処理装置及びプログラム | |
EP3829416B1 (en) | Method and system for augmented imaging in open treatment using multispectral information | |
WO2019037676A1 (zh) | 图像处理方法及装置 | |
US9721191B2 (en) | Method and system for image recognition of an instrument | |
JPWO2018008593A1 (ja) | 画像診断学習装置、画像診断装置、方法およびプログラム | |
CN105378534B (zh) | 摄像装置、摄像装置的工作方法 | |
WO2021181520A1 (ja) | 画像処理システム、画像処理装置、内視鏡システム、インターフェース及び画像処理方法 | |
WO2018150210A1 (en) | Evaluating quality of a product such as a semiconductor substrate | |
CN109085113A (zh) | 一种用于宫颈脱落细胞检测装置的自动对焦方法和装置 | |
JPWO2020022027A1 (ja) | 学習装置及び学習方法 | |
US20220335610A1 (en) | Image processing system, training method for training device, and storage medium | |
JPWO2017221412A1 (ja) | 画像処理装置、学習装置、画像処理方法、識別基準の作成方法、学習方法およびプログラム | |
JP2019515725A (ja) | 網膜画像処理 | |
Sri et al. | Diabetic retinopathy classification using deep learning technique | |
JP2019514471A (ja) | 網膜画像処理 | |
JP2021196995A (ja) | 画像処理システム、画像処理方法及びプログラム | |
US20220346636A1 (en) | Focus control device, operation method of focus control device, and storage medium | |
US20230100147A1 (en) | Diagnosis support system, diagnosis support method, and storage medium | |
US11050931B2 (en) | Control device and control method | |
CN115294351B (zh) | 图像特征提取方法、装置和电子设备 | |
JP2020115283A (ja) | 特徴量決定方法、学習用データ生成方法、学習用データセット、評価システム、プログラム、及び、学習方法 | |
JP2020065173A (ja) | 画像処理装置、学習装置、画像処理方法、学習方法およびプログラム | |
CN113421270B (zh) | 基于单中心标定数据实现医学图像域自适应分割的方法、系统、装置、处理器及其存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230614 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240319 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240326 |