JP2018206260A

JP2018206260A - 画像処理システム、評価モデル構築方法、画像処理方法及びプログラム

Info

Publication number: JP2018206260A
Application number: JP2017113759A
Authority: JP
Inventors: 鉄也櫻井; Tetsuya Sakurai; 宇任木村; Takato Kimura
Original assignee: University of Tsukuba NUC
Current assignee: University of Tsukuba NUC
Priority date: 2017-06-08
Filing date: 2017-06-08
Publication date: 2018-12-27
Anticipated expiration: 2037-06-08
Also published as: JP6887154B2

Abstract

【課題】画像に含まれる粒状の対象物を精度良く検出することができる画像処理システムを提供する。【解決手段】画像処理システムは、検出対象が含まれる学習用の画像から、複素モーメントフィルタにより検出対象のエッジを抽出し、抽出したエッジを含む画像に対してＷＴ−ＵＣＭによって、検出対象の候補となる領域を抽出し、候補となる領域を含んだ画像を複数取得し、候補となる領域の特徴を学習した評価モデルを構築し、構築した評価モデルに基づいて、評価対象の画像に含まれる検出対象を特定する。【選択図】図１

Description

本発明は、画像処理システム、評価モデル構築方法、画像処理方法及びプログラムに関する。

画像に含まれる対象物を検出する技術が提供されている。例えば、キャニー法（非特許文献１）によって対象物の境界（エッジ）を検出し、そのエッジで囲まれた領域を対象物として特定する方法が知られている。また、ウォーターシェッド法（非特許文献２）によって画像内の領域分割を行って、例えば、対象とする物体と同等の大きさを占める領域を対象物として特定する方法が知られている。
なお、非特許文献３には、複素モーメントフィルタを用いたエッジの抽出法が記載されている。非特許文献３には、複素モーメントフィルタによれば、キャニー法等の一般的なエッジ抽出法に比べ、ノイズの存在下でも安定して高精度にエッジ抽出が可能であることが示されている。また、非特許文献４には、ＯＷＴ−ＵＣＭ（Oriented Watershed Transform Ultrametric Contour Map）によって画像内の対象物を検出する技術が記載されている。

John Canny, "A Computational Approach to Edge Detection", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 1986, VOL.PAMI-8(6),p.679-698 L.Vincent and P. Soille : "Watersheds in digital spaces: An efficient algorithm based on immersion simulations", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, vol.13, no.6, pp.583-598, 1991. 伊藤信貴、外２名、"複素モーメントに基づく画像特徴抽出"、日本応用数理学会論文誌、vol.18, no.1, pp.135-153, 2008. Contour Detection and Hierarchical Image Segmentation、Pablo Arbelaez、Michael Maire、Charless Fowlkes、Jitendra Malik、IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, vol.33, no.5, MAY 2011

しかし、例えば、キャニー法は、輪郭か否かを判定する閾値を適切に与えなければ検出精度が劣化することが知られている。このためキャニー法では、画像毎に閾値を適切に設定しなければならない。また、ウォーターシェッド法では、シード画像が必要となるが、一般的にシード画像の生成や最終的な領域分割までの間に３つのパラメータを設定する必要がある。この場合も画像毎に適切な閾値を与えなければならないという課題が存在する。これに対し、効率的かつ高精度に対象物を検出する技術が求められている。

そこでこの発明は、上述の課題を解決することのできる画像処理システム、評価モデル構築方法、画像処理方法及びプログラムを提供することを目的としている。

本発明の一態様は、検出対象が含まれる学習用の画像から、複素モーメントフィルタにより前記検出対象のエッジを抽出するエッジ抽出部と、前記抽出したエッジを含む画像に対してＷＴ−ＵＣＭによって、検出対象の候補となる領域を抽出する候補領域抽出部と、前記候補となる領域を含んだ画像を複数取得し、前記候補となる領域の特徴を学習した評価モデルをニューラルネットワークにより構築するモデル構築部と、前記評価モデルに基づいて、評価対象の画像に含まれる検出対象を特定する特定部と、を備える画像処理システムである。

本発明の一態様によれば、前記画像処理システムは、前記学習用の画像のサイズを変更するスケール変換部、をさらに備え、前記エッジ抽出部は、サイズ変更後の複数のサイズの前記学習用の画像について、エッジの抽出を行う。

本発明の一態様によれば、前記画像処理システムは、前記学習用の画像が有する色情報について、複数のチャンネル画像を生成する色変換部、をさらに備え、前記エッジ抽出部は、複数のチャンネル画像それぞれについて、エッジの抽出を行う。

本発明の一態様によれば、前記色変換部は、前記学習用の画像の色空間を変換し、前記エッジ抽出部は、色空間を変換した前記学習用の画像についてエッジの抽出を行う。

本発明の一態様によれば、前記色変換部は、前記学習用の画像からＣＩＥ−Ｌａｂ色空間におけるＬ*チャンネル画像と、ａ*チャンネル画像と、ｂ*チャンネル画像とを生成し、前記エッジ抽出部は、前記Ｌ*チャンネル画像と、前記ａ*チャンネル画像と、前記ｂ*チャンネル画像のそれぞれについてエッジの抽出を行う。

本発明の一態様によれば、前記領域抽出部は、エッジ抽出後の前記Ｌ*チャンネル画像と、前記ａ*チャンネル画像と、前記ｂ*チャンネル画像とを、２：１：１の比で合成した画像から、前記検出対象の候補となる領域を抽出する。

本発明の一態様によれば、前記画像処理システムは、前記学習用の画像のうち前記候補となる領域を対象に切り出した画像を生成するパッチ画像切出部、をさらに備え、前記モデル構築部は、前記切り出された画像を学習して、前記候補となる領域を含む画像と、前記候補となる領域を含まない画像とを分類する評価モデルを構築する。

本発明の一態様は、検出対象が含まれる学習用の画像から、複素モーメントフィルタにより前記検出対象のエッジを抽出するステップと、前記抽出したエッジを含む画像に対してＷＴ−ＵＣＭによって、検出対象の候補となる領域を抽出するステップと、前記候補となる領域を含んだ画像を複数取得し、前記候補となる領域の特徴を学習した評価モデルをニューラルネットワークにより構築するステップと、を有する評価モデル構築方法である。

本発明の一態様は、検出対象が含まれる学習用の画像から、複素モーメントフィルタにより前記検出対象のエッジを抽出するステップと、前記抽出したエッジを含む画像に対してＷＴ−ＵＣＭによって、検出対象の候補となる領域を抽出するステップと、前記候補となる領域を含んだ画像を複数取得し、前記候補となる領域の特徴を学習した評価モデルをニューラルネットワークにより構築するステップと、前記評価モデルに基づいて、評価対象の画像に含まれる検出対象を特定するステップと、を有する画像処理方法である。

本発明の一態様は、コンピュータを、検出対象が含まれる学習用の画像から、複素モーメントフィルタにより前記検出対象のエッジを抽出する手段、前記抽出したエッジを含む画像に対してＷＴ−ＵＣＭによって、検出対象の候補となる領域を抽出する手段、前記候補となる領域を含んだ画像を複数取得し、前記候補となる領域の特徴を学習した評価モデルをニューラルネットワークにより構築する手段、前記評価モデルに基づいて、評価対象の画像に含まれる検出対象を特定する手段、として機能させるためのプログラムである。

本発明によれば、画像に含まれる対象物を精度良く検出することができる。

本発明の一実施形態による画像処理装置の機能ブロック図である。本発明の一実施形態によるエッジ検出処理を説明する第１の図である。本発明の一実施形態によるエッジ検出処理を説明する第２の図である。本発明の一実施形態によるエッジ検出処理を説明する第３の図である。本発明の一実施形態による候補領域の抽出処理を説明する第１の図である。本発明の一実施形態による候補領域の抽出処理を説明する第２の図である。本発明の一実施形態による候補領域の抽出処理を説明する第３の図である。本発明の一実施形態によるパッチ画像の切り出し処理を説明する図である。本発明の一実施形態によるＣＮＮモデルのネットワーク構成の一例を示す図である。本発明の一実施形態による対象物の検出処理結果を示す図である。本発明の一実施形態による画像処理装置による対象物検出処理の一例を示すフローチャートである。本発明の一実施形態による画像処理装置のハードウェア構成の一例を示す図である。

＜実施形態＞
以下、本発明の一実施形態による画像処理システムを図１〜図１２を参照して説明する。本実施形態による画像処理システムは、１台または複数台のＰＣ（personal computer）やサーバ端末などのコンピュータに実装される。画像処理システムは、細胞画像に含まれる所定の組織や、コンクリートや金属等の構造物の画像に含まれる混入物など、画像に含まれる粒状の対象物を検出する。以下の説明では、１台のコンピュータに実装された画像処理システム（画像処理装置１０）によって、組織切片画像において炎症を起こしている細胞を検出する処理を例に説明を行う。

図１は、本発明の一実施形態による画像処理装置の機能ブロック図である。
図１に示す画像処理装置１０は、制御部１１と、入力部１２と、出力部１３と、記憶部１４と、を備えている。
制御部１１は、画像に含まれる対象物を検出する処理を行う。制御部１１は、対象物が含まれる学習用の画像（学習用画像）から対象物を検出するための評価モデルを構築する機能と、構築した評価モデルに基づいて、評価対象の画像（評価用画像）に写っている対象物を検出する機能を有している。制御部１１の機能については後述する。
入力部１２は、データの入力を行うインタフェースである。例えば、入力部１２は、キーボード、マウス等の入力装置である。
出力部１３は、データの出力を行うインタフェースである。例えば、出力部１３は、対象物の検出処理の結果を他のコンピュータ装置、表示装置、プリンタ等に出力する。
記憶部１４は、例えば、ＲＯＭ（Read Only Memory）、フラッシュメモリ、ＨＤＤ（Hard Disk Drive）等の不揮発性の記憶媒体と、ＲＡＭ（Random Access Memory）、レジスタ等の揮発性の記憶媒体とを含む。記憶部１４は、諸々のデータを記憶する。

制御部１１は、スケール変換部１１１と、色変換部１１２と、エッジ抽出部１１３と、合成部１１４と、候補領域抽出部１１５と、パッチ画像切出部１１６と、モデル構築部１１７と、評価部１１８と、評価結果表示部１１９とを備える。
スケール変換部１１１は、画像処理装置１０に入力された画像（入力画像）に対して、拡大や縮小などのスケール変換を行う。
色変換部１１２は、ＲＧＢ色空間の入力画像をＣＩＥ−Lａｂ色空間の画像に変換する。
エッジ抽出部１１３は、複素モーメントフィルタを用いて、入力画像または入力画像に対してスケール変換や色空間の変更を行った画像に含まれる対象物のエッジ（境界）を検出する。エッジ抽出部１１３は、検出したエッジを抽出した画像を生成する。
合成部１１４は、エッジ抽出部１１３が生成した複数の画像を合成し、Ｐｂ（probability）画像を生成する。
候補領域抽出部１１５は、エッジ抽出部１１３によって検出されたエッジの情報を利用して、Ｐｂ画像から候補領域を抽出する。候補領域抽出部１１５は、候補領域の抽出にＷＴ−ＵＣＭ（Oriented Watershed Transform Ultrametric Contour Map）を用いる。なお、候補領域とは、検出対象の対象物が写ったと推定される画像中の領域である。
パッチ画像切出部１１６は、学習用画像と評価用画像から矩形の小領域を切り出したパッチ画像を生成する。
モデル構築部１１７は、学習用画像から切り出された対象物が写ったパッチ画像を学習して、対象物を検出するための評価モデルを構築する。評価モデルの構築には、例えば畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）等の深層学習を用いる。
評価部１１８は、評価用画像から切り出されたパッチ画像に対象物が含まれているかどうかを、評価モデルによって評価する。
評価結果表示部１１９は、評価用画像に含まれる対象物の検出結果を表示する。例えば、評価結果表示部１１９は、評価用画像中に対象物が写った領域に印を付す等した画像を生成して、その画像を出力する。

なお、制御部１１は、画像処理装置１０の備えるＣＰＵ（Central Processing Unit）が記憶部１４からプログラムを読み出し実行することで備わる機能である。

画像処理装置１０は、学習用画像を取得し、エッジの抽出、候補領域の抽出、パッチ画像の切り出しの各工程を経て、パッチ画像に含まれる粒状の対象物の特徴をＣＮＮにより学習して評価モデルを構築する。評価モデルを構築した後は、画像処理装置１０は、評価用画像を取得し、評価用画像からパッチ画像を切り出し、評価モデルによって各パッチ画像に粒状の対象物が含まれているかどうかを評価する。以下、各工程の処理について図２〜図１０を用いて説明する。

エッジ検出の工程では、入力画像に対して色空間の変換やスケールの変更を行って、各チャンネル画像、スケール変換後の画像に対してエッジ抽出を行う等の工夫を行う。まず、図２を用いて、色空間の変換、各チャンネル画像に対するエッジ抽出処理について説明を行う。

図２は、本発明の一実施形態によるエッジ検出処理を説明する第１の図である。
まず、ユーザが画像処理装置１０に学習用画像を入力する。ここで、学習用画像は、ＲＧＢ色空間のカラー画像である。画像処理装置１０では、入力部１２が、学習用画像を取得し、記憶部１４に記録する。制御部１１は、学習用画像を記憶部１４から読み出して、色変換部１１２が学習用画像をＲＧＢ色空間の画像からＣＩＥ−Ｌａｂ色空間の画像へ変換する。具体的には、図２に示すように、色変換部１１２は、入力画像（学習用画像）からＣＩＥ−Ｌａｂ色空間の各チャンネルＬ*、ａ*、ｂ*に対応するＬ*チャンネル画像、ａ*チャンネル画像、ｂ*チャンネル画像を生成する。
次にエッジ抽出部１１３が、Ｌ*チャンネル画像、ａ*チャンネル画像、ｂ*チャンネル画像のそれぞれから対象物のエッジを検出する処理を行う。エッジ抽出部１１３は、複素モーメントフィルタ（ＣＭＦ）によって、エッジ検出を行う。本実施形態で使用する複素モーメントフィルタについては、非特許文献３の他、特願２０１７−００５７８６に開示がある。エッジ抽出部１１３は、検出したエッジを抽出した画像を生成する。次に合成部１１４は、Ｌ*チャンネル画像からエッジを抽出したエッジ抽出画像、ａ*チャンネル画像からエッジを抽出したエッジ抽出画像、ｂ*チャンネル画像からエッジを抽出したエッジ抽出画像を、２：１：１の比で合成したＰｂ画像を生成する。具体的には、合成部１１４は、各画像に対して、０．５、０．２５、０．２５の重み付けを付して画像の合成を行う。
なお、合成部１１４は、以下の式によりＰｂ画像を［０，１］の範囲で正規化する。
Ｐｂ（ｘ，ｙ）＝
｛Ｐｂ（ｘ，ｙ）− ｍｉｎ（ｘ，ｙ）｝／｛ｍａｘ（Ｐｂ）− ｍｉｎ（Ｐｂ）｝

図２の右列に、これらの処理により生成したＰｂ画像と、学習用画像をグレースケール化した画像から複素モーメントフィルタによってエッジを抽出した画像を示す。図２に示すようにＣＩＥ−Ｌａｂ色空間への変換を行って、各チャンネルの画像ごとにエッジ検出を行って得たＰｂ画像の方が対象物が明瞭に写し出されており、対象物の検出精度を高めることができることが分かる。一般にエッジのような特徴点を抽出する際には、グレースケール画像に対して抽出法を適用することが多い。しかし、染色画像のような鮮彩な画像の場合、グレースケール化することで色についての情報が失われる。すると、色の情報に含まれていた特徴点（エッジ）の情報も欠落してしまい、エッジの検出精度が劣化する可能性がある。これに対し、本実施形態では、エッジ抽出部１１３が、カラー画像の持つ複数のチャンネル画像に対して複素モーメントフィルタを適用することで、色についての情報を活用し、エッジの抽出を行うことができる。

また、本実施形態では、色変換部１１２が、ＲＧＢ色空間画像をＣＩＥ−Ｌａｂ色空間画像（学習用画像）に変換している。これは、細胞の画像に対しては、ＲＧＢ色空間の各チャンネル画像に対してエッジ抽出を行うよりも、ＣＩＥ−Ｌａｂ色空間に変換して各チャンネル画像に対してエッジ抽出を行った方が、背景と前景の識別精度が高くなることが実験で確認されたためである。従って、画像や画像に写る対象物に応じて、検出精度が向上するならば、例えば、ＲＧＢ色空間の各チャンネル画像（Ｒチャンネル画像、Ｇチャンネル画像、Ｂチャンネル画像）に対してエッジ抽出を行うような処理を行ってもよい。

なお、Ｌ*チャンネル画像、ａ*チャンネル画像、ｂ*チャンネル画像を、２：１：１の比で合成するのは、Ｌ*は明度、ａ*、ｂ*は色度を表しており、明度からの情報と色度からの情報を１:１にするため、このような比率としている。

次に図３、４を用いて、入力画像のサイズを変更して行うエッジ抽出処理について説明を行う。
図３は、本発明の一実施形態によるエッジ検出処理を説明する第２の図である。図４は、本発明の一実施形態によるエッジ検出処理を説明する第３の図である。
図２を用いて説明したように、エッジ抽出部１１３は、ＣＩＥ−Ｌａｂ色空間変換後の各チャンネル画像に対してエッジ抽出を行う。本実施形態では、さらにスケール変換部１１１が、各チャンネル画像に対してスケール変換を行い、エッジ抽出部１１３が、各スケールの画像に対して複素モーメントフィルタ（ＣＭＦ）によるエッジ抽出を行う。
図３にｂ*チャンネル画像を例にスケール変換部１１１による処理を示す。スケール変換部１１１は、ｂ*画像を１／２倍に縮小した縮小画像、等倍画像（１倍）、２倍に拡大した拡大画像の各画像を生成する。エッジ抽出部１１３は、縮小画像、等倍画像、拡大画像の３つの画像それぞれに対してエッジ抽出を行う。スケール変換部１１１は、縮小画像についてエッジ抽出を行った後の画像を２倍に拡大する。スケール変換部１１１は、拡大画像についてエッジ抽出を行った後の画像を１／２倍に縮小する。次に合成部１１４は、エッジ抽出を行って、画像のサイズを元のサイズに揃えた３つの画像を平均して（１：１：１の比で）合成したＰｂ画像を生成する。

図４の左図にスケールの変更を行ってエッジ抽出を行ったＰｂ画像（マルチスケールあり）と、スケールの変更を行わずにエッジ抽出を行ったＰｂ画像（マルチスケールなし）を示す。図示するようにマルチスケールありの場合の方が、より明瞭に対象物が写ったＰｂ画像が生成される。これにより、エッジの抽出精度が向上することが分かる。
図４の右図に示すように、エッジの抽出精度は、その後生成されるＵＣＭ画像で抽出される候補領域の形状や数に影響を及ぼす。マルチスケール化した画像に基づいてエッジ抽出を行った方が、後の候補領域抽出処理（ＷＴ−ＵＣＭ）によって、より正確に対象となる粒状の候補領域を検出することができる。

このように本実施形態では、入力画像を１／２倍、１倍、２倍のサイズにリサイズし、複素モーメントフィルタを適用して得られたエッジ抽出画像を元のサイズに戻し、平均をとってＰｂ画像を生成する処理を行う。このようにスケールを変換することにより、拡大画像からは局所的な情報、縮小画像からは大域的な情報が得られる。そして、それらの平均をとることでエッジの抽出精度を向上することができる。なお、入力画像をマルチスケール化する際のサイズ変換係数（１／２倍、２倍）やその数は上記例に限定されない。例えば、１／５倍、１／３倍、１倍、３倍、５倍の５種類の画像を生成してもよい。また、各サイズの画像からエッジを抽出した画像を合成する際の各画像への重み付けは任意に設定することができる。

以上説明したように、本実施形態では、入力画像に対し、色空間の変換、各チャンネル画像別にマルチスケール化して生成した各画像についてのエッジ抽出処理を行う。例えば、Ｌ*チャンネル画像、ａ*チャンネル画像、ｂ*チャンネル画像の各々について、１／２倍、１倍、２倍の画像（つまり９個の画像）を用意し、各画像に対してエッジ抽出処理したものを合成してＰｂ画像を生成する。
しかし、エッジ抽出処理は、この処理方法に限定されない。例えば、色空間の変換を行わず、ＲＧＢ色空間の画像の各チャンネル画像に対してマルチスケール化を行った各画像に対して複素モーメントフィルタによるエッジ抽出処理を行っても良い。あるいは、マルチスケール化を行わずに各チャンネル画像（色空間の変換を行う、行わないに関わらず）に対するエッジ抽出処理のみを行っても良い。または、エッジ抽出に強い関連性を持つあるチャンネル画像だけを対象として、マルチスケール化を行って（あるいは行わずに）エッジ抽出処理を行っても良い。または、グレースケール化した画像に対して、マルチスケール処理を行って（あるいは行わずに）複素モーメントフィルタによるエッジ抽出処理を行っても良い。

エッジ抽出処理を行うと、次に候補領域抽出部１１５が、Ｐｂ画像中の検出対象である粒状の対象物の候補となる領域を抽出する処理を行う。
図５は、本発明の一実施形態による候補領域の抽出処理を説明する第１の図である。
図５の上方にウォーターシェッド（Watershed）法の概要を説明した図を示す。一般的に候補領域の検出にはウォーターシェッド法が用いられることが多い。エッジ抽出部１１３が生成したＰｂ画像に対してウォーターシェッド法を適用するならば、まずしきい値（パラメータ１）を与えてＰｂ画像をエッジ抽出画像に変換する処理（しきい値処理１）を行う。そして、エッジ抽出画像に対して距離変換をおこなって距離画像を生成し、さらに距離画像に２つ目のしきい値（パラメータ２）を設定してシード画像を生成する（しきい値処理２）。そして入力画像をグレースケール化したグレースケール画像とＰｂ画像とに適切な重み付け（パラメータ３）を与えて合成して生成した強調画像にシード画像を入力してエッジ欠けを補正した二値画像（候補領域抽出画像）を生成する。このようにウォーターシェッド法を用いる場合、入力画像ごとに３つのパラメータを適切に設定しなければならない。これに対し、本実施形態では、非特許文献４に記載のＷＴ−ＵＣＭ(Watershed Transform Ultrametric Contour Map)によりＵＣＭ（Ultrametric Contour Map）画像を生成する。ＵＣＭ画像とは、画像中の弱い輪郭に基づいて検出される領域、強い境界に基づいて検出される領域など、輪郭の強度に応じて分割される領域を階層的に示した情報を含む画像である。ＷＴ−ＵＣＭは、Ｐｂ画像に含まれるエッジ欠けを補い、粒状の対象物の可能性がある閉領域を候補領域として抽出するために行う。

ここで、本実施形態で用いるＷＴ−ＵＣＭについて、非特許文献４に記載のＯＷＴ−ＵＣＭとの違いについて記す。非特許文献４では、一般的なWatershed Transformによる領域抽出の欠点を補うために、異なる方向のエッジを抽出するエッジ抽出器を用いる。非特許文献４では、このエッジ抽出器により、異なる方向に対応した複数枚のＰｂ画像を得て、それら複数枚のＰｂ画像の各ピクセルについて最大値を採用して１枚の画像に統合する処理とWatershed Transformとを組み合わせて用いる。これにより候補領域の検出精度を高め、その後、ＵＣＭ画像を生成している。これに対し、本実施形態では、エッジ抽出器として複素モーメントフィルタを用いる。複素モーメントフィルタは、異なる方向のエッジ抽出を行わない。そこで本明細書では、Ｐｂ画像からシード画像を与えずにウォーターシェッド法と同様にエッジ欠けの補正を行って候補領域の検出を行い、検出した候補領域を含むＵＣＭ画像を生成する一連の処理を、非特許文献４に記載のＯＷＴ−ＵＣＭから異なる方向のエッジを抽出する処理（Oriented）を除いたことに合わせてＷＴ−ＵＣＭ(Watershed Transform Ultrametric Contour Map)と呼ぶ。

図５の下方にＷＴ−ＵＣＭよって候補領域を抽出した二値画像を生成する処理の概要を示す。候補領域抽出部１１５は、Ｐｂ画像を入力し、ＷＴ−ＵＣＭにより、ＵＣＭ画像を生成する。次に候補領域抽出部１１５は、ＵＣＭ画像に対して上記の輪郭の強度に対するしきい値を与え、しきい値処理により二値画像を生成する。このように、本実施形態で用いるＷＴ−ＵＣＭによれば、しきい値を１回設定するだけで、エッジ処理で抽出したエッジに対するエッジ欠けの補正処理、補正後の複数の強度レベルの領域から適切な強度レベルの輪郭によって分割された領域を選択し、候補領域として抽出する処理を自動的に行うことができる。

図６は、本発明の一実施形態による候補領域の抽出処理を説明する第２の図である。
図６に様々な強度レベルの輪郭を選択したときに得られる領域の例を示す。
図６の左図は入力画像、左から２番目の図はＷＴ−ＵＣＭによって得られるＵＣＭ画像である。残りの３つの図は、ＵＣＭ画像に対して、左から順にしきい値「０．８」、「０．５」、「０．２」を与えたときに得られる領域を示している。実験の結果、しきい値「０．８」を与えた場合（強い輪郭で分割した場合）には、検出対象の領域の一部が背景と認識（アンダーセグメンテーション）され、しきい値「０．２」を与えた場合（弱い輪郭で分割した場合）には過分割（オーバーセグメンテーション）となることが分かった。そこで、この例の場合、候補領域抽出部１１５は、ＵＣＭ画像に含まれる輪郭線の強度の平均した値に相当するしきい値「０．５」をＵＣＭ画像に適用し、候補領域を抽出する。
このようにＷＴ−ＵＣＭで生成したＵＣＭ画像を二値化する際のしきい値が大きいと未分割領域が多くなり、小さいと過分割領域が多くなる。本実施形態では後の処理で候補領域を分類するので、多少過分割気味でも検出できていない領域が少ない方が良く、しきい値は、０〜０．５あたりが適切であることが分かっている。適切なしきい値は対象とする画像の種類に応じて異なるが、同じ種類の画像に対しては一度設定すれば（図６の例では０．５）変更の必要はない。

図７は、本発明の一実施形態による候補領域の抽出処理を説明する第３の図である。
図７に、候補領域抽出部１１５が各領域に分割した画像から、面積の大きい画像を、背景として除去し、候補領域抽出画像を生成する処理を示す。ＵＣＭ画像に対してしきい値を設定することで得られた二値画像には、背景領域も含まれるため、面積がしきい値以上の領域を取り除く必要がある。背景か否かを判定する適切なしきい値は検出対象の大きさに依存する。なお、この処理は、例えばエッジ欠けを補正する処理にウォーターシェッド法を用いた場合にも必要となる処理である。
候補領域抽出部１１５は、二値画像にたいして、ラスタスキャンを行い、分割された領域の大きさ（ピクセル数）に応じて分類してラべリングを行い、ラベル画像を生成する。次に候補領域抽出部１１５は、各領域に含まれるピクセル数を面積としてカウントし、面積が所定のしきい値以上の領域を除去することにより候補領域抽出画像を生成する。候補領域抽出画像に含まれる各領域が、検出対象となる粒状の対象物の候補となる領域である。

次に候補領域抽出画像に基づいて、学習用画像から候補領域を含んだパッチ画像を生成する。
図８は、本発明の一実施形態によるパッチ画像の切り出し処理を説明する図である。
候補領域抽出画像が生成されると、パッチ画像切出部１１６が、学習用画像（最初に入力した各処理前の学習用画像）から候補領域を含んだパッチ画像を切り出す。具体的には、パッチ画像切出部１１６は、候補領域抽出画像に含まれる各候補領域の重心の座標情報を計算する。パッチ画像切出部１１６は、計算した重心の座標を中心とする候補領域を含む矩形領域の画像を、学習用画像から切り出す（パッチ画像）。このとき、パッチ画像切出部１１６は、入力画像に対してＳｙｍｍｅｔｒｉｃパディングを行って、入力画像の周縁部の端領域を拡張する。つまり、図８の右上図に示すように、入力画像の範囲を示す破線で囲った矩形領域の各辺の内側に設定した所定の大きさの端領域について、当該端領域に沿った辺を軸として鏡像を生成し、各辺の外側を生成した鏡像によって拡張した画像から、一定サイズ（例えば２１×２１ピクセル）のパッチ画像を切り出す。パッチ画像切出部１１６は、各候補領域についてパッチ画像を生成する。これらのパッチ画像は、ＣＮＮ（Convolutional Neural Network）による評価モデルを学習する際に教師データとして用いられる。

次に候補領域を含んだ複数のパッチ画像を用いて粒状の対象物の特徴を学習した評価モデルを構築する。
図９は、本発明の一実施形態によるＣＮＮモデルのネットワーク構成の一例を示す図である。
本実施形態の評価モデルの構築には、ＣＮＮを用いることができる。ＣＮＮとは、ニューラルネットワークの一種で画像処理の分野で広く用いられている。ＣＮＮのモデルは、畳み込み層(Convolutional Layer)、プーリング層（Pooling Layer）、局所応答正規化層(ＬＲＮ層)を備えており、一般的なニューラルネットワークよりも複雑で膨大な教師データに対応することができる。また、ニューラルネットワークを用いると、ＳＶＭ（support vector machine）等の機械学習と比較して分類器の構築だけではなく、同時に特徴量を抽出するフィルタの構築も行うことができる。本実施形態では、ＣＮＮを用いて検出対象と検出対象以外を分類する評価モデル（ＣＮＮモデル）を構築する。図９に本実施形態における評価モデルの構造の一例を示す。ＣＮＮモデルのネットワーク構造は、（１）入力画像は例えば、２０×２０ピクセルのパッチ画像をＲＧＢの３チャンネルに分けて得られる画像、３２個の５×５の２次元フィルタから成る１つ目の畳み込み層（２）、１つ目のプーリング層及びＬＲＮ層（３）、６４個の５×５の２次元フィルタから成る２つ目の畳み込み層（４）、２つ目のプーリング層及びＬＲＮ層（５）、１６００次元の特徴量空間を１０２４次元に分類する全結合層（６）、１０２４次元の特徴量空間を２次元（true、false）に分類する全結合層（７）、から構成される。適切なＣＮＮモデルのネットワーク構造は教師データの数や、画像の解像度などに応じて異なる。ただし、同程度の解像度や教師画像の数の場合、ＣＮＮモデルのネットワーク構造を調整することなく評価モデルを構築することができる。

モデル構築部１１７は、パッチ画像のうち候補領域を含む画素に対し、例えば「１」のラベルを付し、パッチ画像のうち候補領域を含まない画素に対しては、例えば「０」のラベルを付した教師データをＣＮＮモデルに投入し、ＣＮＮによる学習を行って学習済みのモデル（評価モデル）を構築する。
評価部１１８は、評価用画像から生成されたパッチ画像を評価モデルに入力し、各パッチ画像に検出対象の粒状の対象物が含まれているかどうかを示す予測ラベルを得る。例えば、予測ラベル「１」が出力された場合、パッチ画像（評価用）の当該画素には粒状の対象物が含まれている可能性が高いことを示す。予測ラベル「０」が出力された場合、パッチ画像（評価用）の当該画素には粒状の対象物が含まれていない可能性が高いことを示す。評価部１１８は、評価用画像の全領域から切り出されたパッチ画像の全てについて、粒状の対象物が含まれているかどうかの評価を行う。

次に評価結果表示部１１９は、全パッチ画像に対する評価結果に基づいて、評価対象を表示する。
図１０は、本発明の一実施形態による対象物の検出処理結果を示す図である。
図１０の左図は、評価対象となる組織切片画像である。右図は、評価結果を示す表示を追加した組織切片画像である。検出対象の粒状の対象物は、炎症を起こした細胞である。評価結果表示部１１９は、評価部１１８によって炎症を起こした細胞である可能性が高いと評価された領域を囲む表示を行うなどして、検出対象である粒状の対象物の検出結果を表示する。

最後に画像処理装置１０による粒状の対象物の検出処理の流れを説明する。
図１１は、本発明の一実施形態による画像処理装置による対象物検出処理の一例を示すフローチャートである。
まず、ユーザが、学習用画像を画像処理装置１０に入力し、評価モデルの構築を指示する。入力部１２は、学習用画像を取得し（ステップＳ１）、記憶部１４に記録する。また、制御部１１は、評価モデルの構築処理を開始する。まず、色変換部１１２は、記憶部１４から学習用画像を読み出して、学習用画像の色空間をＲＧＢ色空間からＣＩＥ−Ｌａｂ色空間へと変換する（ステップＳ２）。具体的には、色変換部１１２は、Ｌ*チャンネル画像、ａ*チャンネル画像、ｂ*チャンネル画像を生成する。次にスケール変換部１１１が、各チャンネル画像をマルチスケール化する（ステップＳ３）。具体的には、スケール変換部１１１は、Ｌ*チャンネル画像を１／２倍、１倍、２倍にリサイズした３個の画像を生成する。スケール変換部１１１は、ａ*チャンネル画像、ｂ*チャンネル画像についても同様に３個ずつサイズの異なる画像を生成する。

次にエッジ抽出部１１３が、複素モーメントフィルタ（ＣＭＦ）によってエッジ抽出する（ステップＳ４）。具体的には、エッジ抽出部１１３は、Ｌ*チャンネル画像をリサイズした３つの画像の各々について、複素モーメントフィルタによってエッジ抽出を行って３つのエッジ抽出画像を生成する。エッジ抽出部１１３は、ａ*チャンネル画像、ｂ*チャンネル画像についても同様にリサイズした画像の各々について、複素モーメントフィルタによるエッジ抽出を行ってエッジ抽出画像を生成する。なお、本実施形態で用いる複素モーメントフィルタについては、特願２０１７−００５７８６に開示された「複素モーメント法によるエッジ強調処理」とそれに続く「閾値処理」と同様の処理を用いることができる。

次に合成部１１４がステップＳ４で生成された９個のエッジ抽出画像を合成する（ステップＳ５）。具体的には、合成部１１４は、Ｌ*チャンネル画像に基づくサイズの異なるエッジ抽出画像のサイズを元の学習用画像と同じサイズに揃えて、１：１：１の比で合成する（合成された画像を平均画像１とする。）。合成部１１４は、ａ*チャンネル画像、ｂ*チャンネル画像についても同様にリサイズ後のエッジ抽出画像の平均をとった画像を生成する（それぞれ平均画像２、平均画像３とする）。次に合成部１１４は、平均画像１、平均画像２、平均画像３を２：１：１の比で合成し、Ｐｂ画像を生成する。

次に候補領域抽出部１１５が、図５で説明したとおり、ステップＳ５で生成されたＰｂ画像についてＷＴ−ＵＣＭによりエッジ欠けの補正を行い、異なる強度レベルの輪郭によって分割された領域の情報を階層的に含んだＵＣＭ画像を生成する（ステップＳ６）。次に候補領域抽出部１１５は、所定のしきい値（図５、図６の場合は０．５）を設定して、しきい値処理を行い、ＵＣＭ画像から二値画像を生成する（ステップＳ７）。次に候補領域抽出部１１５は、ステップＳ７で生成した二値画像において、輪郭によって分割された各領域の中から面積が大きい領域を、背景を示す領域として除去する（ステップＳ８）。ステップＳ８の処理については、図７を用いて説明したとおりである。この処理により、候補領域抽出画像が生成される。

次にパッチ画像切出部１１６が、候補領域抽出画像に基づいて、学習用画像からパッチ画像（学習用）を切り出す（ステップＳ９）。パッチ画像切出部１１６は、図８を用いて説明したように、候補領域が含まれるパッチ画像について候補領域の重心を中心として候補領域を含むように矩形領域を切り出す。パッチ画像切出部１１６は、ユーザの指示により、生成したパッチ画像（学習用）の各画素に対し、候補領域を含むか否かのラベルを付す。例えば、粒状の対象物の可能性が高い候補領域を含む画素にはラベル「１」を付し、候補領域を含まない画素にはラベル「０」を出力する。ラベルが付された各パッチ画像（学習用）は、評価モデル構築の教師データとして用いられる。
次にモデル構築部１１７が、ＣＮＮにより学習済みモデル（評価モデル）を構築する（ステップＳ１０）。モデル構築部１１７は、構築した評価モデルを記憶部１４に記録する。以上で、評価モデルの構築処理が完了する。

次に評価モデルに基づいて、評価用画像から対象物を検出する処理を行う。まず、ユーザが、評価用画像を画像処理装置１０に入力し、対象物の検出を指示する。入力部１２は、評価用画像を取得し（ステップＳ１１）、記憶部１４に記録する。また、制御部１１が、対象物を検出する処理を開始する。まず、パッチ画像切出部１１６が、パッチ画像（評価用）を切り出す（ステップＳ１２）。具体的には、パッチ画像切出部１１６は、評価用画像の全領域について、所定のサイズごとの矩形画像を切り出して複数のパッチ画像を生成する。あるいは、評価用画像についても学習用画像と同様に、ステップＳ２〜ステップＳ９と同様の処理を行ってパッチ画像（評価用）を生成してもよい。

次に評価部１１８は、評価用画像から切り出した全てのパッチ画像（評価用）を学習済みモデル（評価モデル）に入力して各パッチ画像の各画素に対する予測ラベルを得ることにより、パッチ画像（評価用）に含まれる候補領域を検出する（ステップＳ１３）。例えば、入力したパッチ画像（評価用）のうち粒状の対象物が含まれる可能性が高い画素については、評価モデルは、予測ラベル「１」を出力し、候補領域を含まない画素については、評価モデルは、予測ラベル「０」を出力する。次に評価結果表示部１１９は、各パッチ画像（評価用）の各画素に対する予測ラベルの値に基づいて、評価用画像のうち候補領域を含むと特定された箇所を強調（例えば、図１０で例示したように候補領域を囲む表示を行う等）した画像を生成する。最後に出力部１３が、評価結果表示部１１９が生成した画像を表示装置に出力し、検出処理の結果を表示する（ステップＳ１４）。ユーザは、この表示結果を参照し、評価用画像のどの部分が検出対象の粒状領域かを把握することができる。

本実施形態の画像処理装置１０によれば、複素モーメントフィルタを用いてエッジ抽出を行うので、一般的なエッジ抽出法に比べて、画像毎のパラメータ調整の負担を低減することができ、ノイズ存在下でも安定して高精度にエッジ抽出を行うことができる。また、入力画像に対し、色空間の変換や各チャンネル画像別にエッジ抽出を行うことで、色情報に含まれる対象物のエッジの情報を活用することができる。また、入力画像に対し、スケール変換を行って、各サイズの画像別にエッジ抽出を行うことで、サイズに応じたエッジの情報（拡大した画像からは局所的な情報、縮小した画像からは大域的な情報）を活用することができる。これらの工夫により、エッジ抽出の精度向上を図ることができる。また、マルチスケール化した学習用画像から抽出したエッジの情報に基づくパッチ画像を用いて評価モデルを構築することで、評価用画像のサイズに関わらず精度良く対象物の検出を行うことができる。
また、ＷＴ−ＵＣＭを用いて検出対象の候補領域を抽出するので、ウォーターシェッド法を用いる場合に比べ、画像毎のパラメータ調整の負担を低減することができる。
また、評価モデルの構築にはＣＮＮを用いるので、検出対象が画像に含まれるかどうかを分類する分類器に加え、検出対象を分類するための特徴量を抽出するフィルタを学習して構築することができる。これにより、精度の高い評価モデルを構築することができる。
これら適切な各処理方法を組み合わせることにより、効率的かつ精度良く対象物の検出処理を行うことができる。

なお、上記の説明では、細胞画像の例を用いて説明を行ったが、検出対象はこの例に限定されない。例えば、他の医療画像やトンネルやビルの壁面の画像に含まれる粒状の対象物の検出に用いることができる。また、検出対象の形状は粒状に限定されず、任意の形状をした領域であってよい。

図１２は、本発明の一実施形態による画像処理装置のハードウェア構成の一例を示す図である。
コンピュータ９００は、ＣＰＵ９０１、主記憶装置９０２、補助記憶装置９０３、入出力インタフェース９０４、通信インタフェース９０５を備える。
上述の画像処理装置１０は、コンピュータ９００に実装される。そして、上述した各処理部の動作は、プログラムの形式で補助記憶装置９０３に記憶されている。ＣＰＵ９０１は、プログラムを補助記憶装置９０３から読み出して主記憶装置９０２に展開し、当該プログラムに従って上記処理を実行する。また、ＣＰＵ９０１は、プログラムに従って、記憶部１４に対応する記憶領域を主記憶装置９０２に確保する。また、ＣＰＵ９０１は、プログラムに従って、処理中のデータを記憶する記憶領域を補助記憶装置９０３に確保する。

なお、画像処理装置１０の全部または一部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより制御部１１による処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、ＣＤ、ＤＶＤ、ＵＳＢ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。また、このプログラムが通信回線によってコンピュータ９００に配信される場合、配信を受けたコンピュータ９００が当該プログラムを主記憶装置９０２に展開し、上記処理を実行しても良い。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。なお、画像処理装置１０は、複数のコンピュータ９００によって構成されていても良い。

その他、本発明の趣旨を逸脱しない範囲で、上記した実施の形態における構成要素を周知の構成要素に置き換えることは適宜可能である。また、この発明の技術範囲は上記の実施形態に限られるものではなく、本発明の趣旨を逸脱しない範囲において種々の変更を加えることが可能である。評価部１１８は特定部の一例である。画像処理装置１０は画像処理システムの一例である。

１０画像処理装置、１１制御部、１２入力部、１３出力部、１４記憶部、１１１スケール変換部、１１２色変換部、１１３エッジ抽出部、１１４合成部、１１５候補領域抽出部、１１６パッチ画像切出部、１１７モデル構築部、１１８評価部、１１９評価結果表示部、９００コンピュータ、９０１ＣＰＵ、９０２主記憶装置、９０３補助記憶装置、９０４入出力インタフェース、９０５通信インタフェース

Claims

検出対象が含まれる学習用の画像から、複素モーメントフィルタにより前記検出対象のエッジを抽出するエッジ抽出部と、
前記抽出したエッジを含む画像に対してＷＴ−ＵＣＭによって、検出対象の候補となる領域を抽出する候補領域抽出部と、
前記候補となる領域を含んだ画像を複数取得し、前記候補となる領域の特徴を学習した評価モデルをニューラルネットワークにより構築するモデル構築部と、
前記評価モデルに基づいて、評価対象の画像に含まれる検出対象を特定する特定部と、
を備える画像処理システム。
前記学習用の画像のサイズを変更するスケール変換部、
をさらに備え、
前記エッジ抽出部は、サイズ変更後の複数のサイズの前記学習用の画像について、エッジの抽出を行う、
請求項１に記載の画像処理システム。
前記学習用の画像が有する色情報について、複数のチャンネル画像を生成する色変換部、
をさらに備え、
前記エッジ抽出部は、複数のチャンネル画像それぞれについて、エッジの抽出を行う、
請求項１または請求項２に記載の画像処理システム。
前記色変換部は、前記学習用の画像の色空間を変換し、
前記エッジ抽出部は、色空間を変換した後の前記学習用の画像についてエッジの抽出を行う、
請求項３に記載の画像処理システム。
前記色変換部は、前記学習用の画像からＣＩＥ−Ｌａｂ色空間におけるＬ*チャンネル画像と、ａ*チャンネル画像と、ｂ*チャンネル画像とを生成し、
前記エッジ抽出部は、前記Ｌ*チャンネル画像と、前記ａ*チャンネル画像と、前記ｂ*チャンネル画像のそれぞれについてエッジの抽出を行う、
請求項３または請求項４に記載の画像処理システム。
前記候補領域抽出部は、エッジ抽出後の前記Ｌ*チャンネル画像と、前記ａ*チャンネル画像と、前記ｂ*チャンネル画像とを、２：１：１の比で合成した画像から、前記検出対象の候補となる領域を抽出する、
請求項５に記載の画像処理システム。
前記学習用の画像のうち前記候補となる領域を対象に切り出した画像を生成するパッチ画像切出部、
をさらに備え、
前記モデル構築部は、前記切り出された画像を学習して、前記候補となる領域を含む画像と、前記候補となる領域を含まない画像とを分類する評価モデルを構築する
請求項１から請求項６の何れか１項に記載の画像処理システム。
検出対象が含まれる学習用の画像から、複素モーメントフィルタにより前記検出対象のエッジを抽出するステップと、
前記抽出したエッジを含む画像に対してＷＴ−ＵＣＭによって、検出対象の候補となる領域を抽出するステップと、
前記候補となる領域を含んだ画像を複数取得し、前記候補となる領域の特徴を学習した評価モデルをニューラルネットワークにより構築するステップと、
を有する評価モデル構築方法。
検出対象が含まれる学習用の画像から、複素モーメントフィルタにより前記検出対象のエッジを抽出するステップと、
前記抽出したエッジを含む画像に対してＷＴ−ＵＣＭによって、検出対象の候補となる領域を抽出するステップと、
前記候補となる領域を含んだ画像を複数取得し、前記候補となる領域の特徴を学習した評価モデルをニューラルネットワークにより構築するステップと、
前記評価モデルに基づいて、評価対象の画像に含まれる検出対象を特定するステップと、
を有する画像処理方法。
コンピュータを、
検出対象が含まれる学習用の画像から、複素モーメントフィルタにより前記検出対象のエッジを抽出する手段、
前記抽出したエッジを含む画像に対してＷＴ−ＵＣＭによって、検出対象の候補となる領域を抽出する手段、
前記候補となる領域を含んだ画像を複数取得し、前記候補となる領域の特徴を学習した評価モデルをニューラルネットワークにより構築する手段、
前記評価モデルに基づいて、評価対象の画像に含まれる検出対象を特定する手段、
として機能させるためのプログラム。