JP2019133433A

JP2019133433A - 画像処理装置、画像処理方法、およびプログラム

Info

Publication number: JP2019133433A
Application number: JP2018015432A
Authority: JP
Inventors: 正志藏之下; Masashi Kuranoshita; 與那覇　誠; Makoto Yonaha; 誠與那覇
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2018-01-31
Filing date: 2018-01-31
Publication date: 2019-08-08
Anticipated expiration: 2038-01-31
Also published as: JP6872502B2

Abstract

【課題】機械学習を利用したセグメンテーションにおいて、領域間の境界を精度良く検出することができる画像処理装置、画像処理方法、およびプログラムを提供する。【解決手段】画像処理装置１１は、セグメンテーション対象の被写体像を有する処理対象画像２３を取得する画像取得部１３と、第１の機械学習により学習した被写体像の特徴を、第１の機械学習により学習した態様により強調した強調画像を生成する画像特徴検出器１５と、強調画像および処理対象画像２３に基づいて、第２の機械学習により学習した態様により、被写体像に対応する領域をセグメンテーションするセグメンテーション器１７と、を備える。【選択図】図２

Description

本発明は、画像処理装置、画像処理方法、およびプログラムに関し、特に、機械学習を利用してセグメンテーションを行う画像処理装置、画像処理方法、およびプログラムに関する。

従来より、画像処理の技術分野において、セグメンテーションが行われている。ここでセグメンテーションとは、セグメンテーション対象の被写体像の画素で構成された領域とその他の画素の領域とに区別する処理のことである。

例えば特許文献１では、入力されたコンクリート画像において骨材を表した骨材領域とセメント成分を含んだ残余成分を表した残余成分領域とに分割されたコンクリート領域分割画像を生成するための技術が記載されている。特許文献１では、コンクリート画像から生成される濃淡モノクロ画像と輪郭モノクロ画像とに基づいて、コンクリート画像において骨材領域と残余成分領域とに領域が分割された画像を生成することが記載されている。特許文献１に記載された技術は、色濃度では骨材領域と残余成分領域とを精度良く区別できない場合に対して、濃淡モノクロ画像と輪郭モノクロ画像を合成した合成モノクロ画像により、精度良く骨材領域と残余成分領域とを分割することを試みている。ここで、濃淡モノクロ画像は、濃領域および淡領域から構成されており、輪郭モノクロ画像は輪郭領域および背景領域から構成されている。

一方、近年では機械学習の技術を利用して、セグメンテーションを行うことが提案されている。例えば、非特許文献１では、学習によって画像から特徴量を算出し、画像の認識処理を行う畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）を利用して、セグメンテーションをより正確に行うことを目的とした技術が提案されている。

特開２０１０−２３０４２１号公報アダム・パスズケ（Adam Paszke）、アドヒシェック・チャウラシア（Abhishek Chaurasia）、スナグピル・キム（Sangpil Kim）、ユージネオ・クルシエロ（Eugenio Culurciello）"ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation"［online］、２０１６年６月７日提出、［平成３０年１月１８日検索］、インターネット＜URL：https://arxiv.org/abs/1606.02147＞

ここで、機械学習を利用したセグメンテーションにおいても、領域間の境界を精度良く検出することは困難な場合がある。これは、セグメンテーションの処理対象の被写体像の種類や見え方が様々なため、機械学習をさせたセグメンテーション器は境界を精度良く検出することが難しい場合がある。

本発明はこのような事情に鑑みてなされたもので、その目的は、機械学習を利用したセグメンテーションにおいて、領域間の境界を精度良く検出することができる画像処理装置、画像処理方法、およびプログラムを提供することである。

上記目的を達成するために本発明の一の態様である画像処理装置は、セグメンテーション対象の被写体像を有する処理対象画像を取得する画像取得部と、第１の機械学習により学習した被写体像の特徴を、第１の機械学習により学習した態様により強調した強調画像を生成する画像特徴検出器と、強調画像および処理対象画像に基づいて、第２の機械学習により学習した態様により、被写体像に対応する領域をセグメンテーションするセグメンテーション器と、を備える。

本態様によれば、画像特徴検出器により、第１の機械学習により学習した被写体像の特徴を、第１の機械学習により学習した態様により強調した強調画像が生成される。そして、本態様では、セグメンテーション器により、強調画像および処理対象画像に基づいて、第２の機械学習により学習した態様により、被写体像に対応する領域がセグメンテーションされる。すなわち、第２の機械学習を利用して、強調画像および処理対象画像に基づいて、被写体像に対応する領域がセグメンテーションされる。これにより、本態様は、精度良く領域間の境界を検出することができる。

好ましくは、セグメンテーション器は、強調画像と処理対象画像のＲ画像、Ｇ画像、およびＢ画像とに基づいて、セグメンテーション画像を生成する。

本態様によれば、セグメンテーション器により、強調画像と処理対象画像のＲ画像、Ｇ画像、およびＢ画像とに基づいて、セグメンテーション画像が生成される。すなわち、本態様によれば、１チャンネルの強調画像と３チャンネルの処理対象画像とを合わせた４チャンネルの画像により、セグメンテーションが行われる。これにより、本態様は、精度良く領域間の境界の検出が行われたセグメンテーション画像を得ることができる。

好ましくは、セグメンテーション器は、強調画像と処理対象画像のモノクロ画像とに基づいて、セグメンテーション画像を生成する。

本態様によれば、セグメンテーション器により、強調画像と処理対象画像のモノクロ画像とに基づいて、セグメンテーション画像が生成される。これにより、本態様は、正確な領域間の境界の検出が行われたセグメンテーション画像を得ることができる。

好ましくは、画像特徴検出器は、第１の機械学習により被写体像の輪郭を検出することを学習したエッジ検出器であり、強調画像として輪郭が検出されたエッジ画像を生成し、セグメンテーション器は、第２の機械学習により学習して、エッジ画像および処理対象画像に基づいて被写体像に対応する領域を抽出する。

本態様によれば、画像特徴検出器は第１の機械学習により被写体像の輪郭を検出することを学習したエッジ検出器であり、そのエッジ検出器により、強調画像として輪郭が検出されたエッジ画像が生成される。そして、本態様によれば、セグメンテーション器は第２の機械学習により学習が行われて、エッジ画像および処理対象画像に基づいて被写体像に対応する領域を抽出する。これにより、本態様は、領域間の境界を精度良く抽出するセグメンテーションを行うことができる。

好ましくは、セグメンテーション器は、セグメンテーションした被写体像に対応する領域を強調したセグメンテーション画像を生成する。

本態様によれば、セグメンテーション器により、セグメンテーションした被写体像に対応する領域が強調されたセグメンテーション画像が生成されるので、被写体像に対応する領域の境界が精度良く検出されたセグメンテーション画像を得ることができる。

好ましくは、画像取得部は、セグメンテーション対象の被写体像としてひび割れ像を有する処理対象画像を取得し、画像特徴検出器は、第１の機械学習によりひび割れ像を検出することを学習したひび割れ検出器であり、強調画像としてひび割れ像が検出されたひび割れ画像を生成し、セグメンテーション器は、第２の機械学習により学習して、ひび割れ画像および処理対象画像に基づいてひび割れ像に対応する領域を抽出する。

本態様によれば、画像取得部により、セグメンテーション対象の被写体像としてひび割れ像を有する処理対象画像が取得され、画像特徴検出器は第１の機械学習でひび割れ像を検出することを学習したひび割れ検出器であり、強調画像としてひび割れ像が検出されたひび割れ画像が生成される。そして本態様は、セグメンテーション器により、第２の機械学習で学習して、ひび割れ画像および処理対象画像に基づいてひび割れ像に対応する領域が抽出される。これにより、本態様は、抽出されたひび割れ像に対応する領域の境界が精度良く検出されるセグメンテーションを行うことができる。

好ましくは、セグメンテーション器は、ひび割れ像を含む検査領域をセグメンテーションする。

本態様によれば、セグメンテーション器により、ひび割れ像を含む検査領域がセグメンテーションされるので、ひび割れ像を含む検査領域の境界が精度良く検出される。

好ましくは、セグメンテーション器は、ひび割れ像を含む太線の検査領域をセグメンテーションする。

本態様によれば、セグメンテーション器により、ひび割れ像を含む太線の検査領域がセグメンテーションされるので、ひび割れ像を含む太線の検査領域の境界を精度良く検出することができる。

好ましくは、セグメンテーション器は、ひび割れ像を含む矩形の検査領域をセグメンテーションする。

本態様によれば、セグメンテーション器により、ひび割れ像を含む矩形の検査領域をセグメンテーションするので、ひび割れ像を含む矩形の検査領域の境界を精度良く検出することができる。

好ましくは、セグメンテーション器は、セグメンテーションしたひび割れ像に対応する領域を強調したセグメンテーション画像を生成する。

本態様によれば、セグメンテーション器により、セグメンテーションしたひび割れ像に対応する領域を強調したセグメンテーション画像が生成されるので、領域の境界が精度良く検出されたセグメンテーション画像を得ることができる。

好ましくは、セグメンテーション器は、セグメンテーションした検査領域を強調したセグメンテーション画像を生成する。

本態様によれば、セグメンテーション器により、セグメンテーションした検査領域が強調されたセグメンテーション画像が生成される。これにより、本態様は、検査領域の境界が精度良く検出されたセグメンテーション画像が生成される。

本発明の一の態様である画像処理方法は、セグメンテーション対象の被写体像を有する処理対象画像を取得する画像取得ステップと、第１の機械学習により学習した被写体像の特徴を、第１の機械学習により学習した態様により強調した強調画像を生成する画像特徴検出ステップと、強調画像および処理対象画像に基づいて、第２の機械学習により学習した態様により、被写体像に対応する領域をセグメンテーションするセグメンテーションステップと、を含む。

本発明の一の態様であるプログラムは、セグメンテーション対象の被写体像を有する処理対象画像を取得する画像取得ステップと、第１の機械学習により学習した被写体像の特徴を、第１の機械学習により学習した態様により強調した強調画像を生成する画像特徴検出ステップと、強調画像および処理対象画像に基づいて、第２の機械学習により学習した態様により、被写体像に対応する領域をセグメンテーションするセグメンテーションステップと、を含む画像処理工程をコンピュータに実行させる。

本発明によれば、画像特徴検出器により、第１の機械学習により学習した被写体像の特徴を、第１の機械学習により学習した態様により強調した強調画像が生成され、セグメンテーション器により、強調画像および処理対象画像に基づいて、第２の機械学習により学習した態様により、被写体像に対応する領域がセグメンテーションされるので、精度良く領域間の境界を検出することができる。

図１は、画像処理装置を備えるコンピュータの外観を示す図である。図２は、画像処理装置の機能構成例を示すブロック図である。図３は、ＣＮＮの代表的な構成例を示す模式図である。図４は、セグメンテーションの例を示す図である。図５は、セグメンテーションの例を示す図である。図６は、画像処理方法の工程を説明するフロー図である。図７は、入力画像を示す図である。図８は、エッジ画像を示す図である。図９は、物体領域画像を示す図である。図１０は、セグメンテーションの例を示す図である。図１１は、セグメンテーションの例を示す図である。

以下、添付図面に従って本発明に係る画像処理装置、画像処理方法、およびプログラムの好ましい実施の形態について説明する。

図１は、本発明の画像処理装置を備えるコンピュータの外観を示す図である。

コンピュータ３は、本発明の一態様である画像処理装置１１（図２）を備えている。コンピュータ３には、入力画像２３が入力され、モニタ９で構成される表示部とキーボード５およびマウス７で構成される入力部が接続されている。なお、図示されたコンピュータ３の形態は一例であり、コンピュータ３と同様の機能を有する装置は本発明の画像処理装置１１を備えることができる。例えば、タブレット端末に画像処理装置１１を搭載することも可能である。

コンピュータ３は、入力画像２３に対して行ったセグメンテーションの結果として、例えばセグメンテーション画像をモニタ９に表示する。また、ユーザからのセグメンテーションの指令をキーボード５およびマウス７で受け付ける。

図２は、画像処理装置１１の機能構成例を示すブロック図である。画像処理装置１１は、主に画像取得部１３、画像特徴検出器１５、セグメンテーション器１７、表示制御部１９、記憶部２１を備える。

画像取得部１３は、セグメンテーション対象の被写体像を有する入力画像２３を処理対象画像として取得する。画像取得部１３は、有線または無線によりコンピュータ３に備えられる不図示の画像入出力インターフェースを用いて、入力画像２３を取得する。入力画像２３は、１枚のカラー画像であっても良いし、２値化されたＲ画像、Ｇ画像、Ｂ画像であっても良いし、２値化された白黒画像であってもよい。

画像特徴検出器１５は、第１の機械学習により学習した被写体像の特徴を、第１の機械学習により学習した態様により強調した強調画像を生成する。例えば、画像特徴検出器１５は、第１の機械学習により被写体像の輪郭を検出することを学習したエッジ検出器である。この場合画像特徴検出器１５は、強調画像として被写体像の輪郭が検出されたエッジ画像を生成する。画像特徴検出器１５は、画像内に複数の被写体像がある場合に、主要な被写体像に対して、エッジ検出を行い、エッジ画像を生成する。また例えば、画像特徴検出器１５は、第１の機械学習によりひび割れ像を検出することを学習したひび割れ検出器である。この場合画像特徴検出器１５は、強調画像としてひび割れ像が検出されたひび割れ画像を生成する。なお、画像特徴検出器１５の第１の機械学習は、公知の技術が適用される。

画像特徴検出器１５は、入力画像２３の被写体像の特徴を強調する部分であり、本例では、学習によって画像から特徴量を算出し、画像の特徴の強調処理を行う畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）、を含み、画像内の色情報、画素値の勾配等で特徴量を算出し強調する。ここで、画像の特徴の強調処理とは、例えばエッジ検出処理またはひび割れ検出処理のことである。

図３は、画像特徴検出器１５に適用されるＣＮＮの代表的な構成例を示す模式図である。

図３に示すように、ＣＮＮは、入力層１５Ａと、畳み込み層とプーリング層から構成された複数セット、及び全結合層を有する中間層１５Ｂと、出力層１５Ｃとを備え、各層は複数の「ノード」が「エッジ」で結ばれる構造となっている。

入力層１５Ａには、認識処理の対象である画像が入力される。

中間層１５Ｂは、畳み込み層とプーリング層とを１セットとする複数セットと、全結合層とを有し、入力層から入力した画像から特徴を抽出する。畳み込み層は、前の層で近くにあるノードにフィルタ処理し（フィルタを使用した畳み込み演算を行い）、「特徴マップ」を取得する。プーリング層は、畳み込み層から出力された特徴マップを縮小して新たな特徴マップとする。「畳み込み層」は、画像からのエッジ抽出等の特徴抽出の役割を担い、「プーリング層」は抽出された特徴が、平行移動などによる影響を受けないようにロバスト性を与える役割を担う。

尚、中間層１５Ｂには、畳み込み層とプーリング層とを１セットとする場合に限らず、畳み込み層が連続する場合や正規化層も含まれる。また、各畳み込み層にて使用されるフィルタのパラメータは、予め多数の学習データ（本例では、画像とその画像中のセグメンテーション対象の被写体像の正解エッジ画像）により自動的に学習されている。

出力層１５Ｃは、中間層１５Ｂにより抽出された特徴に基づき被写体像の特徴を強調した画像を出力する。

セグメンテーション器１７は、強調画像および処理対象画像に基づいて、第２の機械学習により学習した態様により、被写体像に対応する領域をセグメンテーションする。例えば、セグメンテーション器１７は、強調画像と処理対象画像のＲ画像、Ｇ画像、およびＢ画像とに基づいて、セグメンテーション画像を生成する。また、例えば、セグメンテーション器１７は、強調画像と処理対象画像のモノクロ画像とに基づいて、セグメンテーション画像を生成する。ここでモノクロ画像とは単色二値化された画像のことである。また、セグメンテーションとは、セグメンテーション対象の被写体像の画素で構成された領域とその他の画素で構成された領域とに区別する処理のことである。また、セグメンテーション器１７は、セグメンテーションを行った情報に基づきセグメンテーション画像を生成する。例えばセグメンテーション器１７は、セグメンテーションした被写体像に対応する領域を強調したセグメンテーション画像、セグメンテーションしたひび割れ像に対応する領域を強調したセグメンテーション画像、またはセグメンテーションした検査領域を強調したセグメンテーション画像を生成する。ここで、領域を強調するとは、例えばセグメンテーションした領域と他の領域とで異なる色で表現することである。

セグメンテーション器１７は、画像特徴検出器１５と同様に第２の機械学習が施される。なお、セグメンテーション器１７では、ＦＣＮ(Fully Convolution Network)が適用されてもよい。またセグメンテーション器１７への第２の機械学習は、予め多数の学習データ（本例では、画像および正解エッジ画像と画像中のセグメンテーション画像の被写体像の正解セグメンテーション結果）により学習されている。

表示制御部１９は、モニタ９による表示を制御する。例えば、表示制御部１９は、セグメンテーション器１７で生成されたセグメンテーション画像のモニタ９への表示を制御する。

記憶部２１は、入力された処理対象画像、画像特徴検出器１５で生成された強調画像、セグメンテーション器１７で行われるセグメンテーションに関する情報、およびセグメンテーション器１７で生成されるセグメンテーション画像を記憶する。また、記憶部２１には、画像処理装置１１の各種制御にかかる情報等が記憶される。

＜第１の実施形態＞
図４および図５は、第１の実施形態の画像処理装置１１におけるセグメンテーションの例を示す図である。第１の実施形態では画像特徴検出器１５はエッジ検出器として機能し、セグメンテーション器１７は物体検出器として機能する。

図４では画像処理装置１１における処理の流れが概念的に示されており、図５では入力画像（処理対象画像）、強調画像としてのエッジ画像２７、およびセグメンテーション画像としての物体領域画像３５が示されている。

図４に示すように、画像取得部１３により、入力画像２３（入力画像２３のＲ画像２３Ａ、Ｇ画像２３Ｂ、およびＢ画像２３Ｃ）が取得される。ここで、入力画像２３のＲ画像２３Ａは赤色の二値化された画像であり、Ｇ画像２３Ｂは緑色の二値化された画像、およびＢ画像２３Ｃは青色の二値化された画像を意味する。そして、Ｒ画像２３Ａ、Ｇ画像２３Ｂ、およびＢ画像２３Ｃの３チャンネルで構成された入力画像２３がエッジ検出Ｎｅｔ（ニューラルネットワーク）２５で構築されたエッジ検出器に入力される。そして、エッジ検出Ｎｅｔ２５により、エッジ画像２７が生成される。すなわち、この場合画像特徴検出器１５は、第１の機械学習により被写体像の輪郭を検出することを学習したエッジ検出Ｎｅｔ２５（エッジ検出器）であり、強調画像として輪郭が検出されたエッジ画像２７を生成される。

図５には、エッジ検出Ｎｅｔ２５に入力される入力画像２３（Ｒ画像２３Ａ、Ｇ画像２３Ｂ、およびＢ画像２３Ｃ）、およびエッジ検出Ｎｅｔ２５で生成されるエッジ画像２７が示されている。入力画像２３は、主要被写体像である人１０１と背景である家１０３および木１０５を有している。エッジ検出Ｎｅｔ２５は、被写体像の輪郭のエッジを検出する（主要被写体像の領域を強調する）ように第１の機械学習をしているので、エッジ画像２７では人１０１の輪郭のエッジ１０７が検出されている。

図４に戻って、セグメンテーションＮｅｔ２９には、エッジ検出Ｎｅｔ２５で生成されたエッジ画像２７と、入力された入力画像２３（Ｒ画像２３Ａ、Ｇ画像２３Ｂ、およびＢ画像２３Ｃ）とが入力される。なお、セグメンテーション器１７は、セグメンテーションＮｅｔ２９で構成されている。セグメンテーションＮｅｔ２９は、第２の機械学習により学習して、エッジ画像２７および入力画像２３に基づいて被写体像に対応する領域を抽出する。ここで、被写体像に対応する領域を抽出するとは、画像を構成する画素毎に、抽出領域と背景領域で分類することをいう。セグメンテーションＮｅｔ２９は、輪郭の領域抽出の結果をセグメンテーションの結果３１として出力する。セグメンテーションＮｅｔ２９は、エッジ画像２７および３チャンネルの入力画像２３（Ｒ画像２３Ａ、Ｇ画像２３Ｂ、およびＢ画像２３Ｃ）が入力されるので、領域の境界が精度良く検出することができる。

セグメンテーションＮｅｔ２９は、セグメンテーションした被写体像に対応する領域を強調したセグメンテーション画像を生成する。図５には、セグメンテーションＮｅｔ２９から出力されたセグメンテーションの結果３１の一態様である物体領域画像３５（セグメンテーション画像）が示されている。物体領域画像３５は、セグメンテーションＮｅｔ２９のセグメンテーション結果が反映された画像である。具体的には、物体領域画像３５では、主要被写体像である人１０１がセグメンテーションされ、領域１０９で示されている。なお、セグメンテーションの結果３１の他の態様としては、セグメンテーションに関しての情報があげられる。具体的には、セグメンテーションに関しての情報は、画素毎にどの領域に属するかの情報である。

図６は、本発明の画像処理方法の工程を説明するフロー図である。

先ず、画像取得部１３により、入力画像２３のＲ画像２３Ａ、Ｇ画像２３Ｂ、Ｂ画像２３Ｃが取得される（ステップＳ１０、ステップＳ１１、およびステップＳ１２：画像取得ステップ）。その後、エッジ検出Ｎｅｔ２５に、Ｒ画像２３Ａ、Ｇ画像２３Ｂ、およびＢ画像２３Ｃが入力され、エッジ検出が行われる（ステップＳ１３）。その後、画像特徴検出器１５により、エッジ画像２７が出力される（ステップＳ１４：画像特徴検出ステップ）。

その後、Ｒ画像２３Ａ、Ｇ画像２３Ｂ、Ｂ画像２３Ｃ、およびエッジ画像２７がセグメンテーションＮｅｔ２９に入力され、セグメンテーションが行われる（ステップＳ１５：セグメンテーションステップ）。そしてセグメンテーションＮｅｔ２９は、セグメンテーション画像を出力する（ステップＳ１６）。

上記実施形態において、各種の処理を実行する処理部（processing unit）のハードウェア的な構造は、次に示すような各種のプロセッサ（processor）である。各種のプロセッサには、ソフトウェア（プログラム）を実行して各種の処理部として機能する汎用的なプロセッサであるＣＰＵ（Central Processing Unit）、ＦＰＧＡ（Field Programmable Gate Array）などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス（Programmable Logic Device：ＰＬＤ）、ＡＳＩＣ（Application Specific Integrated Circuit）などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路などが含まれる。

１つの処理部は、これら各種のプロセッサのうちの１つで構成されていてもよいし、同種または異種の２つ以上のプロセッサ（例えば、複数のＦＰＧＡ、あるいはＣＰＵとＦＰＧＡの組み合わせ）で構成されてもよい。また、複数の処理部を１つのプロセッサで構成してもよい。複数の処理部を１つのプロセッサで構成する例としては、第１に、クライアントやサーバなどのコンピュータに代表されるように、１つ以上のＣＰＵとソフトウェアの組合せで１つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第２に、システムオンチップ（System On Chip：ＳｏＣ）などに代表されるように、複数の処理部を含むシステム全体の機能を１つのＩＣ（Integrated Circuit）チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサを１つ以上用いて構成される。

さらに、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子などの回路素子を組み合わせた電気回路（circuitry）である。

上述の各構成および機能は、任意のハードウェア、ソフトウェア、或いは両者の組み合わせによって適宜実現可能である。例えば、上述の処理ステップ（処理手順）をコンピュータに実行させるプログラム、そのようなプログラムを記録したコンピュータ読み取り可能な記録媒体（非一時的記録媒体）、或いはそのようなプログラムをインストール可能なコンピュータに対しても本発明を適用することが可能である。

次に、エッジ画像および物体領域画像に関して詳しく説明をする。

図７は入力画像２０１を示す図であり、図８は図７に示された入力画像２０１から得られたエッジ画像２２１を示す図であり、図９は入力画像２０１から得られた物体領域画像２３１を示す図である。

図７に示された入力画像２０１は、セグメンテーション対象の主要被写体像である人２０３を有する。また、入力画像２０１は、人２０３の他に、帽子２０５、影２０７、山２０９、海２１１の像を有している。

図８に示されたエッジ画像２２１は、入力画像２０１がエッジ検出Ｎｅｔ２５に入力され、エッジ検出Ｎｅｔ２５により生成される。エッジ画像２２１は、入力画像２０１における人２０３の輪郭が検出され、人の輪郭２２３を有する。エッジ検出Ｎｅｔ２５は第１の機械学習が施され人の輪郭２２３を検出している。

エッジ画像２２１の箇所２２５では、人の輪郭２２３でない箇所も輪郭として検出されている。また、エッジ画像２２１の箇所２２９では、影２０７の輪郭が検出されている。また、エッジ画像２２１の箇所２２７では、帽子２０５の輪郭が検出されており、人の輪郭２２３において上手く検出されていない部分もある。

図９に示された物体領域画像２３１は、入力画像２０１およびエッジ画像２２１がセグメンテーションＮｅｔ２９に入力され、セグメンテーションＮｅｔ２９により生成される。セグメンテーションＮｅｔ２９は、入力画像２０１およびエッジ画像２２１が入力されることにより、人の領域２３３の境界が精度良く検出することができる。

例えば物体領域画像２３１の箇所２２５では、人の領域２３３の境界を正確に検出することができている。また、エッジ画像２２１では影２０７の輪郭が検出されてしまったが、物体領域画像２３１の箇所２２５では、人の領域２３３の境界を正確に検出することができている。また、エッジ画像２２１では帽子２０５の輪郭が検出されていたり、人の輪郭２２３が上手く検出されていなかったりしたが、物体領域画像２３１の箇所２２７および箇所２２９では、人の領域２３３の境界が精度良く検出されている。

＜第２の実施形態＞
次に、第２の実施形態に関して説明する。本実施形態では、画像特徴検出器１５はひび割れ検出器として機能し、セグメンテーション器１７はひび割れ領域検出器として機能する。

図１０および図１１は、第２の実施形態の画像処理装置１１におけるセグメンテーションの例を示す図である。図１０では画像処理装置１１における処理の流れが概念的に示されており、図１１では入力画像（処理対象画像）３７、強調画像としてのひび割れ画像４１、およびセグメンテーション画像としてのひび割れ領域画像４３が示されている。

図１０に示すように、画像取得部１３により、入力画像３７（入力画像３７のＲ画像３７Ａ、Ｇ画像３７Ｂ、およびＢ画像３７Ｃ）が取得される。そして、Ｒ画像３７Ａ、Ｇ画像３７Ｂ、およびＢ画像３７Ｃの３チャンネルで構成された入力画像３７がひび割れ検出Ｎｅｔ（ニューラルネットワーク）３９で構築されたひび割れ検出器に入力される。そして、ひび割れ検出Ｎｅｔ３９により、ひび割れ画像４１が生成される。

図１１には、入力画像２３およびひび割れ画像４１が示されている。入力画像２３は、セグメンテーション対象の被写体像としてひび割れ像１１１を有する。ひび割れ検出Ｎｅｔ３９は、第１の機械学習により学習し、ひび割れ像１１１を検出しひび割れ画像４１を生成する。ひび割れ画像４１では、ひび割れ検出Ｎｅｔ３９で検出されたひび割れ像１１３が示されている。

図１０に戻って、ひび割れ検出Ｎｅｔ３９で生成されたひび割れ画像４１と、入力された入力画像３７（Ｒ画像３７Ａ、Ｇ画像３７Ｂ、およびＢ画像３７Ｃ）がセグメンテーションＮｅｔ４３に入力される。そして、セグメンテーションＮｅｔ４３は、第２の機械学習により学習して、ひび割れ画像４１画像および入力画像３７に基づいてひび割れの領域を抽出する。ここで、ひび割れの領域とは、必ずしもひび割れ像１１３に一致する領域には限られない。例えば、セグメンテーションＮｅｔ４３は、ひび割れ像１１３を含む所定の範囲の領域をセグメンテーションしてもよい。またセグメンテーションＮｅｔ４３は、ひび割れ像１１３を含む太線の検査領域をセグメンテーションしてもよい。また、セグメンテーションＮｅｔ４３は、ひび割れ像１１３を含む矩形の検査領域をセグメンテーションしてもよい。また、セグメンテーションＮｅｔ４３は、セグメンテーションしたひび割れ像１１３の領域を強調したひび割れ領域画像４３を生成してもよい。また、セグメンテーションＮｅｔ４３は、セグメンテーションした検査領域を強調したひび割れ領域画像４３を生成してもよい。

セグメンテーションＮｅｔ４３は、セグメンテーションの結果４５としてひび割れ領域を強調したひび割れ領域画像４３を生成する。図１１には、ひび割れ領域画像４３が示されている。ひび割れ領域画像４３は、検出されたひび割れ像１１３に応じてセグメンテーションされて検査領域１１５で示されている。セグメンテーションＮｅｔ４３で出力されるひび割れ領域画像４３では、ひび割れ画像４１および３チャンネルの入力画像３７（Ｒ画像３７Ａ、Ｇ画像３７Ｂ、およびＢ画像３７Ｃ）が入力されるので、検査領域１１５の境界が精度良く検出されている。

以上で本発明の例に関して説明してきたが、本発明は上述した実施の形態に限定されず、本発明の精神を逸脱しない範囲で種々の変形が可能であることは言うまでもない。

３：コンピュータ
５：キーボード
７：マウス
９：モニタ
１１：画像処理装置
１３：画像取得部
１５：画像特徴検出器
１７：セグメンテーション器
１９：表示制御部
２１：記憶部
２３：入力画像
２７：エッジ画像
３５：物体領域画像
３７：入力画像
４１：ひび割れ画像
４３：ひび割れ領域画像
ステップＳ１０−Ｓ１６：画像処理工程

Claims

セグメンテーション対象の被写体像を有する処理対象画像を取得する画像取得部と、
第１の機械学習により学習した前記被写体像の特徴を、前記第１の機械学習により学習した態様により強調した強調画像を生成する画像特徴検出器と、
前記強調画像および前記処理対象画像に基づいて、第２の機械学習により学習した態様により、前記被写体像に対応する領域をセグメンテーションするセグメンテーション器と、
を備える画像処理装置。
前記セグメンテーション器は、前記強調画像と前記処理対象画像のＲ画像、Ｇ画像、およびＢ画像とに基づいて、セグメンテーション画像を生成する請求項１に記載の画像処理装置。
前記セグメンテーション器は、前記強調画像と前記処理対象画像のモノクロ画像とに基づいて、セグメンテーション画像を生成する請求項１に記載の画像処理装置。
前記画像特徴検出器は、前記第１の機械学習により前記被写体像の輪郭を検出することを学習したエッジ検出器であり、前記強調画像として前記輪郭が検出されたエッジ画像を生成し、
前記セグメンテーション器は、前記第２の機械学習により学習して、前記エッジ画像および前記処理対象画像に基づいて前記被写体像に対応する領域を抽出する請求項１から３のいずれか１項に記載の画像処理装置。
前記セグメンテーション器は、セグメンテーションした前記被写体像に対応する領域を強調したセグメンテーション画像を生成する請求項４に記載の画像処理装置。
前記画像取得部は、前記セグメンテーション対象の前記被写体像としてひび割れ像を有する前記処理対象画像を取得し、
前記画像特徴検出器は、前記第１の機械学習により前記ひび割れ像を検出することを学習したひび割れ検出器であり、前記強調画像として前記ひび割れ像が検出されたひび割れ画像を生成し、
前記セグメンテーション器は、前記第２の機械学習により学習して、前記ひび割れ画像および前記処理対象画像に基づいて前記ひび割れ像に対応する領域を抽出する請求項１から３のいずれか１項に記載の画像処理装置。
前記セグメンテーション器は、前記ひび割れ像を含む検査領域をセグメンテーションする請求項６に記載の画像処理装置。
前記セグメンテーション器は、前記ひび割れ像を含む太線の前記検査領域をセグメンテーションする請求項７に記載の画像処理装置。
前記セグメンテーション器は、前記ひび割れ像を含む矩形の前記検査領域をセグメンテーションする請求項８に記載の画像処理装置。
前記セグメンテーション器は、セグメンテーションした前記ひび割れ像に対応する領域を強調したセグメンテーション画像を生成する請求項６に記載の画像処理装置。
前記セグメンテーション器は、セグメンテーションした前記検査領域を強調したセグメンテーション画像を生成する請求項７から９のいずれか１項に記載の画像処理装置。
セグメンテーション対象の被写体像を有する処理対象画像を取得する画像取得ステップと、
第１の機械学習により学習した前記被写体像の特徴を、前記第１の機械学習により学習した態様により強調した強調画像を生成する画像特徴検出ステップと、
前記強調画像および前記処理対象画像に基づいて、第２の機械学習により学習した態様により、前記被写体像に対応する領域をセグメンテーションするセグメンテーションステップと、
を含む画像処理方法。
セグメンテーション対象の被写体像を有する処理対象画像を取得する画像取得ステップと、
第１の機械学習により学習した前記被写体像の特徴を、前記第１の機械学習により学習した態様により強調した強調画像を生成する画像特徴検出ステップと、
前記強調画像および前記処理対象画像に基づいて、第２の機械学習により学習した態様により、前記被写体像に対応する領域をセグメンテーションするセグメンテーションステップと、
を含む画像処理工程をコンピュータに実行させるプログラム。