JP7252158B2

JP7252158B2 - 学習方法、学習装置、画像解析装置、及びプログラム

Info

Publication number: JP7252158B2
Application number: JP2020044137A
Authority: JP
Inventors: 正志藏之下
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2020-03-13
Filing date: 2020-03-13
Publication date: 2023-04-04
Anticipated expiration: 2040-03-13
Also published as: JP2021144589A

Description

本発明は、学習方法、学習装置、画像解析装置、及びプログラムに関する。

ディープラーニング（Deep Learning）により学習が行われた機械学習器に画像を入力し、画像に写っている物体（物体の領域）を塗り分けるセグメンテーションが行われている。ディープラーニングの学習には、ＧＰＵ（Graphics Processing Unit）が用いられることが多い。ＧＰＵの計算に使用されるメモリの容量には制限があることから、ディープラーニングで学習できる画像サイズには制限が出てくる。

そこで、ディープラーニングを使用してセグメンテーションを行う機械学習器を作成する場合には、元の画像から画像サイズを縮小した画像を学習に使用するか、又は特許文献１に記載されるように、元の画像を所定の画像サイズで分割して生成した分割画像を学習に使用することが考えられる。

特開２０１９－２３３９２号公報

しかしながら、上述の二つの学習手法にはそれぞれ次のような問題がある。元の画像から画像サイズを縮小した画像を学習に使用する場合には、画像サイズを縮小するために元の画像における局所部分の情報が失われた画像による学習になってしまい、正確なセグメンテーションを行う機械学習器を得ることができない場合がある。

一方、特許文献１に記載されるように、元の画像を基準画素数で分割して生成した分割画像を学習に使用する場合には、画像の一部を切り出した分割画像が画像に使用されるために、画像全体の情報が失われた画像での学習になってしまい、正確なセグメンテーションを行う機械学習器を得ることができない場合がある。

本発明はこのような事情に鑑みてなされたもので、その目的は、正確な領域の分類を行うことができる機械学習器の学習方法、学習装置、画像解析装置、及びプログラムを提供することである。

上記目的を達成するための、本発明の一の態様である学習方法は、複数の領域を含む被写体が撮影された第１画像を取得する第１画像取得ステップと、第１画像を縮小した第２画像を生成する第２画像取得ステップと、第１画像を複数の領域で分割し、複数の第３画像を切り出す第３画像切出ステップと、第２画像を第１機械学習器に入力し、第１機械学習器から複数の領域をそれぞれ分類した全体推定画像である第４画像を取得する第４画像取得ステップと、第４画像から複数の第３画像の各々に対応する複数の第５画像を切り出す第５画像切出ステップと、第１画像に対応して作成され、複数の領域をそれぞれ分類した正解画像の複数の局所正解画像であって、複数の第３画像に対応する局所正解画像を取得する局所正解画像取得ステップと、複数の第３画像及び複数の第５画像のうちのそれぞれ対応する第３画像及び第５画像を第２機械学習器の入力画像とし、第２機械学習器から得られる局所推定画像を、複数の局所正解画像のうち入力した第３画像に対応する局所正解画像に合わせ込む学習を行わせる局所学習ステップと、を含む。

本態様によれば、第２機械学習器には、第１画像を分割した局所的な画像である第３画像と、第１画像から推定された全体推定画像（第４画像）を分割して得られる第５画像が入力される。これにより、本態様は、第５画像が有する画像全体に関する情報を反映させて、局所的な画像である第３画像について複数の領域の分類を行う第２機械学習器の学習が行われるので、学習が行われた第２機械学習器はより正確な領域の分類を行うことができる。

好ましくは、第２画像を第１機械学習器の入力画像とし、第１機械学習器から得られる全体推定画像である第４画像を、正解画像に合わせ込む学習を行わせる全体学習ステップを含む。

好ましくは、局所学習ステップでの学習と、全体学習ステップでの学習とは転移学習である。

好ましくは、第１画像取得ステップでは、複数の領域を含む被写体が撮影された画像に対して、拡大処理、縮小処理、画像切り出し、コントラスト調整処理、及びエッジ強調処理の少なくとも一つの処理を行って第１画像とする。

好ましくは、第３画像切出ステップでは、第１画像を互いにオーバーラップする複数の領域で分割し、第３画像を切り出す。

好ましくは、第１画像取得ステップで取得される第１画像は、損傷箇所を有する構造物が被写体として撮影されている。

本発明の他の態様である画像解析装置は、上述の学習方法により学習された第２機械学習器と、複数の領域を含む被写体が撮影された第１画像を記憶するメモリと、プロセッサとを備える画像解析装置であって、プロセッサは、メモリに記憶されている第１画像を縮小した第２画像を生成し、メモリに記憶されている第１画像を複数の領域で分割し、複数の第３画像を切り出し、第２画像を第１機械学習器に入力し、第１機械学習器から複数の領域をそれぞれ分類した全体推定画像である第４画像を取得し、第４画像から複数の第３画像の各々に対応する複数の第５画像を切り出し、第１画像に対応して作成され、複数の領域をそれぞれ分類した正解画像の複数の局所正解画像であって、複数の第３画像に対応する局所正解画像を取得し、複数の第３画像及び複数の第５画像のうちのそれぞれ対応する第３画像及び第５画像を第２機械学習器に入力し、第２機械学習器から複数の領域をそれぞれ分類した局所推定画像を取得する。

本発明の他の態様である画像解析装置は、上述の学習方法により学習された第１機械学習器及び第２機械学習器と、複数の領域を含む被写体が撮影された第１画像を記憶するメモリと、プロセッサとを備える画像解析装置であって、プロセッサは、メモリに記憶されている第１画像を縮小した第２画像を生成し、メモリに記憶されている第１画像を複数の領域で分割し、複数の第３画像を切り出し、第２画像を第１機械学習器に入力し、第１機械学習器から複数の領域をそれぞれ分類した全体推定画像である第４画像を取得し、第４画像から複数の第３画像の各々に対応する複数の第５画像を切り出し、第１画像に対応して作成され、複数の領域をそれぞれ分類した正解画像の複数の局所正解画像であって、複数の第３画像に対応する局所正解画像を取得し、複数の第３画像及び複数の第５画像のうちのそれぞれ対応する第３画像及び第５画像を第２機械学習器に入力し、第２機械学習器から複数の領域をそれぞれ分類した局所推定画像を取得する。

好ましくは、プロセッサは、局所推定画像を合成して、第１画像の解析結果画像を生成する。

本発明の他の態様である学習装置は、複数の領域を含む被写体が撮影された第１画像及び複数の領域をそれぞれ分類した正解画像を記憶するメモリと、プロセッサとを備える学習装置であって、プロセッサは、メモリに記憶されている第１画像を縮小した第２画像を生成し、メモリに記憶されている第１画像を複数の領域で分割し、複数の第３画像を切り出し、第２画像を第１機械学習器に入力し、第１機械学習器から複数の領域をそれぞれ分類した全体推定画像である第４画像を取得し、第４画像から複数の第３画像の各々に対応する複数の第５画像を切り出し、第１画像に対応して作成され、複数の領域をそれぞれ分類した、メモリに記憶されている正解画像の複数の局所正解画像であって、複数の第３画像に対応する局所正解画像を取得し、複数の第３画像及び複数の第５画像のうちのそれぞれ対応する第３画像及び第５画像を第２機械学習器の入力画像とし、第２機械学習器から得られる局所推定画像を、複数の局所正解画像のうち入力した第３画像に対応する局所正解画像に合わせ込む学習を行わせる。

本発明の他の態様であるプログラムは、複数の領域を含む被写体が撮影された第１画像を取得する第１画像取得ステップと、第１画像を縮小した第２画像を生成する第２画像取得ステップと、第１画像を複数の領域で分割し、複数の第３画像を切り出す第３画像切出ステップと、第２画像を第１機械学習器に入力し、第１機械学習器から複数の領域をそれぞれ分類した全体推定画像である第４画像を取得する第４画像取得ステップと、第４画像から複数の第３画像の各々に対応する複数の第５画像を切り出す第５画像切出ステップと、第１画像に対応して作成され、複数の領域をそれぞれ分類した正解画像の複数の局所正解画像であって、複数の第３画像に対応する局所正解画像を取得する局所正解画像取得ステップと、複数の第３画像及び複数の第５画像のうちのそれぞれ対応する第３画像及び第５画像を第２機械学習器の入力画像とし、第２機械学習器から得られる局所推定画像を、複数の局所正解画像のうち入力した第３画像に対応する局所正解画像に合わせ込む学習を行わせる局所学習ステップと、を含む学習方法をコンピュータに実行させる。

本発明によれば、第２機械学習器には、第１画像を分割した局所的な画像である第３画像と、第１画像から推定された全体推定画像（第４画像）を分割して得られる第５画像が入力されるので、第５画像が有する画像全体に関する情報を反映させて、局所的な画像である第３画像について複数の領域の分類を行う第２機械学習器の学習が行われるので、学習が行われた第２機械学習器はより正確な領域の分類を行うことができる。

図１は、コンピュータのハードウェア構成の一例を示すブロック図である。図２は、学習方法を示すフロー図である。図３は、学習装置の主要な機能を示す機能ブロック図である。図４は、前処理部で行われる点検画像の縮小処理の例を説明する図である。図５は、点検画像の縮小する画像サイズに関して説明する図である。図６は、第２画像取得ステップを模式的に示す図である。図７は、第３画像切出ステップを模式的に示す図である。図８は、第４画像取得ステップを模式的に示す図である。図９は、第５画像切出ステップを模式的に示す図である。図１０は、第２機械学習器による局所推定画像の取得に関して説明する図である。図１１は、第２機械学習器及び第２合わせ込み部の詳細な機能ブロック図である。図１２は、学習装置の主要な機能を示す機能ブロック図である。図１３は、第１機械学習器及び第１合わせ込み部の詳細な機能ブロック図である。図１４は、画像解析装置の主要な機能を示す機能ブロック図である。図１５は、合成部での合成に関して説明する図である。

以下、添付図面にしたがって本発明に係る学習方法、学習装置、画像解析装置、及びプログラムの実施の形態について説明する。

＜ハードウェア構成＞
図１は、本発明の各実施形態を構成するコンピュータ１０のハードウェア構成の一例を示すブロック図である。

コンピュータ１０としては、パーソナルコンピュータ又はワークステーションを使用することができる。コンピュータ１０は、主として画像取得部１２と、ＧＰＵ（Graphics Processing Unit）１４、メモリ１６と、操作部１８と、ＣＰＵ（Central Processing Unit）２０と、ＲＡＭ(Random Access Memory)２２と、ＲＯＭ(Read Only Memory)２４と、表示部２６とから構成されている。なお、ＧＰＵ１４及びＣＰＵ２０をプロセッサとし、特にＧＰＵ１４を学習用プロセッサとしＣＰＵ２０を汎用プロセッサとする。

画像取得部１２は、学習に使用する画像（第１実施形態及び第２実施形態）又は画像解析（第３実施形態）に使用する画像を取得する。学習に使用する画像又は画像解析に使用する画像は複数の領域を含む被写体が撮影された撮影画像である。例えば、画像取得部１２は、構造物の損傷の点検を行う場合に撮影された点検画像を学習に使用する画像又は画像解析に使用する画像として取得する。なお、点検対象の構造物は、例えば、橋梁、トンネル等のコンクリート構造物を含む。また、構造物（特に鉄筋コンクリートの構造物）の損傷には、ひび割れ、鉄筋露出、コンクリート剥離、コンクリート打ち継ぎ目、又は目地の損傷等を含む。また、画像取得部１２は、学習に使用する画像に対応した正解画像を取得する。ここで、正解画像とは、画像の被写体が有する複数の領域を適切に分類した画像である。具体例としては、各領域に異なる色が付され各領域を分類した画像が挙げられる。正解画像は、手動により各領域が分類されてもよいし、画像処理により各領域が分類されてもよい。

点検画像とそれに対応する正解画像は、学習用データセットを構成する。また、後で説明を行うが点検画像を切り出した画像とそれに対応する正解画像を切り出した画像とは、学習用データセットを構成する。画像取得部１２が取得する点検画像は、画素単位でＲ（red；赤）、Ｇ（green；緑）及びＢ（blue；青）の各強度値（輝度値）を有する画像（いわゆるＲＧＢ画像）又はモノクロ画像である。画像取得部１２で取得された画像は、メモリ１６に記憶される。

メモリ１６は、ハードディスク装置、フラッシュメモリ等から構成される。メモリ１６は、画像取得部１２で取得された画像を記憶する。また、メモリ１６は、学習装置の学習結果や画像解析装置（第２実施形態）の画像解析結果を記憶する。また、メモリ１６は、オペレーティングシステム、学習及び画像解析に関するプログラムの他、パラメータ等のデータを記憶する。

操作部１８は、コンピュータ１０に有線接続又は無線接続されるキーボード及びマウス等が用いられ、画像に基づく構造物の点検に当たって各種の操作入力を受け付ける。

ＣＰＵ２０は、メモリ１６又はＲＯＭ２４等に記憶された各種のプログラムを読み出し、各種の処理を実行する。ＲＡＭ２２は、ＣＰＵ２０の作業領域として使用され、読み出されたプログラムや各種のデータを一時的に記憶する記憶部として用いられる。

ＧＰＵ１４も、ＣＰＵ２０と同様にメモリ１６又はＲＯＭ２４等に記憶された各種のプログラムを読み出し、各種の処理を実行する。特にＧＰＵ１４は、機械学習又は機械学習器に関連した処理を実行する。

表示部２６は、コンピュータ１０に接続可能な液晶モニタ等の各種モニタが用いられ、操作部１８とともに、ユーザインターフェースの一部として使用される。

コンピュータ１０は、操作部１８からの指示入力によりＣＰＵ２０が、メモリ１６又はＲＯＭ２４に記憶されているプログラムを読み出し、プログラムを実行することにより、各種の機能を実現させる。

＜第１実施形態＞
先ず、第１実施形態に関して説明する。第１実施形態では、第２検出部１０６の第２機械学習器１２０（図３を参照）の学習が行われる。

図２は、コンピュータ１０を使用して行われる本実施形態の学習方法を示すフロー図である。また、図３は、本実施形態の学習装置３００の主要な機能を示す機能ブロック図である。なお、図３に示した機能ブロック図に記載された各機能は、ＣＰＵ２０及びＧＰＵ１４により実現される。以下に図２及び図３を用いて、学習方法に関して説明する。なお、各ステップの詳細は後で説明を行う。

画像取得部１２で取得された点検画像１５０及び正解画像１５２をメモリ１６に記憶する（第１画像取得ステップ：ステップＳ１０）。メモリ１６に記憶されている点検画像１５０及び正解画像１５２は、前処理部１０２に送られる。

前処理部１０２により、点検画像１５０及び正解画像１５２を所望の大きさに縮小又は拡大する（第１画像取得ステップ：ステップＳ１１）。前処理部１０２で処理された点検画像１５０は第１画像Ａとし、前処理部１０２で処理された正解画像１５２は全体正解画像αとする。その後、第１画像Ａは第１切出部１０４及び縮小部１０８に送られ、全体正解画像αは第３切出部１１８に送られる。なお、前処理部１０２は、後段で行われる処理を効率的に行われるための処理を行う。したがって、点検画像１５０及び正解画像１５２が後段で行われる処理に適している状態であれば、前処理部１０２を省略することもできる。

縮小部１０８は、第１画像Ａを縮小し第２画像Ｂを生成する（第２画像生成ステップ：ステップＳ１２）。そして第２画像Ｂは、第１検出部１１０に送られる。また、第１切出部１０４は、第１画像Ａから等間隔で所定の領域で第３画像Ｃ１～Ｃ９（図５を参照）を切り出す（第３画像切出ステップ：ステップＳ１３）。そして第３画像Ｃ１～Ｃ９は、第２検出部１０６に送られる。

第１検出部１１０は、第１機械学習器（図３ではＡＩ１と記載する）１２４により、第２画像Ｂにおける複数の領域をそれぞれ分類するセグメンテーションを行い、全体推定画像である第４画像Ｄを取得する（第４画像取得ステップ：ステップＳ１４）。そして第４画像Ｄは、第２切出部１１２に送られる。

第２切出部１１２は、第１切出部１０４で切り出した第３画像Ｃ１～Ｃ９に対応するように、第４画像Ｄから第５画像Ｅ１～Ｅ９を切り出す（第５画像切出ステップ：ステップＳ１５）。その後、第５画像Ｅ１～Ｅ９が第２検出部１０６に入力される。

第３切出部１１８は、第１切出部１０４で切り出した第３画像Ｃ１～Ｃ９に対応するように、入力された全体正解画像αから局所正解画像β１～β９を切り出す（ステップＳ１６）。その後、局所正解画像β１～β９が第２検出部１０６に入力される。

第２検出部１０６では、第２機械学習器（図３ではＡＩ２と記載する）１２０に、第３画像Ｃ１～Ｃ９と第５画像Ｅ１～Ｅ９とのうち対応する画像が入力される。そして、第２機械学習器１２０により、セグメンテーションが行われた各局所推定画像Ｆ１～Ｆ９が取得される。そして、第２合わせ込み部１２２は、局所正解画像β１～β９の各々に局所推定画像Ｆ１～Ｆ９を合わせ込む（局所学習ステップ：ステップＳ１７）。

次に、上述した各ステップに関して詳細な説明を行う。

＜第１画像取得ステップ＞
第１画像取得ステップ（ステップＳ１０及びステップＳ１１）は画像取得部１２及び前処理部１０２で行われる。画像取得部１２は、例えば損傷箇所として鉄筋露出Ｕ１及びコンクリート剥離Ｕ２（図４参照）を有する橋梁を撮影した点検画像１５０を取得する。画像取得部１２で取得された点検画像１５０及び正解画像１５２は、メモリ１６に記憶される。点検画像１５０に対応する正解画像１５２は、学習セットを構成する。メモリ１６には、単数又は複数の学習セットが記憶されている。

前処理部１０２は、メモリ１６に記憶されている点検画像１５０及び正解画像１５２に対して前処理を行う。前処理は、後のセグメンテーションの処理が適切に及び効率的に行われるための処理であり、具体的には、拡大処理、縮小処理、画像切り出し、コントラスト調整処理、及びエッジ強調処理の少なくとも一つの処理である。

図４は、前処理部１０２で行われる点検画像１５０の縮小処理の例を説明する図である。

点検画像１５０は、６０００×４０００画素（２４００万画素）の画像サイズを有する。この画像サイズは、ＧＰＵ１４でディープラーニングを行う場合には大きい。例えば、メモリの容量の制限が１２ＧＢｙｔｅであるＧＰＵ１４でディープラーニングを行う場合には、適切に処理が行えるのは、画像サイズが１０２４×１０２４画素程度の画像である。したがって、前処理部１０２において点検画像１５０を縮小する必要がある。

図５は、点検画像１５０の縮小する画像サイズに関して説明する図である。

図５に示すように、前処理部１０２により、点検画像１５０は、５１２×５１２画素の画像サイズ有する画像（Ｎｏ１～Ｎｏ９）を３×３で配列することができる画像サイズに縮小処理される。すなわち、前処理部１０２は、点検画像１５０を１１５２×１１５２画素の画素サイズを有する第１画像Ａに縮小する。なお、Ｎｏ１～９は、オーバーラップ部Ｖを有する。オーバーラップ部Ｖを有することにより、第２実施形態において後段で合成処理を行う場合により精度良く合成処理を行うことができる。

＜第２画像取得ステップ＞
第２画像取得ステップ（ステップＳ１２）は縮小部１０８により行われる。縮小部１０８は、第１画像Ａを縮小して第２画像Ｂを取得する。

図６は、第２画像取得ステップを模式的に示す図である。

図６に示すように、縮小部１０８は、１１５２×１１５２画素の画像サイズを有する第１画像Ａを縮小して５１２×５１２画素の画像サイズを有する第２画像Ｂを生成する。縮小部１０８は、様々な手法を使用して第１画像Ａの画像サイズを縮小する。例えば、縮小部１０８は、第１画像Ａの画素を間引き、バイリニア補間を行うことで、第１画像Ａを縮小し第２画像Ｂを生成する。

＜第３画像切出ステップ＞
第３画像切出ステップ（ステップＳ１３）は第１切出部１０４で行われる。第１切出部１０４は、第１画像Ａから複数の第３画像Ｃ１～Ｃ９を切り出す。

図７は、第３画像切出ステップを模式的に示す図である。

第１切出部１０４は、図５で説明を行ったように３×３（Ｎｏ１～Ｎｏ９）の配列で、第１画像Ａから９枚の第３画像Ｃ１～Ｃ９を切り出す。図７に示した場合では、第１切出部１０４により、Ｎｏ５の画像（以下では、第３画像Ｃ５と記載する）が切り出されている。また、図５で説明を行ったように、第３画像Ｃ１～Ｃ９の各々は、５１２×５１２画素の画像サイズを有する画像である。

＜第４画像取得ステップ＞
第４画像取得ステップ（ステップＳ１４）は第１検出部１１０で行われる。第１検出部１１０は、第１機械学習器１２４で構成されている。本実施形態においては、既に学習が行われた第１機械学習器１２４であって、入力された画像に対してセグメンテーションを行うように学習が行われた検出器である。第１機械学習器１２４は、深層学習（ディープラーニング）モデルの一つである畳み込みニューラルネットワーク（ＣＮＮ：Convolution Neural Network）が使用されている。

図８は、第４画像取得ステップを模式的に示す図である。

第１機械学習器１２４は、入力された第２画像Ｂにおける損傷箇所（鉄筋露出Ｕ１及びコンクリート剥離Ｕ２）についてセグメンテーションを行った第４画像Ｄを出力する。具体的には、第１機械学習器１２４は、第２画像Ｂにおける橋梁の損傷である鉄筋露出Ｕ１及びコンクリート剥離Ｕ２に対して、鉄筋露出Ｕ１及びコンクリート剥離Ｕ２を検出し分類した第４画像Ｄを出力する（図中の矢印Ｓ及び矢印Ｒを参照）。例えば、第１機械学習器１２４で出力される第４画像Ｄでは、鉄筋露出Ｕ１の領域は赤色で塗られており、コンクリート剥離Ｕ２の領域は青色で塗られている。ここで第１機械学習器１２４に入力される第２画像Ｂは、１１５２×１１５２画素の画像サイズを有する第１画像Ａから、５１２×５１２画素の画像サイズに縮小処理を行われた画像である。また第２画像Ｂは、切り出しが行われた画像ではなく、点検画像１５０が有する全体の被写体を有する全体画像である。したがって、第１機械学習器１２４は、画像サイズが縮小されたことにより局所部分の情報が失われている（減少している）が点検画像１５０の被写体の全体の情報に基づいて、セグメンテーションを行うことができる。

＜第５画像切出ステップ＞
第５画像切出ステップ（ステップＳ１５）は、第２切出部１１２で行われる。第２切出部１１２は、第４画像Ｄから第５画像Ｅ１～Ｅ９を切り出す。

図９は、第５画像切出ステップを模式的に示す図である。

第２切出部１１２は、入力された第４画像Ｄから第３画像Ｃ１～Ｃ９に対応する第５画像Ｅ１～Ｅ９を切り出す。図９に示す場合では、第２切出部１１２により、第４画像Ｄから第３画像Ｃ５に対応する第５画像Ｅ５が切り出されている。そして、第２切出部１１２は、切り出した第５画像Ｅ１～Ｅ９を拡大して、第３画像Ｃ１～Ｃ９の各々と同じように５１２×５１２画素の画像サイズとする。

＜局所正解画像取得ステップ及び局所学習ステップ＞
局所正解画像取得ステップ（ステップＳ１６）は第３切出部１１８で行われる。第３切出部１１８は、全体正解画像αから、図５で説明をした第３画像Ｃ１～Ｃ９に対応するように局所正解画像β１～β９を切り出す。

局所学習ステップ（ステップＳ１７）は第２検出部１０６で行われる。第２検出部１０６は、第２機械学習器（図３ではＡＩ２と記載する）１２０と第２合わせ込み部１２２で構成されている。第２機械学習器には、第３画像Ｃ１～Ｃ９及び第５画像Ｅ１～Ｅ９が入力され、局所推定画像Ｆ１～Ｆ９を出力する。そして、第２合わせ込み部１２２により出力された局所推定画像Ｆ１～Ｆ９を局所正解画像β１～β９に合わせ込む学習が行われる。

図１０は、第２機械学習器１２０による局所推定画像Ｆ１～Ｆ９の取得に関して説明する図である。

図１０に示した場合では、第３画像Ｃ５と対応する第５画像Ｅ５とが第２機械学習器１２０に入力される。ここで、第３画像Ｃ５は、第１切出部１０４で説明したように、第１画像Ａを分割して切り出し画像であり、第１画像Ａの被写体の全体的な情報は有していないが、第１画像Ａの各領域の被写体の局所的な情報を有している。一方、第５画像Ｅ５は、第１画像Ａの各領域の被写体の局所的な情報を有していないが、第１画像Ａの被写体の全体的な情報を有している。したがって、第２機械学習器１２０は、第５画像Ｅ５が有する画像全体に関する情報を反映させて、局所的な画像である第３画像Ｃ５が入力され、それらに基づいて、局所推定画像Ｆ５を出力する。

次に、第２合わせ込み部１２２による局所推定画像Ｆ１～Ｆ５を局所正解画像β１～β９に合わせ込む学習に関して説明する。

図１１は、第２検出部１０６を構成する第２機械学習器１２０及び第２合わせ込み部１２２の詳細な機能ブロック図である。

第２検出部１０６は、主として第２機械学習器１２０と、第２機械学習器１２０に機械学習させる第２合わせ込み部１２２として機能する損失値算出部５４及びパラメータ制御部５６とを備えている。

第２機械学習器１２０は、深層学習（ディープラーニング）モデルの一つである畳み込みニューラルネットワーク（ＣＮＮ）が使用されている。

第２機械学習器１２０は、複数のレイヤー構造を有し、複数の重みパラメータを保持している。第２機械学習器１２０は、重みパラメータが初期値から最適値に更新されることで、未学習モデルから学習済みモデルに変化しうる。第２機械学習器１２０の重みパラメータの初期値は、任意の値でもよいし、例えば、画像の分類等を行う画像系の学習済みモデルの重みパラメータを適用してもよい。

この第２機械学習器１２０は、入力層５２Ａと、畳み込み層とプーリング層から構成された複数セットを有する中間層５２Ｂと、出力層５２Ｃとを備え、各層は複数の「ノード」が「エッジ」で結ばれる構造となっている。

図１１で示す場合では、入力層５２Ａには、学習対象である第５画像Ｅ５と第３画像Ｃ５とが入力される。ここで、入力層５２Ａに入力される画像は、第５画像Ｅ５と第３画像Ｃ５とのチャンネルを足し合わせて作成されたものである（Channel方向のconcatenateを行う）。具体的には、第３画像Ｃ５のＲ、Ｇ、及びＢの３チャンネルの画像及び、第５画像Ｅ５の鉄筋露出Ｕ１とコンクリート剥離Ｕ２の２チャンネルの画像が足し合わされて、５チャンネルの画像が入力されることになる。

中間層５２Ｂは、畳み込み層やプーリング層などを有し、入力層５２Ａから入力した画像から特徴を抽出する部分である。畳み込み層は、前の層で近くにあるノードにフィルタ処理し（フィルタを使用した畳み込み演算を行い）、「特徴マップ」を取得する。プーリング層は、畳み込み層から出力された特徴マップを縮小して新たな特徴マップとする。「畳み込み層」は、画像からのエッジ抽出等の特徴抽出の役割を担い、「プーリング層」は抽出された特徴が、平行移動などによる影響を受けないようにロバスト性を与える役割を担う。なお、中間層５２Ｂには、畳み込み層とプーリング層とが交互に配置される場合に限らず、畳み込み層が連続する場合や正規化層も含まれる。また、最終段の畳み込み層convは、入力画像である第３画像Ｃ５及び第５画像Ｅ５と同じサイズの特徴マップ（画像）であって、構造物の損傷及び損傷が原因で起こる事象を示す特徴マップを出力する部分である。

出力層５２Ｃは、第２機械学習器１２０の検出結果（本例では、局所推定画像Ｆ５）を出力する部分である。

損失値算出部５４は、第２機械学習器１２０の出力層５２Ｃから出力される検出結果（局所推定画像Ｆ５）と、入力画像（第３画像Ｃ５と第５画像Ｅ５）に対応する局所正解画像β５とを取得し、両者間の損失値を算出する。損失値の算出方法は、例えば、ジャッカード係数やダイス係数を用いることが考えられる。

パラメータ制御部５６は、損失値算出部５４により算出された損失値を元に、誤差逆伝播法により、局所正解画像β５と第２機械学習器１２０の出力との特徴量空間での距離を最小化させ、又は類似度を最大化させるべく、第２機械学習器１２０の重みパラメータを調整する。

このパラメータの調整処理を繰り返し行い、損失値算出部５４により算出される損失値が収束するまで繰り返し学習を行う。

このようにして学習用データセットを使用し、重みパラメータが最適化された学習済みの第２機械学習器１２０を作成する。

なお、図１０及び図１１では、それぞれ対応する第３画像Ｃ５、第５画像Ｅ５、局所推定画像Ｆ５、及び局所正解画像β５に関して説明を行った。同様にして、他の画像に関してもそれぞれ対応する画像同士により処理が行われる。

以上で説明したように、本実施形態においては、第２機械学習器１２０の学習が行われる。第２機械学習器１２０は、点検画像１５０の被写体の全体的な情報を有する第５画像Ｅと、点検画像１５０の被写体の局所的な情報を有する第３画像Ｃを入力画像とし、局所推定画像Ｆを出力する。そして第２機械学習器１２０は、出力した局所推定画像Ｆに基づいて学習が行われる。これにより、第２機械学習器１２０は、点検画像１５０の全体的な情報と局所的な情報に基づいて、セグメンテーションを行うように学習が行われる。

＜第２実施形態＞
次に第２実施形態に関して説明する。第２実施形態では、第１実施形態と同様に第２機械学習器１２０の学習を行うことに加えて、第１機械学習器１２４の学習も行われる。以下の説明では、第１機械学習器１２４の学習に関して主に説明を行う。

図１２は、本実施形態に係る学習装置４００の主要な機能を示す機能ブロック図である。なお、図３で説明した箇所は同じ符号を付し説明は省略する。

本実施形態の第１検出部１１０は、第１機械学習器１２４と第１合わせ込み部１２６とを備える。また、本実施形態の第１検出部１１０には、全体正解画像αが入力される。そして、第１検出部１１０においては、第１機械学習器１２４により出力される第４画像Ｄが出力され、第１合わせ込み部１２６により第４画像Ｄを全体正解画像αに合わせ込むように学習が行われる（全体学習ステップ）。

図１３は、第１検出部１１０を構成する第１機械学習器１２４及び第１合わせ込み部１２６の詳細な機能ブロック図である。なお、図１１で既に説明を行った箇所は同じ符号を付し説明は省略される。

第１機械学習器１２４は、第２画像Ｂを入力画像として、鉄筋露出Ｕ１とコンクリート剥離Ｕ２とがセグメンテーションされた第４画像Ｄを出力する。なお、入力画像は、第２画像ＢのＲ、Ｇ、及びＢの３チャンネルの画像である。

損失値算出部５４は、第１機械学習器１２４の出力層５２Ｃから出力される検出結果（第４画像Ｄ）と、入力画像（第２画像Ｂ）に対応する全体正解画像αとを取得し、両者間の損失値を算出する。

パラメータ制御部５６は、損失値算出部５４により算出された損失値を元に、誤差逆伝播法により、全体正解画像αと第１機械学習器１２４の出力との特徴量空間での距離を最小化させ、又は類似度を最大化させるべく、第１機械学習器１２４の重みパラメータを調整する。

このようにして学習用データセットを使用し、重みパラメータが最適化された学習済みの第１機械学習器１２４を作成する。

なお、本実施形態においては、第１検出部１１０で行われる学習と第２検出部１０６で行われる学習とは相互的に行われてもよい。具体的には、第１合わせ込み部１２６での結果と第２合わせ込み部１２２での結果とを相互的に利用し、転移学習が行われてもよい。第１合わせ込み部１２６での結果と第２合わせ込み部１２２での結果とを相互的に利用することにより、より効率的な学習を第１機械学習器１２４及び第２機械学習器１２０に行うことができる。

以上で説明したように、本実施形態においては、第１機械学習器１２４及び第２機械学習器１２０の学習が行われる。第１機械学習器１２４は、点検画像１５０の被写体の全体的な情報を有する第２画像Ｂを入力画像とし、全体推定画像である第４画像Ｄを出力する。また、第２機械学習器１２０は、点検画像１５０の被写体の全体的な情報を有する第５画像Ｅと、点検画像１５０の被写体の局所的な情報を有する第３画像Ｃを入力画像とし、局所推定画像Ｆを出力する。そして第２機械学習器１２０は、出力した局所推定画像Ｆに基づいて学習が行われる。これにより、第２機械学習器１２０は、点検画像１５０の全体的な情報と局所的な情報に基づいて、セグメンテーションを行うように学習が行われる。

＜第３実施形態＞
次に第３実施形態に関して説明する。本実施形態は、上述した第１実施形態及び第２実施形態により学習した第１機械学習器１２４及び第２機械学習器１２０を備えた画像解析装置である。

図１４は、本実施形態に係る画像解析装置５００の主要な機能を示す機能ブロック図である。なお、図３で既に説明を行った箇所は同じ符号を付し説明を省略する。

メモリ１６には、解析対象である点検画像１５０が記憶されている。メモリ１６に記憶された点検画像１５０は前処理部１０２に入力される。

前処理部１０２は、点検画像１５０を縮小処理して第１画像Ａを出力する。出力された第１画像Ａは、第１切出部１０４及び縮小部１０８に送られる。

第１切出部１０４は、第１画像Ａから第３画像Ｃ１～Ｃ９を切り出す。一方、縮小部１０８は、第１画像Ａの画像サイズを縮小して第２画像Ｂを取得する。そして第２画像Ｂは、第１検出部１１０に送られる。

第１検出部１１０は、機械学習が行われた第１機械学習器１２４により、第２画像Ｂに対してセグメンテーションが行われた第４画像Ｄを生成する。第４画像Ｄは、第２切出部１１２に送られる。第２切出部１１２は、第４画像Ｄから第５画像Ｅ１～Ｅ９を切り出す。そして、第５画像Ｅ１～Ｅ９は第２検出部１０６に送られる。

第２検出部１０６は、機械学習が行われた第２機械学習器１２０により、第３画像Ｃ１～Ｃ９と第５画像Ｅ１～Ｅ９とのそれぞれ対応する画像が入力されて、対応する局所推定画像Ｆ１～Ｆ９を出力する。そして、局所推定画像Ｆ１～Ｆ９は合成部１４０に送られる。

図１５は、合成部１４０での合成に関して説明する図である。

図１５に示すように、合成部１４０は、局所推定画像Ｆ１～Ｆ９が３×３で配置されるように合成を行い、合成画像Ｇを生成する。合成部１４０は、様々な技術により合成を行って、合成画像Ｇを生成する。例えば、合成部１４０はアルファブレンディングにより局所推定画像Ｆ１～Ｆ９を合成して合成画像Ｇを生成する。合成画像Ｇは第１画像Ａの解析結果画像である。

以上で説明したように、本実施形態の画像処理装置は、第１実施形態及び第２実施形態で学習が行われた第１機械学習器１２４及び第２機械学習器１２０を備えので、正確なセグメンテーションを行うことができる。

＜その他＞
上記実施形態において、各種の処理を実行する機能部（processing unit）のハードウェア的な構造は、次に示すような各種のプロセッサ（processor）である。各種のプロセッサには、ソフトウェア（プログラム）を実行して各種の処理部として機能する汎用的なプロセッサであるＣＰＵ（Central Processing Unit）、ＦＰＧＡ（Field Programmable Gate Array）などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス（Programmable Logic Device：ＰＬＤ）、ＡＳＩＣ（Application Specific Integrated Circuit）などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路などが含まれる。

１つの処理部は、これら各種のプロセッサのうちの１つで構成されていてもよいし、同種又は異種の２つ以上のプロセッサ（例えば、複数のＦＰＧＡ、あるいはＣＰＵとＦＰＧＡの組み合わせ）で構成されてもよい。また、複数の処理部を１つのプロセッサで構成してもよい。複数の処理部を１つのプロセッサで構成する例としては、第１に、クライアントやサーバなどのコンピュータに代表されるように、１つ以上のＣＰＵとソフトウェアの組合せで１つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第２に、システムオンチップ（System On Chip：ＳｏＣ）などに代表されるように、複数の処理部を含むシステム全体の機能を１つのＩＣ（Integrated Circuit）チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサを１つ以上用いて構成される。

さらに、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子などの回路素子を組み合わせた電気回路（circuitry）である。

上述の各構成及び機能は、任意のハードウェア、ソフトウェア、或いは両者の組み合わせによって適宜実現可能である。例えば、上述の処理ステップ（処理手順）をコンピュータに実行させるプログラム、そのようなプログラムを記録したコンピュータ読み取り可能な記録媒体（非一時的記録媒体）、或いはそのようなプログラムをインストール可能なコンピュータに対しても本発明を適用することが可能である。

以上で本発明の例に関して説明してきたが、本発明は上述した実施の形態に限定されず、本発明の精神を逸脱しない範囲で種々の変形が可能であることは言うまでもない。

１０：コンピュータ
１２：画像取得部
１４：ＧＰＵ
１６：メモリ
１８：操作部
２０：ＣＰＵ
２２：ＲＡＭ
２４：ＲＯＭ
２６：表示部
５２Ａ：入力層
５２Ｂ：中間層
５２Ｃ：出力層
５４：損失値算出部
５６：パラメータ制御部
１０２：前処理部
１０４：第１切出部
１０６：第２検出部
１０８：縮小部
１１０：第１検出部
１１２：第２切出部
１１８：第３切出部
１２０：第２機械学習器
１２２：第２合わせ込み部
１２４：第１機械学習器
１２６：第１合わせ込み部

Claims

複数の領域を含む被写体が撮影された第１画像を取得する第１画像取得ステップと、
前記第１画像を縮小した第２画像を生成する第２画像取得ステップと、
前記第１画像を複数の領域で分割し、複数の第３画像を切り出す第３画像切出ステップと、
前記第２画像を第１機械学習器に入力し、前記第１機械学習器から前記複数の領域をそれぞれ分類した全体推定画像である第４画像を取得する第４画像取得ステップと、
前記第４画像から前記複数の第３画像の各々に対応する複数の第５画像を切り出す第５画像切出ステップと、
前記第１画像に対応して作成され、前記複数の領域をそれぞれ分類した正解画像の複数の局所正解画像であって、前記複数の第３画像に対応する前記局所正解画像を取得する局所正解画像取得ステップと、
前記複数の第３画像及び前記複数の第５画像のうちのそれぞれ対応する前記第３画像及び前記第５画像を第２機械学習器の入力画像とし、前記第２機械学習器から得られる局所推定画像を、前記複数の局所正解画像のうち前記入力した前記第３画像に対応する局所正解画像に合わせ込む学習を行わせる局所学習ステップと、
を含む学習方法。
前記第２画像を前記第１機械学習器の入力画像とし、前記第１機械学習器から得られる前記全体推定画像である前記第４画像を、前記正解画像に合わせ込む学習を行わせる全体学習ステップを含む請求項１に記載の学習方法。
前記局所学習ステップでの前記学習と、前記全体学習ステップでの前記学習とは転移学習である請求項２に記載の学習方法。
前記第１画像取得ステップでは、複数の領域を含む被写体が撮影された画像に対して、拡大処理、縮小処理、画像切り出し、コントラスト調整処理、及びエッジ強調処理の少なくとも一つの処理を行って前記第１画像とする請求項１から３のいずれか１項に記載の学習方法。
前記第３画像切出ステップでは、前記第１画像を互いにオーバーラップする前記複数の領域で分割し、前記第３画像を切り出す請求項１から４のいずれか１項に記載の学習方法。
前記第１画像取得ステップで取得される前記第１画像は、損傷箇所を有する構造物が被写体として撮影されている請求項１から５のいずれか１項に記載の学習方法。
前記請求項１から６のいずれか１項に記載の学習方法により学習された前記第２機械学習器と、複数の領域を含む被写体が撮影された第１画像を記憶するメモリと、プロセッサとを備える画像解析装置であって、
前記プロセッサは、
前記メモリに記憶されている前記第１画像を縮小した第２画像を生成し、
前記メモリに記憶されている前記第１画像を複数の領域で分割し、複数の第３画像を切り出し、
前記第２画像を第１機械学習器に入力し、前記第１機械学習器から前記複数の領域をそれぞれ分類した全体推定画像である第４画像を取得し、
前記第４画像から前記複数の第３画像の各々に対応する複数の第５画像を切り出し、
前記第１画像に対応して作成され、前記複数の領域をそれぞれ分類した正解画像の複数の局所正解画像であって、前記複数の第３画像に対応する前記局所正解画像を取得し、
前記複数の第３画像及び前記複数の第５画像のうちのそれぞれ対応する前記第３画像及び前記第５画像を前記第２機械学習器に入力し、前記第２機械学習器から前記複数の領域をそれぞれ分類した局所推定画像を取得する、
画像解析装置。
前記請求項２又は３に記載の学習方法により学習された前記第１機械学習器及び前記第２機械学習器と、複数の領域を含む被写体が撮影された第１画像を記憶するメモリと、プロセッサとを備える画像解析装置であって、
前記プロセッサは、
前記メモリに記憶されている前記第１画像を縮小した第２画像を生成し、
前記メモリに記憶されている前記第１画像を複数の領域で分割し、複数の第３画像を切り出し、
前記第２画像を前記第１機械学習器に入力し、前記第１機械学習器から前記複数の領域をそれぞれ分類した全体推定画像である第４画像を取得し、
前記第４画像から前記複数の第３画像の各々に対応する複数の第５画像を切り出し、
前記第１画像に対応して作成され、前記複数の領域をそれぞれ分類した正解画像の複数の局所正解画像であって、前記複数の第３画像に対応する前記局所正解画像を取得し、
前記複数の第３画像及び前記複数の第５画像のうちのそれぞれ対応する前記第３画像及び前記第５画像を前記第２機械学習器に入力し、前記第２機械学習器から前記複数の領域をそれぞれ分類した局所推定画像を取得する、
画像解析装置。
前記プロセッサは、
前記局所推定画像を合成して、前記第１画像の解析結果画像を生成する請求項７又は８に記載の画像解析装置。
複数の領域を含む被写体が撮影された第１画像及び前記複数の領域をそれぞれ分類した正解画像を記憶するメモリと、プロセッサとを備える学習装置であって、
前記プロセッサは、
前記メモリに記憶されている前記第１画像を縮小した第２画像を生成し、
前記メモリに記憶されている前記第１画像を複数の領域で分割し、複数の第３画像を切り出し、
前記第２画像を第１機械学習器に入力し、前記第１機械学習器から前記複数の領域をそれぞれ分類した全体推定画像である第４画像を取得し、
前記第４画像から前記複数の第３画像の各々に対応する複数の第５画像を切り出し、
前記第１画像に対応して作成され、前記複数の領域をそれぞれ分類した、前記メモリに記憶されている正解画像の複数の局所正解画像であって、前記複数の第３画像に対応する前記局所正解画像を取得し、
前記複数の第３画像及び前記複数の第５画像のうちのそれぞれ対応する前記第３画像及び前記第５画像を第２機械学習器の入力画像とし、前記第２機械学習器から得られる局所推定画像を、前記複数の局所正解画像のうち前記入力した前記第３画像に対応する局所正解画像に合わせ込む学習を行わせる、
学習装置。
複数の領域を含む被写体が撮影された第１画像を取得する第１画像取得ステップと、
前記第１画像を縮小した第２画像を生成する第２画像取得ステップと、
前記第１画像を複数の領域で分割し、複数の第３画像を切り出す第３画像切出ステップと、
前記第２画像を第１機械学習器に入力し、前記第１機械学習器から前記複数の領域をそれぞれ分類した全体推定画像である第４画像を取得する第４画像取得ステップと、
前記第４画像から前記複数の第３画像の各々に対応する複数の第５画像を切り出す第５画像切出ステップと、
前記第１画像に対応して作成され、前記複数の領域をそれぞれ分類した正解画像の複数の局所正解画像であって、前記複数の第３画像に対応する前記局所正解画像を取得する局所正解画像取得ステップと、
前記複数の第３画像及び前記複数の第５画像のうちのそれぞれ対応する前記第３画像及び前記第５画像を第２機械学習器の入力画像とし、前記第２機械学習器から得られる局所推定画像を、前記複数の局所正解画像のうち前記入力した前記第３画像に対応する局所正解画像に合わせ込む学習を行わせる局所学習ステップと、
を含む学習方法をコンピュータに実行させるプログラム。