JP7441312B2

JP7441312B2 - 学習装置、学習方法、及びプログラム

Info

Publication number: JP7441312B2
Application number: JP2022530495A
Authority: JP
Inventors: 正志藏之下
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2020-06-11
Filing date: 2021-06-02
Publication date: 2024-02-29
Anticipated expiration: 2041-06-02
Also published as: WO2021251224A1; JPWO2021251224A1

Description

本発明は、学習装置、学習方法、及びプログラムに関し、特に学習モデルに機械学習させる学習装置、学習方法、及びプログラムに関する。

人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ：以下ＡＩという）を使用して解決することができる課題には、クラスフィケーション（Ｃｌａｓｓｉｆｉｃａｔｉｏｎ）やセグメンテーション（Ｓｅｇｍｅｎｔａｔｉｏｎ）などのジャンルがある。

クラスフィケーションは、画像に写り込んだ物体の分類をＡＩで判別して、分類を区別するラベルを付す課題（問題）である。またセグメンテーションは、画像に写り込んだ物体を判別して、物体毎に異なる色で表示する（塗り分ける）課題（問題）である。

ここで、これらの課題は、深層学習（ＤｅｅｐＬｅａｒｎｉｎｇ：ディープラーニング）で学習が行われた学習済みモデル（ニューラルネットワーク）により解かれることが多い。

例えば、以下に示す非特許文献１では、セグメンテーションに使用される畳込み積分ネットワーク（ＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋ：ＣＮＮ）が記載されている。

ＯｌａｆＲｏｎｎｅｂｅｒｇｅｒ，ＰｈｉｌｉｐｐＦｉｓｃｈｅｒ，ａｎｄＴｈｏｍａｓＢｒｏｘ、"Ｕ－Ｎｅｔ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓｆｏｒＢｉｏｍｅｄｉｃａｌＩｍａｇｅＳｅｇｍｅｎｔａｔｉｏｎ"、［ｏｎｌｉｎｅ］、２０１５年５月１８日、ＣｏｒｎｅｌＵｎｉｖｅｒｓｉｔｙ（ａｒＸｉｖ）、［令和２年５月１２日］、インターネット<ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１５０５．０４５９７>

上述した非特許文献１に記載されるようなネットワーク（学習モデル）を使用して、ディープラーニングを行い、セグメンテーション器を作成しようとした場合に、様々な理由により、セグメンテーションの物体の識別性能が向上しない場合がある。例えば、学習を進めている段階で、ネットワークが適切な判別経過を経ずに、回答を出力するようになってしまう場合がある。このような場合には、学習を進めても、セグメンテーションの物体の識別性能の向上を行えないことがある。

本発明はこのような事情に鑑みてなされたもので、その目的は、セグメンテーションにおける物体の識別性能を向上させる、学習装置、学習方法、及びプログラムを提供することである。

上記目的を達成するための本発明の一の態様である学習装置は、学習モデルと学習モデルを機械学習させる学習制御部とを構成するプロセッサを備えた学習装置において、学習モデルは、対象物が撮影された画像データであって、画像データ内の対象物の領域を示す正解画像とのペアからなる学習データにおける画像データを入力し、対象物の領域の特徴量を抽出して特徴マップを生成する複数の第１の畳み込み層を含むエンコーダ部分と、生成された特徴マップを用いて対象物の領域を推定した推定画像を出力する複数の第２の畳み込み層を含むデコーダ部分と、を有するセグメンテーション学習器と、エンコーダ部分から得られた特徴マップを用いて、対象物の種類を推定した推定種類を取得する分類器と、を含み、学習制御部は、正解画像と推定画像との第１の誤差、及び対象物の正解種類と推定種類との第２の誤差に基づいて学習モデルを機械学習させる。

本態様によれば、セグメンテーション学習器が有するエンコーダ部分で生成された特徴マップを用いて、分類器により対象物の種類を推定した推定種類が取得される。そして、学習制御部は、正解画像と推定画像との第１の誤差、及び対象物の正解種類と推定種類との第２の誤差に基づいて学習モデルを機械学習させる。これにより、本態様は、セグメンテーション学習器の中間処理で生成される特徴マップが、分類器においても、適切な推定種類を出力するように学習させることができるので、セグメンテーションにおける物体の識別性能を向上させることができる。

好ましくは、正解画像は、正解種類に関する情報を有する。

好ましくは、学習制御部は、正解画像の画素の情報に基づいて、正解種類を取得する。

好ましくは、分類器は、特徴マップから全結合層を介して、推定種類を取得する。

好ましくは、分類器は、特徴マップを平均化し全結合層に入力することにより、推定種類を取得する。

好ましくは、分類器は、対象物の種類を示す確率ベクトルを取得して、推定種類を取得する。

好ましくは、学習制御部は、以下の式で表される誤差関数により得られる誤差を閾値Ａ以下にするように、推定画像を正解画像に合わせ込む。

誤差＝ｃｒｏｓｓ＿ｅｎｔｒｏｐｙ（推定画像，正解画像）＋α×ｃｒｏｓｓ＿ｅｎｔｒｏｐｙ（推定種類，正解種類）
なお、上記の式におけるｃｒｏｓｓ＿ｅｎｔｒｏｐｙ（推定画像，正解画像）は第１の誤差であり、ｃｒｏｓｓ＿ｅｎｔｒｏｐｙ（推定種類，正解種類）は第２の誤差であり、αは任意に決定される係数である。

画像データは、１枚の画像を分割した分割画像のデータである。

画像データは、構造物を撮影した画像のデータである。

対象物は、構造物の損傷である。

本発明の他の態様である学習方法は、学習モデルと学習モデルを機械学習させる学習制御部とを構成するプロセッサを備えた学習装置の学習方法において、学習モデルは、対象物が撮影された画像データであって、画像データ内の対象物の領域を示す正解画像とのペアからなる学習データにおける画像データを入力し、対象物の領域の特徴量を抽出して特徴マップを生成する複数の第１の畳み込み層を含むエンコーダ部分と、生成された特徴マップを用いて対象物の領域を推定した推定画像を出力する複数の第２の畳み込み層を含むデコーダ部分と、を有するセグメンテーション学習器と、エンコーダ部分から得られた特徴マップを用いて、対象物の種類を推定した推定種類を取得する分類器と、を含み、学習制御部により、正解画像と推定画像との第１の誤差、及び対象物の正解種類と推定種類との第２の誤差に基づいて学習モデルを機械学習させるステップを含む。

本発明の他の態様であるプログラムは、学習モデルと学習モデルを機械学習させる学習制御部とを構成するプロセッサを備えた学習装置に学習方法を実行させるプログラムであって、学習モデルは、対象物が撮影された画像データであって、画像データ内の対象物の領域を示す正解画像とのペアからなる学習データにおける画像データを入力し、対象物の領域の特徴量を抽出して特徴マップを生成する複数の第１の畳み込み層を含むエンコーダ部分と、生成された特徴マップを用いて対象物の領域を推定した推定画像を出力する複数の第２の畳み込み層を含むデコーダ部分と、を有するセグメンテーション学習器と、エンコーダ部分から得られた特徴マップを用いて、対象物の種類を推定した推定種類を取得する分類器と、を含み、学習制御部により、正解画像と推定画像との第１の誤差、及び対象物の正解種類と推定種類との第２の誤差に基づいて学習モデルを機械学習させるステップを含む、学習方法を実行させる。

本発明によれば、セグメンテーションにおける物体の識別性能を向上させることができる。

図１は、ディープラーニングでクラスフィケーションを学習する学習モデルを概念的に示した図である。図２は、ディープラーニングでセグメンテーションを学習する学習モデルを概念的に示した図である。図３は、学習装置を構成するコンピュータのハードウェア構成の一例を示すブロック図である。図４は、構造物の損傷の点検画像を用いて、セグメンテーションの学習を行わせる場合を説明する図である。図５は、分割画像を用いて、セグメンテーションの学習を行わせる場合を説明する図である。図６は、学習モデルを概念的に示した図である。図７は、学習装置の機能を模式的に示した図である。図８は、学習装置を使用した学習方法を示すフロー図である。図９は、ＣＮＮに本発明を適用した場合を模式的に示す図である。

以下、添付図面にしたがって本発明に係る学習装置、学習方法、及びプログラムの好ましい実施の形態について説明する。

＜クラスフィケーション＞
先ず、学習モデル（ネットワーク）に機械学習のディープラーニングを行わせて、クラスフィケーションを行う分類器を作成する場合について説明する。

図１は、ディープラーニングでクラスフィケーションを学習する学習モデルを概念的に示した図である。

学習モデル１０３には、例えばＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋ：ＣＮＮ）が使用される。学習モデル１０３には、入力画像（画像データ）１０１が入力される。入力画像１０１は、被写体として人を有する。学習モデル１０３では、畳み込み層やプーリング層等で構成された「Ｌａｙｅｒ」（図参照）によって、入力画像のサイズ（Ｗ（幅）、Ｈ（高さ））（図参照）を小さくし、チャンネル数（Ｃ）（図参照）を大きくする処理が、エンコーダ部分１２１で順次行われる。そして、学習モデル１０３は、画像サイズを十分に小さくし、チャンネル数を十分に多くした段階で得られる特徴マップＭを使用して、入力画像１０１に何が写っているかを表現する確率ベクトル１０５が出力する。なお、この確率ベクトルは、ワンホットベクトル（ｏｎｅ－ｈｏｔｖｅｃｔｏｒ）により出力されてもよい。ここで、画像サイズが十分に小さくなり、チャンネル数が十分多くなった段階で得られる特徴マップＭは、入力画像１０１の特徴を示す抽象的な情報である。例えば入力画像１０１には、人が写っているので、推定種類では人を示す値が大きく、他の分類を示す値が小さいワンホットベクトルが出力される。

そして、学習モデル１０３を学習させる場合には、学習モデル１０３で得られた推定種類と入力画像１０１に対応する正解種類との誤差を最小にするように「Ｌａｙｅｒ」に設定される重みパラメータが変更される。

例えば、以下に示す誤差関数（１）で得られる誤差（交差エントロピー誤差）を小さくするように、「Ｌａｙｅｒ」の各重みパラメータが設定されることにより、学習モデル１０３の学習が行われる。

誤差＝cross_entropy（推定種類、正解種類）…誤差関数（１）
このように、学習モデル１０３に学習を行わせることにより学習済みモデルが作成され、入力画像１０１から推定種類を出力する分類器を得ることができる。

＜セグメンテーション＞
次に、学習モデルに機械学習のディープラーニングを行わせて、セグメンテーション器を作成する場合について説明する。

図２は、ディープラーニングでセグメンテーションを学習する学習モデル（ネットワーク）を概念的に示した図である。

学習モデル１０７には、例えばＣＮＮが使用される。学習モデル１０７には、入力画像（画像データ）１０１が入力される。学習モデル１０７では、エンコーダ部分１２１によって、入力画像のサイズ（Ｗ、Ｈ）（図参照）を小さくし、チャンネル数（Ｃ）（図参照）を大きくする処理が行われる。そして、画像サイズを十分に小さくした段階で、特徴マップＭが生成される。この特徴マップＭは、図１で説明を行った学習モデル１０３と同様に、入力画像１０１の特徴を示す抽象的な情報である。そして、デコーダ部分１２３により、特徴マップＭの画像サイズを大きくし、チャンネル数を減らすことによって、特定の領域が塗り分けられた推定画像１０９が出力される。例えば、推定画像１０９では、人の領域が赤色で表示されている。

そして、学習モデル１０７を学習させる場合には、学習モデル１０７で得られた推定画像１０９と入力画像１０１に対応する正解画像との差分（誤差）を最小にするような「Ｌａｙｅｒ」に設定されるパラメータが変更される。

例えば、以下に示す誤差関数（２）で得られる誤差（交差エントロピー誤差）を小さくするように、「Ｌａｙｅｒ」の各重みパラメータが設定されることにより、学習モデル１０７の学習が行われる。

誤差＝cross_entropy（推定画像、正解画像）…誤差関数（２）
このように、学習モデル１０７に学習を行わせることにより学習済みモデルが作成され、入力画像１０１から推定画像１０９を出力するセグメンテーション器を得ることができる。

本発明では、クラスフィケーションの学習をセグメンテーションの中間処理で生成される特徴マップを利用して併用し、セグメンテーションの学習を行う。これにより、セグメンテーションの中間処理において生成される特徴マップＭにおいて、塗り分ける対象が適切に表されることになり、セグメンテーションの物体の識別性能を向上させることができる。

以下に、本発明の実施形態に関して説明する。

＜ハードウェア構成＞
図３は、本発明の学習装置を構成するコンピュータ１０のハードウェア構成の一例を示すブロック図である。

コンピュータ１０は、パーソナルコンピュータ又はワークステーションを使用することができる。コンピュータ１０は、主としてデータ取得部１２と、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１４、メモリ１６と、操作部１８と、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２０と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２２と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２４と、表示部２６とから構成されている。なお、ＧＰＵ１４及びＣＰＵ２０はプロセッサであり、特にＧＰＵ１４は以下で説明する学習モデルを構成するプロセッサである。

データ取得部１２は、学習に使用する画像が入力される。例えば、データ取得部１２は、構造物の損傷の点検を行うために撮影された点検画像を入力画像として取得する。なお、点検対象の構造物には、例えば、橋梁、トンネル等が含まれる。また、構造物の損傷には、サビ、ひび割れ、鉄筋露出、コンクリート剥離、コンクリート打ち継ぎ目、又は目地の損傷等が含まれる。

また、データ取得部１２は、入力画像に対応した正解画像を取得する。ここで正解画像は、画像の被写体が有する領域を適切に分類した画像である。具体的には、正解画像は、被写体の設定された領域を、領域毎に異なる色で表示する画像である。正解画像は、手動により生成されてもよいし、画像処理により生成されてもよい。

入力画像とそれに対応する正解画像は、ペアで学習データ（学習データ用セット）を構成する。データ取得部１２が取得する学習用データセットは、画素単位でＲ（red；赤）、Ｇ（green；緑）及びＢ（blue；青）の各強度値（輝度値）を有する画像（いわゆるＲＧＢ画像）又はモノクロ画像である。

メモリ１６は、ハードディスク装置、フラッシュメモリ等から構成される。メモリ１６は、データ取得部１２で取得された学習データ（入力画像及び正解画像）を記憶する。また、メモリ１６は、オペレーティングシステム、学習及び画像解析に関するプログラムの他、重みパラメータ等のデータを記憶する。

操作部１８は、コンピュータ１０に有線接続又は無線接続されるキーボード及びマウス等が用いられ、画像に基づく構造物の点検に当たって各種の操作入力を受け付ける。

ＣＰＵ２０は、メモリ１６又はＲＯＭ２４等に記憶された各種のプログラムを読み出し、各種の処理を実行する。ＲＡＭ２２は、ＣＰＵ２０の作業領域として使用され、読み出されたプログラムや各種のデータを一時的に記憶する記憶部として用いられる。

ＧＰＵ１４も、ＣＰＵ２０と同様にメモリ１６又はＲＯＭ２４等に記憶された各種のプログラムを読み出し、各種の処理を実行する。特にＧＰＵ１４は、学習モデルを構成し、機械学習に関連した処理を実行する。

表示部２６は、コンピュータ１０に接続可能な液晶モニタ等の各種モニタが用いられ、操作部１８とともに、ユーザインターフェースの一部として使用される。

コンピュータ１０は、操作部１８からの指示入力によりＣＰＵ２０が、メモリ１６又はＲＯＭ２４に記憶されているプログラムを読み出し、プログラムを実行することにより、各種の機能を実現させる。

次に、点検画像を入力画像として本発明のセグメンテーションの学習に関して、具体的に説明を行う。

図４は、構造物の損傷の点検画像を用いて、セグメンテーションの学習を行わせる場合を説明する図である。

学習モデル１４５には、画像データとして入力画像Ｉ１が入力される。学習モデル１４５は、入力画像Ｉ１に写っている損傷の領域を損傷毎に異なる色で表示する推定画像Ｉ２を出力する。具体的には、推定画像Ｉ２では、例えば入力画像Ｉ１における大きいサビに対応する領域が赤色で表示され、小さいサビに対応する領域が青色で表示される。

図５は、画像データとして分割画像ＩＳ１を用いて、セグメンテーションの学習を行わせる場合を説明する図である。

図５に示す場合では、分割画像ＩＳ１が学習モデル１４５に入力される。学習モデル１４５を構成するコンピュータ１０のＧＰＵ１４の処理能力は有限であるため、ＡＩが処理することができる画像の大きさが限定される。したがって、１枚の入力画像Ｉ１をタイル状に分割して切り出し、各分割画像ＩＳ１を順次学習モデル１４５に処理させることにより、ＧＰＵ１４の処理能力を有効に利用する。学習モデル１４５は、分割画像ＩＳ１に写っている損傷の領域を損傷毎に異なる色で表示する推定画像ＩＳ２を出力する。具体的には、推定画像ＩＳ２では、例えば小さいサビに対応する領域が青色で表示される。また、このように得られた複数の推定画像を合成することにより、図４で説明を行った推定画像Ｉ２を得ることができる。

図６は、本実施形態を構成する学習モデル１４５を概念的に示した図である。

学習モデル１４５は、分割画像ＩＳ１の画像データが入力される。レイヤＬ１には、入力層が含まれており、分割画像ＩＳ１の画像データは、レイヤＬ１の入力層に入力される。レイヤＬ１に備えられる畳み込み層及びプーリング層により、分割画像ＩＳ１の画像データが特徴マップＭ１に処理される。その後、畳み込み層及びプーリング層を有するレイヤＬ２により、特徴マップＭ２が出力される。その後、畳み込み層及びプーリング層を有するレイヤＬ３により、特徴マップＭ３が出力される。特徴マップＭ３は、特徴マップＭ１及び特徴マップＭ２に比べると、分割画像ＩＳ１の被写体を抽象的に表した情報である。なお、学習モデル１４５の詳しい説明は後で行う。

分類器１３７（図７）では、この特徴マップＭ３を全結合層を含むレイヤＬＣを介して、分割画像ＩＳ１の損傷は大きいサビであるか小さいサビであるかの推定種類Ｃ１を出力する。例えば、推定種類Ｃ１は確率ベクトルで出力され、ｏｎｅ－ｈｏｔベクトルで表現されて出力されてもよい。そして、出力される推定種類Ｃ１と正解種類との誤差が小さくなるように、学習制御部１４３（図７）により学習が行われる。このように、学習モデル１４５（セグメンテーション学習器）の中間処理で生成される特徴マップＭ３が、セグメンテーションにおいて検出し周りとは異なる色で表示したい（塗り分けたい）損傷をそのまま表しているように、分類器１３７においても学習させることにより、セグメンテーションの物体の識別性能が高くなる。

セグメンテーション学習器１３５（図７）では、デコーダ部分１２３において、特徴マップＭ３を逆畳み込み層を備えるレイヤＬ４に入力し、特徴マップＭ４が出力される。特徴マップＭ４は、特徴マップＭ３に比較して、画像サイズが大きい情報である。その後、特徴マップＭ４を逆畳み込み層を備えるレイヤＬ５に入力し、特徴マップＭ５が出力される。その後、特徴マップＭ５は、レイヤＬ６に入力されて、推定画像ＩＳ２が出力される。そして、出力される推定画像ＩＳ２と正解画像との誤差が小さくなるように、学習制御部１４３（図７）により学習が行われる。

図７は、図６で説明した学習モデル１４５を備える学習装置１３１の機能を模式的に示した図である。

学習装置１３１は、セグメンテーション学習器１３５と分類器１３７とを含む学習モデルと学習制御部１４３とを有する。例えば、学習装置１３１の各機能は、ＧＰＵ１４がメモリ１６に記憶されたプログラムを実行することにより達成される。

学習モデル１４５は、ＣＮＮで構成されており、エンコーダ部分１２１とデコーダ部分１２３とを有する。エンコーダ部分１２１及びデコーダ部分１２３は、複数のレイヤ構造を有し、各層は複数の「ノード」が「エッジ」で結ばれる構造となっており、各エッジには、重みパラメータが設定されている。そして、重みパラメータが初期値から最適値に更新されることで、未学習モデル（学習モデル）から学習済みモデルとなる。すなわち、この重みパラメータが最適値になることにより、ユーザが所望するセグメンテーション器に学習させることができる。

エンコーダ部分１２１に設けられるレイヤＬ１、レイヤＬ２、及びレイヤＬ３は、ｃｏｎｖｏｌｕｔｉｏｎｌａｙｅｒ（第１の畳み込み層）を有し、画像データの画像サイズを小さくする。また、レイヤＬ１、レイヤＬ２、及びレイヤＬ３には、適宜プーリング層が設けられる。

デコーダ部分１２３に設けられるレイヤＬ４、レイヤＬ５、及びレイヤＬ６は、ｔｒａｎｓｐｏｓｅｄｃｏｎｖｏｌｕｔｉｏｎｌａｙｅｒ（逆畳み込み層：第２の畳み込み層）を有する。なお、ｔｒａｎｓｐｏｓｅｄｃｏｎｖｏｌｕｔｉｏｎｌａｙｅｒの代わりに、ｕｐｓａｍｐｌｉｎｇｃｏｎｖｏｌｕｔｉｏｎｌａｙｅｒ（第２の畳み込み層）が用いられてもよい。ここで、ｕｐｓａｍｐｌｉｎｇｃｏｎｖｏｌｕｔｉｏｎは、ｔｒａｎｓｐｏｓｅｄｃｏｎｖｏｌｕｔｉｏｎと同様に、小さい画像を大きくして特徴量を得ることである。ｕｐｓａｍｐｌｉｎｇｃｏｎｖｏｌｕｔｉｏｎは、画像処理（Ｂｉｌｉｎｅａｒ、ニアレストネイバー等）で画像のサイズを大きくしてから、ｃｏｎｖｏｌｕｔｉｏｎを行う。「畳み込み層」は、画像からのエッジ抽出等の特徴抽出の役割を担い、「プーリング層」は抽出された特徴が、平行移動などによる影響を受けないようにロバスト性を与える役割を担う。また、レイヤＬ１には入力層が含まれ、レイヤＬ６には出力層が含まれる。なお、各レイヤには以上で説明した以外のレイヤを適宜含ませることができる。

セグメンテーション学習器１３５は、画像データをエンコーダ部分１２１で特徴マップＭ３のように画像サイズが小さい抽象的な情報にした後に、特徴マップＭ３の画像サイズを大きくして、推定画像ＩＳ２を出力する。

分類器１３７は、エンコーダ部分１２１から得られた特徴マップＭ３を用いて、対象物の種類を推定した推定種類Ｃ１を出力する。

学習制御部１４３は、誤差算出部１４７とパラメータ制御部１４９を備える。

誤差算出部１４７は、セグメンテーション学習器１３５における誤差（第１の誤差）と分類器１３７における誤差（第２の誤差）を算出する。セグメンテーション学習器１３５における誤差は、推定画像ＩＳ２と正解画像ＡＮ１とを比較することにより算出される。また、分類器１３７における誤差は、推定種類Ｃ１と正解種類ＡＮ２とを比較することにより算出される。具体的には、誤差算出部１４７は、以下に示す誤差関数（３）で得られる誤差（交差エントロピー誤差）を算出する。

誤差＝ｃｒｏｓｓ＿ｅｎｔｒｏｐｙ（推定画像，正解画像）＋α×ｃｒｏｓｓ＿ｅｎｔｒｏｐｙ（推定種類，正解種類）…誤差関数（３）
なお、上記の式におけるｃｒｏｓｓ＿ｅｎｔｒｏｐｙ（推定画像，正解画像）は第１の誤差であり、ｃｒｏｓｓ＿ｅｎｔｒｏｐｙ（推定種類，正解種類）は第２の誤差であり、αは任意に決定される係数である。

パラメータ制御部１４９は、誤差算出部１４７により算出された誤差を小さくするように、学習モデル１４５の重みパラメータを調整する。この重みパラメータの調整処理を繰り返し行い、誤差算出部１４７により算出される誤差が収束するまで繰り返し学習を行う。例えば、パラメータ制御部１４９は、上記誤差関数（３）で算出される誤差が閾値Ａ以下にするように、学習モデル１４５の重みパラメータを調節する。このようにして、重みパラメータを最適化することにより、学習済みモデルを得ることができる。

図８は、学習装置１３１を使用した学習方法（学習方法を実行させるプログラム）を示すフロー図である。

先ず、データ取得部１２を介して、画像データとして分割画像ＩＳ１、及び分割画像ＩＳ１に対応する正解画像ＡＮ１並びに正解種類ＡＮ２が入力される（ステップＳ１０及びステップＳ１１）。その後、画像データがエンコーダ部分１２１で処理が行われ段階的に特徴マップが生成され、抽象的な情報を示す特徴マップＭ３が生成される。そして特徴マップＭ３に基づいて、分類器１３７により推定種類Ｃ１が出力される（ステップＳ１２）。また、特徴マップＭ３に対してデコーダ部分１２３で処理が行われて、推定画像ＩＳ２が出力される（ステップＳ１３）。その後、学習制御部１４３の誤差算出部１４７により、推定画像ＩＳ２と正解画像ＡＮ１との誤差及び推定種類Ｃ１と正解種類ＡＮ２との誤差が誤差関数（３）で算出される（ステップＳ１４）。そして、パラメータ制御部１４９は算出された誤差が閾値Ａ以下であるか否かを判定する（ステップＳ１５）。算出された誤差が閾値Ａより大きい場合には、パラメータ制御部１４９により、学習モデルの重みパラメータを変更する（ステップＳ１６）。一方、算出された誤差が閾値Ａ以下である場合には、学習を終了させる。

以上で説明したように、本発明では、セグメンテーション学習器１３５が有するエンコーダ部分１２１で生成された特徴マップＭ３を用いて、分類器１３７により対象物の種類を推定した推定種類Ｃ１が取得される。そして、学習制御部１４３は、正解画像と推定画像との第１の誤差、及び対象物の正解種類と推定種類との第２の誤差に基づいて学習モデル１４５を機械学習させる。これにより、本態様は、セグメンテーション学習器１３５の中間処理で生成される特徴マップＭ３が、適切な推定種類を出力するように学習させることができるので、セグメンテーションにおける物体の識別性能を向上させることができる。

＜実施例＞
次に、本発明を実際のネットワークに適用した実施例を説明する。

図９は、上述した非特許文献１に記載されているＵ－Ｎｅｔなどの実際に構築されたＣＮＮに本発明を適用した場合を模式的に示す図である。

Ｎｅｔ（符号Ｎで示す）は、レイヤＤ１、レイヤＤ２、レイヤＤ３、レイヤＤ４、及びレイヤＤ５を備えている。レイヤＤ１及びレイヤＤ２は、「ｃｏｎｖｏｌｕｔｉｏｎ］層、「ｃｏｎｖｏｌｕｔｉｏｎ］層、及び「ｍａｘｐｏｏｌ」層で構成される。レイヤＤ３及びレイヤＤ４は、「ｃｏｎｖｏｌｕｔｉｏｎ］層、「ｃｏｎｖｏｌｕｔｉｏｎ］層、及び「ｕｐｃｏｎｖｏｌｕｔｉｏｎ」層で構成される。レイヤＤ５は、「ｃｏｎｖｏｌｕｔｉｏｎ］層及び「ｃｏｎｖｏｌｕｔｉｏｎ］層で構成される。なお、レイヤＤ１～レイヤＤ５では、画像サイズ、チャンネル数が異なる特徴マップが生成される。

Ｎｅｔ（Ｎ）には、構造物の損傷を有する分割画像ＩＳ５の画像データが入力される。そして、損傷のセグメンテーションが行われた推定画像ＩＳ６を出力する。推定画像ＩＳ６としては、小さい密集損傷の領域が赤色で表示される画像１６５、孤立した損傷の領域が青色で表示される画像１６７、又は大きい損傷の領域が白色で表示される画像１６９が出力される。

また、レイヤＤ３において出力される特徴マップＭＭは、平均化（Global Average Pooling（ＧＡＰ））して全結合層（符号１６３で示す）に入力される。分類器１３７が出力する推定種類Ｃ３は、（損傷なし、小さい密集損傷、孤立した損傷、大きい損傷）の種類の確率ベクトルで出力される。なお、推定種類Ｃ３は、ｏｎｅ－ｈｏｔベクトルで表現されてもよい。ここで、特徴マップＭＭは、Ｎｅｔ（Ｎ）において最も画像サイズが小さく、チャンネル数が多い特徴マップであり、抽象的な情報である。なお、本例では分類器１３７は、レイヤＤ３で生成された特徴マップＭＭを利用して、推定種類Ｃ３を出力したがこれに限定されない。分類器１３７は、エンコーダ部分１２１で出力される特徴マップを利用して、推定種類Ｃ３を出力することができる。

そして、図７で説明を行ったように例えば誤差関数（３）を利用して、推定画像ＩＳ６と正解画像、推定種類Ｃ３と正解種類の誤差を小さくするように機械学習が行われる。

ここで、正解種類は、セグメンテーションの学習に用いられる正解画像より取得することができる。例えば、学習制御部１４３は、正解画像の含まれる画素数により正解種類を得ることができる。例えば、学習制御部１４３は、正解画像において、各画素のＲ（赤）、Ｇ（緑）、Ｂ（青）値の平均値（ｒ、ｇ、ｂ）である場合に、ｒ＞ｇでありｒ＞ｂであれば、正解画像に赤色の表示が多いと判定することができる。この場合学習制御部１４３は、赤色に対応した種類を正解種類とすることができ、図９では正解種類を「小さい密集損傷」とすることができる。

このように、Ｎｅｔ（Ｎ）のセグメンテーションの学習において、Ｎｅｔ（Ｎ）の中間処理で生成される特徴マップＭＭに基づいて、分割画像ＩＳ５に写っている物体の分類（クラスフィケーション）につての学習も併用する。これにより、Ｎｅｔ（Ｎ）のセグメンテーションの物体を識別する性能が向上する。

上記実施形態において、各種の処理を実行する学習装置１３１のハードウェア的な構造は、次に示すような各種のプロセッサ（processor）である。各種のプロセッサには、ソフトウェア（プログラム）を実行して各種の処理部として機能する汎用的なプロセッサであるＣＰＵ（Central Processing Unit）、ＦＰＧＡ（Field Programmable Gate Array）などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス（Programmable Logic Device：ＰＬＤ）、ＡＳＩＣ（Application Specific Integrated Circuit）などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路などが含まれる。

１つの処理部は、これら各種のプロセッサのうちの１つで構成されていてもよいし、同種又は異種の２つ以上のプロセッサ（例えば、複数のＦＰＧＡ、あるいはＣＰＵとＦＰＧＡの組み合わせ）で構成されてもよい。また、複数の処理部を１つのプロセッサで構成してもよい。複数の処理部を１つのプロセッサで構成する例としては、第１に、クライアントやサーバなどのコンピュータに代表されるように、１つ以上のＣＰＵとソフトウェアの組合せで１つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第２に、システムオンチップ（System On Chip：ＳｏＣ）などに代表されるように、複数の処理部を含むシステム全体の機能を１つのＩＣ（Integrated Circuit）チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサを１つ以上用いて構成される。

さらに、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子などの回路素子を組み合わせた電気回路（circuitry）である。

上述の各構成及び機能は、任意のハードウェア、ソフトウェア、或いは両者の組み合わせによって適宜実現可能である。例えば、上述の処理ステップ（処理手順）をコンピュータに実行させるプログラム、そのようなプログラムを記録したコンピュータ読み取り可能な記録媒体（非一時的記録媒体）、或いはそのようなプログラムをインストール可能なコンピュータに対しても本発明を適用することが可能である。

以上で本発明の例に関して説明してきたが、本発明は上述した実施の形態に限定されず、本発明の精神を逸脱しない範囲で種々の変形が可能であることは言うまでもない。

１０：コンピュータ
１２：データ取得部
１４：ＧＰＵ
１６：メモリ
１８：操作部
２０：ＣＰＵ
２２：ＲＡＭ
２４：ＲＯＭ
２６：表示部
１０１：入力画像
１０３：学習モデル
１０５：確率ベクトル
１０７：学習モデル
１０９：推定画像
１２１：エンコーダ部分
１２３：デコーダ部分
１３１：学習装置
１３５：セグメンテーション学習器
１３７：分類器
１４３：学習制御部
１４５：学習モデル
１４７：誤差算出部
１４９：パラメータ制御部

Claims

学習モデルと前記学習モデルを機械学習させる学習制御部とを構成するプロセッサを備えた学習装置において、
前記学習モデルは、
対象物が撮影された画像データであって、前記画像データ内の前記対象物の領域を示す正解画像とのペアからなる学習データにおける前記画像データを入力し、前記対象物の領域の特徴量を抽出して特徴マップを生成する複数の第１の畳み込み層を含むエンコーダ部分と、前記生成された前記特徴マップを用いて前記対象物の領域を推定した推定画像を出力する複数の第２の畳み込み層を含むデコーダ部分と、を有するセグメンテーション学習器と、
前記エンコーダ部分から得られた前記特徴マップを用いて、前記対象物の種類を推定した推定種類を取得する分類器と、を含み、
前記学習制御部は、前記正解画像と前記推定画像との第１の誤差、及び前記対象物の正解種類と前記推定種類との第２の誤差に基づいて前記学習モデルを機械学習させる学習装置であって、
前記学習制御部は、前記第１の誤差と前記第２の誤差との以下の式で表される誤差関数により得られる誤差が閾値Ａ以下であるように、前記推定画像を前記正解画像に合わせ込む、学習装置。
誤差＝ｃｒｏｓｓ＿ｅｎｔｒｏｐｙ（前記推定画像，前記正解画像）＋α×ｃｒｏｓｓ＿ｅｎｔｒｏｐｙ（前記推定種類，前記正解種類）
なお、上記の式におけるｃｒｏｓｓ＿ｅｎｔｒｏｐｙ（前記推定画像，前記正解画像）は前記第１の誤差であり、ｃｒｏｓｓ＿ｅｎｔｒｏｐｙ（前記推定種類，前記正解種類）は前記第２の誤差であり、αは任意に決定される係数である。
前記正解画像は、前記正解種類に関する情報を有する請求項１に記載の学習装置。
前記学習制御部は、前記正解画像の画素の情報に基づいて、前記正解種類を取得する請求項２に記載の学習装置。
前記分類器は、前記特徴マップから全結合層を介して、前記推定種類を取得する請求項１から３のいずれか１項に記載の学習装置。
前記分類器は、前記特徴マップを平均化し前記全結合層に入力することにより、前記推定種類を取得する請求項４に記載の学習装置。
前記分類器は、前記対象物の種類を示す確率ベクトルを取得して、前記推定種類を取得する請求項１から５のいずれか１項に記載の学習装置。
前記画像データは、１枚の画像を分割した分割画像のデータである請求項１から６のいずれか１項に記載の学習装置。
前記画像データは、構造物を撮影した画像のデータである請求項１から７のいずれか１項に記載の学習装置。
前記対象物は、前記構造物の損傷である請求項８に記載の学習装置。
学習モデルと前記学習モデルを機械学習させる学習制御部とを構成するプロセッサを備えた学習装置の学習方法において、
前記学習モデルは、
対象物が撮影された画像データであって、前記画像データ内の前記対象物の領域を示す正解画像とのペアからなる学習データにおける前記画像データを入力し、前記対象物の領域の特徴量を抽出して特徴マップを生成する複数の第１の畳み込み層を含むエンコーダ部分と、前記生成された前記特徴マップを用いて前記対象物の領域を推定した推定画像を出力する複数の第２の畳み込み層を含むデコーダ部分と、を有するセグメンテーション学習器と、
前記エンコーダ部分から得られた前記特徴マップを用いて、前記対象物の種類を推定した推定種類を取得する分類器と、を含み、
前記学習制御部により、前記正解画像と前記推定画像との第１の誤差、及び前記対象物の正解種類と前記推定種類との第２の誤差に基づいて前記学習モデルを機械学習させるステップを含む、学習方法であって、
前記ステップにおいて前記学習制御部は、前記第１の誤差と前記第２の誤差との以下の式で表される誤差関数により得られる誤差が閾値Ａ以下であるように、前記推定画像を前記正解画像に合わせ込む、学習方法。
誤差＝ｃｒｏｓｓ＿ｅｎｔｒｏｐｙ（前記推定画像，前記正解画像）＋α×ｃｒｏｓｓ＿ｅｎｔｒｏｐｙ（前記推定種類，前記正解種類）
なお、上記の式におけるｃｒｏｓｓ＿ｅｎｔｒｏｐｙ（前記推定画像，前記正解画像）は前記第１の誤差であり、ｃｒｏｓｓ＿ｅｎｔｒｏｐｙ（前記推定種類，前記正解種類）は前記第２の誤差であり、αは任意に決定される係数である。
学習モデルと前記学習モデルを機械学習させる学習制御部とを構成するプロセッサを備えた学習装置に学習方法を実行させるプログラムであって、
前記学習モデルは、
対象物が撮影された画像データであって、前記画像データ内の前記対象物の領域を示す正解画像とのペアからなる学習データにおける前記画像データを入力し、前記対象物の領域の特徴量を抽出して特徴マップを生成する複数の第１の畳み込み層を含むエンコーダ部分と、前記生成された前記特徴マップを用いて前記対象物の領域を推定した推定画像を出力する複数の第２の畳み込み層を含むデコーダ部分と、を有するセグメンテーション学習器と、
前記エンコーダ部分から得られた前記特徴マップを用いて、前記対象物の種類を推定した推定種類を取得する分類器と、を含み、
前記学習制御部により、前記正解画像と前記推定画像との第１の誤差、及び前記対象物の正解種類と前記推定種類との第２の誤差に基づいて前記学習モデルを機械学習させるステップを含む、学習方法を実行させるプログラムであって、
前記ステップにおいて前記学習制御部は、前記第１の誤差と前記第２の誤差との以下の式で表される誤差関数により得られる誤差が閾値Ａ以下であるように、前記推定画像を前記正解画像に合わせ込む、プログラム。
誤差＝ｃｒｏｓｓ＿ｅｎｔｒｏｐｙ（前記推定画像，前記正解画像）＋α×ｃｒｏｓｓ＿ｅｎｔｒｏｐｙ（前記推定種類，前記正解種類）
なお、上記の式におけるｃｒｏｓｓ＿ｅｎｔｒｏｐｙ（前記推定画像，前記正解画像）は前記第１の誤差であり、ｃｒｏｓｓ＿ｅｎｔｒｏｐｙ（前記推定種類，前記正解種類）は前記第２の誤差であり、αは任意に決定される係数である。
非一時的かつコンピュータ読取可能な記録媒体であって、請求項１１に記載のプログラムが記録された記録媒体。