JP7441312B2 - 学習装置、学習方法、及びプログラム - Google Patents

学習装置、学習方法、及びプログラム Download PDF

Info

Publication number
JP7441312B2
JP7441312B2 JP2022530495A JP2022530495A JP7441312B2 JP 7441312 B2 JP7441312 B2 JP 7441312B2 JP 2022530495 A JP2022530495 A JP 2022530495A JP 2022530495 A JP2022530495 A JP 2022530495A JP 7441312 B2 JP7441312 B2 JP 7441312B2
Authority
JP
Japan
Prior art keywords
learning
image
estimated
error
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022530495A
Other languages
English (en)
Other versions
JPWO2021251224A1 (ja
Inventor
正志 藏之下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Publication of JPWO2021251224A1 publication Critical patent/JPWO2021251224A1/ja
Application granted granted Critical
Publication of JP7441312B2 publication Critical patent/JP7441312B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Description

本発明は、学習装置、学習方法、及びプログラムに関し、特に学習モデルに機械学習させる学習装置、学習方法、及びプログラムに関する。
人工知能(Artificial Intelligence:以下AIという)を使用して解決することができる課題には、クラスフィケーション(Classification)やセグメンテーション(Segmentation)などのジャンルがある。
クラスフィケーションは、画像に写り込んだ物体の分類をAIで判別して、分類を区別するラベルを付す課題(問題)である。またセグメンテーションは、画像に写り込んだ物体を判別して、物体毎に異なる色で表示する(塗り分ける)課題(問題)である。
ここで、これらの課題は、深層学習(Deep Learning:ディープラーニング)で学習が行われた学習済みモデル(ニューラルネットワーク)により解かれることが多い。
例えば、以下に示す非特許文献1では、セグメンテーションに使用される畳込み積分ネットワーク(Convolution Neural Network:CNN)が記載されている。
Olaf Ronneberger, Philipp Fischer, and Thomas Brox、"U-Net: Convolutional Networks for Biomedical Image Segmentation"、[online]、2015年5月18日、Cornel University(arXiv)、[令和2年5月12日]、インターネット<https://arxiv.org/abs/1505.04597>
上述した非特許文献1に記載されるようなネットワーク(学習モデル)を使用して、ディープラーニングを行い、セグメンテーション器を作成しようとした場合に、様々な理由により、セグメンテーションの物体の識別性能が向上しない場合がある。例えば、学習を進めている段階で、ネットワークが適切な判別経過を経ずに、回答を出力するようになってしまう場合がある。このような場合には、学習を進めても、セグメンテーションの物体の識別性能の向上を行えないことがある。
本発明はこのような事情に鑑みてなされたもので、その目的は、セグメンテーションにおける物体の識別性能を向上させる、学習装置、学習方法、及びプログラムを提供することである。
上記目的を達成するための本発明の一の態様である学習装置は、学習モデルと学習モデルを機械学習させる学習制御部とを構成するプロセッサを備えた学習装置において、学習モデルは、対象物が撮影された画像データであって、画像データ内の対象物の領域を示す正解画像とのペアからなる学習データにおける画像データを入力し、対象物の領域の特徴量を抽出して特徴マップを生成する複数の第1の畳み込み層を含むエンコーダ部分と、生成された特徴マップを用いて対象物の領域を推定した推定画像を出力する複数の第2の畳み込み層を含むデコーダ部分と、を有するセグメンテーション学習器と、エンコーダ部分から得られた特徴マップを用いて、対象物の種類を推定した推定種類を取得する分類器と、を含み、学習制御部は、正解画像と推定画像との第1の誤差、及び対象物の正解種類と推定種類との第2の誤差に基づいて学習モデルを機械学習させる。
本態様によれば、セグメンテーション学習器が有するエンコーダ部分で生成された特徴マップを用いて、分類器により対象物の種類を推定した推定種類が取得される。そして、学習制御部は、正解画像と推定画像との第1の誤差、及び対象物の正解種類と推定種類との第2の誤差に基づいて学習モデルを機械学習させる。これにより、本態様は、セグメンテーション学習器の中間処理で生成される特徴マップが、分類器においても、適切な推定種類を出力するように学習させることができるので、セグメンテーションにおける物体の識別性能を向上させることができる。
好ましくは、正解画像は、正解種類に関する情報を有する。
好ましくは、学習制御部は、正解画像の画素の情報に基づいて、正解種類を取得する。
好ましくは、分類器は、特徴マップから全結合層を介して、推定種類を取得する。
好ましくは、分類器は、特徴マップを平均化し全結合層に入力することにより、推定種類を取得する。
好ましくは、分類器は、対象物の種類を示す確率ベクトルを取得して、推定種類を取得する。
好ましくは、学習制御部は、以下の式で表される誤差関数により得られる誤差を閾値A以下にするように、推定画像を正解画像に合わせ込む。
誤差=cross_entropy(推定画像,正解画像)+α×cross_entropy(推定種類,正解種類)
なお、上記の式におけるcross_entropy(推定画像,正解画像)は第1の誤差であり、cross_entropy(推定種類,正解種類)は第2の誤差であり、αは任意に決定される係数である。
画像データは、1枚の画像を分割した分割画像のデータである。
画像データは、構造物を撮影した画像のデータである。
対象物は、構造物の損傷である。
本発明の他の態様である学習方法は、学習モデルと学習モデルを機械学習させる学習制御部とを構成するプロセッサを備えた学習装置の学習方法において、学習モデルは、対象物が撮影された画像データであって、画像データ内の対象物の領域を示す正解画像とのペアからなる学習データにおける画像データを入力し、対象物の領域の特徴量を抽出して特徴マップを生成する複数の第1の畳み込み層を含むエンコーダ部分と、生成された特徴マップを用いて対象物の領域を推定した推定画像を出力する複数の第2の畳み込み層を含むデコーダ部分と、を有するセグメンテーション学習器と、エンコーダ部分から得られた特徴マップを用いて、対象物の種類を推定した推定種類を取得する分類器と、を含み、学習制御部により、正解画像と推定画像との第1の誤差、及び対象物の正解種類と推定種類との第2の誤差に基づいて学習モデルを機械学習させるステップを含む。
本発明の他の態様であるプログラムは、学習モデルと学習モデルを機械学習させる学習制御部とを構成するプロセッサを備えた学習装置に学習方法を実行させるプログラムであって、学習モデルは、対象物が撮影された画像データであって、画像データ内の対象物の領域を示す正解画像とのペアからなる学習データにおける画像データを入力し、対象物の領域の特徴量を抽出して特徴マップを生成する複数の第1の畳み込み層を含むエンコーダ部分と、生成された特徴マップを用いて対象物の領域を推定した推定画像を出力する複数の第2の畳み込み層を含むデコーダ部分と、を有するセグメンテーション学習器と、エンコーダ部分から得られた特徴マップを用いて、対象物の種類を推定した推定種類を取得する分類器と、を含み、学習制御部により、正解画像と推定画像との第1の誤差、及び対象物の正解種類と推定種類との第2の誤差に基づいて学習モデルを機械学習させるステップを含む、学習方法を実行させる。
本発明によれば、セグメンテーションにおける物体の識別性能を向上させることができる。
図1は、ディープラーニングでクラスフィケーションを学習する学習モデルを概念的に示した図である。 図2は、ディープラーニングでセグメンテーションを学習する学習モデルを概念的に示した図である。 図3は、学習装置を構成するコンピュータのハードウェア構成の一例を示すブロック図である。 図4は、構造物の損傷の点検画像を用いて、セグメンテーションの学習を行わせる場合を説明する図である。 図5は、分割画像を用いて、セグメンテーションの学習を行わせる場合を説明する図である。 図6は、学習モデルを概念的に示した図である。 図7は、学習装置の機能を模式的に示した図である。 図8は、学習装置を使用した学習方法を示すフロー図である。 図9は、CNNに本発明を適用した場合を模式的に示す図である。
以下、添付図面にしたがって本発明に係る学習装置、学習方法、及びプログラムの好ましい実施の形態について説明する。
<クラスフィケーション>
先ず、学習モデル(ネットワーク)に機械学習のディープラーニングを行わせて、クラスフィケーションを行う分類器を作成する場合について説明する。
図1は、ディープラーニングでクラスフィケーションを学習する学習モデルを概念的に示した図である。
学習モデル103には、例えばCNN(Convolution Neural Network:CNN)が使用される。学習モデル103には、入力画像(画像データ)101が入力される。入力画像101は、被写体として人を有する。学習モデル103では、畳み込み層やプーリング層等で構成された「Layer」(図参照)によって、入力画像のサイズ(W(幅)、H(高さ))(図参照)を小さくし、チャンネル数(C)(図参照)を大きくする処理が、エンコーダ部分121で順次行われる。そして、学習モデル103は、画像サイズを十分に小さくし、チャンネル数を十分に多くした段階で得られる特徴マップMを使用して、入力画像101に何が写っているかを表現する確率ベクトル105が出力する。なお、この確率ベクトルは、ワンホットベクトル(one-hot vector)により出力されてもよい。ここで、画像サイズが十分に小さくなり、チャンネル数が十分多くなった段階で得られる特徴マップMは、入力画像101の特徴を示す抽象的な情報である。例えば入力画像101には、人が写っているので、推定種類では人を示す値が大きく、他の分類を示す値が小さいワンホットベクトルが出力される。
そして、学習モデル103を学習させる場合には、学習モデル103で得られた推定種類と入力画像101に対応する正解種類との誤差を最小にするように「Layer」に設定される重みパラメータが変更される。
例えば、以下に示す誤差関数(1)で得られる誤差(交差エントロピー誤差)を小さくするように、「Layer」の各重みパラメータが設定されることにより、学習モデル103の学習が行われる。
誤差=cross_entropy(推定種類、正解種類)…誤差関数(1)
このように、学習モデル103に学習を行わせることにより学習済みモデルが作成され、入力画像101から推定種類を出力する分類器を得ることができる。
<セグメンテーション>
次に、学習モデルに機械学習のディープラーニングを行わせて、セグメンテーション器を作成する場合について説明する。
図2は、ディープラーニングでセグメンテーションを学習する学習モデル(ネットワーク)を概念的に示した図である。
学習モデル107には、例えばCNNが使用される。学習モデル107には、入力画像(画像データ)101が入力される。学習モデル107では、エンコーダ部分121によって、入力画像のサイズ(W、H)(図参照)を小さくし、チャンネル数(C)(図参照)を大きくする処理が行われる。そして、画像サイズを十分に小さくした段階で、特徴マップMが生成される。この特徴マップMは、図1で説明を行った学習モデル103と同様に、入力画像101の特徴を示す抽象的な情報である。そして、デコーダ部分123により、特徴マップMの画像サイズを大きくし、チャンネル数を減らすことによって、特定の領域が塗り分けられた推定画像109が出力される。例えば、推定画像109では、人の領域が赤色で表示されている。
そして、学習モデル107を学習させる場合には、学習モデル107で得られた推定画像109と入力画像101に対応する正解画像との差分(誤差)を最小にするような「Layer」に設定されるパラメータが変更される。
例えば、以下に示す誤差関数(2)で得られる誤差(交差エントロピー誤差)を小さくするように、「Layer」の各重みパラメータが設定されることにより、学習モデル107の学習が行われる。
誤差=cross_entropy(推定画像、正解画像)…誤差関数(2)
このように、学習モデル107に学習を行わせることにより学習済みモデルが作成され、入力画像101から推定画像109を出力するセグメンテーション器を得ることができる。
本発明では、クラスフィケーションの学習をセグメンテーションの中間処理で生成される特徴マップを利用して併用し、セグメンテーションの学習を行う。これにより、セグメンテーションの中間処理において生成される特徴マップMにおいて、塗り分ける対象が適切に表されることになり、セグメンテーションの物体の識別性能を向上させることができる。
以下に、本発明の実施形態に関して説明する。
<ハードウェア構成>
図3は、本発明の学習装置を構成するコンピュータ10のハードウェア構成の一例を示すブロック図である。
コンピュータ10は、パーソナルコンピュータ又はワークステーションを使用することができる。コンピュータ10は、主としてデータ取得部12と、GPU(Graphics Processing Unit)14、メモリ16と、操作部18と、CPU(Central Processing Unit)20と、RAM(Random Access Memory)22と、ROM(Read Only Memory)24と、表示部26とから構成されている。なお、GPU14及びCPU20はプロセッサであり、特にGPU14は以下で説明する学習モデルを構成するプロセッサである。
データ取得部12は、学習に使用する画像が入力される。例えば、データ取得部12は、構造物の損傷の点検を行うために撮影された点検画像を入力画像として取得する。なお、点検対象の構造物には、例えば、橋梁、トンネル等が含まれる。また、構造物の損傷には、サビ、ひび割れ、鉄筋露出、コンクリート剥離、コンクリート打ち継ぎ目、又は目地の損傷等が含まれる。
また、データ取得部12は、入力画像に対応した正解画像を取得する。ここで正解画像は、画像の被写体が有する領域を適切に分類した画像である。具体的には、正解画像は、被写体の設定された領域を、領域毎に異なる色で表示する画像である。正解画像は、手動により生成されてもよいし、画像処理により生成されてもよい。
入力画像とそれに対応する正解画像は、ペアで学習データ(学習データ用セット)を構成する。データ取得部12が取得する学習用データセットは、画素単位でR(red;赤)、G(green;緑)及びB(blue;青)の各強度値(輝度値)を有する画像(いわゆるRGB画像)又はモノクロ画像である。
メモリ16は、ハードディスク装置、フラッシュメモリ等から構成される。メモリ16は、データ取得部12で取得された学習データ(入力画像及び正解画像)を記憶する。また、メモリ16は、オペレーティングシステム、学習及び画像解析に関するプログラムの他、重みパラメータ等のデータを記憶する。
操作部18は、コンピュータ10に有線接続又は無線接続されるキーボード及びマウス等が用いられ、画像に基づく構造物の点検に当たって各種の操作入力を受け付ける。
CPU20は、メモリ16又はROM24等に記憶された各種のプログラムを読み出し、各種の処理を実行する。RAM22は、CPU20の作業領域として使用され、読み出されたプログラムや各種のデータを一時的に記憶する記憶部として用いられる。
GPU14も、CPU20と同様にメモリ16又はROM24等に記憶された各種のプログラムを読み出し、各種の処理を実行する。特にGPU14は、学習モデルを構成し、機械学習に関連した処理を実行する。
表示部26は、コンピュータ10に接続可能な液晶モニタ等の各種モニタが用いられ、操作部18とともに、ユーザインターフェースの一部として使用される。
コンピュータ10は、操作部18からの指示入力によりCPU20が、メモリ16又はROM24に記憶されているプログラムを読み出し、プログラムを実行することにより、各種の機能を実現させる。
次に、点検画像を入力画像として本発明のセグメンテーションの学習に関して、具体的に説明を行う。
図4は、構造物の損傷の点検画像を用いて、セグメンテーションの学習を行わせる場合を説明する図である。
学習モデル145には、画像データとして入力画像I1が入力される。学習モデル145は、入力画像I1に写っている損傷の領域を損傷毎に異なる色で表示する推定画像I2を出力する。具体的には、推定画像I2では、例えば入力画像I1における大きいサビに対応する領域が赤色で表示され、小さいサビに対応する領域が青色で表示される。
図5は、画像データとして分割画像IS1を用いて、セグメンテーションの学習を行わせる場合を説明する図である。
図5に示す場合では、分割画像IS1が学習モデル145に入力される。学習モデル145を構成するコンピュータ10のGPU14の処理能力は有限であるため、AIが処理することができる画像の大きさが限定される。したがって、1枚の入力画像I1をタイル状に分割して切り出し、各分割画像IS1を順次学習モデル145に処理させることにより、GPU14の処理能力を有効に利用する。学習モデル145は、分割画像IS1に写っている損傷の領域を損傷毎に異なる色で表示する推定画像IS2を出力する。具体的には、推定画像IS2では、例えば小さいサビに対応する領域が青色で表示される。また、このように得られた複数の推定画像を合成することにより、図4で説明を行った推定画像I2を得ることができる。
図6は、本実施形態を構成する学習モデル145を概念的に示した図である。
学習モデル145は、分割画像IS1の画像データが入力される。レイヤL1には、入力層が含まれており、分割画像IS1の画像データは、レイヤL1の入力層に入力される。レイヤL1に備えられる畳み込み層及びプーリング層により、分割画像IS1の画像データが特徴マップM1に処理される。その後、畳み込み層及びプーリング層を有するレイヤL2により、特徴マップM2が出力される。その後、畳み込み層及びプーリング層を有するレイヤL3により、特徴マップM3が出力される。特徴マップM3は、特徴マップM1及び特徴マップM2に比べると、分割画像IS1の被写体を抽象的に表した情報である。なお、学習モデル145の詳しい説明は後で行う。
分類器137(図7)では、この特徴マップM3を全結合層を含むレイヤLCを介して、分割画像IS1の損傷は大きいサビであるか小さいサビであるかの推定種類C1を出力する。例えば、推定種類C1は確率ベクトルで出力され、one-hotベクトルで表現されて出力されてもよい。そして、出力される推定種類C1と正解種類との誤差が小さくなるように、学習制御部143(図7)により学習が行われる。このように、学習モデル145(セグメンテーション学習器)の中間処理で生成される特徴マップM3が、セグメンテーションにおいて検出し周りとは異なる色で表示したい(塗り分けたい)損傷をそのまま表しているように、分類器137においても学習させることにより、セグメンテーションの物体の識別性能が高くなる。
セグメンテーション学習器135(図7)では、デコーダ部分123において、特徴マップM3を逆畳み込み層を備えるレイヤL4に入力し、特徴マップM4が出力される。特徴マップM4は、特徴マップM3に比較して、画像サイズが大きい情報である。その後、特徴マップM4を逆畳み込み層を備えるレイヤL5に入力し、特徴マップM5が出力される。その後、特徴マップM5は、レイヤL6に入力されて、推定画像IS2が出力される。そして、出力される推定画像IS2と正解画像との誤差が小さくなるように、学習制御部143(図7)により学習が行われる。
図7は、図6で説明した学習モデル145を備える学習装置131の機能を模式的に示した図である。
学習装置131は、セグメンテーション学習器135と分類器137とを含む学習モデルと学習制御部143とを有する。例えば、学習装置131の各機能は、GPU14がメモリ16に記憶されたプログラムを実行することにより達成される。
学習モデル145は、CNNで構成されており、エンコーダ部分121とデコーダ部分123とを有する。エンコーダ部分121及びデコーダ部分123は、複数のレイヤ構造を有し、各層は複数の「ノード」が「エッジ」で結ばれる構造となっており、各エッジには、重みパラメータが設定されている。そして、重みパラメータが初期値から最適値に更新されることで、未学習モデル(学習モデル)から学習済みモデルとなる。すなわち、この重みパラメータが最適値になることにより、ユーザが所望するセグメンテーション器に学習させることができる。
エンコーダ部分121に設けられるレイヤL1、レイヤL2、及びレイヤL3は、convolution layer(第1の畳み込み層)を有し、画像データの画像サイズを小さくする。また、レイヤL1、レイヤL2、及びレイヤL3には、適宜プーリング層が設けられる。
デコーダ部分123に設けられるレイヤL4、レイヤL5、及びレイヤL6は、transposed convolution layer(逆畳み込み層:第2の畳み込み層)を有する。なお、transposed convolution layerの代わりに、upsampling convolution layer(第2の畳み込み層) が用いられてもよい。ここで、upsampling convolutionは、transposed convolutionと同様に、小さい画像を大きくして特徴量を得ることである。upsampling convolutionは、画像処理(Bilinear、ニアレストネイバー等)で画像のサイズを大きくしてから、convolutionを行う。「畳み込み層」は、画像からのエッジ抽出等の特徴抽出の役割を担い、「プーリング層」は抽出された特徴が、平行移動などによる影響を受けないようにロバスト性を与える役割を担う。また、レイヤL1には入力層が含まれ、レイヤL6には出力層が含まれる。なお、各レイヤには以上で説明した以外のレイヤを適宜含ませることができる。
セグメンテーション学習器135は、画像データをエンコーダ部分121で特徴マップM3のように画像サイズが小さい抽象的な情報にした後に、特徴マップM3の画像サイズを大きくして、推定画像IS2を出力する。
分類器137は、エンコーダ部分121から得られた特徴マップM3を用いて、対象物の種類を推定した推定種類C1を出力する。
学習制御部143は、誤差算出部147とパラメータ制御部149を備える。
誤差算出部147は、セグメンテーション学習器135における誤差(第1の誤差)と分類器137における誤差(第2の誤差)を算出する。セグメンテーション学習器135における誤差は、推定画像IS2と正解画像AN1とを比較することにより算出される。また、分類器137における誤差は、推定種類C1と正解種類AN2とを比較することにより算出される。具体的には、誤差算出部147は、以下に示す誤差関数(3)で得られる誤差(交差エントロピー誤差)を算出する。
誤差=cross_entropy(推定画像,正解画像)+α×cross_entropy(推定種類,正解種類)…誤差関数(3)
なお、上記の式におけるcross_entropy(推定画像,正解画像)は第1の誤差であり、cross_entropy(推定種類,正解種類)は第2の誤差であり、αは任意に決定される係数である。
パラメータ制御部149は、誤差算出部147により算出された誤差を小さくするように、学習モデル145の重みパラメータを調整する。この重みパラメータの調整処理を繰り返し行い、誤差算出部147により算出される誤差が収束するまで繰り返し学習を行う。例えば、パラメータ制御部149は、上記誤差関数(3)で算出される誤差が閾値A以下にするように、学習モデル145の重みパラメータを調節する。このようにして、重みパラメータを最適化することにより、学習済みモデルを得ることができる。
図8は、学習装置131を使用した学習方法(学習方法を実行させるプログラム)を示すフロー図である。
先ず、データ取得部12を介して、画像データとして分割画像IS1、及び分割画像IS1に対応する正解画像AN1並びに正解種類AN2が入力される(ステップS10及びステップS11)。その後、画像データがエンコーダ部分121で処理が行われ段階的に特徴マップが生成され、抽象的な情報を示す特徴マップM3が生成される。そして特徴マップM3に基づいて、分類器137により推定種類C1が出力される(ステップS12)。また、特徴マップM3に対してデコーダ部分123で処理が行われて、推定画像IS2が出力される(ステップS13)。その後、学習制御部143の誤差算出部147により、推定画像IS2と正解画像AN1との誤差及び推定種類C1と正解種類AN2との誤差が誤差関数(3)で算出される(ステップS14)。そして、パラメータ制御部149は算出された誤差が閾値A以下であるか否かを判定する(ステップS15)。算出された誤差が閾値Aより大きい場合には、パラメータ制御部149により、学習モデルの重みパラメータを変更する(ステップS16)。一方、算出された誤差が閾値A以下である場合には、学習を終了させる。
以上で説明したように、本発明では、セグメンテーション学習器135が有するエンコーダ部分121で生成された特徴マップM3を用いて、分類器137により対象物の種類を推定した推定種類C1が取得される。そして、学習制御部143は、正解画像と推定画像との第1の誤差、及び対象物の正解種類と推定種類との第2の誤差に基づいて学習モデル145を機械学習させる。これにより、本態様は、セグメンテーション学習器135の中間処理で生成される特徴マップM3が、適切な推定種類を出力するように学習させることができるので、セグメンテーションにおける物体の識別性能を向上させることができる。
<実施例>
次に、本発明を実際のネットワークに適用した実施例を説明する。
図9は、上述した非特許文献1に記載されているU-Netなどの実際に構築されたCNNに本発明を適用した場合を模式的に示す図である。
Net(符号Nで示す)は、レイヤD1、レイヤD2、レイヤD3、レイヤD4、及びレイヤD5を備えている。レイヤD1及びレイヤD2は、「convolution]層、「convolution]層、及び「maxpool」層で構成される。レイヤD3及びレイヤD4は、「convolution]層、「convolution]層、及び「upconvolution」層で構成される。レイヤD5は、「convolution]層及び「convolution]層で構成される。なお、レイヤD1~レイヤD5では、画像サイズ、チャンネル数が異なる特徴マップが生成される。
Net(N)には、構造物の損傷を有する分割画像IS5の画像データが入力される。そして、損傷のセグメンテーションが行われた推定画像IS6を出力する。推定画像IS6としては、小さい密集損傷の領域が赤色で表示される画像165、孤立した損傷の領域が青色で表示される画像167、又は大きい損傷の領域が白色で表示される画像169が出力される。
また、レイヤD3において出力される特徴マップMMは、平均化(Global Average Pooling(GAP))して全結合層(符号163で示す)に入力される。分類器137が出力する推定種類C3は、(損傷なし、小さい密集損傷、孤立した損傷、大きい損傷)の種類の確率ベクトルで出力される。なお、推定種類C3は、one-hotベクトルで表現されてもよい。ここで、特徴マップMMは、Net(N)において最も画像サイズが小さく、チャンネル数が多い特徴マップであり、抽象的な情報である。なお、本例では分類器137は、レイヤD3で生成された特徴マップMMを利用して、推定種類C3を出力したがこれに限定されない。分類器137は、エンコーダ部分121で出力される特徴マップを利用して、推定種類C3を出力することができる。
そして、図7で説明を行ったように例えば誤差関数(3)を利用して、推定画像IS6と正解画像、推定種類C3と正解種類の誤差を小さくするように機械学習が行われる。
ここで、正解種類は、セグメンテーションの学習に用いられる正解画像より取得することができる。例えば、学習制御部143は、正解画像の含まれる画素数により正解種類を得ることができる。例えば、学習制御部143は、正解画像において、各画素のR(赤)、G(緑)、B(青)値の平均値(r、g、b)である場合に、r>gでありr>bであれば、正解画像に赤色の表示が多いと判定することができる。この場合学習制御部143は、赤色に対応した種類を正解種類とすることができ、図9では正解種類を「小さい密集損傷」とすることができる。
このように、Net(N)のセグメンテーションの学習において、Net(N)の中間処理で生成される特徴マップMMに基づいて、分割画像IS5に写っている物体の分類(クラスフィケーション)につての学習も併用する。これにより、Net(N)のセグメンテーションの物体を識別する性能が向上する。
上記実施形態において、各種の処理を実行する学習装置131のハードウェア的な構造は、次に示すような各種のプロセッサ(processor)である。各種のプロセッサには、ソフトウェア(プログラム)を実行して各種の処理部として機能する汎用的なプロセッサであるCPU(Central Processing Unit)、FPGA(Field Programmable Gate Array)などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device:PLD)、ASIC(Application Specific Integrated Circuit)などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路などが含まれる。
1つの処理部は、これら各種のプロセッサのうちの1つで構成されていてもよいし、同種又は異種の2つ以上のプロセッサ(例えば、複数のFPGA、あるいはCPUとFPGAの組み合わせ)で構成されてもよい。また、複数の処理部を1つのプロセッサで構成してもよい。複数の処理部を1つのプロセッサで構成する例としては、第1に、クライアントやサーバなどのコンピュータに代表されるように、1つ以上のCPUとソフトウェアの組合せで1つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第2に、システムオンチップ(System On Chip:SoC)などに代表されるように、複数の処理部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサを1つ以上用いて構成される。
さらに、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子などの回路素子を組み合わせた電気回路(circuitry)である。
上述の各構成及び機能は、任意のハードウェア、ソフトウェア、或いは両者の組み合わせによって適宜実現可能である。例えば、上述の処理ステップ(処理手順)をコンピュータに実行させるプログラム、そのようなプログラムを記録したコンピュータ読み取り可能な記録媒体(非一時的記録媒体)、或いはそのようなプログラムをインストール可能なコンピュータに対しても本発明を適用することが可能である。
以上で本発明の例に関して説明してきたが、本発明は上述した実施の形態に限定されず、本発明の精神を逸脱しない範囲で種々の変形が可能であることは言うまでもない。
10 :コンピュータ
12 :データ取得部
14 :GPU
16 :メモリ
18 :操作部
20 :CPU
22 :RAM
24 :ROM
26 :表示部
101 :入力画像
103 :学習モデル
105 :確率ベクトル
107 :学習モデル
109 :推定画像
121 :エンコーダ部分
123 :デコーダ部分
131 :学習装置
135 :セグメンテーション学習器
137 :分類器
143 :学習制御部
145 :学習モデル
147 :誤差算出部
149 :パラメータ制御部

Claims (12)

  1. 学習モデルと前記学習モデルを機械学習させる学習制御部とを構成するプロセッサを備えた学習装置において、
    前記学習モデルは、
    対象物が撮影された画像データであって、前記画像データ内の前記対象物の領域を示す正解画像とのペアからなる学習データにおける前記画像データを入力し、前記対象物の領域の特徴量を抽出して特徴マップを生成する複数の第1の畳み込み層を含むエンコーダ部分と、前記生成された前記特徴マップを用いて前記対象物の領域を推定した推定画像を出力する複数の第2の畳み込み層を含むデコーダ部分と、を有するセグメンテーション学習器と、
    前記エンコーダ部分から得られた前記特徴マップを用いて、前記対象物の種類を推定した推定種類を取得する分類器と、を含み、
    前記学習制御部は、前記正解画像と前記推定画像との第1の誤差、及び前記対象物の正解種類と前記推定種類との第2の誤差に基づいて前記学習モデルを機械学習させる学習装置であって、
    前記学習制御部は、前記第1の誤差と前記第2の誤差との以下の式で表される誤差関数により得られる誤差が閾値A以下であるように、前記推定画像を前記正解画像に合わせ込む、学習装置。
    誤差=cross_entropy(前記推定画像,前記正解画像)+α×cross_entropy(前記推定種類,前記正解種類)
    なお、上記の式におけるcross_entropy(前記推定画像,前記正解画像)は前記第1の誤差であり、cross_entropy(前記推定種類,前記正解種類)は前記第2の誤差であり、αは任意に決定される係数である。
  2. 前記正解画像は、前記正解種類に関する情報を有する請求項1に記載の学習装置。
  3. 前記学習制御部は、前記正解画像の画素の情報に基づいて、前記正解種類を取得する請求項に記載の学習装置。
  4. 前記分類器は、前記特徴マップから全結合層を介して、前記推定種類を取得する請求項1からのいずれか1項に記載の学習装置。
  5. 前記分類器は、前記特徴マップを平均化し前記全結合層に入力することにより、前記推定種類を取得する請求項に記載の学習装置。
  6. 前記分類器は、前記対象物の種類を示す確率ベクトルを取得して、前記推定種類を取得する請求項1からのいずれか1項に記載の学習装置。
  7. 前記画像データは、1枚の画像を分割した分割画像のデータである請求項1からのいずれか1項に記載の学習装置。
  8. 前記画像データは、構造物を撮影した画像のデータである請求項1からのいずれか1項に記載の学習装置。
  9. 前記対象物は、前記構造物の損傷である請求項に記載の学習装置。
  10. 学習モデルと前記学習モデルを機械学習させる学習制御部とを構成するプロセッサを備えた学習装置の学習方法において、
    前記学習モデルは、
    対象物が撮影された画像データであって、前記画像データ内の前記対象物の領域を示す正解画像とのペアからなる学習データにおける前記画像データを入力し、前記対象物の領域の特徴量を抽出して特徴マップを生成する複数の第1の畳み込み層を含むエンコーダ部分と、前記生成された前記特徴マップを用いて前記対象物の領域を推定した推定画像を出力する複数の第2の畳み込み層を含むデコーダ部分と、を有するセグメンテーション学習器と、
    前記エンコーダ部分から得られた前記特徴マップを用いて、前記対象物の種類を推定した推定種類を取得する分類器と、を含み、
    前記学習制御部により、前記正解画像と前記推定画像との第1の誤差、及び前記対象物の正解種類と前記推定種類との第2の誤差に基づいて前記学習モデルを機械学習させるステップを含む、学習方法であって、
    前記ステップにおいて前記学習制御部は、前記第1の誤差と前記第2の誤差との以下の式で表される誤差関数により得られる誤差が閾値A以下であるように、前記推定画像を前記正解画像に合わせ込む、学習方法。
    誤差=cross_entropy(前記推定画像,前記正解画像)+α×cross_entropy(前記推定種類,前記正解種類)
    なお、上記の式におけるcross_entropy(前記推定画像,前記正解画像)は前記第1の誤差であり、cross_entropy(前記推定種類,前記正解種類)は前記第2の誤差であり、αは任意に決定される係数である。
  11. 学習モデルと前記学習モデルを機械学習させる学習制御部とを構成するプロセッサを備えた学習装置に学習方法を実行させるプログラムであって、
    前記学習モデルは、
    対象物が撮影された画像データであって、前記画像データ内の前記対象物の領域を示す正解画像とのペアからなる学習データにおける前記画像データを入力し、前記対象物の領域の特徴量を抽出して特徴マップを生成する複数の第1の畳み込み層を含むエンコーダ部分と、前記生成された前記特徴マップを用いて前記対象物の領域を推定した推定画像を出力する複数の第2の畳み込み層を含むデコーダ部分と、を有するセグメンテーション学習器と、
    前記エンコーダ部分から得られた前記特徴マップを用いて、前記対象物の種類を推定した推定種類を取得する分類器と、を含み、
    前記学習制御部により、前記正解画像と前記推定画像との第1の誤差、及び前記対象物の正解種類と前記推定種類との第2の誤差に基づいて前記学習モデルを機械学習させるステップを含む、学習方法を実行させるプログラムであって、
    前記ステップにおいて前記学習制御部は、前記第1の誤差と前記第2の誤差との以下の式で表される誤差関数により得られる誤差が閾値A以下であるように、前記推定画像を前記正解画像に合わせ込む、プログラム。
    誤差=cross_entropy(前記推定画像,前記正解画像)+α×cross_entropy(前記推定種類,前記正解種類)
    なお、上記の式におけるcross_entropy(前記推定画像,前記正解画像)は前記第1の誤差であり、cross_entropy(前記推定種類,前記正解種類)は前記第2の誤差であり、αは任意に決定される係数である。
  12. 非一時的かつコンピュータ読取可能な記録媒体であって、請求項11に記載のプログラムが記録された記録媒体。
JP2022530495A 2020-06-11 2021-06-02 学習装置、学習方法、及びプログラム Active JP7441312B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020101491 2020-06-11
JP2020101491 2020-06-11
PCT/JP2021/020927 WO2021251224A1 (ja) 2020-06-11 2021-06-02 学習装置、学習方法、及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2021251224A1 JPWO2021251224A1 (ja) 2021-12-16
JP7441312B2 true JP7441312B2 (ja) 2024-02-29

Family

ID=78846052

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022530495A Active JP7441312B2 (ja) 2020-06-11 2021-06-02 学習装置、学習方法、及びプログラム

Country Status (2)

Country Link
JP (1) JP7441312B2 (ja)
WO (1) WO2021251224A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002373333A (ja) 2001-05-28 2002-12-26 Honda R & D Europe (Deutschland) Gmbh 階層ネットワークを用いたパターン認識方法
JP2018205920A (ja) 2017-05-31 2018-12-27 富士通株式会社 学習プログラム、学習方法および物体検知装置
JP2019091434A (ja) 2017-11-14 2019-06-13 アドビ インコーポレイテッド 複数のディープ・ラーニング・ニューラル・ネットワークを動的に重み付けすることによるフォント認識の改善
WO2020048140A1 (zh) 2018-09-07 2020-03-12 北京市商汤科技开发有限公司 活体检测方法和装置、电子设备、计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002373333A (ja) 2001-05-28 2002-12-26 Honda R & D Europe (Deutschland) Gmbh 階層ネットワークを用いたパターン認識方法
JP2018205920A (ja) 2017-05-31 2018-12-27 富士通株式会社 学習プログラム、学習方法および物体検知装置
JP2019091434A (ja) 2017-11-14 2019-06-13 アドビ インコーポレイテッド 複数のディープ・ラーニング・ニューラル・ネットワークを動的に重み付けすることによるフォント認識の改善
WO2020048140A1 (zh) 2018-09-07 2020-03-12 北京市商汤科技开发有限公司 活体检测方法和装置、电子设备、计算机可读存储介质

Also Published As

Publication number Publication date
WO2021251224A1 (ja) 2021-12-16
JPWO2021251224A1 (ja) 2021-12-16

Similar Documents

Publication Publication Date Title
CN106920243B (zh) 改进的全卷积神经网络的陶瓷材质件序列图像分割方法
US9317784B2 (en) Image processing apparatus, image processing method, and program
US9697583B2 (en) Image processing apparatus, image processing method, and computer-readable recording medium
CN109712165B (zh) 一种基于卷积神经网络的同类前景图像集分割方法
JP6341650B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP7083037B2 (ja) 学習装置及び学習方法
WO2019026104A1 (ja) 情報処理装置、情報処理プログラム及び情報処理方法
Bugeau et al. Patch-based image colorization
US11615515B2 (en) Superpixel merging
WO2020223963A1 (en) Computer-implemented method of detecting foreign object on background object in image, apparatus for detecting foreign object on background object in image, and computer-program product
JPWO2020022027A1 (ja) 学習装置及び学習方法
WO2022199710A1 (zh) 图像融合方法、装置、计算机设备和存储介质
CN115841447A (zh) 一种磁瓦表面缺陷的检测方法
US9965881B2 (en) Method for generating image and image generation system
JP7441312B2 (ja) 学習装置、学習方法、及びプログラム
KR20200091661A (ko) 조작 이미지 판별 장치 및 방법
CN113744142A (zh) 图像修复方法、电子设备及存储介质
JP6887154B2 (ja) 画像処理システム、評価モデル構築方法、画像処理方法及びプログラム
JP6294700B2 (ja) 画像処理装置及び画像処理方法
CN110991408B (zh) 基于深度学习方法分割脑白质高信号的方法和装置
US20220164658A1 (en) Method, device, and computer program
US20220122244A1 (en) Defect image generation method for deep learning and system therefor
CN113744199B (zh) 图像的破损检测方法、电子设备及存储介质
JP7252158B2 (ja) 学習方法、学習装置、画像解析装置、及びプログラム
CN114419081A (zh) 一种图像语义分割方法、系统及可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230928

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240209

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240216

R150 Certificate of patent or registration of utility model

Ref document number: 7441312

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150