JP6977886B2

JP6977886B2 - 機械学習方法、機械学習装置、及び機械学習プログラム

Info

Publication number: JP6977886B2
Application number: JP2020526802A
Authority: JP
Inventors: 渉 ▲高▼橋; 翔太押川
Original assignee: Shimadzu Corp
Current assignee: Shimadzu Corp
Priority date: 2018-06-28
Filing date: 2018-06-28
Publication date: 2021-12-08
Anticipated expiration: 2038-06-28
Also published as: CN112262394A; CN112262394B; US20210358129A1; US11176672B1; WO2020003434A1; JPWO2020003434A1

Description

本発明は、画像情報を対象とする機械学習方法、機械学習装置、及び機械学習用のコンピュータプログラムに関し、さらに詳しくは、教師有り機械学習により画像に対するセマンティックセグメンテーションを実行する学習モデルを作成するための機械学習方法、機械学習装置、及び機械学習プログラムに関する。

近年、自動運転、医療用画像診断など様々な分野において、機械学習、特にディープラーニング（深層学習）を用いたセマンティックセグメンテーション等の画像処理技術が利用されている。ディープラーニングを用いた画像処理では、畳み込みニューラルネットワーク（Convolutional Neural Network：以下「ＣＮＮ」と略す）が広く利用されている。ＣＮＮは、通常、複数のフィルタによる畳み込み処理によって画像の特徴を抽出する畳み込み層と、一定領域の応答を集約するプーリング処理によって局所的なデータの位置不変性を与えるプーリング層と、畳み込み層及びプーリング層により特徴部分が抽出された画像データを一つのノードに結合し、活性化関数によって変換された値（特徴変数）を出力する全結合層と、を有する。また、最近では、ＣＮＮを構成する全結合層を畳み込み層にする全層（又は完全）畳み込みニューラルネットワーク（Fully Convolutional Neural Network：以下「ＦＣＮ」と略す）が提案され（非特許文献１参照）、特にセマンティックセグメンテーションにおける応用が進んでいる。

いずれにしても上記ＣＮＮ、ＦＣＮを含む機械学習では一般に、入力データｘに対しパラメータｗを用いてモデル関数ｆ（ｗ，ｘ）を構築し、該モデル関数における予め用意された正解データに対する損失を定義して、該損失を最小化するようにパラメータｗを修正することで適切なモデル関数を求める。こうした手法は誤差逆伝播法（Back Propagation）としてよく知られている。セマンティックセグメンテーションにおいて、上記正解データとは入力画像を正しくセグメンテーションした結果であるラベル画像を構成するデータである。

一般に、画像データを対象とするディープラーニングの学習ではその計算量が膨大になる。そこで、通常、入力された画像データは画像計算処理に特化するように設計されたＧＰＵ（Graphics Processing Unit）で処理される。ただし、その場合でも、一度に多量の画像を処理することは難しいため、入力される画像を所定の枚数毎に区切り、その区切られたひとまとまりの画像毎に損失関数を計算するという処理が実施される。ひとまとまりとされる画像の枚数はバッチサイズと呼ばれ、機械学習の際の一つの重要なパラメータとして予め設定される。

バッチサイズを大きくすると学習が速く進んで効率的であるものの、ＧＰＵのメモリ容量の制約のために設定可能なバッチサイズには制約がある。また、入力画像のサイズが極端に大きい場合には、バッチサイズを最小値に設定しても学習に必要なデータサイズがＧＰＵのメモリ容量を超えてしまい処理を実行できない場合がある。例えば本出願人らはＰＣＴ／ＪＰ２０１８／００８４８３号、ＰＣＴ／ＪＰ２０１８／００９０４６号等において、ホログラフィック顕微鏡により得られた細胞観察画像に対し機械学習を適用して、多能性幹細胞を培養する過程で発生する未分化逸脱細胞を識別する方法を提案している。こうした場合、元の細胞観察画像は非常に高精細で且つ撮影範囲も広いために画像データのサイズは膨大であり、それに伴って学習時に使用する一時メモリサイズも膨大となるため、１枚の画像の学習に必要なデータサイズがＧＰＵのメモリ容量を超えてしまうことがある。

そこで従来は、バッチサイズをできるだけ大きくするため、或いは、データサイズが極端に大きな画像を処理するために、入力された画像とこれに対応する正解画像のサイズを同じように縮小し、その縮小された画像を用いて学習を実施するという方法が採られている。画像縮小のアルゴリズムとしては、バイリニア補間法、バイキュービック補間法、最近傍法、ランチョス（Lanczos）補間法などが知られている。

ジョナサン・ロング（Jonathan Long）、ほか２名、「フーリー・コンボリューショナル・ネットワークス・フォー・セマンティック・セグメンテーション（Fully Convolutional Networks for Semantic Segmentation）」、ザ・アイトリプルイー・カンファレンス・オン・コンピュータ・ビジョン・アンド・パターン・リコグニション（The IEEE Conference on Computer Vision and Pattern Recognition）、2015年、pp.3431-3440、（インターネット＜URL: https://people.eecs.berkeley.edu/~jonlong/long_shelhamer_fcn.pdf＞）

しかしながら、上記従来の機械学習方法では次のような問題がある。
機械学習では、学習画像及び正解画像を用いた学習により学習モデルが作成されたあと、その学習モデルが適切であるかどうかの精度評価が実施されるのが一般的である。この学習モデルの精度評価の際には、テスト画像とこれに対応する正解画像とが用いられるが、該テスト画像を学習モデルに入力した結果として該学習モデルから出力されるラベル画像は縮小された画像である。そのため、その縮小されたラベル画像をバイリニア補間法等により拡大して正解画像と同じフルサイズの画像に戻したうえで、両画像を比較して評価が行われる。ところが、縮小されたラベル画像を拡大する際に生じる画素信号の誤差のために両画像間の微細な領域での差異が顕在化し、評価精度が低下してしまう場合がある。

本発明は上記課題を解決するためになされたものであり、その目的とするところは、学習時に入力画像のサイズが大きく画像を縮小する必要がある場合であっても、フルサイズの高精度のラベル画像が出力される学習モデルを作成することができる機械学習方法、機械学習装置、及び機械学習プログラムを提供することである。

上記課題を解決するために成された本発明に係る機械学習方法は、機械学習を用いて入力画像に対するセマンティックセグメンテーションを行うための学習モデルを作成する機械学習方法であって、
a)入力された学習画像のサイズを縮小する画像縮小ステップと、
b)複数の縮小された学習画像を用い、所定のパラメータに基づく学習モデルに従ってラベル画像を生成するラベル画像生成ステップ、該ラベル画像を前記入力された学習画像のサイズまで拡大する画像拡大ステップ、及び、該拡大されたラベル画像と前記学習画像に対応する正解画像とに基づき損失関数による誤差を求め該誤差に応じて前記パラメータを更新するパラメータ更新ステップと、を含み、該ラベル画像生成ステップ、該画像拡大ステップ及び該パラメータ更新ステップを繰り返し行うことで前記学習モデルを逐次的に改良する学習実行ステップと、
を有し、前記学習実行ステップにおいて改良された学習モデルに前記画像拡大ステップによる拡大処理を加えた拡大学習モデルをセマンティックセグメンテーションを行うための学習モデルとして得ることを特徴としている。

また上記課題を解決するために成された本発明に係る機械学習装置は、機械学習を用いて入力画像に対するセマンティックセグメンテーションを行うための学習モデルを作成する機械学習装置であって、
a)入力された学習画像のサイズを縮小する画像縮小部と、
b)複数の縮小された学習画像を用い、所定のパラメータに基づく学習モデルに従ってラベル画像を生成するラベル画像生成部、該ラベル画像を前記入力された学習画像のサイズまで拡大する画像拡大部、該拡大されたラベル画像と前記学習画像に対応する正解画像とに基づき損失関数による誤差を求め該誤差に応じて前記パラメータを更新するパラメータ更新部、並びに、前記ラベル画像生成部、前記画像拡大部、及び前記パラメータ更新部による処理を繰り返し行うことで前記学習モデルを逐次的に改良する繰り返し制御部、を含む学習実行部と、
を備え、前記学習実行部において改良された学習モデルに前記画像拡大部による拡大処理を加えた拡大学習モデルをセマンティックセグメンテーションを行うための学習モデルとして得ることを特徴としている。

さらにまた上記課題を解決するために成された本発明に係る機械学習プログラムは、機械学習を用いて入力画像に対するセマンティックセグメンテーションを行うための学習モデルをコンピュータ上で作成する機械学習プログラムであって、
コンピュータを、
a)入力された学習画像のサイズを縮小する画像縮小機能部と、
b)複数の縮小された学習画像を用い、所定のパラメータに基づく学習モデルに従ってラベル画像を生成するラベル画像生成機能部、該ラベル画像を前記入力された学習画像のサイズまで拡大する画像拡大機能部、該拡大されたラベル画像と前記学習画像に対応する正解画像とに基づき損失関数による誤差を求め該誤差に応じて前記パラメータを更新するパラメータ更新機能部、並びに、前記ラベル画像生成機能部、前記画像拡大機能部、及び前記パラメータ更新機能部による処理を繰り返し行うことで前記学習モデルを逐次的に改良する繰り返し制御機能部、を含む学習実行機能部と、
して動作させ、前記学習実行機能部において改良された学習モデルに前記画像拡大機能部による拡大処理を加えた拡大学習モデルをセマンティックセグメンテーションを行うための学習モデルとして得ることを特徴としている。

本発明における機械学習の手法は、学習モデルに基づいて画像のセマンティックセグメンテーションが可能であれば特にその方法やアルゴリズムを問わず、例えば、前述のＦＣＮ、ＣＮＮを含むディープラーニングのほか、サポートベクターマシン（Support Vector Machine：ＳＶＭ）、ランダムフォレスト（Random Forest）、アダブースト（AdaBoost）などが挙げられる。

本発明では、学習モデルを作成するための画像として、同じサイズ（フルサイズ）の学習画像と正解画像とを一組とする複数（通常はかなり多数）組の画像が入力される。正解画像は学習画像に対して正確なセマンティックセグメンテーションが実施された結果であるラベル画像である。本発明に係る機械学習方法では、まず画像縮小ステップにより、入力されたフルサイズの学習画像が所定のサイズに縮小される。この画像縮小のアルゴリズムは特に限定されず、前述の幾つかの方法を含むいずれかの方法を用いることができる。

学習実行ステップでは、上述のように縮小された複数の学習画像を用いて機械学習を行うことにより、未知の画像に対してセマンティックセグメンテーションを行うための学習モデルを作成する。例えばＦＣＮによるディープラーニングを行う場合、ラベル画像生成ステップでは、フィルタの係数（重み）をパラメータとする複数の畳み込み層と複数のプーリング層とを含む多層ネットワークによりラベル画像を生成するが、まずそのフィルタの係数が所定値に設定された畳み込み層を含む多層ネットワークによりラベル画像を生成する。該ネットワークへの入力画像は縮小された画像であるので、該ネットワークから出力されるラベル画像も縮小されたものである。

画像拡大ステップでは、その縮小されたラベル画像を元の学習画像のサイズ、つまりフルサイズまで拡大する。そして、パラメータ更新ステップでは、所定の損失関数を用いて拡大後のフルサイズのラベル画像と同じフルサイズの正解画像とから誤差を求め、その誤差に応じてパラメータ、つまり畳み込み層のフィルタ係数を更新する。そして、フィルタ係数が更新された多層ネットワークによりラベル画像を再び生成し、そのラベル画像を拡大して正解画像との誤差を求める、という処理を繰り返す。この繰り返しにより、フィルタ係数群つまりは学習モデルを逐次的に改良してより正確なモデルに近づける。そして、最終的な学習モデルに画像拡大ステップにおける拡大処理を加えた拡大学習モデルを、セマンティックセグメンテーションを行うための学習モデルとして取得する。

本発明では、画像拡大ステップにおける拡大処理を含んで学習が実行されるから、その拡大処理の際に発生する可能性がある画素信号の誤差等をできるだけ小さくするように学習モデルのパラメータが決定されることになる。従来の学習方法で作成される学習モデルでは、入力されたテスト画像に対して出力されるラベル画像は縮小された画像であったが、本発明において作成される学習モデルでは、出力されるラベル画像は入力されたテスト画像と同じフルサイズの画像である。そのため、学習モデルから出力されるラベル画像とフルサイズである正解画像をそのまま用いて、学習モデルの精度評価を行うことができる。

上述したように本発明によれば、入力画像のサイズを縮小して学習を行うことができるので、バッチサイズを大きくしたり、或いは、画像のサイズが極端に大きな画像も処理したりすることができる。一方、学習モデルから出力されるラベル画像は縮小画像ではなく元の入力画像と同じフルサイズの高精細な画像であるので、例えば高い精度で以て学習モデルの精度評価を行うことができる。

本発明に係る機械学習装置の一実施例のブロック構成図。本実施例の機械学習装置におけるＦＣＮ演算部の構造の概念図。本実施例の機械学習装置における学習時の処理の流れを示すフローチャート。

以下、本発明に係る機械学習方法、機械学習装置、及び機械学習プログラムの一実施例について、添付図面を参照して説明する。
図１は本発明に係る機械学習方法を実施するための機械学習装置の一実施例の概略ブロック構成図である。

本実施例の機械学習装置は機能ブロックとして、画像縮小部１１と、ＦＣＮ演算部１３、画像拡大部１４、誤差計算部１５、及びパラメータ更新部１６を含む学習実行部１２と、学習制御部１７と、を含む。なお、この機械学習装置はパーソナルコンピュータやより性能の高いワークステーション、或いは、そうしたコンピュータと通信回線を介して接続された高性能なコンピュータを含むコンピュータシステムをハードウェア資源とし、そうしたコンピュータ単体又はコンピュータシステムに搭載されているソフトウェアを実行することで具現化されるものとすることができる。

図２はＦＣＮ演算部１３の構造の概念図である。ＦＣＮの構造や処理の詳細は非特許文献１を始めとする多くの文献に詳しく説明されている。また、米国マスワークス（MathWorks）社が提供している「MATLAB」などの市販の或いはフリーのソフトウェアを利用した実装も可能である。そのため、ここでは概略的に説明する。

図２に示すように、ＦＣＮは、例えば畳み込み層とプーリング層との繰り返しが多層化された多層ネットワーク１３１と、畳み込みニューラルネットワークにおける全結合層に相当する畳み込み層１３２と、を含む。この場合、多層ネットワーク１３１では、所定のサイズのフィルタ（カーネル）を用いた畳み込み処理と、畳み込み結果を２次元的に縮小して有効値を抽出するプーリング処理とを繰り返す。但し、多層ネットワーク１３１は、プーリング層がなく畳み込み層のみで構成されていてもよい。また、最終段の畳み込み層１３２では、所定のサイズのフィルタを入力画像内でスライドさせつつ局所的な畳み込み及び逆畳み込みを行う。このＦＣＮでは、入力画像１３３に対してセマンティックセグメンテーションを行うことで、ラベル付けしたラベル画像１３４を出力することができる。

ＦＣＮによりセグメンテーションを行うには、予め多数の学習画像を用いて、多層ネットワーク１３１に含まれる複数の畳み込み層や最終段の畳み込み層１３２それぞれにおけるフィルタの係数（重み）を学習させる必要がある。次に、図３に示すフローチャートに従って、本実施例の機械学習装置において学習を行う際の動作を説明する。ここでは一般的に機械学習でしばしば用いられている確率的勾配降下法を利用した学習を行う。この方法は、与えられた多数の学習データを予め定めたミニバッチ単位で区切りつつ学習を繰り返す方法であり、学習データがランダムにシャッフルされることにより、局所解にはまりにくくなるという利点がある。

学習の際には、セグメンテーションの対象である学習画像と、この学習画像に対して適切にセグメンテーションがなされた結果のラベル画像である正解画像とを一組とするセット画像が多数用いられる。

学習制御部１７は、予め決められているバッチサイズに応じて、複数のミニバッチに割り当てる学習画像をランダムに決定する（ステップＳ１）。ここでは、ミニバッチの数はＮであり、一つのミニバッチに割り当てられる学習画像の数はｎであるとする。

画像縮小部１１は学習制御部１７で決められた割当てに従って、一つのミニバッチに含まれるｎ枚の学習画像を読み込み、各画像のサイズを所定のサイズに縮小する。次に、学習実行部１２は縮小された複数の学習画像と元の学習画像にそれぞれ対応する正解画像とに基づいて、ＦＣＮの学習を実行する（ステップＳ１３）。

具体的には、まずパラメータ更新部１６により初期的に設定されたフィルタ係数の下でＦＣＮ演算部１３は入力画像に対する処理を実行しセグメンテーションの結果であるラベル画像を出力する。入力画像は縮小画像であるから、出力されるラベル画像も縮小画像である。画像拡大部１４は複数のラベル画像それぞれについて、元の学習画像と同じフルサイズまで画像のサイズを拡大する。誤差計算部１５は拡大されたラベル画像とそれに対応する正解画像とに基づき、所定の損失関数による誤差を算出する。即ち、この誤差を計算する際には、ラベル画像、正解画像共にフルサイズの画像である。パラメータ更新部１６は算出された誤差に基づいて、ＦＣＮ演算部１３におけるフィルタ係数を更新する。これにより、同じ入力画像に対するＦＣＮ演算部１３における処理の結果、つまりはラベル画像が変化する。学習制御部１７はこのようなルーチンを例えば誤差が所定の許容範囲に収まるまで繰り返すことで、一つのミニバッチに基づくＦＣＮ演算部１３のフィルタ係数を学習する。即ち、誤差逆伝播法によりＦＣＮ演算部１３のフィルタ係数を学習する。

そのあと、学習制御部１７は全てのミニバッチについての学習が終了したか否かを判定する（ステップＳ１４）。ステップＳ１４でＮｏと判定された場合には、ステップＳ１１で学習画像の割当てが決められた複数のミニバッチの中で未だ学習が済んでいないものがあるから、ステップＳ１２に戻る。そして、学習制御部１７の制御の下で画像縮小部１１は別の一つのミニバッチに含まれる学習画像を読み込んで縮小する。したがって、ステップＳ１２〜Ｓ１４の処理はミニバッチの数Ｎだけ繰り返される。

上記ステップＳ１４でＹｅｓと判定されると、学習制御部１７は、ステップＳ１１の処理を予め決められたエポック数だけ繰り返したか否かを判定する（ステップＳ１５）。このステップＳ１５でＮｏと判定された場合には、ステップＳ１５からＳ１１へと戻り、学習制御部１７は再び複数のミニバッチに割り当てる学習画像をランダムに決定する。したがって、各ミニバッチに割り当てられる学習画像はシャッフルされることになる。エポック数は予め適宜に決められるが、通常、例えば１０００回或いは１万回など大きな値である。即ち、このエポック数だけステップＳ１１〜Ｓ１５の処理が繰り返され、その繰り返しの過程でＦＣＮ演算部１３のフィルタ係数の学習が進められる。そして、ステップＳ１５でＹｅｓと判定されると学習を終了する。そして、その学習結果を学習済みのモデルとして保存する（ステップＳ１６）。

上述したようにＦＣＮ演算部１３のフィルタ係数を学習する際のループには、画像拡大部１４における拡大処理が含まれる。通常、拡大処理では縮小処理と逆の操作を行うが、補間により生成される画素信号には誤差が避けられないが、本実施例の機械学習装置では、この画像拡大の際に生じる誤差も含めてＦＣＮによる学習モデルが作成される。したがって、ここで作成される学習モデルは画像拡大部１４における拡大処理を含んだモデルである。即ち、このＦＣＮと、そのＦＣＮの出力であるラベル画像を拡大する拡大処理を合わせた拡大学習モデルが、入力画像に対するセマンティックセグメンテーションを行うための学習モデルであり、この学習モデルの出力はフルサイズのラベル画像である。

これにより、例えばテスト画像を用いて、作成された学習モデルの精度を評価する際に、入力されたテスト画像に対して出力されるフルサイズのラベル画像とテスト画像に対応するフルサイズの正解画像とを用いて高精度な評価を行うことができる。

なお、上記実施例では、セマンティックセグメンテーションのための機械学習法としてＦＣＮを用いていたが、通常のＣＮＮでもよいことは明らかである。また、ニューラルネットワークを用いた機械学習法に限らず、画像についてのセグメンテーションが可能な機械学習法であれば本発明を適用することが有効である。こうした機械学習法としては、例えばサポートベクターマシン、ランダムフォレスト、アダブーストなどがある。

また、上記実施例はあくまでも本発明の一例にすぎず、本発明の趣旨の範囲でさらに適宜変形、修正、追加を行っても本願特許請求の範囲に包含されることは明らかである。

１１…画像縮小部
１２…学習実行部
１３…ＦＣＮ演算部
１３１…多層ネットワーク
１３２…畳み込み層
１４…画像拡大部
１５…誤差計算部
１６…パラメータ更新部
１７…学習制御部

Claims

機械学習を用いて入力画像に対するセマンティックセグメンテーションを行うための学習モデルを作成する機械学習方法であって、
a)入力された学習画像のサイズを縮小する画像縮小ステップと、
b)複数の縮小された学習画像を用い、所定のパラメータに基づく学習モデルに従ってラベル画像を生成するラベル画像生成ステップ、該ラベル画像を前記入力された学習画像のサイズまで拡大する画像拡大ステップ、及び、該拡大されたラベル画像と前記学習画像に対応する正解画像とに基づき損失関数による誤差を求め該誤差に応じて前記パラメータを更新するパラメータ更新ステップと、を含み、該ラベル画像生成ステップ、該画像拡大ステップ及び該パラメータ更新ステップを繰り返し行うことで前記学習モデルを逐次的に改良する学習実行ステップと、
を有し、前記学習実行ステップにおいて改良された学習モデルに前記画像拡大ステップによる拡大処理を加えた拡大学習モデルをセマンティックセグメンテーションを行うための学習モデルとして得ることを特徴とする機械学習方法。
請求項１に記載の機械学習方法であって、
前記機械学習は畳み込みニューラルネットワークを用いたディープラーニングであることを特徴とする機械学習方法。
機械学習を用いて入力画像に対するセマンティックセグメンテーションを行うための学習モデルを作成する機械学習装置であって、
a)入力された学習画像のサイズを縮小する画像縮小部と、
b)複数の縮小された学習画像を用い、所定のパラメータに基づく学習モデルに従ってラベル画像を生成するラベル画像生成部、該ラベル画像を前記入力された学習画像のサイズまで拡大する画像拡大部、該拡大されたラベル画像と前記学習画像に対応する正解画像とに基づき損失関数による誤差を求め該誤差に応じて前記パラメータを更新するパラメータ更新部、並びに、前記ラベル画像生成部、前記画像拡大部、及び前記パラメータ更新部による処理を繰り返し行うことで前記学習モデルを逐次的に改良する繰り返し制御部、を含む学習実行部と、
を備え、前記学習実行部において改良された学習モデルに前記画像拡大部による拡大処理を加えた拡大学習モデルをセマンティックセグメンテーションを行うための学習モデルとして得ることを特徴とする機械学習装置。
請求項３に記載の機械学習装置であって、
前記機械学習は畳み込みニューラルネットワークを用いたディープラーニングであることを特徴とする機械学習装置。
機械学習を用いて入力画像に対するセマンティックセグメンテーションを行うための学習モデルをコンピュータ上で作成する機械学習プログラムであって、
コンピュータを、
a)入力された学習画像のサイズを縮小する画像縮小機能部と、
b)複数の縮小された学習画像を用い、所定のパラメータに基づく学習モデルに従ってラベル画像を生成するラベル画像生成機能部、該ラベル画像を前記入力された学習画像のサイズまで拡大する画像拡大機能部、該拡大されたラベル画像と前記学習画像に対応する正解画像とに基づき損失関数による誤差を求め該誤差に応じて前記パラメータを更新するパラメータ更新機能部、並びに、前記ラベル画像生成機能部、前記画像拡大機能部、及び前記パラメータ更新機能部による処理を繰り返し行うことで前記学習モデルを逐次的に改良する繰り返し制御機能部、を含む学習実行機能部と、
して動作させ、前記学習実行機能部において改良された学習モデルに前記画像拡大機能部による拡大処理を加えた拡大学習モデルをセマンティックセグメンテーションを行うための学習モデルとして得ることを特徴とする機械学習プログラム。
請求項５に記載の機械学習プログラムであって、
前記機械学習は畳み込みニューラルネットワークを用いたディープラーニングであることを特徴とする機械学習プログラム。