JP7421152B2

JP7421152B2 - 学習方法、学習装置及びプログラム

Info

Publication number: JP7421152B2
Application number: JP2022560536A
Authority: JP
Inventors: 聡志鈴木; 隆一谷田; 英明木全
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2024-01-24
Anticipated expiration: 2040-11-04
Also published as: JPWO2022097195A1; WO2022097195A1

Description

本発明は、学習方法、学習装置及びプログラムに関する。

原画像内に撮像された物体（被写体）を識別、検出及び領域分割する機械学習技術がある。また、畳み込みニューラルネットワーク（Convolutional Neural Network : CNN）を用いて目視工程を自動化することが、各種の業務において注目されている。

畳み込みニューラルネットワークを用いて目視工程が自動化される場合、人が行っている目視工程に即した画像処理を畳み込みニューラルネットワークが実行することが望ましい。しかしながら、畳み込みニューラルネットワークによって実行される画像処理が目視工程に即していない場合がある。

例えば、人が行っている目視工程では誤検出等が生じないほどの小さな乱れを含む原画像に対して、畳み込みニューラルネットワークが画像処理を実行した場合、その画像処理において誤検出等が生じることがある（非特許文献１参照）、さらに、平行移動又は回転が生じている原画像に対して、畳み込みニューラルネットワークが画像処理を実行した場合、その画像処理において誤検出等が生じることがある（非特許文献２参照）。

また、撮影時にカメラが平行移動又は回転することは珍しくない。このため、撮影された物体の画像等の平行移動又は回転が原画像に生じることがある。このように平行移動又は回転が生じている原画像では、畳み込みニューラルネットワークの画像処理において誤作動を生じさせ易い。

平行移動又は回転が生じている原画像に対して誤検出等が生じないように頑健性を向上させる画像処理の実現手法として、原画像が入力された畳み込みニューラルネットワークの中間層の出力の全体をぼかすという方法がある（非特許文献３及び４参照）。中間層の出力の全体をガウシアンフィルタ等によってぼかすことによって、平行移動又は回転が生じている原画像に対して頑健性が向上することが期待される。

L. Engstrom, B. Tran, D. Tsipras, L. Schmidt, A. Madry, "Exploring the Landscape of Spatial Robustness", 2017. C. Szegedy, W. Zaremba, I. Sutskever, B. Joan, D. Erhan, I. Goodfellow, R. Fergus, "Intriguing properties of neural networks", 2017. R. Zhang, "Making Convolutional Networks Shift-Invariant Again", 2019. S. Sinha, A. Garg, H. Larochelle, "Curriculum by Smoothing", 2020.

しかしながら、中間層の出力の全体がぼかされる場合、畳み込みニューラルネットワークの学習処理は、ランダムな初期値を用いて実行される。一般に、畳み込みニューラルネットワークを用いるモデルパラメータは、非常に大規模であり、例えば数百万から数億程度の自由パラメータを持つ。したがって、ランダムな初期値を用いて実行される学習処理には、非常に大きな時間コストが必要である。このように従来では、平行移動又は回転が生じている原画像の入力に対して頑健な学習済モデルパラメータの生成に必要とされる時間コストを削減することができないという問題がある。

上記事情に鑑み、本発明は、平行移動又は回転が生じている原画像の入力に対して頑健な学習済モデルパラメータの生成に必要とされる時間コストを削減することが可能である学習方法、学習装置及びプログラムを提供することを目的としている。

本発明の一態様は、学習装置が実行する学習方法であって、画像処理が実行される原画像において、前記原画像に対する画像処理の中間結果と、平行移動と回転とのうちの少なくとも一つを前記原画像に生じさせることで得られた画像の中間結果と、の差を示す制約関数値を導出する制約導出ステップと、第１モデルパラメータと追加パラメータとを含む第２モデルパラメータを取得し、前記第１モデルパラメータを固定して前記追加パラメータを前記制約関数値に基づいて更新することによって前記第２モデルパラメータを更新し、更新された前記第２モデルパラメータを出力する最適化処理ステップとを含む学習方法である。

本発明の一態様は、画像処理が実行される原画像において、前記原画像に対する画像処理の中間結果と、平行移動と回転とのうちの少なくとも一つを前記原画像に生じさせることで得られた画像の中間結果と、の差を示す制約関数値を導出する制約導出部と、第１モデルパラメータと追加パラメータとを含む第２モデルパラメータを取得し、前記第１モデルパラメータを固定して前記追加パラメータを前記制約関数値に基づいて更新することによって前記第２モデルパラメータを更新し、更新された前記第２モデルパラメータを出力する最適化処理部とを備える学習装置である。

本発明の一態様は、上記の学習装置としてコンピュータを機能させるためのプログラムである。

本発明により、平行移動又は回転が生じている原画像の入力に対して頑健な学習済モデルパラメータの生成に必要とされる時間コストを削減することが可能である。

第１実施形態における、画像処理装置の構成例を示す図である。第１実施形態における、画像処理装置の動作例を示すフローチャートである。第１実施形態における、変換画像生成部の動作例を示すフローチャートである。第１実施形態における、原画像処理部の動作例を示すフローチャートである。第１実施形態における、変換画像処理部の動作例を示すフローチャートである。第１実施形態における、制約導出部の動作例を示すフローチャートである。第１実施形態における、最適化処理部の動作例を示すフローチャートである。第２実施形態における、画像処理装置の構成例を示す図である。第２実施形態における、調整部の動作例を示すフローチャートである。各実施形態における、画像処理装置のハードウェア構成例を示す図である。

（概要）
以下の実施形態では、学習済みの畳み込みニューラルネットワークのパラメータが固定された上で、その学習済みの畳み込みニューラルネットワークに新たな中間層が追加される。そして、中間層が追加された畳み込みニューラルネットワークを用いて、再学習処理（最適化処理）が実行される。このように、学習済みの畳み込みニューラルネットワークのパラメータは、再学習処理においてそのまま利用される。

ここで、原画像若しくは原画像の一部領域に平行移動又は回転が生じていても、新たに追加された中間層の出力と、その新たに追加された中間層の直前の位置における中間層の出力とがほぼ一致するという制約が定められることによって、実施形態に係る発明は前述の効果を奏する。なお、原画像若しくは原画像の一部領域に平行移動が生じている場合には、原画像における被写体の画像の位置情報が変更されているので、画像空間上での位置情報に対応しない特徴のみがほぼ一致するという制約が定められてもよい。

本発明の実施形態について、図面を参照して詳細に説明する。
（第１実施形態）
図１は、画像処理装置１ａの構成例を示す図である。画像処理装置１ａは、記憶部２と、学習装置３ａとを備える。学習装置３ａは、原画像処理部３０と、変換画像生成部３１と、変換画像処理部３２と、制約導出部３３と、最適化処理部３４とを備える。

記憶部２は、原画像（学習用画像）と、更新前モデルパラメータ（画像処理パラメータ）と、正解ラベルと、追加パラメータとを記憶する。追加パラメータは、更新前モデルパラメータに追加されるパラメータ（階層）である。原画像は、撮影された物体の画像（物体画像）を含む。以下では、平行移動及び回転が生じていない原画像が、原画像処理部３０と変換画像生成部３１とに、記憶部２から入力される。

原画像処理部３０は、原画像（学習用画像）と、更新前モデルパラメータ（第１の更新前モデルパラメータ）とを、記憶部２から取得する。原画像処理部３０は、原画像に対して更新前モデルパラメータを用いて、画像処理を実行する。画像処理は、例えば、画像における物体識別処理、物体検出処理又は領域分割処理である。モデルパラメータは、例えば、畳み込みニューラルネットワークを用いて表されるモデルのパラメータである。また、更新前モデルパラメータは、学習済みモデルのパラメータのうちの少なくとも一部である。

原画像処理部３０は、原画像に対する画像処理の中間結果（以下「中間原画像」という。）を、制約導出部３３に出力する。例えば、原画像における物体識別処理を実行する畳み込みニューラルネットワークでは、中間結果は、出力層の出力ではなく、入力層から出力層までの間（階層的な結果）の中間層の出力である。原画像処理部３０は、例えば出力層に最も近い畳み込み階層の処理結果を、中間原画像（中間結果）として制約導出部３３に出力する。中間原画像は、原画像の一部の領域と一部の性質（例えば、輝度値）とが位置情報を保持したまま抽出された画像であることが多い。例えば、中間原画像は、被写体のテクスチャの一部に類似するテクスチャを有する領域がハイライトされている画像として得られる。

変換画像生成部３１は、原画像を記憶部２から取得する。変換画像生成部３１は、平行移動と回転とのうちの少なくとも一つの変換処理を、原画像に対して実行する。これによって、変換画像生成部３１は、平行移動と回転とのうちの少なくとも一つの変換処理が実行された原画像（以下「変換画像」という。）を生成する。変換画像生成部３１は、変換画像を変換画像処理部３２に出力する。なお、平行移動と回転は、原画像においてエッジとテクスチャを変えずにその原画像に対して変形を加える例の一つである。

変換画像処理部３２は、更新前モデルパラメータ（第１の更新前モデルパラメータ）と、正解ラベルとを、記憶部２から取得する。変換画像処理部３２は、追加パラメータを記憶部２から取得する。変換画像処理部３２は、変換画像を変換画像生成部３１から取得する。変換画像処理部３２は、変換画像に対する画像処理の中間結果（以下「中間変換画像」という。）を、制約導出部３３に出力する。

変換画像処理部３２は、正解ラベルに対する中間変換画像の差分（誤差）に応じた関数値である損失関数値を導出する。例えば、正解ラベルに対する中間変換画像の差分が小さいほど、損失関数値は小さくなる。損失関数値は、例えば、交差エントロピー誤差（Cross-entropy Loss）である。変換画像処理部３２は、損失関数値を最適化処理部３４に出力する。

制約導出部３３は、中間原画像を原画像処理部３０から取得する。制約導出部３３は、中間変換画像を変換画像処理部３２から取得する。制約導出部３３は、中間原画像と中間変換画像とに基づいて、制約関数値を導出する。制約関数値は、原画像に平行移動又は回転が予め生じていた否かに関係なく画像処理の中間結果（中間層の出力）が一定である度合いを表す関数値である。例えば、中間原画像と中間変換画像との間の差分が小さいほど、制約関数値は小さくなる。

中間原画像と中間変換画像との間の差分は、例えば、中間原画像のスタイル特徴と、中間変換画像のスタイル特徴との間の差分でもよい。スタイル特徴は、例えば、画像内の全ての画素値の平均値及び分散値のうちの少なくとも一方である。差分は、例えば平均二乗誤差である。

最適化処理部３４は、追加パラメータが追加された更新前モデルパラメータ（第２の更新前モデルパラメータ）と損失関数値とを、変換画像処理部３２から取得する。最適化処理部３４は、制約関数値を制約導出部３３から取得する。最適化処理部３４は、更新前モデルパラメータ（第２の更新前モデルパラメータ）の追加パラメータに対して最適化処理を実行することによって、更新前モデルパラメータを更新する。最適化処理部３４は、制約関数値が最適化するように、制約関数値を更新する。この最適化とは、特定の最適化に限定されないが、例えば、最小化又は最大化である。最適化処理部３４は、更新前モデルパラメータを更新することによって、更新後モデルパラメータ（学習済モデルパラメータ）を生成する。

モデルパラメータの階層のニューロンには、入力された画像全体に対して受容野を有することが期待される。更新後モデルパラメータの階層のニューロンが中間変換画像と中間原画像とのそれぞれに対して同様に反応するように、最適化処理部３４は、学習処理（最適化処理）として、更新前モデルパラメータを更新する。

ここで、受容野とは、ニューロンの反応に変化を与える原画像の領域である。一般に、出力層に近いニューロンの受容野は、出力層から遠いニューロンの受容野よりも広い。これによって、平行移動又は回転が生じている原画像がモデルパラメータの入力層に入力された場合でも、モデルパラメータの出力層に近い中間層の出力が一定になるという頑健性をモデルパラメータが示すことが期待できる。

画像処理装置１ａが学習処理を継続する場合、最適化処理部３４は、更新後モデルパラメータを学習済モデルパラメータとして、変換画像処理部３２に出力する。画像処理装置１ａが学習処理を終了する場合、最適化処理部３４は、更新後モデルパラメータを学習済モデルパラメータとして、例えば物体識別処理を実行する推論装置（不図示）に出力する。

次に、画像処理装置１ａの動作例を説明する。
図２は、画像処理装置１ａの動作例を示すフローチャートである。原画像処理部３０は、更新前モデルパラメータを記憶部２から取得する。変換画像生成部３１は、更新前モデルパラメータを記憶部２から取得する（ステップＳ１０１）。変換画像生成部３１は、平行移動又は回転が生じている原画像を、変換画像として変換画像処理部３２に出力する（ステップＳ１０２）。

原画像処理部３０は、原画像に対して更新前モデルパラメータを用いて中間原画像を生成する。原画像処理部３０は、中間原画像を制約導出部３３に出力する（ステップＳ１０３）。変換画像処理部３２は、変換画像に対して更新前モデルパラメータを用いて中間変換画像を生成する。変換画像処理部３２は、中間変換画像を制約導出部３３に出力する。変換画像処理部３２は、損失関数値を最適化処理部３４に出力する（ステップＳ１０４）。

制約導出部３３は、中間原画像と中間変換画像との間の差分を小さくする制約関数値を導出する。制約導出部３３は、制約関数値を最適化処理部３４に出力する（ステップＳ１０５）。最適化処理部３４は、更新前モデルパラメータと損失関数値と制約関数値とに基づいて、更新後モデルパラメータを生成する（ステップＳ１０６）。

最適化処理部３４は、学習処理を終了させるか否かを判定する（ステップＳ１０７）。学習処理を継続させると判定された場合（ステップＳ１０７：ＮＯ）、最適化処理部３４は、更新後モデルパラメータを変換画像処理部３２に出力する（ステップＳ１０８）。学習処理を終了させると判定された場合（ステップＳ１０７：ＹＥＳ）、最適化処理部３４は、更新後モデルパラメータを学習済モデルパラメータとして、例えば推論を実行する推論装置（不図示）に出力する。

次に、変換画像生成部３１の動作例を説明する。
図３は、変換画像生成部３１の動作例を示すフローチャートである。変換集合「Ｄ」は、平行移動又は回転の変換「ｄ」の集合である。変換「ｄ」は、左右反転の変換でもよい。変換画像生成部３１は、変換「ｄ∈Ｄ」を変換集合「Ｄ」からランダムに選択する（ステップＳ２０１）。変換画像生成部３１は、選択された変換「ｄ」が平行移動又は回転のいずれであるかを判定する（ステップＳ２０２）。

以下、垂直方向の平行移動の距離を「垂直移動距離」という。水平方向の平行移動の距離を「水平移動距離」という。

選択された変換「ｄ」が平行移動であると判定された場合（ステップＳ２０２：平行移動）、変換画像生成部３１は、垂直移動距離「ｐ＿ｖ」と、水平移動距離「ｐ＿ｈ」とを選択する。垂直移動距離と水平移動距離との各単位は、例えば、画素単位である。垂直移動距離と水平移動距離との各サイズは、例えば、画素単位である。垂直移動距離「ｐ＿ｖ」と、水平移動距離「ｐ＿ｈ」とは、原画像のサイズに応じて定まる。例えば、垂直移動距離「ｐ＿ｖ」と、水平移動距離「ｐ＿ｈ」とは、「２５６×２５６」サイズの原画像に対して、一例として、１から３２までの範囲である。

変換画像生成部３１は、垂直移動距離「ｐ＿ｖ」と水平移動距離「ｐ＿ｈ」との各パラメータに基づいて、原画像を平行移動させる。変換画像生成部３１は、平行移動の結果として原画像に生じた余白の各画素の画素値を、例えば画素値「０」で補完する。変換画像生成部３１が実行する補完処理は、特定の補間処理に限定されない。変換画像生成部３１は、平行移動が生じている原画像を、変換画像として変換画像処理部３２に出力する。

選択された変換「ｄ」が回転であると判定された場合（ステップＳ２０２：回転）、変換画像生成部３１は、回転角度「ｐ」を選択する。回転角度「ｐ」は、一例として、１から９０度までの範囲である。変換画像生成部３１は、原画像において想定される回転角度に応じて、回転角度「ｐ」を選択してもよい。変換画像生成部３１は、回転角度「ｐ」に基づいて、原画像を回転させる。回転の結果として原画像に生じた余白の各画素の画素値を、例えば画素値「０」で補完する。変換画像生成部３１が実行する補完処理は、特定の補間処理に限定されない。変換画像生成部３１は、回転が生じている原画像を、変換画像として変換画像処理部３２に出力する。

次に、原画像処理部３０の動作例を説明する。
図４は、原画像処理部３０の動作例を示すフローチャートである。原画像処理部３０は、更新前モデルパラメータを、記憶部２から取得する（ステップＳ３０１）。原画像処理部３０は、原画像を記憶部２から取得する（ステップＳ３０２）。原画像処理部３０は、原画像に対して更新前モデルパラメータを用いて、中間原画像を生成する（ステップＳ３０３）。原画像処理部３０は、中間原画像を制約導出部３３に出力する（ステップＳ３０４）。

次に、変換画像処理部３２の動作例を説明する。
図５は、変換画像処理部３２の動作例を示すフローチャートである。変換画像処理部３２は、学習処理の開始時であるか否かを判定する。学習処理の開始時とは、繰り返し実行される学習処理のうちで、最初に実行される学習処理の実行時である（ステップＳ４０１）。

学習処理の開始時ではないと判定された場合（ステップＳ４０１：ＮＯ）、変換画像処理部３２は、ステップＳ４０４に処理を進める。学習処理の開始時であると判定された場合（ステップＳ４０１：ＹＥＳ）、変換画像処理部３２は、更新前モデルパラメータと、追加パラメータ（追加される階層）とを、記憶部２から取得する（ステップＳ４０２）。追加パラメータは、例えば、残差モジュールに基づく階層である。残差モジュールに基づく階層は、例えば、「ＲｅｓＮｅｔ」（参考文献１：K. He, X. Zhang, S. Ren, J. Sun, “Deep Residual Learning for Image Recognition”, 2015.）である。追加パラメータは、「１×１」の畳み込み階層でもよい。「１×１」の畳み込み階層は、例えば、「ＮｅｔｗｏｒｋｉｎＮｅｔｗｏｒｋ」（参考文献２：M. Lin, Q. Chen, S. Yan, “Network In Network”, 2014.）である。なお、追加パラメータが満たすべき条件とは、平行移動又は回転で変更された特徴量を十分に戻すための非線形性を有することである。ＲｅＬＵ（Rectified Linear Unit）は、そのような非線形処理の一例である。

変換画像処理部３２は、更新前モデルパラメータの画像処理の中間結果を修正するように、その更新前モデルパラメータ（ニューラルネットワーク）において中間変換画像を出力する層に追加パラメータを追加する。変換画像処理部３２は、更新前モデルパラメータとしての畳み込みニューラルネットワークの識別層の位置から入力側に所定階層数（例えば、１層）だけ離れた位置に、新たな層として追加パラメータを追加する。例えば、変換画像処理部３２は、畳み込みニューラルネットワークの識別層よりも前（識別層に対して入力側）の箇所、かつ、その識別層に可能な限り近い箇所に、新たな層として追加パラメータを追加する。

ステップＳ４０２において取得された更新前モデルパラメータは、最適化処理が実行されたモデルパラメータ（学習済モデルパラメータ）として扱われる。このため、ステップＳ４０２において取得された更新前モデルパラメータに対して最適化処理が更に実行されないように（値が更新されないように）、変換画像処理部３２は、ステップＳ４０２において取得された更新前モデルパラメータを固定する（ステップＳ４０３）。

更新前モデルパラメータ（畳み込みニューラルネットワークの学習済みモデル）の中間層の出力を修正するための階層（修正層）が、その更新前モデルパラメータに、追加パラメータとして追加される。階層が追加された更新前モデルパラメータにおいて学習済となっているパラメータは更新されず、中間層の出力を修正するための階層のパラメータが更新される。これによって、畳み込みニューラルネットワークの学習済みモデルのパラメータが有効に活用されるので、初期パラメータを用いて学習する場合と比較して短時間での学習終了が可能となる。

変換画像処理部３２は、正解データを記憶部２から取得する（ステップＳ４０４）。画像処理が物体識別処理である場合、正解データは、識別の対象物の画像が変換画像に含まれているか否かを示すベクトル列である。画像処理が領域分割処理である場合、正解データは、変換画像の各画素が属する領域を示す配列である。

変換画像処理部３２は、変換画像を変換画像生成部３１から取得する（ステップＳ４０５）。変換画像処理部３２は、変換画像に対して更新前モデルパラメータを用いて、中間変換画像を生成する（ステップＳ４０６）。変換画像処理部３２は、中間変換画像を制約導出部３３に出力する（ステップＳ４０７）。変換画像処理部３２は、正解ラベル「ｙ」に対する中間変換画像「ｘ」の誤差を表す損失関数値を導出する（ステップＳ４０８）。

正解ラベル「ｙ」に対する中間変換画像「ｘ」の誤差が小さいほど、損失関数値は小さい。損失関数値としての交差エントロピー誤差「Ｌ_ｄｉｓｔ」は、式（１）のように表される。

ここで、「ｙ_ｑ」は、正解ラベル「ｙ」の確率分布（真の確率分布）を表す。「ｘ’_ｑ」は、中間変換画像「ｘ」の確率分布（推定された確率分布）を表す。変換画像処理部３２は、損失関数値と更新前モデルパラメータとを、最適化処理部３４に出力する。なお、損失関数値は、正解ラベル「ｙ」と中間変換画像「ｘ」との間の平均二乗誤差（Mean Squared Error : MSE）でもよい。

次に、制約導出部３３の動作例を説明する。
図６は、制約導出部３３の動作例を示すフローチャートである。制約導出部３３は、中間原画像を原画像処理部３０から取得する。制約導出部３３は、中間変換画像を変換画像処理部３２から取得する（ステップＳ５０１）。

学習処理では、原画像が平行移動又は回転されているか否かに関わらず、原画像に対する画像処理の中間結果（畳み込みニューラルネットワークのモデルにおける中間層の出力）が一定になるという制約条件が、その学習処理に与えられる。

制約導出部３３は、制約関数値を導出する（ステップＳ５０２）。制約関数値は、例えば、中間原画像と中間変換画像とが類似しているほど小さい。すなわち、制約関数値は、更新前モデルパラメータの入力層に入力された原画像に平行移動又は回転が予め生じていたか否かに関係なく更新前モデルパラメータの中間層の出力が一定であるほど小さい。

一般に、このような制約関数値は、中間層の出力全体の平均二乗誤差、又は、中間層の出力全体の平均二乗誤差に基づく値であることが多い（例えば、参考文献３：J. Johnson, A. Alahi, L. Fei-Fei, “Perceptual Losses for Real-Time Style Transfer and Super-Resolution”, 2016.）。ここで、中間層の出力全体の平均二乗誤差は、原画像内における対象物（被写体）の画像の位置の影響を受け易いので、制約導出部３３によって導出される制約関数値として適していない。

原画像に対する画像処理の中間結果の平均値及び分散値は、原画像内における対象物の画像の位置に依存しない特徴量（スタイル特徴。参考文献４：X. Huang, S. Belongie, “Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization”, 2017.）である。そこで、制約導出部３３は、中間結果の平均値の平均二乗誤差と分散値の平均二乗誤差とを、制約関数値として導出する。制約導出部３３は、平均値及び分散値以外に基づくスタイル特徴を、制約関数値として導出してもよい。制約導出部３３は、制約関数値を最適化処理部３４に出力する（ステップＳ５０３）。

次に、最適化処理部３４の動作例を説明する。
図７は、最適化処理部３４の動作例を示すフローチャートである。最適化処理部３４は、損失関数値を変換画像処理部３２から取得する（ステップＳ６０１）。最適化処理部３４は、制約関数値を制約導出部３３から取得する（ステップＳ６０２）。最適化処理部３４は、更新前モデルパラメータを変換画像処理部３２から取得する（ステップＳ６０３）。

最適化処理部３４は、予め定められた第１条件（例えば、第１閾値以下となるという条件）を制約関数値が満たすように更新前モデルパラメータを更新することによって、更新後モデルパラメータを生成する。最適化処理部３４は、予め定められた第２条件（例えば、第２閾値以下となるという条件）を損失関数値と制約関数値とが満たすように更新前モデルパラメータを更新することによって、更新後モデルパラメータを生成する。例えば、最適化処理部３４は、損失関数値と制約関数値とが結合荷重「λ」で線形結合された結果である目的関数値に基づいて、更新後モデルパラメータを生成する。ここで、損失関数値の結合荷重「λ」は例えば「１」であり、制約関数値の結合荷重「λ」は例えば「０．１」である。

目的関数値（損失関数値と制約関数値とが線形結合された結果）の推移に応じて、人が結合荷重「λ」を任意に調整してもよい。更新後モデルパラメータの生成には、確率的勾配降下法（Stochastic Gradient Descent : SGD）又はＡｄａｍ（Adaptive Moment Estimation）等の確率的勾配降下法が用いられてもよいし、ニュートン法等の最適化アルゴリズムが用いられてもよい（ステップＳ６０４）。

最適化処理部３４は、学習処理の実行を終了させるか否かを判定する。例えば、最適化処理部３４は、予め定められた実行回数に達したか否かに基づいて、学習処理の実行を終了させるか否かを判定する。最適化処理部３４は、目的関数値が所定値以下であるか否かに基づいて、学習処理の実行を終了させるか否かを判定してもよい。また、最適化処理部３４は、人から与えられた命令信号に基づいて、学習処理の実行を終了させるか否かを判定してもよい（ステップＳ６０５）。

学習処理の実行を継続させると判定された場合（ステップＳ６０５：ＮＯ）、最適化処理部３４は、更新後モデルパラメータを変換画像処理部３２に出力する（ステップＳ６０６）。学習処理の実行を終了させると判定された場合（ステップＳ６０５：ＹＥＳ）、最適化処理部３４は、更新後モデルパラメータを学習済モデルパラメータとして出力する（ステップＳ６０７）。

以上のように、原画像処理部３０は、第１の更新前モデルパラメータ（第１モデルパラメータ）を用いて、原画像に対して画像処理を実行する。制約導出部３３は、制約関数値を導出する。制約関数値は、原画像に平行移動又は回転が予め生じていた否かに関係なく画像処理の中間結果（中間層の出力）が一定である度合いを表す。最適化処理部３４は、第１の更新前モデルパラメータと追加パラメータとを含む第２の更新前モデルパラメータ（第２モデルパラメータ）を取得する。最適化処理部３４は、第１の更新前モデルパラメータを固定して追加パラメータを制約関数値に基づいて更新することによって、第２の更新前モデルパラメータを更新する。最適化処理部３４は、更新された第２の更新前モデルパラメータである更新後モデルパラメータを、学習済モデルパラメータとして例えば推論装置（不図示）に出力する。

これによって、平行移動又は回転が生じている原画像の入力に対して頑健な学習済モデルパラメータ（誤作動を生じさせ難い学習済モデルパラメータ）の生成に必要とされる時間コストを削減することが可能である。画像処理を用いて自動化された目視工程の応用範囲を広げることが可能である。また、平行移動又は回転が生じている原画像に対する画像処理の精度を向上させることが可能である。

変換画像処理部３２は、平行移動と回転とのうちの少なくとも一つの変換処理が実行された原画像である変換画像を、変換画像生成部３１から取得する。変換画像処理部３２は、変換画像に対する画像処理の中間結果と正解ラベルとの差分に応じた関数値である損失関数値を導出する。最適化処理部３４は、第１の更新前モデルパラメータを固定して追加パラメータを制約関数値と制約関数値とに基づいて更新することによって、第２の更新前モデルパラメータ（第２モデルパラメータ）を更新してもよい。

（第２実施形態）
第２実施形態では、損失関数値と制約関数値との結合荷重（重み付け）が調整される点が、第１実施形態と相違する。第２実施形態では、第１実施形態との相違点を中心に説明する。

最適化処理に用いられる制約関数値の増加が損失関数値の低減に寄与することが期待される。しかしながら、制約関数値の増加が損失関数値を低減させない場合がある。例えば、平行移動又は回転の影響が非常に大きい場合には、中間原画像と中間変換画像とを類似させる（反応パターンを一致させる）よりも、学習処理を新たに開始したほうが合理的である場合がある。

そこで、変換画像の生成処理が重度になると想定される場合には、最適化処理部３４は、損失関数値と制約関数値との結合荷重（重み付け）を調整する（参考文献５：Y. Du, W. M. Czarnecki, S. M. Jayakumar, R. Pascanu, B. Lakshminarayanan, “Adapting Auxiliary Losses Using Gradient Similarity”, 2019.）。

図８は、画像処理装置１ｂの構成例を示す図である。画像処理装置１ｂは、記憶部２と、学習装置３ｂとを備える。学習装置３ｂは、原画像処理部３０と、変換画像生成部３１と、変換画像処理部３２と、制約導出部３３と、最適化処理部３４と、調整部３５とを備える。

調整部３５は、損失関数値の結合荷重と制約関数値の結合荷重とを導出する。調整部３５は、損失関数値の結合荷重と制約関数値の結合荷重とを、最適化処理部３４に出力する。最適化処理部３４は、損失関数値の結合荷重と制約関数値の結合荷重とを用いて、更新前モデルパラメータに対して最適化処理を実行することによって、更新前モデルパラメータを更新する。

次に、調整部３５の動作例を説明する。
図９は、調整部３５の動作例を示すフローチャートである。調整部３５は、制約関数値を制約導出部３３から取得する（ステップＳ７０１）。調整部３５は、損失関数値を変換画像処理部３２から取得する（ステップＳ７０２）。調整部３５は、更新前モデルパラメータを、変換画像処理部から取得する（ステップＳ７０３）。

調整部３５は、更新前モデルパラメータにおいて制約関数値を逆伝播させることによって、制約関数値の勾配を導出する（ステップＳ７０４）。調整部３５は、更新前モデルパラメータにおいて損失関数値を逆伝播させることによって、損失関数値の勾配を導出する（ステップＳ７０５）。なお、勾配を導出する方法は、誤差逆伝播法に限られない。

調整部３５は、制約関数値の勾配と損失関数値の勾配との間の類似度を導出する。導出された類似度は、例えばコサイン類似度である（ステップＳ７０６）。調整部３５は、類似度に応じた結合荷重（重み付け）を最適化処理部３４に出力する。例えば、損失関数値の勾配に対する制約関数値の勾配の類似度が高くなるほど、調整部３５は、損失関数値の結合荷重を小さくしてもよい。

以上のように、調整部３５は、制約関数値と制約関数値との重み付けを調整する。最適化処理部３４は、重み付けが調整された制約関数値と制約関数値とに基づいて、追加パラメータを更新する。

これによって、平行移動又は回転が生じている原画像の入力に対して頑健な学習済モデルパラメータの生成に必要とされる時間コストを削減することが可能である。

図１０は、各実施形態における、画像処理装置のハードウェア構成例を示す図である。画像処理装置の各機能部のうちの一部又は全部は、ＣＰＵ（Central Processing Unit）等のプロセッサ１００が、不揮発性の記録媒体（非一時的な記録媒体）を有するメモリ１０２に記憶されたプログラムを実行することにより、ソフトウェアとして実現される。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ（Read Only Memory）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置１０１などの非一時的な記録媒体である。

画像処理装置の各機能部のうちの一部又は全部は、例えば、ＬＳＩ（Large Scale Integrated circuit）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）又はＦＰＧＡ（Field Programmable Gate Array）等を用いた電子回路（electronic circuit又はcircuitry）を含むハードウェアを用いて実現されてもよい。

なお、上述した実施形態において、上記のような形態で実施されるプログラムは、単一の装置に依存するものではなく、プログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませて実行することによって画像処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

本発明は、画像処理装置に適用可能である。

１，１ａ，１ｂ…画像処理装置、２…記憶部、３ａ，３ｂ…学習装置、３０…原画像処理部、３１…変換画像生成部、３２…変換画像処理部、３３…制約導出部、３４…最適化処理部、３５…調整部、１００…プロセッサ、１０１…記憶装置、１０２…メモリ

Claims

学習装置が実行する学習方法であって、
画像処理が実行される原画像において、前記原画像に対する画像処理の中間結果と、平行移動と回転とのうちの少なくとも一つを前記原画像に生じさせることで得られた画像の中間結果と、の差を示す制約関数値を導出する制約導出ステップと、
第１モデルパラメータと追加パラメータとを含む第２モデルパラメータを取得し、前記第１モデルパラメータを固定して前記追加パラメータを前記制約関数値に基づいて更新することによって前記第２モデルパラメータを更新し、更新された前記第２モデルパラメータを出力する最適化処理ステップと
を含む学習方法。
前記最適化処理ステップでは、前記制約関数値は、前記制約関数値が最適化するように更新される、
請求項１に記載の学習方法。
前記第１モデルパラメータは、畳み込みニューラルネットワークにおいて学習されたパラメータのうちの少なくとも一部であり、
前記追加パラメータは、前記畳み込みニューラルネットワークの識別層の位置から入力側に所定階層数だけ離れた位置に、新たな層として追加される、
請求項１又は請求項２に記載の学習方法。
平行移動と回転とのうちの少なくとも一つの変換処理が実行された前記原画像である変換画像を取得し、前記変換画像に対する画像処理の中間結果と正解ラベルとの差分に応じた関数値である損失関数値を導出する変換画像ステップを更に含み、
前記最適化処理ステップでは、前記第１モデルパラメータを固定して前記追加パラメータを前記制約関数値と前記制約関数値とに基づいて更新することによって、前記第２モデルパラメータを更新する、
請求項１から請求項３のいずれか一項に記載の学習方法。
前記制約関数値と前記制約関数値との重み付けを調整する調整ステップを更に含み、
前記最適化処理ステップでは、重み付けが調整された前記制約関数値と前記制約関数値とに基づいて、前記追加パラメータを更新する、
請求項４に記載の学習方法。
画像処理が実行される原画像において、前記原画像に対する画像処理の中間結果と、平行移動と回転とのうちの少なくとも一つを前記原画像に生じさせることで得られた画像の中間結果と、の差を示す制約関数値を導出する制約導出部と、
第１モデルパラメータと追加パラメータとを含む第２モデルパラメータを取得し、前記第１モデルパラメータを固定して前記追加パラメータを前記制約関数値に基づいて更新することによって前記第２モデルパラメータを更新し、更新された前記第２モデルパラメータを出力する最適化処理部と
を備える学習装置。
請求項１から請求項５のいずれか一項に記載の学習方法を実行する学習装置としてコンピュータを機能させるためのプログラム。