JP7421152B2 - 学習方法、学習装置及びプログラム - Google Patents

学習方法、学習装置及びプログラム Download PDF

Info

Publication number
JP7421152B2
JP7421152B2 JP2022560536A JP2022560536A JP7421152B2 JP 7421152 B2 JP7421152 B2 JP 7421152B2 JP 2022560536 A JP2022560536 A JP 2022560536A JP 2022560536 A JP2022560536 A JP 2022560536A JP 7421152 B2 JP7421152 B2 JP 7421152B2
Authority
JP
Japan
Prior art keywords
function value
image
original image
model parameters
constraint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022560536A
Other languages
English (en)
Other versions
JPWO2022097195A1 (ja
Inventor
聡志 鈴木
隆一 谷田
英明 木全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2022097195A1 publication Critical patent/JPWO2022097195A1/ja
Application granted granted Critical
Publication of JP7421152B2 publication Critical patent/JP7421152B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Description

本発明は、学習方法、学習装置及びプログラムに関する。
原画像内に撮像された物体(被写体)を識別、検出及び領域分割する機械学習技術がある。また、畳み込みニューラルネットワーク(Convolutional Neural Network : CNN)を用いて目視工程を自動化することが、各種の業務において注目されている。
畳み込みニューラルネットワークを用いて目視工程が自動化される場合、人が行っている目視工程に即した画像処理を畳み込みニューラルネットワークが実行することが望ましい。しかしながら、畳み込みニューラルネットワークによって実行される画像処理が目視工程に即していない場合がある。
例えば、人が行っている目視工程では誤検出等が生じないほどの小さな乱れを含む原画像に対して、畳み込みニューラルネットワークが画像処理を実行した場合、その画像処理において誤検出等が生じることがある(非特許文献1参照)、さらに、平行移動又は回転が生じている原画像に対して、畳み込みニューラルネットワークが画像処理を実行した場合、その画像処理において誤検出等が生じることがある(非特許文献2参照)。
また、撮影時にカメラが平行移動又は回転することは珍しくない。このため、撮影された物体の画像等の平行移動又は回転が原画像に生じることがある。このように平行移動又は回転が生じている原画像では、畳み込みニューラルネットワークの画像処理において誤作動を生じさせ易い。
平行移動又は回転が生じている原画像に対して誤検出等が生じないように頑健性を向上させる画像処理の実現手法として、原画像が入力された畳み込みニューラルネットワークの中間層の出力の全体をぼかすという方法がある(非特許文献3及び4参照)。中間層の出力の全体をガウシアンフィルタ等によってぼかすことによって、平行移動又は回転が生じている原画像に対して頑健性が向上することが期待される。
L. Engstrom, B. Tran, D. Tsipras, L. Schmidt, A. Madry, "Exploring the Landscape of Spatial Robustness", 2017. C. Szegedy, W. Zaremba, I. Sutskever, B. Joan, D. Erhan, I. Goodfellow, R. Fergus, "Intriguing properties of neural networks", 2017. R. Zhang, "Making Convolutional Networks Shift-Invariant Again", 2019. S. Sinha, A. Garg, H. Larochelle, "Curriculum by Smoothing", 2020.
しかしながら、中間層の出力の全体がぼかされる場合、畳み込みニューラルネットワークの学習処理は、ランダムな初期値を用いて実行される。一般に、畳み込みニューラルネットワークを用いるモデルパラメータは、非常に大規模であり、例えば数百万から数億程度の自由パラメータを持つ。したがって、ランダムな初期値を用いて実行される学習処理には、非常に大きな時間コストが必要である。このように従来では、平行移動又は回転が生じている原画像の入力に対して頑健な学習済モデルパラメータの生成に必要とされる時間コストを削減することができないという問題がある。
上記事情に鑑み、本発明は、平行移動又は回転が生じている原画像の入力に対して頑健な学習済モデルパラメータの生成に必要とされる時間コストを削減することが可能である学習方法、学習装置及びプログラムを提供することを目的としている。
本発明の一態様は、学習装置が実行する学習方法であって、画像処理が実行される原画像において、前記原画像に対する画像処理の中間結果と、平行移動と回転とのうちの少なくとも一つを前記原画像に生じさせることで得られた画像の中間結果と、の差を示す制約関数値を導出する制約導出ステップと、第1モデルパラメータと追加パラメータとを含む第2モデルパラメータを取得し、前記第1モデルパラメータを固定して前記追加パラメータを前記制約関数値に基づいて更新することによって前記第2モデルパラメータを更新し、更新された前記第2モデルパラメータを出力する最適化処理ステップとを含む学習方法である。
本発明の一態様は、画像処理が実行される原画像において、前記原画像に対する画像処理の中間結果と、平行移動と回転とのうちの少なくとも一つを前記原画像に生じさせることで得られた画像の中間結果と、の差を示す制約関数値を導出する制約導出部と、第1モデルパラメータと追加パラメータとを含む第2モデルパラメータを取得し、前記第1モデルパラメータを固定して前記追加パラメータを前記制約関数値に基づいて更新することによって前記第2モデルパラメータを更新し、更新された前記第2モデルパラメータを出力する最適化処理部とを備える学習装置である。
本発明の一態様は、上記の学習装置としてコンピュータを機能させるためのプログラムである。
本発明により、平行移動又は回転が生じている原画像の入力に対して頑健な学習済モデルパラメータの生成に必要とされる時間コストを削減することが可能である。
第1実施形態における、画像処理装置の構成例を示す図である。 第1実施形態における、画像処理装置の動作例を示すフローチャートである。 第1実施形態における、変換画像生成部の動作例を示すフローチャートである。 第1実施形態における、原画像処理部の動作例を示すフローチャートである。 第1実施形態における、変換画像処理部の動作例を示すフローチャートである。 第1実施形態における、制約導出部の動作例を示すフローチャートである。 第1実施形態における、最適化処理部の動作例を示すフローチャートである。 第2実施形態における、画像処理装置の構成例を示す図である。 第2実施形態における、調整部の動作例を示すフローチャートである。 各実施形態における、画像処理装置のハードウェア構成例を示す図である。
(概要)
以下の実施形態では、学習済みの畳み込みニューラルネットワークのパラメータが固定された上で、その学習済みの畳み込みニューラルネットワークに新たな中間層が追加される。そして、中間層が追加された畳み込みニューラルネットワークを用いて、再学習処理(最適化処理)が実行される。このように、学習済みの畳み込みニューラルネットワークのパラメータは、再学習処理においてそのまま利用される。
ここで、原画像若しくは原画像の一部領域に平行移動又は回転が生じていても、新たに追加された中間層の出力と、その新たに追加された中間層の直前の位置における中間層の出力とがほぼ一致するという制約が定められることによって、実施形態に係る発明は前述の効果を奏する。なお、原画像若しくは原画像の一部領域に平行移動が生じている場合には、原画像における被写体の画像の位置情報が変更されているので、画像空間上での位置情報に対応しない特徴のみがほぼ一致するという制約が定められてもよい。
本発明の実施形態について、図面を参照して詳細に説明する。
(第1実施形態)
図1は、画像処理装置1aの構成例を示す図である。画像処理装置1aは、記憶部2と、学習装置3aとを備える。学習装置3aは、原画像処理部30と、変換画像生成部31と、変換画像処理部32と、制約導出部33と、最適化処理部34とを備える。
記憶部2は、原画像(学習用画像)と、更新前モデルパラメータ(画像処理パラメータ)と、正解ラベルと、追加パラメータとを記憶する。追加パラメータは、更新前モデルパラメータに追加されるパラメータ(階層)である。原画像は、撮影された物体の画像(物体画像)を含む。以下では、平行移動及び回転が生じていない原画像が、原画像処理部30と変換画像生成部31とに、記憶部2から入力される。
原画像処理部30は、原画像(学習用画像)と、更新前モデルパラメータ(第1の更新前モデルパラメータ)とを、記憶部2から取得する。原画像処理部30は、原画像に対して更新前モデルパラメータを用いて、画像処理を実行する。画像処理は、例えば、画像における物体識別処理、物体検出処理又は領域分割処理である。モデルパラメータは、例えば、畳み込みニューラルネットワークを用いて表されるモデルのパラメータである。また、更新前モデルパラメータは、学習済みモデルのパラメータのうちの少なくとも一部である。
原画像処理部30は、原画像に対する画像処理の中間結果(以下「中間原画像」という。)を、制約導出部33に出力する。例えば、原画像における物体識別処理を実行する畳み込みニューラルネットワークでは、中間結果は、出力層の出力ではなく、入力層から出力層までの間(階層的な結果)の中間層の出力である。原画像処理部30は、例えば出力層に最も近い畳み込み階層の処理結果を、中間原画像(中間結果)として制約導出部33に出力する。中間原画像は、原画像の一部の領域と一部の性質(例えば、輝度値)とが位置情報を保持したまま抽出された画像であることが多い。例えば、中間原画像は、被写体のテクスチャの一部に類似するテクスチャを有する領域がハイライトされている画像として得られる。
変換画像生成部31は、原画像を記憶部2から取得する。変換画像生成部31は、平行移動と回転とのうちの少なくとも一つの変換処理を、原画像に対して実行する。これによって、変換画像生成部31は、平行移動と回転とのうちの少なくとも一つの変換処理が実行された原画像(以下「変換画像」という。)を生成する。変換画像生成部31は、変換画像を変換画像処理部32に出力する。なお、平行移動と回転は、原画像においてエッジとテクスチャを変えずにその原画像に対して変形を加える例の一つである。
変換画像処理部32は、更新前モデルパラメータ(第1の更新前モデルパラメータ)と、正解ラベルとを、記憶部2から取得する。変換画像処理部32は、追加パラメータを記憶部2から取得する。変換画像処理部32は、変換画像を変換画像生成部31から取得する。変換画像処理部32は、変換画像に対する画像処理の中間結果(以下「中間変換画像」という。)を、制約導出部33に出力する。
変換画像処理部32は、正解ラベルに対する中間変換画像の差分(誤差)に応じた関数値である損失関数値を導出する。例えば、正解ラベルに対する中間変換画像の差分が小さいほど、損失関数値は小さくなる。損失関数値は、例えば、交差エントロピー誤差(Cross-entropy Loss)である。変換画像処理部32は、損失関数値を最適化処理部34に出力する。
制約導出部33は、中間原画像を原画像処理部30から取得する。制約導出部33は、中間変換画像を変換画像処理部32から取得する。制約導出部33は、中間原画像と中間変換画像とに基づいて、制約関数値を導出する。制約関数値は、原画像に平行移動又は回転が予め生じていた否かに関係なく画像処理の中間結果(中間層の出力)が一定である度合いを表す関数値である。例えば、中間原画像と中間変換画像との間の差分が小さいほど、制約関数値は小さくなる。
中間原画像と中間変換画像との間の差分は、例えば、中間原画像のスタイル特徴と、中間変換画像のスタイル特徴との間の差分でもよい。スタイル特徴は、例えば、画像内の全ての画素値の平均値及び分散値のうちの少なくとも一方である。差分は、例えば平均二乗誤差である。
最適化処理部34は、追加パラメータが追加された更新前モデルパラメータ(第2の更新前モデルパラメータ)と損失関数値とを、変換画像処理部32から取得する。最適化処理部34は、制約関数値を制約導出部33から取得する。最適化処理部34は、更新前モデルパラメータ(第2の更新前モデルパラメータ)の追加パラメータに対して最適化処理を実行することによって、更新前モデルパラメータを更新する。最適化処理部34は、制約関数値が最適化するように、制約関数値を更新する。この最適化とは、特定の最適化に限定されないが、例えば、最小化又は最大化である。最適化処理部34は、更新前モデルパラメータを更新することによって、更新後モデルパラメータ(学習済モデルパラメータ)を生成する。
モデルパラメータの階層のニューロンには、入力された画像全体に対して受容野を有することが期待される。更新後モデルパラメータの階層のニューロンが中間変換画像と中間原画像とのそれぞれに対して同様に反応するように、最適化処理部34は、学習処理(最適化処理)として、更新前モデルパラメータを更新する。
ここで、受容野とは、ニューロンの反応に変化を与える原画像の領域である。一般に、出力層に近いニューロンの受容野は、出力層から遠いニューロンの受容野よりも広い。これによって、平行移動又は回転が生じている原画像がモデルパラメータの入力層に入力された場合でも、モデルパラメータの出力層に近い中間層の出力が一定になるという頑健性をモデルパラメータが示すことが期待できる。
画像処理装置1aが学習処理を継続する場合、最適化処理部34は、更新後モデルパラメータを学習済モデルパラメータとして、変換画像処理部32に出力する。画像処理装置1aが学習処理を終了する場合、最適化処理部34は、更新後モデルパラメータを学習済モデルパラメータとして、例えば物体識別処理を実行する推論装置(不図示)に出力する。
次に、画像処理装置1aの動作例を説明する。
図2は、画像処理装置1aの動作例を示すフローチャートである。原画像処理部30は、更新前モデルパラメータを記憶部2から取得する。変換画像生成部31は、更新前モデルパラメータを記憶部2から取得する(ステップS101)。変換画像生成部31は、平行移動又は回転が生じている原画像を、変換画像として変換画像処理部32に出力する(ステップS102)。
原画像処理部30は、原画像に対して更新前モデルパラメータを用いて中間原画像を生成する。原画像処理部30は、中間原画像を制約導出部33に出力する(ステップS103)。変換画像処理部32は、変換画像に対して更新前モデルパラメータを用いて中間変換画像を生成する。変換画像処理部32は、中間変換画像を制約導出部33に出力する。変換画像処理部32は、損失関数値を最適化処理部34に出力する(ステップS104)。
制約導出部33は、中間原画像と中間変換画像との間の差分を小さくする制約関数値を導出する。制約導出部33は、制約関数値を最適化処理部34に出力する(ステップS105)。最適化処理部34は、更新前モデルパラメータと損失関数値と制約関数値とに基づいて、更新後モデルパラメータを生成する(ステップS106)。
最適化処理部34は、学習処理を終了させるか否かを判定する(ステップS107)。学習処理を継続させると判定された場合(ステップS107:NO)、最適化処理部34は、更新後モデルパラメータを変換画像処理部32に出力する(ステップS108)。学習処理を終了させると判定された場合(ステップS107:YES)、最適化処理部34は、更新後モデルパラメータを学習済モデルパラメータとして、例えば推論を実行する推論装置(不図示)に出力する。
次に、変換画像生成部31の動作例を説明する。
図3は、変換画像生成部31の動作例を示すフローチャートである。変換集合「D」は、平行移動又は回転の変換「d」の集合である。変換「d」は、左右反転の変換でもよい。変換画像生成部31は、変換「d∈D」を変換集合「D」からランダムに選択する(ステップS201)。変換画像生成部31は、選択された変換「d」が平行移動又は回転のいずれであるかを判定する(ステップS202)。
以下、垂直方向の平行移動の距離を「垂直移動距離」という。水平方向の平行移動の距離を「水平移動距離」という。
選択された変換「d」が平行移動であると判定された場合(ステップS202:平行移動)、変換画像生成部31は、垂直移動距離「p_v」と、水平移動距離「p_h」とを選択する。垂直移動距離と水平移動距離との各単位は、例えば、画素単位である。垂直移動距離と水平移動距離との各サイズは、例えば、画素単位である。垂直移動距離「p_v」と、水平移動距離「p_h」とは、原画像のサイズに応じて定まる。例えば、垂直移動距離「p_v」と、水平移動距離「p_h」とは、「256×256」サイズの原画像に対して、一例として、1から32までの範囲である。
変換画像生成部31は、垂直移動距離「p_v」と水平移動距離「p_h」との各パラメータに基づいて、原画像を平行移動させる。変換画像生成部31は、平行移動の結果として原画像に生じた余白の各画素の画素値を、例えば画素値「0」で補完する。変換画像生成部31が実行する補完処理は、特定の補間処理に限定されない。変換画像生成部31は、平行移動が生じている原画像を、変換画像として変換画像処理部32に出力する。
選択された変換「d」が回転であると判定された場合(ステップS202:回転)、変換画像生成部31は、回転角度「p」を選択する。回転角度「p」は、一例として、1から90度までの範囲である。変換画像生成部31は、原画像において想定される回転角度に応じて、回転角度「p」を選択してもよい。変換画像生成部31は、回転角度「p」に基づいて、原画像を回転させる。回転の結果として原画像に生じた余白の各画素の画素値を、例えば画素値「0」で補完する。変換画像生成部31が実行する補完処理は、特定の補間処理に限定されない。変換画像生成部31は、回転が生じている原画像を、変換画像として変換画像処理部32に出力する。
次に、原画像処理部30の動作例を説明する。
図4は、原画像処理部30の動作例を示すフローチャートである。原画像処理部30は、更新前モデルパラメータを、記憶部2から取得する(ステップS301)。原画像処理部30は、原画像を記憶部2から取得する(ステップS302)。原画像処理部30は、原画像に対して更新前モデルパラメータを用いて、中間原画像を生成する(ステップS303)。原画像処理部30は、中間原画像を制約導出部33に出力する(ステップS304)。
次に、変換画像処理部32の動作例を説明する。
図5は、変換画像処理部32の動作例を示すフローチャートである。変換画像処理部32は、学習処理の開始時であるか否かを判定する。学習処理の開始時とは、繰り返し実行される学習処理のうちで、最初に実行される学習処理の実行時である(ステップS401)。
学習処理の開始時ではないと判定された場合(ステップS401:NO)、変換画像処理部32は、ステップS404に処理を進める。学習処理の開始時であると判定された場合(ステップS401:YES)、変換画像処理部32は、更新前モデルパラメータと、追加パラメータ(追加される階層)とを、記憶部2から取得する(ステップS402)。追加パラメータは、例えば、残差モジュールに基づく階層である。残差モジュールに基づく階層は、例えば、「ResNet」(参考文献1:K. He, X. Zhang, S. Ren, J. Sun, “Deep Residual Learning for Image Recognition”, 2015.)である。追加パラメータは、「1×1」の畳み込み階層でもよい。「1×1」の畳み込み階層は、例えば、「Network in Network」(参考文献2:M. Lin, Q. Chen, S. Yan, “Network In Network”, 2014.)である。なお、追加パラメータが満たすべき条件とは、平行移動又は回転で変更された特徴量を十分に戻すための非線形性を有することである。ReLU(Rectified Linear Unit)は、そのような非線形処理の一例である。
変換画像処理部32は、更新前モデルパラメータの画像処理の中間結果を修正するように、その更新前モデルパラメータ(ニューラルネットワーク)において中間変換画像を出力する層に追加パラメータを追加する。変換画像処理部32は、更新前モデルパラメータとしての畳み込みニューラルネットワークの識別層の位置から入力側に所定階層数(例えば、1層)だけ離れた位置に、新たな層として追加パラメータを追加する。例えば、変換画像処理部32は、畳み込みニューラルネットワークの識別層よりも前(識別層に対して入力側)の箇所、かつ、その識別層に可能な限り近い箇所に、新たな層として追加パラメータを追加する。
ステップS402において取得された更新前モデルパラメータは、最適化処理が実行されたモデルパラメータ(学習済モデルパラメータ)として扱われる。このため、ステップS402において取得された更新前モデルパラメータに対して最適化処理が更に実行されないように(値が更新されないように)、変換画像処理部32は、ステップS402において取得された更新前モデルパラメータを固定する(ステップS403)。
更新前モデルパラメータ(畳み込みニューラルネットワークの学習済みモデル)の中間層の出力を修正するための階層(修正層)が、その更新前モデルパラメータに、追加パラメータとして追加される。階層が追加された更新前モデルパラメータにおいて学習済となっているパラメータは更新されず、中間層の出力を修正するための階層のパラメータが更新される。これによって、畳み込みニューラルネットワークの学習済みモデルのパラメータが有効に活用されるので、初期パラメータを用いて学習する場合と比較して短時間での学習終了が可能となる。
変換画像処理部32は、正解データを記憶部2から取得する(ステップS404)。画像処理が物体識別処理である場合、正解データは、識別の対象物の画像が変換画像に含まれているか否かを示すベクトル列である。画像処理が領域分割処理である場合、正解データは、変換画像の各画素が属する領域を示す配列である。
変換画像処理部32は、変換画像を変換画像生成部31から取得する(ステップS405)。変換画像処理部32は、変換画像に対して更新前モデルパラメータを用いて、中間変換画像を生成する(ステップS406)。変換画像処理部32は、中間変換画像を制約導出部33に出力する(ステップS407)。変換画像処理部32は、正解ラベル「y」に対する中間変換画像「x」の誤差を表す損失関数値を導出する(ステップS408)。
正解ラベル「y」に対する中間変換画像「x」の誤差が小さいほど、損失関数値は小さい。損失関数値としての交差エントロピー誤差「Ldist」は、式(1)のように表される。
Figure 0007421152000001
ここで、「y」は、正解ラベル「y」の確率分布(真の確率分布)を表す。「x’」は、中間変換画像「x」の確率分布(推定された確率分布)を表す。変換画像処理部32は、損失関数値と更新前モデルパラメータとを、最適化処理部34に出力する。なお、損失関数値は、正解ラベル「y」と中間変換画像「x」との間の平均二乗誤差(Mean Squared Error : MSE)でもよい。
次に、制約導出部33の動作例を説明する。
図6は、制約導出部33の動作例を示すフローチャートである。制約導出部33は、中間原画像を原画像処理部30から取得する。制約導出部33は、中間変換画像を変換画像処理部32から取得する(ステップS501)。
学習処理では、原画像が平行移動又は回転されているか否かに関わらず、原画像に対する画像処理の中間結果(畳み込みニューラルネットワークのモデルにおける中間層の出力)が一定になるという制約条件が、その学習処理に与えられる。
制約導出部33は、制約関数値を導出する(ステップS502)。制約関数値は、例えば、中間原画像と中間変換画像とが類似しているほど小さい。すなわち、制約関数値は、更新前モデルパラメータの入力層に入力された原画像に平行移動又は回転が予め生じていたか否かに関係なく更新前モデルパラメータの中間層の出力が一定であるほど小さい。
一般に、このような制約関数値は、中間層の出力全体の平均二乗誤差、又は、中間層の出力全体の平均二乗誤差に基づく値であることが多い(例えば、参考文献3:J. Johnson, A. Alahi, L. Fei-Fei, “Perceptual Losses for Real-Time Style Transfer and Super-Resolution”, 2016.)。ここで、中間層の出力全体の平均二乗誤差は、原画像内における対象物(被写体)の画像の位置の影響を受け易いので、制約導出部33によって導出される制約関数値として適していない。
原画像に対する画像処理の中間結果の平均値及び分散値は、原画像内における対象物の画像の位置に依存しない特徴量(スタイル特徴。参考文献4:X. Huang, S. Belongie, “Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization”, 2017.)である。そこで、制約導出部33は、中間結果の平均値の平均二乗誤差と分散値の平均二乗誤差とを、制約関数値として導出する。制約導出部33は、平均値及び分散値以外に基づくスタイル特徴を、制約関数値として導出してもよい。制約導出部33は、制約関数値を最適化処理部34に出力する(ステップS503)。
次に、最適化処理部34の動作例を説明する。
図7は、最適化処理部34の動作例を示すフローチャートである。最適化処理部34は、損失関数値を変換画像処理部32から取得する(ステップS601)。最適化処理部34は、制約関数値を制約導出部33から取得する(ステップS602)。最適化処理部34は、更新前モデルパラメータを変換画像処理部32から取得する(ステップS603)。
最適化処理部34は、予め定められた第1条件(例えば、第1閾値以下となるという条件)を制約関数値が満たすように更新前モデルパラメータを更新することによって、更新後モデルパラメータを生成する。最適化処理部34は、予め定められた第2条件(例えば、第2閾値以下となるという条件)を損失関数値と制約関数値とが満たすように更新前モデルパラメータを更新することによって、更新後モデルパラメータを生成する。例えば、最適化処理部34は、損失関数値と制約関数値とが結合荷重「λ」で線形結合された結果である目的関数値に基づいて、更新後モデルパラメータを生成する。ここで、損失関数値の結合荷重「λ」は例えば「1」であり、制約関数値の結合荷重「λ」は例えば「0.1」である。
目的関数値(損失関数値と制約関数値とが線形結合された結果)の推移に応じて、人が結合荷重「λ」を任意に調整してもよい。更新後モデルパラメータの生成には、確率的勾配降下法(Stochastic Gradient Descent : SGD)又はAdam(Adaptive Moment Estimation)等の確率的勾配降下法が用いられてもよいし、ニュートン法等の最適化アルゴリズムが用いられてもよい(ステップS604)。
最適化処理部34は、学習処理の実行を終了させるか否かを判定する。例えば、最適化処理部34は、予め定められた実行回数に達したか否かに基づいて、学習処理の実行を終了させるか否かを判定する。最適化処理部34は、目的関数値が所定値以下であるか否かに基づいて、学習処理の実行を終了させるか否かを判定してもよい。また、最適化処理部34は、人から与えられた命令信号に基づいて、学習処理の実行を終了させるか否かを判定してもよい(ステップS605)。
学習処理の実行を継続させると判定された場合(ステップS605:NO)、最適化処理部34は、更新後モデルパラメータを変換画像処理部32に出力する(ステップS606)。学習処理の実行を終了させると判定された場合(ステップS605:YES)、最適化処理部34は、更新後モデルパラメータを学習済モデルパラメータとして出力する(ステップS607)。
以上のように、原画像処理部30は、第1の更新前モデルパラメータ(第1モデルパラメータ)を用いて、原画像に対して画像処理を実行する。制約導出部33は、制約関数値を導出する。制約関数値は、原画像に平行移動又は回転が予め生じていた否かに関係なく画像処理の中間結果(中間層の出力)が一定である度合いを表す。最適化処理部34は、第1の更新前モデルパラメータと追加パラメータとを含む第2の更新前モデルパラメータ(第2モデルパラメータ)を取得する。最適化処理部34は、第1の更新前モデルパラメータを固定して追加パラメータを制約関数値に基づいて更新することによって、第2の更新前モデルパラメータを更新する。最適化処理部34は、更新された第2の更新前モデルパラメータである更新後モデルパラメータを、学習済モデルパラメータとして例えば推論装置(不図示)に出力する。
これによって、平行移動又は回転が生じている原画像の入力に対して頑健な学習済モデルパラメータ(誤作動を生じさせ難い学習済モデルパラメータ)の生成に必要とされる時間コストを削減することが可能である。画像処理を用いて自動化された目視工程の応用範囲を広げることが可能である。また、平行移動又は回転が生じている原画像に対する画像処理の精度を向上させることが可能である。
変換画像処理部32は、平行移動と回転とのうちの少なくとも一つの変換処理が実行された原画像である変換画像を、変換画像生成部31から取得する。変換画像処理部32は、変換画像に対する画像処理の中間結果と正解ラベルとの差分に応じた関数値である損失関数値を導出する。最適化処理部34は、第1の更新前モデルパラメータを固定して追加パラメータを制約関数値と制約関数値とに基づいて更新することによって、第2の更新前モデルパラメータ(第2モデルパラメータ)を更新してもよい。
(第2実施形態)
第2実施形態では、損失関数値と制約関数値との結合荷重(重み付け)が調整される点が、第1実施形態と相違する。第2実施形態では、第1実施形態との相違点を中心に説明する。
最適化処理に用いられる制約関数値の増加が損失関数値の低減に寄与することが期待される。しかしながら、制約関数値の増加が損失関数値を低減させない場合がある。例えば、平行移動又は回転の影響が非常に大きい場合には、中間原画像と中間変換画像とを類似させる(反応パターンを一致させる)よりも、学習処理を新たに開始したほうが合理的である場合がある。
そこで、変換画像の生成処理が重度になると想定される場合には、最適化処理部34は、損失関数値と制約関数値との結合荷重(重み付け)を調整する(参考文献5:Y. Du, W. M. Czarnecki, S. M. Jayakumar, R. Pascanu, B. Lakshminarayanan, “Adapting Auxiliary Losses Using Gradient Similarity”, 2019.)。
図8は、画像処理装置1bの構成例を示す図である。画像処理装置1bは、記憶部2と、学習装置3bとを備える。学習装置3bは、原画像処理部30と、変換画像生成部31と、変換画像処理部32と、制約導出部33と、最適化処理部34と、調整部35とを備える。
調整部35は、損失関数値の結合荷重と制約関数値の結合荷重とを導出する。調整部35は、損失関数値の結合荷重と制約関数値の結合荷重とを、最適化処理部34に出力する。最適化処理部34は、損失関数値の結合荷重と制約関数値の結合荷重とを用いて、更新前モデルパラメータに対して最適化処理を実行することによって、更新前モデルパラメータを更新する。
次に、調整部35の動作例を説明する。
図9は、調整部35の動作例を示すフローチャートである。調整部35は、制約関数値を制約導出部33から取得する(ステップS701)。調整部35は、損失関数値を変換画像処理部32から取得する(ステップS702)。調整部35は、更新前モデルパラメータを、変換画像処理部から取得する(ステップS703)。
調整部35は、更新前モデルパラメータにおいて制約関数値を逆伝播させることによって、制約関数値の勾配を導出する(ステップS704)。調整部35は、更新前モデルパラメータにおいて損失関数値を逆伝播させることによって、損失関数値の勾配を導出する(ステップS705)。なお、勾配を導出する方法は、誤差逆伝播法に限られない。
調整部35は、制約関数値の勾配と損失関数値の勾配との間の類似度を導出する。導出された類似度は、例えばコサイン類似度である(ステップS706)。調整部35は、類似度に応じた結合荷重(重み付け)を最適化処理部34に出力する。例えば、損失関数値の勾配に対する制約関数値の勾配の類似度が高くなるほど、調整部35は、損失関数値の結合荷重を小さくしてもよい。
以上のように、調整部35は、制約関数値と制約関数値との重み付けを調整する。最適化処理部34は、重み付けが調整された制約関数値と制約関数値とに基づいて、追加パラメータを更新する。
これによって、平行移動又は回転が生じている原画像の入力に対して頑健な学習済モデルパラメータの生成に必要とされる時間コストを削減することが可能である。
図10は、各実施形態における、画像処理装置のハードウェア構成例を示す図である。画像処理装置の各機能部のうちの一部又は全部は、CPU(Central Processing Unit)等のプロセッサ100が、不揮発性の記録媒体(非一時的な記録媒体)を有するメモリ102に記憶されたプログラムを実行することにより、ソフトウェアとして実現される。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM(Read Only Memory)、CD-ROM(Compact Disc Read Only Memory)等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置101などの非一時的な記録媒体である。
画像処理装置の各機能部のうちの一部又は全部は、例えば、LSI(Large Scale Integrated circuit)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)又はFPGA(Field Programmable Gate Array)等を用いた電子回路(electronic circuit又はcircuitry)を含むハードウェアを用いて実現されてもよい。
なお、上述した実施形態において、上記のような形態で実施されるプログラムは、単一の装置に依存するものではなく、プログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませて実行することによって画像処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
本発明は、画像処理装置に適用可能である。
1,1a,1b…画像処理装置、2…記憶部、3a,3b…学習装置、30…原画像処理部、31…変換画像生成部、32…変換画像処理部、33…制約導出部、34…最適化処理部、35…調整部、100…プロセッサ、101…記憶装置、102…メモリ

Claims (7)

  1. 学習装置が実行する学習方法であって、
    画像処理が実行される原画像において、前記原画像に対する画像処理の中間結果と、平行移動と回転とのうちの少なくとも一つを前記原画像に生じさせることで得られた画像の中間結果と、の差を示す制約関数値を導出する制約導出ステップと、
    第1モデルパラメータと追加パラメータとを含む第2モデルパラメータを取得し、前記第1モデルパラメータを固定して前記追加パラメータを前記制約関数値に基づいて更新することによって前記第2モデルパラメータを更新し、更新された前記第2モデルパラメータを出力する最適化処理ステップと
    を含む学習方法。
  2. 前記最適化処理ステップでは、前記制約関数値は、前記制約関数値が最適化するように更新される、
    請求項1に記載の学習方法。
  3. 前記第1モデルパラメータは、畳み込みニューラルネットワークにおいて学習されたパラメータのうちの少なくとも一部であり、
    前記追加パラメータは、前記畳み込みニューラルネットワークの識別層の位置から入力側に所定階層数だけ離れた位置に、新たな層として追加される、
    請求項1又は請求項2に記載の学習方法。
  4. 平行移動と回転とのうちの少なくとも一つの変換処理が実行された前記原画像である変換画像を取得し、前記変換画像に対する画像処理の中間結果と正解ラベルとの差分に応じた関数値である損失関数値を導出する変換画像ステップを更に含み、
    前記最適化処理ステップでは、前記第1モデルパラメータを固定して前記追加パラメータを前記制約関数値と前記制約関数値とに基づいて更新することによって、前記第2モデルパラメータを更新する、
    請求項1から請求項3のいずれか一項に記載の学習方法。
  5. 前記制約関数値と前記制約関数値との重み付けを調整する調整ステップを更に含み、
    前記最適化処理ステップでは、重み付けが調整された前記制約関数値と前記制約関数値とに基づいて、前記追加パラメータを更新する、
    請求項4に記載の学習方法。
  6. 画像処理が実行される原画像において、前記原画像に対する画像処理の中間結果と、平行移動と回転とのうちの少なくとも一つを前記原画像に生じさせることで得られた画像の中間結果と、の差を示す制約関数値を導出する制約導出部と、
    第1モデルパラメータと追加パラメータとを含む第2モデルパラメータを取得し、前記第1モデルパラメータを固定して前記追加パラメータを前記制約関数値に基づいて更新することによって前記第2モデルパラメータを更新し、更新された前記第2モデルパラメータを出力する最適化処理部と
    を備える学習装置。
  7. 請求項1から請求項5のいずれか一項に記載の学習方法を実行する学習装置としてコンピュータを機能させるためのプログラム。
JP2022560536A 2020-11-04 2020-11-04 学習方法、学習装置及びプログラム Active JP7421152B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/041177 WO2022097195A1 (ja) 2020-11-04 2020-11-04 学習方法、学習装置及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2022097195A1 JPWO2022097195A1 (ja) 2022-05-12
JP7421152B2 true JP7421152B2 (ja) 2024-01-24

Family

ID=81457608

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022560536A Active JP7421152B2 (ja) 2020-11-04 2020-11-04 学習方法、学習装置及びプログラム

Country Status (2)

Country Link
JP (1) JP7421152B2 (ja)
WO (1) WO2022097195A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019046334A (ja) 2017-09-06 2019-03-22 日本放送協会 分類モデル生成装置、画像データ分類装置およびそれらのプログラム
JP2019153229A (ja) 2018-03-06 2019-09-12 株式会社ツバサファクトリー 処理装置、処理方法、コンピュータプログラム及び処理システム
JP2020035290A (ja) 2018-08-31 2020-03-05 オムロン株式会社 検出器生成装置、モニタリング装置、検出器生成方法及び検出器生成プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019046334A (ja) 2017-09-06 2019-03-22 日本放送協会 分類モデル生成装置、画像データ分類装置およびそれらのプログラム
JP2019153229A (ja) 2018-03-06 2019-09-12 株式会社ツバサファクトリー 処理装置、処理方法、コンピュータプログラム及び処理システム
JP2020035290A (ja) 2018-08-31 2020-03-05 オムロン株式会社 検出器生成装置、モニタリング装置、検出器生成方法及び検出器生成プログラム

Also Published As

Publication number Publication date
WO2022097195A1 (ja) 2022-05-12
JPWO2022097195A1 (ja) 2022-05-12

Similar Documents

Publication Publication Date Title
CN111899163B (zh) 生成对抗网络中单图像超分辨率的有效结构保持
US10552944B2 (en) Image upscaling with controllable noise reduction using a neural network
US9847974B2 (en) Image document processing in a client-server system including privacy-preserving text recognition
US11048980B2 (en) Optimizing supervised generative adversarial networks via latent space regularizations
Cao et al. Image Super-Resolution via Adaptive $\ell _ {p}(0< p< 1) $ Regularization and Sparse Representation
US9865037B2 (en) Method for upscaling an image and apparatus for upscaling an image
JP6860079B2 (ja) 異常検知装置、異常検知方法、及びプログラム
CN107886082B (zh) 图像中数学公式检测方法、装置、计算机设备及存储介质
Naderahmadian et al. Correlation based online dictionary learning algorithm
US11544571B2 (en) Optimizing unsupervised generative adversarial networks via latent space regularizations
Pham et al. An efficient total variation minimization method for image restoration
US9495734B2 (en) Information processing apparatus, system, method, and medium storing program
US20220392025A1 (en) Restoring degraded digital images through a deep learning framework
CN114925748A (zh) 模型训练及模态信息的预测方法、相关装置、设备、介质
CN114596375A (zh) 产生重建影像的方法
JP7421152B2 (ja) 学習方法、学習装置及びプログラム
Chen et al. Face super resolution based on parent patch prior for VLQ scenarios
CN111178162B (zh) 图像识别方法、装置、计算机设备和存储介质
TWI764387B (zh) 產生重建影像的方法
WO2022194344A1 (en) Learnable augmentation space for dense generative adversarial networks
JP2019082847A (ja) データ推定装置、データ推定方法及びプログラム
CN113344784B (zh) 通过潜在空间正则化对监督式生成对抗网络进行优化
US12001956B2 (en) Optimizing supervised generative adversarial networks via latent space regularizations
WO2023225999A1 (en) Method and apparatus for certifying defense against image transformation
Chen et al. Super-Resolution Restoration for Sonar Images: Comprehensive Comparison

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231225

R150 Certificate of patent or registration of utility model

Ref document number: 7421152

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150