JP7325636B2 - 学習装置、推論装置、プログラム、学習方法及び推論方法 - Google Patents

学習装置、推論装置、プログラム、学習方法及び推論方法 Download PDF

Info

Publication number
JP7325636B2
JP7325636B2 JP2022531298A JP2022531298A JP7325636B2 JP 7325636 B2 JP7325636 B2 JP 7325636B2 JP 2022531298 A JP2022531298 A JP 2022531298A JP 2022531298 A JP2022531298 A JP 2022531298A JP 7325636 B2 JP7325636 B2 JP 7325636B2
Authority
JP
Japan
Prior art keywords
image
learning
inference
correct
evaluation value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022531298A
Other languages
English (en)
Other versions
JPWO2021260822A1 (ja
Inventor
正太郎 守谷
徹平 藤原
偉雄 藤田
康平 栗原
大祐 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2021260822A1 publication Critical patent/JPWO2021260822A1/ja
Application granted granted Critical
Publication of JP7325636B2 publication Critical patent/JP7325636B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Description

本開示は、学習装置、推論装置、プログラム、学習方法及び推論方法に関する。
学習装置及び推論装置に関する技術では、学習手段からの出力信号と、教師信号との間で誤差を計算し、その誤差が収束する、又は、その誤差が所定の閾値を下回るまで処理を繰り返し、その条件が満たされると、学習が終了する。
例えば、特許文献1には、ニューラルネットワークにより構成され、変換された原画像を学習画像及び教師画像として学習工程を実行する学習手段が記載されている。
特開2005-217592号公報
しかしながら、特許文献1に記載されている学習手段は、誤差の値が収束する条件を満たす複数の出力信号がある場合に、より適切な出力信号を評価することができない。
そこで、本開示の一又は複数の態様は、教師あり学習を行なう際に、より適切な評価を行うことができるようにすることを目的とする。
本開示の一態様に係る学習装置は、入力画像を示す学習用入力データ及び前記入力画像に対応する正解画像を示す正解データを含む学習用データセットを取得する学習側データ取得部と、前記学習用データセットを用いて学習を行うことで、対象画像から出力画像を推論するための学習モデルを生成するモデル生成部と、を備え、前記モデル生成部は、前記入力画像から推論された推論画像と、前記正解画像との間の類似度を評価するための第一の評価値と、前記推論画像を構成する複数の色成分の内、少なくとも二つの色成分の関係する程度を評価するための第二の評価値と、を含む評価関数を用いて、前記推論画像が前記正解画像に近づくように前記学習を行い、前記第二の評価値は、前記少なくとも二つの色成分の関係する程度が強いほど小さい値となることを特徴とする。
本開示の一態様に係る推論装置は、対象画像を示す推論用入力データを取得する推論側データ取得部と、入力される画像から、前記入力される画像とは別の画像を推論するための学習モデルを用いて、前記対象画像から出力画像を推論する推論部と、を備え、前記学習モデルは、入力画像から推論された推論画像と、前記入力画像に対応する正解画像との間の類似度を評価するための第一の評価値と、前記推論画像を構成する複数の色成分の内、少なくとも二つの色成分の関係する程度を評価するための第二の評価値と、を含む評価関数を用いて、前記推論画像が前記正解画像に近づくように学習されたモデルであり、前記第二の評価値は、前記少なくとも二つの色成分の関係する程度が強いほど小さい値となることを特徴とする。
本開示の一態様に係るプログラムは、コンピュータを、入力画像を示す学習用入力データ及び前記入力画像に対応する正解画像を示す正解データを含む学習用データセットを取得する学習側データ取得部、及び、前記学習用データセットを用いて学習を行うことで、対象画像から出力画像を推論するための学習モデルを生成するモデル生成部、として機能させるプログラムであって、前記モデル生成部は、前記入力画像から推論された推論画像と、前記正解画像との間の類似度を評価するための第一の評価値と、前記推論画像を構成する複数の色成分の内、少なくとも二つの色成分の関係する程度を評価するための第二の評価値と、を含む評価関数を用いて、前記推論画像が前記正解画像に近づくように前記学習を行い、前記第二の評価値は、前記少なくとも二つの色成分の関係する程度が強いほど小さい値となることを特徴とする。
本開示の一態様に係るプログラムは、コンピュータを、対象画像を示す推論用入力データを取得する推論側データ取得部、及び、入力される画像から、前記入力される画像とは別の画像を推論するための学習モデルを用いて、前記対象画像から出力画像を推論する推論部、として機能させるプログラムであって、前記学習モデルは、入力画像から推論された推論画像と、前記入力画像に対応する正解画像との間の類似度を評価するための第一の評価値と、前記推論画像を構成する複数の色成分の内、少なくとも二つの色成分の関係する程度を評価するための第二の評価値と、を含む評価関数を用いて、前記推論画像が前記正解画像に近づくように学習されたモデルであり、前記第二の評価値は、前記少なくとも二つの色成分の関係する程度が強いほど小さい値となることを特徴とする。
本開示の一態様に係る学習方法は、入力画像を示す学習用入力データ及び前記入力画像に対応する正解画像を示す正解データを含む学習用データセットを取得し、前記学習用データセットを用いて学習を行うことで、対象画像から出力画像を推論するための学習モデルを生成する学習方法であって、前記学習モデルを生成する過程では、前記入力画像から推論された推論画像と、前記正解画像との間の類似度を評価するための第一の評価値と、前記推論画像を構成する複数の色成分の内、少なくとも二つの色成分の関係する程度を評価するための第二の評価値と、を含む評価関数を用いて、前記推論画像が前記正解画像に近づくように前記学習が行われ、前記第二の評価値は、前記少なくとも二つの色成分の関係する程度が強いほど小さい値となることを特徴とする。
本開示の一態様に係る推論方法は、対象画像を示す推論用入力データを取得し、入力される画像から、前記入力される画像とは別の画像を推論するための学習モデルを用いて、前記対象画像から出力画像を推論する推論方法であって、前記学習モデルは、入力画像から推論された推論画像と、前記入力画像に対応する正解画像との間の類似度を評価するための第一の評価値と、前記推論画像を構成する複数の色成分の内、少なくとも二つの色成分の関係する程度を評価するための第二の評価値と、を含む評価関数を用いて、前記推論画像が前記正解画像に近づくように学習されたモデルであり、前記第二の評価値は、前記少なくとも二つの色成分の関係する程度が強いほど小さい値となることを特徴とする。
本開示の一又は複数の態様によれば、教師あり学習を行なう際に、より適切な評価を行うことができる。
実施の形態1~3に係る学習システムの構成を概略的に示すブロック図である。 実施の形態1~3における学習装置の構成を概略的に示すブロック図である。 三層のニューラルネットワークの一例を示す概略図である。 コンピュータの構成を概略的に示すブロック図である。 学習装置が学習する処理を示すフローチャートである。 実施の形態1~3における推論装置の構成を概略的に示すブロック図である。 推論装置が推論する処理を示すフローチャートである。
実施の形態1.
図1は、実施の形態1に係る学習システム100の構成を概略的に示すブロック図である。
学習システム100は、学習装置110と、推論装置120とを備える。
本実施の形態に係る学習システム100は、ある対象製品に使用されるものとする。例えば、対象製品は、自動車又は映像機器等である。
なお、学習装置110及び推論装置120は、ある対象製品の出力を学習し、推論するために使用される。ここで、学習装置110及び推論装置120は、例えば、ネットワークを介してその対象製品に接続されてもよい。この場合、学習装置110及び推論装置120は、対象製品とは別個の装置となる。
また、学習装置110及び推論装置120は、対象製品に内蔵されていてもよい。
さらに、学習装置110及び推論装置120は、クラウドサーバ上に存在していてもよい。
図2は、学習装置110の構成を概略的に示すブロック図である。
学習装置110は、学習側入力部111と、学習側データ取得部112と、モデル生成部113と、学習側学習モデル記憶部114と、学習側通信部115とを備える。
学習側入力部111は、学習用データセットの入力を受け付ける。ここでは、学習用データセットは、対象製品から入力されるものとする。学習用データセットは、学習用入力データと、正解データとのセットである。
学習側データ取得部112は、学習用データセットを、学習側入力部111を介して取得する。取得された学習用データセットは、モデル生成部113に与えられる。
モデル生成部113は、学習側データ取得部112から与えられる学習用データセットを用いて学習を行うことで、学習モデルを生成する。ここでは、モデル生成部113は、対象製品の学習用入力データと、正解データとのセットから、最適な出力を推論する学習モデルを生成する。
モデル生成部113が用いる学習アルゴリズムは、教師あり学習であり、その一例として、ニューラルネットワークを用いた場合について説明する。
モデル生成部113は、例えば、ニューラルネットワークに従って、いわゆる教師あり学習により、出力を学習する。ここで、教師あり学習とは、入力と、結果とのデータのセットを学習装置110に与えることで、それらの学習用データセットにある特徴を学習し、入力から結果を推論する手法をいう。
ニューラルネットワークは、複数のニューロンからなる入力層、複数のニューロンからなる中間層(隠れ層)、及び、複数のニューロンからなる出力層で構成される。中間層は、一層又は二層以上でもよい。
図3は、三層のニューラルネットワークの一例を示す概略図である。
図3に示されているように、三層のニューラルネットワークであれば、複数の入力値が入力層X1~X3に入力されると、その入力値に第一の重みw11~w16(以下、第一の重みW1ともいう)が掛けられる。入力値に第一の重みw11~w16が掛けられた値である算出値は、中間層Y1、Y2に入力される。算出値には、第二の重みw21~w26(以下、第二の重みW2ともいう)が掛けられ、算出値に第二の重みw21~w26が掛けられ値である出力値が、出力層Z1~Z3から出力される。この出力値は、第一の重みW1の値と、第二の重みW2の値とによって変わる。
本実施の形態において、ニューラルネットワークは、学習側データ取得部112によって取得される学習用入力データと、正解データとの組合せに基づいて作成される学習用データセットに従って、いわゆる教師あり学習により、出力を学習する。
すなわち、ニューラルネットワークは、入力層に学習用入力データを入力して出力層から出力された結果である学習側推論データが、正解データに近づくように第一の重みW1及び第二の重みW2を調整することで学習する。
モデル生成部113は、以上のような学習を実行することで学習モデルを生成し、生成された学習モデルを学習側学習モデル記憶部114に記憶させる。
次に、実施の形態1のモデル生成部113における学習側推論データと、正解データとの評価について説明する。
ここでは、学習用入力データが入力画像を示し、正解データが、その入力画像に対応する正解画像を示すものとする。そして、いわゆる教師あり学習の学習フェーズにおいて推論された出力である学習側推論データが推論画像を示すものとする。そして、モデル生成部113は、学習用データセットを用いて学習を行うことで、対象画像から出力画像を推論するための学習モデルを生成するものとする。
実施の形態1では、モデル生成部113は、推論画像と、正解画像との間の類似度を評価するための第一の評価値と、推論画像を構成する複数の色成分の内、少なくとも二つの色成分の関係する程度を評価するための第二の評価値とを含む評価関数を用いて、推論画像が正解画像に近づくように学習を行う。
例えば、モデル生成部113は、推論画像と、正解画像との類似度が高いほど小さい値になる第一の評価値と、推論画像における複数の色成分が関係する程度が強いほど小さい値になる第二の評価値とを荷重加算する関数を評価関数として用いて、推論画像と、正解画像との類似性を評価する。
なお、関係する程度は、複数の色成分の変化の様態の類似度が高いほど強いものとする。
以下、推論画像及び正解画像ともに各画素について、赤(R)、緑(G)、青(B)の三色の色成分(あるいは色情報)を持つカラー画像である場合を例に説明する。
また、推論画像及び正解画像内の各画素を表す水平座標をx、垂直座標をyとして、推論画像のR成分をIpred(x,y,r)、G成分をIpred(x,y,g)及びB成分をIpred(x,y,b)と表し、正解画像のR成分をIgt(x,y,r)、G成分をIgt(x,y,g)及びB成分をIgt(x,y,b)と表す。
そして、第一の評価値をV1とすると、V1は、推論画像と、正解画像との誤差を表す値であり、例えば、二乗誤差を用いて、下記の(1)式で示すことができる。
Figure 0007325636000001
(1)
また、第二の評価値は、推論画像の色成分について、例えば、零平均正規化相互相関を用いて計算することができる。
ここで、推論画像のR成分及びG成分の零平均正規化相互相関をZCrgとすると、ZCrgは、下記の(2)式で示すことができる。
Figure 0007325636000002
(2)
また、G成分及びB成分の零平均正規化相互相関をZCgbとすると、ZCgbは、下記の(3)式で示すことができる。
Figure 0007325636000003
(3)
さらに、B成分及びR成分の零平均正規化相互相関をZCbrとすると、ZCbrは、下記の(4)式で示すことができる。
Figure 0007325636000004
(4)
なお、(1)式~(4)式において、上付きの横棒で表される記号は、各成分の局所的な平均値を表す。
第二の評価値をV2で表すと、V2は、ZCrg、ZCgb及びZCbrを使って、例えば、下記の(5)式で示すことができる。
Figure 0007325636000005
(5)
そして、評価関数をEで表すと、Eは、下記の(6)式で示すことができる。
Figure 0007325636000006
(6)
ここで、λは、予め定められた定数である。
実施の形態1における学習装置110では、(6)式の評価関数で算出される値が最小となるように学習が行われる。
以下、(6)式について説明する。
(6)式の右辺の第一の評価値V1は、推論画像が正解画像に近づくほど小さくなる値である。但し、学習フェーズにて正解画像そのものを推定できなかった場合、右辺の第一の評価値V1を最小にする推論画像は、複数個存在する可能性がある。
この場合、右辺の第二の評価値V2があることで、人間の視覚特性が捉える画像により近い推論画像を学習できるようになる。
第二の評価値V2は、推論画像のR成分、G成分及びB成分間の相関又は信号変化の類似度が高いほど、小さな値になる。これは、(2)式~(4)式の零平均正規化相互相関が、マイナス1から1までの値をとり、かつ、零平均正規化相互相関を計算する信号間の信号変化の類似度が高いほどその値が1に近づくという性質を持っているためである。
ここで、自然画像ではR成分、G成分及びB成分間で色の変化にある程度の類似性がある。これは人間の視覚特性がR成分、G成分及びB成分の色を太陽光等の照明光の反射成分としてとらえ、かつ、R成分とG成分との間、及び、G成分とB成分との間には、ある程度波長帯域が重なる領域があるためである。
よって、実施の形態1における学習装置110のように学習に用いる評価関数にR成分、G成分及びB成分間の相関又は信号変化の類似度が高いほど、小さな値になる値を導入し、R成分、G成分及びB成分間の色の変化にある程度の類似性がある推論画像を出力しやすくすることで、人間の視覚特性が捉える自然画像に近い画像を出力することが可能となる。
また、第一の評価値は、推論画像と正解画像との誤差を表す値であればよく、推論画像と、正解画像との誤差が小さいほど小さい値であれば、二乗誤差以外の計算方法を用いることができる。
学習側学習モデル記憶部114は、モデル生成部113で生成された学習モデルを記憶する。学習側学習モデル記憶部114に記憶される学習モデルを、学習側学習モデルともいう。
以上に記載された学習装置110は、図4に示されているようなコンピュータ140で実現することができる。
図4は、コンピュータ140の構成を概略的に示すブロック図である。
コンピュータ140は、通信装置141と、補助記憶装置142と、メモリ143と、プロセッサ144とを備える。
通信装置141は、例えば、ネットワークを介してデータを通信する。
補助記憶装置142は、コンピュータ140での処理に必要なデータ及びプログラムを記憶する。
メモリ143は、プロセッサ144の作業領域を提供する。
プロセッサ144は、補助記憶装置142に記憶されているプログラムをメモリ143に読み出し、そのプログラムを実行することで、コンピュータ140での処理を実行する。
以上に記載された、学習側入力部111及び学習側通信部115は、通信装置141により実現することができる。
学習側学習モデル記憶部114は、補助記憶装置142により実現することができる。
学習側データ取得部112及びモデル生成部113は、プロセッサ144が、メモリ143に読み出されたプログラムを実行することで実現することができる。このようなプログラムは、ネットワークを通じて提供されてもよく、また、記録媒体に記録されて提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。
図5は、学習装置110が学習する処理を示すフローチャートである。
まず、学習側データ取得部112は、学習側入力部111を介して、学習用入力データ及び正解データを取得する(S10)。ここでは、学習用入力データ及び正解データが同時に取得されるものとしているが、学習用入力データ及び正解データを関連付けることができれば、これらは別のタイミングで取得されてもよい。取得された学習用入力データ及び正解データは、モデル生成部113に与えられる。
次に、モデル生成部113は、学習用入力データ及び正解データの組み合せに基づいて作成される学習用データセットに従って、いわゆる教師あり学習により、出力を学習し、学習モデルを生成する(S11)。
次に、学習側学習モデル記憶部114は、生成された学習モデルを記憶する(S12)。
そして、学習側通信部115は、その学習モデルを推論装置120に送信する(S13)。
図6は、推論装置120の構成を概略的に示すブロック図である。
推論装置120は、推論側通信部121と、推論側学習モデル記憶部122と、推論側入力部123と、推論側データ取得部124と、推論部125とを備える。
推論側通信部121は、学習装置110からの学習モデルを受信する。受信された学習モデルは、推論側学習モデル記憶部122に記憶される。推論側学習モデル記憶部122に記憶される学習モデルを推論側学習モデルともいう。
推論側入力部123は、推論用入力データの入力を受け付ける。
推論側データ取得部124は、推論用入力データを、推論側入力部123を介して取得する。取得された推論用入力データは、推論部125に与えられる。
推論部125は、推論側学習モデル記憶部122に記憶されている学習モデルを利用して、推論用入力データから得られる出力を推論する。すなわち、この学習モデルに推論用入力データを入力することで、その推論用入力データから推論される出力を得ることができる。
なお、実施の形態1では、推論部125は、ある対象製品のモデル生成部113で学習した学習モデルを用いて推論を行っているが、実施の形態1は、このような例に限定されない。推論側通信部121が、他の対象製品等において他の装置で生成された学習モデルを受信して、その学習モデルを推論側学習モデル記憶部122に記憶させることで、推論部125は、他の装置で生成された学習モデルに基づいて推論を行うようにしてもよい。但し、推論装置120に記憶される学習モデルは、学習装置110のモデル生成部113で行われる処理と同様の処理で生成されるものとする。
以上に記載された推論装置120も、図4に示されているようなコンピュータ140で実現することができる。
例えば、推論側入力部123及び推論側通信部121は、通信装置141により実現することができる。
推論側学習モデル記憶部122は、補助記憶装置142により実現することができる。
推論側データ取得部124及び推論部125は、プロセッサ144が、メモリ143に読み出されたプログラムを実行することで実現することができる。
図7は、推論装置120が推論する処理を示すフローチャートである。
なお、ここでは、推論側学習モデル記憶部122は、既に学習モデルを記憶しているものとする。
まず、推論側データ取得部124は、推論側入力部123を介して推論用入力データを取得する(S20)。取得された推論用入力データは、推論部125に与えられる。
次に、推論部125は、推論側学習モデル記憶部122に記憶された学習モデルを用いて、推論用入力データから出力を推論する(S21)。例えば、その学習モデルに推論用データを入力することで、その推論結果である出力を取得することができる。
次に、推論部125は、学習モデルから得られた出力を対象製品に出力する(S22)。
そして、対象製品は、その出力を対象製品の外部へと出力する(S23)。これにより、人間の視覚特性に近い画像を出力することができる。
実施の形態1に係る学習システム100によれば、例えば、入力画像が、正解画像の少なくとも一画素以上の画素の、一色以上の画素値を無効値に変化させた画像である場合に、より高い効果を発揮する。
このような例として、各画素について、R成分、G成分及びB成分の何れかの値しか有効な値を持たない画像(例えば、ベイヤー配列画像)を処理し、カラー画像を出力する場合がある。なお、この例では、各画素にいついて二色の画素値が無効になっていることになるが、より一般的には、先に述べたように、入力画像が、正解画像の少なくとも一画素以上の画素の、一色以上の画素値を無効値に変化させた画像である場合となる。
また、モデル生成部113は、複数の対象製品に対して作成される学習用データセットに従って、学習モデルを学習するようにしてもよい。なお、モデル生成部113は、同一のエリアで使用される複数の対象製品から学習用データセットを取得してもよいし、異なるエリアで独立して動作する複数の対象製品から収集される学習用データセットを使用して、学習モデルを学習してもよい。
さらに、モデル生成部113は、学習用データセットを収集する他の対象製品を途中で追加したり、複数の対象製品からある対象製品を除去したりすることも可能である。
また、ある対象製品に関して学習モデルを学習した学習装置110を、別の対象製品に適用し、その別の対象製品に関して、学習モデルを再学習して、学習モデルを更新するようにしてもよい。
また、モデル生成部113に用いられる学習アルゴリズムとしては、特徴量そのものの抽出を学習する、深層学習(Deep Learning)を用いることもでき、他の公知の方法、例えば、遺伝的プログラミング、機能論理プログラミング又はサポートベクターマシン等に従って機械学習が実行されてもよい。
また、(5)式では、R及びG、G及びB、並びに、B及びRの三つの色成分の全ての組み合わせの相関を使っているが、全ての色成分間の相関を使う必要はない。例えば、R及びG間の相関と、G及びB間の相関というように二つの組み合わせのみの相関が使われてもよい。また、R及びG間のみのように一つの組み合わせのみの相関が使われてもよい。
すなわち、少なくとも二色以上の色成分からなる推論画像について、少なくとも一つの組み合わせの色成分について相関が計算されればよい。
また、第二の評価値に使用される相関の値は零平均正規化相互相関を使用したものに限られず、相関を計算する二色の色成分の変化の様態が類似するほど小さな値を出力するものであればよい。
実施の形態2.
実施の形態1では、一つの推論画像及び一つの正解画像で評価を行う例を記載したが、N個の推論画像及びN個の正解画像(Nは、2以上の整数)で評価が行われてもよい。
図1に示されているように、実施の形態2に係る学習システム200は、学習装置210と、推論装置120とを備える。
実施の形態2における推論装置120は、実施の形態1における推論装置120と同様である。
図2に示されているように、学習装置210は、学習側入力部111と、学習側データ取得部112と、モデル生成部213と、学習側学習モデル記憶部114と、学習側通信部115とを備える。
モデル生成部213は、学習側データ取得部112から与えられる学習用データセットに基づいて、学習を行う。ここでは、モデル生成部213は、対象製品の学習用入力データと、正解データとのセットから、最適な出力を推論する学習モデルを生成する。
ここで、実施の形態2におけるモデル生成部213は、N個の推論画像と、N個の正解画像との類似度が高いほど小さい値になる第一の評価値と、N個の推論画像における複数の色成分の関係する程度が強いほど小さい値になる第二の評価値とを含む関数を評価関数として用いて、N個の推論画像と、N個の正解画像との類似性を評価する。
例えば、モデル生成部213は、N個の推論画像の各々と、N個の正解画像の内の対応する正解画像との類似度の平均が高いほど小さい値になる第一の評価値と、N個の推論画像における少なくとも二つの色成分の関係する程度の平均が強くなるほど小さい値になる第二の評価値とを荷重加算する関数を評価関数として用いて、N個の推論画像と、N個の正解画像との類似性を評価する。
以下、推論画像及び正解画像ともに各画素について、赤(R)、緑(G)、青(B)の三色の色成分(あるいは色情報)を持つカラー画像である場合を例に説明する。
また、推論画像及び正解画像内の各画素を表す水平座標をx、垂直座標をyとして、i番目の推論画像のR成分をIpred(x,y,r,i)、G成分をIpred(x,y,g,i)及びB成分をIpred(x,y,b,i)と表し、i番目の正解画像のR成分をIgt(x,y,r,i)、G成分をIgt(x,y,g,i)及びB成分をIgt(x,y,b,i)と表す。
ここで、iは、1≦i≦Nを満たす整数である。
この時、第一の評価値をV1とするとV1は、推論画像と正解画像の誤差を表す値であり、例えば、二乗誤差を用いて、下記の(7)式により算出することができる。
Figure 0007325636000007
(7)
また、第二の評価値は、推論画像の色成分について、例えば、零平均正規化相互相関を用いて計算できる。
ここで、推論画像のR成分及びG成分の零平均正規化相互相関をZCrgとすると、ZCrgは、下記の(8)式で算出することができる。
Figure 0007325636000008
(8)
また、推論画像のG成分及びB成分の零平均正規化相互相関をZCgbとすると、ZCgbは、下記の(9)式で算出することができる。
Figure 0007325636000009
(9)
さらに、総則画像のB成分及びR成分の零平均正規化相互相関をZCbrとすると、ZCbrは、下記の(10)式で算出することができる。
Figure 0007325636000010
(10)
なお、(8)式~(10)式において、上付きの横棒で表される記号は、各成分の局所的な平均値を表す。
そして、第二の評価値をV2で表すと、V2は、ZCrg、ZCgb及びZCbrを使って、例えば、上記の(5)式で示すことができる。
さらに、評価関数をEで表すと、Eは、上記の(6)式で示すことができる。
実施の形態2に係る学習システム200によれば、例えば、劣化画像が、正解画像の少なくとも一画素以上の画素の一色以上の画素値が無効値に変化した場合に、より高い効果を発揮する。
上記のような例として、各画素について、R成分、G成分及びB成分の何れかの値しか有効な値を持たない画像(例えば、ベイヤー配列画像)を処理し、カラー画像を出力する例がある。
なお、この例では、各画素について二色の画素値が無効になっていることになるが、より一般的には、先に述べたように、劣化画像が、正解画像の少なくとも一画素以上の画素の一色以上の画素値が無効値に変化した場合となる。
また、(5)式では、R及びG、G及びB、並びに、B及びRの三つの色成分の全ての組み合わせの相関を使っているが、全ての色成分間の相関を使う必要はない。例えば、R及びG間の相関と、G及びB間の相関というように二つの組み合わせのみの相関が使われてもよい。また、R及びG間のみのように一つの組み合わせのみの相関が使われてもよい。
すなわち、少なくとも二色以上の色成分からなる推論画像について、少なくとも一つの組み合わせの色成分について相関が計算されればよい。
また、第二の評価値に使用される相関の値は零平均正規化相互相関を使用したものに限られず、相関を計算する二色の色成分の変化の様態が類似するほど小さな値を出力するものであればよい。
なお、その他実施の形態1に加えられる変形例は、実施の形態2にも適用可能である。
実施の形態3.
図1に示されているように、実施の形態3に係る学習システム300は、学習装置310と、推論装置120とを備える。
実施の形態3における推論装置120は、実施の形態1における推論装置120と同様である。
図2に示されているように、学習装置310は、学習側入力部111と、学習側データ取得部112と、モデル生成部313と、学習側学習モデル記憶部114と、学習側通信部115とを備える。
モデル生成部313は、学習側データ取得部112から与えられる学習用データセットに基づいて、学習を行う。ここでは、モデル生成部313は、対象製品の学習用入力データと、正解データとのセットから、最適な出力を推論する学習モデルを生成する。実施の形態3においても、N個の推論画像及びN個の正解画像があるものとして説明を行う。N及びiは、実施の形態2と同様である。
ここで、実施の形態3におけるモデル生成部313は、複数の推論画像と、複数の正解画像との類似度が高いほど小さい値になる第一の評価値と、複数の推論画像における複数の色成分の関係する程度が強くなるほど小さい値になる第二の評価値とを含む関数を評価関数として用いて、複数の推論画像と、複数の正解画像との類似性を評価する。
例えば、モデル生成部313は、複数の推論画像の各々と、複数の正解画像の内の対応する正解画像との類似度の平均が高いほど小さい値になる第一の評価値と、複数の推論画像における複数の色成分の関係する程度の平均が強くなるほど小さい値になる第二の評価値とを荷重加算する関数を評価関数として用いて、複数の推論画像と、複数の正解画像との類似性を評価する。
以下、推論画像及び正解画像ともに各画素について、赤(R)、緑(G)、青(B)の三色の色成分(あるいは色情報)を持つカラー画像である場合を例に説明する。
また、推論画像及び正解画像内の各画素を表す水平座標をx、垂直座標をyとして、i番目の推論画像のR成分をIpred(x,y,r,i)、G成分をIpred(x,y,g,i)及びB成分をIpred(x,y,b,i)と表し、i番目の正解画像のR成分をIgt(x,y,r,i)、G成分をIgt(x,y,g,i)及びB成分をIgt(x,y,b,i)と表す。
さらに、i番目の推論画像のR成分、G成分及びB成分から生成されたグレー成分をIpred(x,y,k,i)と表す。
ここで、上記のようにR成分、G成分及びB成分を荷重加算することで、例えば、R成分、G成分又はB成分にランダムな誤差が重畳されていたとしてもグレー成分にそのノイズが重畳されることを防止することができる。
この時、第一の評価値をV1とするとV1は、推論画像と正解画像の誤差を表す値であり、例えば、二乗誤差を用いて、上記の(7)式により算出することができる。
また、第二の評価値は、推論画像の色成分について、例えば、零平均正規化相互相関を用いて計算できる。
推論画像のR成分及びグレー成分の零平均正規化相互相関をZCrkとすると、ZCrkは、下記の(11)式で算出することができる。
Figure 0007325636000011
(11)
また、推論画像のG成分及びグレー成分の零平均正規化相互相関をZCgkとすると、ZCgkは、下記の(12)式で算出することができる。
Figure 0007325636000012
(12)
さらに、推論画像のB成分及びグレー成分の零平均正規化相互相関をZCbkとすると、ZCbkは、下記の(13)式で算出することができる。
Figure 0007325636000013
(13)
なお、(11)式~(13)式のうち、上付きの横棒で表される記号は、各成分の局所的な平均値を表すものである。
そして、第二の評価値をV2で表すと、V2は、ZCrg、ZCgb及びZCbrを使って、例えば、上記の(5)式で示すことができる。
さらに、評価関数をEで表すと、Eは、上記の(6)式で示すことができる。
実施の形態3では、(6)式で示される評価関数の内、右辺の第一の評価値V1は、推論画像が正解画像に近づくほど小さくなる値である。また、右辺の第二の評価値V2は、推論画像のR成分、G成分及びB成分の各々と、推論画像のグレー成分との関係する程度が強いほど、小さな値になる値である。これは、(11)式~(13)式の零平均正規化相互相関がマイナス1から1までの値をとり、かつ、零平均正規化相互相関を計算する信号間の信号変化の類似度が高いほどその値が1に近づくという性質を持っているためである。
ここで、自然画像ではR成分、G成分及びB成分間で色の変化にある程度の類似性がある。これは人間の視覚特性がR成分、G成分及びB成分の色を太陽光等の照明光の反射成分としてとらえ、かつ、R成分及びG成分の間、並びに、G成分及びB成分の間にはある程度波長帯域が重なる領域があるためである。
よって、実施の形態3における学習システム300のように学習に用いる評価関数にR成分、G成分及びB成分のそれぞれと、グレー成分との間で相関又は信号変化の類似度が高いほど、小さな値になる値を追加し、R成分、G成分、B成分間の色の変化にある程度の類似性がある推論画像を出力しやすくすることで、人間の視覚特性が捉える自然画像に近い画像を出力することが可能となる。
実施の形態3における学習システム300は、入力画像が、正解画像の少なくとも一画素以上の画素の一色以上の画素値に対して特定の値を加算又は減算した画像である場合に、より高い効果を発揮する。
上記のような例として、R成分、G成分、B成分からなるカラー画像について、少なくとも一つの成分にノイズが付加された画像を処理するノイズ除去処理がある。
なお、上記の例では劣化画像、正解画像ともにR成分、G成分及びB成分の三成分からなるカラー画像であるが、色成分は、R,G,Bに限られず、各画素について少なくとも二成分以上与えられていればよい。
また、グレー成分は少なくとも二成分以上の色情報を合成して得られるものであればよい。
実施の形態3における(5)式では、グレー成分を計算するために使用した色成分の全てについて、グレー成分との相関を使っているが、全ての色成分に対しての相関を使う必要はなく、少なくとも一成分以上についてグレー成分との相関が計算されればよい。
より一般的には、少なくとも二色以上の色成分からなる推論画像について、少なくとも一色の色成分について、グレー成分との相関が計算されればよい。
また、第二の評価値に使用する相関の値は、零平均正規化相互相関を使用したものに限られず、相関を計算する二色の色成分の変化の様態が類似するほど小さな値を出力するものであればよい。
また、第一の評価値について、実施の形態1又は2に適用可能な変形例は、実施の形態3にも適用できる。
なお、実施の形態3は、実施の形態2と同様に、N個の推論画像及びN個の正解画像があるものとして説明を行ったが、実施の形態3は、このような例に限定されない。例えば、実施の形態1と同様に、学習用データセットが、一つの推論画像と、その一つの推論画像に対応する一つの正解画像を含んでいてもよい。
このような場合、評価関数に含まれる第一の評価値は、推論画像と正解画像との間の類似度が高いほど小さい値となり、第二の評価値は、推論画像に含まれる少なくとも二つの色成分から生成されるグレー成分と、その少なくとも二つの色成分の内の少なくとも一つの色成分との関係する程度が強いほど小さい値となることが望ましい。
以上のように、本実施の形態では、人間の視覚特性が捉える自然画像に近い画像を出力することが可能となる。
100,200,300 学習システム、 110,210,310 学習装置、 111 学習側入力部、 112 学習側データ取得部、 113,213,313 モデル生成部、 114 学習側学習モデル記憶部、 115 学習側通信部、 120 推論装置、 121 推論側通信部、 122 推論側学習モデル記憶部、 123 推論側入力部、 124 推論側データ取得部、 125 推論部。

Claims (16)

  1. 入力画像を示す学習用入力データ及び前記入力画像に対応する正解画像を示す正解データを含む学習用データセットを取得する学習側データ取得部と、
    前記学習用データセットを用いて学習を行うことで、対象画像から出力画像を推論するための学習モデルを生成するモデル生成部と、を備え、
    前記モデル生成部は、前記入力画像から推論された推論画像と、前記正解画像との間の類似度を評価するための第一の評価値と、前記推論画像を構成する複数の色成分の内、少なくとも二つの色成分の関係する程度を評価するための第二の評価値と、を含む評価関数を用いて、前記推論画像が前記正解画像に近づくように前記学習を行い、
    前記第二の評価値は、前記少なくとも二つの色成分の関係する程度が強いほど小さい値となること
    を特徴とする学習装置。
  2. 前記第一の評価値は、前記推論画像と前記正解画像との間の類似度が高いほど小さい値となること
    を特徴とする請求項1に記載の学習装置。
  3. 複数の入力画像を示す複数の学習用入力データ及び前記複数の入力画像に対応する複数の正解画像を示す複数の正解データを含む学習用データセットを取得する学習側データ取得部と、
    前記学習用データセットを用いて学習を行うことで、対象画像から出力画像を推論するための学習モデルを生成するモデル生成部と、を備え、
    前記モデル生成部は、前記複数の入力画像から推論された複数の推論画像と、前記複数の正解画像との間の類似度を評価するための第一の評価値と、前記複数の推論画像を構成する複数の色成分の内、少なくとも二つの色成分の関係する程度を評価するための第二の評価値と、を含む評価関数を用いて、前記複数の推論画像が前記複数の正解画像に近づくように前記学習を行い、
    前記第二の評価値は、前記複数の推論画像における、前記少なくとも二つの色成分の関係する程度の平均が強いほど小さい値となること
    を特徴とする学習装置。
  4. 前記第一の評価値は、前記複数の推論画像の各々と、前記複数の正解画像内の対応する正解画像との間の類似度の平均が高いほど小さい値となること
    を特徴とする請求項に記載の学習装置。
  5. 前記入力画像は、前記正解画像の少なくとも一画素における少なくとも一つの色成分の画素値を無効値に変化させた画像であること
    を特徴とする請求項1から4の何れか一項に記載の学習装置。
  6. 入力画像を示す学習用入力データ及び前記入力画像に対応する正解画像を示す正解データを含む学習用データセットを取得する学習側データ取得部と、
    前記学習用データセットを用いて学習を行うことで、対象画像から出力画像を推論するための学習モデルを生成するモデル生成部と、を備え、
    前記モデル生成部は、前記入力画像から推論された推論画像と、前記正解画像との間の類似度を評価するための第一の評価値と、前記推論画像を構成する複数の色成分の内、少なくとも二つの色成分の関係する程度を評価するための第二の評価値と、を含む評価関数を用いて、前記推論画像が前記正解画像に近づくように前記学習を行い、
    前記第二の評価値は、前記少なくとも二つの色成分から生成されるグレー成分と、前記少なくとも二つの色成分の内の少なくとも一つの色成分との関係する程度が強いほど小さい値となること
    を特徴とする学習装置。
  7. 前記第一の評価値は、前記推論画像と前記正解画像との間の類似度が高いほど小さい値となること
    を特徴とする請求項に記載の学習装置。
  8. 複数の入力画像を示す複数の学習用入力データ及び前記複数の入力画像に対応する複数の正解画像を示す複数の正解データを含む学習用データセットを取得する学習側データ取得部と、
    前記学習用データセットを用いて学習を行うことで、対象画像から出力画像を推論するための学習モデルを生成するモデル生成部と、を備え、
    前記モデル生成部は、前記複数の入力画像から推論された複数の推論画像と、前記複数の正解画像との間の類似度を評価するための第一の評価値と、前記複数の推論画像を構成する複数の色成分の内、少なくとも二つの色成分の関係する程度を評価するための第二の評価値と、を含む評価関数を用いて、前記複数の推論画像が前記複数の正解画像に近づくように前記学習を行い、
    前記第二の評価値は、前記複数の推論画像における、前記少なくとも二つの色成分から生成されるグレー成分と、前記少なくとも二つの色成分の内の少なくとも一つの色成分との関係する程度の平均が強いほど小さい値となること
    を特徴とする学習装置。
  9. 前記第一の評価値は、前記複数の推論画像の各々と、前記複数の正解画像内の対応する正解画像との間の類似度の平均が高いほど小さい値となること
    を特徴とする請求項に記載の学習装置。
  10. 前記入力画像は、前記正解画像の少なくとも一画素における少なくとも一つの色成分の画素値に対して特定の値を加算又は減算した画像であること
    を特徴とする請求項6から9の何れか一項に記載の学習装置。
  11. 前記評価関数は、前記第一の評価値と、前記第二の評価値とを荷重加算する関数であること
    を特徴とする請求項1から10の何れか一項に記載の学習装置。
  12. 対象画像を示す推論用入力データを取得する推論側データ取得部と、
    入力される画像から、前記入力される画像とは別の画像を推論するための学習モデルを用いて、前記対象画像から出力画像を推論する推論部と、を備え、
    前記学習モデルは、入力画像から推論された推論画像と、前記入力画像に対応する正解画像との間の類似度を評価するための第一の評価値と、前記推論画像を構成する複数の色成分の内、少なくとも二つの色成分の関係する程度を評価するための第二の評価値と、を含む評価関数を用いて、前記推論画像が前記正解画像に近づくように学習されたモデルであり、
    前記第二の評価値は、前記少なくとも二つの色成分の関係する程度が強いほど小さい値となること
    を特徴とする推論装置。
  13. コンピュータを、
    入力画像を示す学習用入力データ及び前記入力画像に対応する正解画像を示す正解データを含む学習用データセットを取得する学習側データ取得部、及び、
    前記学習用データセットを用いて学習を行うことで、対象画像から出力画像を推論するための学習モデルを生成するモデル生成部、として機能させるプログラムであって、
    前記モデル生成部は、前記入力画像から推論された推論画像と、前記正解画像との間の類似度を評価するための第一の評価値と、前記推論画像を構成する複数の色成分の内、少なくとも二つの色成分の関係する程度を評価するための第二の評価値と、を含む評価関数を用いて、前記推論画像が前記正解画像に近づくように前記学習を行い、
    前記第二の評価値は、前記少なくとも二つの色成分の関係する程度が強いほど小さい値となること
    を特徴とするプログラム。
  14. コンピュータを、
    対象画像を示す推論用入力データを取得する推論側データ取得部、及び、
    入力される画像から、前記入力される画像とは別の画像を推論するための学習モデルを用いて、前記対象画像から出力画像を推論する推論部、として機能させるプログラムであって、
    前記学習モデルは、入力画像から推論された推論画像と、前記入力画像に対応する正解画像との間の類似度を評価するための第一の評価値と、前記推論画像を構成する複数の色成分の内、少なくとも二つの色成分の関係する程度を評価するための第二の評価値と、を含む評価関数を用いて、前記推論画像が前記正解画像に近づくように学習されたモデルであり、
    前記第二の評価値は、前記少なくとも二つの色成分の関係する程度が強いほど小さい値となること
    を特徴とするプログラム。
  15. 入力画像を示す学習用入力データ及び前記入力画像に対応する正解画像を示す正解データを含む学習用データセットを取得し、
    前記学習用データセットを用いて学習を行うことで、対象画像から出力画像を推論するための学習モデルを生成する学習方法であって、
    前記学習モデルを生成する過程では、前記入力画像から推論された推論画像と、前記正解画像との間の類似度を評価するための第一の評価値と、前記推論画像を構成する複数の色成分の内、少なくとも二つの色成分の関係する程度を評価するための第二の評価値と、を含む評価関数を用いて、前記推論画像が前記正解画像に近づくように前記学習が行われ
    前記第二の評価値は、前記少なくとも二つの色成分の関係する程度が強いほど小さい値となること
    を特徴とする学習方法。
  16. 対象画像を示す推論用入力データを取得し、
    入力される画像から、前記入力される画像とは別の画像を推論するための学習モデルを用いて、前記対象画像から出力画像を推論する推論方法であって、
    前記学習モデルは、入力画像から推論された推論画像と、前記入力画像に対応する正解画像との間の類似度を評価するための第一の評価値と、前記推論画像を構成する複数の色成分の内、少なくとも二つの色成分の関係する程度を評価するための第二の評価値と、を含む評価関数を用いて、前記推論画像が前記正解画像に近づくように学習されたモデルであり、
    前記第二の評価値は、前記少なくとも二つの色成分の関係する程度が強いほど小さい値となること
    を特徴とする推論方法。
JP2022531298A 2020-06-24 2020-06-24 学習装置、推論装置、プログラム、学習方法及び推論方法 Active JP7325636B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/024725 WO2021260822A1 (ja) 2020-06-24 2020-06-24 学習装置、推論装置、プログラム、学習方法及び推論方法

Publications (2)

Publication Number Publication Date
JPWO2021260822A1 JPWO2021260822A1 (ja) 2021-12-30
JP7325636B2 true JP7325636B2 (ja) 2023-08-14

Family

ID=79282591

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022531298A Active JP7325636B2 (ja) 2020-06-24 2020-06-24 学習装置、推論装置、プログラム、学習方法及び推論方法

Country Status (2)

Country Link
JP (1) JP7325636B2 (ja)
WO (1) WO2021260822A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114863241A (zh) * 2022-04-22 2022-08-05 厦门大学 一种基于空间布局与深度学习的影视动画评估方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018206382A (ja) 2017-06-01 2018-12-27 株式会社東芝 画像処理システム及び医用情報処理システム
WO2020081770A1 (en) 2018-10-18 2020-04-23 Sony Corporation Enhanced color reproduction for upscaling

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018206382A (ja) 2017-06-01 2018-12-27 株式会社東芝 画像処理システム及び医用情報処理システム
WO2020081770A1 (en) 2018-10-18 2020-04-23 Sony Corporation Enhanced color reproduction for upscaling

Also Published As

Publication number Publication date
WO2021260822A1 (ja) 2021-12-30
JPWO2021260822A1 (ja) 2021-12-30

Similar Documents

Publication Publication Date Title
CN107358626B (zh) 一种利用条件生成对抗网络计算视差的方法
CN111667399A (zh) 风格迁移模型的训练方法、视频风格迁移的方法以及装置
CN110084193B (zh) 用于面部图像生成的数据处理方法、设备和介质
JP7325636B2 (ja) 学習装置、推論装置、プログラム、学習方法及び推論方法
JP2020042367A (ja) 学習システム、サーバ、及び特徴量画像描画補間プログラム
CN115834996A (zh) 用于图像处理的方法和装置
US20230325982A1 (en) Methods, systems and computer programs for processing image data for generating a filter
Raj et al. Review on generative adversarial networks
Zhang et al. MetaUE: Model-based meta-learning for underwater image enhancement
Shamshad et al. Adaptive ptych: Leveraging image adaptive generative priors for subsampled fourier ptychography
JP2022189901A (ja) 学習方法、学習装置、プログラムおよび記録媒体
CN100474341C (zh) 自适应闭群漫画生成
US20220366539A1 (en) Image processing method and apparatus based on machine learning
KR101785857B1 (ko) 단일 영상 기반의 외각 시점 합성 방법 및 영상 처리 장치
JP7362924B2 (ja) データ増強基盤空間分析モデル学習装置及び方法
Rajpal et al. Fast digital watermarking of uncompressed colored images using bidirectional extreme learning machine
JP7406967B2 (ja) 画像変換用ネットワーク学習装置およびそのプログラム
CN114862699A (zh) 基于生成对抗网络的人脸修复方法、装置及存储介质
CN113160041A (zh) 一种模型训练方法及模型训练装置
CN113077383A (zh) 一种模型训练方法及模型训练装置
JP2021120840A (ja) 学習方法、装置及びプログラム
JP2002259974A (ja) 画像領域抽出装置、プログラム及び記録媒体
JP7453900B2 (ja) 学習方法、画像変換装置及びプログラム
WO2021240589A1 (ja) 学習装置、推論装置、プログラム、学習方法及び推論方法
Ogorzałek et al. Computational intelligence and image processing methods for applications in skin cancer diagnosis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220608

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230523

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230626

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230704

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230801

R150 Certificate of patent or registration of utility model

Ref document number: 7325636

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150