JP7205327B2 - 学習装置 - Google Patents

学習装置 Download PDF

Info

Publication number
JP7205327B2
JP7205327B2 JP2019051213A JP2019051213A JP7205327B2 JP 7205327 B2 JP7205327 B2 JP 7205327B2 JP 2019051213 A JP2019051213 A JP 2019051213A JP 2019051213 A JP2019051213 A JP 2019051213A JP 7205327 B2 JP7205327 B2 JP 7205327B2
Authority
JP
Japan
Prior art keywords
latent variable
error
learning
encoder
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019051213A
Other languages
English (en)
Other versions
JP2020154561A (ja
Inventor
玄 佐藤
京雨 胡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IHI Corp
Original Assignee
IHI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IHI Corp filed Critical IHI Corp
Priority to JP2019051213A priority Critical patent/JP7205327B2/ja
Publication of JP2020154561A publication Critical patent/JP2020154561A/ja
Application granted granted Critical
Publication of JP7205327B2 publication Critical patent/JP7205327B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、学習装置に関する。
深層学習における生成モデルとして、変分オートエンコーダ(VAE:Variational Auto Encoder)が提案されている(例えば、特許文献1)。
ところで、変分オートエンコーダは、多次元正規分布で表現される潜在変数zの平均と分散を出力する。この潜在変数zの平均及び分散の学習では、損失関数に正則化誤差(例えば、KLダイバージェンス)を用いている。
特開2018-152004号公報
ここで、正則化誤差は、潜在変数zの空間が原点周りになるようにペナルティをかけるものである。したがって、潜在変数zの平均及び分散の学習は、あくまでも正則化であって、潜在変数zを直接真の値に近づける学習ではない。そのため、潜在変数zの平均及び分散の学習の精度を向上させる上で改善の余地がある。
本発明は、このような事情に鑑みてなされたもので、その目的は、変分オートエンコーダにおいて潜在変数の平均及び分散の学習の精度を向上させる学習装置を提供することである。
(1)本発明の一態様は、入力データを次元圧縮して第1の潜在変数を生成する第1のエンコーダと、前記第1の潜在変数を復元して出力データを生成するデコーダと、を備える変分オートエンコーダと、前記出力データを次元圧縮して第2の潜在変数を生成する第2のエンコーダと、前記第1の潜在変数と前記第2の潜在変数との誤差である潜在変数誤差を含む損失関数が最小化するように前記変分オートエンコーダのパラメータを学習する学習部と、を備えることを特徴とする、学習装置である。
(2)上記(1)の学習装置であって、前記損失関数は、前記入力データと前記出力データとの復元誤差と、前記潜在変数誤差と、からなる関数であってもよい。
(3)上記(1)又は上記(2)の学習装置であって、前記第1のエンコーダと前記第2のエンコーダとは同一のニューラルネットワークであってもよい。
(4)上記(1)から上記(3)のいずれかの学習装置であって、前記潜在変数誤差は、前記第1の潜在変数と前記第2の潜在変数との平均二乗誤差であってもよい。
以上説明したように、本発明によれば、変分オートエンコーダにおいて潜在変数の平均及び分散の学習の精度を向上させることができる。
本実施形態に係る学習装置Aの機能部の一例を示す図である。 本実施形態に係る変分エンコーダ2の構成図である。 本実施形態に係る学習装置Aの学習方法の流れを説明する図である。 従来の損失関数で学習した場合の入出力画像と、本実施形態に係る損失関数L(潜在変数誤差Rが平均二乗誤差(MSE)の場合)で学習した場合の入出力画像を比較した図である。
以下、本実施形態に係る学習装置を、図面を用いて説明する。
図1は、本実施形態に係る学習装置Aの機能部の一例を示す図である。学習装置Aは、変分オートエンコーダ(VAE:Variational Auto Encoder)2を用いて、学習データである入力データの特徴を学習する。ここで、入力データとは、例えば画像データである。
なお、本実施形態に係る学習装置Aは、情報処理装置であって、CPU又はMPUなどのマイクロプロセッサ、MCUなどのマイクロコントローラなどにより構成されてよい。
以下に、本実施形態に係る学習装置Aの各機能部について説明する。
図1に示すように、学習装置Aは、入力データ取得部1、変分オートエンコーダ2、エンコーダ3及び学習部4を備える。
入力データ取得部1は、学習データとして入力画像Gを取得する。例えば、入力画像Gは、外部に設けられた撮像装置(不図示)が撮像対象物を撮像した撮像画像(例えば、超音波検査の検査画像)である。なお、例えば、入力データ取得部1は、上記撮像画像を入力画像Gとして当該撮像装置から直接取得してもよい。また、入力データ取得部1は、学習装置Aの外部又は内部に設けられた格納部(不図示)に格納されている上記撮像画像を入力画像Gとして読み込むことで取得してもよい。なお、入力画像Gは、本発明の「入力データ」の一例である。
ここで、例えば、学習装置Aが撮像対象物の異常を上記撮像画像から検知することを目的として学習する場合には、学習データとして用いられる入力画像Gは、すべて正常時の撮像対象物の撮像画像である。
変分オートエンコーダ2は、ニューラルネットワークによる教師なしの学習モデルであって、隠れ層のニューロン数を入力層の次元数よりも少なくすることによって、より少ない次元数で入力画像Gを再現するように次元削減を行うことができる。変分オートエンコーダ2は、図2に示すように、エンコーダ2aで潜在変数zの平均ベクトルμと分散ベクトルσを求めることで、オートエンコーダに比べて低次元で抽象的な特徴を学習することができる。
図2は、本実施形態に係る変分オートエンコーダ2の構成図である。
図2に示すように、変分オートエンコーダ2は、エンコーダ2a(第1のエンコーダ)及びデコーダ2bを備える。
エンコーダ2aは、入力画像Gを次元圧縮して、多次元正規分布で表現される第1の潜在変数z1の平均μ1と分散σ1とを求める。そして、エンコーダ2aは、この平均μ1と分散σ1とに基づいて多次元正規分布から潜在変数z1(以下、「第1の潜在変数z1」という。)をサンプリングすることで求める。エンコーダ2aは、サンプリングにより求めた第1の潜在変数z1をデコーダ2b及び学習部4に出力する。このエンコーダ2aは、ニューラルネットワークである。
デコーダ2bは、第1の潜在変数z1を入力として、第1の潜在変数z1を復元して出力画像G´を生成する。このデコーダ2bは、ニューラルネットワークである。
デコーダ2bは、第1の潜在変数z1から復元した出力画像G´をエンコーダ3及び学習部4のそれぞれに出力する。なお、出力画像G´は、本発明の「出力データ」の一例である。
次に、本実施形態に係るエンコーダ3(第2のエンコーダ)について説明する。
エンコーダ3は、変分オートエンコーダ2の後段に設けられている。具体的には、エンコーダ3は、入力がデコーダ2bの出力に接続されており、出力が学習部4に接続されている。
エンコーダ3は、出力画像G´を次元圧縮して、多次元正規分布で表現される潜在変数z2の平均μ2と分散σ2とを求める。そして、エンコーダ3は、この平均μ2と分散σ2とに基づいて多次元正規分布から潜在変数z2(以下、「第2の潜在変数z2」という。)をサンプリングすることで求める。エンコーダ3は、サンプリングにより求めた第2の潜在変数z2を学習部4に出力する。エンコーダ3は、ニューラルネットワークであって、例えばエンコーダ2aと同一の構成を備えてもよい。すなわち、エンコーダ3とエンコーダ2aとは、同一のニューラルネットワークであってもよい。
学習部4は、出力画像G´が入力画像Gになるように変分オートエンコーダ2のパラメータを学習する。例えば、当該パラメータは、エンコーダ2aの重みやデコーダの重みである。
学習部4は、第1の潜在変数z1及び第2の潜在変数z2を取得する。例えば、学習部4は、エンコーダ2aの出力から第1の潜在変数z1を取得する。また、学習部4は、エンコーダ3の出力から第2の潜在変数z2を取得する。
そして、学習部4は、第1の潜在変数z1と第2の潜在変数z2との誤差である潜在変数誤差Rを求め、その潜在変数誤差Rを含む損失関数Lが最小化するように変分オートエンコーダ2のパラメータを学習する。ここで、本実施形態に係る潜在変数誤差Rは、第1の潜在変数z1と第2の潜在変数z2との差の絶対値(=||z1-z2||)であるが、これに限定されず、第1の潜在変数z1と第2の潜在変数z2とのRMSE(Root Mean Square Error)でもよいし、MSE(Mean Squared Error)でもよいし、MAE(Mean Absolute Error)でもよい。
具体的には、学習部4は、入力画像G及び出力画像G´を取得する。例えば、学習部4は、入力データ取得部1から入力画像Gを取得する。また、学習部4は、変分オートエンコーダ2の出力から出力画像G´を取得する。
学習部4は、入力画像Gと出力画像G´との誤差である復元誤差(Reconstruction Error)Eを求める。復元誤差Eは、交差エントロピーを用いた誤差関数でもよいし、交差エントロピー以外の誤差関数(例えば、RMSE(Root Mean Square Error)やMSE(Mean Squared Error)、MAE(Mean Absolute Error)等を用いて誤差関数)でもよい。
そして、学習部4は、潜在変数誤差Rと復元誤差Eとからなる関数、すなわち潜在変数誤差Rと復元誤差Eとを加算した関数を損失関数L(L=R+E)とする。例えば、入力画像GがXとした場合には、損失関数Lは以下の式(1)で与えられる。
Figure 0007205327000001
そして、学習部4は、損失関数Lを最小化するように変分オートエンコーダ2のパラメータを学習する。なお、この学習には、例えば、誤差逆伝播法(back propagation)が用いられる。
なお、従来の変分オートエンコーダでの学習に用いられる損失関数は、復元誤差EとKLダイバージェンスによる正則化誤差とからなる関数である。一方、本実施形態の損失関数Lは、正則化誤差を用いず、復元誤差Eと潜在変数誤差Rとからなる関数である。したがって、学習部4は、潜在変数z1を直接真の値に近づける学習を行うことができ、潜在変数z1の平均μ1及び分散σ1をより高い精度で学習することができる。
次に、本実施形態に係る学習装置Aの学習方法の流れを、図3を用いて説明する。図3は、本実施形態に係る学習装置Aの学習方法の流れを説明する図である。
本実施形態に係る学習装置Aの学習方法は、変分オートエンコーダ2に入力される入力画像Gと変分オートエンコーダ2から出力される出力画像G´との復元誤差Eと、エンコーダ2aの出力される第1の潜在変数z1とエンコーダ3から出力される第2の潜在変数z2との潜在変数誤差Rと、からなる損失関数Lを求め、その損失関数Lを最小化するように、変分オートエンコーダ2のパラメータを調整することで学習するステップを含む。
具体的には、この学習するステップは、第1の取得ステップ、第2の取得ステップ、第1の算出ステップ、第2の算出ステップ及び調整ステップを備える。
学習部4は、第1の取得ステップとして、入力データ取得部1から入力画像Gを取得し、デコーダ2bの出力から出力画像G´を取得する(ステップS101)。
学習装置Aは、第2の取得ステップとして、エンコーダ2aの出力から第1の潜在変数z1を取得し、エンコーダ3の出力から第2の潜在変数z2を取得する(ステップS102)。
学習部4は、第1の算出ステップとして入力画像Gと出力画像G´との誤差である復元誤差Eを求める(ステップS103)。また、学習部4は、第2の算出ステップとして、第1の潜在変数z1と第2の潜在変数z2との誤差である潜在変数誤差Rを求める(ステップS104)。そして、学習装置Aは、調整ステップとして、復元誤差Eと潜在変数誤差Rとを加算した損失関数Lを求め、損失関数Lが最小化するように変分オートエンコーダ2のパラメータを調整することで学習を行う(ステップS105)。
次に、本実施形態に係る効果について、図4を用いて説明する。図4は、従来の損失関数で学習した場合の入出力画像と、本実施形態に係る損失関数L(潜在変数誤差Rが平均二乗誤差(MSE)の場合)で学習した場合の入出力画像を比較した図である。
従来の損失関数は、復元誤差と正則化誤差とからなる関数である。一方、本実施形態に係る損失関数Lは、正則化誤差を用いることなく、復元誤差と潜在変数誤差Rとからなる関数である。したがって、図4に示すように、本実施形態の学習装置Aは、潜在変数z1の平均μ1及び分散σ1をより高い精度で学習することができる。その結果、学習装置Aは、変分オートエンコーダ2の復元性能を向上させることできる。
次に、実施例として、上記の学習方法で学習した変分オートエンコーダ2を用いて撮像対象物の異常検知を行った場合について説明する。
本実施例では、撮像対象物とは、ハニカム構造体であって、例えば、シート状に形成されたハニカム構造の金属(以下、「ハニカムシート」という。)である。そして、本実施例の異常検知は、所定の部材(例えば、FRP等の樹脂部材)とハニカム構造体とを接着させた場合の接着状態(以下、単に「接着状態」という。)の異常を検知するものである。具体的には、本実施例の異常検知は、ハニカムシートと樹脂部材との接着面を超音波で検査した検査画像から、本実施形態の変分オートエンコーダ2を用いて接着状態の異常を検知するものである。
ここで、超音波で検査した検査画像では、ハニカムシートと所定の部材との接着ができていない(接着状態が異常である)箇所が白く映る。すなわち、超音波で検査した検査画像では、ハニカムシートと所定の部材との接着ができていない箇所でハニカムの周期性が消失する。したがって、異常検知では、このハニカムの周期性が消失した領域を抽出することで接着状態の異常を検知可能である。
ここで、異常検知の検知方法について、説明する。
本実施形態の学習方法で学習した学習済みの変分オートエンコーダ2は、入力画像Gと出力画像G´とが同じになるように正常の入力画像の特徴を学習している。したがって、学習済みの変分オートエンコーダ2は、どんな画像が入力されても正常な入力画像に近づけた出力画像を生成することができる。
したがって、異常検知において、正常の検査画像(ハニカムの周期性が消失した領域がない検査画像)を入力画像として学習済みの変分オートエンコーダ2に入力された場合には、当該変分オートエンコーダ2から出力される出力画像は、入力画像と差がない。一方、異常検知において、異常の検査画像(ハニカムの周期性が消失した領域がある検査画像)を入力画像として学習済みの変分オートエンコーダ2に入力された場合には、当該変分オートエンコーダ2から出力される出力画像は、正常の検査画像の特徴に近づけた画像になる。そのため、出力画像では、入力画像と比較して、ハニカムの周期性が消失した領域がハニカムの形状に置き換わっている。したがって、出力画像と入力画像との間に差(すなわちハニカムの周期性が消失した領域の有無)が生じることになり、学習済みの変分オートエンコーダ2を有する異常検知装置(例えば、コンピュータ)は、この差を検知することで異常を検知することができる。
なお、本実施形態では、ハニカム構造体に対する樹脂等の部材の接着状態の異常検知を説明したが、本発明はこれに限定されず、ハニカム構造体でなくても、周期的な形状を有するものであればよい。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
以上、説明したように、本実施形態に係る学習装置Aは、入力画像Gを次元圧縮して第1の潜在変数z1を生成するエンコーダ2aと、第1の潜在変数z1を復元して出力画像G´を生成するデコーダ2bと、を備える変分オートエンコーダ2を備える。また、学習装置Aは、出力画像G´を次元圧縮して第2の潜在変数z2を生成するエンコーダ3と、第1の潜在変数z1と第2の潜在変数z2との誤差である潜在変数誤差Rを含む損失関数Lが最小化するように変分オートエンコーダ2のパラメータを学習する学習部4と、をさらに備える。
このような構成によれば、学習装置Aは、変分オートエンコーダ2において潜在変数の平均及び分散の学習の精度を向上させることができる。
なお、上述した学習装置Aの全部または一部をコンピュータで実現するようにしてもよい。この場合、上記コンピュータは、CPU、GPUなどのプロセッサ及びコンピュータ読み取り可能な記録媒体を備えてもよい。そして、上記学習装置Aの全部または一部の機能をコンピュータで実現するためのプログラムを上記コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムを上記プロセッサに読み込ませ、実行することによって実現してもよい。ここで、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
A 学習装置
1 入力データ取得部
2 変分オートエンコーダ
2a エンコーダ(第1のエンコーダ)
2b デコーダ
3 エンコーダ(第2のエンコーダ)
4 学習部

Claims (4)

  1. 入力データを次元圧縮して第1の潜在変数を生成する第1のエンコーダと、前記第1の潜在変数を復元して出力データを生成するデコーダと、を備える変分オートエンコーダと、
    前記出力データを次元圧縮して第2の潜在変数を生成する第2のエンコーダと、
    前記第1の潜在変数と前記第2の潜在変数との誤差である潜在変数誤差を含む損失関数が最小化するように前記変分オートエンコーダのパラメータを学習する学習部と、
    を備えることを特徴とする、学習装置。
  2. 前記損失関数は、前記入力データと前記出力データとの復元誤差と、前記潜在変数誤差と、からなる関数であることを特徴とする、請求項1に記載の学習装置。
  3. 前記第1のエンコーダと前記第2のエンコーダとは同一のニューラルネットワークであることを特徴とする、請求項1又は2に記載の学習装置。
  4. 前記潜在変数誤差は、前記第1の潜在変数と前記第2の潜在変数との平均二乗誤差であることを特徴とする、請求項1から請求項3のいずれか一項に記載の学習装置。
JP2019051213A 2019-03-19 2019-03-19 学習装置 Active JP7205327B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019051213A JP7205327B2 (ja) 2019-03-19 2019-03-19 学習装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019051213A JP7205327B2 (ja) 2019-03-19 2019-03-19 学習装置

Publications (2)

Publication Number Publication Date
JP2020154561A JP2020154561A (ja) 2020-09-24
JP7205327B2 true JP7205327B2 (ja) 2023-01-17

Family

ID=72559079

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019051213A Active JP7205327B2 (ja) 2019-03-19 2019-03-19 学習装置

Country Status (1)

Country Link
JP (1) JP7205327B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2021430612B9 (en) 2021-03-05 2024-03-14 Mitsubishi Electric Corporation Signal identification device
CN113315524A (zh) * 2021-05-26 2021-08-27 武汉理工大学 一种基于深度学习的界标数据压缩传输方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
森川将平 他1名,標準的な顔画像データセットを用いた顔方位変換のための深層生成モデル,情報処理学会 研究報告 コンピュータビジョンとイメージメディア(CVIM) 2018-CVIM-214 No.11,情報処理学会,2018年10月31日,pp.1-6

Also Published As

Publication number Publication date
JP2020154561A (ja) 2020-09-24

Similar Documents

Publication Publication Date Title
US10846888B2 (en) Systems and methods for generating and transmitting image sequences based on sampled color information
EP3734549A1 (en) System and method for fault detection and correction
US20210082124A1 (en) Foreground-aware image inpainting
US10133915B2 (en) Facial recognition using social networking information
US10529066B2 (en) Assessing quality of images or videos using a two-stage quality assessment
WO2019128660A1 (zh) 训练神经网络的方法和设备、图像处理方法和设备以及存储介质
WO2020087607A1 (zh) 一种基于Bi-Skip-Net的图像去模糊方法
CN111242222B (zh) 分类模型的训练方法、图像处理方法及装置
JP7205327B2 (ja) 学習装置
WO2020056718A1 (zh) 在设备中的神经网络模型的量化方法和装置
US20210118145A1 (en) Diagnostic imaging support system and diagnostic imaging apparatus
Xing et al. Deep CNN for removal of salt and pepper noise
WO2021077140A2 (en) Systems and methods for prior knowledge transfer for image inpainting
JP6773061B2 (ja) 評価システム、評価装置、評価方法、評価プログラム、及び記録媒体
US20220198609A1 (en) Modifying sensor data using generative adversarial models
JP2020071808A (ja) 学習装置及び学習方法
CN113807160B (zh) 图像采集设备劫持的检测方法、装置及计算机设备
EP3869401A1 (en) Out-of-distribution detection of input instances to a model
JP2021136666A (ja) 撮像装置、デバイス、制御方法、およびプログラム
KR20200042874A (ko) 개인화된 hrtf 생성 방법
CN110717441B (zh) 视频目标检测方法、装置、设备及介质
US11941862B2 (en) Apparatus, method, and storage medium
CN117726542B (zh) 基于扩散模型的可控噪声去除方法及系统
US10387803B2 (en) Sensor system for transcoding data
WO2022178834A1 (zh) 一种图像处理的方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211111

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221212

R151 Written notification of patent or utility model registration

Ref document number: 7205327

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151