JP7416255B2

JP7416255B2 - 学習装置、学習方法および学習プログラム

Info

Publication number: JP7416255B2
Application number: JP2022536099A
Authority: JP
Inventors: 真徳山田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2024-01-17
Anticipated expiration: 2040-07-17
Also published as: US20230259819A1; WO2022014047A1; JPWO2022014047A1

Description

本発明は、学習装置、学習方法および学習プログラムに関する。

近年、機械学習は、大きな成功を収めている。特に深層学習の登場により、画像や自然言語の分野では、機械学習が主流の方法となっている。

一方、深層学習は、悪意のあるノイズが乗せられたＡｄｖｅｒｓａｒｉａｌＥｘａｍｐｌｅによる攻撃に対して脆弱であることが知られている。このようなＡｄｖｅｒｓａｒｉａｌＥｘａｍｐｌｅに対する有力な対策として、代理損失を利用するＴＲＡＤＥＳ（TRadeoff-inspired Adversarial DEfense via Surrogate-loss minimization）とい呼ばれる手法が提案されている（非特許文献１、２参照）。

A.Madry et al., "Towards Deep Learning Models Resistant to Adversarial Attacks", [online], arXiv:1706.06083v4 [stat.ML], 2019年9月, [２０２０年６月２５日検索]、インターネット＜URL: https://arxiv.org/pdf/1706.06083.pdf＞ H.Zhang et al., "Theoretically Principled Trade-off between Robustness and Accuracy", [online], arXiv:1901.08573v3 [cs.LG] ,2019年6月, [２０２０年６月２５日検索]、インターネット＜URL: https://arxiv.org/pdf/1901.08573.pdf＞

しかしながら、従来のＴＲＡＤＥＳでは、ＡｄｖｅｒｓａｒｉａｌＥｘａｍｐｌｅに対する汎化性能を向上させることが困難な場合がある。つまり、代理損失で近似して最適なモデルを探索する際に、従来、微分を実行できない点を回避するように、初期値に乱数を用いているため、汎化性能を向上させることが困難な場合がある。

本発明は、上記に鑑みてなされたものであって、ＡｄｖｅｒｓａｒｉａｌＥｘａｍｐｌｅに対して頑健なモデルを学習することを目的とする。

上述した課題を解決し、目的を達成するために、本発明に係る学習装置は、ラベルを予測するデータを取得する取得部と、取得された前記データのラベルの確率分布を表すモデルにおいて、前記データに対するフィッシャー情報行列の最大固有値に対応する固有ベクトルを用いて、該モデルを学習する学習部と、を有することを特徴とする。

本発明によれば、ＡｄｖｅｒｓａｒｉａｌＥｘａｍｐｌｅに対して頑健なモデルを学習することが可能となる。

図１は、学習装置の概略構成を例示する模式図である。図２は、学習処理手順を示すフローチャートである。図３は、検知処理手順を示すフローチャートである。図４は、実施例を説明するための図である。図５は、実施例を説明するための図である。図６は、学習プログラムを実行するコンピュータを例示する図である。

以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

［学習装置の構成］
図１は、学習装置の概略構成を例示する模式図である。図１に例示するように、学習装置１０は、パソコン等の汎用コンピュータで実現され、入力部１１、出力部１２、通信制御部１３、記憶部１４、および制御部１５を備える。

入力部１１は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部１５に対して処理開始などの各種指示情報を入力する。出力部１２は、液晶ディスプレイなどの表示装置、プリンター等の印刷装置等によって実現される。

通信制御部１３は、ＮＩＣ（Network Interface Card）等で実現され、ネットワークを介したサーバ等の外部の装置と制御部１５との通信を制御する。例えば、通信制御部１３は、学習対象のデータを管理する管理装置等と制御部１５との通信を制御する。

記憶部１４は、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現され、後述する学習処理により学習されたモデルのパラメータ等が記憶される。なお、記憶部１４は、通信制御部１３を介して制御部１５と通信する構成でもよい。

制御部１５は、ＣＰＵ（Central Processing Unit）等を用いて実現され、メモリに記憶された処理プログラムを実行する。これにより、制御部１５は、図１に例示するように、取得部１５ａ、学習部１５ｂおよび検知部１５ｃとして機能する。なお、これらの機能部は、それぞれあるいは一部が異なるハードウェアに実装されてもよい。例えば、学習部１５ｂと検知部１５ｃとは、別々の装置として実装されてもよい。あるいは、取得部１５ａは、学習部１５ｂおよび検知部１５ｃとは別の装置に実装されてもよい。また、制御部１５は、その他の機能部を備えてもよい。

取得部１５ａは、ラベルを予測するデータを取得する。例えば、取得部１５ａは、後述する学習処理および検知処理に用いるデータを、入力部１１あるいは通信制御部１３を介して取得する。また、取得部１５ａは、取得したデータを記憶部１４に記憶させてもよい。なお、取得部１５ａは、これらの情報を記憶部１４に記憶させずに、学習部１５ｂまたは検知部１５ｃに転送してもよい。

学習部１５ｂは、取得されたデータのラベルの確率分布を表すモデルにおいて、データに対するフィッシャー情報行列の最大固有値に対応する固有ベクトルを用いて、該モデルを学習する。具体的には、学習部１５ｂは、損失関数においてデータに対して乗せるノイズの初期値として、データに対するフィッシャー情報行列の最大固有値に対応する固有ベクトルを用いて、損失関数を最小化するモデルを探索することにより、モデルを学習する。

ここで、データｘのラベルｙの確率分布を表すモデルは、パラメータθを用いて次式（１）で表される。ｆは、モデルが出力するラベルを表すベクトルである。

学習部１５ｂは、次式（２）で表される損失関数が小さくなるように、モデルのパラメータθを決定することにより、モデルの学習を行う。ここで、ｐ（ｙ｜ｘ）は、真の確率を表す。

また、学習部１５ｂは、データｘにノイズηが乗せられた、次式（３）に示すＡｄｖｅｒｓａｒｉａｌＥｘａｍｐｌｅに対して正しくラベルを予測できるように、モデルの学習を行う。

学習部１５ｂは、次式（４）に示す損失関数を最小化するθを探索して決定することにより、ＡｄｖｅｒｓａｒｉａｌＥｘｚｍｐｌｅに頑強なモデルを学習する。ここで、βは定数である。

上記式（４）の損失関数を最小化するためには、次式（５）に示すように、上記式（４）の第２項を微分して探索を行う。

ここで、式（４）の第２項においてノイズηを変えながらその最大値を探索する際に、ηの初期値η_０を０とすると、ｘ’＝ｘとなるため、式（４）の第２項の微分を実行することができない。

そこで、従来のＴＲＡＤＥＳでは、ノイズηの初期値η_０を乱数η_ｒａｎｄとしている。そうすると、ＡｄｖｅｒｓａｒｉａｌＥｘａｍｐｌｅに対する汎化性能を十分に向上させることが困難な場合がある。

ここで、上記式（４）の損失関数は、フィッシャー情報行列Ｇとその固有値λとを用いて、次式（６）のように変形することができる。

そこで、本実施形態の学習部１５ｂは、データｘに対するフィッシャー情報行列Ｇの最大固有値に対応する固有ベクトルを用いて、該モデルを学習する。具体的には、学習部１５ｂは、上記式（５）において、次式（７）に示すように、データｘに対して乗せるノイズηの初期値η_０として、データｘに対するフィッシャー情報行列Ｇの最大固有値に対応する固有ベクトルη_ｅｉｇを用いる。そして、上記式（４）に示した損失関数を最小化するθを探索することにより、モデルを学習する。

これにより、学習部１５ｂは、損失関数を最小化するパラメータθの探索を精度高く行うことが可能となる。したがって、学習部１５ｂは、ＡｄｖｅｒｓａｒｉａｌＥｘａｍｐｌｅに対して頑健なモデルの学習が可能となる。

検知部１５ｃは、学習されたモデルを用いて、取得されたデータのラベルを予測する。この場合に、検知部１５ｃは、学習されたパラメータθを上記式（１）に適用することより、新たに取得されたデータの各ラベルの確率を算出し、最も確率が高いラベルを出力する。これにより、例えば、データがＡｄｖｅｒｓａｒｉａｌＥｘａｍｐｌｅであった場合にも、正しいラベルを出力することができる。このように、検知部１５ｃは、ｂｌｉｎｄｓｐｏｔａｔｔａｃｋに耐えて、ＡｄｖｅｒｓａｒｉａｌＥｘａｍｐｌｅに正しいラベルを予測することが可能となる。

［学習処理］
次に、図２を参照して、本実施形態に係る学習装置１０による学習処理について説明する。図２は、学習処理手順を示すフローチャートである。図２のフローチャートは、例えば、学習処理の開始を指示する操作入力があったタイミングで開始される。

まず、取得部１５ａが、ラベルを予測するデータを取得する（ステップＳ１）。

次に、学習部１５ｂが、取得されたデータのラベルの確率分布を表すモデルを学習する（ステップＳ１）。その際に、学習部１５ｂは、モデルにおいて、データに対するフィッシャー情報行列の最大固有値に対応する固有ベクトルを用いて、該モデルを学習する。具体的には、学習部１５ｂは、損失関数においてデータに対して乗せるノイズの初期値として、データに対するフィッシャー情報行列の最大固有値に対応する固有ベクトルを用いて、損失関数を最小化するモデルを探索することにより、モデルを学習する。これにより、一連の学習処理が終了する。

［検知処理］
次に、図３を参照して、本実施形態に係る学習装置１０による検知処理について説明する。図３は、検知処理手順を示すフローチャートである。図３のフローチャートは、例えば、検知処理の開始を指示する操作入力があったタイミングで開始される。

まず、取得部１５ａが、上記した図２のステップＳ１の処理と同様に、ラベルを予測する新たなデータを取得する（ステップＳ１１）。

次に、検知部１５ｃが、学習されたモデルを用いて、取得されたデータのラベルを予測する（ステップＳ１２）。この場合に、検知部１５ｃは、学習されたパラメータθを上記式（１）に適用することより、新たに取得されたデータｘ’のｐ（ｘ’）を算出し、最も確率が高いラベルを出力する。例えば、データｘ’がＡｄｖｅｒｓａｒｉａｌＥｘａｍｐｌｅであった場合にも、正しいラベルを出力することができる。これにより、一連の検知処理が終了する。

以上、説明したように、取得部１５ａが、ラベルを予測するデータを取得する。学習部１５ｂが、取得されたデータのラベルの確率分布を表すモデルにおいて、データに対するフィッシャー情報行列の最大固有値に対応する固有ベクトルを用いて、該モデルを学習する。具体的には、学習部１５ｂは、損失関数においてデータに対して乗せるノイズの初期値として、データに対するフィッシャー情報行列の最大固有値に対応する固有ベクトルを用いて、損失関数を最小化するモデルを探索する。

これにより、学習装置１０は、ＡｄｖｅｒｓａｒｉａｌＥｘａｍｐｌｅに対して頑健なモデルの学習が可能となる。

また、検知部１５ｃが、学習されたモデルを用いて、取得されたデータのラベルを予測する。これにより、検知部１５ｃは、ｂｌｉｎｄｓｐｏｔａｔｔａｃｋに耐えて、ＡｄｖｅｒｓａｒｉａｌＥｘａｍｐｌｅに対しても正しいラベルを予測することが可能となる。

［実施例］
図４および図５は、本発明の実施例について説明するための図である。本実施例では、画像のデータセット：Ｃｉｆａｒ１０、深層学習モデル：Ｒｅｓｎｅｔ１８を用いて、上記実施形態のモデルの正確性の評価を行った。具体的には、テストデータと、ＰＧＤと呼ばれる手法でテストデータから生成したＡｄｖｅｒｓａｒｉａｌＥｘａｍｐｌｅとを用いて、上記式（４）に示した損失関数のβを変えて学習した、上記実施形態のモデルと従来手法のモデルとの評価を行った。

ＰＧＤのパラメータとして、ｅｓｐ＝８／２５５、ｔｒａｉｎ＿ｉｔｅｒ＝７、ｅｖａｌ＿ｉｔｅｒ＝２０、ｅｐｓ＿ｉｔｅｒ＝０．０１、ｒａｎｄ＿ｉｎｉｔ＝Ｔｒｕｅ、ｃｌｉｐ＿ｍｉｎ＝０．０、ｃｌｉｐ＿ｍａｘ＝１．０を用いた。

そして、テストデータに対するｔｏｐ１の正解率（以下、ｎａｔｕｒａｌａｃｃと記す）と、テストデータから生成したＡｄｖｅｒｓａｒｉａｌＥｘａｍｐｌｅに対するｔｏｐ１の正解率（以下、ｒｏｂｕｓｔａｃｃと記す）とを算出した。

図４には、ｒｏｂｕｓｔａｃｃとβとの関係が例示されている。また、図５には、ｎａｔｕｒａｌａｃｃとβとの関係が例示されている。図４に示すように、本発明（実施形態）のモデル、従来手法のモデルとも、ＡｄｖｅｒｓａｒｉａｌＥｘａｍｐｌｅに対する予測精度は、βに依存しないことがわかる。これに対し、図５に示すように、βが大きくなるほど、本発明のモデル、従来手法のモデルとも、通常のデータに対する予測精度が低下する。これは、上記式（４）の第１項が通常のデータに対する損失関数を表す部分であり、第２項がＡｄｖｅｒｓａｒｉａｌＥｘａｍｐｌｅに対する損失関数を表す部分であることに起因して、βが大きいほど、第２項の影響が大きくなるためである。

そこで、ｒｏｂｕｓｔａｃｃが高い場合のβを採用して、各モデルの正確性を比較する。その結果、従来手法のモデルでは、β＝２０ＲｏｂｕｓｔＡｃｃ＝５６．８７、ＮａｔｕｒａｌＡｃｃ＝９５．７５であった。また、本発明のモデルでは、β＝１０、ＲｏｂｕｓｔＡｃｃ＝６１．６２、ＮａｔｕｒａｌＡｃｃ＝９５．８４であった。このように、βによらず、本発明のモデルが従来手法のモデルより高いことがわかる。このように、実施形態のモデルは、上記式（４）の第２項に対応して、ＡｄｖｅｒｓａｒｉａｌＥｘａｍｐｌｅに対して頑強なモデルを学習できることが確認された。

［プログラム］
上記実施形態に係る学習装置１０が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、学習装置１０は、パッケージソフトウェアやオンラインソフトウェアとして上記の学習処理を実行する学習プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の学習プログラムを情報処理装置に実行させることにより、情報処理装置を学習装置１０として機能させることができる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal Handyphone System）等の移動体通信端末、さらには、ＰＤＡ（Personal Digital Assistant）等のスレート端末等がその範疇に含まれる。また、学習装置１０の機能を、クラウドサーバに実装してもよい。

図６は、学習プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１およびＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０３１に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１０４１に接続される。ディスクドライブ１０４１には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース１０５０には、例えば、マウス１０５１およびキーボード１０５２が接続される。ビデオアダプタ１０６０には、例えば、ディスプレイ１０６１が接続される。

ここで、ハードディスクドライブ１０３１は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３およびプログラムデータ１０９４を記憶する。上記実施形態で説明した各情報は、例えばハードディスクドライブ１０３１やメモリ１０１０に記憶される。

また、学習プログラムは、例えば、コンピュータ１０００によって実行される指令が記述されたプログラムモジュール１０９３として、ハードディスクドライブ１０３１に記憶される。具体的には、上記実施形態で説明した学習装置１０が実行する各処理が記述されたプログラムモジュール１０９３が、ハードディスクドライブ１０３１に記憶される。

また、学習プログラムによる情報処理に用いられるデータは、プログラムデータ１０９４として、例えば、ハードディスクドライブ１０３１に記憶される。そして、ＣＰＵ１０２０が、ハードディスクドライブ１０３１に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した各手順を実行する。

なお、学習プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０３１に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ１０４１等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、学習プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ＬＡＮ（Local Area Network）やＷＡＮ（Wide Area Network）等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。

１０学習装置
１１入力部
１２出力部
１３通信制御部
１４記憶部
１５制御部
１５ａ取得部
１５ｂ学習部
１５ｃ検知部

Claims

ラベルを予測するデータを取得する取得部と、
取得された前記データのラベルの確率分布を表すモデルにおいて、前記データに対するフィッシャー情報行列の最大固有値に対応する固有ベクトルを用いて、該モデルを学習する学習部と、
を有し、
前記学習部は、損失関数において前記データに対して乗せるノイズの初期値として、前記固有ベクトルを用いることを特徴とする学習装置。
学習された前記モデルを用いて、取得された前記データのラベルを予測する検知部を、さらに備えることを特徴とする請求項１に記載の学習装置。
学習装置で実行される学習方法であって、
ラベルを予測するデータを取得する取得工程と、
取得された前記データのラベルの確率分布を表すモデルにおいて、前記データに対するフィッシャー情報行列の最大固有値に対応する固有ベクトルを用いて、該モデルを学習する学習工程と、
を含み、
前記学習工程は、損失関数において前記データに対して乗せるノイズの初期値として、前記固有ベクトルを用いることを特徴とする学習方法。
ラベルを予測するデータを取得する取得ステップと、
取得された前記データのラベルの確率分布を表すモデルにおいて、前記データに対するフィッシャー情報行列の最大固有値に対応する固有ベクトルを用いて、該モデルを学習する学習ステップと、
をコンピュータに実行させ、
前記学習ステップは、損失関数において前記データに対して乗せるノイズの初期値として、前記固有ベクトルを用いることを特徴とする学習プログラム。