JP7338483B2

JP7338483B2 - 学習用データ生成プログラム、装置、及び方法

Info

Publication number: JP7338483B2
Application number: JP2020003962A
Authority: JP
Inventors: 勝井出; 克仁中澤
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-01-14
Filing date: 2020-01-14
Publication date: 2023-09-05
Anticipated expiration: 2040-01-14
Also published as: JP2021111232A

Description

開示の技術は、学習用データ生成技術に関する。

機械学習により生成されたモデルを利用したシステムへの敵対的攻撃に対するロバスト性を向上させるために、学習用データを数増しして、敵対的学習によりモデルを強化することが行われている。例えば、モデルの学習段階で、敵対的サンプルを学習用データに含める手法が提案されている。また、例えば、学習用データの一部にノイズを付与し、ノイズ付与後の学習用データを用いてモデルを学習する手法が提案されている。

また、予め用意された学習データに基づいて、第１生成モデルを教師なし学習により学習する第１学習工程と、第１生成モデルによる生成データを生成する生成工程とを含む生成モデル学習方法が提案されている。この方法は、さらに、学習データと、ユーザにより好ましくないと判定された生成データとに基づいて、第２生成モデルを教師あり学習により学習する第２学習工程を含む。

特開２０１８－６３５０４号公報

Xiaoyong Yuan, Pan He, Qile Zhu, and Xiaolin Li, "Adversarial Examples: Attacks and Defenses for Deep Learning", IEEE Transactions on Neural Networks and Learning Systems, Volume:30, 9 Sept. 2019 Alexey Kurakin, Ian J. Goodfellow, and Samy Bengio, "ADVERSARIAL MACHINE LEARNING AT SCALE", arXiv:1611.01236v2 [cs.CV] 11 Feb. 2017

しかしながら、従来技術の敵対的学習では、特定の攻撃に対してはロバスト性が向上するが、他の手法による攻撃に対しては脆弱であるという結果が出ている。様々な攻撃に対するロバスト性を向上させるために、様々なノイズを用いて敵対的学習用の学習用データを用意すると、学習用データのサイズが増大し、学習負荷が高くなる。さらに、ノイズの交互作用も考慮する場合には、組み合わせ数が膨大となり、より学習負荷が高くなる。

また、ユーザにより好ましくないと判定された生成データを用いる手法では、ユーザの判断に時間及びコストが必要であると共に、人間による主観的な判断となるため、敵対的学習に適した学習用データが生成されているという信頼性が低い。

一つの側面として、開示の技術は、効果的な敵対的学習が行える学習用データを生成することを目的とする。

一つの態様として、開示の技術は、学習用データを取得し、前記学習用データに対する変換条件を示す複数のノイズ因子それぞれの水準を組み合わせた特定の数の条件を決定する。条件の決定は、前記複数のノイズ因子のうち、いずれの２つのノイズ因子についても前記いずれの２つのノイズ因子それぞれの各水準の全ての組み合わせが同数含まれるように決定する。また、決定した前記特定の数の条件のそれぞれに従って、前記学習用データに含まれる少なくとも一部のデータを変換することによって、特定の数の変換データを生成する。そして、前記特定の数の変換データのモデルへの入力に応じて出力された結果に基づいて、前記複数のノイズ因子から１又は複数のノイズ因子を選択する。そして、選択された前記１又は複数のノイズ因子に基づいて前記学習用データを変換することにより、前記モデルのための新しい学習用データを生成する。

一つの側面として、効果的な敵対的学習が行える学習用データを生成することができる、という効果を有する。

本実施形態に係る学習用データ生成装置の機能ブロック図である。ノイズ情報ＤＢの一例を示す図である。複数のノイズ因子の各水準の全ての組み合わせを説明するための図である。ノイズ因子の各水準の直交表への割り付けを説明するための図である。変換データの学習済みモデルへの入力を説明するための図である。ノイズの影響と学習済みモデルからの出力との関係を説明するための図である。各条件のソフトマックス値（正解値）、及びＡ１の平均値を説明するための図である。各条件のソフトマックス値（正解値）、及びＢ１の平均値を説明するための図である。要因効果表の一例を示す図である。要因効果図の一例を示す図である。本実施形態に係る学習用データ生成装置として機能するコンピュータの概略構成を示すブロック図である。本実施形態における学習用データ生成処理の一例を示すフローチャートである。ノイズ因子にクリーンデータを含む場合を説明するための図である。

以下、図面を参照して、開示の技術に係る実施形態の一例を説明する。図１に示すように、本実施形態に係る学習用データ生成装置１０は、機能的には、取得部１１と、決定部１２と、変換データ生成部１３と、選択部１４と、学習用データ生成部１５とを含む。また、学習用データ生成装置１０の所定の記憶領域には、ノイズ情報ＤＢ（Database）２０と、学習済みモデル２２とが記憶される。

取得部１１は、学習用データ生成装置１０に入力された学習用データ集合を取得し、変換データ生成部１３及び学習用データ生成部１５の各々へ受け渡す。学習用データ集合に含まれる各学習用データは、学習済みモデル２２の学習に用いられたデータである。例えば、学習済みモデル２２が、画像から対象物を識別するための、ニューラルネットワーク等の分類器の場合、学習用データは、対象物を示す画像データである。また、対象物を示す画像データを正例の学習用データ、対象物以外を示す画像を負例の学習用データとしてもよい。

決定部１２は、ノイズ情報ＤＢ２０に記憶されたノイズ因子のうち、学習済みモデル２２を追加学習するための新たな学習用データの生成に適用する可能性のある複数のノイズ因子を組み合わせた、特定数の条件を決定する。

ここで、ノイズ情報ＤＢ２０には、学習用データに対する変換条件を示す複数のノイズ因子の情報が記憶されている。図２に、ノイズ情報ＤＢ２０の一例を示す。図２の例では、ノイズ情報ＤＢ２０には、ノイズ因子の識別記号を示す「因子」、各ノイズ因子の「水準」、及び、各ノイズ因子の各水準における「ノイズの種類」が記憶されている。

ノイズの種類としては、外乱ノイズ、内乱ノイズ、敵対的サンプル等がある。外乱ノイズは、例えば、光線や天候等の環境条件、ユーザによる撮影装置の使用条件等によるばらつきが原因のノイズである。内乱ノイズは、例えば、対象物自体の経時劣化等によるばらつきが原因のノイズである。敵対的サンプルは、例えば、悪意のあるユーザからの作為的な攻撃によるばらつきが原因のノイズである。

また、ノイズ情報ＤＢ２０には、各ノイズ因子の各水準における、学習用データに対する変換条件、すなわち、ノイズを用いて学習用データを変換する「変換方法」も記憶されている。例えば、外乱ノイズの場合、外乱ノイズを示すデータを学習用データに重畳すること、重畳する割合、その外乱ノイズを示すデータ等が「変換方法」として記憶される。また、例えば、内乱ノイズの場合、学習用データを幾何的に変換すること、摂動、拡縮、回転等の幾何的変換の種類、幾何的変換の程度等が「変換方法」として記憶される。また、例えば、敵対的サンプルの場合、学習用データを、敵対的攻撃の手法に応じて変換すること、その変換の定義等が「変換方法」として記憶される。

決定部１２は、具体的には、ユーザから、ノイズ情報ＤＢ２０に記憶されたノイズ因子のうち、新たな学習用データの生成に適用する可能性のある複数のノイズ因子の指定を受け付ける。

ここで、例えば、図２に示すノイズ情報ＤＢ２０に記憶されたノイズ因子のうち、Ａ～Ｈのノイズ因子が指定されたとする。図２に示すように、ノイズ因子Ａは２水準、ノイズ因子Ｂ～Ｈはそれぞれ３水準である。ノイズの交互作用を確認するため、これらのノイズ因子を、各水準を総当たりで組み合わせて、組み合わせの各々を、学習用データを変換する際の条件の各々とすることを考える。この場合、図３に示すように、２^１×３^７＝４，３７４通りの条件が発生することになり、これら全ての条件を適用して新たな学習用データを生成した場合、学習負荷が増大する。

そこで、決定部１２は、図４に示すように、指定されたノイズ因子を直交表に割り付けて、特定数の条件を決定する。直交表では、指定された複数のノイズ因子のうち、いずれの２つのノイズ因子についても、全条件の中に、その２つのノイズ因子それぞれの各水準の全ての組み合わせが同数含まれるように、各ノイズ因子の水準が割り付けられる。上記Ａ～Ｈのノイズ因子が指定された場合、直交表への割り付けにより、条件は１８通りに削減される。決定部１２は、決定した特定数の条件を変換データ生成部１３へ受け渡す。

変換データ生成部１３は、決定部１２から受け渡された特定数の条件のそれぞれに従って、学習用データ集合に含まれる少なくとも一部の学習用データを変換することによって、変換データを生成する。

具体的には、変換データ生成部１３は、各条件に含まれる、各ノイズ因子の水準に対応する「変換方法」を、ノイズ情報ＤＢ２０から取得する。そして、変換データ生成部１３は、学習用データ集合に含まれる少なくとも一部の学習用データに対して、決定部１２で決定された条件毎に、取得した変換方法を適用して変換データを生成する。１つの条件には複数のノイズ因子が含まれるため、変換データ生成部１３は、各条件に含まれるノイズ因子に対応した変換方法を順次重畳して学習用データに適用することにより、変換データを生成する。変換データ生成部１３は、生成した変換データを選択部１４へ受け渡す。

選択部１４は、特定の数の変換データの学習済みモデル２２への入力に応じて出力された結果に基づいて、複数のノイズ因子から１又は複数のノイズ因子を選択する。具体的には、選択部１４は、ノイズ因子と水準との組毎に、そのノイズ因子と水準との組を含む条件に従って変換された変換データを学習済みモデル２２へ入力することにより得られる、変換データが正解である確度を示す値の平均値を算出する。そして、選択部１４は、平均値が所定の閾値以下となるノイズ因子と水準との組を選択する。

例えば、図５に示すように、選択部１４は、学習用データ集合で学習され、例えば、入力層、中間層、及び出力層を含むニューラルネットワークで構成された学習済みモデル２２の入力層から、変換データを入力する。出力層は、例えばソフトマックス関数により、学習済みモデル２２に入力された変換データが対象物を示す確率（ソフトマックス値）を出力する。図５の例では、変換データが対象物を示す場合、すなわち正解である確率（正解値）と、変換データが対象物以外を示す場合、すなわち正解以外の確率（不正解値）とが出力される場合を示している。したがって、図６に示すように、ノイズの影響が大きい変換データに対する出力は、学習済みモデル２２が定義する正常の範囲外となり（ソフトマックス値小）、ノイズの影響が小さい変換データに対する出力は、正常の範囲内に入る（ソフトマックス値大）という特性を示す。

選択部１４は、図７及び図８に示すように、各条件についてソフトマックス値（正解値）を得る。なお、１つの条件について、複数の変換データが生成されている場合には、各変換データを学習済みモデル２２に入力して出力されるソフトマックス値を、条件毎に平均すればよい。そして、選択部１４は、ノイズ因子と水準との組毎に、その組を含む条件に対応するソフトマックス値を特定する。

例えば、ノイズ因子Ａの水準１（以下、「Ａ１」とも表記する。他のノイズ因子と水準との組についても同様）については、図７中の破線で示す部分が特定される。また、Ｂ１については、図８中の破線で示す部分が特定される。選択部１４は、特定したソフトマックス値を平均することにより、該当のノイズ因子と水準との組の平均値を算出する。

図９に、ノイズ因子と水準との組毎に算出された、ソフトマックス値（正解値）の平均値をリスト化した一例を示す。以下では、このリストを要因効果表ともいう。また、図１０に、ノイズ因子と水準との組毎に算出された、ソフトマックス値（正解値）の平均値をグラフ化した一例を示す。以下では、このグラフを要因効果図ともいう。

要因効果図により、どのノイズ因子のどの水準のノイズを適用した場合に、学習済みモデル２２のロバスト性への影響が大きいかを把握することができる。すなわち、ソフトマックス値（正解値）の平均値が低いノイズ因子は、ロバスト性を下げる効果が高いノイズ因子であると判断することができる。したがって、選択部１４は、ソフトマックス値（正解値）の平均値が所定の閾値以下のノイズ因子と水準との組を、新たな学習用データの生成に適用するノイズ因子として選択する。

例えば、図１０の要因効果図において、閾値ｔｈを０．３５とすると、Ｃ３、Ｆ２、及びＨ１（図１０中の丸印）が選択される。選択部１４は、選択した１又は複数のノイズ因子と水準との組を、学習用データ生成部１５へ受け渡す。

学習用データ生成部１５は、選択部１４から受け渡された、１又は複数のノイズ因子と水準との組に基づいて、学習用データ集合に含まれる学習用データの各々を変換することにより、学習済みモデル２２を追加学習するための新しい学習用データを生成する。

ノイズ因子と水準との組が複数選択されている場合、学習用データ生成部１５は、１以上の組を含む組み合わせの条件を学習用データに適用して、新たな学習用データを生成することができる。例えば、Ｃ３、Ｆ２、及びＨ１の各組が選択されている場合、Ｃ３、Ｆ２、Ｈ１、Ｃ３とＦ２との組み合わせ、Ｃ３とＨ１との組み合わせ、Ｆ２とＨ１との組み合わせ、及び全ての組み合わせの各々で変換した新たな学習用データを生成することができる。具体的な生成方法は、上記の変換データ生成部１３と同様である。

学習用データ生成部１５は、生成した新たな学習用データ集合を出力する。出力された新たな学習用データ集合は、学習済みモデル２２の追加学習に用いられる。

学習用データ生成装置１０は、例えば図１１に示すコンピュータ４０で実現することができる。コンピュータ４０は、ＣＰＵ（Central Processing Unit）４１と、一時記憶領域としてのメモリ４２と、不揮発性の記憶部４３とを備える。また、コンピュータ４０は、入力部、表示部等の入出力装置４４と、記憶媒体４９に対するデータの読み込み及び書き込みを制御するＲ／Ｗ（Read/Write）部４５とを備える。また、コンピュータ４０は、インターネット等のネットワークに接続される通信Ｉ／Ｆ（Interface）４６を備える。ＣＰＵ４１、メモリ４２、記憶部４３、入出力装置４４、Ｒ／Ｗ部４５、及び通信Ｉ／Ｆ４６は、バス４７を介して互いに接続される。

記憶部４３は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部４３には、コンピュータ４０を、学習用データ生成装置１０として機能させるための学習用データ生成プログラム５０が記憶される。学習用データ生成プログラム５０は、取得プロセス５１と、決定プロセス５２と、変換データ生成プロセス５３と、選択プロセス５４と、学習用データ生成プロセス５５とを有する。また、記憶部４３は、ノイズ情報ＤＢ２０及び学習済みモデル２２の各々を構成する情報が記憶される情報記憶領域６０を有する。

ＣＰＵ４１は、学習用データ生成プログラム５０を記憶部４３から読み出してメモリ４２に展開し、学習用データ生成プログラム５０が有するプロセスを順次実行する。ＣＰＵ４１は、取得プロセス５１を実行することで、図１に示す取得部１１として動作する。また、ＣＰＵ４１は、決定プロセス５２を実行することで、図１に示す決定部１２として動作する。また、ＣＰＵ４１は、変換データ生成プロセス５３を実行することで、図１に示す変換データ生成部１３として動作する。また、ＣＰＵ４１は、選択プロセス５４を実行することで、図１に示す選択部１４として動作する。また、ＣＰＵ４１は、学習用データ生成プロセス５５を実行することで、図１に示す学習用データ生成部１５として動作する。また、ＣＰＵ４１は、情報記憶領域６０から情報を読み出して、ノイズ情報ＤＢ２０及び学習済みモデル２２の各々をメモリ４２に展開する。これにより、学習用データ生成プログラム５０を実行したコンピュータ４０が、学習用データ生成装置１０として機能することになる。なお、プログラムを実行するＣＰＵ４１はハードウェアである。

なお、学習用データ生成プログラム５０により実現される機能は、例えば半導体集積回路、より詳しくはＡＳＩＣ（Application Specific Integrated Circuit）等で実現することも可能である。

次に、本実施形態に係る学習用データ生成装置１０の作用について説明する。学習用データ生成装置１０に、学習済みモデル２２の学習に用いられた学習用データ集合が入力されると、学習用データ生成装置１０において、図１２に示す学習用データ生成処理が実行される。なお、学習用データ生成処理は、開示の技術の学習用データ生成方法の一例である。

ステップＳ１１で、取得部１１が、学習用データ生成装置１０に入力された学習用データ集合を取得し、変換データ生成部１３及び学習用データ生成部１５の各々へ受け渡す。

次に、ステップＳ１２で、決定部１２が、新たな学習用データの生成に適用する可能性のある複数のノイズ因子の指定をユーザから受け付ける。そして、決定部１２が、指定されたノイズ因子を直交表に割り付けて、特定数の条件を決定する。決定部１２は、決定した特定数の条件を変換データ生成部１３へ受け渡す。

次に、ステップＳ１３で、変換データ生成部１３が、特定数の条件のそれぞれに従って、学習用データ集合に含まれる少なくとも一部の学習用データを変換することによって、変換データを生成する。変換データ生成部１３は、生成した変換データを選択部１４へ受け渡す。

次に、ステップＳ１４で、選択部１４が、変換データを学習済みモデル２２へ入力し、変換データが正解である確度を示す値であるソフトマックス値（正解値）を得る。選択部１４は、ノイズ因子と水準との組毎に、そのノイズ因子と水準との組を含む条件に従って変換され変換データについてのソフトマックス値の平均値を算出し、要因効果図を作成する。そして、選択部１４が、要因効果図に基づいて、平均値が所定の閾値以下となるノイズ因子と水準との組を選択する。なお、要因効果図に代えて、要因効果表に基づいて、平均値が所定の閾値以下となるノイズ因子と水準との組を選択してもよい。選択部１４は、選択した１又は複数のノイズ因子と水準との組を、学習用データ生成部１５へ受け渡す。

次に、ステップＳ１５で、学習用データ生成部１５が、１又は複数のノイズ因子と水準との組に基づいて、学習用データ集合に含まれる学習用データの各々を変換することにより、学習済みモデル２２を追加学習するための新しい学習用データを生成する。そして、学習用データ生成処理は終了する。

以上説明したように、本実施形態に係る学習用データ生成装置によれば、学習用データに対する変換条件を示す複数のノイズ因子の各々の各水準を直交表に割り当てて、複数のノイズ因子それぞれの水準を組み合わせた特定数の条件を決定する。また、決定した条件のそれぞれに従って、学習用データに含まれる少なくとも一部のデータを変換することによって変換データを生成し、変換データのモデルへの入力に応じて出力された結果に基づいて、複数のノイズ因子から１又は複数のノイズ因子を選択する。そして、選択された１又は複数のノイズ因子に基づいて学習用データを変換することにより、モデルのための新しい学習用データを生成する。これにより、モデルのロバスト性への影響が大きいノイズ因子を特定し、特定したノイズ因子のみを用いて新たな学習用データを生成するため、効果的な敵対的学習が行える学習用データを生成することができる。

また、直交表を用いて、複数のノイズ因子を組み合わせた条件を決定するため、ノイズ因子同士の交互作用も考慮して、効果的なノイズ因子を特定することができる。

上記実施形態は、自動運転、画像による製造ラインに流れる部品の合否判定、画像認識による建築物の劣化点検等の分野に適用可能である。本実施形態のように、ロバスト性を向上させることができることにより、自動運転に適用した場合、より信頼性の高い安全かつ安心な走行を実現することができる。また、製造ラインに適用した場合、より精度の高い合否判定システムの実現により、作業時間の短縮が可能となる。また、劣化点検に適用した場合、より精度の高い点検により、点検ミスの減少、及び作業の効率化が図れる。

なお、上記実施形態では、画像データの分類を行うモデルを例に説明したが、音声認識、自然言語処理等の分野にも適用可能である。これらの場合、それぞれの分野で想定されるノイズ因子を上記実施形態と同様に適用すればよい。

また、上記実施形態では、複数のノイズ因子を組み合わせた特定数の条件を決定する際に、直交表を用いる場合について説明したが、これに限定されず、組み合わせを限定するための他の統計学的手法を用いてもよい。

また、上記実施形態において、ノイズ因子の１つを、図１３に示すように、学習用データと同様の、ノイズが付加されていないクリーンデータ（図１３中の破線部）としてもよい。これにより、要因効果図において、クリーンデータの因子が最もロバスト性を低下させる要因であった場合、指定された他のノイズ因子の効果がクリーンデータの効果よりも小さいことを意味している。したがって、指定されたノイズ因子が適切ではないと判断することができる。この場合、ノイズの水準を大きく振り直す等の対策をとることができる。逆に、要因効果図において、クリーンデータの因子がロバスト性に影響を与えないことが分かる場合、適切なノイズ因子が指定されていると判断することができる。

また、上記実施形態では、学習用データ生成プログラムが記憶部に予め記憶（インストール）されている態様を説明したが、これに限定されない。開示の技術に係るプログラムは、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリ等の記憶媒体に記憶された形態で提供することも可能である。

以上の実施形態に関し、更に以下の付記を開示する。

（付記１）
学習用データを取得し、
前記学習用データに対する変換条件を示す複数のノイズ因子それぞれの水準を組み合わせた複数の条件から、統計学的手法により特定の数の条件を決定し、
決定した前記特定の数の条件のそれぞれに従って、前記学習用データに含まれる少なくとも一部のデータを変換することによって、特定の数の変換データを生成し、
前記特定の数の変換データのモデルへの入力に応じて出力された結果に基づいて、前記複数のノイズ因子から１又は複数のノイズ因子を選択し、
選択された前記１又は複数のノイズ因子に基づいて前記学習用データを変換することにより、前記モデルの機械学習のための新しい学習用データを生成する、
処理をコンピュータに実行させることを特徴とする学習用データ生成プログラム。

（付記２）
前記統計学的手法により特定の数の条件を決定する処理は、前記複数のノイズ因子のうち、いずれの２つのノイズ因子についても前記いずれの２つのノイズ因子それぞれの各水準の全ての組み合わせが同数含まれるように、前記複数のノイズ因子それぞれの水準を組み合わせた特定の数の条件を決定する処理を含む、
ことを特徴とする付記１に記載の学習用データ生成プログラム。

（付記３）
前記モデルは、前記学習用データで学習済みのモデルである、
ことを特徴とする付記１又は付記２に記載の学習用データ生成プログラム。

（付記４）
前記複数のノイズ因子の１つは、前記学習用データに含まれる少なくとも一部のデータである、
ことを特徴とする付記１～付記３のいずれか１項に記載の学習用データ生成プログラム。

（付記５）
前記ノイズ因子を選択する処理は、ノイズ因子と水準との組を選択する処理を含む、
ことを特徴とする付記１～付記４のいずれか１項に記載の学習用データ生成プログラム。

（付記６）
前記ノイズ因子と水準を選択する処理は、ノイズ因子と水準との組毎に、前記ノイズ因子と水準との組を含む条件に従って変換された前記変換データを前記モデルへ入力することにより得られる、前記変換データが正解である確度を示す値の平均値を算出し、前記平均値が所定の閾値以下となる前記ノイズ因子と水準との組を選択する処理を含む、
ことを特徴とする付記５に記載の学習用データ生成プログラム。

（付記７）
前記新しい学習用データを生成する処理は、
選択された前記１又は複数のノイズ因子が外乱ノイズの場合、外乱ノイズを示すデータを前記学習用データに重畳することにより、前記新しい学習用データを生成し、
選択された前記１又は複数のノイズ因子が内乱ノイズの場合、前記学習用データの幾何的変換により、前記新しい学習用データを生成し、
選択された前記１又は複数のノイズ因子が敵対的攻撃によるノイズの場合、前記学習用データを、前記敵対的攻撃の手法に応じて変換することにより、前記新しい学習用データを生成する、
処理を含む、
ことを特徴とする付記１～付記６のいずれか１項に記載の学習用データ生成プログラム。

（付記８）
学習用データを取得する取得部と、
前記学習用データに対する変換条件を示す複数のノイズ因子それぞれの水準を組み合わせた複数の条件から、統計学的手法により特定の数の条件を決定する決定部と、
決定した前記特定の数の条件のそれぞれに従って、前記学習用データに含まれる少なくとも一部のデータを変換することによって、特定の数の変換データを生成する変換データ生成部と、
前記特定の数の変換データのモデルへの入力に応じて出力された結果に基づいて、前記複数のノイズ因子から１又は複数のノイズ因子を選択する選択部と、
選択された前記１又は複数のノイズ因子に基づいて前記学習用データを変換することにより、前記モデルの機械学習のための新しい学習用データを生成する学習用データ生成部と、
を含むことを特徴とする学習用データ生成装置。

（付記９）
前記決定部は、前記複数のノイズ因子のうち、いずれの２つのノイズ因子についても前記いずれの２つのノイズ因子それぞれの各水準の全ての組み合わせが同数含まれるように、前記複数のノイズ因子それぞれの水準を組み合わせた特定の数の条件を決定する、
ことを特徴とする付記８に記載の学習用データ生成装置。

（付記１０）
前記モデルは、前記学習用データで学習済みのモデルである、
ことを特徴とする付記８又は付記９に記載の学習用データ生成装置。

（付記１１）
前記複数のノイズ因子の１つは、前記学習用データに含まれる少なくとも一部のデータである、
ことを特徴とする付記８～付記１０のいずれか１項に記載の学習用データ生成装置。

（付記１２）
前記選択部は、ノイズ因子と水準との組を選択する、
ことを特徴とする付記８～付記１１のいずれか１項に記載の学習用データ生成装置。

（付記１３）
前記選択部は、ノイズ因子と水準との組毎に、前記ノイズ因子と水準との組を含む条件に従って変換された前記変換データを前記モデルへ入力することにより得られる、前記変換データが正解である確度を示す値の平均値を算出し、前記平均値が所定の閾値以下となる前記ノイズ因子と水準との組を選択する、
ことを特徴とする付記１２に記載の学習用データ生成装置。

（付記１４）
前記学習用データ生成部は、
選択された前記１又は複数のノイズ因子が外乱ノイズの場合、外乱ノイズを示すデータを前記学習用データに重畳することにより、前記新しい学習用データを生成し、
選択された前記１又は複数のノイズ因子が内乱ノイズの場合、前記学習用データの幾何的変換により、前記新しい学習用データを生成し、
選択された前記１又は複数のノイズ因子が敵対的攻撃によるノイズの場合、前記学習用データを、前記敵対的攻撃の手法に応じて変換することにより、前記新しい学習用データを生成する、
処理を含む、
ことを特徴とする付記８～付記１３のいずれか１項に記載の学習用データ生成装置。

（付記１５）
学習用データを取得し、
前記学習用データに対する変換条件を示す複数のノイズ因子それぞれの水準を組み合わせた複数の条件から、統計学的手法により特定の数の条件を決定し、
決定した前記特定の数の条件のそれぞれに従って、前記学習用データに含まれる少なくとも一部のデータを変換することによって、特定の数の変換データを生成し、
前記特定の数の変換データのモデルへの入力に応じて出力された結果に基づいて、前記複数のノイズ因子から１又は複数のノイズ因子を選択し、
選択された前記１又は複数のノイズ因子に基づいて前記学習用データを変換することにより、前記モデルの機械学習のための新しい学習用データを生成する、
処理をコンピュータが実行することを特徴とする学習用データ生成方法。

（付記１６）
前記統計学的手法により特定の数の条件を決定する処理は、前記複数のノイズ因子のうち、いずれの２つのノイズ因子についても前記いずれの２つのノイズ因子それぞれの各水準の全ての組み合わせが同数含まれるように、前記複数のノイズ因子それぞれの水準を組み合わせた特定の数の条件を決定する処理を含む、
ことを特徴とする付記１５に記載の学習用データ生成方法。

（付記１７）
前記モデルは、前記学習用データで学習済みのモデルである、
ことを特徴とする付記１５又は付記１６に記載の学習用データ生成方法。

（付記１８）
前記複数のノイズ因子の１つは、前記学習用データに含まれる少なくとも一部のデータである、
ことを特徴とする付記１５～付記１７のいずれか１項に記載の学習用データ生成方法。

（付記１９）
前記ノイズ因子を選択する処理は、ノイズ因子と水準との組を選択する処理を含む、
ことを特徴とする付記１５～付記１８のいずれか１項に記載の学習用データ生成方法。

（付記２０）
学習用データを取得し、
前記学習用データに対する変換条件を示す複数のノイズ因子それぞれの水準を組み合わせた複数の条件から、統計学的手法により特定の数の条件を決定し、
決定した前記特定の数の条件のそれぞれに従って、前記学習用データに含まれる少なくとも一部のデータを変換することによって、特定の数の変換データを生成し、
前記特定の数の変換データのモデルへの入力に応じて出力された結果に基づいて、前記複数のノイズ因子から１又は複数のノイズ因子を選択し、
選択された前記１又は複数のノイズ因子に基づいて前記学習用データを変換することにより、前記モデルの機械学習のための新しい学習用データを生成する、
処理をコンピュータに実行させることを特徴とする学習用データ生成プログラムを記憶した記憶媒体。

１０学習用データ生成装置
１１取得部
１２決定部
１３変換データ生成部
１４選択部
１５学習用データ生成部
２０ノイズ情報ＤＢ
２２学習済みモデル
４０コンピュータ
４１ＣＰＵ
４２メモリ
４３記憶部
４９記憶媒体
５０学習用データ生成プログラム

Claims

学習用データを取得し、
前記学習用データに対する変換条件を示す複数のノイズ因子それぞれの水準を組み合わせた複数の条件から、統計学的手法により特定の数の条件を決定し、
決定した前記特定の数の条件のそれぞれに従って、前記学習用データに含まれる少なくとも一部のデータを変換することによって、特定の数の変換データを生成し、
前記特定の数の変換データのモデルへの入力に応じて出力された結果に基づいて、前記複数のノイズ因子から１又は複数のノイズ因子を選択し、
選択された前記１又は複数のノイズ因子に基づいて前記学習用データを変換することにより、前記モデルの機械学習のための新しい学習用データを生成する、
処理をコンピュータに実行させることを特徴とする学習用データ生成プログラム。
前記統計学的手法により特定の数の条件を決定する処理は、前記複数のノイズ因子のうち、いずれの２つのノイズ因子についても前記いずれの２つのノイズ因子それぞれの各水準の全ての組み合わせが同数含まれるように、前記複数のノイズ因子それぞれの水準を組み合わせた特定の数の条件を決定する処理を含む、
ことを特徴とする請求項１に記載の学習用データ生成プログラム。
前記モデルは、前記学習用データで学習済みのモデルである、
ことを特徴とする請求項１又は請求項２に記載の学習用データ生成プログラム。
前記複数のノイズ因子の１つは、前記学習用データに含まれる少なくとも一部のデータである、
ことを特徴とする請求項１～請求項３のいずれか１項に記載の学習用データ生成プログラム。
前記ノイズ因子を選択する処理は、ノイズ因子と水準との組を選択する処理を含む、
ことを特徴とする請求項１～請求項４のいずれか１項に記載の学習用データ生成プログラム。
前記ノイズ因子と水準を選択する処理は、ノイズ因子と水準との組毎に、前記ノイズ因子と水準との組を含む条件に従って変換された前記変換データを前記モデルへ入力することにより得られる、前記変換データが正解である確度を示す値の平均値を算出し、前記平均値が所定の閾値以下となる前記ノイズ因子と水準との組を選択する処理を含む、
ことを特徴とする請求項５に記載の学習用データ生成プログラム。
前記新しい学習用データを生成する処理は、
選択された前記１又は複数のノイズ因子が外乱ノイズの場合、外乱ノイズを示すデータを前記学習用データに重畳することにより、前記新しい学習用データを生成し、
選択された前記１又は複数のノイズ因子が内乱ノイズの場合、前記学習用データの幾何的変換により、前記新しい学習用データを生成し、
選択された前記１又は複数のノイズ因子が敵対的攻撃によるノイズの場合、前記学習用データを、前記敵対的攻撃の手法に応じて変換することにより、前記新しい学習用データを生成する、
処理を含む、
ことを特徴とする請求項１～請求項６のいずれか１項に記載の学習用データ生成プログラム。
学習用データを取得する取得部と、
前記学習用データに対する変換条件を示す複数のノイズ因子それぞれの水準を組み合わせた複数の条件から、統計学的手法により特定の数の条件を決定する決定部と、
決定した前記特定の数の条件のそれぞれに従って、前記学習用データに含まれる少なくとも一部のデータを変換することによって、特定の数の変換データを生成する変換データ生成部と、
前記特定の数の変換データのモデルへの入力に応じて出力された結果に基づいて、前記複数のノイズ因子から１又は複数のノイズ因子を選択する選択部と、
選択された前記１又は複数のノイズ因子に基づいて前記学習用データを変換することにより、前記モデルの機械学習のための新しい学習用データを生成する学習用データ生成部と、
を含むことを特徴とする学習用データ生成装置。
学習用データを取得し、
前記学習用データに対する変換条件を示す複数のノイズ因子それぞれの水準を組み合わせた複数の条件から、統計学的手法により特定の数の条件を決定し、
決定した前記特定の数の条件のそれぞれに従って、前記学習用データに含まれる少なくとも一部のデータを変換することによって、特定の数の変換データを生成し、
前記特定の数の変換データのモデルへの入力に応じて出力された結果に基づいて、前記複数のノイズ因子から１又は複数のノイズ因子を選択し、
選択された前記１又は複数のノイズ因子に基づいて前記学習用データを変換することにより、前記モデルの機械学習のための新しい学習用データを生成する、
処理をコンピュータが実行することを特徴とする学習用データ生成方法。