JP7338483B2 - 学習用データ生成プログラム、装置、及び方法 - Google Patents

学習用データ生成プログラム、装置、及び方法 Download PDF

Info

Publication number
JP7338483B2
JP7338483B2 JP2020003962A JP2020003962A JP7338483B2 JP 7338483 B2 JP7338483 B2 JP 7338483B2 JP 2020003962 A JP2020003962 A JP 2020003962A JP 2020003962 A JP2020003962 A JP 2020003962A JP 7338483 B2 JP7338483 B2 JP 7338483B2
Authority
JP
Japan
Prior art keywords
learning data
noise
data
conditions
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020003962A
Other languages
English (en)
Other versions
JP2021111232A (ja
Inventor
勝 井出
克仁 中澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2020003962A priority Critical patent/JP7338483B2/ja
Publication of JP2021111232A publication Critical patent/JP2021111232A/ja
Application granted granted Critical
Publication of JP7338483B2 publication Critical patent/JP7338483B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Description

開示の技術は、学習用データ生成技術に関する。
機械学習により生成されたモデルを利用したシステムへの敵対的攻撃に対するロバスト性を向上させるために、学習用データを数増しして、敵対的学習によりモデルを強化することが行われている。例えば、モデルの学習段階で、敵対的サンプルを学習用データに含める手法が提案されている。また、例えば、学習用データの一部にノイズを付与し、ノイズ付与後の学習用データを用いてモデルを学習する手法が提案されている。
また、予め用意された学習データに基づいて、第1生成モデルを教師なし学習により学習する第1学習工程と、第1生成モデルによる生成データを生成する生成工程とを含む生成モデル学習方法が提案されている。この方法は、さらに、学習データと、ユーザにより好ましくないと判定された生成データとに基づいて、第2生成モデルを教師あり学習により学習する第2学習工程を含む。
特開2018-63504号公報
Xiaoyong Yuan, Pan He, Qile Zhu, and Xiaolin Li, "Adversarial Examples: Attacks and Defenses for Deep Learning", IEEE Transactions on Neural Networks and Learning Systems, Volume:30, 9 Sept. 2019 Alexey Kurakin, Ian J. Goodfellow, and Samy Bengio, "ADVERSARIAL MACHINE LEARNING AT SCALE", arXiv:1611.01236v2 [cs.CV] 11 Feb. 2017
しかしながら、従来技術の敵対的学習では、特定の攻撃に対してはロバスト性が向上するが、他の手法による攻撃に対しては脆弱であるという結果が出ている。様々な攻撃に対するロバスト性を向上させるために、様々なノイズを用いて敵対的学習用の学習用データを用意すると、学習用データのサイズが増大し、学習負荷が高くなる。さらに、ノイズの交互作用も考慮する場合には、組み合わせ数が膨大となり、より学習負荷が高くなる。
また、ユーザにより好ましくないと判定された生成データを用いる手法では、ユーザの判断に時間及びコストが必要であると共に、人間による主観的な判断となるため、敵対的学習に適した学習用データが生成されているという信頼性が低い。
一つの側面として、開示の技術は、効果的な敵対的学習が行える学習用データを生成することを目的とする。
一つの態様として、開示の技術は、学習用データを取得し、前記学習用データに対する変換条件を示す複数のノイズ因子それぞれの水準を組み合わせた特定の数の条件を決定する。条件の決定は、前記複数のノイズ因子のうち、いずれの2つのノイズ因子についても前記いずれの2つのノイズ因子それぞれの各水準の全ての組み合わせが同数含まれるように決定する。また、決定した前記特定の数の条件のそれぞれに従って、前記学習用データに含まれる少なくとも一部のデータを変換することによって、特定の数の変換データを生成する。そして、前記特定の数の変換データのモデルへの入力に応じて出力された結果に基づいて、前記複数のノイズ因子から1又は複数のノイズ因子を選択する。そして、選択された前記1又は複数のノイズ因子に基づいて前記学習用データを変換することにより、前記モデルのための新しい学習用データを生成する。
一つの側面として、効果的な敵対的学習が行える学習用データを生成することができる、という効果を有する。
本実施形態に係る学習用データ生成装置の機能ブロック図である。 ノイズ情報DBの一例を示す図である。 複数のノイズ因子の各水準の全ての組み合わせを説明するための図である。 ノイズ因子の各水準の直交表への割り付けを説明するための図である。 変換データの学習済みモデルへの入力を説明するための図である。 ノイズの影響と学習済みモデルからの出力との関係を説明するための図である。 各条件のソフトマックス値(正解値)、及びA1の平均値を説明するための図である。 各条件のソフトマックス値(正解値)、及びB1の平均値を説明するための図である。 要因効果表の一例を示す図である。 要因効果図の一例を示す図である。 本実施形態に係る学習用データ生成装置として機能するコンピュータの概略構成を示すブロック図である。 本実施形態における学習用データ生成処理の一例を示すフローチャートである。 ノイズ因子にクリーンデータを含む場合を説明するための図である。
以下、図面を参照して、開示の技術に係る実施形態の一例を説明する。図1に示すように、本実施形態に係る学習用データ生成装置10は、機能的には、取得部11と、決定部12と、変換データ生成部13と、選択部14と、学習用データ生成部15とを含む。また、学習用データ生成装置10の所定の記憶領域には、ノイズ情報DB(Database)20と、学習済みモデル22とが記憶される。
取得部11は、学習用データ生成装置10に入力された学習用データ集合を取得し、変換データ生成部13及び学習用データ生成部15の各々へ受け渡す。学習用データ集合に含まれる各学習用データは、学習済みモデル22の学習に用いられたデータである。例えば、学習済みモデル22が、画像から対象物を識別するための、ニューラルネットワーク等の分類器の場合、学習用データは、対象物を示す画像データである。また、対象物を示す画像データを正例の学習用データ、対象物以外を示す画像を負例の学習用データとしてもよい。
決定部12は、ノイズ情報DB20に記憶されたノイズ因子のうち、学習済みモデル22を追加学習するための新たな学習用データの生成に適用する可能性のある複数のノイズ因子を組み合わせた、特定数の条件を決定する。
ここで、ノイズ情報DB20には、学習用データに対する変換条件を示す複数のノイズ因子の情報が記憶されている。図2に、ノイズ情報DB20の一例を示す。図2の例では、ノイズ情報DB20には、ノイズ因子の識別記号を示す「因子」、各ノイズ因子の「水準」、及び、各ノイズ因子の各水準における「ノイズの種類」が記憶されている。
ノイズの種類としては、外乱ノイズ、内乱ノイズ、敵対的サンプル等がある。外乱ノイズは、例えば、光線や天候等の環境条件、ユーザによる撮影装置の使用条件等によるばらつきが原因のノイズである。内乱ノイズは、例えば、対象物自体の経時劣化等によるばらつきが原因のノイズである。敵対的サンプルは、例えば、悪意のあるユーザからの作為的な攻撃によるばらつきが原因のノイズである。
また、ノイズ情報DB20には、各ノイズ因子の各水準における、学習用データに対する変換条件、すなわち、ノイズを用いて学習用データを変換する「変換方法」も記憶されている。例えば、外乱ノイズの場合、外乱ノイズを示すデータを学習用データに重畳すること、重畳する割合、その外乱ノイズを示すデータ等が「変換方法」として記憶される。また、例えば、内乱ノイズの場合、学習用データを幾何的に変換すること、摂動、拡縮、回転等の幾何的変換の種類、幾何的変換の程度等が「変換方法」として記憶される。また、例えば、敵対的サンプルの場合、学習用データを、敵対的攻撃の手法に応じて変換すること、その変換の定義等が「変換方法」として記憶される。
決定部12は、具体的には、ユーザから、ノイズ情報DB20に記憶されたノイズ因子のうち、新たな学習用データの生成に適用する可能性のある複数のノイズ因子の指定を受け付ける。
ここで、例えば、図2に示すノイズ情報DB20に記憶されたノイズ因子のうち、A~Hのノイズ因子が指定されたとする。図2に示すように、ノイズ因子Aは2水準、ノイズ因子B~Hはそれぞれ3水準である。ノイズの交互作用を確認するため、これらのノイズ因子を、各水準を総当たりで組み合わせて、組み合わせの各々を、学習用データを変換する際の条件の各々とすることを考える。この場合、図3に示すように、2×3=4,374通りの条件が発生することになり、これら全ての条件を適用して新たな学習用データを生成した場合、学習負荷が増大する。
そこで、決定部12は、図4に示すように、指定されたノイズ因子を直交表に割り付けて、特定数の条件を決定する。直交表では、指定された複数のノイズ因子のうち、いずれの2つのノイズ因子についても、全条件の中に、その2つのノイズ因子それぞれの各水準の全ての組み合わせが同数含まれるように、各ノイズ因子の水準が割り付けられる。上記A~Hのノイズ因子が指定された場合、直交表への割り付けにより、条件は18通りに削減される。決定部12は、決定した特定数の条件を変換データ生成部13へ受け渡す。
変換データ生成部13は、決定部12から受け渡された特定数の条件のそれぞれに従って、学習用データ集合に含まれる少なくとも一部の学習用データを変換することによって、変換データを生成する。
具体的には、変換データ生成部13は、各条件に含まれる、各ノイズ因子の水準に対応する「変換方法」を、ノイズ情報DB20から取得する。そして、変換データ生成部13は、学習用データ集合に含まれる少なくとも一部の学習用データに対して、決定部12で決定された条件毎に、取得した変換方法を適用して変換データを生成する。1つの条件には複数のノイズ因子が含まれるため、変換データ生成部13は、各条件に含まれるノイズ因子に対応した変換方法を順次重畳して学習用データに適用することにより、変換データを生成する。変換データ生成部13は、生成した変換データを選択部14へ受け渡す。
選択部14は、特定の数の変換データの学習済みモデル22への入力に応じて出力された結果に基づいて、複数のノイズ因子から1又は複数のノイズ因子を選択する。具体的には、選択部14は、ノイズ因子と水準との組毎に、そのノイズ因子と水準との組を含む条件に従って変換された変換データを学習済みモデル22へ入力することにより得られる、変換データが正解である確度を示す値の平均値を算出する。そして、選択部14は、平均値が所定の閾値以下となるノイズ因子と水準との組を選択する。
例えば、図5に示すように、選択部14は、学習用データ集合で学習され、例えば、入力層、中間層、及び出力層を含むニューラルネットワークで構成された学習済みモデル22の入力層から、変換データを入力する。出力層は、例えばソフトマックス関数により、学習済みモデル22に入力された変換データが対象物を示す確率(ソフトマックス値)を出力する。図5の例では、変換データが対象物を示す場合、すなわち正解である確率(正解値)と、変換データが対象物以外を示す場合、すなわち正解以外の確率(不正解値)とが出力される場合を示している。したがって、図6に示すように、ノイズの影響が大きい変換データに対する出力は、学習済みモデル22が定義する正常の範囲外となり(ソフトマックス値小)、ノイズの影響が小さい変換データに対する出力は、正常の範囲内に入る(ソフトマックス値大)という特性を示す。
選択部14は、図7及び図8に示すように、各条件についてソフトマックス値(正解値)を得る。なお、1つの条件について、複数の変換データが生成されている場合には、各変換データを学習済みモデル22に入力して出力されるソフトマックス値を、条件毎に平均すればよい。そして、選択部14は、ノイズ因子と水準との組毎に、その組を含む条件に対応するソフトマックス値を特定する。
例えば、ノイズ因子Aの水準1(以下、「A1」とも表記する。他のノイズ因子と水準との組についても同様)については、図7中の破線で示す部分が特定される。また、B1については、図8中の破線で示す部分が特定される。選択部14は、特定したソフトマックス値を平均することにより、該当のノイズ因子と水準との組の平均値を算出する。
図9に、ノイズ因子と水準との組毎に算出された、ソフトマックス値(正解値)の平均値をリスト化した一例を示す。以下では、このリストを要因効果表ともいう。また、図10に、ノイズ因子と水準との組毎に算出された、ソフトマックス値(正解値)の平均値をグラフ化した一例を示す。以下では、このグラフを要因効果図ともいう。
要因効果図により、どのノイズ因子のどの水準のノイズを適用した場合に、学習済みモデル22のロバスト性への影響が大きいかを把握することができる。すなわち、ソフトマックス値(正解値)の平均値が低いノイズ因子は、ロバスト性を下げる効果が高いノイズ因子であると判断することができる。したがって、選択部14は、ソフトマックス値(正解値)の平均値が所定の閾値以下のノイズ因子と水準との組を、新たな学習用データの生成に適用するノイズ因子として選択する。
例えば、図10の要因効果図において、閾値thを0.35とすると、C3、F2、及びH1(図10中の丸印)が選択される。選択部14は、選択した1又は複数のノイズ因子と水準との組を、学習用データ生成部15へ受け渡す。
学習用データ生成部15は、選択部14から受け渡された、1又は複数のノイズ因子と水準との組に基づいて、学習用データ集合に含まれる学習用データの各々を変換することにより、学習済みモデル22を追加学習するための新しい学習用データを生成する。
ノイズ因子と水準との組が複数選択されている場合、学習用データ生成部15は、1以上の組を含む組み合わせの条件を学習用データに適用して、新たな学習用データを生成することができる。例えば、C3、F2、及びH1の各組が選択されている場合、C3、F2、H1、C3とF2との組み合わせ、C3とH1との組み合わせ、F2とH1との組み合わせ、及び全ての組み合わせの各々で変換した新たな学習用データを生成することができる。具体的な生成方法は、上記の変換データ生成部13と同様である。
学習用データ生成部15は、生成した新たな学習用データ集合を出力する。出力された新たな学習用データ集合は、学習済みモデル22の追加学習に用いられる。
学習用データ生成装置10は、例えば図11に示すコンピュータ40で実現することができる。コンピュータ40は、CPU(Central Processing Unit)41と、一時記憶領域としてのメモリ42と、不揮発性の記憶部43とを備える。また、コンピュータ40は、入力部、表示部等の入出力装置44と、記憶媒体49に対するデータの読み込み及び書き込みを制御するR/W(Read/Write)部45とを備える。また、コンピュータ40は、インターネット等のネットワークに接続される通信I/F(Interface)46を備える。CPU41、メモリ42、記憶部43、入出力装置44、R/W部45、及び通信I/F46は、バス47を介して互いに接続される。
記憶部43は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部43には、コンピュータ40を、学習用データ生成装置10として機能させるための学習用データ生成プログラム50が記憶される。学習用データ生成プログラム50は、取得プロセス51と、決定プロセス52と、変換データ生成プロセス53と、選択プロセス54と、学習用データ生成プロセス55とを有する。また、記憶部43は、ノイズ情報DB20及び学習済みモデル22の各々を構成する情報が記憶される情報記憶領域60を有する。
CPU41は、学習用データ生成プログラム50を記憶部43から読み出してメモリ42に展開し、学習用データ生成プログラム50が有するプロセスを順次実行する。CPU41は、取得プロセス51を実行することで、図1に示す取得部11として動作する。また、CPU41は、決定プロセス52を実行することで、図1に示す決定部12として動作する。また、CPU41は、変換データ生成プロセス53を実行することで、図1に示す変換データ生成部13として動作する。また、CPU41は、選択プロセス54を実行することで、図1に示す選択部14として動作する。また、CPU41は、学習用データ生成プロセス55を実行することで、図1に示す学習用データ生成部15として動作する。また、CPU41は、情報記憶領域60から情報を読み出して、ノイズ情報DB20及び学習済みモデル22の各々をメモリ42に展開する。これにより、学習用データ生成プログラム50を実行したコンピュータ40が、学習用データ生成装置10として機能することになる。なお、プログラムを実行するCPU41はハードウェアである。
なお、学習用データ生成プログラム50により実現される機能は、例えば半導体集積回路、より詳しくはASIC(Application Specific Integrated Circuit)等で実現することも可能である。
次に、本実施形態に係る学習用データ生成装置10の作用について説明する。学習用データ生成装置10に、学習済みモデル22の学習に用いられた学習用データ集合が入力されると、学習用データ生成装置10において、図12に示す学習用データ生成処理が実行される。なお、学習用データ生成処理は、開示の技術の学習用データ生成方法の一例である。
ステップS11で、取得部11が、学習用データ生成装置10に入力された学習用データ集合を取得し、変換データ生成部13及び学習用データ生成部15の各々へ受け渡す。
次に、ステップS12で、決定部12が、新たな学習用データの生成に適用する可能性のある複数のノイズ因子の指定をユーザから受け付ける。そして、決定部12が、指定されたノイズ因子を直交表に割り付けて、特定数の条件を決定する。決定部12は、決定した特定数の条件を変換データ生成部13へ受け渡す。
次に、ステップS13で、変換データ生成部13が、特定数の条件のそれぞれに従って、学習用データ集合に含まれる少なくとも一部の学習用データを変換することによって、変換データを生成する。変換データ生成部13は、生成した変換データを選択部14へ受け渡す。
次に、ステップS14で、選択部14が、変換データを学習済みモデル22へ入力し、変換データが正解である確度を示す値であるソフトマックス値(正解値)を得る。選択部14は、ノイズ因子と水準との組毎に、そのノイズ因子と水準との組を含む条件に従って変換され変換データについてのソフトマックス値の平均値を算出し、要因効果図を作成する。そして、選択部14が、要因効果図に基づいて、平均値が所定の閾値以下となるノイズ因子と水準との組を選択する。なお、要因効果図に代えて、要因効果表に基づいて、平均値が所定の閾値以下となるノイズ因子と水準との組を選択してもよい。選択部14は、選択した1又は複数のノイズ因子と水準との組を、学習用データ生成部15へ受け渡す。
次に、ステップS15で、学習用データ生成部15が、1又は複数のノイズ因子と水準との組に基づいて、学習用データ集合に含まれる学習用データの各々を変換することにより、学習済みモデル22を追加学習するための新しい学習用データを生成する。そして、学習用データ生成処理は終了する。
以上説明したように、本実施形態に係る学習用データ生成装置によれば、学習用データに対する変換条件を示す複数のノイズ因子の各々の各水準を直交表に割り当てて、複数のノイズ因子それぞれの水準を組み合わせた特定数の条件を決定する。また、決定した条件のそれぞれに従って、学習用データに含まれる少なくとも一部のデータを変換することによって変換データを生成し、変換データのモデルへの入力に応じて出力された結果に基づいて、複数のノイズ因子から1又は複数のノイズ因子を選択する。そして、選択された1又は複数のノイズ因子に基づいて学習用データを変換することにより、モデルのための新しい学習用データを生成する。これにより、モデルのロバスト性への影響が大きいノイズ因子を特定し、特定したノイズ因子のみを用いて新たな学習用データを生成するため、効果的な敵対的学習が行える学習用データを生成することができる。
また、直交表を用いて、複数のノイズ因子を組み合わせた条件を決定するため、ノイズ因子同士の交互作用も考慮して、効果的なノイズ因子を特定することができる。
上記実施形態は、自動運転、画像による製造ラインに流れる部品の合否判定、画像認識による建築物の劣化点検等の分野に適用可能である。本実施形態のように、ロバスト性を向上させることができることにより、自動運転に適用した場合、より信頼性の高い安全かつ安心な走行を実現することができる。また、製造ラインに適用した場合、より精度の高い合否判定システムの実現により、作業時間の短縮が可能となる。また、劣化点検に適用した場合、より精度の高い点検により、点検ミスの減少、及び作業の効率化が図れる。
なお、上記実施形態では、画像データの分類を行うモデルを例に説明したが、音声認識、自然言語処理等の分野にも適用可能である。これらの場合、それぞれの分野で想定されるノイズ因子を上記実施形態と同様に適用すればよい。
また、上記実施形態では、複数のノイズ因子を組み合わせた特定数の条件を決定する際に、直交表を用いる場合について説明したが、これに限定されず、組み合わせを限定するための他の統計学的手法を用いてもよい。
また、上記実施形態において、ノイズ因子の1つを、図13に示すように、学習用データと同様の、ノイズが付加されていないクリーンデータ(図13中の破線部)としてもよい。これにより、要因効果図において、クリーンデータの因子が最もロバスト性を低下させる要因であった場合、指定された他のノイズ因子の効果がクリーンデータの効果よりも小さいことを意味している。したがって、指定されたノイズ因子が適切ではないと判断することができる。この場合、ノイズの水準を大きく振り直す等の対策をとることができる。逆に、要因効果図において、クリーンデータの因子がロバスト性に影響を与えないことが分かる場合、適切なノイズ因子が指定されていると判断することができる。
また、上記実施形態では、学習用データ生成プログラムが記憶部に予め記憶(インストール)されている態様を説明したが、これに限定されない。開示の技術に係るプログラムは、CD-ROM、DVD-ROM、USBメモリ等の記憶媒体に記憶された形態で提供することも可能である。
以上の実施形態に関し、更に以下の付記を開示する。
(付記1)
学習用データを取得し、
前記学習用データに対する変換条件を示す複数のノイズ因子それぞれの水準を組み合わせた複数の条件から、統計学的手法により特定の数の条件を決定し、
決定した前記特定の数の条件のそれぞれに従って、前記学習用データに含まれる少なくとも一部のデータを変換することによって、特定の数の変換データを生成し、
前記特定の数の変換データのモデルへの入力に応じて出力された結果に基づいて、前記複数のノイズ因子から1又は複数のノイズ因子を選択し、
選択された前記1又は複数のノイズ因子に基づいて前記学習用データを変換することにより、前記モデルの機械学習のための新しい学習用データを生成する、
処理をコンピュータに実行させることを特徴とする学習用データ生成プログラム。
(付記2)
前記統計学的手法により特定の数の条件を決定する処理は、前記複数のノイズ因子のうち、いずれの2つのノイズ因子についても前記いずれの2つのノイズ因子それぞれの各水準の全ての組み合わせが同数含まれるように、前記複数のノイズ因子それぞれの水準を組み合わせた特定の数の条件を決定する処理を含む、
ことを特徴とする付記1に記載の学習用データ生成プログラム。
(付記3)
前記モデルは、前記学習用データで学習済みのモデルである、
ことを特徴とする付記1又は付記2に記載の学習用データ生成プログラム。
(付記4)
前記複数のノイズ因子の1つは、前記学習用データに含まれる少なくとも一部のデータである、
ことを特徴とする付記1~付記3のいずれか1項に記載の学習用データ生成プログラム。
(付記5)
前記ノイズ因子を選択する処理は、ノイズ因子と水準との組を選択する処理を含む、
ことを特徴とする付記1~付記4のいずれか1項に記載の学習用データ生成プログラム。
(付記6)
前記ノイズ因子と水準を選択する処理は、ノイズ因子と水準との組毎に、前記ノイズ因子と水準との組を含む条件に従って変換された前記変換データを前記モデルへ入力することにより得られる、前記変換データが正解である確度を示す値の平均値を算出し、前記平均値が所定の閾値以下となる前記ノイズ因子と水準との組を選択する処理を含む、
ことを特徴とする付記5に記載の学習用データ生成プログラム。
(付記7)
前記新しい学習用データを生成する処理は、
選択された前記1又は複数のノイズ因子が外乱ノイズの場合、外乱ノイズを示すデータを前記学習用データに重畳することにより、前記新しい学習用データを生成し、
選択された前記1又は複数のノイズ因子が内乱ノイズの場合、前記学習用データの幾何的変換により、前記新しい学習用データを生成し、
選択された前記1又は複数のノイズ因子が敵対的攻撃によるノイズの場合、前記学習用データを、前記敵対的攻撃の手法に応じて変換することにより、前記新しい学習用データを生成する、
処理を含む、
ことを特徴とする付記1~付記6のいずれか1項に記載の学習用データ生成プログラム。
(付記8)
学習用データを取得する取得部と、
前記学習用データに対する変換条件を示す複数のノイズ因子それぞれの水準を組み合わせた複数の条件から、統計学的手法により特定の数の条件を決定する決定部と、
決定した前記特定の数の条件のそれぞれに従って、前記学習用データに含まれる少なくとも一部のデータを変換することによって、特定の数の変換データを生成する変換データ生成部と、
前記特定の数の変換データのモデルへの入力に応じて出力された結果に基づいて、前記複数のノイズ因子から1又は複数のノイズ因子を選択する選択部と、
選択された前記1又は複数のノイズ因子に基づいて前記学習用データを変換することにより、前記モデルの機械学習のための新しい学習用データを生成する学習用データ生成部と、
を含むことを特徴とする学習用データ生成装置。
(付記9)
前記決定部は、前記複数のノイズ因子のうち、いずれの2つのノイズ因子についても前記いずれの2つのノイズ因子それぞれの各水準の全ての組み合わせが同数含まれるように、前記複数のノイズ因子それぞれの水準を組み合わせた特定の数の条件を決定する、
ことを特徴とする付記8に記載の学習用データ生成装置。
(付記10)
前記モデルは、前記学習用データで学習済みのモデルである、
ことを特徴とする付記8又は付記9に記載の学習用データ生成装置。
(付記11)
前記複数のノイズ因子の1つは、前記学習用データに含まれる少なくとも一部のデータである、
ことを特徴とする付記8~付記10のいずれか1項に記載の学習用データ生成装置。
(付記12)
前記選択部は、ノイズ因子と水準との組を選択する、
ことを特徴とする付記8~付記11のいずれか1項に記載の学習用データ生成装置。
(付記13)
前記選択部は、ノイズ因子と水準との組毎に、前記ノイズ因子と水準との組を含む条件に従って変換された前記変換データを前記モデルへ入力することにより得られる、前記変換データが正解である確度を示す値の平均値を算出し、前記平均値が所定の閾値以下となる前記ノイズ因子と水準との組を選択する、
ことを特徴とする付記12に記載の学習用データ生成装置。
(付記14)
前記学習用データ生成部は、
選択された前記1又は複数のノイズ因子が外乱ノイズの場合、外乱ノイズを示すデータを前記学習用データに重畳することにより、前記新しい学習用データを生成し、
選択された前記1又は複数のノイズ因子が内乱ノイズの場合、前記学習用データの幾何的変換により、前記新しい学習用データを生成し、
選択された前記1又は複数のノイズ因子が敵対的攻撃によるノイズの場合、前記学習用データを、前記敵対的攻撃の手法に応じて変換することにより、前記新しい学習用データを生成する、
処理を含む、
ことを特徴とする付記8~付記13のいずれか1項に記載の学習用データ生成装置。
(付記15)
学習用データを取得し、
前記学習用データに対する変換条件を示す複数のノイズ因子それぞれの水準を組み合わせた複数の条件から、統計学的手法により特定の数の条件を決定し、
決定した前記特定の数の条件のそれぞれに従って、前記学習用データに含まれる少なくとも一部のデータを変換することによって、特定の数の変換データを生成し、
前記特定の数の変換データのモデルへの入力に応じて出力された結果に基づいて、前記複数のノイズ因子から1又は複数のノイズ因子を選択し、
選択された前記1又は複数のノイズ因子に基づいて前記学習用データを変換することにより、前記モデルの機械学習のための新しい学習用データを生成する、
処理をコンピュータが実行することを特徴とする学習用データ生成方法。
(付記16)
前記統計学的手法により特定の数の条件を決定する処理は、前記複数のノイズ因子のうち、いずれの2つのノイズ因子についても前記いずれの2つのノイズ因子それぞれの各水準の全ての組み合わせが同数含まれるように、前記複数のノイズ因子それぞれの水準を組み合わせた特定の数の条件を決定する処理を含む、
ことを特徴とする付記15に記載の学習用データ生成方法。
(付記17)
前記モデルは、前記学習用データで学習済みのモデルである、
ことを特徴とする付記15又は付記16に記載の学習用データ生成方法。
(付記18)
前記複数のノイズ因子の1つは、前記学習用データに含まれる少なくとも一部のデータである、
ことを特徴とする付記15~付記17のいずれか1項に記載の学習用データ生成方法。
(付記19)
前記ノイズ因子を選択する処理は、ノイズ因子と水準との組を選択する処理を含む、
ことを特徴とする付記15~付記18のいずれか1項に記載の学習用データ生成方法。
(付記20)
学習用データを取得し、
前記学習用データに対する変換条件を示す複数のノイズ因子それぞれの水準を組み合わせた複数の条件から、統計学的手法により特定の数の条件を決定し、
決定した前記特定の数の条件のそれぞれに従って、前記学習用データに含まれる少なくとも一部のデータを変換することによって、特定の数の変換データを生成し、
前記特定の数の変換データのモデルへの入力に応じて出力された結果に基づいて、前記複数のノイズ因子から1又は複数のノイズ因子を選択し、
選択された前記1又は複数のノイズ因子に基づいて前記学習用データを変換することにより、前記モデルの機械学習のための新しい学習用データを生成する、
処理をコンピュータに実行させることを特徴とする学習用データ生成プログラムを記憶した記憶媒体。
10 学習用データ生成装置
11 取得部
12 決定部
13 変換データ生成部
14 選択部
15 学習用データ生成部
20 ノイズ情報DB
22 学習済みモデル
40 コンピュータ
41 CPU
42 メモリ
43 記憶部
49 記憶媒体
50 学習用データ生成プログラム

Claims (9)

  1. 学習用データを取得し、
    前記学習用データに対する変換条件を示す複数のノイズ因子それぞれの水準を組み合わせた複数の条件から、統計学的手法により特定の数の条件を決定し、
    決定した前記特定の数の条件のそれぞれに従って、前記学習用データに含まれる少なくとも一部のデータを変換することによって、特定の数の変換データを生成し、
    前記特定の数の変換データのモデルへの入力に応じて出力された結果に基づいて、前記複数のノイズ因子から1又は複数のノイズ因子を選択し、
    選択された前記1又は複数のノイズ因子に基づいて前記学習用データを変換することにより、前記モデルの機械学習のための新しい学習用データを生成する、
    処理をコンピュータに実行させることを特徴とする学習用データ生成プログラム。
  2. 前記統計学的手法により特定の数の条件を決定する処理は、前記複数のノイズ因子のうち、いずれの2つのノイズ因子についても前記いずれの2つのノイズ因子それぞれの各水準の全ての組み合わせが同数含まれるように、前記複数のノイズ因子それぞれの水準を組み合わせた特定の数の条件を決定する処理を含む、
    ことを特徴とする請求項1に記載の学習用データ生成プログラム。
  3. 前記モデルは、前記学習用データで学習済みのモデルである、
    ことを特徴とする請求項1又は請求項2に記載の学習用データ生成プログラム。
  4. 前記複数のノイズ因子の1つは、前記学習用データに含まれる少なくとも一部のデータである、
    ことを特徴とする請求項1~請求項3のいずれか1項に記載の学習用データ生成プログラム。
  5. 前記ノイズ因子を選択する処理は、ノイズ因子と水準との組を選択する処理を含む、
    ことを特徴とする請求項1~請求項4のいずれか1項に記載の学習用データ生成プログラム。
  6. 前記ノイズ因子と水準を選択する処理は、ノイズ因子と水準との組毎に、前記ノイズ因子と水準との組を含む条件に従って変換された前記変換データを前記モデルへ入力することにより得られる、前記変換データが正解である確度を示す値の平均値を算出し、前記平均値が所定の閾値以下となる前記ノイズ因子と水準との組を選択する処理を含む、
    ことを特徴とする請求項5に記載の学習用データ生成プログラム。
  7. 前記新しい学習用データを生成する処理は、
    選択された前記1又は複数のノイズ因子が外乱ノイズの場合、外乱ノイズを示すデータを前記学習用データに重畳することにより、前記新しい学習用データを生成し、
    選択された前記1又は複数のノイズ因子が内乱ノイズの場合、前記学習用データの幾何的変換により、前記新しい学習用データを生成し、
    選択された前記1又は複数のノイズ因子が敵対的攻撃によるノイズの場合、前記学習用データを、前記敵対的攻撃の手法に応じて変換することにより、前記新しい学習用データを生成する、
    処理を含む、
    ことを特徴とする請求項1~請求項6のいずれか1項に記載の学習用データ生成プログラム。
  8. 学習用データを取得する取得部と、
    前記学習用データに対する変換条件を示す複数のノイズ因子それぞれの水準を組み合わせた複数の条件から、統計学的手法により特定の数の条件を決定する決定部と、
    決定した前記特定の数の条件のそれぞれに従って、前記学習用データに含まれる少なくとも一部のデータを変換することによって、特定の数の変換データを生成する変換データ生成部と、
    前記特定の数の変換データのモデルへの入力に応じて出力された結果に基づいて、前記複数のノイズ因子から1又は複数のノイズ因子を選択する選択部と、
    選択された前記1又は複数のノイズ因子に基づいて前記学習用データを変換することにより、前記モデルの機械学習のための新しい学習用データを生成する学習用データ生成部と、
    を含むことを特徴とする学習用データ生成装置。
  9. 学習用データを取得し、
    前記学習用データに対する変換条件を示す複数のノイズ因子それぞれの水準を組み合わせた複数の条件から、統計学的手法により特定の数の条件を決定し、
    決定した前記特定の数の条件のそれぞれに従って、前記学習用データに含まれる少なくとも一部のデータを変換することによって、特定の数の変換データを生成し、
    前記特定の数の変換データのモデルへの入力に応じて出力された結果に基づいて、前記複数のノイズ因子から1又は複数のノイズ因子を選択し、
    選択された前記1又は複数のノイズ因子に基づいて前記学習用データを変換することにより、前記モデルの機械学習のための新しい学習用データを生成する、
    処理をコンピュータが実行することを特徴とする学習用データ生成方法。
JP2020003962A 2020-01-14 2020-01-14 学習用データ生成プログラム、装置、及び方法 Active JP7338483B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020003962A JP7338483B2 (ja) 2020-01-14 2020-01-14 学習用データ生成プログラム、装置、及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020003962A JP7338483B2 (ja) 2020-01-14 2020-01-14 学習用データ生成プログラム、装置、及び方法

Publications (2)

Publication Number Publication Date
JP2021111232A JP2021111232A (ja) 2021-08-02
JP7338483B2 true JP7338483B2 (ja) 2023-09-05

Family

ID=77059965

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020003962A Active JP7338483B2 (ja) 2020-01-14 2020-01-14 学習用データ生成プログラム、装置、及び方法

Country Status (1)

Country Link
JP (1) JP7338483B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024013911A1 (ja) * 2022-07-13 2024-01-18 日本電信電話株式会社 学習装置、学習方法、学習プログラム、推論装置、推論方法、及び推論プログラム
JP7344501B1 (ja) * 2023-03-29 2023-09-14 AI inside株式会社 プログラム、方法、情報処理装置、システム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004219918A (ja) 2003-01-17 2004-08-05 Canon Inc 音声認識環境判定方法
JP2014002497A (ja) 2012-06-18 2014-01-09 Shindengen Electric Mfg Co Ltd 電子機器の捺印シンボル検査装置、及びその方法
JP2018048967A (ja) 2016-09-23 2018-03-29 日本電気通信システム株式会社 測位用地磁気マップの作成方法、位置測定方法、外的要因ノイズ測定方法及び測位用地磁気マップの作成システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004219918A (ja) 2003-01-17 2004-08-05 Canon Inc 音声認識環境判定方法
JP2014002497A (ja) 2012-06-18 2014-01-09 Shindengen Electric Mfg Co Ltd 電子機器の捺印シンボル検査装置、及びその方法
JP2018048967A (ja) 2016-09-23 2018-03-29 日本電気通信システム株式会社 測位用地磁気マップの作成方法、位置測定方法、外的要因ノイズ測定方法及び測位用地磁気マップの作成システム

Also Published As

Publication number Publication date
JP2021111232A (ja) 2021-08-02

Similar Documents

Publication Publication Date Title
JP6855091B2 (ja) ニューラルネットワーク学習に利用されるオートラベリングされたイメージのうちでラベル検収のためのサンプルイメージを取得する方法、及びそれを利用したサンプルイメージ取得装置
JP7338483B2 (ja) 学習用データ生成プログラム、装置、及び方法
CN111414987A (zh) 神经网络的训练方法、训练装置和电子设备
CN110852447A (zh) 元学习方法和装置、初始化方法、计算设备和存储介质
JP7047498B2 (ja) 学習プログラム、学習方法および学習装置
JP6856853B2 (ja) 極限状況においてフォールトトレランス及びフラクチュエーションロバスト性を向上させるために、ジッタリングが起きたイメージを安定化させるプロセスで生成されたワーピングされたイメージに発生した歪曲を、ganを利用して減らすための学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置
CN110674865B (zh) 面向软件缺陷类分布不平衡的规则学习分类器集成方法
JP7268756B2 (ja) 劣化抑制プログラム、劣化抑制方法および情報処理装置
WO2020022144A1 (ja) 画像認識学習装置、画像認識装置、方法、及びプログラム
CN111027428A (zh) 一种多任务模型的训练方法、装置及电子设备
JP2020140466A (ja) 訓練データ拡張装置、方法、及びプログラム
CN111178435A (zh) 一种分类模型训练方法、系统、电子设备及存储介质
CN111079930A (zh) 数据集质量参数的确定方法、装置及电子设备
WO2020075462A1 (ja) 学習器推定装置、学習器推定方法、リスク評価装置、リスク評価方法、プログラム
Chu et al. Variational cross-network embedding for anonymized user identity linkage
CN110705622A (zh) 一种决策方法、系统以及电子设备
KR20210001890A (ko) 고문서 이미지 광학 문자 판독 장치 및 방법
JP7172067B2 (ja) 学習プログラム、学習方法および学習装置
CN110705631A (zh) 一种基于svm的散货船舶设备状态检测方法
US20220138627A1 (en) Computer-readable recording medium storing machine learning program, machine learning apparatus, and machine learning method
CN115543762A (zh) 一种磁盘smart数据扩充方法、系统及电子设备
Müller et al. Application of deep learning for crack segmentation on concrete surface
CN112884145A (zh) 用于数据中心的智能散热效果检测的神经网络的训练方法
WO2024154270A1 (ja) 摂動領域推定プログラム、装置、及び方法
WO2021111832A1 (ja) 情報処理方法、情報処理システム及び情報処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220908

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230719

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230725

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230807

R150 Certificate of patent or registration of utility model

Ref document number: 7338483

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150