JP2019185121A - 学習装置、学習方法及びプログラム - Google Patents

学習装置、学習方法及びプログラム Download PDF

Info

Publication number
JP2019185121A
JP2019185121A JP2018071012A JP2018071012A JP2019185121A JP 2019185121 A JP2019185121 A JP 2019185121A JP 2018071012 A JP2018071012 A JP 2018071012A JP 2018071012 A JP2018071012 A JP 2018071012A JP 2019185121 A JP2019185121 A JP 2019185121A
Authority
JP
Japan
Prior art keywords
learning
mini
batch
configuration pattern
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018071012A
Other languages
English (en)
Other versions
JP7073171B2 (ja
Inventor
裕一郎 飯尾
Yuichiro Iio
裕一郎 飯尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2018071012A priority Critical patent/JP7073171B2/ja
Priority to US16/365,482 priority patent/US20190303714A1/en
Publication of JP2019185121A publication Critical patent/JP2019185121A/ja
Application granted granted Critical
Publication of JP7073171B2 publication Critical patent/JP7073171B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2115Selection of the most significant subset of features by evaluating different subsets according to an optimisation criterion, e.g. class separability, forward selection or backward elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

【課題】ミニバッチを構成する学習データをランダムに選択する場合に比べてより適切な学習データを利用した学習を行うことを目的とする。【解決手段】多層ニューラルネットワークのミニバッチ学習を行う学習装置であって、学習データのクラス情報に基づいて生成された構成パターンのミニバッチを用いて、ニューラルネットワークの学習を行う学習手段と、学習手段により既に得られている学習結果に基づいて、次の学習に利用する構成パターンを決定する決定手段とを有し、学習手段は、決定手段により決定された構成パターンのミニバッチを用いて、学習を行う。【選択図】図3

Description

本発明は、学習装置、学習方法及びプログラムに関する。
従来、画像・音声などのデータの内容を学習し認識を行う技術が存在する。認識処理の目的をここでは認識タスクと呼ぶ。画像中から人間の顔の領域を検出する顔認識タスクや、画像中にある物体(被写体)カテゴリ(猫、車、建物等)を判別する物体カテゴリ認識タスク、シーンのカテゴリ(都市、山間、海岸等)を判別するシーン種別認識タスク等多様な認識タスクがある。
上記のような認識タスクを学習・実行する技術としては、ニューラルネットワークの技術が知られている。深い(層の数が多い)多層ニューラルネットワークはDeep Neural Networks(DNN)と呼ばれ、性能が高いことで近年注目されている。非特許文献1には、深い畳みこみニューラルネットワークが開示されている。これは、Deep Convolutional Neural Networks(DCNN)と呼ばれ、特に画像を対象とした多様な認識タスクで高い性能を上げている。
DNNは、データを入力する入力層と複数の中間層、認識結果を出力する出力層から構成される。DNNの学習フェーズでは、予め設定された損失関数に出力層から出力される推定結果と教師情報を入力して損失(推定結果と教師情報との差異を表す指標)を算出する。そして、誤差逆伝搬法(バックプロパゲーション:BP)などを用いて損失を最小化するように学習を行う。DNNの学習の際には、一般的にミニバッチ学習と呼ばれる方式が用いられる。ミニバッチ学習では、全学習データセットから一定数の学習データを抽出し、抽出した一定数の学習データ群(ミニバッチ)の損失を全て求める。そして、その損失の平均をDNNに返して重みを更新する。この処理を収束するまで繰り返していくのがDNNにおける学習処理である。
Krizhevsky,A.,Sutskever,I.,&Hinton,G.E.,"Imagenet classification with deep convolutional neural networks.",In Advances in neural information processing systems(pp.1097−1105),2012.
しかしながら、DNNの学習においては、ミニバッチを構成する学習データを、全学習データから選択する際に、固定された順序で選択するのではなくランダムに選択する方が効率よく学習が進み、速く収束すると言われている。しかし、DNNが解くタスクの種類や難度、学習データセットの素性によっては、ランダムに選択した学習データで構成されたミニバッチで学習を行うと効率が悪かったり、精度が上がらなかったりする場合がある。
本発明はこのような問題点に鑑みなされたもので、ミニバッチを構成する学習データをランダムに選択する場合に比べてより適切な学習データを利用した学習を行うことを目的とする。
そこで、本発明は、多層ニューラルネットワークのミニバッチ学習を行う学習装置であって、学習データのクラス情報に基づいて生成された構成パターンのミニバッチを用いて、ニューラルネットワークの学習を行う学習手段と、前記学習手段により既に得られている学習結果に基づいて、次の学習に利用する構成パターンを決定する決定手段とを有し、前記学習手段は、前記決定手段により決定された構成パターンのミニバッチを用いて、学習を行うことを特徴とする。
本発明によれば、ミニバッチを構成する学習データをランダムに選択する場合に比べてより適切な学習データを利用した学習を行うことができる。
学習装置のハードウェア構成図である。 学習装置の機能構成図である。 学習処理を示すフローチャートである。 構成パターンの一例を示す図である。 ミニバッチの一例を示す図である。 第3の実施形態に係る学習装置の機能構成図である。 第3の実施形態に係る学習処理を示すフローチャートである。
以下、本発明の実施形態について図面に基づいて説明する。
(第1の実施形態)
第1の実施形態に係る学習装置は、ミニバッチ学習を行う多層ニューラルネットワークにおいて、ミニバッチに含まれる学習データの組み合わせを適切に設定することで、効率よく学習を行う。図1は、第1の実施形態に係る学習装置100のハードウェア構成図である。学習装置100は、CPU101と、ROM102と、RAM103と、HDD104と、表示部105と、入力部106と、通信部107とを有している。CPU101は、ROM102に記憶された制御プログラムを読み出して各種処理を実行する。RAM103は、CPU101の主メモリ、ワークエリア等の一時記憶領域として用いられる。HDD104は、各種データや各種プログラム等を記憶する。表示部105は、各種情報を表示する。入力部106は、キーボードやマウスを有し、ユーザによる各種操作を受け付ける。通信部107は、ネットワークを介して外部装置との通信処理を行う。
なお、後述する学習装置100の機能や処理は、CPU101がROM102又はHDD104に格納されているプログラムを読み出し、このプログラムを実行することにより実現されるものである。また、他の例としては、CPU101は、ROM102等に替えて、SDカード等の記録媒体に格納されているプログラムを読み出してもよい。また、他の例としては、学習装置100の機能や処理の少なくとも一部は、例えば複数のCPU、RAM、ROM、及びストレージを協働させることにより実現してもよい。また、他の例としては、学習装置100の機能や処理の少なくとも一部は、ハードウェア回路を用いて実現してもよい。
図2は、学習装置100の機能構成図である。学習装置100は、クラス情報取得部201と、パターン生成部202と、パターン記憶部203と、パターン決定部204と、表示処理部205と、ミニバッチ生成部206と、学習部207と、評価値更新部208と、を有している。クラス情報取得部201は、各学習データからクラス情報を取得する。パターン生成部202は、複数の構成パターンを生成する。ここで、構成パターンは、ミニバッチに含まれる学習データの内訳のパターンを表すものであり、本実施形態では、クラスの比率で表現される。構成パターンには、さらに、メタ情報として評価値(評価スコア)が含まれるものとする。構成パターンについては、後述する。パターン記憶部203は、パターン生成部202により生成された複数の構成パターンと、構成パターンの評価スコアとを対応付けて記憶する。パターン決定部204は、複数の構成パターンの中から1つの構成パターンを、学習に用いる構成パターンとして決定する。表示処理部205は、各種情報を表示部105に表示するよう制御する。
ミニバッチ生成部206は、学習データセットから学習データを抽出し、抽出した学習データに基づいてミニバッチを生成する。ミニバッチは、DNNの学習に用いられる学習データ群である。本実施形態のミニバッチ生成部206が生成するミニバッチには、学習用の学習データ群の他に、評価用の学習データ群が含まれる。以下、評価用の学習データ群を評価セット、学習用の学習データ群を学習セットと称する。学習部207は、ミニバッチを入力としてDNNの重みを更新する。学習部207はまた、評価セットを用いて学習結果の評価を行う。評価値更新部208は、評価セットの評価結果に基づいて、構成パターンの評価値を更新する。
図3は、学習装置100による学習処理を示すフローチャートである。S301において、クラス情報取得部201は、各学習データのクラス情報を取得する。クラス情報は、学習データの性質やカテゴリを表す分類のためのラベルである。DNNが解くタスクが分類タスクである場合、学習データの教師情報が、該学習データのクラス情報であると言える。また、教師情報以外にユーザが予め学習データにメタ情報(データが付随して持つ、データ自身に関する付加的な情報)としてクラス情報を記載しておくこととしてもよい。
また、他の例としては、学習データがクラス情報を保持していない場合や保持していてもそのクラス情報を利用しない場合には、S301において、クラス情報取得部201は、自動的に学習データのクラス情報を生成してもよい。この場合、クラス情報取得部201は、学習データを複数のクラスタに分類し、分類されたクラスタを各学習データのクラス情報として生成する。例えば、画像から人体領域を検出するタスクの場合、教師情報は画像中の人体領域となり、クラス情報は存在しない。この場合、クラス情報取得部201は、予め学習データを、抽出した任意の特徴量による教師なしクラスタリング手法によって分類し、その分類結果を各学習データのクラス情報としてラベル付けしてもよい。また、クラス情報取得部201は、教師なしクラスタリング手法の代わりに学習済みの任意の分類器を用いて分類を行ってもよい。
次に、S302において、パターン生成部202は、複数の構成パターンを生成する。構成パターンは、ミニバッチに含まれる学習データの各クラスの割合を示す情報である。図4は、構成パターンの一例を示す図である。図4に示すパターン1は、「クラスA:10%、クラスB:30%、クラスC:50%、クラスD:10%」の構成パターンである。また、パターン2は、「クラスA:20%、クラスB:70%、クラスC:10%、クラスD:0%」の構成パターンである。なお、S302の処理においては、構成パターンのみが生成され、構成パターンに対応したミニバッチに含まれる具体的な学習データの決定は行われない。図4においては2つの構成パターンのみを例示したが、パターン生成部202は、ランダムに一定数の構成パターンを生成する。なお、生成する構成パターンの数は任意であり、予め定められていてもよく、またユーザが設定してもよい。各構成パターンにはメタ情報として評価スコアが付与されるが、S302において構成パターンが生成された時点では、一律の値(初期値)が評価スコアとして付与されているものとする。パターン生成部202は、生成した構成パターンをパターン記憶部203に格納する。
次に、S303において、パターン決定部204は、パターン記憶部203に格納されている複数の構成パターンの中から1つの構成パターンを処理対象の構成パターンとして選択する。本処理は、構成パターンを決定する処理の一例である。また、本処理は、S303〜SS307のループ処理で繰り返される処理であり、1回目のS303の処理においては、パターン決定部204は、処理対象の構成パターンをランダムに決定する。2回目以降のS303の処理においては、パターン決定部204は、評価スコアに基づいて処理対象の構成パターンを選択する。なお、S303で選択された構成パターンの情報は、1イテレーションの間保持される。ただし、1イテレーションは、繰り返し処理においてDNNの重みが一度更新されるまでの一連の処理(繰り返し単位の処理)であり、S303〜S307の処理である。
ここで、繰り返し処理における2回目以降のS303の処理について説明する。パターン決定部204は、評価スコアにより各構成パターンが選択される確率を更新(変更)し、更新後の確率を利用して、複数の構成パターンの中から1つの構成パターンを選択する。例えば、構成パターンPi(1<i≦N、Nは構成パターンの総数)の評価スコアがViであるとする。この場合、パターン決定部204は、(式1)により、構成パターンPiが選択される確率Eiを求める。そして、この確率Eiを利用して構成パターンを選択する。
Figure 2019185121
次に、S304において、ミニバッチ生成部206は、S303において選択された構成パターンに基づいて、ミニバッチを作成する。ミニバッチ生成部206は、評価セットを含んだミニバッチを生成する。評価セットはすべての学習データから均等に抽出された学習データである。ミニバッチの中の評価セットの割合や評価セットの学習データの数は予め設定されているものとするが、これに限定されるものではなく、ユーザが設定することとしてもよい。また、評価セットに含まれる学習データはランダムに選択されるものとする。
ミニバッチ生成部206は、バッチサイズが100で、図4に示すパターン1のミニバッチを生成する場合には、図5に示すミニバッチを生成する。すなわち、ミニバッチには、学習セットとして900枚、評価セットとして100枚の学習データが含まれる。さらに、学習データのクラスの内訳は、クラスAの学習データが90枚、クラスBの学習データが270枚、クラスCの学習データが450枚、クラスDの学習データが90枚となる。ミニバッチ生成部206は、クラス毎の学習データについてはランダムに選択するものとする。
次に、S305において、学習部207は、DNNの学習を行う。DNNの学習では、学習部207は、ミニバッチの学習セットを入力とし、最終的な出力と学習セットの教師情報を損失関数に入力することで学習セットの各学習データの損失を算出する。そして、学習部207は、学習セットの各学習データの損失の平均を誤差逆伝搬することでDNNの重みを更新する。一般には、ミニバッチに含まれるすべての学習データの損失の平均を用いてDNNの重みを更新するが、本実施形態においては、評価セットの学習データの損失はDNNの重みの更新に利用しない(DNNに損失を返さない)。このように、学習は、学習セットのみで行われ、評価セットは用いられない。ただし、学習部207は、評価セットの学習データの損失の平均値を評価セットの損失として算出する。
次に、S306において、評価値更新部208は、評価セットに対する学習結果に基づいて、評価スコアを算出し、パターン記憶部203に格納されている評価スコアを更新する。なお、ここで算出される評価スコアは、1つ前のループ処理におけるS305における学習結果に対応したものである。本実施形態においては、評価値更新部208は、S305において算出された評価セットの損失の逆数を評価スコアとして算出する。すなわち、評価セットの損失が小さい構成パターンほど評価スコアが大きくなる。構成パターンPの評価セットの損失をLとすると、構成パターンPの評価スコアVは(式2)により求めることができる。ここで、αは任意の正の実数である。前述の通り、本実施形態における構成パターンの選択は評価スコアに基づいて行われるため、αの設定によって、選択における重みづけを調整することができる。
Figure 2019185121
ただし、評価スコアは、評価セットに基づいて算出された、学習結果を評価する値であればよく、上記に限定されるものではない。他の例としては、評価セットのクラス情報を教師データとして評価セットの分類精度を算出し、算出された分類精度を評価スコアとしてもよい。このように、ミニバッチが評価セットを含むので、学習が1ステップ進む度に、自動的に評価スコアを算出することができる。これにより、学習の速度を落とすことなく評価スコアの算出を行うことができる。
次に、S307において、学習部207は、処理を終了するか否かを判定する。学習部207は、予め定められた終了条件を満たす場合に終了と判定する。学習部207は、処理を終了すると判定した場合に(S307でYES)、学習処理を終了する。学習部207は、処理を終了しないと判定した場合には(S307でNO)、処理をS303へ進める。この場合、S303において、構成パターンを選択し、S304以降の処理を継続する。なお、終了条件は、例えば、「評価セットに対する精度が所定の閾値を超える」、「所定の回数、学習処理を繰り返す」といった条件である。なお、2イテレーション以降で、評価スコアが初期値以外の値に更新されることになるため、3イテレーション以降で、評価スコアに応じた確率が変化し、学習結果に応じた構成パターン選択が行われることになる。
なお、表示処理部205は、学習中及び学習後にユーザに随時構成パターンの情報を表示する。表示される情報としては、処理時点で選択されている構成パターンや、構成パターンの選択履歴、構成パターンの評価スコア一覧、評価スコアの履歴等が挙げられる。
以上のように、本実施形態に係る学習装置100は、ミニバッチを用いた学習結果に基づいて、次の学習に利用する構成パターンを決定する。これにより、学習装置100は、ミニバッチを構成する学習データをランダムに選択する場合に比べてより適切な学習データを利用した学習を行うことができる。これにより、最適解への収束が早く、より良い局所最適解へ収束しやすくなり、効率よく学習を進めることができる。
(第2の実施形態)
次に、第2の実施形態に係る学習装置100について、第1の実施形態に係る学習装置100と異なる点を主に説明する。第2の実施形態に係る学習装置100は、学習セットの学習データを選択する際に、学習効果の高い学習データを優先的に選択することで、効率よく学習を行う。第2の実施形態においては、学習データは、評価スコアを含んでいる。学習データの評価スコアは、初期状態においてはすべて一律の値(初期値)であるものとする。
第2の実施形態においては、S306(図3)において、評価値更新部208は、評価セットの評価スコアの更新に加えて、学習データの評価スコアの更新を行う。学習データの評価スコアは、ミニバッチに含まれる評価セットの評価結果の変動に応じて決定される。k回目の学習におけるミニバッチの評価結果(ここでは第1の実施形態と同様に評価セットの損失とする)をLkとすると、学習データpの評価スコアvpは(式3)により得ることができる。
Figure 2019185121
評価値更新部208は、前回の学習時のミニバッチにおける評価セットの損失の値(L_(k−1))を保持しておく。そして、今回の学習時のミニバッチにおける評価セットの損失(L_k)と比較して改善された(損失が小さくなった)場合は、評価値更新部208は、該ミニバッチに含まれる学習データは学習に有効な学習データとみなして評価スコアを高くする。一方、評価結果が劣化した(損失が大きくなった)場合は、評価値更新部208は、該ミニバッチに含まれる学習データは現状の学習状態に適していない学習データとみなして評価スコアを低くする。そして、ループ処理における2週目以降のS304の処理においては、評価スコアに基づいた確率を利用して、学習データの選択を行う。本処理は、構成パターン選択の処理と同様である。なお、第2の実施形態に係る学習装置100のこれ以外の構成及び処理は、第1の実施形態に係る学習装置100の構成及び処理と同様である。
以上のように、第2の実施形態の学習装置100は、構成パターンだけでなく、学習データについても、学習結果に基づいて選択する。これにより、ミニバッチを構成する学習データをランダムに選択する場合に比べてより適切な学習データを利用した学習を行うことができる。
(第3の実施形態)
次に、第3の実施形態に係る学習装置100について、他の実施形態と異なる点を主に説明する。第3の実施形態に係る学習装置100は、ミニバッチの一部を評価セットとし、評価セットの評価スコアに基づいて構成パターンを選択するのに替えて、構成パターンを決定するエージェントを別途有するものとする。該エージェントによって構成パターンを決定することで、ミニバッチに含まれるすべての学習データを学習に使いつつ、適切な構成のミニバッチを用いて効率よく学習を行うことができる。
エージェントは、機械学習の一種である強化学習を利用して学習を行う。強化学習では、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する。強化学習は一連の行動を通じて最終的な報酬が最も多く得られるような方策を学習する手法である。深層学習と強化学習を組み合わせることで、多数の状態が存在する問題に対応した強化学習については、以下の非特許文献を参照することができる。
V Mnih, et al., "Human−level control through deep reinforcement learning", Nature 518 (7540), 529−533
図6は、第3の実施形態に係る学習装置600の機能構成図である。学習装置600は、クラス情報取得部601と、基準設定部602と、パターン決定部603と、ミニバッチ生成部604と、学習部605と、学習結果記憶部606と、基準更新部607と、を有している。クラス情報取得部601は、各学習データからクラス情報を取得する。基準設定部602は、適切な構成パターンを決定するエージェントを設定する。本実施形態では、適切な構成パターンはエージェントによって随時更新されていく。パターン決定部603は、エージェントによって適切な構成パターンを1つ決定する。ミニバッチ生成部604は、決定された構成パターンにしたがって学習データを抽出し、抽出した学習データからミニバッチを生成する。
学習部605は、生成されたミニバッチを入力としてDNNの重みを更新する。学習結果記憶部606は、学習部605による学習結果を、決定された構成パターンに対応付けて記憶する。基準更新部607は、学習結果記憶部606に記憶された要素を学習データとして、適切な構成パターンを決定するエージェントの学習を行い、エージェントを更新する。
図7は、第3の実施形態に係る学習装置600による学習処理を示すフローチャートである。S701において、クラス情報取得部601は、クラス情報を取得する。本処理は、S301(図3)の処理と同様である。次に、S702において、基準設定部602は、エージェントの設定を行う。強化学習は、「ある状態(s)」においてどのように「行動(a)」すればどういう報酬が得られるか(行動価値関数Q(s,a))を学習している。本実施形態では、状態として現在のDNNの重みパラメータ、行動としてクラス比率ベクトル(例えば、S701で取得したクラス数が4である場合には、各要素が各クラスの比率である4次元ベクトル)を設定する。そして、一定期間学習した後のミニバッチの損失が最小になるように学習を行う。学習の期間についてはユーザが任意に決めてよい。本実施形態では、ユーザが設定した学習期間をエピソードと呼ぶ。
強化学習では、ある行動の結果によって一時的に得られる報酬ではなく、最終的に最も良い報酬が得られるように学習が行われる。即ち、ある構成パターンで学習した結果一時的に小さい損失が出ても行動価値関数は高い報酬を返さず、エピソード内の構成パターンの遷移によって最終的に損失が小さくなるような構成パターンの選択に対して高い報酬を返すように学習されることになる。
次に、S703において、パターン決定部603は、S702又はループ処理における1つ前のS708において設定されたエージェントにより適切な構成パターンを決定する。なお、1回目の処理では、まだ学習が行われていないため、パターン決定部603は、ランダムに構成パターンを決定する。このように、学習されたエージェントによって適切な構成パターンが自動的に決定(生成)される。次に、S704において、ミニバッチ生成部604は、S703において決定した構成パターンに基づいて、ミニバッチを生成する。本処理は、S304の処理とほぼ同様である。ただし、S704において生成されるミニバッチには、評価セットは含まれず、学習セットのみが含まれる。
次に、S705において、学習部605は、DNNの学習を行う。本処理は、S305(図3)の処理と同様である。次に、S706において、学習部605は、学習結果記憶部606に学習結果を記録する。記録される情報は、決定された構成パターン(行動)と、学習前のDNNの重み係数(状態)と、学習によって変動したDNNの重み係数(行動により遷移した状態)と、ミニバッチの損失(行動により得られた報酬)である。記録された情報(行動/状態/遷移後の状態/得られた報酬のペア)は随時蓄積されていき、強化学習における学習データとして利用される。
次に、S707において、基準更新部607は、ユーザが指定したエピソード終了条件が満たされているか否かを判定する。基準更新部607は、エピソード終了条件を満たす場合には(S707でYES)、処理をS708へ進める。基準更新部607は、エピソード終了条件を満たさない場合には(S707でNO)、処理をS703へ進め、処理を繰り返す。なお、エピソード終了条件は、ユーザにより設定された任意の条件である。エピソード終了条件は、例えば、「評価セットに対する精度が閾値以上向上する」、「所定の回数、学習処理を繰り返す」といった条件である。
S708において、基準更新部607は、学習結果記憶部606に記録された情報からランダムに一定数を取得し、エージェントの学習を行う。学習の処理は、既存の強化学習の手法と同様である。次に、S709において、学習部605は、処理を終了するか否かを判定する。本処理は、S307の処理と同様である。なお、第2の実施形態に係る学習装置600のこれ以外の構成及び処理は、他の実施形態に係る学習装置100の構成及び処理と同様である。
以上のように、第3の実施形態に係る学習装置600は、エージェントにより構成パターンを決定することにより、ミニバッチに含まれるすべての学習データを学習に用いつつ、効率よく学習を行うことができる。
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
100 学習装置
202 パターン生成部
204 パターン決定部
206 ミニバッチ生成部
207 学習部

Claims (9)

  1. 多層ニューラルネットワークのミニバッチ学習を行う学習装置であって、
    学習データのクラス情報に基づいて生成された構成パターンのミニバッチを用いて、ニューラルネットワークの学習を行う学習手段と、
    前記学習手段により既に得られている学習結果に基づいて、次の学習に利用する構成パターンを決定する決定手段と
    を有し、
    前記学習手段は、前記決定手段により決定された構成パターンのミニバッチを用いて、学習を行うことを特徴とする学習装置。
  2. 複数の構成パターンを生成する生成手段をさらに有し、
    前記決定手段は、前記学習結果に基づいて、前記生成手段により生成された複数の構成パターンのうち一の構成パターンを、次の学習に利用する構成パターンとして決定することを特徴とする請求項1に記載の学習装置。
  3. 前記生成手段により生成された複数の構成パターンが前記決定手段により次の学習に利用する構成パターンとして決定される確率を、前記学習結果に基づいて変更する第1の変更手段をさらに有し、
    前記決定手段は、前記第1の変更手段により変更された、複数の構成パターンそれぞれの確率に従って、次の学習に利用する構成パターンを決定することを特徴とする請求項2に記載の学習装置。
  4. 前記ミニバッチを構成する学習データと異なるデータを用いて、前記学習手段による学習結果を評価する評価手段をさらに有し、
    前記決定手段は、前記評価手段により得られた学習結果の評価に基づいて、次の学習に利用する構成パターンを決定することを特徴とする請求項2又は3に記載の学習装置。
  5. 前記学習結果に基づいて、前記決定手段により決定された前記構成パターンに対応した、学習データを選択する選択手段をさらに有し、
    前記学習手段は、前記選択手段により選択された学習データを含む前記ミニバッチを用いて前記学習を行うことを特徴とする請求項2乃至4の何れか1項に記載の学習装置。
  6. 前記学習データが前記選択手段により選択される確率を、前記学習結果に基づいて変更する第2の変更手段を更に有し、
    前記選択手段は、前記第2の変更手段により変更された、前記学習データそれぞれの確率に従って、構成パターンに対応した学習データを選択することを特徴とする請求項5に記載の学習装置。
  7. 前記学習手段は、ニューラルネットワークの強化学習を行い、
    前記決定手段は、前記学習手段により既に得られている複数の学習結果に基づいて、次の学習に利用する構成パターンを決定することを特徴とする請求項1に記載の学習装置。
  8. 多層ニューラルネットワークのミニバッチ学習を行う学習装置による学習方法であって、
    学習データのクラス情報に基づいて生成された構成パターンのミニバッチを用いて、ニューラルネットワークの学習を行う学習ステップと、
    前記学習ステップにおいて既に得られている学習結果に基づいて、次の学習に利用する構成パターンを決定する決定ステップと
    を含み、
    前記学習ステップでは、前記決定ステップにおいて決定された構成パターンのミニバッチを用いて、学習を行うことを特徴とする学習方法。
  9. コンピュータを、請求項1乃至7の何れか1項に記載の学習装置の各手段として機能させるためのプログラム。
JP2018071012A 2018-04-02 2018-04-02 学習装置、学習方法及びプログラム Active JP7073171B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018071012A JP7073171B2 (ja) 2018-04-02 2018-04-02 学習装置、学習方法及びプログラム
US16/365,482 US20190303714A1 (en) 2018-04-02 2019-03-26 Learning apparatus and method therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018071012A JP7073171B2 (ja) 2018-04-02 2018-04-02 学習装置、学習方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2019185121A true JP2019185121A (ja) 2019-10-24
JP7073171B2 JP7073171B2 (ja) 2022-05-23

Family

ID=68054460

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018071012A Active JP7073171B2 (ja) 2018-04-02 2018-04-02 学習装置、学習方法及びプログラム

Country Status (2)

Country Link
US (1) US20190303714A1 (ja)
JP (1) JP7073171B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7448281B2 (ja) 2020-03-27 2024-03-12 日本電気通信システム株式会社 二次元マーカの認識装置、方法、プログラム及びシステム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230195743A1 (en) * 2021-12-22 2023-06-22 ZenDesk, Inc. Balancing time-constrained data transformation workflows

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013161298A (ja) * 2012-02-06 2013-08-19 Nippon Steel & Sumitomo Metal 分類器作成装置、分類器作成方法、及びコンピュータプログラム
US20170206457A1 (en) * 2016-01-20 2017-07-20 Adobe Systems Incorporated Digital Content Interaction Prediction and Training that Addresses Imbalanced Classes

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013161298A (ja) * 2012-02-06 2013-08-19 Nippon Steel & Sumitomo Metal 分類器作成装置、分類器作成方法、及びコンピュータプログラム
US20170206457A1 (en) * 2016-01-20 2017-07-20 Adobe Systems Incorporated Digital Content Interaction Prediction and Training that Addresses Imbalanced Classes

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
山岡 忠夫, 将棋AIで学ぶディープラーニング, vol. 初版, JPN6022013495, 10 March 2018 (2018-03-10), JP, pages 44 - 45, ISSN: 0004747635 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7448281B2 (ja) 2020-03-27 2024-03-12 日本電気通信システム株式会社 二次元マーカの認識装置、方法、プログラム及びシステム

Also Published As

Publication number Publication date
JP7073171B2 (ja) 2022-05-23
US20190303714A1 (en) 2019-10-03

Similar Documents

Publication Publication Date Title
KR102641116B1 (ko) 데이터 증강에 기초한 인식 모델 트레이닝 방법 및 장치, 이미지 인식 방법 및 장치
CN110633745B (zh) 一种基于人工智能的图像分类训练方法、装置及存储介质
CN109697434B (zh) 一种行为识别方法、装置和存储介质
EP3306534A1 (en) Inference device and inference method
US9152926B2 (en) Systems, methods, and media for updating a classifier
JP2018055259A (ja) 情報処理装置、情報処理方法及びプログラム
KR20210030063A (ko) 준지도 학습을 기반으로 한 이미지 분류를 위한 적대적 이미지 생성 모델 구축 시스템 및 방법
JP6908302B2 (ja) 学習装置、識別装置及びプログラム
KR102119057B1 (ko) 골절 진단모델의 학습 방법 및 장치
JP2019185127A (ja) 多層ニューラルネットワークの学習装置およびその制御方法
JP6172317B2 (ja) 混合モデル選択の方法及び装置
JP7073171B2 (ja) 学習装置、学習方法及びプログラム
CN114118207B (zh) 基于网络扩张与记忆召回机制的增量学习的图像识别方法
KR102223687B1 (ko) 기계 학습 데이터 선택 방법 및 장치
CN110135428A (zh) 图像分割处理方法和装置
KR20220069336A (ko) 객체 검출 방법 및 장치
JP2019028484A (ja) 属性識別装置、属性識別モデル学習装置、方法、及びプログラム
KR102105951B1 (ko) 추론을 위한 제한된 볼츠만 머신 구축 방법 및 추론을 위한 제한된 볼츠만 머신을 탑재한 컴퓨터 장치
CN108334935B (zh) 精简输入的深度学习神经网络方法、装置和机器人系统
KR102413588B1 (ko) 학습 데이터에 따른 객체 인식 모델 추천 방법, 시스템 및 컴퓨터 프로그램
JP2021527859A (ja) 深層領域拡張を使用した画像内の不規則形状のセグメント化
WO2020218246A1 (ja) 最適化装置、最適化方法、及びプログラム
JP2020030674A (ja) 情報処理装置、情報処理方法及びプログラム
EP3975071A1 (en) Identifying and quantifying confounding bias based on expert knowledge
KR20180082680A (ko) 분류기를 학습시키는 방법 및 이를 이용한 예측 분류 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210329

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220412

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220511

R151 Written notification of patent or utility model registration

Ref document number: 7073171

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151