JP2022150947A

JP2022150947A - 学習モデルのハイパーパラメータ決定方法、ハイパーパラメータ決定装置、及び、生産スケジュール作成システム

Info

Publication number: JP2022150947A
Application number: JP2021053780A
Authority: JP
Inventors: 修司滝口; Shuji Takiguchi; 大史入江; Hiroshi Irie; 洋介渡部; Yosuke Watabe; 祐一古賀; Yuichi Koga
Original assignee: Mitsubishi Heavy Industries Ltd
Current assignee: Mitsubishi Heavy Industries Ltd
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2022-10-07

Abstract

【課題】学習モデルが有するハイパーパラメータを決定するための計算時間を短縮する。【解決手段】ハイパーパラメータ決定方法では、学習モデルのハイパーパラメータを決定するために、学習回数を予め設定する。そして、ハイパーパラメータの解空間に含まれるハイパーパラメータに所定値を適用することで構築された学習モデルを用いて学習を、予め設定された学習回数実施し、前記学習モデルの評価値を算出する。評価値の算出は所定値を変更しながら繰り返し実施され、算出された評価値に基づいてハイパーパラメータの最適値を決定する。【選択図】図３

Description

本開示は、学習モデルのハイパーパラメータ決定方法、ハイパーパラメータ決定装置、及び、生産スケジュール作成システムに関する。

機械学習によって精度の高い学習モデルを得るためには、対象とする問題に応じて、学習モデルが有するハイパーパラメータを適切に設定する必要がある。例えば教師あり学習モデルではハイパーパラメータの設定を行うための手法として、ベイズ最適化等の最適化手法が用いられる。このような最適化手法を用いるハイパーパラメータの設定は、一般的に、以下の流れで行われる。
１）最適化手法を用いてハイパーパラメータの組み合わせを１つ選択する。
２）上記１）で選択したハイパーパラメータの組み合わせを用いて教師データを学習することで学習モデルを構築し、当該学習モデルに対してテストデータを用いて回帰・分類の予測精度を評価する。
３）上記１）及び２）を繰り返し実施し、最も高い予測精度が得られたハイパーパラメータの組み合わせを特定する。

このようなハイパーパラメータの設定に関して、例えば特許文献１では、深層ニューラルネットワーク（ＤＮＮ：ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）のハイパーパラメータを対象として最適化を行う方法が提案されている。

特許第６４７０２０９号公報

機械学習の一種である強化学習において、学習モデル（強化学習モデル）の構築は、教師データを用いることなく、状態、行動、報酬を設定した強化学習エージェントの自律的な試行錯誤によって回帰・分類の予測精度を向上させる。そのため、強化学習においてハイパーパラメータの設定を前述の手法をそのまま適用すると、上記２）のプロセスにおいて膨大な時間を要してしまう。

また強化学習の中には、ＤｅｅｐＱＮｅｔｗｏｒｋ（ＤＱＮ）のように、強化学習モデルの内部にＤＮＮを有するモデルも存在する。このようなモデルでは、ＤＮＮのパラメータ（ニューラルネットワークの層数やユニット数等）と、強化学習に特有なパラメータ（報酬割引率や学習率等）の組み合わせを考慮した上で最適化を行う必要がある。そのため、強化学習モデルでは、前述の教師あり学習モデルに比べて、ハイパーパラメータの解空間が広くなり、上記１）及び２）の繰り返し回数が多くなることから、膨大な計算時間を要してしまう。従って上記特許文献１のような方法では、実用的な時間でハイパーパラメータの最適化を行うことが難しい。

本開示の少なくとも一実施形態は上述の事情に鑑みなされたものであり、学習モデルが有するハイパーパラメータを決定するための計算時間を効果的に短縮可能な学習モデルのハイパーパラメータ決定方法、ハイパーパラメータ決定装置、及び、生産スケジュール作成システムを提供することを目的とする。

本開示の少なくとも一実施形態に係る学習モデルのハイパーパラメータ決定方法は、上記課題を解決するために、
学習モデルのハイパーパラメータを決定するための学習モデルのハイパーパラメータ決定方法であって、
学習回数を予め設定する学習回数設定工程と、
前記ハイパーパラメータの解空間を設定する解空間設定工程と、
前記解空間に含まれるハイパーパラメータに所定値を適用することで前記学習モデルを構築し、当該学習モデルを用いて学習を前記学習回数実施することにより、前記学習モデルの評価値を算出する評価値算出工程と、
前記所定値を変更しながら前記評価値算出工程を繰り返し実施することにより算出された前記評価値に基づいて、前記ハイパーパラメータの最適値を決定する最適値決定工程と、
を備える。

本開示の少なくとも一実施形態に係る学習モデルのハイパーパラメータ決定装置は、上記課題を解決するために、
学習モデルのハイパーパラメータを決定するための学習モデルのハイパーパラメータ決定装置であって、
学習回数を予め設定する学習回数設定部と、
前記ハイパーパラメータの解空間を設定する解空間設定部と、
前記ハイパーパラメータに前記解空間から選定された所定値を適用することで前記学習モデルを構築し、当該学習モデルを用いて学習を前記学習回数実施することにより、前記学習モデルの評価値を算出する評価値算出部と、
前記所定値を変更しながら前記評価値算出工程を繰り返し実施することにより算出された前記評価値に基づいて、前記ハイパーパラメータの最適値を決定する最適値決定部と、
を備える。

本開示の少なくとも一実施形態に係る生産スケジュール作成システムは、上記課題を解決するために、
学習モデルを用いて生産スケジュールを作成するための生産スケジュール作成システムであって、
本開示の少なくとも一実施形態に係る学習モデルのハイパーパラメータ決定装置と、
前記ハイパーパラメータ決定装置で決定された前記ハイパーパラメータを適用した前記学習モデルを用いて学習を行う学習部と、
前記学習部の学習結果を用いて生産スケジュールを作成するための生産スケジュール作成装置と、
を備える。

本開示の少なくとも一実施形態によれば、学習モデルが有するハイパーパラメータを決定するための計算時間を効果的に短縮可能な学習モデルのハイパーパラメータ決定方法、ハイパーパラメータ決定装置、及び、生産スケジュール作成システムを提供できる。

強化学習モデルの概念図である。一実施形態に係るハイパーパラメータ決定装置の構成を示すブロック図である。一実施形態に係るハイパーパラメータ決定方法を示すフローチャートである。図３のステップＳ１０１における解空間の設定例である。ステップＳ１００で実施可能な第１学習回数設定工程を示すフローチャートである。図５の第１学習回数設定工程で算出される各学習モデルにおける学習回数に対する誤差関数値の絶対値の振る舞いを示す図である。ステップＳ１００で実施可能な第２学習回数設定工程のフローチャートである。図７の第２学習回数設定工程における評価関数値の算出例を示す図である。ステップＳ１００で実施可能な学習回数設定工程のフローチャートの他の例である。収束した学習回数を横軸、対応するモデルの個数を縦軸に規定したパラメトリックモデルとして表現された確率密度分布の一例である。ステップＳ１００で実施される学習回数設定工程のフローチャートの他の例である。図３の変形例を示すフローチャートである。強化学習モデルの状態及び行動の定義例である。一実施形態に係る生産スケジュール作成システムの構成を示すブロック図である。図１４の生産スケジュール作成システムによって実施可能な生産スケジュール作成方法のフローチャートである。

以下、添付図面を参照して本開示の幾つかの実施形態について説明する。ただし、実施形態として記載されている又は図面に示されている構成部品の寸法、材質、形状、その相対的配置等は、本開示の範囲をこれに限定する趣旨ではなく、単なる説明例にすぎない。

本開示の少なくとも一実施形態に係るハイパーパラメータ決定装置は、学習モデルのハイパーパラメータを決定するための装置であり、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、及びコンピュータ読み取り可能な記憶媒体等から構成されている。そして、各種機能を実現するための一連の処理は、一例として、プログラムの形式で記憶媒体等に記憶されており、このプログラムをＣＰＵがＲＡＭ等に読み出して、情報の加工・演算処理を実行することにより、各種機能が実現される。尚、プログラムは、ＲＯＭやその他の記憶媒体に予めインストールしておく形態や、コンピュータ読み取り可能な記憶媒体に記憶された状態で提供される形態、有線又は無線による通信手段を介して配信される形態等が適用されてもよい。コンピュータ読み取り可能な記憶媒体とは、磁気ディスク、光磁気ディスク、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、半導体メモリ等である。

ハイパーパラメータ決定装置が取り扱う学習モデルは、入力データからインサイトを抽出し、具体的な評価・判定を行うための機械学習モデルを広く含む。本実施形態では、学習モデルとして、強化学習モデルを用いる場合を例示するが、これに限られない（例えば学習モデルとして教師あり学習モデルを取り扱ってもよい）。

図１は強化学習の概念図である。強化学習は、状態、行動、報酬の３要素から構成されるフレームワークにおいて、強化学習エージェントが環境上で試行錯誤を繰り返しながら状態と行動の最適なマッピングを学習する（すなわち、ある状態下において報酬を最大化するような行動を選択するように学習する）手法である。

図２は一実施形態に係るハイパーパラメータ決定装置１０の構成を示すブロック図である。
ハイパーパラメータ決定装置１０は、学習回数設定部１２と、解空間設定部１４と、評価値算出部１６と、最適値決定部１８とを備える。学習回数設定部１２は、学習回数を予め設定するための構成である。解空間設定部１４は、ハイパーパラメータの解空間を設定するための構成である。評価値算出部１６は、解空間設定部１４で設定された解空間から選定されたハイパーパラメータに所定値を適用することで学習モデルを構築し、当該学習モデルを用いて、学習回数設定部１２で設定された学習回数だけ学習を実施することにより、学習モデルの評価値を算出するための構成である。最適値決定部１８は、評価値算出部１６において所定値を変更しながら繰り返し算出された評価値に基づいて、ハイパーパラメータの最適値を決定するための構成である。
尚、図２に示す構成は一例であり、各ブロックが統合されていてもよいし、更に細分化されていてもよい。

続いて上記構成を備えるハイパーパラメータ決定装置１０によって実施可能なハイパーパラメータ決定方法について説明する。図３は一実施形態に係るハイパーパラメータ決定方法を示すフローチャートである。
尚、以下の説明では、ハイパーパラメータ決定方法が、前述のハイパーパラメータ決定装置１０によって実施される場合を例示するが、同様の思想が実現可能な範囲において、他の構成によって実施されてもよい。

まず学習回数設定部１２は、学習モデルの評価に必要な学習回数を予め設定する（ステップＳ１００：学習回数設定工程）。ステップＳ１００における学習回数の具体的な設定方法については、詳しく後述するが、従来の手法に比べて十分少なく設定されることにより、ハイパーパラメータを決定するために必要な処理時間や処理量などを効率的に削減することが可能となる。

続いてハイパーパラメータ決定装置１０は、学習モデルについて、ハイパーパラメータの解空間を設定する（ステップＳ１０１：解空間設定工程）。解空間の設定は、対象となる学習モデルに含まれるパラメータから、最適化対象となるハイパーパラメータを選定することにより行われる。

図４は図３のステップＳ１０１における解空間の設定例である。図４では、ＤＱＮモデル及び強化学習モデルを含む学習モデルに含まれる典型的なパラメータの例がリスト表示されている。この学習モデルでは、ＤＱＮモデルに対応する６種類のパラメータと、強化学習モデルに対応する４種類のパラメータとを含む、合計１０種類のパラメータが含まれる。

具体的には、ＤＱＮモデルに対応するパラメータとして、ＤＱＮの中間層の数を示す「層数」、１層当たりのノードの数を示す「ユニット数」、ミニバッチ学習を行う場合の１分割あたりのデータ数を示す「バッチサイズ」、ノードを不活性化する場合を示すための「ドロップアウト率」、行列計算を変換するための関数である「活性化関数」、ＤＱＮの重みやバイアスを最適化する手法を示す「オプティマイザ」が有る。また強化学習モデルに対応するパラメータとして、エージェントが環境内で学習する回数（学習回数）を示す「エピソード数」、１エピソードの中で行動を起こす回数を示す「ステップ数」、時間の経過とともに報酬を割引く比率を示す「報酬割引率」、行動価値（Ｑ値）の更新を調整する重みを示す「学習率」がある。

この例では、最適化対象パラメータ（ハイパーパラメータ）として、「層数」、「ユニット数」、「バッチサイズ」、「ドロップアウト率」、「報酬割引率」、「学習率」が選定されることにより、解空間が設定された場合が示されている。一方、残りのパラメータについては、適宜、値が設定される（図４では、「活性化関数」はＬｉｎｅａｒ、「オプティマイザ」はＡｄａｍ、「エピソード数」は３００回、「ステップ数」は４回にそれぞれ固定設定された場合の例が示されている）。

尚、学習モデルに含まれるパラメータは、図４の例に限られず、例えばＥｘｐｅｒｉｅｎｃｅＲｅｐｌａｙ（エージェントの行動とその結果を経験として記録しておき、それら過去の経験をサンプリングして学習データとする方法）において保存する経験数など、目的に応じて対象とするパラメータを追加又は削除してもよい。

続いて評価値算出部１６は、ステップＳ１０１で設定された解空間を構成するハイパーパラメータに所定値を適用することで学習モデルを構築し、当該学習モデルを用いて学習をステップＳ１００で設定された学習回数だけ実施することにより、学習モデルの評価値を算出する（評価値算出工程）。具体的には、評価値算出工程は、以下に述べるステップＳ１０２～Ｓ１０４を含む。

評価値算出部１６は、ステップＳ１０１で設定された解空間に含まれる各ハイパーパラメータに対して、所定値（ステップＳ１０１が初めて実施される場合には初期値）を設定する（ステップＳ１０２）。ステップＳ１０１で設定される解空間は、一般的に複数のハイパーパラメータから構成されており、ステップＳ１０２では、各ハイパーパラメータに対して任意の所定値の組み合わせが適用される。ステップＳ１０２で設定される所定値の選定は、例えば、最適化アルゴリズムを用いて行われる。

ステップＳ１０２で用いられる最適化アルゴリズムは限定されないが、例えば、代表的な３つの手法として、ＳＭＢＯ＋ＴＰＥ（ＳｅｑｕｅｎｔｉａｌＭｏｄｅｌ－ｂａｓｅｄＧｌｏｂａｌＯｐｔｉｍｉｚａｔｉｏｎ＋Ｔｒｅｅ－ｓｔｒｕｃｔｕｒｅｄＰａｒｚｅｎＥｓｔｉｍａｔｏｒａｐｐｒｏａｃｈ）、ベイズ最適化、遺伝的アルゴリズムがある。

ＳＭＢＯ＋ＴＰＥは、サンプリングした解の候補をもとに各パラメータの値について、目的関数において良い評価を得るグループと悪い評価を得るグループに入る確率をカーネル密度推定によってそれぞれ推定する。そして、獲得関数（解の候補について、目的関数を最大化／最小化する期待値を算出する関数）を用いて次にサンプリングする解の候補を決定することを繰り返し、最適解を探索するアルゴリズムである。

ベイズ最適化は、サンプリングした解の候補をもとに目的関数の平均と分散をガウス過程回帰によって推定する。そして、獲得関数を用いて次にサンプリングする解の候補を決定することを繰り返し、最適解を探索するアルゴリズムである。

遺伝的アルゴリズムは、解の候補を遺伝子として表現した個体を複数用意し、適応度の高い個体を優先的に選択して交叉や突然変異の操作を繰り返し、最適解を探索するアルゴリズムである。

続いて評価値算出部１６は、ステップＳ１０２で選定した所定値をハイパーパラメータに適用することで学習モデルを構築し、ステップＳ１００で設定した学習回数で、学習用問題を対象に学習を行い（ステップＳ１０３）、評価値（報酬値）を算出する（ステップＳ１０４）。このような評価値の算出は、最適化手法によって所定値を変更しながら終了条件を満たすまで繰り返し実施される（ステップＳ１０５）。このような繰り返しにおいて、ステップＳ１０２でハイパーパラメータに対して設定される所定値は、直前のステップＳ１０４で得られた評価値（報酬値）に基づいて、最適化手法によって選定される。

ステップＳ１０５における終了条件は、例えば、最適化手法によるパラメータの最適化回数が予め設定した規定回数に達することとして規定される。尚、最適解における目的関数値が事前にわかっている場合は、終了条件を「最適化解における目的関数値と学習済みの学習モデルの評価値との誤差が閾値ε１以内に収まる（ε１は０以上の実数）」としてもよい。

続いて最適値決定部１８は、このように繰り返し得られた評価値に基づいて、ハイパーパラメータの最適値を決定する（ステップＳ１０６）。ステップＳ１０６におけるハイパーパラメータの最適値の決定は、例えば、各繰り返しで得られた評価値とハイパーパラメータとの組み合わせをそれぞれ記録し、そのなかから最良の評価値に対応するハイパーパラメータを選定することにより行われる。

従来、学習モデルのハイパーパラメータの最適化では、繰り返し演算における学習回数が十分多くなり、全ての学習が終了してからテストデータを用いて回帰・分類の予測精度を評価していたため、ハイパーパラメータの最適地を決定するために膨大な時間を要していた。それに対して本実施形態では、ステップＳ１０３では、ステップＳ１００で設定された学習回数だけ学習が行われるため（言い換えると、学習回数が制限されるため）、ハイパーパラメータの最適地を決定するために要する時間を効果的に削減することができる。

続いて上記ステップＳ１００において学習回数を設定するための具体的な手法について、幾つかの実施例を示しながら説明する。一実施形態では、ステップＳ１００の学習回数設定工程は、ハイパーパラメータに異なる仮値を適用して構築された複数の学習モデルの各々について誤差が基準条件を満たす平均学習回数を、学習回数として設定する第１学習回数設定工程を含んでもよい。

ここで図５はステップＳ１００で実施可能な第１学習回数設定工程を示すフローチャートであり、図６は図５の第１学習回数設定工程で算出される各学習モデルにおける学習回数に対する誤差関数値の絶対値の振る舞いを示す図である。

第１学習回数設定工程では、まずハイパーパラメータに対して任意の仮値を適用することにより複数（ｎ個）の学習モデルを構築する（ステップＳ２００）。ステップＳ２００で用いられる仮値の選定は任意でよく、例えば、文献調査などによって入手可能な各ハイパーパラメータの推奨値に関する情報に基づいて行われてもよい。
尚、学習モデルの数ｎは、例えば文献調査に基づいてパラメータ設定値の候補を明確化しておき、計算時間の観点から設定してもよい。

続いてステップＳ２００で構築されたｎ個の学習モデルを用いて学習を実行し（ステップＳ２０１）、学習回数に対する誤差関数値の振る舞いを求める（ステップＳ２０２）。図６では、複数（ｎ個）の学習モデルの各々における学習回数に対する誤差関数値の絶対値の振る舞いが示されている。各学習モデルにおける誤差関数値の絶対値は、学習回数が増加するに従って、変動しながら次第に減少するように収束する傾向を示している。

続いてステップＳ２０２で特定した学習回数に対する誤差関数値の振る舞いに基づいて、各学習モデルについて誤差関数値が基準条件を満たす学習回数Ａ_１、Ａ_２、・・・、Ａ_ｎを求める（ステップＳ２０３）。基準条件は様々な態様が考えられるが、本実施形態では、「誤差関数値が学習回数に対して連続してｘ回以上、閾値ε２（ε２は０以上の実数）以下に収まること」として規定される。この場合、回数ｘは、計算に要する時間からモデル評価に必要な学習回数の上限値（以下、計算時間に基づく上限値）を規定しておき、これに任意の値ｐ（０＜ｐ＜１）を乗算して決定してもよい。また閾値ε２は、誤差関数値の絶対値を基準とする場合は、学習回数１回目の「誤差関数値の絶対値」に任意の値ｑ（０＜ｑ＜１：例えば０．５としてよい）を乗算することで設定してもよい。

尚、基準条件の他の態様としては、ｒ（ｒは０以上の整数）回目の誤差関数値と（ｒ＋１）回目の誤差関数値の差の絶対値としてもよい。この場合、当該差が所定の基準値以下になった場合に、誤差関数値が十分に収束したとして学習回数Ａ_１、Ａ_２、・・・、Ａ_ｎを規定することができる。この基準値は、計算時間に基づく上限値に任意の値ｕ（０＜ｕ＜１）を乗算した学習回数内での「誤差関数値の差の絶対値」の最大値に、任意の値ｖ（０＜ｖ＜１：例えば０．５としてよい）を乗算して決定してもよい。

続いてステップＳ２０３で求めた学習回数Ａ_１、Ａ_２、・・・、Ａ_ｎを用いて、次式で平均学習回数Ａを求め、当該平均学習回数ＡをステップＳ１００で設定される最終的な学習回数として決定する（ステップＳ２０４）。

尚、学習の結果、学習回数が十分大きくなっても誤差関数値の絶対値が収束しない学習モデルがある場合、当該学習モデルについては、ステップＳ２０４において平均学習回数の算出対象外としてもよい。

他の実施形態では、ステップＳ１００の学習回数設定工程は、複数の仮学習回数で学習モデルを複数のテスト問題で学習することで得られる評価関数値を比較することにより、複数の仮学習回数いずれかを学習回数として設定する第２学習回数設定工程を含んでもよい。

ここで図７はステップＳ１００で実施可能な第２学習回数設定工程のフローチャートであり、図８は図７の第２学習回数設定工程における評価関数値の算出例を示す図である。

第２学習回数設定工程では、まず学習モデルに対して学習回数の候補である複数の仮学習回数を設定する（ステップＳ３００）。複数の仮学習回数は、例えば、想定される計算時間の上限値に基づいて設定することができ、従来手法の学習回数に比べて十分少なく設定される。本実施形態では、複数の仮学習回数として１００回、３００回、５００回が設定された場合について例示的に説明する。

続いて複数種類のテスト問題を用意し（ステップＳ３０１）、ステップＳ３００で設定した各仮学習回数のもとで、ステップＳ３０１で用意した各テスト問題で学習を行い（ステップＳ３０２）、各仮学習回数についてテスト問題ごとに評価関数値を求める（ステップＳ３０３）。本実施形態では、テスト問題としてテスト問題１～テスト問題５が用意されており、図８に示すように、それぞれ評価関数値が算出される。これらのテスト問題１～５は、例えば文献調査などにより設定することができる。

続いてステップＳ３０３で求められた評価関数値を比較することにより、最適な評価関数値が得られる仮学習回数を、最終的な学習回数として決定する（ステップＳ３０４）。図８の例では、テスト問題１について仮学習回数「５００回」が最適な評価関数値が得られており、テスト問題２について仮学習回数「３００回」が最適な評価関数値が得られており、テスト問題３について仮学習回数「３００回」が最適な評価関数値が得られており、テスト問題４について仮学習回数「５００回」が最適な評価関数値が得られており、テスト問題５について仮学習回数「３００回」が最適な評価関数値が得られている。この結果から、最も多く（テスト問題１～５のうちテスト問題２，３，５において）最適な評価関数値が得られている仮学習回数「３００回」が最終的な学習回数として採用される。

他の実施形態では、ステップＳ１００の学習回数設定工程は、前述の第１学習回数設定工程及び第２学習回数設定工程の組み合わせであってもよい。ここで図９はステップＳ１００で実施可能な学習回数設定工程のフローチャートの他の例である。

図９に示す本実施形態では、まず前述の第２学習回数設定工程（図７を参照）を実施することにより（ステップＳ４００）、学習回数を仮設定する（ステップＳ４０１）。そしてステップＳ４０１で仮設定した学習回数を用いて、前述の第１学習回数設定工程（図５を参照）を実施する（ステップＳ４０２）。

続いてステップＳ４０２で得られる学習回数の評価結果に基づいて、ステップＳ４０１で仮設定された学習回数の変更の要否を判定する（ステップＳ４０３）。ステップＳ４０３における学習回数の要否判定は、第１学習回数設定工程で作成した複数（ｎ個）のモデルの所定割合（例えば５０％）以上で、仮決定した学習回数より少ない学習回数で収束したか否かにより行われる。

その結果、ステップＳ４０１で仮設定された学習回数の変更が不要であると判定された場合（ステップＳ４０３：ＮＯ）、ステップＳ４０１で仮設定された学習回数で確定する（ステップＳ４０５）。一方、ステップＳ４０１で仮設定された学習回数の変更が必要であると判定された場合（ステップＳ４０３：ＹＥＳ）、学習回数の変更を実施する（ステップＳ４０４）。ステップＳ４０５では、収束した学習回数の確立密度分布に基づいて学習回数の変更が行われ、例えば図１０に示すように、収束した学習回数を横軸、対応するモデルの個数を縦軸に規定したパラメトリックモデルとして確率密度分布を表現し、その平均値を新たな学習回数とする。そして変更後の学習回数を、最終的な学習回数として決定する（ステップＳ４０５）。

また図１１はステップＳ１００で実施される学習回数設定工程のフローチャートの他の例である。本実施形態では、まず第１学習回数設定工程（図５を参照）を実施し（ステップＳ５００）、第１学習回数設定工程で学習回数の設定が不能であるか否かを判定する（ステップＳ５０１）。第１学習回数設定工程で学習回数の設定が可能である場合（ステップＳ５０１：ＮＯ）、第１学習回数設定工程で設定された学習回数を最終的な学習回数として採用する（ステップＳ５０３）。

一方、第１学習回数設定工程で学習回数の設定が不能であった場合（ステップＳ５０１：ＹＥＳ）、第２学習回数設定工程（図７を参照）を実施し（ステップＳ５０２）、第２学習回数設定工程で設定された学習回数を最終的な学習回数として採用する（ステップＳ５０３）。尚、第１学習回数設定工程で学習回数が不能であった場合とは、例えば、前述の第１学習回数設定工程において、複数（ｎ個）のモデルのうち誤差関数が収束しないものが所定割合に達することにより、信頼性のある学習回数の設定が難しい場合である。

尚、ステップＳ５０１において第１学習回数設定工程で学習回数の設定が不能である場合とは、例えば、それぞれ異なるパラメータ設定値を持つ複数のモデル（ｎ個）の学習を行ったときに、評価基準（誤差関数値の絶対値、或いは、ｒ（ｒは０以上の整数）回目の誤差関数値とｒ＋１回目の誤差関数値の差の絶対値）が連続してｘ回閾値ε２（ε２は０以上の実数）以下に収まらなかったモデルの数（ａ１個）が、ｎ×ｂ１個以上になったときである。
尚、ｘは、計算に要する時間からモデル評価に必要な学習回数の上限値を定めておき、これに任意の値ｐ（０＜ｐ＜１）をかけて決定してもよい。またｂ１は０．５＜ｂ１＜１であり、例えば０．８としてよい。

このように本実施形態では、第１学習回数設定工程で学習回数の設定が難しい場合には、第２学習回数設定工程を実施することにより、学習回数の設定を好適に行うことができる。

また図３に示すハイパーパラメータ決定方法では、ハイパーパラメータの解空間を一律規定して最適化を行っていたが、ハイパーパラメータを属性に基づいて複数のグループに分類し、グループごとに最適化を行うことで解空間を狭めてから最適化を実施してもよい。図１２は図３の変形例を示すフローチャートである。
尚、図１２では、図３と共通するステップについては共通のステップ番号で示し、重複する説明は適宜省略する。

本変形例では、ステップＳ１０１で設定された解空間を構成するハイパーパラメータを、属性に基づいてグループ分けする（ステップＳ６００）。本実施形態では、属性に基づいて２つのグループ１、２にグループ分けした場合について例示的に説明するが、グループの数は限定されない。またステップＳ６００でグループ分けの基準となる属性の種類もまた限定されないが、例えば「連続変数／離散・カテゴリ変数」、「強化学習特有のパラメータ／ＤＱＮのパラメータ」の属性に基づいて分類することができる。

属性「連続変数／離散・カテゴリ変数」に基づくグループ分けは、変数の特徴に応じて最適化手法を選択できるため、より適切なパラメータ設定値を取得することができる。例えば、離散・カテゴリ変数に対し、連続変数の最適化に用いられることが多いベイズ最適化を適用すると、最適化の過程でパラメータ設定値を整数に丸める必要が生じるため、最適なパラメータ設定値を得られない可能性がある。そこで、離散・カテゴリ変数に対しては実験計画法、連続変数に対してはベイズ最適化を適用する、のように変数の特徴に応じて最適化手法を選択することで、数値を整数に丸める必要がなくなるため、最適解を得られる可能性を高めることができる。

属性「強化学習特有のパラメータ／ＤＱＮのパラメータ」に基づくグループ分けでは、強化学習特有のパラメータとＤＱＮのパラメータがそれぞれ独立的に強化学習モデルの精度に影響を与えている場合、強化学習モデルの全パラメータを同時に最適化するのと比較して効率的に最適解の絞り込みを行うことができる。

続いてステップＳ６００で分類されたグループごとに、当該グループに含まれるハイパーパラメータについて、前述のステップＳ１０２と同様に所定値を設定する（ステップＳ６０１－１、Ｓ６０１－２）。ステップＳ６０１－１、Ｓ６０１－２で設定される所定値は、最適化アルゴリズムによって選定される。そしてステップＳ６０１－１、Ｓ６０１－２で所定値が設定されることで構築された学習モデルを用いて前述のステップＳ１０３と同様に学習を行い（ステップＳ６０２－１、Ｓ６０２－２）、前述のステップＳ１０４と同様に評価値（報酬値）を算出する（ステップＳ６０３－１、Ｓ６０３－２）。

ステップＳ６０１－１、Ｓ６０１－２～Ｓ６０３－１、Ｓ６０３－２は、第１終了条件を満たすまで、最適化手法によって所定値を変更しながら繰り返し実施される（ステップＳ６０４－１、Ｓ６０４－２）。このような繰り返しにおいて、ステップＳ６０１－１、Ｓ６０１－２でハイパーパラメータに対して設定される所定値は、直前のステップＳ６０３－１、Ｓ６０３－２で得られた評価値（報酬値）に基づいて、最適化手法によって選定される。

続いて、このように各グループで小規模な最適化を行った結果に基づいて、全体のハイパーパラメータの解空間の再設定を行う（ステップＳ６０５）。前述の図３に示す実施形態では、強化学習モデルのハイパーパラメータの全てを同時に最適化するため、探索する解空間が広くなり、最適解を見つけることが困難になる場合が考えられる。それに対して本変形例では、ハイパーパラメータ全てを同時に最適化する前に、事前処理としてハイパーパラメータを属性によってグループ分けし、各グループで小規模な最適化を行うことで解空間を狭めることができる。

そしてステップＳ６０５で再設定された解空間を対象に、当該解空間を構成するハイパーパラメータについて所定値を設定する（ステップＳ１０２）。続いてステップＳ１０２で設定した所定値をハイパーパラメータに適用した学習モデルを構築し、ステップＳ１００で設定した学習回数で、学習用問題を対象に学習を行い（ステップＳ１０３）、評価値（報酬値）を算出する（ステップＳ１０４）。

そして第２終了条件を満たすまで、最適化手法によって所定値を変更しながら上述の評価値算出工程（ステップＳ１０２～Ｓ１０４）を繰り返し実施する（ステップＳ１０５）。このような繰り返しにおいて、ステップＳ１０２でハイパーパラメータに対して設定される所定値は、直前のステップＳ１０４で得られた評価値（報酬値）に基づいて、最適化手法によって選定される。
尚、第１終了条件及び第２終了条件については、前述のステップＳ１０５（図３を参照）と同様に設定可能である。

このように本変形例では、ハイパーパラメータをグループ分けすることで狭めた解空間の情報に基づいて探索することで再定義された解空間を対象に、ハイパーパラメータの最適化が行われる。これにより、最適解を見つけられる可能性を効果的に向上できる。

続いて上記構成を有するハイパーパラメータ決定装置１０を利用した生産スケジュール作成システムについて説明する。生産スケジュール作成システムは、前述のハイパーパラメータ決定装置１０によってハイパーパラメータが最適化された学習モデルを用いて、生産スケジュールを作成する場合について説明する。本実施形態では、学習モデルとして強化学習モデルを用いた場合について例示的に説明する。

図１３は強化学習モデルの状態及び行動の定義例を示しており、状態として「問題の特徴量」、行動として「ディスパッチングルール」及び報酬として「生産スケジュールの評価値（各オーダの納期遅れの二乗和に－１をかけた値）」が規定されている。具体的には、状態を表す「問題の特徴量」として、ＶＤＤ（オーダの納期の標準偏差）、ＡＳ（オーダの納期までの余裕時間の平均値）、・・・が定義され、行動を表す「ディスパッチングルール」として、作業時間が短いことを意味するＰＴ（ＰｒｏｃｅｓｓｉｎｇＴｉｍｅ）、着手可能日が早いＲＤＪ（ＲｅｌｅａｓｅＤａｔｅＪｏｂ）、納期が早いことを意味するＤＤＯＯ（ＤｕｅＤａｔｅＯｆＯｄｅｒ）、・・・が定義されている。

図１４は一実施形態に係る生産スケジュール作成システム５０の構成を示すブロック図であり、図１５は図１４の生産スケジュール作成システム５０によって実施可能な生産スケジュール作成方法のフローチャートである。

図１４に示すように、生産スケジュール作成システム５０は学習モデルを用いて生産スケジュールを作成するためのシステムであって、前述のハイパーパラメータ決定装置１０と、ハイパーパラメータ決定装置１０によって決定されたハイパーパラメータが適用された学習モデルを用いて学習を実施するための学習装置５２と、学習装置５２の学習結果に基づいて生産スケジュールを作成するための生産スケジュール作成装置５４とを備える。

このような生産スケジュール作成システム５０では、ハイパーパラメータ決定装置１０によって前述のようにハイパーパラメータを決定しておく（ステップＳ７００）。ステップＳ７００におけるハイパーパラメータの決定は、生産スケジュールの作成より前段階に予め実施しておき、決定されたハイパーパラメータは所定の記憶装置（不図示）に記憶して保存しておいてもよい。

続いて学習装置５２は、ステップＳ７００で決定されたハイパーパラメータを適用した学習モデルを用いて学習を実施する（ステップＳ７０１）。ステップＳ７０１では、図１３で定義された状態及び行動のもと、エージェントは、報酬が最大となるように状態と行動の最適なマッピングを学習する。ステップＳ７０１における学習結果である学習済みモデルは、所定の記憶装置に記憶される（ステップＳ７０２）。続いて生産スケジュール作成装置５４は、ステップＳ７０２で得られた学習済みモデルを取得し、当該学習済みモデル結果を用いて、生産スケジュールを作成する（ステップＳ７０３）。具体的には、ステップＳ７０３では、学習済みモデルを用いて、スケジューリング中に問題の特徴量に応じた適切なディスパッチングルールを予測し、予測されたルールを用いてスケジューリングする。

このように本実施形態では、ハイパーパラメータ決定装置１０によって決定されたハイパーパラメータが適用された学習モデルを利用して、生産スケジュール作成に活用することができる。

尚、本実施形態に例示した思想は、生産スケジュールの作成に限られず、例えば、学習を用いた物体の自動制御、文書要約等の他の問題に対しても適用可能である。

その他、本開示の趣旨を逸脱しない範囲で、上記した実施形態における構成要素を周知の構成要素に置き換えることは適宜可能であり、また、上記した実施形態を適宜組み合わせてもよい。

上記各実施形態に記載の内容は、例えば以下のように把握される。

（１）一実施形態に係る学習モデルのハイパーパラメータ決定方法は、
学習モデルのハイパーパラメータを決定するための学習モデルのハイパーパラメータ決定方法であって、
学習回数を予め設定する学習回数設定工程と、
前記ハイパーパラメータの解空間を設定する解空間設定工程と、
前記解空間に含まれるハイパーパラメータに所定値を適用することで前記学習モデルを構築し、当該学習モデルを用いて学習を前記学習回数実施することにより、前記学習モデルの評価値を算出する評価値算出工程と、
前記所定値を変更しながら前記評価値算出工程を繰り返し実施することにより算出された前記評価値に基づいて、前記ハイパーパラメータの最適値を決定する最適値決定工程と、
を備える。

上記（１）の態様によれば、学習モデルのハイパーパラメータに所定値を適用して学習を実施する場合の学習回数が予め設定される。そして所定値を変更しながら繰り返し算出される評価値に基づいて、ハイパーパラメータの最適値が決定される。この際、繰り返し実施される学習回数が予め設定されることで、各学習に要する時間が限定され、従来に比べてハイパーパラメータの最適値を探索するために要する時間を効果的に短縮できる。

（２）他の態様では、上記（１）の態様において、
前記学習回数設定工程は、前記ハイパーパラメータに異なる仮値を適用した複数の前記学習モデルの各々について誤差関数値の絶対値が基準条件を満たす平均学習回数が、前記学習回数として設定される第１学習回数設定工程を含む。

上記（２）の態様によれば、前述の繰り返し学習が実施される際の学習回数は、各学習モデルにおいて誤差がある程度収束するために必要な学習回数の平均値として設定される。

（３）他の態様では、上記（２）の態様において、
前記基準条件は、前記誤差関数値の絶対値が前記学習回数に対して連続してｘ回以上、閾値以下に収まることである。

上記（３）の態様によれば、学習回数に対して変動する誤差関数値の絶対値が学習回数に対して連続してｘ回以上閾値以下に収まったか否かによって、各学習モデルにおける誤差の収束を好適に判定できる。

（４）他の態様では、上記（１）から（３）のいずれか一態様において、
前記学習回数設定工程は、複数のテスト問題を用いて前記学習モデルによる学習を複数の仮学習回数で実施することで前記評価値をそれぞれ算出し、前記評価値を比較することにより前記複数の仮学習回数のいずれかを前記学習回数として設定する第２学習回数設定工程を含む。

上記（４）の態様によれば、複数のテスト問題を用いた学習を複数の仮学習回数で実施して算出された評価値に基づいて学習回数を設定することで、より簡易的且つ一意に適切な学習回数の設定が可能となる。

（５）他の態様では、上記（１）の態様において、
前記学習回数設定工程は、
前記ハイパーパラメータに異なる仮値を適用した複数の前記学習モデルの各々について誤差関数値の絶対値が基準条件を満たす平均学習回数が、前記学習回数として設定される第１学習回数設定工程と、
複数のテスト問題を用いて前記学習モデルによる学習を複数の仮学習回数で実施することで前記評価値をそれぞれ算出し、前記評価値を比較することにより前記複数の仮学習回数のいずれかを前記学習回数として設定する第２学習回数設定工程と
を含み、
前記第２学習回数設定工程を実施することにより前記学習回数を仮設定し、
前記仮設定した前記学習回数を用いて前記第１学習回数設定工程を実施する。

上記（５）の態様によれば、第２学習回数設定工程で仮設定された学習回数を用いて第１学習回数設定工程を実施することで、第２学習回数設定工程で仮設定された学習回数の信頼性評価を行うことができる。これにより、第１学習回数設定工程では、第２学習回数設定工程で仮設定された学習回数を更に小さい値に修正できるため、パラメータ最適化に要する計算時間をより効果的に削減できる。

（６）他の態様では、上記（１）の態様において、
前記学習回数設定工程は、
前記ハイパーパラメータに異なる仮値を適用した複数の前記学習モデルの各々について誤差関数値の絶対値が基準条件を満たす平均学習回数が、前記学習回数として設定される第１学習回数設定工程と、
複数のテスト問題を用いて前記学習モデルによる学習を複数の仮学習回数で実施することで前記評価値をそれぞれ算出し、前記評価値を比較することにより前記複数の仮学習回数のいずれかを前記学習回数として設定する第２学習回数設定工程と
を含み、
前記第１学習回数設定工程によって前記学習回数が設定できない場合に、前記第２学習回数設定工程によって前記学習回数を設定する。

上記（６）の態様によれば、第１学習回数設定工程による学習回数の設定が不能な場合においても、第２学習回数設定工程によって学習回数を好適に設定できる。

（７）他の態様では、上記（１）から（６）のいずれか一態様において、
前記解空間設定工程では、前記ハイパーパラメータを属性に基づいて複数のグループに分類し、分類された前記グループごとに最適化を行うことで前記解空間を設定する。

上記（７）の態様によれば、ハイパーパラメータを属性ごとにグループ分けして最適化することでハイパーパラメータの解空間を従来に比べて狭く設定することができ、最適なハイパーパラメータを探索するために要する時間を効果的に短縮できる。

（８）他の態様では、上記（１）から（７）のいずれか一態様において、
前記所定値は、最適化アルゴリズムによって選定される。

上記（８）の態様によれば、繰り返し実施される学習においてハイパーパラメータに適用される所定値を最適化アルゴリズムによって選定することで、ハイパーパラメータの最適値を効率的に探索できる。

（９）他の態様では、上記（１）から（８）のいずれか一態様において、
前記学習モデルは、強化学習モデルである。

上記（９）の態様によれば、教師あり学習モデルに比べて解空間が広い強化学習モデルにおいても、実用的な時間でハイパーパラメータの最適化が可能となる。

（１０）一態様に係る学習モデルのハイパーパラメータ決定装置は、
学習モデルのハイパーパラメータを決定するための学習モデルのハイパーパラメータ決定装置であって、
学習回数を予め設定するための学習回数設定部と、
前記ハイパーパラメータの解空間を設定するための解空間設定部と、
前記解空間に含まれるハイパーパラメータに所定値を適用することで前記学習モデルを構築し、当該学習モデルを用いて学習を前記学習回数実施することにより、前記学習モデルの評価値を算出するための評価値算出工程と、
前記所定値を変更しながら前記評価値算出工程を繰り返し実施することにより算出された前記評価値に基づいて、前記ハイパーパラメータの最適値を決定するための最適値決定工程と、
を備える。

上記（１０）の態様によれば、学習モデルのハイパーパラメータに所定値を適用して学習を実施する場合の学習回数が予め設定される。そして所定値を変更しながら繰り返し算出される評価値に基づいて、ハイパーパラメータの最適値が決定される。この際、繰り返し実施される学習回数が予め設定されることで、各学習に要する時間が限定され、従来に比べてハイパーパラメータの最適値を探索するために要する時間を効果的に短縮できる。

（１１）一態様に係る生産スケジュール作成システムは、
学習モデルを用いて生産スケジュールを作成するための生産スケジュール作成システムであって、
請求項１０に記載の学習モデルのハイパーパラメータ決定装置と、
前記ハイパーパラメータ決定装置で決定された前記ハイパーパラメータを適用した前記学習モデルを用いて学習を行うための学習装置と、
前記学習装置の学習結果を用いて生産スケジュールを作成するための生産スケジュール作成装置と、
を備える。

上記（１１）の態様によれば、最適化されたハイパーパラメータが適用された学習モデルを用いた学習によって、精度のよい生産スケジュールを作成することができる。

１０ハイパーパラメータ決定装置
１２学習回数設定部
１４解空間設定部
１６評価値算出部
１８最適値決定部
５０生産スケジュール作成システム
５２学習装置
５４生産スケジュール作成装置

Claims

学習モデルのハイパーパラメータを決定するための学習モデルのハイパーパラメータ決定方法であって、
学習回数を予め設定する学習回数設定工程と、
前記ハイパーパラメータの解空間を設定する解空間設定工程と、
前記解空間に含まれるハイパーパラメータに所定値を適用することで前記学習モデルを構築し、当該学習モデルを用いて学習を前記学習回数実施することにより、前記学習モデルの評価値を算出する評価値算出工程と、
前記所定値を変更しながら前記評価値算出工程を繰り返し実施することにより算出された前記評価値に基づいて、前記ハイパーパラメータの最適値を決定する最適値決定工程と、
を備える、学習モデルのハイパーパラメータ決定方法。
前記学習回数設定工程は、前記ハイパーパラメータに異なる仮値を適用した複数の前記学習モデルの各々について誤差関数値の絶対値が基準条件を満たす平均学習回数が、前記学習回数として設定される第１学習回数設定工程を含む、請求項１に記載の学習モデルのハイパーパラメータ決定方法。
前記基準条件は、前記誤差関数値の絶対値が前記学習回数に対して連続してｘ回以上、閾値以下に収まることである、請求項２に記載の学習モデルのハイパーパラメータ決定方法。
前記学習回数設定工程は、複数のテスト問題を用いて前記学習モデルによる学習を複数の仮学習回数で実施することで前記評価値をそれぞれ算出し、前記評価値を比較することにより前記複数の仮学習回数のいずれかを前記学習回数として設定する第２学習回数設定工程を含む、請求項１から３のいずれか一項に記載の学習モデルのハイパーパラメータ決定方法。
前記学習回数設定工程は、
前記ハイパーパラメータに異なる仮値を適用した複数の前記学習モデルの各々について誤差関数値の絶対値が基準条件を満たす平均学習回数が、前記学習回数として設定される第１学習回数設定工程と、
複数のテスト問題を用いて前記学習モデルによる学習を複数の仮学習回数で実施することで前記評価値をそれぞれ算出し、前記評価値を比較することにより前記複数の仮学習回数のいずれかを前記学習回数として設定する第２学習回数設定工程と
を含み、
前記第２学習回数設定工程を実施することにより前記学習回数を仮設定し、
前記仮設定した前記学習回数を用いて前記第１学習回数設定工程を実施する、請求項１に記載の学習モデルのハイパーパラメータ決定方法。
前記学習回数設定工程は、
前記ハイパーパラメータに異なる仮値を適用した複数の前記学習モデルの各々について誤差関数値の絶対値が基準条件を満たす平均学習回数が、前記学習回数として設定される第１学習回数設定工程と、
複数のテスト問題を用いて前記学習モデルによる学習を複数の仮学習回数で実施することで前記評価値をそれぞれ算出し、前記評価値を比較することにより前記複数の仮学習回数のいずれかを前記学習回数として設定する第２学習回数設定工程と
を含み、
前記第１学習回数設定工程によって前記学習回数が設定できない場合に、前記第２学習回数設定工程によって前記学習回数を設定する、請求項１に記載の学習モデルのハイパーパラメータ決定方法。
前記解空間設定工程では、前記ハイパーパラメータを属性に基づいて複数のグループに分類し、分類された前記グループごとに最適化を行うことで前記解空間を設定する、請求項１から６のいずれか一項に記載の学習モデルのハイパーパラメータ決定方法。
前記所定値は、最適化アルゴリズムによって選定される、請求項１から７のいずれか一項に記載の学習モデルのハイパーパラメータ決定方法。
前記学習モデルは、強化学習モデルである、請求項１から８のいずれか一項に記載の学習モデルのハイパーパラメータ決定方法。
学習モデルのハイパーパラメータを決定するための学習モデルのハイパーパラメータ決定装置であって、
学習回数を予め設定するための学習回数設定部と、
前記ハイパーパラメータの解空間を設定するための解空間設定部と、
前記解空間に含まれるハイパーパラメータに所定値を適用することで前記学習モデルを構築し、当該学習モデルを用いて学習を前記学習回数実施することにより、前記学習モデルの評価値を算出するための評価値算出工程と、
前記所定値を変更しながら前記評価値算出工程を繰り返し実施することにより算出された前記評価値に基づいて、前記ハイパーパラメータの最適値を決定するための最適値決定工程と、
を備える、学習モデルのハイパーパラメータ決定装置。
学習モデルを用いて生産スケジュールを作成するための生産スケジュール作成システムであって、
請求項１０に記載の学習モデルのハイパーパラメータ決定装置と、
前記ハイパーパラメータ決定装置で決定された前記ハイパーパラメータを適用した前記学習モデルを用いて学習を行うための学習装置と、
前記学習装置の学習結果を用いて生産スケジュールを作成するための生産スケジュール作成装置と、
を備える、生産スケジュール作成システム。