JP7360595B2 - 情報処理装置 - Google Patents
情報処理装置 Download PDFInfo
- Publication number
- JP7360595B2 JP7360595B2 JP2019130732A JP2019130732A JP7360595B2 JP 7360595 B2 JP7360595 B2 JP 7360595B2 JP 2019130732 A JP2019130732 A JP 2019130732A JP 2019130732 A JP2019130732 A JP 2019130732A JP 7360595 B2 JP7360595 B2 JP 7360595B2
- Authority
- JP
- Japan
- Prior art keywords
- learning
- machine learning
- neural network
- predetermined
- stage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Feedback Control In General (AREA)
Description
本発明は、情報処理装置に関するものである。
ある学習システムは、機械学習によって得られた学習結果と、機械学習のハイパーパラメーターとの関係を示す推定関数を推定し、推定関数に基づいて、ハイパーパラメーターの値域を限定して、ハイパーパラメーターの調整工程を短縮している(例えば特許文献1参照)。
しかしながら、上述のシステムでは、推定関数の推定に時間がかかるとともに、限定後のハイパーパラメーターの値域における各ハイパーパラメーターの値のセットについての機械学習および学習結果の評価にかかる時間は変わらない。
本発明は、上記の問題に鑑みてなされたものであり、ハイパーパラメーターの調整を短時間で行う情報処理装置を得ることを目的とする。
本発明に係る情報処理装置は、所定のニューラルネットワークの機械学習を実行する機械学習処理部と、ハイパーパラメーターに従って、前記機械学習処理部に前記機械学習を実行させる学習制御部とを備える。そして、前記学習制御部は、前段学習と、前記前段学習の後の後段学習とを実行し、(a)前記前段学習において、前記ハイパーパラメーターの単一の値セットで、所定第1条件が成立するまで、前記機械学習処理部に前記機械学習を実行させ、前記所定第1条件が成立したときの前記ニューラルネットワークのパラメーターの値を保存し、(b)前記後段学習において、保存した前記ニューラルネットワークのパラメーターの値を前記ニューラルネットワークのパラメーター初期値として、所定第2条件が成立するまで、前記ハイパーパラメーターの値セットを変更して、前記機械学習処理部に前記機械学習を実行させる。
本発明によれば、ハイパーパラメーターの調整を短時間で行う情報処理装置が得られる。
本発明の上記又は他の目的、特徴および優位性は、添付の図面とともに以下の詳細な説明から更に明らかになる。
以下、図に基づいて本発明の実施の形態を説明する。
実施の形態1.
図1は、本発明の実施の形態に係る情報処理装置の構成を示すブロック図である。図1に示す情報処理装置は、記憶装置1、通信装置2、および演算処理装置3を備える。
記憶装置1は、フラッシュメモリー、ハードディスクなどの不揮発性の記憶装置であって、各種データやプログラムを格納する。
通信装置2は、ネットワークインターフェイス、周辺機器インターフェイス、モデムなどのデータ通信可能な装置であって、必要に応じて、他の装置とデータ通信を行う。
演算処理装置3は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)などを備えるコンピューターであって、プログラムを、ROM、記憶装置1などからRAMにロードしCPUで実行することで、各種処理部として動作する。ここでは、演算処理装置3は、学習制御部21、および機械学習処理部22として動作する。
学習制御部21は、ハイパーパラメーターに従って、機械学習処理部22に機械学習を実行させる。
ハイパーパラメーターは、機械学習の対象となるニューラルネットワーク自体のパラメーターではなく、機械学習処理におけるパラメーターであり、例えば、学習率、ドロップアウト率、データオーグメンテーション変動幅、バッチサイズ、エポック数などである。
機械学習処理部22は、所定のニューラルネットワークの機械学習を実行する。
なお、ここで、ニューラルネットワークは、隠れ層が2つ以上のディープニューラルネットワークである。つまり、ディープラーニングで機械学習されるニューラルネットワークである。また、このディープニューラルネットワークの構造および機械学習については、既知のものが使用できる。
学習制御部21は、機械学習処理部22を使用して、前段学習と、前段学習の後の後段学習とを実行する。前段学習では、学習制御部21は、ハイパーパラメーターの調整をせず、特定の値セットのハイパーパラメーターで、機械学習処理部22に、機械学習を進行させ、その後、後段学習では、学習制御部21は、前段学習で得られたニューラルネットワークのパラメーター(重み係数やバイアス)の値を、ニューラルネットワークのパラメーターの初期値として、複数の値セットのハイパーパラメーターのそれぞれで、機械学習処理部22に、機械学習を進行させる。
具体的には、学習制御部21は、(a)前段学習において、ハイパーパラメーターの単一の値セット(例えばユーザーにより指定されたデフォルトの値セット)で、所定第1条件が成立するまで、機械学習処理部に機械学習を実行させ、所定第1条件が成立したときのニューラルネットワークのパラメーターの値をRAMや記憶装置1に保存し、(b)後段学習において、保存したニューラルネットワークのパラメーターの値をニューラルネットワークのパラメーター初期値として、所定第2条件が成立するまで、ハイパーパラメーターの値セットを変更して、機械学習処理部に機械学習を実行させる。
ここで、第1条件および第2条件は、学習誤差、エポック数などに基づき設定される。
例えば、第1条件は、機械学習の学習誤差が所定第1閾値より低くなることとされ、第2条件は、機械学習の学習誤差が所定第2閾値より低くなることとされ、その際の第2閾値は、第1閾値より低く設定される。
ここで、学習誤差は、機械学習のトレーニングデータとは別に準備されている評価データ(入力データと出力データとの対)に基づいて計算される。具体的には、対象のニューラルネットワークに評価データの入力データを入力し、対象のニューラルネットワークの出力データと、評価データの出力データとの差分に基づいて、学習誤差が導出される。
後段学習では、学習制御部21は、ハイパーパラメーターの値セットにおける各値を所定の値域内で変更する。また、後段学習では、学習制御部21は、ハイパーパラメーターの値セットを、ランダムサーチ、グリッドサーチ、ベイズ最適化などといった既知の方法に従って変更していく。
次に、上記装置の動作について説明する。図2は、図1に示す情報処理装置の動作について説明するフローチャートである。
まず、学習制御部21は、機械学習の対象のニューラルネットワークの構造(中間層の数、各層のニューロン数など)を設定する(ステップS1)。なお、入力層および出力層のニューロン数は、トレーニングデータの入力データおよび出力データに基づき特定され、その他の構造については、ここでは、例えばユーザーにより予め指定される。
次に、学習制御部21は、機械学習処理部22に、そのニューラルネットワークの機械学習処理(前段学習)を実行させる(ステップS2)。このとき、機械学習処理部22は、記憶装置1などに予め記憶されたトレーニングデータを使用して、そのニューラルネットワークの機械学習処理を実行する。
機械学習処理部22が所定回数の機械学習処理を実行すると、学習制御部21は、前段学習を終了するか否かを判定する(ステップS3)。前段学習を終了しないとを判定した場合、学習制御部21は、ステップS2の前段学習を継続する。前段学習を終了するとを判定した場合、学習制御部21は、前段学習を終了し、この時点でのニューラルネットワークのパラメーター(重み係数など)を保存する(ステップS4)。
例えば、ステップS3では、機械学習処理部22は、評価データに基づいて、現時点のニューラルネットワークの学習誤差を導出し、その学習誤差が所定閾値未満であれば、前段学習を終了する。
次に、学習制御部21は、後段学習を実行する。まず、学習制御部21は、所定の方式(ランダムサーチ、ベイズ最適化など)に従って、ハイパーパラメーターの値セットを変更し(ステップS5)、変更後のハイパーパラメーターで、機械学習処理部22に、所定エポック数の機械学習処理を実行させる(ステップS6,S7)。
所定エポック数の機械学習処理が終了すると、学習制御部21は、後段学習を終了するか否か(つまり、適切なハイパーパラメーターでの機械学習が完了したか否か)を判定する(ステップS8)。後段学習を終了しないとを判定した場合、学習制御部21は、(必要に応じて、現時点のハイパーパラメーターの値セットとニューラルネットワークのパラメーターの値とを互いに関連付けて学習結果として記憶装置1などに保存し)ステップS4で保存したニューラルネットワークのパラメーターの値を読み出して、ニューラルネットワークのパラメーター初期値としてセットし(ステップS9)、ハイパーパラメーターの値セットを変更し(ステップS5)、ステップS6以降の処理を実行する。
一方、ステップS8において後段学習を終了すると判定した場合、学習制御部21は、この時点でのニューラルネットワークのパラメーター(重み係数など)の値およびハイパーパラメーターの値セットを学習結果として保存し、機械学習を終了する。
以上のように、上記実施の形態1によれば、学習制御部21は、前段学習と、前段学習の後の後段学習とを実行する。そして、前段学習において、学習制御部21は、ハイパーパラメーターの単一の値セットで、所定第1条件が成立するまで、機械学習処理部22に機械学習を実行させ、所定第1条件が成立したときのニューラルネットワークのパラメーターの値を保存する。次に、後段学習において、学習制御部21は、保存したニューラルネットワークのパラメーターの値をニューラルネットワークのパラメーター初期値として、所定第2条件が成立するまで、ハイパーパラメーターの値セットを変更して、機械学習処理部22に機械学習を実行させる。
これにより、前段学習で途中まで機械学習を進行させてからハイパーパラメーターの調整を行うため、ハイパーパラメーターの調整が比較的短時間で済む。
実施の形態2.
実施の形態2では、学習制御部21は、上述のステップS1において、(a)上述の各ハイパーパラメーターの値域において、ニューラルネットワークの構造(中間層の数、各層のニューロン数など)に最も複雑さが要求される値を、ハイパーパラメーターの値セットにおける各値に設定して、所定条件が成立するまで、ニューラルネットワークの構造を変更して、機械学習処理部22に機械学習を実行させ、(b)所定条件が成立したときのニューラルネットワークの構造で、上述の前段学習および後段学習を実行する。なお、ここでは、ハイパーパラメーターには、上述の前段処理と同様に、所定の単一の値セットが適用される。
例えば、学習制御部21は、所定初期値からニューラルネットワークの中間層の数、各層のニューロン数などを増加させ、各構造でニューラルネットワークの機械学習を実行させ、学習誤差が所定閾値未満になったときの構造を、機械学習対象のニューラルネットワークの構造とし、上述の前段学習および後段学習を実行する。
例えば、データオーグメンテーションの画像回転範囲幅の値域が0~15度である場合、最大値である15度がニューラルネットワークの構造に最も複雑さが要求される値であるため、ここでは、データオーグメンテーションの画像回転範囲幅を15度に固定して、機械学習すべきニューラルネットワークの構造が上述のようにして特定される。同様に、例えば、ドロップ率の値域が0~60%である場合、最大値である60%がニューラルネットワークの構造に最も複雑さが要求される値であるため、ここでは、ドロップ率を60%に固定して、機械学習すべきニューラルネットワークの構造が上述のようにして特定される。
なお、実施の形態2に係る情報処理装置のその他の構成および動作については実施の形態1と同様であるので、その説明を省略する。
以上のように、上記実施の形態2によれば、前段学習および後段学習の前に、機械学習の対象となるニューラルネットワークの適切な構造が特定されるため、前段学習や後段学習において、学習誤差が適切に減少させることができる。
なお、上述の実施の形態に対する様々な変更および修正については、当業者には明らかである。そのような変更および修正は、その主題の趣旨および範囲から離れることなく、かつ、意図された利点を弱めることなく行われてもよい。つまり、そのような変更および修正が請求の範囲に含まれることを意図している。
例えば、上記実施の形態において、後段学習の終了条件(ステップS8)は、ベイズ最適化の場合には、学習誤差が収束したか否か(つまり、前回の学習誤差と今回の学習誤差との差が所定値未満となったか否か)としてもよい。
また、上記実施の形態において、後段学習の終了条件(ステップS8)は、ハイパーパラメーターの値セットの変更回数としてもよい。その場合、ハイパーパラメーターの値セットのうち、学習誤差が最小であった学習結果(ニューラルネットワークのパラメーター値)が、機械学習対象のニューラルネットワークのパラメーター値として選択される。
さらに、上記実施の形態1において、前段学習または後段学習において、所定回数の機械学習処理を行っても学習誤差が閾値より低くならない場合、機械学習処理を中止し、ニューラルネットワークの構造を変更して(つまり、中間層の数や中間層のニューロン数を増加させ、再度、前段学習および後段学習を実行するようにしてもよい。
本発明は、例えば、ニューラルネットワークの機械学習に適用可能である。
3 演算処理装置
21 学習制御部
22 機械学習処理部
21 学習制御部
22 機械学習処理部
Claims (3)
- 所定のニューラルネットワークの機械学習を実行する機械学習処理部と、
ハイパーパラメーターに従って、前記機械学習処理部に前記機械学習を実行させる学習制御部とを備え、
前記学習制御部は、前段学習と、前記前段学習の後の後段学習とを実行し、(a)前記前段学習において、前記ハイパーパラメーターの単一の値セットで、所定第1条件が成立するまで、前記機械学習処理部に前記機械学習を実行させ、前記所定第1条件が成立したときの前記ニューラルネットワークのパラメーターの値を保存し、(b)前記後段学習において、保存した前記ニューラルネットワークのパラメーターの値を前記ニューラルネットワークのパラメーター初期値として、所定第2条件が成立するまで、前記ハイパーパラメーターの値セットを変更して、前記機械学習処理部に前記機械学習を実行させること、
を特徴とする情報処理装置。 - 前記第1条件は、前記機械学習の学習誤差が所定第1閾値より低くなることであり、
前記第2条件は、前記機械学習の学習誤差が所定第2閾値より低くなることであり、
前記第2閾値は、前記第1閾値より低いこと、
を特徴とする請求項1記載の情報処理装置。 - 前記学習制御部は、前記ハイパーパラメーターの値セットにおける各値を所定の値域内で変更し、
前記学習制御部は、(a)前記値域において、前記ニューラルネットワークの構造に最も複雑さが要求される値を、前記ハイパーパラメーターの値セットにおける各値に設定して、所定第3条件が成立するまで、前記ニューラルネットワークの構造を変更して、前記機械学習処理部に前記機械学習を実行させ、(b)前記所定第3条件が成立したときの前記ニューラルネットワークの構造で、前記前段学習および前記後段学習を実行すること、
を特徴とする請求項1記載の情報処理装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019130732A JP7360595B2 (ja) | 2019-07-12 | 2019-07-12 | 情報処理装置 |
US16/924,077 US20210012195A1 (en) | 2019-07-12 | 2020-07-08 | Information processing apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019130732A JP7360595B2 (ja) | 2019-07-12 | 2019-07-12 | 情報処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021015526A JP2021015526A (ja) | 2021-02-12 |
JP7360595B2 true JP7360595B2 (ja) | 2023-10-13 |
Family
ID=74103218
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019130732A Active JP7360595B2 (ja) | 2019-07-12 | 2019-07-12 | 情報処理装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20210012195A1 (ja) |
JP (1) | JP7360595B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11880755B2 (en) * | 2020-05-14 | 2024-01-23 | International Business Machines Corporation | Semi-supervised learning with group constraints |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018160200A (ja) | 2017-03-24 | 2018-10-11 | 富士通株式会社 | ニューラルネットワークの学習方法、ニューラルネットワークの学習プログラム及びニューラルネットワークの学習装置 |
US20190138901A1 (en) | 2017-11-06 | 2019-05-09 | The Royal Institution For The Advancement Of Learning/Mcgill University | Techniques for designing artificial neural networks |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11093826B2 (en) * | 2016-02-05 | 2021-08-17 | International Business Machines Corporation | Efficient determination of optimized learning settings of neural networks |
US11228379B1 (en) * | 2017-06-23 | 2022-01-18 | DeepSig Inc. | Radio signal processing network model search |
-
2019
- 2019-07-12 JP JP2019130732A patent/JP7360595B2/ja active Active
-
2020
- 2020-07-08 US US16/924,077 patent/US20210012195A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018160200A (ja) | 2017-03-24 | 2018-10-11 | 富士通株式会社 | ニューラルネットワークの学習方法、ニューラルネットワークの学習プログラム及びニューラルネットワークの学習装置 |
US20190138901A1 (en) | 2017-11-06 | 2019-05-09 | The Royal Institution For The Advancement Of Learning/Mcgill University | Techniques for designing artificial neural networks |
Also Published As
Publication number | Publication date |
---|---|
JP2021015526A (ja) | 2021-02-12 |
US20210012195A1 (en) | 2021-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12008474B2 (en) | Automatic thresholds for neural network pruning and retraining | |
US10776668B2 (en) | Effective building block design for deep convolutional neural networks using search | |
Miche et al. | OP-ELM: theory, experiments and a toolbox | |
US20190258932A1 (en) | Method of performing learning of deep neural network and apparatus thereof | |
WO2020224297A1 (zh) | 计算机执行的集成模型的确定方法及装置 | |
CN111144561A (zh) | 一种神经网络模型确定方法及装置 | |
CN110647974A (zh) | 深度神经网络中的网络层运算方法及装置 | |
US20180293486A1 (en) | Conditional graph execution based on prior simplified graph execution | |
JP2019185127A5 (ja) | ニューラルネットワークの学習装置およびその制御方法 | |
US11915141B2 (en) | Apparatus and method for training deep neural network using error propagation, weight gradient updating, and feed-forward processing | |
JP7360595B2 (ja) | 情報処理装置 | |
WO2020046078A3 (ko) | 인공지능 세탁기 및 인공지능 세탁기의 제어방법 | |
KR20200038072A (ko) | 엔트로피 기반 신경망(Neural Networks) 부분학습 방법 및 시스템 | |
JP7279225B2 (ja) | 破滅的忘却の発生を抑えつつ、転移学習を行う方法、情報処理装置及びプログラム | |
JP2023076839A (ja) | 機械学習装置およびプルーニング方法 | |
US11526753B2 (en) | System and a method to achieve time-aware approximated inference | |
US11810265B2 (en) | Image reconstruction method and device, apparatus, and non-transitory computer-readable storage medium | |
JP2023078578A (ja) | 画像処理装置、学習システム、および、学習方法 | |
JP2019185121A (ja) | 学習装置、学習方法及びプログラム | |
KR102365270B1 (ko) | 희소 신경망 생성 방법 및 이를 위한 시스템 | |
CN113554169A (zh) | 模型优化方法、装置、电子设备及可读存储介质 | |
KR102121783B1 (ko) | 인공신경망에서의 선택적 추론 방법 | |
CN112102193B (zh) | 图像增强网络的训练方法、图像处理方法及相关设备 | |
WO2023248414A1 (ja) | 求解装置、求解方法および求解プログラム | |
WO2023125521A1 (zh) | 一种深度学习模型训练方法、装置及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220630 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230831 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230913 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7360595 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |