JP7437763B2 - 解析装置、解析方法及び解析プログラム - Google Patents
解析装置、解析方法及び解析プログラム Download PDFInfo
- Publication number
- JP7437763B2 JP7437763B2 JP2020140108A JP2020140108A JP7437763B2 JP 7437763 B2 JP7437763 B2 JP 7437763B2 JP 2020140108 A JP2020140108 A JP 2020140108A JP 2020140108 A JP2020140108 A JP 2020140108A JP 7437763 B2 JP7437763 B2 JP 7437763B2
- Authority
- JP
- Japan
- Prior art keywords
- learning
- loss function
- learning model
- algorithms
- performance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title description 63
- 238000004422 calculation algorithm Methods 0.000 claims description 116
- 230000006870 function Effects 0.000 claims description 77
- 238000010801 machine learning Methods 0.000 claims description 55
- 238000004364 calculation method Methods 0.000 claims description 23
- 230000010365 information processing Effects 0.000 claims description 6
- 238000003672 processing method Methods 0.000 claims 1
- 238000000034 method Methods 0.000 description 29
- 238000007781 pre-processing Methods 0.000 description 19
- 238000005457 optimization Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 9
- 238000000137 annealing Methods 0.000 description 7
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000011480 coordinate descent method Methods 0.000 description 4
- 238000012098 association analyses Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005040 ion trap Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N10/00—Quantum computing, i.e. information processing based on quantum-mechanical phenomena
- G06N10/20—Models of quantum computing, e.g. quantum circuits or universal quantum computers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N10/00—Quantum computing, i.e. information processing based on quantum-mechanical phenomena
- G06N10/60—Quantum algorithms, e.g. based on quantum optimisation, quantum Fourier or Hadamard transforms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Condensed Matter Physics & Semiconductors (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
許文献1には、様々な現実的な事象における問題の解決に用いることを目的としたモデル
選択装置が記載されている。
問題に応じて学習処理のアルゴリズムを適切に選択しなければ、学習モデルの性能を十分
に引き出せない場合がある。一般的には、学習モデルを設定する者の経験則に基づき、所
定の問題に所定のアルゴリズムを用いることが行われており、選択されたアルゴリズムが
適切であるかどうかの性能評価をする手段がなかった。
性能を予測する解析装置、解析方法及び解析プログラムを提供する。
設定された第1損失関数の値を小さくするように所定の学習モデルの機械学習をそれぞれ
行う学習部と、機械学習に基づき、第1損失関数の大域的形状を表す第1形状情報と、学
習モデルの性能とを、アルゴリズムごとに算出する算出部と、複数のアルゴリズムのうち
少なくともいずれかを用いて、新たな問題について設定された第2損失関数の値を小さく
するような機械学習が学習部により実行され、算出部により算出された第2損失関数の大
域的形状を表す第2形状情報を取得する取得部と、第1形状情報及び学習モデルの性能を
学習データとする教師あり学習によって生成された予測モデルを用いて、第2形状情報に
基づいて、第2損失関数の値を小さくするように学習モデルの機械学習を実行した場合の
学習モデルの性能を、複数のアルゴリズムそれぞれについて予測する予測部と、を備える
。
学習モデルの機械学習を実行することで、他のアルゴリズムを用いて学習モデルの機械学
習を実行した場合に得られる学習モデルの性能を予測することができる。
能を予測する解析装置、解析方法及び解析プログラムを提供することができる。
の符号を付したものは、同一又は同様の構成を有する。
解析装置10は、学習部11、算出部12、取得部13、予測部14、記憶部15及び生
成部16を備える。解析装置10は、汎用のコンピュータで構成されてもよい。
関数の値を小さくするように所定の学習モデルの機械学習をそれぞれ行う。ここで、所定
の問題は、例えば画像データ、系列データ及びテキストデータの少なくともいずれかにつ
いて、分類、生成及び最適化の少なくともいずれかを行う問題を含む。ここで、画像デー
タは、静止画のデータと、動画のデータとを含む。系列データは、音声データや株価のデ
ータを含む。また、所定の学習モデルは、画像認識モデル、系列データ解析モデル、ロボ
ットの制御モデル、強化学習モデル、音声認識モデル、音声生成モデル、画像生成モデル
、自然言語処理モデル等を含み、例えば、CNN(Convolutional Neural Network)、R
NN(Recurrent Neural Network)、LSTM(Long Short-Term Memory)、双方向LS
TM、DQN(Deep Q-Network)、VAE(Variational AutoEncoder)、GANs(Gen
erative Adversarial Networks)、WaveNet、BERT(Bidirectional Encoder
Representations from Transformers)、Word2Vec、ランダムフォレスト、サポ
ートベクターマシン、ロジスティック回帰、勾配ブースティング決定木及び主成分分析等
のいずれかであり、その他学習に適用可能なモデルを含む。また、学習モデルは、既存の
学習済みモデルを枝刈り(Pruning)、量子化(Quantization)又は蒸留(Distillation
)して得られるモデルを含む。なお、これらは一例に過ぎず、学習部11は、これら以外
の問題について、学習モデルの機械学習を行ってもよい。
、学習モデル12aがニューラルネットワークを含む場合、誤差逆伝播法によりニューラ
ルネットワークのパラメータを更新し、最適化するアルゴリズムであってよい。複数のア
ルゴリズムは、確率的勾配降下法(stochastic gradient descent:SGD)、モーメン
タムSGD、AdaGrad、RMSProp、AdaDelta及びADAM等を含む
。また、複数のアルゴリズムは、学習モデル12aのパラメータを、量子ゲート方式又は
量子アニーリング方式の量子コンピュータによって更新するアルゴリズムを含む。例えば
、複数の弱学習器を組み合わせた1つの強学習器によって学習モデル12aを構成する場
合、Hartmut Neven, Vasil S. Denchev, Geordie Rose, William G. Macready, "QBoost:
Large Scale Classifier Training with Adiabatic Quantum Optimization", Proceedin
gs of the Asian Conference on Machine Learning, PMLR 25:333-348, 2012.に記載のア
ルゴリズムを用いてよい。また、Jacob Biamonte, Peter Wittek, Nicola Pancotti, Pat
rick Rebentrost, Nathan Wiebe and Seth Lloyd, "Quantum Machine Learning", Nature
volume 549, pages 195-202, 2017.に記載のアルゴリズムを用いてもよい。なお、これ
らは一例に過ぎず、複数のアルゴリズムは、これら以外のアルゴリズムを含んでよい。ま
た、量子コンピュータは、超伝導線路により量子ビットを構成するものであったり、イオ
ントラップにより量子ビットを構成するものであったり、光回路によって量子ビットを構
成するものであったりしてよく、ハードウェア構成は任意である。さらに、複数のアルゴ
リズムは、学習モデル12aのパラメータを、量子コンピュータ及び古典コンピュータの
ハイブリッド型コンピュータによって更新するアルゴリズムを含んでもよい。
学習モデル12aの性能とを、アルゴリズムごとに算出する。所定の問題について設定さ
れた第1損失関数は、学習モデル12aの出力とラベルデータとに関する2乗誤差関数で
あったり、クロスエントロピー関数であったりしてよい。学習モデル12aが含む複数の
パラメータをθと表すとき、第1損失関数は、複数のパラメータθに関する関数L(θ)
と表せる。本明細書では、関数L(θ)の値を、第1損失関数の大域的形状を表す第1形
状情報と呼ぶ。例えば、算出部12は、学習モデル12aの機械学習に基づき、パラメー
タθに対する関数L(θ)の値を記録していき、第1損失関数の大域的形状を表す第1形
状情報L(θ)を算出する。
時間)で表したり、第1損失関数の値で表したりしてよい。なお、F値は、適合率(prec
ision)をPと表し、再現率(recall)をRと表すとき、2PR/(P+R)により算出
される値である。算出部12は、学習モデル12aの機械学習に基づき、F値等で表され
る学習モデル12aの性能を算出する。
アルゴリズムを用いて、第1損失関数の値を小さくするように所定の学習モデル12aの
機械学習を個別に実行又は並列に実行してもよい。並列実行の場合、算出部12は、機械
学習に基づき、第1形状情報と、学習モデル12aの性能とを、アルゴリズムごとに並列
して算出する。
を用いて学習モデル12aの機械学習を実行することで、損失関数の極小値に対応するパ
ラメータが選ばれてしまうおそれを少なくすることができるからである。これにより、大
域的に最適な損失関数の最小値に対応するパラメータを選ぶことができる確率を上げるこ
とができる。また、学習モデル12aの機械学習を複数の初期値についてそれぞれ並列実
行する場合、大域的な最適解をより高速に求めることができる。
ついて設定された第2損失関数の値を小さくするような機械学習が学習部11により実行
され、算出部12により算出された第2損失関数の大域的形状を表す第2形状情報を取得
する。ここで、新たな問題は、画像データ、系列データ及びテキストデータの少なくとも
いずれかについて、分類、生成及び最適化の少なくともいずれかを行う問題を含む。また
、第2損失関数は、学習モデル12aの出力とラベルデータとに関する2乗誤差関数であ
ったり、クロスエントロピー関数であったりしてよく、第2形状情報は、複数のパラメー
タθに関する第2損失関数の関数形L(θ)であってよい。
学習によって生成された予測モデル14aを用いる。また、予測部14は、この予測モデ
ル14aを用いて、第2形状情報に基づいて、第2損失関数の値を小さくするように学習
モデル12aの機械学習を実行した場合の学習モデル12aの性能を、複数のアルゴリズ
ムそれぞれについて予測する。例えば、予測部14は、予測モデル14aに、所定のアル
ゴリズムの第2形状情報を入力することで、その他のアルゴリズムを含む複数のアルゴリ
ズムそれぞれについて、機械学習を実行した場合の学習モデル12aの性能を出力する。
に引き出すことができるかを試行錯誤によって決定する場合、アルゴリズムの選定に時間
を要する場合がある。本実施形態に係る解析装置10によれば、複数のアルゴリズムのう
ち少なくとも1つのアルゴリズムを用いて学習モデル12aの機械学習を実行することで
、他のアルゴリズムを用いて学習モデル12aの機械学習を実行した場合に得られる学習
モデル12aの性能を予測することができる。そのため、新たな問題が与えられた場合に
、いずれのアルゴリズムを用いるべきか迅速に決定することができ、学習モデル12aの
性能を適切に引き出すことができるようになる。
第1損失関数の値を小さくし、1又は複数のハイパーパラメータを複数の最適化アルゴリ
ズムを用いて最適化して、所定の学習モデル12aの機械学習をそれぞれ行ってもよい。
この場合、算出部12は、機械学習に基づき、第1損失関数の大域的形状を表す第1形状
情報と、学習モデル12aの性能とを、複数の最適化アルゴリズムごとに算出する。ここ
で、ハイパーパラメータは、例えばアルゴリズムがSGDの場合、学習係数を含む。他の
アルゴリズムに関しても、同様に、学習係数やモーメンタム係数といったハイパーパラメ
ータが設定される。また、複数の最適化アルゴリズムは、例えば、ランダムサーチ、ベイ
ジアン最適化、CMA-ES、座標降下法及びネルダー-ミード法等を含む。学習部11
は、複数のアルゴリズムに関して1又は複数のハイパーパラメータを最適化する最適化ア
ルゴリズムを用いた場合について、学習モデル12aの機械学習を実行した場合の学習モ
デル12aの性能を予測する。これにより、複数のアルゴリズムのうちいずれを選択すべ
きか予測するだけでなく、どのようなハイパーパラメータの最適化法を用いるべきである
か予測することができ、ハイパーパラメータチューニングに要する時間を短縮することが
できる。
憶する。学習データ15aは、あるアルゴリズムによって学習モデル12aの機械学習を
実行した場合における損失関数の大域的形状を表す第1形状情報と、その機械学習の結果
得られた学習モデル12aの性能とを含む。
生成する。予測モデル14aは、例えばニューラルネットワークで構成されてよく、新た
な問題について設定された第2損失関数の大域的形状を表す第2形状情報を入力として、
複数のアルゴリズムを用いて、新たな問題について設定された第2損失関数の値を小さく
するように学習モデル12aの機械学習を実行した場合の学習モデル12aの性能を予測
するモデルである。
10は、演算部に相当するCPU(Central Processing Unit)10aと、記憶部に相当
するRAM(Random Access Memory)10bと、記憶部に相当するROM(Read only Me
mory)10cと、通信部10dと、入力部10eと、表示部10fと、を有する。これら
の各構成は、バスを介して相互にデータ送受信可能に接続される。なお、本例では解析装
置10が一台のコンピュータで構成される場合について説明するが、解析装置10は、複
数のコンピュータ又は複数の演算部が組み合わされて実現されてもよい。また、図2で示
す構成は一例であり、解析装置10はこれら以外の構成を有してもよいし、これらの構成
のうち一部を有さなくてもよい。
る制御やデータの演算、加工を行う制御部である。CPU10aは、複数のアルゴリズム
を用いて、新たな問題について設定された第2損失関数の値を小さくするように学習モデ
ルの機械学習を実行した場合の学習モデルの性能を、複数のアルゴリズムそれぞれについ
て予測するプログラム(解析プログラム)を実行する演算部である。CPU10aは、入
力部10eや通信部10dから種々のデータを受け取り、データの演算結果を表示部10
fに表示したり、RAM10bに格納したりする。
憶素子で構成されてよい。RAM10bは、CPU10aが実行するプログラム、所定の
問題について設定された損失関数の大域的形状及び学習モデルの性能を含む学習データと
いったデータを記憶してよい。なお、これらは例示であって、RAM10bには、これら
以外のデータが記憶されていてもよいし、これらの一部が記憶されていなくてもよい。
憶素子で構成されてよい。ROM10cは、例えば解析プログラムや、書き換えが行われ
ないデータを記憶してよい。
10dは、インターネット等の通信ネットワークに接続されてよい。
ド及びタッチパネルを含んでよい。
、LCD(Liquid Crystal Display)により構成されてよい。表示部10fは、例えば、
損失関数の大域的形状を表示してよい。
能な記憶媒体に記憶されて提供されてもよいし、通信部10dにより接続される通信ネッ
トワークを介して提供されてもよい。解析装置10では、CPU10aが解析プログラム
を実行することにより、図1を用いて説明した様々な動作が実現される。なお、これらの
物理的な構成は例示であって、必ずしも独立した構成でなくてもよい。例えば、解析装置
10は、CPU10aとRAM10bやROM10cが一体化したLSI(Large-Scale
Integration)を備えていてもよい。また、解析装置10は、GPU(Graphical Process
ing Unit)やASIC(Application Specific Integrated Circuit)を備えていてもよ
い。
一例を示す図である。同図では、SGD、モーメンタムSGD(Momentum SGD)、Ada
Grad、RMSProp、AdaDelta、ADAM、量子ゲート方式及び量子アニ
ーリング方式というアルゴリズムを用い、それぞれ、ランダムサーチ(Random Search)
、ベイジアン最適化(Bayesian Optimization)、CMA-ES、座標降下法(Coordinat
e Search)及びネルダー-ミード法(Nelder-Mead)によって1又は複数のハイパーパラ
メータを最適化した場合における学習モデルの性能を示している。例えば、a1~a5は
、アルゴリズムとしてSGDを用いて、ランダムサーチ、ベイジアン最適化、CMA-E
S、座標降下法又はネルダー-ミード法によって1又は複数のハイパーパラメータを最適
化した場合における学習モデルの性能を表す数値である。なお、b1~b5、c1~c5
、d1~d5、e1~e5、f1~f5、g1~g5及びh1~h5は、同様に学習モデ
ルの性能を表す数値である。
る。同図では、簡単のため、学習モデルのパラメータとしてθ1及びθ2を示し、損失関
数の値L(θ)を示している。同図に示すように、損失関数の大域的形状は、複数の極小
点を含み、最小点の探索が困難な場合がある。本実施形態に係る解析装置10は、このよ
うな損失関数の大域的形状を、学習モデル及び学習アルゴリズムの特徴量と捉え、損失関
数の大域的形状から、複数のアルゴリズムを用いて学習モデルの学習処理を行った場合に
関する学習モデルの性能を予測する。
ある。同図では、SGD、モーメンタムSGD(Momentum SGD)、AdaGrad、RM
SProp、AdaDelta、ADAM、量子ゲート方式及び量子アニーリング方式と
いうアルゴリズムについて、第1形状情報及び学習モデルの性能を示している。例えば、
La(θ)は、アルゴリズムとしてSGDを用いた場合における第1形状情報を表し、S
aは、アルゴリズムとしてSGDを用いた場合における学習モデルの性能を表す数値であ
る。同様に、Lb(θ)、Lc(θ)、Ld(θ)、Le(θ)、Lf(θ)、Lg(θ
)及びLh(θ)は、アルゴリズムとしてAdaGrad、RMSProp、AdaDe
lta、ADAM、量子ゲート方式又は量子アニーリング方式を用いた場合における第1
形状情報を表す。また、Sb、Sc、Sd、Se、Sf、Sg及びShは、アルゴリズム
としてAdaGrad、RMSProp、AdaDelta、ADAM、量子ゲート方式
又は量子アニーリング方式を用いた場合における学習モデルの性能を表す数値である。な
お、学習モデルの性能は、図3に示すように、ハイパーパラメータの最適化アルゴリズム
ごとに算出し、それらを学習データとしてもよい。
チャートである。はじめに、解析装置10は、所定の問題及び所定の学習モデルの指定を
他の情報処理装置から受け付ける(S10)。所定の問題及び所定の学習モデルの指定は
、ユーザ入力されてよい。
1)、1又は複数のハイパーパラメータを含む複数のアルゴリズムを用いて、第1損失関
数の値を小さくし、1又は複数のハイパーパラメータを複数の最適化アルゴリズムを用い
て最適化して、所定の学習モデルの機械学習をそれぞれ並列実行する(S12)。
情報と、学習モデルの性能とを、アルゴリズムごとに並列して算出する(S13)。そし
て、解析装置10は、第1形状情報及び学習モデルの性能を学習データとして記憶部15
に記憶する(S14)。
5)。新たな問題の指定は、ユーザ入力されてよい。
について設定された第2損失関数の値を小さくするような機械学習が学習部11により実
行され、算出部12により算出された第2損失関数の大域的形状を表す第2形状情報を取
得する(S16)。そして、解析装置10は、予測モデルを用いて、第2形状情報に基づ
いて、第2損失関数の値を小さくするように学習モデルの機械学習を実行した場合の学習
モデルの性能を、複数のアルゴリズムそれぞれについて予測する(S17)。
示すフローチャートである。はじめに、解析装置10は、第1形状情報及び学習モデルの
性能を含む学習データを取得する(S20)。なお、学習データは、インターネット等の
通信ネットワークを介して、外部記憶装置から取得してもよい。
基づいて、第2損失関数の値を小さくするように学習モデルの機械学習を実行した場合の
学習モデルの性能を、複数のアルゴリズムそれぞれについて予測する予測モデルを生成す
る(S21)。そして、解析装置10は、生成された予測モデルを記憶する。
示す図である。同図では、階層型クラスタリング、非階層型クラスタリング、トピックモ
デル、自己組織化マップ、アソシエーション分析、協調フィルタリング、正準相関分析、
量子ゲート方式及び量子アニーリング方式という教師なし学習を用いて学習データを分類
し、分類に応じた前処理アルゴリズムを適用して、それぞれ、ランダムサーチ(Random S
earch)、ベイジアン最適化(Bayesian Optimization)、CMA-ES、座標降下法(Co
ordinate Search)及びネルダー-ミード法(Nelder-Mead)によって1又は複数のハイパ
ーパラメータを最適化した場合における学習モデルの性能を示している。G1~G5は、
教師なし学習として階層型クラスタリングを用いて、ランダムサーチ、ベイジアン最適化
、CMA-ES、座標降下法又はネルダー-ミード法によって、階層型クラスタリングに
含まれる1又は複数のハイパーパラメータを最適化した場合における学習モデルの性能を
表す数値である。なお、G6~G45は、同様に学習モデルの性能を表す数値である。
いて、機械学習に用いる学習データの前処理を行い、複数のアルゴリズムを用いて、第1
損失関数の値を小さくし、1又は複数のハイパーパラメータを複数の最適化アルゴリズム
を用いて最適化して、所定の学習モデルについて、前処理された学習データを用いた機械
学習をそれぞれ行う。そして、算出部12は、前処理された学習データを用いた機械学習
に基づき、第1損失関数の大域的形状を表す第1形状情報と、学習モデルの性能とを、複
数の前処理アルゴリズムごとに算出する。
作、次元削減、ワンホットベクトル化、データ拡張、特徴量エンジニアリング及びビン分
割を含んでよい。複数の前処理アルゴリズムは、学習データを教師なし学習を用いて分類
し、分類に応じた前処理を行うアルゴリズムを含む。すなわち、複数の前処理アルゴリズ
ムは、階層型クラスタリング、非階層型クラスタリング、トピックモデル、自己組織化マ
ップ、アソシエーション分析、協調フィルタリング、正準相関分析、量子ゲート方式及び
量子アニーリング方式といった教師なし学習を用いて学習データを分類し、分類に応じて
欠損値処理、説明変数の絞り込み、ワンホットベクトル化及びビン分割の少なくともいず
れかを行うアルゴリズムを含む。
を示す図である。同図では、学習アルゴリズムのハイパーパラメータを調整するためのス
ライドバーと、前処理アルゴリズムのハイパーパラメータを調整するためのスライドバー
と、縦軸に学習アルゴリズムの種類を数値で表し、横軸に前処理アルゴリズムの種類を数
値で表して、(L-損失関数)の値のヒートマップを表示している。ここで、Lは、損失
関数の最大値である。なお、(L-損失関数)の値は、学習モデルの性能を表す値の一例
であり、解析装置10は、損失関数の値のヒートマップに替えて、学習モデルの性能を示
すF値やF値/(学習処理の計算時間)のヒートマップを表示してもよい。
複数の前処理アルゴリズムに含まれる1又は複数のハイパーパラメータとを調整可能に表
示し、学習モデルの性能を、複数のアルゴリズム及び複数の前処理アルゴリズムそれぞれ
について表示する。解析装置10のユーザは、学習アルゴリズムのハイパーパラメータ及
び前処理アルゴリズムのハイパーパラメータを調整しつつ、ヒートマップにより示される
最も損失関数の値が小さくなる点(最尤点)を確認し、その点に対応する学習アルゴリズ
ム及び前処理アルゴリズムを選択することで、複数の学習アルゴリズム及び複数の前処理
アルゴリズムの中から最適なアルゴリズムを効率良く選択することができる。
である。はじめに、解析装置10は、学習アルゴリズムのハイパーパラメータの指定及び
前処理アルゴリズムのハイパーパラメータの指定を受け付ける(S30)。
して、解析装置10は、1又は複数のハイパーパラメータを含む複数の前処理アルゴリズ
ムを用いて、機械学習に用いる学習データの前処理を行い、複数のアルゴリズムを用いて
、第1損失関数の値を小さくし、1又は複数のハイパーパラメータを複数の最適化アルゴ
リズムを用いて最適化して、所定の学習モデルについて、前処理された学習データを用い
た機械学習をそれぞれ実行する(S32)。
大域的形状を表す第1形状情報と、学習モデルの性能とを、複数の前処理アルゴリズムご
とに算出する(S33)。そして、解析装置10は、第1形状情報及び学習モデルの性能
を学習データとして記憶する(S34)。
置10は、複数の前処理アルゴリズムのうち少なくともいずれかを用いて、新たな問題に
ついて設定された第2損失関数の値を小さくするような機械学習が学習部により実行され
、算出部により算出された第2損失関数の大域的形状を表す第2形状情報を取得する(S
36)。
数の値を小さくするように学習モデルの機械学習を実行した場合の学習モデルの性能を、
複数の前処理アルゴリズムそれぞれについて予測する(S37)。
して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件
、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができ
る。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可
能である。
、10e…入力部、10f…表示部、11…学習部、12…算出部、12a…学習モデル
、13…取得部、14…予測部、14a…予測モデル、15…記憶部、15a…学習デー
タ、16…生成部
Claims (3)
- 複数のアルゴリズムを用いて、所定の問題について設定された第1損失関数の値を小さくするように所定の学習モデルの機械学習をそれぞれ行う学習部と、
前記機械学習に基づき、前記第1損失関数の大域的形状を表す第1形状情報と、前記学習モデルの性能とを、アルゴリズムごとに算出する算出部と、
前記複数のアルゴリズムのうち少なくともいずれかを用いて、新たな問題について設定された第2損失関数の値を小さくするような機械学習が前記学習部により実行され、前記算出部により算出された前記第2損失関数の大域的形状を表す第2形状情報を取得する取得部と、
前記第1形状情報及び前記学習モデルの性能を学習データとする教師あり学習によって、前記第2形状情報に基づいて、前記第2損失関数の値を小さくするように前記学習モデルの機械学習を実行した場合の前記学習モデルの性能を、前記複数のアルゴリズムそれぞれについて予測する予測モデルを生成する生成部と、
を備える情報処理装置。 - 情報処理装置に備えられたプロセッサによって、
複数のアルゴリズムを用いて、所定の問題について設定された第1損失関数の値を小さくするように所定の学習モデルの機械学習をそれぞれ行うことと、
前記機械学習に基づき、前記第1損失関数の大域的形状を表す第1形状情報と、前記学習モデルの性能とを、アルゴリズムごとに算出することと、
前記複数のアルゴリズムのうち少なくともいずれかを用いて、新たな問題について設定された第2損失関数の値を小さくするような機械学習が実行され、前記第2損失関数の大域的形状を表す第2形状情報を取得することと、
前記第1形状情報及び前記学習モデルの性能を学習データとする教師あり学習によって、前記第2形状情報に基づいて、前記第2損失関数の値を小さくするように前記学習モデルの機械学習を実行した場合の前記学習モデルの性能を、前記複数のアルゴリズムそれぞれについて予測する予測モデルを生成することと、
を実行する情報処理方法。 - 情報処理装置に備えられたプロセッサに、
複数のアルゴリズムを用いて、所定の問題について設定された第1損失関数の値を小さくするように所定の学習モデルの機械学習をそれぞれ行うことと、
前記機械学習に基づき、前記第1損失関数の大域的形状を表す第1形状情報と、前記学習モデルの性能とを、アルゴリズムごとに算出することと、
前記複数のアルゴリズムのうち少なくともいずれかを用いて、新たな問題について設定された第2損失関数の値を小さくするような機械学習が実行され、前記第2損失関数の大域的形状を表す第2形状情報を取得することと、
前記第1形状情報及び前記学習モデルの性能を学習データとする教師あり学習によって、前記第2形状情報に基づいて、前記第2損失関数の値を小さくするように前記学習モデルの機械学習を実行した場合の前記学習モデルの性能を、前記複数のアルゴリズムそれぞれについて予測する予測モデルを生成することと、
を実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020140108A JP7437763B2 (ja) | 2020-02-03 | 2020-08-21 | 解析装置、解析方法及び解析プログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020016010A JP6774129B1 (ja) | 2020-02-03 | 2020-02-03 | 解析装置、解析方法及び解析プログラム |
JP2020140108A JP7437763B2 (ja) | 2020-02-03 | 2020-08-21 | 解析装置、解析方法及び解析プログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020016010A Division JP6774129B1 (ja) | 2020-02-03 | 2020-02-03 | 解析装置、解析方法及び解析プログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2021125210A JP2021125210A (ja) | 2021-08-30 |
JP2021125210A5 JP2021125210A5 (ja) | 2023-01-23 |
JP7437763B2 true JP7437763B2 (ja) | 2024-02-26 |
Family
ID=72829627
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020016010A Active JP6774129B1 (ja) | 2020-02-03 | 2020-02-03 | 解析装置、解析方法及び解析プログラム |
JP2020140108A Active JP7437763B2 (ja) | 2020-02-03 | 2020-08-21 | 解析装置、解析方法及び解析プログラム |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020016010A Active JP6774129B1 (ja) | 2020-02-03 | 2020-02-03 | 解析装置、解析方法及び解析プログラム |
Country Status (5)
Country | Link |
---|---|
US (2) | US11568264B2 (ja) |
EP (1) | EP4102418A4 (ja) |
JP (2) | JP6774129B1 (ja) |
CN (1) | CN113490956B (ja) |
WO (1) | WO2021157124A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11922314B1 (en) * | 2018-11-30 | 2024-03-05 | Ansys, Inc. | Systems and methods for building dynamic reduced order physical models |
US11972052B2 (en) * | 2021-05-05 | 2024-04-30 | University Of Southern California | Interactive human preference driven virtual texture generation and search, and haptic feedback systems and methods |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005135287A (ja) | 2003-10-31 | 2005-05-26 | National Agriculture & Bio-Oriented Research Organization | 予測装置、予測方法および予測プログラム |
JP5298277B2 (ja) | 2008-12-26 | 2013-09-25 | サンノプコ株式会社 | 樹脂改質剤、ビニル樹脂、塗料及び塗料組成物 |
US20140344193A1 (en) | 2013-05-15 | 2014-11-20 | Microsoft Corporation | Tuning hyper-parameters of a computer-executable learning algorithm |
JP2018173813A (ja) | 2017-03-31 | 2018-11-08 | 富士通株式会社 | 比較プログラム、比較方法および比較装置 |
JP2019159769A (ja) | 2018-03-13 | 2019-09-19 | 富士通株式会社 | 探索プログラム、探索方法および探索装置 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0561848A (ja) * | 1991-09-02 | 1993-03-12 | Hitachi Ltd | 最適アルゴリズムの選定及び実行のための装置及び方法 |
JP3303032B2 (ja) * | 1992-04-24 | 2002-07-15 | 株式会社日立製作所 | ニューラルネット学習装置 |
JP6549546B2 (ja) | 2016-10-18 | 2019-07-24 | 北海道瓦斯株式会社 | 融雪制御装置、ニューラルネットワークの学習方法、融雪制御方法及び融雪制御用プログラム |
US11120361B1 (en) * | 2017-02-24 | 2021-09-14 | Amazon Technologies, Inc. | Training data routing and prediction ensembling at time series prediction system |
US11232369B1 (en) * | 2017-09-08 | 2022-01-25 | Facebook, Inc. | Training data quality for spam classification |
CN111630531B (zh) * | 2018-01-18 | 2024-08-27 | 谷歌有限责任公司 | 使用量子神经网络的分类 |
JP7093965B2 (ja) | 2018-06-22 | 2022-07-01 | 国立研究開発法人情報通信研究機構 | モデル選択装置、及びモデル選択方法 |
US11704567B2 (en) * | 2018-07-13 | 2023-07-18 | Intel Corporation | Systems and methods for an accelerated tuning of hyperparameters of a model using a machine learning-based tuning service |
CN109447277B (zh) * | 2018-10-19 | 2023-11-10 | 厦门渊亭信息科技有限公司 | 一种通用的机器学习超参黑盒优化方法及系统 |
US11429762B2 (en) * | 2018-11-27 | 2022-08-30 | Amazon Technologies, Inc. | Simulation orchestration for training reinforcement learning models |
JP7059166B2 (ja) * | 2018-11-29 | 2022-04-25 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
WO2020175692A1 (ja) * | 2019-02-28 | 2020-09-03 | 旭化成株式会社 | 学習装置および判断装置 |
CN109887284B (zh) * | 2019-03-13 | 2020-08-21 | 银江股份有限公司 | 一种智慧城市交通信号控制推荐方法、系统及装置 |
US20210089832A1 (en) * | 2019-09-19 | 2021-03-25 | Cognizant Technology Solutions U.S. Corporation | Loss Function Optimization Using Taylor Series Expansion |
CN114556359A (zh) * | 2019-10-09 | 2022-05-27 | 瑞典爱立信有限公司 | 数据流中的事件检测 |
-
2020
- 2020-02-03 JP JP2020016010A patent/JP6774129B1/ja active Active
- 2020-08-21 JP JP2020140108A patent/JP7437763B2/ja active Active
- 2020-09-25 US US17/608,978 patent/US11568264B2/en active Active
- 2020-09-25 EP EP20918102.3A patent/EP4102418A4/en active Pending
- 2020-09-25 WO PCT/JP2020/036328 patent/WO2021157124A1/ja unknown
- 2020-09-25 CN CN202080005675.9A patent/CN113490956B/zh active Active
-
2022
- 2022-02-04 US US17/665,424 patent/US20220156647A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005135287A (ja) | 2003-10-31 | 2005-05-26 | National Agriculture & Bio-Oriented Research Organization | 予測装置、予測方法および予測プログラム |
JP5298277B2 (ja) | 2008-12-26 | 2013-09-25 | サンノプコ株式会社 | 樹脂改質剤、ビニル樹脂、塗料及び塗料組成物 |
US20140344193A1 (en) | 2013-05-15 | 2014-11-20 | Microsoft Corporation | Tuning hyper-parameters of a computer-executable learning algorithm |
JP2018173813A (ja) | 2017-03-31 | 2018-11-08 | 富士通株式会社 | 比較プログラム、比較方法および比較装置 |
JP2019159769A (ja) | 2018-03-13 | 2019-09-19 | 富士通株式会社 | 探索プログラム、探索方法および探索装置 |
Also Published As
Publication number | Publication date |
---|---|
EP4102418A1 (en) | 2022-12-14 |
EP4102418A4 (en) | 2024-03-06 |
CN113490956A (zh) | 2021-10-08 |
CN113490956B (zh) | 2022-05-31 |
US20220147829A1 (en) | 2022-05-12 |
US11568264B2 (en) | 2023-01-31 |
JP2021125210A (ja) | 2021-08-30 |
JP6774129B1 (ja) | 2020-10-21 |
WO2021157124A1 (ja) | 2021-08-12 |
JP2021124805A (ja) | 2021-08-30 |
US20220156647A1 (en) | 2022-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7437763B2 (ja) | 解析装置、解析方法及び解析プログラム | |
US11151480B1 (en) | Hyperparameter tuning system results viewer | |
JP2022033695A (ja) | モデルを生成するための方法、装置、電子機器、記憶媒体、及びコンピュータプログラム製品 | |
US11928698B2 (en) | Information processing apparatus, information processing method and program thereof | |
JP2022162348A (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN114817571B (zh) | 基于动态知识图谱的成果被引用量预测方法、介质及设备 | |
CN104732067A (zh) | 一种面向流程对象的工业过程建模预测方法 | |
CN112101516A (zh) | 一种目标变量预测模型的生成方法、系统及装置 | |
CN113449182A (zh) | 一种知识信息个性化推荐方法及系统 | |
WO2023210665A1 (ja) | 計算グラフの改善 | |
CN114116959B (zh) | 方面级情感分析方法、装置以及终端 | |
JP7112802B1 (ja) | 学習モデルの軽量化 | |
Márquez-Grajales et al. | Use of a Surrogate Model for Symbolic Discretization of Temporal Data Sets Through eMODiTS and a Training Set with Varying-Sized Instances | |
JP2022045731A (ja) | 情報処理装置、情報処理システムおよび情報処理方法 | |
JP7199115B1 (ja) | 機械学習における分散学習 | |
CN113469368A (zh) | 解析装置、解析方法以及解析程序 | |
Matijević | UTILIZING METAHEURISTICS TO GUIDE THE TRAINING OF NEURAL NETWORKS | |
CN117744737A (zh) | 基于多层次知识蒸馏的逆序通道剪枝压缩方法、装置 | |
Kumar Shrivastav et al. | A novel approach towards the analysis of stochastic high frequency data analysis using ARIMA model | |
Yao et al. | GRU Prediction Method For Digital Cryptocurrency Prices | |
Ajibade et al. | Feature selection using chaotic particle swarm optimization | |
Kabilovna | PROCESS OF CONSTRUCTING A FUZZY EXPERT SYSTEM | |
JP2022177365A (ja) | 文章解析装置およびそのプログラム | |
JP2022129815A (ja) | 運転管理支援装置及び運転管理支援方法 | |
CN115640739A (zh) | 基于深度特征融合的米制品原料品质的预测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230113 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230113 |
|
TRDD | Decision of grant or rejection written | ||
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231227 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240105 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240205 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7437763 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |