JP2022013658A - オプティマイザ学習方法、装置、電子デバイス、可読記憶媒体及びコンピュータプログラム - Google Patents

オプティマイザ学習方法、装置、電子デバイス、可読記憶媒体及びコンピュータプログラム Download PDF

Info

Publication number
JP2022013658A
JP2022013658A JP2021049640A JP2021049640A JP2022013658A JP 2022013658 A JP2022013658 A JP 2022013658A JP 2021049640 A JP2021049640 A JP 2021049640A JP 2021049640 A JP2021049640 A JP 2021049640A JP 2022013658 A JP2022013658 A JP 2022013658A
Authority
JP
Japan
Prior art keywords
meta
optimizer
neural network
learning model
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021049640A
Other languages
English (en)
Other versions
JP7165226B2 (ja
Inventor
ファン,シァオミン
Xiaomin Fang
ワン,ファン
Fan Wang
モ,イェラン
Yelan Mo
ヘ,ジンジョウ
Jingzhou He
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022013658A publication Critical patent/JP2022013658A/ja
Application granted granted Critical
Publication of JP7165226B2 publication Critical patent/JP7165226B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Neurology (AREA)
  • Image Analysis (AREA)
  • Medical Informatics (AREA)
  • Machine Translation (AREA)

Abstract

【課題】ディープラーニングにおいて、異なるネットワーク構造や異なるタイプのタスクに対して汎化能力を持つオプティマイザ学習方法、装置、電子デバイス、可読記憶媒体及びコンピュータプログラムを提供する。【解決手段】オプティマイザ学習を行う際に採用される方法は、ニューラルネットワークの属性情報、ニューラルネットワークのオプティマイザ情報及びオプティマイザのパラメータ情報を含む複数のデータセットを含む訓練データを取得し、各データセットにおけるニューラルネットワークの属性情報およびニューラルネットワークのオプティマイザ情報を入力、各データセットにおけるオプティマイザのパラメータ情報を出力として、メタ学習モデルが収束するまでメタ学習モデルを訓練する。【効果】オプティマイザの自己適応を可能にし、オプティマイザの汎化能力を向上させた。【選択図】図1

Description

本開示は、人工知能技術分野に関し、特にディープラーニング技術分野におけるオプティマイザ学習方法、装置、電子デバイス、可読記憶媒体及びコンピュータプログラムに関する。
ディープニューラルネットワークは、機械学習によく用いられる手法であり、近年様々な分野で利用されている。デプスニューラルネットワークの訓練過程は、ネットワークが収束するようにオプティマイザ(optimizer)を使用し、即ちオプティマイザを使用してネットワークパラメータを更新してネットワークの最適点を見つける必要がある。したがって、オプティマイザはネットワークの収束速度と訓練効果に直接に影響を与え、収束速度が遅いとコンピューティングリソースの消費量が増加する。
従来技術には、通常、人工経験に基づくオプティマイザとモデルに基づくオプティマイザが含まれている。その中で、人工経験に基づくオプティマイザは、異なるタスクと異なるネットワーク構造に基づいて適応することができず、訓練の異なる段階でオプティマイザにおけるパラメータを調整することに労力と物力を必要とする。モデルに基づくオプティマイザは、ある程度の適応は可能であるが、固定的又は類似的な特定種類のネットワーク構造と同じタイプのタスクのみに対して適応可能であり、異なるネットワーク構造や異なるタイプのタスクに対して汎化能力を持たない。
本開示は、上記技術的課題を解決するための技術案を提供する。
本開示は、技術的課題を解決するために適用される技術案は、ニューラルネットワークの属性情報、ニューラルネットワークのオプティマイザ情報、及びオプティマイザのパラメータ情報を含む複数のデータセットを含む訓練データを取得し、各データセットにおけるニューラルネットワークの属性情報およびニューラルネットワークのオプティマイザ情報を入力、各データセットにおけるオプティマイザのパラメータ情報を出力として、メタ学習モデルが収束するまで前記メタ学習モデルを訓練することを含むオプティマイザの学習方法を提供する。
本開示は、技術的課題を解決するために適用される技術案は、ニューラルネットワークの属性情報、ニューラルネットワークのオプティマイザ情報、及びオプティマイザのパラメータ情報を含む複数のデータセットを含む訓練データを取得する取得部と、各データセットにおけるニューラルネットワークの属性情報とニューラルネットワークのオプティマイザ情報とを入力、各データセットにおけるオプティマイザのパラメータ情報を出力として、メタ学習モデルが収束するまで前記メタ学習モデルを訓練する訓練部とを備えるオプティマイザの学習装置を提供する。
少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信接続されたメモリとを備え、前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに前記方法を実行させる電子デバイスを提供する。
コンピュータに前記方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体を提供する。
本開示の一態様は、オプティマイザの自己適応を可能にし、オプティマイザの汎化能力を向上させるという利点または有益な効果を有する。メタ学習モデルを構築することで異なる属性情報およびオプティマイザ情報を持つニューラルネットワークのオプティマイザのパラメータを学習する技術手段を採用しているため、従来技術においてオプティマイザが異なるネットワーク構造及び異なるタイプのタスクのニューラルネットワークに適応できないという技術的問題を克服し、オプティマイザの自己適応及びオプティマイザの汎化能力の向上という技術的効果を実現した。
前記選択可能な方法が有する他の効果は、以下で具体的な実施形態と合わせて説明する。
図面は、本開示をより良く理解するためのものであり、本開示を限定しない。ここで、
本開示の第1の実施形態に係る模式図である。 本開示の第2の実施形態に係る模式図である。 本開示の実施形態に係るオプティマイザの学習方法を実施するための電子デバイスのブロック図である。
以下、図面に基づいて、本開示の例示的な実施例を説明する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び思想から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。
図1は本開示の第1の実施形態に係る模式図である。図1に示すように、本実施形態のオプティマイザの学習方法は、具体的に以下のステップを含むことができる。
S101において、ニューラルネットワークの属性情報と、ニューラルネットワークのオプティマイザ情報と、オプティマイザのパラメータ情報とを含む複数のデータセットを含む訓練データを取得する。
S102において、各データセットにおけるニューラルネットワークの属性情報およびニューラルネットワークのオプティマイザ情報を入力、各データセットのオプティマイザのパラメータ情報を出力として、メタ学習モデルが収束するまで前記メタ学習モデルを訓練する。
本実施形態のオプティマイザの学習方法は、メタ学習モデルを構築することで異なる属性情報とオプティマイザ情報を持つニューラルネットワークのオプティマイザのパラメータを学習することにより、ニューラルネットワークのオプティマイザが異なる属性情報を持つニューラルネットワークに自動的に適応させることができ、オプティマイザの自己適応を実現し、オプティマイザの汎化能力を向上させ、更にニューラルネットワークの訓練フローを高速化し、ニューラルネットワークの訓練効果を向上させた。
本実施形態におけるオプティマイザ(optimizer)は、ニューラルネットワークが収束するように対応するニューラルネットワークのパラメータを更新するための関数であっても良く、ニューラルネットワークに基づくモデルであっても良い。ここで、本実施形態におけるニューラルネットワークは、ディープニューラルネットワークである。
本実施形態の各データセットにおけるニューラルネットワークの属性情報は、ニューラルネットワークの構造情報およびニューラルネットワークのタスク情報の少なくとも一方を含み、ニューラルネットワークのネットワーク構造と訓練されるタスクのタイプを反映するために用いられる。なお、ニューラルネットワークの構造情報は、巡回型ニューラルネットワーク(RNN)や畳み込み型ニューラルネットワーク(CNN)などであってもよく、ニューラルネットワークのタスク情報は、ピクチャ分類タスクや文字認識タスクなどであってもよい。
本実施形態の各データセットにおけるニューラルネットワークのオプティマイザ情報は、ニューラルネットワークのパラメータを更新するオプティマイザのタイプを示す情報であり、例えばSGD、Momentum、Adamなどである。オプティマイザのパラメータ情報は、ニューラルネットワークの各ステップの訓練過程におけるオプティマイザのパラメータに対応する。
理解すべきなのは、本実施形態により得られたデータセットは、異なるネットワーク構造、異なるタイプの訓練タスク、および異なるタイプのオプティマイザを有するニューラルネットワークに対応するため、訓練により得られたメタ学習モデルは、異なる構造および異なるタスクのニューラルネットワークに対するオプティマイザの汎化能力をさらに向上させることができる。
本実施形態により提供されたニューラルネットワークの属性情報には、ニューラルネットワークの構造情報と、ニューラルネットワークのタスク情報とが含まれているため、本実施形態により訓練されたメタ学習モデルは、異なる構造のニューラルネットワークが異なるタイプのタスクを訓練する場合のオプティマイザのパラメータを推定することができる。
本実施形態では、データセットを取得した後、メタ学習モデルが収束するまで、各データセットに含まれる前記情報に基づいてメタ学習モデルの訓練を行う。なお、本実施形態におけるメタ学習モデルは、ニューラルネットワークモデルであってよい。
本実施形態は、メタ学習(meta learning)でメタ学習モデルを訓練することにより、メタ学習モデルが異なる属性情報を有するニューラルネットワークの訓練過程におけるオプティマイザのパラメータを学習することができる。
本実施形態におけるメタ学習とは、「学習の仕方を学習する」、即ち他のタスクの学習経験を学習することにより、新たなタスクにおいても自ら適応に学習できることである。本実施形態におけるメタ学習は、異なるニューラルネットワークの訓練過程における各ステップにおけるオプティマイザのパラメータをマイニングすることにより、メタ学習モデルが新たなタスクにおけるニューラルネットワークの属性情報とオプティマイザ情報とに基づいて、当該ニューラルネットワークの訓練過程における各ステップのオプティマイザのパラメータを推定することができるようにする。
本実施形態では、各データセットに基づいてメタ学習モデルの訓練を行う際に、メタ学習モデルの出力結果とデータセットにおけるパラメータ情報に基づいて損失関数を計算することができ、計算された損失関数が収束した場合にメタ学習モデルが収束したとみなし、メタ学習モデルの訓練過程を完了することができる。なお、本実施形態は、勾配または再帰モデルに基づいてメタ学習を行ってメタ学習モデルを得ても良いが、本実施形態で限定されない。
オプティマイザ学習を行う場合に使用される訓練シーケンスが長く、且つ訓練中に幾千幾万ほど多くの反復が必要であるため、既存のメタ学習方法はあまり実用的ではない。
メタ学習モデルの訓練効果をさらに高めるために、本実施形態は、データセットからメタ学習モデルの訓練を行う際に、以下の方法を採用することができる。つまり、現在のメタ学習モデルのパラメータを第1のパラメータとし、ノイズを使用して第1のパラメータをジッタリングして複数のジッタパラメータを取得し、すなわち、第1のパラメータをわずかに変更する。ここで、ノイズはガウスノイズであって良い。次に、取得された複数のジッタパラメータから複数のジッタメタ学習モデルを構築し、即ち第1のパラメータを各ジッタパラメータに置き換え、各データセットにおけるニューラルネットワークの属性情報およびニューラルネットワークのオプティマイザ情報を入力、各データセットにおけるオプティマイザのパラメータ情報を出力として、各ジッタメタ学習モデルをそれぞれ訓練する。ここで、各ジッタメタ学習モデルが使用するデータセットは同じでも異なってもよい。そして、訓練結果に基づいて、予め設定された条件を満たすジッタメタ学習モデルを最終メタ学習モデルとして選択する。
理解すべきなのは、本実施形態において、予め設定された条件を満たすメタ学習モデルとして損失関数が最も小さいジッタメタ学習モデルを選択しても良く、予め設定された条件を満たすメタ学習モデルとして収束速度が最も速いジッタメタ学習モデルを選択してもよい。
また、本実施形態では、メタ学習モデルの訓練の正確度をさらに向上させるために、訓練結果に基づいて、予め設定された条件を満たすジッタメタ学習モデルを最終メタ学習モデルとして選択する際に、以下の方法を採用することができる。つまり、訓練結果に基づいて、予め設定された条件を満たすジッタメタ学習モデルのジッタパラメータを特定し、特定されたジッタパラメータを第1のパラメータとした後、ノイズを用いて第1のパラメータをジッタリングするステップに進行し、この処理を予め設定された回数で繰り返し、選択されたジッタメタ学習モデルを最終メタ学習モデルとする。なお、本実施形態における予め設定された回数は、実際のニーズに応じてユーザが設定することができる。
つまり、本実施形態では、進化戦略(evolution strategy)方式でメタ学習モデルの訓練を行うことで、従来技術においてメタ学習モデルの訓練を行う際に訓練シーケンスが長すぎることを克服できないという問題を克服することができる一方、メタ学習モデルの訓練過程を簡略化し、メタ学習モデルの訓練効率を向上させることができる。
本実施形態では、メタ学習モデルを得るように訓練した後、入力されたニューラルネットワークの属性情報とニューラルネットワークのオプティマイザ情報とに基づいて当該オプティマイザのパラメータを出力することができるため、オプティマイザの自己適応を実現し、異なる構造や異なるタスクのニューラルネットワークに対して汎化能力を具備させた。
本実施形態により提供される前記方法により、ニューラルネットワークのオプティマイザが異なる属性情報を有するニューラルネットワークに自動的に適応するように、メタ学習モデルを構築してニューラルネットワークのオプティマイザのパラメータを推定することにより、オプティマイザの自己適応を実現し、ニューラルネットワークの訓練フローを高速化し、ニューラルネットワークの訓練効果を高める。
図2は、本開示の第2の実施形態に係る模式図である。図2に示されたように、本実施形態のオプティマイザの学習装置は、ニューラルネットワークの属性情報と、ニューラルネットワークのオプティマイザ情報と、オプティマイザのパラメータ情報とを含む複数のデータセットを含む訓練データを取得する取得部201と、各データセットにおけるニューラルネットワークの属性情報とニューラルネットワークのオプティマイザ情報とを入力、各データセットにおけるオプティマイザのパラメータ情報を出力として、メタ学習モデルが収束するまで前記メタ学習モデルを訓練する訓練部202とを備える。
本実施形態の取得部201が取得したニューラルネットワークの属性情報は、ニューラルネットワークの構造情報およびニューラルネットワークのタスク情報の少なくとも一方を含み、ニューラルネットワークのネットワーク構造および訓練されるタスクのタイプを反映する。
本実施形態の取得部201が取得したニューラルネットワークのオプティマイザ情報は、ニューラルネットワークのパラメータを更新するオプティマイザのタイプを示し、オプティマイザのパラメータ情報は、ニューラルネットワークの各ステップの訓練過程におけるオプティマイザのパラメータに対応する。
取得部201によりデータセットが取得された後、訓練部202は、各データセットに含まれる前記情報に基づいて、メタ学習モデルが収束するまで、メタ学習モデルの訓練を行う。ここで、訓練部202におけるメタ学習モデルは、ニューラルネットワークモデルであってよい。
訓練部202は、各データセットに基づいてメタ学習モデルの訓練を行う際に、メタ学習モデルの出力結果とデータセットにおけるパラメータ情報とに基づいて損失関数を計算することができ、計算された損失関数が収束した場合にメタ学習モデルが収束したとみなし、メタ学習モデルの訓練過程を完了する。また、訓練部202は、勾配モデル又は再帰モデルに基づいてメタ学習を行ってメタ学習モデルを得ても良く、本実施形態で限定されない。
メタ学習モデルの訓練効果をさらに向上させるために、訓練部202は、データセットに基づいてメタ学習モデルの訓練を行う際に、以下の方法を採用することができる。つまり、現在のメタ学習モデルのパラメータを第1のパラメータとし、ノイズを用いて第1パラメータをジッタリングして複数のジッタパラメータを取得し、取得された複数のジッタパラメータから複数のジッタメタ学習モデルを構築し、各データセットにおけるニューラルネットワークの属性情報およびニューラルネットワークのオプティマイザ情報を入力、各データセットにおけるオプティマイザのパラメータ情報を出力として、各ジッタメタ学習モデルをそれぞれ訓練し、訓練結果に基づいて、予め設定された条件を満たすジッタメタ学習モデルを最終メタ学習モデルとして選択する。
理解すべきなのは、訓練部202は、予め設定された条件を満たすメタ学習モデルとして損失関数が最も小さいジッタメタ学習モデルを選択してもよく、予め設定された条件を満たすメタ学習モデルとして収束速度が最も速いジッタメタ学習モデルを選択してもよい。
また、メタ学習モデルの訓練の正確度をさらに向上させるために、訓練部202は、訓練結果に基づいて予め設定された条件を満たすジッタメタ学習モデルを最終メタ学習モデルとして選択する際に、以下の方法を採用することができる。つまり、訓練結果に基づいて、予め設定された条件を満たすジッタメタ学習モデルのジッタパラメータを特定し、特定されたジッタパラメータを第1のパラメータとした後、ノイズを用いて第1のパラメータをジッタリングするステップに進行し、この処理を予め設定された回数で繰り返し、選択されたジッタメタ学習モデルを最終メタ学習モデルとする。なお、本実施形態における予め設定された回数は、実際のニーズに応じてユーザが設定することができる。
つまり、訓練部202は、進化戦略(evolution strategy)方式でメタ学習モデルの訓練を行うことにより、従来技術においてメタ学習モデルの訓練を行う際に訓練シーケンスが長すぎることを克服できないという問題を克服することができる一方、メタ学習モデルの訓練過程を簡略化し、メタ学習モデルの訓練効率を向上させることができる。
訓練部202がメタ学習モデルを得るように訓練した後、このメタ学習モデルを用いて、入力されたニューラルネットワークの属性情報およびニューラルネットワークのオプティマイザ情報に基づいてこのオプティマイザのパラメータを出力することができる。
本開示の実施形態によれば、本開示は更に電子デバイスおよびコンピュータ可読記憶媒体を提供する。
図3は、本開示の実施形態に係るオプティマイザの学習方法の電子デバイスのブロック図である。電子デバイスは、様々な形式のデジタルコンピュータ、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、PDA、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータであることが意図される。電子デバイスは、様々な形式のモバイル装置、例えば、PDA、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の類似するコンピューティング装置を示してもよい。本文で示された構成要素、それらの接続及び関係、ならびにそれらの機能は例示にすぎなく、本明細書において説明及び/又は請求される本開示の実現を限定することが意図されない。
図3に示すように、この電子デバイスは、一つ又は複数のプロセッサ301、メモリ302、及び各構成要素に接続するための高速インターフェース及び低速インターフェースを含むインターフェースを備える。各構成要素は、異なるバスで相互接続され、そして、共通マザーボードに、又は必要に応じて、他の態様で実装されてもよい。プロセッサは、電子デバイス内で実行されるコマンドを処理してもよく、メモリに記憶される又はメモリ上で外部入力/出力装置(例えば、インターフェースに結合される表示装置)にグラフィカルユーザインターフェースのグラフィカル情報を表示するコマンドを含む。他の実施形態において、必要な場合に、複数のプロセッサ及び/又は複数のバスが、複数のメモリとともに用いられてもよい。同様に、複数の電子デバイスが接続されてもよく、それぞれのデバイスが必要な操作の一部を提供する(例えば、サーババンク、ブレードサーバの集まり、又はマルチプロセッサシステムとする)。図3において、一つのプロセッサ301を例とする。
メモリ302は、本開示で提供される非一時的コンピュータ可読記憶媒体である。なお、前記メモリには、少なくとも1つのプロセッサが本開示に提供されたオプティマイザの学習方法を実行するように、前記少なくとも1つのプロセッサに実行可能なコマンドが記憶されている。本開示の非一時的コンピュータ可読記憶媒体は、本開示に提供されたオプティマイザの学習方法をコンピュータに実行させるためのコンピュータコマンドを記憶している。
メモリ302は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム、モジュール、例えば、本開示の実施例におけるオプティマイザの学習方法に対応するプログラムコマンド/モジュール(例えば図2に示された取得部201及び訓練部202)を記憶するために用いられる。プロセッサ301は、メモリ302に記憶されている非一時的ソフトウェアプログラム、コマンド及びモジュールを実行することで、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記の方法実施例におけるオプティマイザの学習方法を実現する。
メモリ302は、プログラム記憶領域及びデータ記憶領域を含んでもよく、プログラム記憶領域はオペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶してもよく、データ記憶領域は電子デバイスの使用により作成されたデータなどを記憶してもよい。また、メモリ302は、高速ランダムアクセスメモリを含んでもよく、さらに非一時的メモリ、例えば、少なくとも一つの磁気ディスク記憶装置、フラッシュメモリ装置、又は他の非一時的固体記憶装置を含んでもよい。幾つかの実施例において、メモリ302は、プロセッサ301に対して遠隔設置されたメモリを選択的に含んでもよく、これらのリモートメモリは、ネットワークを介してオプティマイザの学習方法の電子デバイスに接続されてもよい。上記のネットワークの実例には、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。
オプティマイザの学習方法の電子デバイスは、更に、入力装置303と出力装置304とを備えても良い。プロセッサ301、メモリ302、入力装置303及び出力装置304は、バス又は他の手段により接続されても良く、図3においてバスによる接続を例とする。
入力装置303は、入力された数字又はキャラクタ情報を受信し、電子デバイスのユーザ設定及び機能制御に関連するキー信号入力を生成でき、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置304は、表示装置、補助照明装置(例えば、LED)、触覚フィードバック装置(例えば、振動モータ)などを含むことができる。当該表示装置は、液晶ディスプレイ(LCD)、発光ダイオードディスプレイ(LED)、及びプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。
本明細書に説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ASIC(専用集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及びコマンドを受信し、当該記憶システム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置にデータ及びコマンドを送信するようにつなげられた、特殊用途でもよく一般用途でもよい少なくとも一つのプログラマブルプロセッサを含む、プログラマブルシステム上で実行可能及び/又は解釈可能な一つ又は複数のコンピュータプログラムにおける実行を含んでもよい。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又は、コードとも称される)は、プログラマブルプロセッサの機械命令を含み、高水準のプロセス及び/又はオブジェクト向けプログラミング言語、及び/又はアセンブリ/機械言語で実行されることができる。本明細書で用いられる「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械可読信号としての機械命令を受け取る機械可読媒体を含むプログラマブルプロセッサに機械命令及び/又はデータを提供するのに用いられる任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、及びプログラマブル論理デバイス)を指す。「機械可読信号」という用語は、プログラマブルプロセッサに機械命令及び/又はデータを提供するために用いられる任意の信号を指す。
ユーザとのインタラクティブを提供するために、本明細書に説明されるシステムと技術は、ユーザに対して情報を表示するための表示装置(例えば、CRT(ブラウン管)又はLCD(液晶ディスプレイ)モニタ)、ユーザがコンピュータに入力を与えることができるキーボード及びポインティングデバイス(例えば、マウスや、トラックボール)を有するコンピュータ上に実施されることが可能である。その他の種類の装置は、さらに、ユーザとのインタラクションを提供するために使用されることが可能であり、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚的なフィードバック、聴覚的なフィードバック、又は触覚的なフィードバック)であり得、ユーザからの入力は、任意の形態で(音響、音声又は触覚による入力を含む)受信され得る。
本明細書に説明されるシステムと技術は、バックエンド構成要素を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア構成要素を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド構成要素を含むコンピューティングシステム(例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる)、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)、ワイド・エリア・ネットワーク(「WAN」)、インターネットワークを含む。
コンピュータシステムは、クライアントとサーバーを含み得る。クライアントとサーバーは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。
本開示の実施形態の技術案によれば、メタ学習モデルを構築して異なる属性情報及びオプティマイザ情報を有するニューラルネットワークのオプティマイザのパラメータを学習することにより、ニューラルネットワークのオプティマイザが属性情報の異なるニューラルネットワークを自動的に適応させることができ、オプティマイザの自己適応を実現し、オプティマイザの汎化能力を向上させ、さらにニューラルネットワークの訓練フローを高速化し、ニューラルネットワークの訓練効果を向上させた。
以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本開示に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本開示で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。
前記の具体的な実施形態は本開示の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本開示の思想及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本開示の保護範囲内に含まれるべきである。

Claims (11)

  1. オプティマイザの学習方法であって、
    ニューラルネットワークの属性情報、ニューラルネットワークのオプティマイザ情報、及びオプティマイザのパラメータ情報を含む複数のデータセットを含む訓練データを取得し、
    各データセットにおけるニューラルネットワークの属性情報およびニューラルネットワークのオプティマイザ情報を入力とし、各データセットにおけるオプティマイザのパラメータ情報を出力として、メタ学習モデルが収束するまで前記メタ学習モデルを訓練する、
    ことを含む方法。
  2. 前記ニューラルネットワークの属性情報は、ニューラルネットワークの構造情報およびニューラルネットワークのタスク情報の少なくとも一方を含む、請求項1に記載の方法。
  3. 前記各データセットにおけるニューラルネットワークの属性情報およびニューラルネットワークのオプティマイザ情報を入力、各データセットにおけるオプティマイザのパラメータ情報を出力として、メタ学習モデルを訓練することは、
    現在のメタ学習モデルのパラメータを第1のパラメータとし、
    ノイズを使用して前記第1のパラメータをジッタリングして複数のジッタパラメータを取得し、
    前記複数のジッタパラメータに基づいて複数のジッタメタ学習モデルを構築し、
    各データセットにおけるニューラルネットワークの属性情報およびニューラルネットワークのオプティマイザ情報を入力とし、各データセットにおけるオプティマイザのパラメータ情報を出力として、前記複数のジッタメタ学習モデルをそれぞれ訓練し、
    訓練結果に基づいて、予め設定された条件を満たすジッタメタ学習モデルを最終メタ学習モデルとして選択する、
    ことを含む請求項1に記載の方法。
  4. 前記訓練結果に基づいて、予め設定された条件を満たすジッタメタ学習モデルを最終メタ学習モデルとして選択することは、
    訓練結果に基づいて、予め設定された条件を満たすジッタメタ学習モデルのジッタパラメータを特定し、
    特定されたジッタパラメータを第1のパラメータとした後、ノイズを用いて第1のパラメータをジッタリングするステップに進行し、
    この処理を予め設定された回数で繰り返した後、選択されたジッタメタ学習モデルを最終メタ学習モデルとする、
    ことを含む請求項3に記載の方法。
  5. オプティマイザの学習装置であって、
    ニューラルネットワークの属性情報、ニューラルネットワークのオプティマイザ情報、及びオプティマイザのパラメータ情報を含む複数のデータセットを含む訓練データを取得する取得部と、
    各データセットにおけるニューラルネットワークの属性情報とニューラルネットワークのオプティマイザ情報とを入力とし、各データセットにおけるオプティマイザのパラメータ情報を出力として、メタ学習モデルが収束するまで前記メタ学習モデルを訓練する訓練部と、
    を備える装置。
  6. 前記取得部により取得されたニューラルネットワークの属性情報は、ニューラルネットワークの構造情報及びニューラルネットワークのタスク情報の少なくとも一方を含む請求項5に記載の装置。
  7. 前記訓練部は、各データセットにおけるニューラルネットワークの属性情報およびニューラルネットワークのオプティマイザ情報を入力とし、各データセットにおけるオプティマイザのパラメータ情報を出力として、メタ学習モデルを訓練する場合に、
    現在のメタ学習モデルのパラメータを第1のパラメータとし、
    ノイズを使用して第1のパラメータをジッタリングして複数のジッタパラメータを取得し、
    前記複数のジッタパラメータに基づいて、複数のジッタメタ学習モデルを構築し、
    各データセットにおけるニューラルネットワークの属性情報およびニューラルネットワークのオプティマイザ情報を入力、各データセットにおけるオプティマイザのパラメータ情報を出力として、前記複数のジッタメタ学習モデルをそれぞれ訓練し、
    訓練結果に基づいて、予め設定された条件を満たすジッタメタ学習モデルを最終メタ学習モデルとして選択する、
    請求項5に記載の装置。
  8. 前記訓練部は、訓練結果に基づいて、予め設定された条件を満たすジッタメタ学習モデルを最終メタ学習モデルとして選択する場合に、
    訓練結果に基づいて、予め設定された条件を満たすジッタメタ学習モデルのジッタパラメータを特定し、
    特定されたジッタパラメータを第1のパラメータとした後、ノイズを用いて第1のパラメータをジッタリングするステップに進行し、
    この処理を予め設定された回数で繰り返した後、選択されたジッタメタ学習モデルを最終メタ学習モデルとする、
    請求項7に記載の装置。
  9. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信接続されたメモリとを備え、
    前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1~4のいずれか一項に記載の方法を実行させる電子デバイス。
  10. コンピュータに請求項1~4のいずれか一項に記載の方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体。
  11. コンピュータに請求項1~4のいずれか一項に記載の方法を実行させるためのコンピュータプログラム。
JP2021049640A 2020-07-01 2021-03-24 オプティマイザ学習方法、装置、電子デバイス、可読記憶媒体及びコンピュータプログラム Active JP7165226B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010625746.7A CN112001489A (zh) 2020-07-01 2020-07-01 优化器学习的方法、装置、电子设备和可读存储介质
CN202010625746.7 2020-07-01

Publications (2)

Publication Number Publication Date
JP2022013658A true JP2022013658A (ja) 2022-01-18
JP7165226B2 JP7165226B2 (ja) 2022-11-02

Family

ID=73468144

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021049640A Active JP7165226B2 (ja) 2020-07-01 2021-03-24 オプティマイザ学習方法、装置、電子デバイス、可読記憶媒体及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US20220004867A1 (ja)
EP (1) EP3933712A1 (ja)
JP (1) JP7165226B2 (ja)
KR (1) KR102607536B1 (ja)
CN (1) CN112001489A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112508004A (zh) * 2020-12-18 2021-03-16 北京百度网讯科技有限公司 一种文字识别方法、装置、电子设备及存储介质
CN115113814B (zh) * 2022-06-21 2024-02-02 腾讯科技(深圳)有限公司 一种神经网络模型上线方法和相关装置
KR102680328B1 (ko) * 2023-01-25 2024-07-01 중앙대학교 산학협력단 의료 영상 분할을 위한 딥러닝 모델 최적화 방법 및 그 장치

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3610417A1 (en) * 2017-04-12 2020-02-19 Deepmind Technologies Limited Black-box optimization using neural networks
US11397887B2 (en) * 2017-09-26 2022-07-26 Amazon Technologies, Inc. Dynamic tuning of training parameters for machine learning algorithms
US20190244139A1 (en) * 2018-02-02 2019-08-08 Oracle International Corporation Using meta-learning for automatic gradient-based hyperparameter optimization for machine learning and deep learning models
WO2019165462A1 (en) 2018-02-26 2019-08-29 Google Llc Unsupervised neural network training using learned optimizers
KR20200015048A (ko) * 2018-08-02 2020-02-12 삼성전자주식회사 메타-학습에 기반하여 기계학습의 모델을 선정하는 방법 및 장치
KR102184278B1 (ko) 2018-11-21 2020-11-30 한국과학기술원 메타학습에 기반한 임의의 목표 데이터셋과 모델 구조로의 전이학습 방법 및 시스템
US11276151B2 (en) * 2019-06-27 2022-03-15 Retrace Labs Inpainting dental images with missing anatomy
CN111353610A (zh) * 2020-02-28 2020-06-30 创新奇智(青岛)科技有限公司 一种模型参数确定方法、装置、存储介质及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HARTMANN T. ET AL.: "Meta-Modelling Meta-Learning", 2019 ACM/IEEE 22ND INTERNATIONAL CONFERENCE ON MODEL DRIVEN ENGINEERING LANGUAGES AND SYSTEMS (MODEL, JPN6022015848, 2019, pages 300 - 305, XP033662696, ISSN: 0004758097, DOI: 10.1109/MODELS.2019.00014 *

Also Published As

Publication number Publication date
EP3933712A1 (en) 2022-01-05
KR102607536B1 (ko) 2023-11-29
US20220004867A1 (en) 2022-01-06
CN112001489A (zh) 2020-11-27
KR20220003444A (ko) 2022-01-10
JP7165226B2 (ja) 2022-11-02

Similar Documents

Publication Publication Date Title
KR102484617B1 (ko) 이종 그래프 노드를 표현하는 모델 생성 방법, 장치, 전자 기기, 저장 매체 및 프로그램
JP7036321B2 (ja) 問答読解モデル取得方法、装置、電子機器、及び記憶媒体
JP7165226B2 (ja) オプティマイザ学習方法、装置、電子デバイス、可読記憶媒体及びコンピュータプログラム
CN110806923B (zh) 一种区块链任务的并行处理方法、装置、电子设备和介质
KR20220001008A (ko) 분산 훈련 방법, 시스템, 기기, 저장 매체 및 프로그램
JP2021082308A (ja) マルチモーダルコンテンツ処理方法、装置、機器及び記憶媒体
CN111144108B (zh) 情感倾向性分析模型的建模方法、装置和电子设备
JP7095209B2 (ja) グラフニューラルネットワークをプレトレーニングする方法、プログラム及び装置
JP2022002091A (ja) 画像編集モデルの構築方法及び装置
JP2021144696A (ja) モデルパラメータ更新方法及び装置
CN111125451B (zh) 数据生产加工方法、装置、电子设备及存储介质
JP7192192B2 (ja) 語義類似度モデルの訓練方法、装置、電子デバイス及び記憶媒体
JP7300475B2 (ja) エンティティ関係マイニング方法、装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム
CN111950293B (zh) 语义表示模型的生成方法、装置、电子设备及存储介质
CN111158666B (zh) 实体归一化处理方法、装置、设备及存储介质
CN110569969A (zh) 网络模型结构的采样方法、装置以及电子设备
JP7170094B2 (ja) オペレーター併合方法、装置、電子デバイス、記憶媒体及びコンピュータプログラム
CN110852449A (zh) 模型迁移方法和电子设备
CN111737399A (zh) 扩展问答集的方法、装置、电子设备和可读存储介质
CN111061743B (zh) 数据加工方法、装置和电子设备
CN112527474A (zh) 任务处理方法及装置、设备、可读介质、计算机程序产品
JP7217325B2 (ja) ネットワークオペレータ処理方法、装置、電子デバイス、記憶媒体及びプログラム
EP3958183A1 (en) Deep learning model adaptation method and apparatus and electronic device
CN112507692B (zh) 建立风格文本生成模型的方法、装置
CN111539225B (zh) 语义理解框架结构的搜索方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210324

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220422

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220629

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221014

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221021

R150 Certificate of patent or registration of utility model

Ref document number: 7165226

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150