JP6862586B1 - ニューラルネットワークのトレーニング方法、装置および記憶媒体 - Google Patents
ニューラルネットワークのトレーニング方法、装置および記憶媒体 Download PDFInfo
- Publication number
- JP6862586B1 JP6862586B1 JP2020001867A JP2020001867A JP6862586B1 JP 6862586 B1 JP6862586 B1 JP 6862586B1 JP 2020001867 A JP2020001867 A JP 2020001867A JP 2020001867 A JP2020001867 A JP 2020001867A JP 6862586 B1 JP6862586 B1 JP 6862586B1
- Authority
- JP
- Japan
- Prior art keywords
- network
- substructure
- super
- alternative
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 105
- 238000000034 method Methods 0.000 title claims abstract description 85
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 83
- 238000010845 search algorithm Methods 0.000 claims description 37
- 238000013507 mapping Methods 0.000 claims description 34
- 238000012360 testing method Methods 0.000 claims description 34
- 238000011156 evaluation Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 21
- 230000002787 reinforcement Effects 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 abstract description 11
- 238000004891 communication Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013209 evaluation strategy Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
Description
スーパーネットワークをトレーニングして、前記スーパーネットワークのネットワークパラメータを取得することであって、ここで、前記スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含むことと、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、1つの前記代替ネットワークサブ構造をターゲットネットワークサブ構造として選択することと、
各層が選択した前記ターゲットネットワークサブ構造に基づいて、サブネットワークを構築することと、
前記スーパーネットワークから継承されたネットワークパラメータを前記サブネットワークの初期化パラメータとし、前記サブネットワークをトレーニングして、前記サブネットワークのネットワークパラメータを取得することを含む、ネットワークのトレーニング方法を提供する。
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、1つの前記代替ネットワークサブ構造をターケットネットワークのサブ構造として選択することは、
前記サブネットワークの第n個のネットワーク層の前記ターゲットネットワークサブ構造として、前記スーパーネットワークの第n個のネットワーク層の第m個の代替ネットワークサブ構造を選択することであって、nはNより小さいか等しい正の整数であり、mはMより小さいか等しい正の整数であることを含む。
前記スーパーネットワークのネットワークパラメータを取得した後、各前記代替ネットワークサブ構造の構造識別子と各前記代替ネットワークサブ構造のネットワークパラメータとの間のマッピング関係が対応して記憶されることをさらに含む。
前記サブネットワークに含まれた代替ネットワークサブ構造の構造識別子に基づいて、前記マッピング関係を照会して、対応する代替ネットワークサブ構造のネットワークパラメータを取得することと、
取得された前記サブネットワークの代替ネットワーク構造のネットワークパラメータに基づいて、前記サブネットワークをトレーニングして、前記サブネットワークのネットワークパラメータを取得することを含む。
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、設定された検索アルゴリズムに基づいて、1つの前記代替ネットワークサブ構造をターゲットネットワークサブ構造として選択することであって、
前記設定された検索アルゴリズムは、ランダム検索アルゴリズム、ベイジアン検索アルゴリズム、進化学習アルゴリズム、強化学習アルゴリズム、進化学習と強化学習を組み合わせたアルゴリズム、勾配ベースのアルゴリズムのうちの少なくとも1つを含む。
トレーニングされたサブネットワークに基づいて、入力データに対してデータ処理を行うことをさらに含み、
ここで、前記入力データのタイプは、イメージデータタイプ、テキストデータタイプ、およびオーディオデータタイプのうちの少なくとも1つを含む。
テストデータセットに基づいて、トレーニングされたサブネットワークに対して性能評価を行い、評価結果を取得することをさらに含み、
ここで、前記テストデータセット内のテストデータのタイプは、イメージデータタイプ、サービスデータタイプ、およびオーディオデータタイプのうちの少なくとも1つを含む。
スーパーネットワークをトレーニングして、前記スーパーネットワークのネットワークパラメータを取得するように構成される第1のトレーニングモジュールであって、前記スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含む第1のトレーニングモジュールと、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、1つの前記代替ネットワークサブ構造をターゲットネットワークサブ構造として選択するように構成される選択モジュールと、
各層が選択した前記ターゲットネットワークサブ構造に基づいて、サブネットワークを構築するように構成されるネットワーク構築モジュールと、
前記スーパーネットワークから継承されたネットワークパラメータを前記サブネットワークの初期化パラメータとし、前記サブネットワークをトレーニングして、前記サブネットワークのネットワークパラメータを取得するように構成される第2のトレーニングモジュールを含む、ニューラルネットワークのトレーニング装置を提供する。
前記選択モジュールは、具体的に、前記サブネットワークの第n個ネットワーク層の前記ターゲットネットワークサブ構造として、前記スーパーネットワークの第n個のネットワーク層の第m個の代替ネットワークサブ構造を選択するように構成され、nはNより小さいか等しい正の整数であり、mはMより小さいか等しい正の整数である。
前記スーパーネットワークのネットワークパラメータを取得した後、各前記代替ネットワークサブ構造の構造識別子と各前記代替ネットワークサブ構造のネットワークパラメータとの間のマッピング関係が対応して記憶されるように構成される記憶モジュールをさらに含む。
前記サブネットワークに含まれる代替ネットワークサブ構造の構造識別子に基づいて、前記マッピング関係を照会して、対応する代替ネットワークサブ構造のネットワークパラメータを取得し、
前記取得した前記代替ネットワークサブ構造のネットワークパラメータに基づいて、前記サブネットワークをトレーニングして前記サブネットワークのネットワークパラメータを取得するように構成される。
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、設定された検索アルゴリズムに基づいて、1つの前記代替ネットワークサブ構造をターゲットネットワークサブ構造として選択するように構成され、
前記設定された検索アルゴリズムは、ランダム検索アルゴリズム、ベイジアン検索アルゴリズム、進化学習アルゴリズム、強化学習アルゴリズム、進化学習と強化学習を組み合わせたアルゴリズム、勾配ベースのアルゴリズムのうちの少なくとも以下の1つを含む。
トレーニングされたサブネットワークに基づいて、入力データに対してデータ処理を行うように構成されるデータ処理モジュールを含み、
前記入力データのタイプは、イメージデータタイプ、テキストデータタイプ、およびオーディオデータタイプのうちの少なくとも1つを含む。
テストデータセットに基づいて、トレーニングされたサブネットワークに対して性能評価を行い、評価結果を取得するように構成される性能評価モジュールを含み、
前記テストデータセット内のテストデータのタイプは、イメージデータタイプ、サービスデータタイプ、およびオーディオデータタイプのうちの少なくとも1つを含む。
プロセッサと、
プロセッサによって実行可能な命令を記憶するように構成されるメモリと、を含むことであって、
ここで、前記プロセッサは、実行する時、前記ニューラルネットワークのトレーニング方法のステップのいずれか一つを実装するように構成される。
本発明は、例えば、以下を提供する。
(項目1)
ニューラルネットワークのトレーニング方法であって、
スーパーネットワークをトレーニングして、前記スーパーネットワークのネットワークパラメータを取得することであって、前記スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含むことと、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、1つの前記代替ネットワークサブ構造をターゲットネットワークサブ構造として選択することと、
各層が選択した前記ターゲットネットワークサブ構造に基づいて、サブネットワークを構築することと、
前記スーパーネットワークから継承されたネットワークパラメータを前記サブネットワークの初期化パラメータとし、前記サブネットワークをトレーニングして、前記サブネットワークのネットワークパラメータを取得することとを含む、前記方法。
(項目2)
前記スーパーネットワークは、N個のネットワーク層を含み、各前記ネットワーク層は、M個の代替ネットワークサブ構造を含み、Nは2より大きいか等しい正の整数であり、Mは2より大きいか等しい正の整数であり、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、1つの前記代替ネットワークサブ構造をターケットネットワークのサブ構造として選択することは、
前記サブネットワークの第n個のネットワーク層の前記ターゲットネットワークサブ構造として、前記スーパーネットワークの第n個のネットワーク層の第m個の代替ネットワークサブ構造を選択することであって、nはNより小さいか等しい正の整数であり、mはMより小さいか等しい正の整数であることを含む、
上記項目に記載の方法。
(項目3)
前記方法は、
前記スーパーネットワークのネットワークパラメータを取得した後、各前記代替ネットワークサブ構造の構造識別子と各前記代替ネットワークサブ構造のネットワークパラメータとの間のマッピング関係が対応して記憶されることをさらに含む、
上記項目のいずれかに記載の方法。
(項目4)
前記スーパーネットワークから継承されたネットワークパラメータを前記サブネットワークの初期化パラメータとし、前記サブネットワークをトレーニングして前記サブネットワークのネットワークパラメータを取得することは、
前記サブネットワークに含まれた代替ネットワークサブ構造の構造識別子に基づいて、前記マッピング関係を照会して、対応する代替ネットワークサブ構造のネットワークパラメータを取得することと、
取得された前記サブネットワークの代替ネットワークサブ構造のネットワークパラメータに基づいて、前記サブネットワークをトレーニングして、前記サブネットワークのネットワークパラメータを取得することを含む、
上記項目のいずれかに記載の方法。
(項目5)
前記スーパーネットワークの各ネットワーク層の複数のネットワークサブ構造から、1つの前記代替ネットワークサブ構造をターゲットネットワークサブ構造として選択することは、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、設定された検索アルゴリズムに基づいて、1つの前記代替ネットワークサブ構造をターゲットネットワークサブ構造として選択することを含み、
前記設定された検索アルゴリズムは、ランダム検索アルゴリズム、ベイジアン検索アルゴリズム、進化学習アルゴリズム、強化学習アルゴリズム、進化学習と強化学習を組み合わせたアルゴリズム、勾配ベースのアルゴリズムのうちの少なくとも1つを含む、
上記項目のいずれかに記載の方法。
(項目6)
前記方法は、
トレーニングされたサブネットワークに基づいて、入力データに対してデータ処理を行うことをさらに含み、
前記入力データのタイプは、イメージデータタイプ、テキストデータタイプ、およびオーディオデータタイプのうちの少なくとも1つを含む、
上記項目のいずれかに記載の方法。
(項目7)
前記方法は、
テストデータセットに基づいて、トレーニングされたサブネットワークに対して性能評価を行い、評価結果を取得することをさらに含み、
前記テストデータセット内のテストデータのタイプは、イメージデータタイプ、サービスデータタイプ、およびオーディオデータタイプのうちの少なくとも1つを含む、
上記項目のいずれかに記載の方法。
(項目8)
ニューラルネットワークのトレーニング装置であって、
スーパーネットワークをトレーニングして、前記スーパーネットワークのネットワークパラメータを取得するように構成される第1のトレーニングモジュールであって、前記スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含む第1のトレーニングモジュールと、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、1つの代替ネットワークサブ構造をターゲットネットワークサブ構造として選択するように構成される選択モジュールと、
各層が選択した前記ターゲットネットワークサブ構造に基づいて、サブネットワークを構築するように構成されるネットワーク構築モジュールと、
前記スーパーネットワークから継承されたネットワークパラメータを前記サブネットワークの初期化パラメータとし、前記サブネットワークをトレーニングして、前記サブネットワークのネットワークパラメータを取得するように構成される第2のトレーニングモジュールと、を含む、前記装置。
(項目9)
前記スーパーネットワークは、N個のネットワーク層を含み、各前記ネットワーク層は、M個の代替ネットワークサブ構造を含み、Nは2より大きいか等しい正の整数であり、Mは2より大きいか等しい正の整数であり、
前記選択モジュールは、具体的に、前記サブネットワークの第n個ネットワーク層の前記ターゲットネットワークサブ構造として、前記スーパーネットワークの第n個のネットワーク層の第m個の代替ネットワークサブ構造を選択するように構成され、nはNより小さいか等しい正の整数であり、mはMより小さいか等しい正の整数である、
上記項目のいずれかに記載の装置。
(項目10)
前記装置は、さらに、
前記スーパーネットワークのネットワークパラメータを取得された後、各前記代替ネットワークサブ構造の構造識別子と各前記代替ネットワークサブ構造のネットワークパラメータとの間のマッピング関係が対応して記憶されるように構成される記憶モジュールを含む、
上記項目のいずれかに記載の装置。
(項目11)
前記第2のトレーニングモジュールは、具体的に、
前記サブネットワークに含まれる代替ネットワークサブ構造の構造識別子に基づいて、前記マッピング関係を照会して、対応する代替ネットワークサブ構造のネットワークパラメータを取得し、
前記取得された前記代替ネットワークサブ構造のネットワークパラメータに基づいて、前記サブネットワークをトレーニングして前記サブネットワークのネットワークパラメータを取得するように構成される、
上記項目のいずれかに記載の装置。
(項目12)
前記選択モジュールは、具体的に、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、設定された検索アルゴリズムに基づいて、1つの前記代替ネットワークサブ構造をターゲットネットワークサブ構造として選択するように構成され、
前記設定された検索アルゴリズムは、ランダム検索アルゴリズム、ベイジアン検索アルゴリズム、進化学習アルゴリズム、強化学習アルゴリズム、進化学習と強化学習を組み合わせたアルゴリズム、勾配ベースのアルゴリズムのうちの少なくとも1つを含む、
上記項目のいずれかに記載の装置。
(項目13)
前記装置は、さらに、
トレーニングされたサブネットワークに基づいて、入力データに対してデータ処理を行うように構成されるデータ処理モジュールを含み、
前記入力データのタイプは、イメージデータタイプ、テキストデータタイプ、およびオーディオデータタイプのうちの少なくとも1つを含む、
上記項目のいずれかに記載の装置。
(項目14)
前記装置は、さらに、
テストデータセットに基づいて、トレーニングされたサブネットワークに対して性能評価を行って、評価結果を取得するように構成される性能評価モジュールを含み、
前記テストデータセット内のテストデータのタイプは、イメージデータタイプ、サービスデータタイプ、およびオーディオデータタイプのうちの少なくとも1つを含む、
上記項目のいずれかに記載の方法。
(項目15)
ニューラルネットワークのトレーニング装置であって、
プロセッサと、
プロセッサによって実行可能な命令を記憶するように構成されるメモリと、を含み、
前記プロセッサは、実行する時、前記請求項1ないし7のいずれか一項に記載のニューラルネットワークのトレーニング方法のステップを実装するように構成される、前記装置。
(項目16)
非一時的なコンピュータ可読記憶媒体であって、
前記記憶媒体の命令がニューラルネットワークのトレーニング装置のプロセッサによって実行される場合、前記装置に前記請求項1ないし7のいずれか一項に記載のニューラルネットワークのトレーニング方法を実行させるようにする、前記コンピュータ可読記憶媒体。
(摘要)
本開示は、ニューラルネットワークのトレーニング方法、装置および記憶媒体に関し、前記方法は、スーパーネットワークをトレーニングして、スーパーネットワークのネットワークパラメータを取得することであって、前記スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含むことと、スーパーネットワークの各ネットワークの複数の代替ネットワークサブ構造から、ターゲットネットワークサブ構造として1つの代替ネットワークサブ構造を選択することと、各層が選択したターゲットネットワークサブ構造に基づいて、サブネットワークを構築することと、スーパーネットワークから継承されたネットワークパラメータをサブネットワークの初期化パラメータとし、サブネットワークをトレーニングしてサブネットワークのネットワークパラメータを取得することを含む。本開示では、スーパーネットワークから継承されたネットワークパラメータをサブネットワークの初期化パラメータとして、サブネットワークをトレーニングし、サブネットワークをゼロからトレーニングする必要がないため、ニューラルネットワークのトレーニングの計算量を減少させ、ニューラルネットワークのトレーニングの効率を改善することができる。
入力イメージ内のターゲットおよび背景に対して分割するターゲットセグメンテーション、
入力イメージ内のターゲットに対する分類、
入力イメージに基づくターゲット追跡、
医療イメージに基づく診断補助、および
入力音声に基づく音声認識、音声補正等の機能のうちの少なくとも1つを含むが、これに限定されない。
スーパーネットワークをトレーニングして、前記スーパーネットワークのネットワークパラメータを取得するように構成される第1のトレーニングモジュール1001であって、前記スーパーネットワークの各ネットワークは、並列した複数の代替ネットワークサブ構造を含む第1のトレーニングモジュール1001と、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、1つの代替ネットワークサブ構造をターゲットネットワークサブ構造として選択するように構成される選択モジュール1002と、
各層が選択した前記ターゲットネットワークサブ構造に基づいて、サブネットワークを構築するように構成されるネットワーク構築モジュール1003と、
前記スーパーネットワークから継承されたネットワークパラメータを前記サブネットワークの初期化パラメータとし、前記サブネットワークをトレーニングして、前記ネットワークパラメータを取得するように構成される第2のトレーニングモジュール1004と、を含む。
スーパーネットワークをトレーニングして、前記スーパーネットワークのネットワークパラメータを取得するように構成される第1のトレーニングモジュール1001であって、前記スーパーネットワークの各ネットワークは、並列した複数の代替ネットワークサブ構造を含む第1のトレーニングモジュール1001と、
スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、1つの代替ネットワークサブ構造をターゲットネットワークサブ構造として選択するように構成された選択モジュール1002と、
各層によって選択された前記ターゲットネットワークサブ構造に基づいて、サブネットワークを構築するように構成されたネットワーク構築モジュール1003と、
スーパーネットワークから継承されたネットワークパラメータを前記サブネットワークの初期化パラメータとして、前記サブネットワークをトレーニングして、前記ネットワークパラメータを取得するように構成された第2のトレーニングモジュール1004と、
スーパーネットワークのネットワークパラメータを取得された後、各前記代替ネットワークサブ構造の構造識別子と各前記代替ネットワークサブ構造のネットワークパラメータとの間のマッピング関係が対応して記憶されるように構成される記憶モジュール1101と、を含む。
サブネットワークに含まれた代替ネットワークサブ構造の構造識別子に基づいて、前記マッピング関係を照会して、対応する代替ネットワークサブ構造のネットワークパラメータを取得し、
取得された代替ネットワークサブ構造のネットワークパラメータに基づいて、サブネットワークをトレーニングして、サブネットワークのネットワークパラメータを取得するように構成される。
スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、設定された検索アルゴリズムに基づいて、1つの代替ネットワークサブ構造をターゲットネットワークサブ構造として選択するように構成され、
前記設定された検索アルゴリズムは、ランダム検索アルゴリズム、ベイジアン検索アルゴリズム、進化学習アルゴリズム、強化学習アルゴリズム、進化学習と強化学習を組み合わせたアルゴリズム、勾配ベースのアルゴリズムのうちの少なくとも1つを含む。
レーニングされたサブネットワークに基づいて、入力データに対してデータ処理を行うように構成されるデータ処理モジュールを含み、
テストデータセット内のテストデータのタイプは、イメージデータタイプ、テキストデータタイプ、およびオーディオデータタイプのうちの少なくとも1つを含む。
テストデータセットに基づいて、トレーニングされたサブネットワークに対して性能評価を行い、評価結果を取得するように構成される性能評価モジュールを含み、
テストデータセット内のテストデータのタイプは、イメージデータタイプ、サービスデータタイプ、およびオーディオデータタイプのうちの少なくとも1つを含む。
プロセッサと、
プロセッサによって実行可能な命令を記憶するように構成されたメモリと、を含むニューラルネットワークのトレーニング装置を提供する。
スーパーネットワークをトレーニングして、前記スーパーネットワークのネットワークパラメータを取得することであって、前記スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含むことと、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、1つの代替ネットワークサブ構造をターゲットネットワークサブ構造として選択することと、
各層が選択した前記ターゲットネットワークサブ構造に基づいて、サブネットワークを構築することと、
前記スーパーネットワークから継承されたネットワークパラメータを前記サブネットワークの初期化パラメータとして、前記サブネットワークをトレーニングして、前記サブネットワークのネットワークパラメータを取得することと、を含む。
スーパーネットワークをトレーニングして、前記スーパーネットワークのネットワークパラメータを取得することであって、前記スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含むことと、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、1つの代替ネットワークサブ構造をサブネットワークのターゲットネットワークサブ構造として選択することと、
前記スーパーネットワークから継承されたネットワークパラメータを前記サブネットワークの初期化パラメータとして、前記サブネットワークをトレーニングして、前記サブネットワークのネットワークパラメータを取得することと、を含む。
Claims (16)
- ニューラルネットワークのトレーニング方法であって、
スーパーネットワークをトレーニングして、前記スーパーネットワークのネットワークパラメータを取得することであって、前記スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含むことと、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、1つの前記代替ネットワークサブ構造をターゲットネットワークサブ構造として選択することと、
各層が選択した前記ターゲットネットワークサブ構造に基づいて、サブネットワークを構築することと、
前記スーパーネットワークから継承されたネットワークパラメータを前記サブネットワークの初期化パラメータとし、前記サブネットワークをトレーニングして、前記サブネットワークのネットワークパラメータを取得することとを含む、前記方法。 - 前記スーパーネットワークは、N個のネットワーク層を含み、各前記ネットワーク層は、M個の代替ネットワークサブ構造を含み、Nは2より大きいか等しい正の整数であり、Mは2より大きいか等しい正の整数であり、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、1つの前記代替ネットワークサブ構造をターケットネットワークのサブ構造として選択することは、
前記サブネットワークの第n個のネットワーク層の前記ターゲットネットワークサブ構造として、前記スーパーネットワークの第n個のネットワーク層の第m個の代替ネットワークサブ構造を選択することであって、nはNより小さいか等しい正の整数であり、mはMより小さいか等しい正の整数であることを含む、
請求項1に記載の方法。 - 前記方法は、
前記スーパーネットワークのネットワークパラメータを取得した後、各前記代替ネットワークサブ構造の構造識別子と各前記代替ネットワークサブ構造のネットワークパラメータとの間のマッピング関係が対応して記憶されることをさらに含む、
請求項1に記載の方法。 - 前記スーパーネットワークから継承されたネットワークパラメータを前記サブネットワークの初期化パラメータとし、前記サブネットワークをトレーニングして前記サブネットワークのネットワークパラメータを取得することは、
前記サブネットワークに含まれた代替ネットワークサブ構造の構造識別子に基づいて、前記マッピング関係を照会して、対応する代替ネットワークサブ構造のネットワークパラメータを取得することと、
取得された前記サブネットワークの代替ネットワークサブ構造のネットワークパラメータに基づいて、前記サブネットワークをトレーニングして、前記サブネットワークのネットワークパラメータを取得することを含む、
請求項3に記載の方法。 - 前記スーパーネットワークの各ネットワーク層の複数のネットワークサブ構造から、1つの前記代替ネットワークサブ構造をターゲットネットワークサブ構造として選択することは、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、設定された検索アルゴリズムに基づいて、1つの前記代替ネットワークサブ構造をターゲットネットワークサブ構造として選択することを含み、
前記設定された検索アルゴリズムは、ランダム検索アルゴリズム、ベイジアン検索アルゴリズム、進化学習アルゴリズム、強化学習アルゴリズム、進化学習と強化学習を組み合わせたアルゴリズム、勾配ベースのアルゴリズムのうちの少なくとも1つを含む、
請求項1に記載の方法。 - 前記方法は、
トレーニングされたサブネットワークに基づいて、入力データに対してデータ処理を行うことをさらに含み、
前記入力データのタイプは、イメージデータタイプ、テキストデータタイプ、およびオーディオデータタイプのうちの少なくとも1つを含む、
請求項1ないし5のいずれか一項に記載の方法。 - 前記方法は、
テストデータセットに基づいて、トレーニングされたサブネットワークに対して性能評価を行い、評価結果を取得することをさらに含み、
前記テストデータセット内のテストデータのタイプは、イメージデータタイプ、サービスデータタイプ、およびオーディオデータタイプのうちの少なくとも1つを含む、
請求項1ないし5のいずれか一項に記載の方法。 - ニューラルネットワークのトレーニング装置であって、
スーパーネットワークをトレーニングして、前記スーパーネットワークのネットワークパラメータを取得するように構成される第1のトレーニングモジュールであって、前記スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含む第1のトレーニングモジュールと、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、1つの代替ネットワークサブ構造をターゲットネットワークサブ構造として選択するように構成される選択モジュールと、
各層が選択した前記ターゲットネットワークサブ構造に基づいて、サブネットワークを構築するように構成されるネットワーク構築モジュールと、
前記スーパーネットワークから継承されたネットワークパラメータを前記サブネットワークの初期化パラメータとし、前記サブネットワークをトレーニングして、前記サブネットワークのネットワークパラメータを取得するように構成される第2のトレーニングモジュールと、を含む、前記装置。 - 前記スーパーネットワークは、N個のネットワーク層を含み、各前記ネットワーク層は、M個の代替ネットワークサブ構造を含み、Nは2より大きいか等しい正の整数であり、Mは2より大きいか等しい正の整数であり、
前記選択モジュールは、具体的に、前記サブネットワークの第n個ネットワーク層の前記ターゲットネットワークサブ構造として、前記スーパーネットワークの第n個のネットワーク層の第m個の代替ネットワークサブ構造を選択するように構成され、nはNより小さいか等しい正の整数であり、mはMより小さいか等しい正の整数である、
請求項8に記載の装置。 - 前記装置は、さらに、
前記スーパーネットワークのネットワークパラメータを取得された後、各前記代替ネットワークサブ構造の構造識別子と各前記代替ネットワークサブ構造のネットワークパラメータとの間のマッピング関係が対応して記憶されるように構成される記憶モジュールを含む、
請求項8に記載の装置。 - 前記第2のトレーニングモジュールは、具体的に、
前記サブネットワークに含まれる代替ネットワークサブ構造の構造識別子に基づいて、前記マッピング関係を照会して、対応する代替ネットワークサブ構造のネットワークパラメータを取得し、
前記取得された前記代替ネットワークサブ構造のネットワークパラメータに基づいて、前記サブネットワークをトレーニングして前記サブネットワークのネットワークパラメータを取得するように構成される、
請求項10に記載の装置。 - 前記選択モジュールは、具体的に、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、設定された検索アルゴリズムに基づいて、1つの前記代替ネットワークサブ構造をターゲットネットワークサブ構造として選択するように構成され、
前記設定された検索アルゴリズムは、ランダム検索アルゴリズム、ベイジアン検索アルゴリズム、進化学習アルゴリズム、強化学習アルゴリズム、進化学習と強化学習を組み合わせたアルゴリズム、勾配ベースのアルゴリズムのうちの少なくとも1つを含む、
請求項8に記載の装置。 - 前記装置は、さらに、
トレーニングされたサブネットワークに基づいて、入力データに対してデータ処理を行うように構成されるデータ処理モジュールを含み、
前記入力データのタイプは、イメージデータタイプ、テキストデータタイプ、およびオーディオデータタイプのうちの少なくとも1つを含む、
請求項8ないし12のいずれか一項に記載の装置。 - 前記装置は、さらに、
テストデータセットに基づいて、トレーニングされたサブネットワークに対して性能評価を行って、評価結果を取得するように構成される性能評価モジュールを含み、
前記テストデータセット内のテストデータのタイプは、イメージデータタイプ、サービスデータタイプ、およびオーディオデータタイプのうちの少なくとも1つを含む、
請求項8ないし12のいずれか一項に記載の方法。 - ニューラルネットワークのトレーニング装置であって、
プロセッサと、
プロセッサによって実行可能な命令を記憶するように構成されるメモリと、を含み、
前記プロセッサは、実行する時、前記請求項1ないし7のいずれか一項に記載のニューラルネットワークのトレーニング方法のステップを実装するように構成される、前記装置。 - 非一時的なコンピュータ可読記憶媒体であって、
前記記憶媒体の命令がニューラルネットワークのトレーニング装置のプロセッサによって実行される場合、前記装置に前記請求項1ないし7のいずれか一項に記載のニューラルネットワークのトレーニング方法を実行させるようにする、前記コンピュータ可読記憶媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911053898.8A CN110782034A (zh) | 2019-10-31 | 2019-10-31 | 神经网络的训练方法、装置及存储介质 |
CN201911053898.8 | 2019-10-31 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6862586B1 true JP6862586B1 (ja) | 2021-04-21 |
JP2021072079A JP2021072079A (ja) | 2021-05-06 |
Family
ID=69185389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020001867A Active JP6862586B1 (ja) | 2019-10-31 | 2020-01-09 | ニューラルネットワークのトレーニング方法、装置および記憶媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11663468B2 (ja) |
EP (1) | EP3816868A1 (ja) |
JP (1) | JP6862586B1 (ja) |
KR (1) | KR102365890B1 (ja) |
CN (1) | CN110782034A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657466A (zh) * | 2021-07-29 | 2021-11-16 | 北京百度网讯科技有限公司 | 预训练模型的生成方法、装置、电子设备和存储介质 |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111278085B (zh) * | 2020-02-24 | 2023-08-29 | 北京百度网讯科技有限公司 | 用于获取目标网络的方法及装置 |
CN111368973B (zh) * | 2020-02-25 | 2023-09-08 | 北京百度网讯科技有限公司 | 用于训练超网络的方法和装置 |
CN111340220B (zh) * | 2020-02-25 | 2023-10-20 | 北京百度网讯科技有限公司 | 用于训练预测模型的方法和装置 |
CN111325328B (zh) * | 2020-03-06 | 2023-10-24 | 上海商汤临港智能科技有限公司 | 神经网络的生成方法、数据处理方法及装置 |
CN113469891A (zh) * | 2020-03-31 | 2021-10-01 | 武汉Tcl集团工业研究院有限公司 | 一种神经网络架构搜索方法、训练方法、图像补全方法 |
CN111523639A (zh) * | 2020-04-09 | 2020-08-11 | 北京百度网讯科技有限公司 | 用于训练超网络的方法和装置 |
CN111523665B (zh) * | 2020-04-23 | 2024-02-13 | 北京百度网讯科技有限公司 | 超网络参数更新方法、装置和电子设备 |
CN111553464B (zh) * | 2020-04-26 | 2023-09-29 | 北京小米松果电子有限公司 | 基于超网络的图像处理方法、装置及智能设备 |
CN111563592B (zh) * | 2020-05-08 | 2023-12-15 | 北京百度网讯科技有限公司 | 基于超网络的神经网络模型生成方法和装置 |
CN111582452B (zh) * | 2020-05-09 | 2023-10-27 | 北京百度网讯科技有限公司 | 生成神经网络模型的方法和装置 |
CN113705276A (zh) * | 2020-05-20 | 2021-11-26 | 武汉Tcl集团工业研究院有限公司 | 模型构建方法、模型构建装置、计算机设备及介质 |
CN111652354B (zh) * | 2020-05-29 | 2023-10-24 | 北京百度网讯科技有限公司 | 用于训练超网络的方法、装置、设备以及存储介质 |
CN111639753B (zh) * | 2020-05-29 | 2023-12-05 | 北京百度网讯科技有限公司 | 用于训练图像处理超网络的方法、装置、设备以及存储介质 |
CN111639752B (zh) * | 2020-05-29 | 2023-09-26 | 北京百度网讯科技有限公司 | 用于训练超网络的方法、装置、设备以及存储介质 |
CN111709890B (zh) * | 2020-06-12 | 2023-11-24 | 北京小米松果电子有限公司 | 一种图像增强模型的训练方法、装置及存储介质 |
CN111753917A (zh) * | 2020-06-29 | 2020-10-09 | 北京小米松果电子有限公司 | 数据处理方法、装置及存储介质 |
CN111968635B (zh) * | 2020-08-07 | 2024-03-05 | 北京小米松果电子有限公司 | 语音识别的方法、装置及存储介质 |
CN112116090B (zh) * | 2020-09-28 | 2022-08-30 | 腾讯科技(深圳)有限公司 | 神经网络结构搜索方法、装置、计算机设备及存储介质 |
US20220121922A1 (en) * | 2020-10-20 | 2022-04-21 | Deci.Ai Ltd. | System and method for automated optimazation of a neural network model |
CN112259122A (zh) * | 2020-10-20 | 2021-01-22 | 北京小米松果电子有限公司 | 音频类型识别方法、装置及存储介质 |
CN112598021A (zh) * | 2020-11-27 | 2021-04-02 | 西北工业大学 | 一种基于自动机器学习的图结构搜索方法 |
WO2022126448A1 (zh) * | 2020-12-16 | 2022-06-23 | 华为技术有限公司 | 一种基于演化学习的神经网络结构搜索方法和系统 |
CN112633471B (zh) * | 2020-12-17 | 2023-09-26 | 苏州浪潮智能科技有限公司 | 构建神经网络架构搜索框架的方法、系统、设备及介质 |
CN114925739B (zh) * | 2021-02-10 | 2023-11-03 | 华为技术有限公司 | 目标检测方法、装置和系统 |
CN116542293A (zh) * | 2022-01-24 | 2023-08-04 | 美的集团(上海)有限公司 | 一种神经网络结构搜索方法、装置、程序产品及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2810202B2 (ja) * | 1990-04-25 | 1998-10-15 | 株式会社日立製作所 | ニューラルネットワークによる情報処理装置 |
JP6042274B2 (ja) * | 2013-06-28 | 2016-12-14 | 株式会社デンソーアイティーラボラトリ | ニューラルネットワーク最適化方法、ニューラルネットワーク最適化装置及びプログラム |
CN110168578B (zh) * | 2017-01-30 | 2024-02-06 | 渊慧科技有限公司 | 具有任务特定路径的多任务神经网络 |
EP3673419A1 (en) * | 2017-11-22 | 2020-07-01 | Deepmind Technologies Limited | Population based training of neural networks |
US12020160B2 (en) * | 2018-01-19 | 2024-06-25 | International Business Machines Corporation | Generation of neural network containing middle layer background |
EP3711000B1 (en) | 2018-02-02 | 2023-06-21 | Google LLC | Regularized neural network architecture search |
CN110288084A (zh) * | 2019-06-06 | 2019-09-27 | 北京小米智能科技有限公司 | 超网络训练方法和装置 |
-
2019
- 2019-10-31 CN CN201911053898.8A patent/CN110782034A/zh active Pending
-
2020
- 2020-01-09 JP JP2020001867A patent/JP6862586B1/ja active Active
- 2020-01-14 KR KR1020200004553A patent/KR102365890B1/ko active IP Right Grant
- 2020-01-16 US US16/744,674 patent/US11663468B2/en active Active
- 2020-01-20 EP EP20152649.8A patent/EP3816868A1/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657466A (zh) * | 2021-07-29 | 2021-11-16 | 北京百度网讯科技有限公司 | 预训练模型的生成方法、装置、电子设备和存储介质 |
CN113657466B (zh) * | 2021-07-29 | 2024-02-06 | 北京百度网讯科技有限公司 | 预训练模型的生成方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
EP3816868A1 (en) | 2021-05-05 |
KR102365890B1 (ko) | 2022-02-22 |
KR20210053122A (ko) | 2021-05-11 |
CN110782034A (zh) | 2020-02-11 |
JP2021072079A (ja) | 2021-05-06 |
US11663468B2 (en) | 2023-05-30 |
US20210133563A1 (en) | 2021-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6862586B1 (ja) | ニューラルネットワークのトレーニング方法、装置および記憶媒体 | |
JP7029476B2 (ja) | スーパーネットワークトレーニング方法、及び装置、プログラム、及び記録媒体 | |
US10930304B2 (en) | Processing voice | |
US20210117726A1 (en) | Method for training image classifying model, server and storage medium | |
TWI772668B (zh) | 一種目標對象處理方法、裝置、電子設備及儲存介質 | |
CN111160448B (zh) | 一种图像分类模型的训练方法及装置 | |
JP2021077322A (ja) | ハイパーネットワークトレーニングの方法及び装置、電子機器、記憶媒体 | |
EP3901827B1 (en) | Image processing method and apparatus based on super network, intelligent device and computer storage medium | |
WO2016011741A1 (zh) | 自动连接无线局域网的方法及装置 | |
US20210390449A1 (en) | Method and device for data processing, and storage medium | |
KR20150117202A (ko) | 클러스터링 방법, 관련 장치, 프로그램 및 기록매체 | |
CN106250430A (zh) | 智能设备列表的排序方法及装置 | |
WO2020103353A1 (zh) | 多波束选取方法及装置 | |
CN110782010A (zh) | 一种神经网络的构建方法及装置、存储介质 | |
TW202036476A (zh) | 圖像處理方法及裝置、電子設備和儲存介質 | |
US20200394228A1 (en) | Electronic device and method for predicting an intention of a user | |
RU2616592C2 (ru) | Способ и устройство для определения местоположения | |
US9854559B2 (en) | Method and device for pushing user information | |
CN112259122A (zh) | 音频类型识别方法、装置及存储介质 | |
WO2019105243A1 (zh) | 图像处理方法、装置及终端 | |
CN113673603B (zh) | 一种要素点匹配的方法及相关装置 | |
CN113297128B (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
EP3786852A1 (en) | Method for subnetwork sampling, and method and device for building a hypernetwork topology | |
WO2022116519A1 (zh) | 一种搜索方法、装置和电子设备 | |
WO2023220987A1 (zh) | 目标点确定方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200109 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210323 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210331 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6862586 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |