JP6862586B1 - ニューラルネットワークのトレーニング方法、装置および記憶媒体 - Google Patents

ニューラルネットワークのトレーニング方法、装置および記憶媒体 Download PDF

Info

Publication number
JP6862586B1
JP6862586B1 JP2020001867A JP2020001867A JP6862586B1 JP 6862586 B1 JP6862586 B1 JP 6862586B1 JP 2020001867 A JP2020001867 A JP 2020001867A JP 2020001867 A JP2020001867 A JP 2020001867A JP 6862586 B1 JP6862586 B1 JP 6862586B1
Authority
JP
Japan
Prior art keywords
network
substructure
super
alternative
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020001867A
Other languages
English (en)
Other versions
JP2021072079A (ja
Inventor
シャンシャン チュー,
シャンシャン チュー,
ルイジュン シュー,
ルイジュン シュー,
ボー ジャン,
ボー ジャン,
ジーシャン リー,
ジーシャン リー,
チンユアン リー,
チンユアン リー,
ビン ワン,
ビン ワン,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Intelligent Technology Co Ltd
Original Assignee
Beijing Xiaomi Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Intelligent Technology Co Ltd filed Critical Beijing Xiaomi Intelligent Technology Co Ltd
Application granted granted Critical
Publication of JP6862586B1 publication Critical patent/JP6862586B1/ja
Publication of JP2021072079A publication Critical patent/JP2021072079A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

【課題】ニューラルネットワークのトレーニング方法、装置および記憶媒体の提供。【解決手段】ニューラルネットワークのトレーニング方法は、スーパーネットワークをトレーニングして、スーパーネットワークのネットワークパラメータを取得することであって、前記スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含むことと、スーパーネットワークの各ネットワークの複数の代替ネットワークサブ構造から、ターゲットネットワークサブ構造として1つの代替ネットワークサブ構造を選択することと、各層が選択したターゲットネットワークサブ構造に基づいて、サブネットワークを構築することと、スーパーネットワークから継承されたネットワークパラメータをサブネットワークの初期化パラメータとし、サブネットワークをトレーニングしてサブネットワークのネットワークパラメータを取得することを含む。【選択図】図1

Description

本願は、2019年10月31日に中国特許局に提出された、出願番号がCN2019110538988である中国特許出願に基づいて提出されるものであり、当該中国特許出願の優先権を主張し、当該中国特許出願のすべての内容が参照によって本願に組み込まれる。
本開示は、ニューラルネットワークに関し、特に、ニューラルネットワークのトレーニング方法、装置および記憶媒体に関する。
ニューラルネットワークは、動物ニューラルネットワーク行動特徴を模倣して、分散並列情報処理を実行するアルゴリズム数学モデルである。主にシステムの複雑さに依存し、内部の大量のノード間の相互接続された関係を調整することによって、情報処理の目的に達する。データ処理では、例えば、データ分類、オーディオ分析およびイメージ認識等の幅広い用途がある。ニューラルネットワークを使用する前に、ニューラルネットワークをトレーニングする必要があるが、現在のニューラルネットワークをトレーニング方法は、計算量が大きいだけでなく、効率が低い。
本開示は、ニューラルネットワーク、装置および記憶媒体を提供する。
本開示の実施例の第1の態様において、
スーパーネットワークをトレーニングして、前記スーパーネットワークのネットワークパラメータを取得することであって、ここで、前記スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含むことと、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、1つの前記代替ネットワークサブ構造をターゲットネットワークサブ構造として選択することと、
各層が選択した前記ターゲットネットワークサブ構造に基づいて、サブネットワークを構築することと、
前記スーパーネットワークから継承されたネットワークパラメータを前記サブネットワークの初期化パラメータとし、前記サブネットワークをトレーニングして、前記サブネットワークのネットワークパラメータを取得することを含む、ネットワークのトレーニング方法を提供する。
選択的に、前記スーパーネットワークは、N個のネットワーク層を含み、各前記ネットワーク層は、M個の代替ネットワークサブ構造を含み、Nは2より大きいか等しい正の整数であり、Mは2より大きいか等しい正の整数であり、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、1つの前記代替ネットワークサブ構造をターケットネットワークのサブ構造として選択することは、
前記サブネットワークの第n個のネットワーク層の前記ターゲットネットワークサブ構造として、前記スーパーネットワークの第n個のネットワーク層の第m個の代替ネットワークサブ構造を選択することであって、nはNより小さいか等しい正の整数であり、mはMより小さいか等しい正の整数であることを含む。
選択的に、前記方法は、
前記スーパーネットワークのネットワークパラメータを取得した後、各前記代替ネットワークサブ構造の構造識別子と各前記代替ネットワークサブ構造のネットワークパラメータとの間のマッピング関係が対応して記憶されることをさらに含む。
選択的に、前記スーパーネットワークから継承されたネットワークパラメータを前記サブネットワークの初期化パラメータとし、前記サブネットワークをトレーニングして前記サブネットワークのネットワークパラメータを取得することは、
前記サブネットワークに含まれた代替ネットワークサブ構造の構造識別子に基づいて、前記マッピング関係を照会して、対応する代替ネットワークサブ構造のネットワークパラメータを取得することと、
取得された前記サブネットワークの代替ネットワーク構造のネットワークパラメータに基づいて、前記サブネットワークをトレーニングして、前記サブネットワークのネットワークパラメータを取得することを含む。
選択的に、前記スーパーネットワークの各ネットワーク層の複数のネットワークサブ構造から、1つの前記代替ネットワークサブ構造をターゲットネットワークサブ構造として選択することは、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、設定された検索アルゴリズムに基づいて、1つの前記代替ネットワークサブ構造をターゲットネットワークサブ構造として選択することであって、
前記設定された検索アルゴリズムは、ランダム検索アルゴリズム、ベイジアン検索アルゴリズム、進化学習アルゴリズム、強化学習アルゴリズム、進化学習と強化学習を組み合わせたアルゴリズム、勾配ベースのアルゴリズムのうちの少なくとも1つを含む。
選択的に、前記方法は、
トレーニングされたサブネットワークに基づいて、入力データに対してデータ処理を行うことをさらに含み、
ここで、前記入力データのタイプは、イメージデータタイプ、テキストデータタイプ、およびオーディオデータタイプのうちの少なくとも1つを含む。
選択的に、前記方法は、
テストデータセットに基づいて、トレーニングされたサブネットワークに対して性能評価を行い、評価結果を取得することをさらに含み、
ここで、前記テストデータセット内のテストデータのタイプは、イメージデータタイプ、サービスデータタイプ、およびオーディオデータタイプのうちの少なくとも1つを含む。
本開示の実施例の第2の態様において、
スーパーネットワークをトレーニングして、前記スーパーネットワークのネットワークパラメータを取得するように構成される第1のトレーニングモジュールであって、前記スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含む第1のトレーニングモジュールと、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、1つの前記代替ネットワークサブ構造をターゲットネットワークサブ構造として選択するように構成される選択モジュールと、
各層が選択した前記ターゲットネットワークサブ構造に基づいて、サブネットワークを構築するように構成されるネットワーク構築モジュールと、
前記スーパーネットワークから継承されたネットワークパラメータを前記サブネットワークの初期化パラメータとし、前記サブネットワークをトレーニングして、前記サブネットワークのネットワークパラメータを取得するように構成される第2のトレーニングモジュールを含む、ニューラルネットワークのトレーニング装置を提供する。
選択的に、前記スーパーネットワークは、N個のネットワーク層を含み、各前記ネットワーク層は、M個の代替ネットワークサブ構造を含み、Nは2より大きいか等しい正の整数であり、Mは2より大きいか等しい正の整数であり、
前記選択モジュールは、具体的に、前記サブネットワークの第n個ネットワーク層の前記ターゲットネットワークサブ構造として、前記スーパーネットワークの第n個のネットワーク層の第m個の代替ネットワークサブ構造を選択するように構成され、nはNより小さいか等しい正の整数であり、mはMより小さいか等しい正の整数である。
選択的に、前記装置は、
前記スーパーネットワークのネットワークパラメータを取得した後、各前記代替ネットワークサブ構造の構造識別子と各前記代替ネットワークサブ構造のネットワークパラメータとの間のマッピング関係が対応して記憶されるように構成される記憶モジュールをさらに含む。
選択的に、前記第2のトレーニングモジュールは、具体的に、
前記サブネットワークに含まれる代替ネットワークサブ構造の構造識別子に基づいて、前記マッピング関係を照会して、対応する代替ネットワークサブ構造のネットワークパラメータを取得し、
前記取得した前記代替ネットワークサブ構造のネットワークパラメータに基づいて、前記サブネットワークをトレーニングして前記サブネットワークのネットワークパラメータを取得するように構成される。
選択的に、前記選択モジュールは、具体的に、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、設定された検索アルゴリズムに基づいて、1つの前記代替ネットワークサブ構造をターゲットネットワークサブ構造として選択するように構成され、
前記設定された検索アルゴリズムは、ランダム検索アルゴリズム、ベイジアン検索アルゴリズム、進化学習アルゴリズム、強化学習アルゴリズム、進化学習と強化学習を組み合わせたアルゴリズム、勾配ベースのアルゴリズムのうちの少なくとも以下の1つを含む。
選択的に、前記装置は、さらに、
トレーニングされたサブネットワークに基づいて、入力データに対してデータ処理を行うように構成されるデータ処理モジュールを含み、
前記入力データのタイプは、イメージデータタイプ、テキストデータタイプ、およびオーディオデータタイプのうちの少なくとも1つを含む。
選択的に、前記装置は、さらに、
テストデータセットに基づいて、トレーニングされたサブネットワークに対して性能評価を行い、評価結果を取得するように構成される性能評価モジュールを含み、
前記テストデータセット内のテストデータのタイプは、イメージデータタイプ、サービスデータタイプ、およびオーディオデータタイプのうちの少なくとも1つを含む。
本開示の実施例の第3の態様において、
プロセッサと、
プロセッサによって実行可能な命令を記憶するように構成されるメモリと、を含むことであって、
ここで、前記プロセッサは、実行する時、前記ニューラルネットワークのトレーニング方法のステップのいずれか一つを実装するように構成される。
本開示の実施例の第4の態様において、非一時的なコンピュータ可読記憶媒体を提供し、前記記憶媒体の命令がニューラルネットワークのトレーニング装置のプロセッサによって実行する場合、前記装置に前記いずれか一つのニューラルネットワークのトレーニング方法を実行させる。
本発明は、例えば、以下を提供する。
(項目1)
ニューラルネットワークのトレーニング方法であって、
スーパーネットワークをトレーニングして、前記スーパーネットワークのネットワークパラメータを取得することであって、前記スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含むことと、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、1つの前記代替ネットワークサブ構造をターゲットネットワークサブ構造として選択することと、
各層が選択した前記ターゲットネットワークサブ構造に基づいて、サブネットワークを構築することと、
前記スーパーネットワークから継承されたネットワークパラメータを前記サブネットワークの初期化パラメータとし、前記サブネットワークをトレーニングして、前記サブネットワークのネットワークパラメータを取得することとを含む、前記方法。
(項目2)
前記スーパーネットワークは、N個のネットワーク層を含み、各前記ネットワーク層は、M個の代替ネットワークサブ構造を含み、Nは2より大きいか等しい正の整数であり、Mは2より大きいか等しい正の整数であり、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、1つの前記代替ネットワークサブ構造をターケットネットワークのサブ構造として選択することは、
前記サブネットワークの第n個のネットワーク層の前記ターゲットネットワークサブ構造として、前記スーパーネットワークの第n個のネットワーク層の第m個の代替ネットワークサブ構造を選択することであって、nはNより小さいか等しい正の整数であり、mはMより小さいか等しい正の整数であることを含む、
上記項目に記載の方法。
(項目3)
前記方法は、
前記スーパーネットワークのネットワークパラメータを取得した後、各前記代替ネットワークサブ構造の構造識別子と各前記代替ネットワークサブ構造のネットワークパラメータとの間のマッピング関係が対応して記憶されることをさらに含む、
上記項目のいずれかに記載の方法。
(項目4)
前記スーパーネットワークから継承されたネットワークパラメータを前記サブネットワークの初期化パラメータとし、前記サブネットワークをトレーニングして前記サブネットワークのネットワークパラメータを取得することは、
前記サブネットワークに含まれた代替ネットワークサブ構造の構造識別子に基づいて、前記マッピング関係を照会して、対応する代替ネットワークサブ構造のネットワークパラメータを取得することと、
取得された前記サブネットワークの代替ネットワークサブ構造のネットワークパラメータに基づいて、前記サブネットワークをトレーニングして、前記サブネットワークのネットワークパラメータを取得することを含む、
上記項目のいずれかに記載の方法。
(項目5)
前記スーパーネットワークの各ネットワーク層の複数のネットワークサブ構造から、1つの前記代替ネットワークサブ構造をターゲットネットワークサブ構造として選択することは、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、設定された検索アルゴリズムに基づいて、1つの前記代替ネットワークサブ構造をターゲットネットワークサブ構造として選択することを含み、
前記設定された検索アルゴリズムは、ランダム検索アルゴリズム、ベイジアン検索アルゴリズム、進化学習アルゴリズム、強化学習アルゴリズム、進化学習と強化学習を組み合わせたアルゴリズム、勾配ベースのアルゴリズムのうちの少なくとも1つを含む、
上記項目のいずれかに記載の方法。
(項目6)
前記方法は、
トレーニングされたサブネットワークに基づいて、入力データに対してデータ処理を行うことをさらに含み、
前記入力データのタイプは、イメージデータタイプ、テキストデータタイプ、およびオーディオデータタイプのうちの少なくとも1つを含む、
上記項目のいずれかに記載の方法。
(項目7)
前記方法は、
テストデータセットに基づいて、トレーニングされたサブネットワークに対して性能評価を行い、評価結果を取得することをさらに含み、
前記テストデータセット内のテストデータのタイプは、イメージデータタイプ、サービスデータタイプ、およびオーディオデータタイプのうちの少なくとも1つを含む、
上記項目のいずれかに記載の方法。
(項目8)
ニューラルネットワークのトレーニング装置であって、
スーパーネットワークをトレーニングして、前記スーパーネットワークのネットワークパラメータを取得するように構成される第1のトレーニングモジュールであって、前記スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含む第1のトレーニングモジュールと、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、1つの代替ネットワークサブ構造をターゲットネットワークサブ構造として選択するように構成される選択モジュールと、
各層が選択した前記ターゲットネットワークサブ構造に基づいて、サブネットワークを構築するように構成されるネットワーク構築モジュールと、
前記スーパーネットワークから継承されたネットワークパラメータを前記サブネットワークの初期化パラメータとし、前記サブネットワークをトレーニングして、前記サブネットワークのネットワークパラメータを取得するように構成される第2のトレーニングモジュールと、を含む、前記装置。
(項目9)
前記スーパーネットワークは、N個のネットワーク層を含み、各前記ネットワーク層は、M個の代替ネットワークサブ構造を含み、Nは2より大きいか等しい正の整数であり、Mは2より大きいか等しい正の整数であり、
前記選択モジュールは、具体的に、前記サブネットワークの第n個ネットワーク層の前記ターゲットネットワークサブ構造として、前記スーパーネットワークの第n個のネットワーク層の第m個の代替ネットワークサブ構造を選択するように構成され、nはNより小さいか等しい正の整数であり、mはMより小さいか等しい正の整数である、
上記項目のいずれかに記載の装置。
(項目10)
前記装置は、さらに、
前記スーパーネットワークのネットワークパラメータを取得された後、各前記代替ネットワークサブ構造の構造識別子と各前記代替ネットワークサブ構造のネットワークパラメータとの間のマッピング関係が対応して記憶されるように構成される記憶モジュールを含む、
上記項目のいずれかに記載の装置。
(項目11)
前記第2のトレーニングモジュールは、具体的に、
前記サブネットワークに含まれる代替ネットワークサブ構造の構造識別子に基づいて、前記マッピング関係を照会して、対応する代替ネットワークサブ構造のネットワークパラメータを取得し、
前記取得された前記代替ネットワークサブ構造のネットワークパラメータに基づいて、前記サブネットワークをトレーニングして前記サブネットワークのネットワークパラメータを取得するように構成される、
上記項目のいずれかに記載の装置。
(項目12)
前記選択モジュールは、具体的に、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、設定された検索アルゴリズムに基づいて、1つの前記代替ネットワークサブ構造をターゲットネットワークサブ構造として選択するように構成され、
前記設定された検索アルゴリズムは、ランダム検索アルゴリズム、ベイジアン検索アルゴリズム、進化学習アルゴリズム、強化学習アルゴリズム、進化学習と強化学習を組み合わせたアルゴリズム、勾配ベースのアルゴリズムのうちの少なくとも1つを含む、
上記項目のいずれかに記載の装置。
(項目13)
前記装置は、さらに、
トレーニングされたサブネットワークに基づいて、入力データに対してデータ処理を行うように構成されるデータ処理モジュールを含み、
前記入力データのタイプは、イメージデータタイプ、テキストデータタイプ、およびオーディオデータタイプのうちの少なくとも1つを含む、
上記項目のいずれかに記載の装置。
(項目14)
前記装置は、さらに、
テストデータセットに基づいて、トレーニングされたサブネットワークに対して性能評価を行って、評価結果を取得するように構成される性能評価モジュールを含み、
前記テストデータセット内のテストデータのタイプは、イメージデータタイプ、サービスデータタイプ、およびオーディオデータタイプのうちの少なくとも1つを含む、
上記項目のいずれかに記載の方法。
(項目15)
ニューラルネットワークのトレーニング装置であって、
プロセッサと、
プロセッサによって実行可能な命令を記憶するように構成されるメモリと、を含み、
前記プロセッサは、実行する時、前記請求項1ないし7のいずれか一項に記載のニューラルネットワークのトレーニング方法のステップを実装するように構成される、前記装置。
(項目16)
非一時的なコンピュータ可読記憶媒体であって、
前記記憶媒体の命令がニューラルネットワークのトレーニング装置のプロセッサによって実行される場合、前記装置に前記請求項1ないし7のいずれか一項に記載のニューラルネットワークのトレーニング方法を実行させるようにする、前記コンピュータ可読記憶媒体。
(摘要)
本開示は、ニューラルネットワークのトレーニング方法、装置および記憶媒体に関し、前記方法は、スーパーネットワークをトレーニングして、スーパーネットワークのネットワークパラメータを取得することであって、前記スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含むことと、スーパーネットワークの各ネットワークの複数の代替ネットワークサブ構造から、ターゲットネットワークサブ構造として1つの代替ネットワークサブ構造を選択することと、各層が選択したターゲットネットワークサブ構造に基づいて、サブネットワークを構築することと、スーパーネットワークから継承されたネットワークパラメータをサブネットワークの初期化パラメータとし、サブネットワークをトレーニングしてサブネットワークのネットワークパラメータを取得することを含む。本開示では、スーパーネットワークから継承されたネットワークパラメータをサブネットワークの初期化パラメータとして、サブネットワークをトレーニングし、サブネットワークをゼロからトレーニングする必要がないため、ニューラルネットワークのトレーニングの計算量を減少させ、ニューラルネットワークのトレーニングの効率を改善することができる。
本開示の実施例によって提供される技術的解決策は、以下の有利な効果を含み得る。
上述の実施例からわかるように、本開示では、サブネットワークはスーパーネットワークからネットワークパラメータを継承することができ、前記ネットワークパラメータをサブネットワークの初期化パラメータとし、さらにサブネットワークをトレーニングしてサブネットワークのネットワークパラメータを取得することができ、サブネットワークをゼロからトレーニングする必要がないため、ニューラルネットワークのトレーニングプロセスの計算量を減少させ、さらにニューラルネットワークのトレーニングの効率を改善することができる。
上記の一般的な説明および後述する詳細な説明は、単なる例示および説明であり、本開示を限定するものではないことを理解されたい。
一例示的な実施例によって示されるニューラルネットワークのトレーニング方法の例示的なフローチャート1である。 一例示的な実施例によって示されるニューラルネットワークのトレーニング方法の例示的なフローチャート2である。 一例示的な実施例によって示されるニューラルネットワークのトレーニング方法の例示的なフローチャート3である。 一例示的な実施例によって示されるニューラルネットワークのトレーニング方法の例示的なフローチャート4である。 一例示的な実施例によって示されるニューラルネットワークのトレーニング方法の例示的なフローチャート5である。 一例示的な実施例によって示されるニューラルネットワークのトレーニング方法の例示的なフローチャート6である。 一例示的な実施例によって示されるスーパーネットワークの例示的な構造図である。 一例示的な実施例によって示されるサブネットワークの構築の例示的なフローチャートである。 一例示的な実施例によって示される重みパラメータの共有の例示的なフローチャートである。 一例示的な実施例によって示されるニューラルネットワークのトレーニング装置のブロック図1である。 一例示的な実施例によって示されるニューラルネットワークのトレーニング装置のブロック図2である。 一例示的な実施例によって示されるニューラルネットワークのためのトレーニング装置のブロック図である。 一例示的な実施例によって示される別のニューラルネットワークのためのトレーニング装置のブロック図である。
ここでの図面は、本明細書に組み込まれてその一部を構成し、本開示と一致する実施例を示し、明細書とともに本開示の原理を説明するために使用される。
ここで、例示的な実施例を詳細に説明し、その例は添付の図面に示す。別の指示がない限り、以下の説明が図面に関する場合、異なる図面の同じ数字は同じまたは類似の要素を表す。以下の例示的な実施例で説明される実施形態は、本開示と一致するすべての実施形態を表すものではない。むしろ、それらは、添付された特許請求の範囲に詳述されるように、本開示の特定の態様と一致する装置および方法の例である。
本開示の実施例では、ニューラルネットワークのトレーニング方法を提供する。図1は、一例示的な実施例によって示されるニューラルネットワークのトレーニング方法の例示的なフローチャート1であり、図1に示されたように、前記方法は、次のステップを含む。
ステップ101において、スーパーネットワークをトレーニングして、スーパーネットワークのネットワークパラメータを取得し、ここで、スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含む。
ここで、スーパーネットワークのネットワークパラメータは、スーパーネットワークの重みパラメータを含み、ある実施例では、前記ネットワークパラメータは、前記スーパーネットワークのしきい値パラメータをさらに含む。
本開示の実施例において、収集されたサンプルデータに基づいて、スーパーネットワークをトレーニングして、スーパーネットワークの重みパラメータを取得し、ここで、サンプルデータのデータタイプは、イメージデータタイプ、テキストデータタイプ、またはオーディオデータタイプであり得る。
本開示の実施例では、トレーニングして取得したサブネットワークは、所定の機能を実装するニューラルネットワークであって、
入力イメージ内のターゲットおよび背景に対して分割するターゲットセグメンテーション、
入力イメージ内のターゲットに対する分類、
入力イメージに基づくターゲット追跡、
医療イメージに基づく診断補助、および
入力音声に基づく音声認識、音声補正等の機能のうちの少なくとも1つを含むが、これに限定されない。
上記は、前記サブネットワークによって実装される所定の機能の一例説明に過ぎず、具体的に実装することは前記の例示に限定されない。
本開示の実施例において、スーパーネットワークは、少なくとも1つのネットワーク層を含み、且つ各ネットワーク層は、複数の代替ネットワークサブ構造を含み、ここで、代替ネットワークサブ構造はスーパーネットワークの一部として構成される。ここで、各代替ネットワークサブ構造の構造識別子によって各代替ネットワークサブ構造に区別を実行することができ、ここで、構造識別子は代替ネットワークサブ構造の番号または代替ネットワークサブ構造の名称であり得る。異なる代替ネットワークサブ構造は、同じ機能または類似の機能を実装するために、異なるネットワークサブモデルで構成されることができまたは、異なる代替構造は異なる機能を実装するための異なるネットワークサブモデル構造で構成されることができる。
ステップ102において、スーパーネットワークの各ネットワークの複数の代替ネットワークサブ構造から、1つの代替ネットワークサブ構造をターゲットネットワークサブ構造として選択する。
ここで、各ネットワーク層から1つの代替ネットワークサブ構造をそれぞれに選択することができ、そして、前記代替ネットワークサブ構造をサブネットワークの構築のターゲットネットワークサブ構造とする。
ステップ103において、各層が選択したターゲットネットワークサブ構造に基づいて、サブネットワークを構築する。
ステップ104において、スーパーネットワークから継承されたネットワークパラメータをサブネットワークの初期化パラメータとし、サブネットワークをトレーニングしてサブネットワークのネットワークパラメータを取得する。
ここで、サブネットワークを構築した後、スーパーネットワーク内のネットワークパラメータをサブネットワークに与えて、サブネットワークがスーパーネットワークからネットワークパラメータを継承するようにすることができ、さらに、サブネットワークがネットワークパラメータを有する前提下で、サブネットワークをゼロからトレーニングする必要なしでトレーニングする。だから、取得されたサブネットワークのネットワークパラメータは、サブネットワークをトレーニングした後、取得された最終重みパラメータを含む。
ここで、ネットワークをトレーニングする前に、スーパーネットワークから統合したネットワークパラメータは、単独にトレーニングされたサブネットワークの初期化パラメータと同等である。
本開示の実施例において、サブネットワークは、スーパーネットワークからネットワークパラメータを継承することができ、前記ネットワークパラメータをサブネットワークの初期化パラメータとし、さらに、サブネットワークをゼロからトレーニングする必要なしでサブネットワークをトレーニングしてサブネットワークのネットワークパラメータを取得することにより、ニューラルネットワークトレーニングプロセスの計算量を減少させ、さらに、ニューラルネットワークのトレーニングの効率を改善することができる。
図2は、一例示的な実施例によって示されるニューラルネットワークのトレーニング方法の例示的なフローチャート2であり、図2に示されたように、前記方法は次のステップを含む。
ステップ201において、スーパーネットワークをトレーニングして、スーパーネットワークのネットワークパラメータを取得し、ここで、スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含む。
ステップ202において、スーパーネットワークは、N個のネットワーク層を含み、各前記ネットワーク層は、M個の代替ネットワークサブ構造を含み、Nは2より大きいか等しい正の整数であり、Mは2より大きいか等しい正の整数であり、前記サブネットワークの第n個のネットワーク層の前記ターゲットネットワークサブ構造として、スーパーネットワークの第n個のネットワーク層の第m個の代替ネットワークサブ構造を選択し、nはNより小さいか等しい正の整数、mはMより小さいか等しい正の整数である。
ここで、シングルパスアクティベーションアルゴリズムに基づいて、各ネットワーク層から1つの代替ネットワークサブ構造を選択して、さらに、選択された代替ネットワークサブ構造をサブネットワークの構築のターゲットネットワークとすることができる。
ステップ203において、各層が選択したターゲットネットワークに基づいて、サブネットワークを構築する。
ステップ204において、スーパーネットワークから継承されたネットワークパラメータをサブネットワークの初期化パラメータとして、サブネットワークをトレーニングしてサブネットワークのネットワークパラメータを取得する。
本開示の実施例では、シングルパスアクティベーションアルゴリズムに基づいて、各ネットワーク層から1つの代替ネットワークサブ構造をサブネットワークの構築のターゲットネットワークサブ構造としてそれぞれに選択することにより、ニューラルネットワークのトレーニングの複雑さを簡素化して、ニューラルネットワークトレーニングの効率を改善することができる。
図3は、一例示的な実施例によって示されるニューラルネットワークのトレーニング方法の例示的なフローチャート3であり、図3に示されたように、前記方法は次のステップを含む。
ステップ301において、スーパーネットワークをトレーニングして、スーパーネットワークのネットワークパラメータを取得し、ここで、スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含む。
ステップ302において、スーパーネットワークのネットワークパラメータを取得した後、各前記代替ネットワークサブ構造の構造識別子と各前記代替ネットワークサブ構造のネットワークパラメータとの間のマッピング関係が対応して記憶される。
ここで、構造識別子は代替ネットワークサブ構造の番号または代替ネットワークサブ構造の名称であり得る。本開示の実施例では、ネットワークパラメータを取得した後、各代替ネットワークサブ構造の構造識別子と各代替ネットワークサブ構造のネットワークパラメータとの間のマッピング関係を確立することができ、前記マッピング関係を所定のマッピングリストに記憶する。対応する代替ネットワークサブ構造に対応するネットワークパラメータを取得する必要がある場合、直接に、代替ネットワークサブ構造の構造識別子によって、代替ネットワークサブ構造の構造識別子とネットワークパラメータとの間のマッピング関係を照会することができ、ニューラルネットワークのトレーニングの効率を改善することができる。
ステップ303において、スーパーネットワークの各ネットワークの複数の代替ネットワークサブ構造から、1つの代替ネットワークサブ構造をターゲットネットワークサブ構造として選択する。
ステップ304において、各層が選択したターゲットネットワークサブ構造に基づいて、サブネットワークを構築する。
ステップ305において、スーパーネットワークから継承されたネットワークパラメータをサブネットワークの初期化パラメータとして、サブネットワークをトレーニングし、サブネットワークのネットワークパラメータを取得する。
図4は、一例示的な実施例によって示されるニューラルネットワークのトレーニング方法の例示的なフローチャート4であり、図4に示されたように、前記方法は次のステップを含む。
ステップ401において、スーパーネットワークをトレーニングして、スーパーネットワークのネットワークパラメータを取得し、ここで、スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含む。
ステップ402において、スーパーネットワークのネットワークパラメータを取得した後、各前記代替ネットワークサブ構造の構造識別子と各前記代替ネットワークサブ構造のネットワークパラメータとの間のマッピング関係が対応して記憶される。
ステップ403において、スーパーネットワークの各ネットワークの複数の代替ネットワークサブ構造から、1つの代替ネットワークサブ構造をターゲットネットワークサブ構造として選択する。
ステップ404において、各層が選択したターゲットネットワークサブ構造に基づいて、サブネットワークを構築する。
ステップ405において、サブネットワークに含まれた代替ネットワークサブ構造の構造識別子に基づいて、前記マッピング関係を照会して、対応する代替ネットワークサブ構造のネットワークパラメータを取得する。
スーパーネットワークにトレーニングを実行した後、各代替ネットワークサブ構造に対応するネットワークパラメータを取得することができ、さらに各代替ネットワークサブ構造の構造識別子と各代替ネットワークサブ構造のネットワークパラメータとの間のマッピング関係を確立し、ここで、前記マッピング関係はリストの形で、マッピングリストに記憶される。本開示の実施例では、サブネットワークに含まれた代替ネットワークサブ構造の構造識別子に基づいて、マッピングリストから対応するネットワークパラメータを取得することができ、さらに前記ネットワークパラメータをサブネットワーク内の対応する代替ネットワークサブ構造と共有する。
ステップ406において、取得した代替ネットワークサブ構造のネットワークパラメータに基づいて、サブネットワークをトレーニングして、サブネットワークのネットワークパラメータを取得する。
本開示の実施例では、直接に、代替ネットワークサブ構造の構造識別子によって、前記代替ネットワークサブ構造の構造識別子とネットワークパラメータとの間のマッピング関係を照会することができ、ニューラルネットワークのトレーニングプロセスの計算量を減少させ、ニューラルネットワークのトレーニングの効率を改善することができる。
図5は、一例示的な実施例によって示されるニューラルネットワークのトレーニング方法の例示的なフローチャート5であり、図5に示されたように、前記方法は次のステップを含む。
ステップ501において、スーパーネットワークをトレーニングして、スーパーネットワークのネットワークパラメータを取得し、ここで、スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含む。
ステップ502において、スーパーネットワークの各ネットワークの複数の代替ネットワークサブ構造から、設定された検索アルゴリズムに基づいて、1つの代替ネットワークサブ構造をターゲットネットワークサブ構造として選択する。設定された検索アルゴリズムは、ランダム検索アルゴリズム、ベイジアン検索アルゴリズム、進化学習アルゴリズム、強化学習アルゴリズム、進化学習と強化学習を組み合わせたアルゴリズム、勾配ベースのアルゴリズムのうちの少なくとも1つを含む。
ステップ503において、各層によって選択された前記ターゲットネットワークサブ構造に基づいて、サブネットワークを構築する。
ステップ504において、スーパーネットワークから継承されたネットワークパラメータをサブネットワークの初期化パラメータとし、サブネットワークをトレーニングして、サブネットワークのネットワークパラメータを取得する。
選択的な実施例において、前記方法は、トレーニングされたサブネットワークに基づいて、入力データに対してデータ処理を行うことであって、テストデータセット内のテストデータのタイプは、イメージデータタイプ、テキストデータタイプ、およびオーディオデータタイプのうちの少なくとも1つを含むことをさらに含む。
選択的な実施例において、前記方法は、テストデータセットに基づいてトレーニングされたサブネットワークに対して性能評価を行い、評価結果を取得することをさらに含み、テストデータセット中のテストデータのタイプは、イメージデータタイプ、サービスデータタイプ、およびオーディオデータタイプのうちの少なくとも1つを含む。
ここで、トレーニングされたサブネットワークを構築した後、テストデータセットで、その性能を評価することができ、最適なサブネットワークが見つかるまで、ネットワーク構造を徐々に最適化する。例えば、検証の損失を最小化するか、報酬を最大化するサブネットワークである。ここで、テストデータセット内のテストデータをトレーニング済みのサブネットワークに入力し、評価結果をサブネットワークによって出力し、そして出力した評価結果を事前に設定された標準と比較して比較結果を取得し、比較結果に従ってサブネットワークを評価する。ここで、テスト結果は、サブネットワークがテストデータを処理する速度または精度であることができる。
本開示の上記の実施形態のいずれか一つの技術的解決策は、ネットワーク構造検索(NAS:Neural Architecture Search)に適用することができ、ここで、NASはニューラルネットワークを自動的に設計する技術である。NASがセンプルセットに基づいて高性能のニューラルネットワーク構造を自動的に設計することができ、ニューラルネットワークの使用と実装コストを効果的に削減することができる。
1つの検索空間、つまり候補ニューラルネットワーク構造セットが与えられると、検索戦略を使用して、検索空間から最適なネットワーク構造を検索する。そして性能評価戦略に基づいて、ニューラルネットワーク構造の長所と短所、つまり性能が評価される。例えば、ニューラルネットワークで処理されるデータの精度と、ニューラルネットワークで処理されるデータの速度等の指標を使用することによって性能評価を実行する。ここで、候補ニューラルネットワーク構造セットは上述の代替ネットワークサブ構造を含む。
NASは、ディメンションに応じて、検索空間、検索戦略、性能評価戦略の3つのカテゴリに分類することができる。ここで、検索空間は、1つの検索可能なニューラルネットワークのアーキテクチャのセット、つまり候補ニューラルネットワーク構造を表す。
検索戦略は、最適なネットワーク構造パラメータ構成を迅速かつ正確に見つけるために使用されるアルゴリズムを定義し、例えば、ハイパーパラメータの最適化である。通常、検索アルゴリズムは、反復プロセスであり、最適なネットワーク構造パラメータ構成を迅速かつ正確に見つけるために使用することができるアルゴリズムの種類を定義する。検索アルゴリズムには、ランダム検索アルゴリズム、ベイジアン検索アルゴリズム、進化学習アルゴリズム、強化学習アルゴリズム、進化学習アルゴリズムと強化学習を組み合わせたアルゴリズム、および勾配ベースのアルゴリズムを含む。
検索プロセスの各ステップまたは反復では、検索空間からサンプルが生成され、サンプルに基づいてサブネットワークと呼ばれるニューラルネットワークが形成される。本開示の実施例において、サンプルは、上記の実施形態の代替ネットワークサブ構造から決定されたターゲットネットワークサブ構造である。
図6は、一例示的な実施例によって示されるニューラルネットワークのトレーニング方法の例示的なフローチャート6であり、図6に示されたように、前記方法は次のステップを含む。
ステップ601において、スーパーネットワークをトレーニングする。
本開示の実施例において、NASに基づいて検索を実行するプロセスでは、すべてのサブ構造を含む検索空間のスーパーネットワーク、すなわち候補のニューラルネットワークの構造セットを生成するために、複数のネットワーク構造(以下、サブ構造と略称する)を含むスーパーネットワークをトレーニングすることができ、ここで、サブ構造はニューラルネットワークの一部である。スーパーネットワークは複数のネットワーク層を含み、各ネットワーク層は複数のサブ構造を含む。ここで、サブ構造は代替ネットワークサブ構造であり、スーパーネットワークは、すべての代替ネットワークサブ構造のセットであり得る。図7は、一例示的な実施例によって示されるスーパーネットワークの例示的な構造図であり、図7に示されたように、スーパーネットワーク700は、第1のスーパーネットワーク層701、第2のスーパーネットワーク層702、第3のスーパーネットワーク層703を含み、第1のスーパーネットワーク層701、第2のスーパーネットワーク層702および第3のスーパーネットワーク層703は、並列した3つのサブ構造をそれぞれ含み、それぞれサブ構造A、サブ構造B、およびサブ構造Cである。
スーパーネットワークにトレーニングを実行した後、各ネットワーク構造に対応する重みパラメータを取得することができるが、この時、各ネットワーク構造に対応する構造識別子と重みパラメータとの間のマッピング関係が確立することができ、マッピング関係はリストの形式でマッピングリストに記憶される。ここで、構造識別子は、唯一の識別子ネットワーク構造として使用されることができ、ネットワーク構造の番号、ネットワーク構造の名称を含む。
ステップ602において、スーパーネットワークからサブ構造をサンプリングし、サンプリングされたサブ構造によってサブネットワークを構築する。
ここで、スーパーネットワークからサブ構造を選択し、選択されたサブ構造に基づいて、サブネットワークを構築することができる。図8は、一例示的な実施例によって示されるサブネットワークの構築の例示的なフローチャートであり、図8に示されたように、スーパーネットワーク800は、第1のスーパーネットワーク層801、第2のスーパーネットワーク層802、第3のスーパーネットワーク層803を含み、第1のスーパーネットワーク層801、第2のスーパーネットワーク層802および第3のスーパーネットワーク層803は、並列した3つのサブ構造をそれぞれ含み、それぞれサブ構造A、サブ構造B、およびサブ構造Cである。サブネットワークを構築するプロセスでは、各ネットワーク層から1つのサブ構造をそれぞれ選択して、サブネットワークを構築することができる。例えば、スーパーネットワーク800内の第1のネットワーク層801からサブ構造Aをサブネットワーク804の第1のネットワーク層として選択し、第2のネットワーク層802からサブ構造Aをサブネットワーク804の第2のネットワーク層として選択し、第3のネットワーク層803からサブ構造Cをサブネットワーク804の第3のネットワーク層として選択する。
ステップ603において、スーパーネットワーク内のサブ構造の重みパラメータをサブネットワーク内の対応するサブ構造と共有して、サブ構造を充分にトレーニングする。
スーパーネットワークにトレーニングを実行した後、各ネットワーク構造に対応するネットワークパラメータを取得することができ、各ネットワーク構造の構造識別子と重みパラメータとの間のマッピング関係を確立して、前記マッピング関係はリストの形式でマッピングリストに記憶される。ここで、サブネットワーク内のサブ構造の構造識別子に基づいて、マッピングリストから対応する重みパラメータを取得することができ、重みパラメータはサブネットワーク内の対応するサブ構造で共有することができる。スーパーネットワーク内のサブ構造の重みパラメータをサブネットワーク内の対応するサブ構造と共有した後、サブ構造に充分なトレーニングを実行することができる。
ステップ604において、テストデータセットに基づいてサブネットワークに性能評価を行って、評価結果を取得する。
図9は、一例示的な実施例によって示される重みパラメータの共有の例示的なフローチャートであり、図9に示されたように、スーパーネットワーク800は、第1のスーパーネットワーク層901、第2のスーパーネットワーク層902、第3のスーパーネットワーク層903を含み、第1のスーパーネットワーク層901、第2のスーパーネットワーク層902および第3のスーパーネットワーク層903は、並列した3つのサブ構造をそれぞれ含み、それぞれサブ構造A、サブ構造B、およびサブ構造Cである。サブネットワークを構築するプロセスでは、各ネットワーク層から1つのサブ構造をそれぞれ選択して、サブネットワークを構築することができる。例えば、スーパーネットワーク900内の第1のネットワーク層901からサブ構造Aをサブネットワーク904の第1のネットワーク層として選択し、第2のネットワーク層902からサブ構造Aをサブネットワーク904の第2のネットワーク層として選択し、第3のネットワーク層903からサブ構造Cをサブネットワーク904の第3のネットワーク層として選択する。
したがって、重みパラメータが共有される場合、スーパーネットワーク900内の第1のネットワーク層901のサブ構造Aの重みパラメータは、サブネットワーク904の第1のネットワーク層のサブ構造Aに共有され、スーパーネットワーク900内の第2のネットワーク層902のサブ構造Aの重みパラメータは、サブネットワーク904の第2のネットワーク層のサブ構造Aと共有され、スーパーネットワーク900内の第3のネットワーク層901のサブ構造Bの重みパラメータは、サブネットワーク904の第3のネットワーク層のサブ構造Bと共有され得る。
本開示に関する技術的解決策は、イメージ分類、オブジェクト検出、セマンティックセグメンテーション等のディープラーニングタスクで使用することができるが、これらに限定されない。
例えば、一連のニューラルネットワークモデルが重み共有NASに基づいて検索され、検索されたニューラルネットワークモデルが展開に使用される。ここで、検索された各ニューラルネットワークモデルは最初からトレーニングする必要はないが、トレーニングされたスーパーネットワークからニューラルネットワークパラメータを初期化パラメータとして継承され、トレーニングを開始して最終的にトレーニングされたニューラルネットワークモデルを取得する。
本開示の実施例において、スーパーネットワーク内の各ネットワーク層からサブ構造をサンプリングし、サブネットワーク間の接続関係を確立してサブネットワークを取得することができる。そして、サブネットワーク内の各サブ構造の構造識別子に基づいて、マッピングリストから各サブ構造に対応する重みパラメータを取得し、サブネットワークにトレーニングを実行する。こうして、検索されたサブネットワークは最初からトレーニングする必要はないが、ニューラルネットワーク計算量を削減するだけでなく、検索アルゴリズムの検索効率も改善することができる。
図10は、一例示的な実施例によって示されるニューラルネットワークのトレーニング装置のブロック図1である。図10に示されたように、前記ニューラルネットワークのトレーニング装置1000は、主に、
スーパーネットワークをトレーニングして、前記スーパーネットワークのネットワークパラメータを取得するように構成される第1のトレーニングモジュール1001であって、前記スーパーネットワークの各ネットワークは、並列した複数の代替ネットワークサブ構造を含む第1のトレーニングモジュール1001と、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、1つの代替ネットワークサブ構造をターゲットネットワークサブ構造として選択するように構成される選択モジュール1002と、
各層が選択した前記ターゲットネットワークサブ構造に基づいて、サブネットワークを構築するように構成されるネットワーク構築モジュール1003と、
前記スーパーネットワークから継承されたネットワークパラメータを前記サブネットワークの初期化パラメータとし、前記サブネットワークをトレーニングして、前記ネットワークパラメータを取得するように構成される第2のトレーニングモジュール1004と、を含む。
選択的な実施例において、スーパーネットワークは、N個のネットワーク層を含み、各前記ネットワーク層は、M個の代替ネットワークサブ構造を含み、Nは2より大きいか等しい正の整数であり、Mは2より大きいか等しい正の整数である。
選択モジュールは、具体的に、サブネットワークの第n個ネットワーク層の前記ターゲットネットワークサブ構造として、スーパーネットワークの第n個のネットワーク層を構成する第m個の代替ネットワークサブ構造を選択するように構成され、nはNより小さいか等しい正の整数であり、mはMより小さいか等しい正の整数である。
図11は、一例示的な実施例によって示されるニューラルネットワークのトレーニング装置のブロック図2である。図11に示されたように、前記ニューラルネットワークのトレーニング装置1100は、主に、
スーパーネットワークをトレーニングして、前記スーパーネットワークのネットワークパラメータを取得するように構成される第1のトレーニングモジュール1001であって、前記スーパーネットワークの各ネットワークは、並列した複数の代替ネットワークサブ構造を含む第1のトレーニングモジュール1001と、
スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、1つの代替ネットワークサブ構造をターゲットネットワークサブ構造として選択するように構成された選択モジュール1002と、
各層によって選択された前記ターゲットネットワークサブ構造に基づいて、サブネットワークを構築するように構成されたネットワーク構築モジュール1003と、
スーパーネットワークから継承されたネットワークパラメータを前記サブネットワークの初期化パラメータとして、前記サブネットワークをトレーニングして、前記ネットワークパラメータを取得するように構成された第2のトレーニングモジュール1004と、
スーパーネットワークのネットワークパラメータを取得された後、各前記代替ネットワークサブ構造の構造識別子と各前記代替ネットワークサブ構造のネットワークパラメータとの間のマッピング関係が対応して記憶されるように構成される記憶モジュール1101と、を含む。
選択的な実施例において、第2のトレーニングモジュールは、具体的に、
サブネットワークに含まれた代替ネットワークサブ構造の構造識別子に基づいて、前記マッピング関係を照会して、対応する代替ネットワークサブ構造のネットワークパラメータを取得し、
取得された代替ネットワークサブ構造のネットワークパラメータに基づいて、サブネットワークをトレーニングして、サブネットワークのネットワークパラメータを取得するように構成される。
選択的な実施例において、選択モジュールは、具体的に、
スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、設定された検索アルゴリズムに基づいて、1つの代替ネットワークサブ構造をターゲットネットワークサブ構造として選択するように構成され、
前記設定された検索アルゴリズムは、ランダム検索アルゴリズム、ベイジアン検索アルゴリズム、進化学習アルゴリズム、強化学習アルゴリズム、進化学習と強化学習を組み合わせたアルゴリズム、勾配ベースのアルゴリズムのうちの少なくとも1つを含む。
選択的な実施例において、前記装置は、さらに、
レーニングされたサブネットワークに基づいて、入力データに対してデータ処理を行うように構成されるデータ処理モジュールを含み、
テストデータセット内のテストデータのタイプは、イメージデータタイプ、テキストデータタイプ、およびオーディオデータタイプのうちの少なくとも1つを含む。
選択的な実施例において、前記装置は、さらに
テストデータセットに基づいて、トレーニングされたサブネットワークに対して性能評価を行い、評価結果を取得するように構成される性能評価モジュールを含み、
テストデータセット内のテストデータのタイプは、イメージデータタイプ、サービスデータタイプ、およびオーディオデータタイプのうちの少なくとも1つを含む。
上述の実施例の装置に関して、各モジュールが操作を実行する具体的な方法は、関連する前記方法の実施例に既に詳細に記載され、ここでは詳細に説明しない。
対応的に、本開示は
プロセッサと、
プロセッサによって実行可能な命令を記憶するように構成されたメモリと、を含むニューラルネットワークのトレーニング装置を提供する。
ここで、前記プロセッサは、実行中に上記の実施例のニューラルネットワークのいずれか一つのニューラルネットワークのトレーニング方法のステップを実装するように構成される。
図12は、一例示的な実施例によって示されるニューラルネットワークのためのトレーニング装置のブロック図である。例えば、装置1200は、携帯電話、コンピュータ、デジタル放送端末、メッセージング装置、ゲームコンソール、タブレット装置、医療装置、フィットネス装置、携帯情報端末等であり得る。
図12を参考すれば、装置1200は、処理コンポーネント1202、メモリ1204、電力コンポーネント1206、マルチメディアコンポーネント1208、オーディオコンポーネント1210、入力/出力(I/O)インターフェース1212、センサコンポーネント1214、および通信コンポーネント1216のうちの1つ以上を含む。
処理コンポーネント1202は、通常は、例えばディスプレイ、電話通話、データ通信、カメラ動作、および記録動作等に関連する動作などの装置1200の全体的の動作を制御する。処理コンポーネント1202は、1つまたは複数のプロセッサ1220を含み、命令を実行して、上記の方法のステップの全部または一部のステップを完了することができる。加えて、処理コンポーネント1202は、処理コンポーネント1202と他のコンポーネントとの間の相互作用を促進するための1つまたは複数のモジュールを含むである。例えば、処理コンポーネント1202は、マルチメディアコンポーネント1208と処理コンポーネント1202との間の相互作用を促進するマルチメディアモジュールを含むである。
メモリ1204は、装置1200での動作をサポートするために様々なタイプのデータを記憶するように構成される。そのようなデータの例には、装置1200上で動作する任意のアプリケーションまたは方法の指示、連絡先データ、電話帳データ、メッセージ、写真、ビデオ等が含まれる。メモリ1204は、任意のタイプの揮発性または不揮発性記憶装置またはそれらの組み合わせによって実装することができ、例えば、読み取り専用メモリ(EPROM)、プログラム可能な読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスク、または光ディスクのプログラミングである。
電力コンポーネント1206は、装置1200の各コンポーネントに電力を提供する。電力コンポーネント1206は、電源管理システム、1つまたは複数の電源、および他の装置1200の電力の生成、管理、および配布に関連するその他のコンポーネントを含む。
マルチメディアコンポーネント1208は、装置1200とユーザーとの間の出力インターフェースを提供するスクリーンを含む。特定の実施レにおいて、スクリーンは、液晶ディスプレイ(LCD)およびタッチパネル(TP)を含む。スクリーンがタッチパネルを含む場合、スクリーンは、タッチスクリーンとしてユーザーからの入力信号の受信を実行する。タッチパネルは、1つまたは複数のタッチセンサーを含み、タッチ、スワイプ、およびタッチパネル上のジェスチャーを検知する。前記タッチセンサーは、タッチ操作またはスライド操作の境界を感知するだけでなく、タッチ操作またはスライド操作に関連する時間と圧力も検出する。特定の実施レにおいて、マルチメディアコンポーネント1208は、前面カメラおよび/または背面カメラを含む。装置1200が、撮影モードまたはビデオモード等の動作モードにあるとき、前面カメラおよび/または背面カメラは外部マルチメディアデータを受信することができる。各前面カメラと背面カメラは1個の固定された光学レンズシステムまたは焦点距離と光学ズーム機能を持つことができる。
オーディオコンポーネント1210は、オーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント1210は、1つのマイク(MIC)を含み、装置1200が動作モード、例えば通話モード、録音モード、音声認識モード等の動作モードにある時、マイクは外部音声信号を受信するように構成される。受信されたオーディオ信号は、メモリ1204または通信コンポーネント1216を介して送信される。特定の実施レにおいて、オーディオコンポーネント1210は、スピーカーをさらにスピーカーを含み、オーディオ信号を出力することに使用される。
I/Oインターフェース1212は、処理コンポーネント1202と周辺インターフェースモジュールとの間のインターフェースを提供し、上述の周辺インターフェースモジュールは、キーボード、クリックホイール、ボタン等であり得る。これらのボタンには、ホームボタン、ボリュームボタン、スタートボタン、ロックボタンを含むが、限定されない。
センサコンポーネント1214は、1つまたは複数のセンサーを含み、装置1000にさまざまな側面を提供するために使用される。例えば、センサコンポーネント1214は、装置1200のオン/オフ状態、コンポーネントの相対的な位置を検出できる。例えば、前記コンポーネントは装置1200のディスプレイとキーパッドであり、センサコンポーネント1214はさらに、装置1200または装置1200の1つのコンポーネントの位置の変化と、ユーザーと装置1200の接触が存在するかとしないかと、装置1200の向きまたは加速/減速、および装置1200の温度変化を検出できる。センサコンポーネント1214は、接近センサーを含み、物理的接触なしに近くの物体の存在を検出することに使用されるように構成された。センサコンポーネント1214は、光センサーを含み、例えCMOSまたはCCDイメージセンサーを含み、撮像用途で使用される。特定の実施レにおいて、前記センサコンポーネント1214はさらに、加速度センサー、ジャイロスコープセンサー、磁気センサー、圧力センサー、または温度センサー等を含むことができる。
通信コンポーネント1216は、装置1200と他の装置との間の有線または無線方法の通信を促進するように構成される。装置1200は、通信規格に基づいて、無線ネットワークにアクセスすることができ、例えWiFi、2Gまたは3G、または彼らの組み合わせである。実施例において、通信コンポーネント1216は、放送チャンネルを介して外部放送管理システムから放送信号または放送関連情報を受信する。実施例において、前記通信コンポーネント1216はさらに、近距離通信(NFC)モジュールを含み、短距離通信を促進する。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ関連付け(IrDA)技術、超広帯域(UWB)技術、Bluetooth(登録商標)(BT)技術、およびその他の技術に基づいて実装できる。
例示的な実施例において、装置1200は1つまたは複数の特定用途向け集積回路(ASIC)、デジタルシグナルプロセッサ(DSP)、デジタル信号処理装置(DSPD)、プログラマブルロジック装置(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラー、マイクロコントローラー、マイクロプロセッサー、またはその他の電子機器で実装し、上記のメソッドを実行するのである。
例示的な実施例において、命令を含む非一時的なコンピュータ読み取り可能な記憶媒体を提供する。例えば、命令を含むメモリ1204、上述の命令は、装置1200のプロセッサ1220によって上述の方法を完了することができる。例えば、前記非一時的なコンピュータ読み取り可能な記憶媒体は、ROM、ランダムアクセスメモリ(RAM)、CD−ROM、磁気テープ、フロッピー(登録商標)ディスク、光データストレージ装置等であり得る。
非一時的なコンピュータ読み取り可能な記憶媒体であって、前記記憶媒体内の命令がモバイル端末のプロセッサによって実行される場合、モバイル端末がニューラルネットワークのトレーニング方法を実行するようにし、前記方法は、
スーパーネットワークをトレーニングして、前記スーパーネットワークのネットワークパラメータを取得することであって、前記スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含むことと、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、1つの代替ネットワークサブ構造をターゲットネットワークサブ構造として選択することと、
各層が選択した前記ターゲットネットワークサブ構造に基づいて、サブネットワークを構築することと、
前記スーパーネットワークから継承されたネットワークパラメータを前記サブネットワークの初期化パラメータとして、前記サブネットワークをトレーニングして、前記サブネットワークのネットワークパラメータを取得することと、を含む。
図13は、一例示的な実施例によって示される別のニューラルネットワークのためのトレーニング装置1000のブロック図である。図13を参考すれば、装置1300は処理コンポーネント1322を含み、さらに1つまたは多数のプロセッサを含み、およびメモリ1332で表されるメモリリソースは、処理コンポーネント1322によって実行可能な命令を記憶することに使用され、例えばアプリケーションプログラムである。メモリ1332に記憶されたアプリケーションプログラムは、1つまたは1つ以上の各命令に対応するモジュールを含む。それ以外に、処理コンポーネント1322は命令を実行するように構成され、上述のニューラルネットワークのトレーニング方法を実行し、前記方法は、
スーパーネットワークをトレーニングして、前記スーパーネットワークのネットワークパラメータを取得することであって、前記スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含むことと、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、1つの代替ネットワークサブ構造をサブネットワークのターゲットネットワークサブ構造として選択することと、
前記スーパーネットワークから継承されたネットワークパラメータを前記サブネットワークの初期化パラメータとして、前記サブネットワークをトレーニングして、前記サブネットワークのネットワークパラメータを取得することと、を含む。
装置1300はさらに、1つの装置1300の電力管理を実行するように構成された電源コンポーネント1326、装置1300をネットワークに接続するように構成された1つの有線または無線ネットワークインターフェース1350、および1つの入力/出力(I/O)インターフェース1358をさらに含み得る。装置1300は、メモリ1332に記憶されたに基づくオペレーティングシステムであり、例えばWindows(登録商標) ServerTM,Mac OS XTM,Unix(登録商標)TM,Linux(登録商標)TM,FreeBSDTMまたは類似なものである。
当業者は、明細書を考慮して、本明細書に開示された発明を実施した後、本開示の他の実施形態を容易に想到し得る。本開示は、本開示のあらゆる変形、応用または適応性変化を網羅することを意図し、これらの変形、応用または適応性変化は、本開示の普通の原理に準拠し、本開示によって開示されていない本技術分野における公知知識または従来の技術的手段を含む。明細書と実施例は、例示としてのみ考慮され、本開示の真の範囲および思想は添付の特許請求の範囲によって示される。
本開示は、上述に既に説明し、図面に示した正確な構造に限定されるものではなく、その範囲から逸脱することなく様々な修正および変更を行うことができることを理解されたい。本発明の範囲は、添付の特許請求の範囲によってのみ制限される。

Claims (16)

  1. ニューラルネットワークのトレーニング方法であって、
    スーパーネットワークをトレーニングして、前記スーパーネットワークのネットワークパラメータを取得することであって、前記スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含むことと、
    前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、1つの前記代替ネットワークサブ構造をターゲットネットワークサブ構造として選択することと、
    各層が選択した前記ターゲットネットワークサブ構造に基づいて、サブネットワークを構築することと、
    前記スーパーネットワークから継承されたネットワークパラメータを前記サブネットワークの初期化パラメータとし、前記サブネットワークをトレーニングして、前記サブネットワークのネットワークパラメータを取得することとを含む、前記方法。
  2. 前記スーパーネットワークは、N個のネットワーク層を含み、各前記ネットワーク層は、M個の代替ネットワークサブ構造を含み、Nは2より大きいか等しい正の整数であり、Mは2より大きいか等しい正の整数であり、
    前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、1つの前記代替ネットワークサブ構造をターケットネットワークのサブ構造として選択することは、
    前記サブネットワークの第n個のネットワーク層の前記ターゲットネットワークサブ構造として、前記スーパーネットワークの第n個のネットワーク層の第m個の代替ネットワークサブ構造を選択することであって、nはNより小さいか等しい正の整数であり、mはMより小さいか等しい正の整数であることを含む、
    請求項1に記載の方法。
  3. 前記方法は、
    前記スーパーネットワークのネットワークパラメータを取得した後、各前記代替ネットワークサブ構造の構造識別子と各前記代替ネットワークサブ構造のネットワークパラメータとの間のマッピング関係が対応して記憶されることをさらに含む、
    請求項1に記載の方法。
  4. 前記スーパーネットワークから継承されたネットワークパラメータを前記サブネットワークの初期化パラメータとし、前記サブネットワークをトレーニングして前記サブネットワークのネットワークパラメータを取得することは、
    前記サブネットワークに含まれた代替ネットワークサブ構造の構造識別子に基づいて、前記マッピング関係を照会して、対応する代替ネットワークサブ構造のネットワークパラメータを取得することと、
    取得された前記サブネットワークの代替ネットワークサブ構造のネットワークパラメータに基づいて、前記サブネットワークをトレーニングして、前記サブネットワークのネットワークパラメータを取得することを含む、
    請求項3に記載の方法。
  5. 前記スーパーネットワークの各ネットワーク層の複数のネットワークサブ構造から、1つの前記代替ネットワークサブ構造をターゲットネットワークサブ構造として選択することは、
    前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、設定された検索アルゴリズムに基づいて、1つの前記代替ネットワークサブ構造をターゲットネットワークサブ構造として選択することを含み、
    前記設定された検索アルゴリズムは、ランダム検索アルゴリズム、ベイジアン検索アルゴリズム、進化学習アルゴリズム、強化学習アルゴリズム、進化学習と強化学習を組み合わせたアルゴリズム、勾配ベースのアルゴリズムのうちの少なくとも1つを含む、
    請求項1に記載の方法。
  6. 前記方法は、
    トレーニングされたサブネットワークに基づいて、入力データに対してデータ処理を行うことをさらに含み、
    前記入力データのタイプは、イメージデータタイプ、テキストデータタイプ、およびオーディオデータタイプのうちの少なくとも1つを含む、
    請求項1ないし5のいずれか一項に記載の方法。
  7. 前記方法は、
    テストデータセットに基づいて、トレーニングされたサブネットワークに対して性能評価を行い、評価結果を取得することをさらに含み、
    前記テストデータセット内のテストデータのタイプは、イメージデータタイプ、サービスデータタイプ、およびオーディオデータタイプのうちの少なくとも1つを含む、
    請求項1ないし5のいずれか一項に記載の方法。
  8. ニューラルネットワークのトレーニング装置であって、
    スーパーネットワークをトレーニングして、前記スーパーネットワークのネットワークパラメータを取得するように構成される第1のトレーニングモジュールであって、前記スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含む第1のトレーニングモジュールと、
    前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、1つの代替ネットワークサブ構造をターゲットネットワークサブ構造として選択するように構成される選択モジュールと、
    各層が選択した前記ターゲットネットワークサブ構造に基づいて、サブネットワークを構築するように構成されるネットワーク構築モジュールと、
    前記スーパーネットワークから継承されたネットワークパラメータを前記サブネットワークの初期化パラメータとし、前記サブネットワークをトレーニングして、前記サブネットワークのネットワークパラメータを取得するように構成される第2のトレーニングモジュールと、を含む、前記装置。
  9. 前記スーパーネットワークは、N個のネットワーク層を含み、各前記ネットワーク層は、M個の代替ネットワークサブ構造を含み、Nは2より大きいか等しい正の整数であり、Mは2より大きいか等しい正の整数であり、
    前記選択モジュールは、具体的に、前記サブネットワークの第n個ネットワーク層の前記ターゲットネットワークサブ構造として、前記スーパーネットワークの第n個のネットワーク層の第m個の代替ネットワークサブ構造を選択するように構成され、nはNより小さいか等しい正の整数であり、mはMより小さいか等しい正の整数である、
    請求項8に記載の装置。
  10. 前記装置は、さらに、
    前記スーパーネットワークのネットワークパラメータを取得された後、各前記代替ネットワークサブ構造の構造識別子と各前記代替ネットワークサブ構造のネットワークパラメータとの間のマッピング関係が対応して記憶されるように構成される記憶モジュールを含む、
    請求項8に記載の装置。
  11. 前記第2のトレーニングモジュールは、具体的に、
    前記サブネットワークに含まれる代替ネットワークサブ構造の構造識別子に基づいて、前記マッピング関係を照会して、対応する代替ネットワークサブ構造のネットワークパラメータを取得し、
    前記取得された前記代替ネットワークサブ構造のネットワークパラメータに基づいて、前記サブネットワークをトレーニングして前記サブネットワークのネットワークパラメータを取得するように構成される、
    請求項10に記載の装置。
  12. 前記選択モジュールは、具体的に、
    前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、設定された検索アルゴリズムに基づいて、1つの前記代替ネットワークサブ構造をターゲットネットワークサブ構造として選択するように構成され、
    前記設定された検索アルゴリズムは、ランダム検索アルゴリズム、ベイジアン検索アルゴリズム、進化学習アルゴリズム、強化学習アルゴリズム、進化学習と強化学習を組み合わせたアルゴリズム、勾配ベースのアルゴリズムのうちの少なくとも1つを含む、
    請求項8に記載の装置。
  13. 前記装置は、さらに、
    トレーニングされたサブネットワークに基づいて、入力データに対してデータ処理を行うように構成されるデータ処理モジュールを含み、
    前記入力データのタイプは、イメージデータタイプ、テキストデータタイプ、およびオーディオデータタイプのうちの少なくとも1つを含む、
    請求項8ないし12のいずれか一項に記載の装置。
  14. 前記装置は、さらに、
    テストデータセットに基づいて、トレーニングされたサブネットワークに対して性能評価を行って、評価結果を取得するように構成される性能評価モジュールを含み、
    前記テストデータセット内のテストデータのタイプは、イメージデータタイプ、サービスデータタイプ、およびオーディオデータタイプのうちの少なくとも1つを含む、
    請求項8ないし12のいずれか一項に記載の方法。
  15. ニューラルネットワークのトレーニング装置であって、
    プロセッサと、
    プロセッサによって実行可能な命令を記憶するように構成されるメモリと、を含み、
    前記プロセッサは、実行する時、前記請求項1ないし7のいずれか一項に記載のニューラルネットワークのトレーニング方法のステップを実装するように構成される、前記装置。
  16. 非一時的なコンピュータ可読記憶媒体であって、
    前記記憶媒体の命令がニューラルネットワークのトレーニング装置のプロセッサによって実行される場合、前記装置に前記請求項1ないし7のいずれか一項に記載のニューラルネットワークのトレーニング方法を実行させるようにする、前記コンピュータ可読記憶媒体。
JP2020001867A 2019-10-31 2020-01-09 ニューラルネットワークのトレーニング方法、装置および記憶媒体 Active JP6862586B1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911053898.8A CN110782034A (zh) 2019-10-31 2019-10-31 神经网络的训练方法、装置及存储介质
CN201911053898.8 2019-10-31

Publications (2)

Publication Number Publication Date
JP6862586B1 true JP6862586B1 (ja) 2021-04-21
JP2021072079A JP2021072079A (ja) 2021-05-06

Family

ID=69185389

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020001867A Active JP6862586B1 (ja) 2019-10-31 2020-01-09 ニューラルネットワークのトレーニング方法、装置および記憶媒体

Country Status (5)

Country Link
US (1) US11663468B2 (ja)
EP (1) EP3816868A1 (ja)
JP (1) JP6862586B1 (ja)
KR (1) KR102365890B1 (ja)
CN (1) CN110782034A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657466A (zh) * 2021-07-29 2021-11-16 北京百度网讯科技有限公司 预训练模型的生成方法、装置、电子设备和存储介质

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111278085B (zh) * 2020-02-24 2023-08-29 北京百度网讯科技有限公司 用于获取目标网络的方法及装置
CN111368973B (zh) * 2020-02-25 2023-09-08 北京百度网讯科技有限公司 用于训练超网络的方法和装置
CN111340220B (zh) * 2020-02-25 2023-10-20 北京百度网讯科技有限公司 用于训练预测模型的方法和装置
CN111325328B (zh) * 2020-03-06 2023-10-24 上海商汤临港智能科技有限公司 神经网络的生成方法、数据处理方法及装置
CN113469891A (zh) * 2020-03-31 2021-10-01 武汉Tcl集团工业研究院有限公司 一种神经网络架构搜索方法、训练方法、图像补全方法
CN111523639A (zh) * 2020-04-09 2020-08-11 北京百度网讯科技有限公司 用于训练超网络的方法和装置
CN111523665B (zh) * 2020-04-23 2024-02-13 北京百度网讯科技有限公司 超网络参数更新方法、装置和电子设备
CN111553464B (zh) * 2020-04-26 2023-09-29 北京小米松果电子有限公司 基于超网络的图像处理方法、装置及智能设备
CN111563592B (zh) * 2020-05-08 2023-12-15 北京百度网讯科技有限公司 基于超网络的神经网络模型生成方法和装置
CN111582452B (zh) * 2020-05-09 2023-10-27 北京百度网讯科技有限公司 生成神经网络模型的方法和装置
CN113705276A (zh) * 2020-05-20 2021-11-26 武汉Tcl集团工业研究院有限公司 模型构建方法、模型构建装置、计算机设备及介质
CN111652354B (zh) * 2020-05-29 2023-10-24 北京百度网讯科技有限公司 用于训练超网络的方法、装置、设备以及存储介质
CN111639753B (zh) * 2020-05-29 2023-12-05 北京百度网讯科技有限公司 用于训练图像处理超网络的方法、装置、设备以及存储介质
CN111639752B (zh) * 2020-05-29 2023-09-26 北京百度网讯科技有限公司 用于训练超网络的方法、装置、设备以及存储介质
CN111709890B (zh) * 2020-06-12 2023-11-24 北京小米松果电子有限公司 一种图像增强模型的训练方法、装置及存储介质
CN111753917A (zh) * 2020-06-29 2020-10-09 北京小米松果电子有限公司 数据处理方法、装置及存储介质
CN111968635B (zh) * 2020-08-07 2024-03-05 北京小米松果电子有限公司 语音识别的方法、装置及存储介质
CN112116090B (zh) * 2020-09-28 2022-08-30 腾讯科技(深圳)有限公司 神经网络结构搜索方法、装置、计算机设备及存储介质
US20220121922A1 (en) * 2020-10-20 2022-04-21 Deci.Ai Ltd. System and method for automated optimazation of a neural network model
CN112259122A (zh) * 2020-10-20 2021-01-22 北京小米松果电子有限公司 音频类型识别方法、装置及存储介质
CN112598021A (zh) * 2020-11-27 2021-04-02 西北工业大学 一种基于自动机器学习的图结构搜索方法
WO2022126448A1 (zh) * 2020-12-16 2022-06-23 华为技术有限公司 一种基于演化学习的神经网络结构搜索方法和系统
CN112633471B (zh) * 2020-12-17 2023-09-26 苏州浪潮智能科技有限公司 构建神经网络架构搜索框架的方法、系统、设备及介质
CN114925739B (zh) * 2021-02-10 2023-11-03 华为技术有限公司 目标检测方法、装置和系统
CN116542293A (zh) * 2022-01-24 2023-08-04 美的集团(上海)有限公司 一种神经网络结构搜索方法、装置、程序产品及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2810202B2 (ja) * 1990-04-25 1998-10-15 株式会社日立製作所 ニューラルネットワークによる情報処理装置
JP6042274B2 (ja) * 2013-06-28 2016-12-14 株式会社デンソーアイティーラボラトリ ニューラルネットワーク最適化方法、ニューラルネットワーク最適化装置及びプログラム
CN110168578B (zh) * 2017-01-30 2024-02-06 渊慧科技有限公司 具有任务特定路径的多任务神经网络
EP3673419A1 (en) * 2017-11-22 2020-07-01 Deepmind Technologies Limited Population based training of neural networks
US12020160B2 (en) * 2018-01-19 2024-06-25 International Business Machines Corporation Generation of neural network containing middle layer background
EP3711000B1 (en) 2018-02-02 2023-06-21 Google LLC Regularized neural network architecture search
CN110288084A (zh) * 2019-06-06 2019-09-27 北京小米智能科技有限公司 超网络训练方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657466A (zh) * 2021-07-29 2021-11-16 北京百度网讯科技有限公司 预训练模型的生成方法、装置、电子设备和存储介质
CN113657466B (zh) * 2021-07-29 2024-02-06 北京百度网讯科技有限公司 预训练模型的生成方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
EP3816868A1 (en) 2021-05-05
KR102365890B1 (ko) 2022-02-22
KR20210053122A (ko) 2021-05-11
CN110782034A (zh) 2020-02-11
JP2021072079A (ja) 2021-05-06
US11663468B2 (en) 2023-05-30
US20210133563A1 (en) 2021-05-06

Similar Documents

Publication Publication Date Title
JP6862586B1 (ja) ニューラルネットワークのトレーニング方法、装置および記憶媒体
JP7029476B2 (ja) スーパーネットワークトレーニング方法、及び装置、プログラム、及び記録媒体
US10930304B2 (en) Processing voice
US20210117726A1 (en) Method for training image classifying model, server and storage medium
TWI772668B (zh) 一種目標對象處理方法、裝置、電子設備及儲存介質
CN111160448B (zh) 一种图像分类模型的训练方法及装置
JP2021077322A (ja) ハイパーネットワークトレーニングの方法及び装置、電子機器、記憶媒体
EP3901827B1 (en) Image processing method and apparatus based on super network, intelligent device and computer storage medium
WO2016011741A1 (zh) 自动连接无线局域网的方法及装置
US20210390449A1 (en) Method and device for data processing, and storage medium
KR20150117202A (ko) 클러스터링 방법, 관련 장치, 프로그램 및 기록매체
CN106250430A (zh) 智能设备列表的排序方法及装置
WO2020103353A1 (zh) 多波束选取方法及装置
CN110782010A (zh) 一种神经网络的构建方法及装置、存储介质
TW202036476A (zh) 圖像處理方法及裝置、電子設備和儲存介質
US20200394228A1 (en) Electronic device and method for predicting an intention of a user
RU2616592C2 (ru) Способ и устройство для определения местоположения
US9854559B2 (en) Method and device for pushing user information
CN112259122A (zh) 音频类型识别方法、装置及存储介质
WO2019105243A1 (zh) 图像处理方法、装置及终端
CN113673603B (zh) 一种要素点匹配的方法及相关装置
CN113297128B (zh) 数据处理方法、装置、计算机设备和存储介质
EP3786852A1 (en) Method for subnetwork sampling, and method and device for building a hypernetwork topology
WO2022116519A1 (zh) 一种搜索方法、装置和电子设备
WO2023220987A1 (zh) 目标点确定方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210323

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210331

R150 Certificate of patent or registration of utility model

Ref document number: 6862586

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250