JP6862586B1

JP6862586B1 - ニューラルネットワークのトレーニング方法、装置および記憶媒体

Info

Publication number: JP6862586B1
Application number: JP2020001867A
Authority: JP
Inventors: シャンシャンチュー，; ルイジュンシュー，; ボージャン，; ジーシャンリー，; チンユアンリー，; ビンワン，
Original assignee: Beijing Xiaomi Intelligent Technology Co Ltd
Current assignee: Beijing Xiaomi Intelligent Technology Co Ltd
Priority date: 2019-10-31
Filing date: 2020-01-09
Publication date: 2021-04-21
Anticipated expiration: 2040-01-09
Also published as: EP3816868A1; KR102365890B1; KR20210053122A; CN110782034A; JP2021072079A; US11663468B2; US20210133563A1

Abstract

【課題】ニューラルネットワークのトレーニング方法、装置および記憶媒体の提供。【解決手段】ニューラルネットワークのトレーニング方法は、スーパーネットワークをトレーニングして、スーパーネットワークのネットワークパラメータを取得することであって、前記スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含むことと、スーパーネットワークの各ネットワークの複数の代替ネットワークサブ構造から、ターゲットネットワークサブ構造として１つの代替ネットワークサブ構造を選択することと、各層が選択したターゲットネットワークサブ構造に基づいて、サブネットワークを構築することと、スーパーネットワークから継承されたネットワークパラメータをサブネットワークの初期化パラメータとし、サブネットワークをトレーニングしてサブネットワークのネットワークパラメータを取得することを含む。【選択図】図１

Description

本願は、２０１９年１０月３１日に中国特許局に提出された、出願番号がＣＮ２０１９１１０５３８９８８である中国特許出願に基づいて提出されるものであり、当該中国特許出願の優先権を主張し、当該中国特許出願のすべての内容が参照によって本願に組み込まれる。

本開示は、ニューラルネットワークに関し、特に、ニューラルネットワークのトレーニング方法、装置および記憶媒体に関する。

ニューラルネットワークは、動物ニューラルネットワーク行動特徴を模倣して、分散並列情報処理を実行するアルゴリズム数学モデルである。主にシステムの複雑さに依存し、内部の大量のノード間の相互接続された関係を調整することによって、情報処理の目的に達する。データ処理では、例えば、データ分類、オーディオ分析およびイメージ認識等の幅広い用途がある。ニューラルネットワークを使用する前に、ニューラルネットワークをトレーニングする必要があるが、現在のニューラルネットワークをトレーニング方法は、計算量が大きいだけでなく、効率が低い。

本開示は、ニューラルネットワーク、装置および記憶媒体を提供する。

本開示の実施例の第１の態様において、
スーパーネットワークをトレーニングして、前記スーパーネットワークのネットワークパラメータを取得することであって、ここで、前記スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含むことと、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、１つの前記代替ネットワークサブ構造をターゲットネットワークサブ構造として選択することと、
各層が選択した前記ターゲットネットワークサブ構造に基づいて、サブネットワークを構築することと、
前記スーパーネットワークから継承されたネットワークパラメータを前記サブネットワークの初期化パラメータとし、前記サブネットワークをトレーニングして、前記サブネットワークのネットワークパラメータを取得することを含む、ネットワークのトレーニング方法を提供する。

選択的に、前記スーパーネットワークは、Ｎ個のネットワーク層を含み、各前記ネットワーク層は、Ｍ個の代替ネットワークサブ構造を含み、Ｎは２より大きいか等しい正の整数であり、Ｍは２より大きいか等しい正の整数であり、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、１つの前記代替ネットワークサブ構造をターケットネットワークのサブ構造として選択することは、
前記サブネットワークの第ｎ個のネットワーク層の前記ターゲットネットワークサブ構造として、前記スーパーネットワークの第ｎ個のネットワーク層の第ｍ個の代替ネットワークサブ構造を選択することであって、ｎはＮより小さいか等しい正の整数であり、ｍはＭより小さいか等しい正の整数であることを含む。

選択的に、前記方法は、
前記スーパーネットワークのネットワークパラメータを取得した後、各前記代替ネットワークサブ構造の構造識別子と各前記代替ネットワークサブ構造のネットワークパラメータとの間のマッピング関係が対応して記憶されることをさらに含む。

選択的に、前記スーパーネットワークから継承されたネットワークパラメータを前記サブネットワークの初期化パラメータとし、前記サブネットワークをトレーニングして前記サブネットワークのネットワークパラメータを取得することは、
前記サブネットワークに含まれた代替ネットワークサブ構造の構造識別子に基づいて、前記マッピング関係を照会して、対応する代替ネットワークサブ構造のネットワークパラメータを取得することと、
取得された前記サブネットワークの代替ネットワーク構造のネットワークパラメータに基づいて、前記サブネットワークをトレーニングして、前記サブネットワークのネットワークパラメータを取得することを含む。

選択的に、前記スーパーネットワークの各ネットワーク層の複数のネットワークサブ構造から、１つの前記代替ネットワークサブ構造をターゲットネットワークサブ構造として選択することは、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、設定された検索アルゴリズムに基づいて、１つの前記代替ネットワークサブ構造をターゲットネットワークサブ構造として選択することであって、
前記設定された検索アルゴリズムは、ランダム検索アルゴリズム、ベイジアン検索アルゴリズム、進化学習アルゴリズム、強化学習アルゴリズム、進化学習と強化学習を組み合わせたアルゴリズム、勾配ベースのアルゴリズムのうちの少なくとも１つを含む。

選択的に、前記方法は、
トレーニングされたサブネットワークに基づいて、入力データに対してデータ処理を行うことをさらに含み、
ここで、前記入力データのタイプは、イメージデータタイプ、テキストデータタイプ、およびオーディオデータタイプのうちの少なくとも１つを含む。

選択的に、前記方法は、
テストデータセットに基づいて、トレーニングされたサブネットワークに対して性能評価を行い、評価結果を取得することをさらに含み、
ここで、前記テストデータセット内のテストデータのタイプは、イメージデータタイプ、サービスデータタイプ、およびオーディオデータタイプのうちの少なくとも１つを含む。

本開示の実施例の第２の態様において、
スーパーネットワークをトレーニングして、前記スーパーネットワークのネットワークパラメータを取得するように構成される第１のトレーニングモジュールであって、前記スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含む第１のトレーニングモジュールと、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、１つの前記代替ネットワークサブ構造をターゲットネットワークサブ構造として選択するように構成される選択モジュールと、
各層が選択した前記ターゲットネットワークサブ構造に基づいて、サブネットワークを構築するように構成されるネットワーク構築モジュールと、
前記スーパーネットワークから継承されたネットワークパラメータを前記サブネットワークの初期化パラメータとし、前記サブネットワークをトレーニングして、前記サブネットワークのネットワークパラメータを取得するように構成される第２のトレーニングモジュールを含む、ニューラルネットワークのトレーニング装置を提供する。

選択的に、前記スーパーネットワークは、Ｎ個のネットワーク層を含み、各前記ネットワーク層は、Ｍ個の代替ネットワークサブ構造を含み、Ｎは２より大きいか等しい正の整数であり、Ｍは２より大きいか等しい正の整数であり、
前記選択モジュールは、具体的に、前記サブネットワークの第ｎ個ネットワーク層の前記ターゲットネットワークサブ構造として、前記スーパーネットワークの第ｎ個のネットワーク層の第ｍ個の代替ネットワークサブ構造を選択するように構成され、ｎはＮより小さいか等しい正の整数であり、ｍはＭより小さいか等しい正の整数である。

選択的に、前記装置は、
前記スーパーネットワークのネットワークパラメータを取得した後、各前記代替ネットワークサブ構造の構造識別子と各前記代替ネットワークサブ構造のネットワークパラメータとの間のマッピング関係が対応して記憶されるように構成される記憶モジュールをさらに含む。

選択的に、前記第２のトレーニングモジュールは、具体的に、
前記サブネットワークに含まれる代替ネットワークサブ構造の構造識別子に基づいて、前記マッピング関係を照会して、対応する代替ネットワークサブ構造のネットワークパラメータを取得し、
前記取得した前記代替ネットワークサブ構造のネットワークパラメータに基づいて、前記サブネットワークをトレーニングして前記サブネットワークのネットワークパラメータを取得するように構成される。

選択的に、前記選択モジュールは、具体的に、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、設定された検索アルゴリズムに基づいて、１つの前記代替ネットワークサブ構造をターゲットネットワークサブ構造として選択するように構成され、
前記設定された検索アルゴリズムは、ランダム検索アルゴリズム、ベイジアン検索アルゴリズム、進化学習アルゴリズム、強化学習アルゴリズム、進化学習と強化学習を組み合わせたアルゴリズム、勾配ベースのアルゴリズムのうちの少なくとも以下の１つを含む。

選択的に、前記装置は、さらに、
トレーニングされたサブネットワークに基づいて、入力データに対してデータ処理を行うように構成されるデータ処理モジュールを含み、
前記入力データのタイプは、イメージデータタイプ、テキストデータタイプ、およびオーディオデータタイプのうちの少なくとも１つを含む。

選択的に、前記装置は、さらに、
テストデータセットに基づいて、トレーニングされたサブネットワークに対して性能評価を行い、評価結果を取得するように構成される性能評価モジュールを含み、
前記テストデータセット内のテストデータのタイプは、イメージデータタイプ、サービスデータタイプ、およびオーディオデータタイプのうちの少なくとも１つを含む。

本開示の実施例の第３の態様において、
プロセッサと、
プロセッサによって実行可能な命令を記憶するように構成されるメモリと、を含むことであって、
ここで、前記プロセッサは、実行する時、前記ニューラルネットワークのトレーニング方法のステップのいずれか一つを実装するように構成される。

本開示の実施例の第４の態様において、非一時的なコンピュータ可読記憶媒体を提供し、前記記憶媒体の命令がニューラルネットワークのトレーニング装置のプロセッサによって実行する場合、前記装置に前記いずれか一つのニューラルネットワークのトレーニング方法を実行させる。
本発明は、例えば、以下を提供する。
（項目１）
ニューラルネットワークのトレーニング方法であって、
スーパーネットワークをトレーニングして、前記スーパーネットワークのネットワークパラメータを取得することであって、前記スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含むことと、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、１つの前記代替ネットワークサブ構造をターゲットネットワークサブ構造として選択することと、
各層が選択した前記ターゲットネットワークサブ構造に基づいて、サブネットワークを構築することと、
前記スーパーネットワークから継承されたネットワークパラメータを前記サブネットワークの初期化パラメータとし、前記サブネットワークをトレーニングして、前記サブネットワークのネットワークパラメータを取得することとを含む、前記方法。
（項目２）
前記スーパーネットワークは、Ｎ個のネットワーク層を含み、各前記ネットワーク層は、Ｍ個の代替ネットワークサブ構造を含み、Ｎは２より大きいか等しい正の整数であり、Ｍは２より大きいか等しい正の整数であり、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、１つの前記代替ネットワークサブ構造をターケットネットワークのサブ構造として選択することは、
前記サブネットワークの第ｎ個のネットワーク層の前記ターゲットネットワークサブ構造として、前記スーパーネットワークの第ｎ個のネットワーク層の第ｍ個の代替ネットワークサブ構造を選択することであって、ｎはＮより小さいか等しい正の整数であり、ｍはＭより小さいか等しい正の整数であることを含む、
上記項目に記載の方法。
（項目３）
前記方法は、
前記スーパーネットワークのネットワークパラメータを取得した後、各前記代替ネットワークサブ構造の構造識別子と各前記代替ネットワークサブ構造のネットワークパラメータとの間のマッピング関係が対応して記憶されることをさらに含む、
上記項目のいずれかに記載の方法。
（項目４）
前記スーパーネットワークから継承されたネットワークパラメータを前記サブネットワークの初期化パラメータとし、前記サブネットワークをトレーニングして前記サブネットワークのネットワークパラメータを取得することは、
前記サブネットワークに含まれた代替ネットワークサブ構造の構造識別子に基づいて、前記マッピング関係を照会して、対応する代替ネットワークサブ構造のネットワークパラメータを取得することと、
取得された前記サブネットワークの代替ネットワークサブ構造のネットワークパラメータに基づいて、前記サブネットワークをトレーニングして、前記サブネットワークのネットワークパラメータを取得することを含む、
上記項目のいずれかに記載の方法。
（項目５）
前記スーパーネットワークの各ネットワーク層の複数のネットワークサブ構造から、１つの前記代替ネットワークサブ構造をターゲットネットワークサブ構造として選択することは、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、設定された検索アルゴリズムに基づいて、１つの前記代替ネットワークサブ構造をターゲットネットワークサブ構造として選択することを含み、
前記設定された検索アルゴリズムは、ランダム検索アルゴリズム、ベイジアン検索アルゴリズム、進化学習アルゴリズム、強化学習アルゴリズム、進化学習と強化学習を組み合わせたアルゴリズム、勾配ベースのアルゴリズムのうちの少なくとも１つを含む、
上記項目のいずれかに記載の方法。
（項目６）
前記方法は、
トレーニングされたサブネットワークに基づいて、入力データに対してデータ処理を行うことをさらに含み、
前記入力データのタイプは、イメージデータタイプ、テキストデータタイプ、およびオーディオデータタイプのうちの少なくとも１つを含む、
上記項目のいずれかに記載の方法。
（項目７）
前記方法は、
テストデータセットに基づいて、トレーニングされたサブネットワークに対して性能評価を行い、評価結果を取得することをさらに含み、
前記テストデータセット内のテストデータのタイプは、イメージデータタイプ、サービスデータタイプ、およびオーディオデータタイプのうちの少なくとも１つを含む、
上記項目のいずれかに記載の方法。
（項目８）
ニューラルネットワークのトレーニング装置であって、
スーパーネットワークをトレーニングして、前記スーパーネットワークのネットワークパラメータを取得するように構成される第１のトレーニングモジュールであって、前記スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含む第１のトレーニングモジュールと、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、１つの代替ネットワークサブ構造をターゲットネットワークサブ構造として選択するように構成される選択モジュールと、
各層が選択した前記ターゲットネットワークサブ構造に基づいて、サブネットワークを構築するように構成されるネットワーク構築モジュールと、
前記スーパーネットワークから継承されたネットワークパラメータを前記サブネットワークの初期化パラメータとし、前記サブネットワークをトレーニングして、前記サブネットワークのネットワークパラメータを取得するように構成される第２のトレーニングモジュールと、を含む、前記装置。
（項目９）
前記スーパーネットワークは、Ｎ個のネットワーク層を含み、各前記ネットワーク層は、Ｍ個の代替ネットワークサブ構造を含み、Ｎは２より大きいか等しい正の整数であり、Ｍは２より大きいか等しい正の整数であり、
前記選択モジュールは、具体的に、前記サブネットワークの第ｎ個ネットワーク層の前記ターゲットネットワークサブ構造として、前記スーパーネットワークの第ｎ個のネットワーク層の第ｍ個の代替ネットワークサブ構造を選択するように構成され、ｎはＮより小さいか等しい正の整数であり、ｍはＭより小さいか等しい正の整数である、
上記項目のいずれかに記載の装置。
（項目１０）
前記装置は、さらに、
前記スーパーネットワークのネットワークパラメータを取得された後、各前記代替ネットワークサブ構造の構造識別子と各前記代替ネットワークサブ構造のネットワークパラメータとの間のマッピング関係が対応して記憶されるように構成される記憶モジュールを含む、
上記項目のいずれかに記載の装置。
（項目１１）
前記第２のトレーニングモジュールは、具体的に、
前記サブネットワークに含まれる代替ネットワークサブ構造の構造識別子に基づいて、前記マッピング関係を照会して、対応する代替ネットワークサブ構造のネットワークパラメータを取得し、
前記取得された前記代替ネットワークサブ構造のネットワークパラメータに基づいて、前記サブネットワークをトレーニングして前記サブネットワークのネットワークパラメータを取得するように構成される、
上記項目のいずれかに記載の装置。
（項目１２）
前記選択モジュールは、具体的に、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、設定された検索アルゴリズムに基づいて、１つの前記代替ネットワークサブ構造をターゲットネットワークサブ構造として選択するように構成され、
前記設定された検索アルゴリズムは、ランダム検索アルゴリズム、ベイジアン検索アルゴリズム、進化学習アルゴリズム、強化学習アルゴリズム、進化学習と強化学習を組み合わせたアルゴリズム、勾配ベースのアルゴリズムのうちの少なくとも１つを含む、
上記項目のいずれかに記載の装置。
（項目１３）
前記装置は、さらに、
トレーニングされたサブネットワークに基づいて、入力データに対してデータ処理を行うように構成されるデータ処理モジュールを含み、
前記入力データのタイプは、イメージデータタイプ、テキストデータタイプ、およびオーディオデータタイプのうちの少なくとも１つを含む、
上記項目のいずれかに記載の装置。
（項目１４）
前記装置は、さらに、
テストデータセットに基づいて、トレーニングされたサブネットワークに対して性能評価を行って、評価結果を取得するように構成される性能評価モジュールを含み、
前記テストデータセット内のテストデータのタイプは、イメージデータタイプ、サービスデータタイプ、およびオーディオデータタイプのうちの少なくとも１つを含む、
上記項目のいずれかに記載の方法。
（項目１５）
ニューラルネットワークのトレーニング装置であって、
プロセッサと、
プロセッサによって実行可能な命令を記憶するように構成されるメモリと、を含み、
前記プロセッサは、実行する時、前記請求項１ないし７のいずれか一項に記載のニューラルネットワークのトレーニング方法のステップを実装するように構成される、前記装置。
（項目１６）
非一時的なコンピュータ可読記憶媒体であって、
前記記憶媒体の命令がニューラルネットワークのトレーニング装置のプロセッサによって実行される場合、前記装置に前記請求項１ないし７のいずれか一項に記載のニューラルネットワークのトレーニング方法を実行させるようにする、前記コンピュータ可読記憶媒体。
（摘要）
本開示は、ニューラルネットワークのトレーニング方法、装置および記憶媒体に関し、前記方法は、スーパーネットワークをトレーニングして、スーパーネットワークのネットワークパラメータを取得することであって、前記スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含むことと、スーパーネットワークの各ネットワークの複数の代替ネットワークサブ構造から、ターゲットネットワークサブ構造として１つの代替ネットワークサブ構造を選択することと、各層が選択したターゲットネットワークサブ構造に基づいて、サブネットワークを構築することと、スーパーネットワークから継承されたネットワークパラメータをサブネットワークの初期化パラメータとし、サブネットワークをトレーニングしてサブネットワークのネットワークパラメータを取得することを含む。本開示では、スーパーネットワークから継承されたネットワークパラメータをサブネットワークの初期化パラメータとして、サブネットワークをトレーニングし、サブネットワークをゼロからトレーニングする必要がないため、ニューラルネットワークのトレーニングの計算量を減少させ、ニューラルネットワークのトレーニングの効率を改善することができる。

本開示の実施例によって提供される技術的解決策は、以下の有利な効果を含み得る。

上述の実施例からわかるように、本開示では、サブネットワークはスーパーネットワークからネットワークパラメータを継承することができ、前記ネットワークパラメータをサブネットワークの初期化パラメータとし、さらにサブネットワークをトレーニングしてサブネットワークのネットワークパラメータを取得することができ、サブネットワークをゼロからトレーニングする必要がないため、ニューラルネットワークのトレーニングプロセスの計算量を減少させ、さらにニューラルネットワークのトレーニングの効率を改善することができる。

上記の一般的な説明および後述する詳細な説明は、単なる例示および説明であり、本開示を限定するものではないことを理解されたい。

一例示的な実施例によって示されるニューラルネットワークのトレーニング方法の例示的なフローチャート１である。一例示的な実施例によって示されるニューラルネットワークのトレーニング方法の例示的なフローチャート２である。一例示的な実施例によって示されるニューラルネットワークのトレーニング方法の例示的なフローチャート３である。一例示的な実施例によって示されるニューラルネットワークのトレーニング方法の例示的なフローチャート４である。一例示的な実施例によって示されるニューラルネットワークのトレーニング方法の例示的なフローチャート５である。一例示的な実施例によって示されるニューラルネットワークのトレーニング方法の例示的なフローチャート６である。一例示的な実施例によって示されるスーパーネットワークの例示的な構造図である。一例示的な実施例によって示されるサブネットワークの構築の例示的なフローチャートである。一例示的な実施例によって示される重みパラメータの共有の例示的なフローチャートである。一例示的な実施例によって示されるニューラルネットワークのトレーニング装置のブロック図１である。一例示的な実施例によって示されるニューラルネットワークのトレーニング装置のブロック図２である。一例示的な実施例によって示されるニューラルネットワークのためのトレーニング装置のブロック図である。一例示的な実施例によって示される別のニューラルネットワークのためのトレーニング装置のブロック図である。

ここでの図面は、本明細書に組み込まれてその一部を構成し、本開示と一致する実施例を示し、明細書とともに本開示の原理を説明するために使用される。

ここで、例示的な実施例を詳細に説明し、その例は添付の図面に示す。別の指示がない限り、以下の説明が図面に関する場合、異なる図面の同じ数字は同じまたは類似の要素を表す。以下の例示的な実施例で説明される実施形態は、本開示と一致するすべての実施形態を表すものではない。むしろ、それらは、添付された特許請求の範囲に詳述されるように、本開示の特定の態様と一致する装置および方法の例である。

本開示の実施例では、ニューラルネットワークのトレーニング方法を提供する。図１は、一例示的な実施例によって示されるニューラルネットワークのトレーニング方法の例示的なフローチャート１であり、図１に示されたように、前記方法は、次のステップを含む。

ステップ１０１において、スーパーネットワークをトレーニングして、スーパーネットワークのネットワークパラメータを取得し、ここで、スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含む。

ここで、スーパーネットワークのネットワークパラメータは、スーパーネットワークの重みパラメータを含み、ある実施例では、前記ネットワークパラメータは、前記スーパーネットワークのしきい値パラメータをさらに含む。

本開示の実施例において、収集されたサンプルデータに基づいて、スーパーネットワークをトレーニングして、スーパーネットワークの重みパラメータを取得し、ここで、サンプルデータのデータタイプは、イメージデータタイプ、テキストデータタイプ、またはオーディオデータタイプであり得る。

本開示の実施例では、トレーニングして取得したサブネットワークは、所定の機能を実装するニューラルネットワークであって、
入力イメージ内のターゲットおよび背景に対して分割するターゲットセグメンテーション、
入力イメージ内のターゲットに対する分類、
入力イメージに基づくターゲット追跡、
医療イメージに基づく診断補助、および
入力音声に基づく音声認識、音声補正等の機能のうちの少なくとも１つを含むが、これに限定されない。

上記は、前記サブネットワークによって実装される所定の機能の一例説明に過ぎず、具体的に実装することは前記の例示に限定されない。

本開示の実施例において、スーパーネットワークは、少なくとも１つのネットワーク層を含み、且つ各ネットワーク層は、複数の代替ネットワークサブ構造を含み、ここで、代替ネットワークサブ構造はスーパーネットワークの一部として構成される。ここで、各代替ネットワークサブ構造の構造識別子によって各代替ネットワークサブ構造に区別を実行することができ、ここで、構造識別子は代替ネットワークサブ構造の番号または代替ネットワークサブ構造の名称であり得る。異なる代替ネットワークサブ構造は、同じ機能または類似の機能を実装するために、異なるネットワークサブモデルで構成されることができまたは、異なる代替構造は異なる機能を実装するための異なるネットワークサブモデル構造で構成されることができる。

ステップ１０２において、スーパーネットワークの各ネットワークの複数の代替ネットワークサブ構造から、１つの代替ネットワークサブ構造をターゲットネットワークサブ構造として選択する。

ここで、各ネットワーク層から１つの代替ネットワークサブ構造をそれぞれに選択することができ、そして、前記代替ネットワークサブ構造をサブネットワークの構築のターゲットネットワークサブ構造とする。

ステップ１０３において、各層が選択したターゲットネットワークサブ構造に基づいて、サブネットワークを構築する。

ステップ１０４において、スーパーネットワークから継承されたネットワークパラメータをサブネットワークの初期化パラメータとし、サブネットワークをトレーニングしてサブネットワークのネットワークパラメータを取得する。

ここで、サブネットワークを構築した後、スーパーネットワーク内のネットワークパラメータをサブネットワークに与えて、サブネットワークがスーパーネットワークからネットワークパラメータを継承するようにすることができ、さらに、サブネットワークがネットワークパラメータを有する前提下で、サブネットワークをゼロからトレーニングする必要なしでトレーニングする。だから、取得されたサブネットワークのネットワークパラメータは、サブネットワークをトレーニングした後、取得された最終重みパラメータを含む。

ここで、ネットワークをトレーニングする前に、スーパーネットワークから統合したネットワークパラメータは、単独にトレーニングされたサブネットワークの初期化パラメータと同等である。

本開示の実施例において、サブネットワークは、スーパーネットワークからネットワークパラメータを継承することができ、前記ネットワークパラメータをサブネットワークの初期化パラメータとし、さらに、サブネットワークをゼロからトレーニングする必要なしでサブネットワークをトレーニングしてサブネットワークのネットワークパラメータを取得することにより、ニューラルネットワークトレーニングプロセスの計算量を減少させ、さらに、ニューラルネットワークのトレーニングの効率を改善することができる。

図２は、一例示的な実施例によって示されるニューラルネットワークのトレーニング方法の例示的なフローチャート２であり、図２に示されたように、前記方法は次のステップを含む。

ステップ２０１において、スーパーネットワークをトレーニングして、スーパーネットワークのネットワークパラメータを取得し、ここで、スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含む。

ステップ２０２において、スーパーネットワークは、Ｎ個のネットワーク層を含み、各前記ネットワーク層は、Ｍ個の代替ネットワークサブ構造を含み、Ｎは２より大きいか等しい正の整数であり、Ｍは２より大きいか等しい正の整数であり、前記サブネットワークの第ｎ個のネットワーク層の前記ターゲットネットワークサブ構造として、スーパーネットワークの第ｎ個のネットワーク層の第ｍ個の代替ネットワークサブ構造を選択し、ｎはＮより小さいか等しい正の整数、ｍはＭより小さいか等しい正の整数である。

ここで、シングルパスアクティベーションアルゴリズムに基づいて、各ネットワーク層から１つの代替ネットワークサブ構造を選択して、さらに、選択された代替ネットワークサブ構造をサブネットワークの構築のターゲットネットワークとすることができる。

ステップ２０３において、各層が選択したターゲットネットワークに基づいて、サブネットワークを構築する。

ステップ２０４において、スーパーネットワークから継承されたネットワークパラメータをサブネットワークの初期化パラメータとして、サブネットワークをトレーニングしてサブネットワークのネットワークパラメータを取得する。

本開示の実施例では、シングルパスアクティベーションアルゴリズムに基づいて、各ネットワーク層から１つの代替ネットワークサブ構造をサブネットワークの構築のターゲットネットワークサブ構造としてそれぞれに選択することにより、ニューラルネットワークのトレーニングの複雑さを簡素化して、ニューラルネットワークトレーニングの効率を改善することができる。

図３は、一例示的な実施例によって示されるニューラルネットワークのトレーニング方法の例示的なフローチャート３であり、図３に示されたように、前記方法は次のステップを含む。

ステップ３０１において、スーパーネットワークをトレーニングして、スーパーネットワークのネットワークパラメータを取得し、ここで、スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含む。

ステップ３０２において、スーパーネットワークのネットワークパラメータを取得した後、各前記代替ネットワークサブ構造の構造識別子と各前記代替ネットワークサブ構造のネットワークパラメータとの間のマッピング関係が対応して記憶される。

ここで、構造識別子は代替ネットワークサブ構造の番号または代替ネットワークサブ構造の名称であり得る。本開示の実施例では、ネットワークパラメータを取得した後、各代替ネットワークサブ構造の構造識別子と各代替ネットワークサブ構造のネットワークパラメータとの間のマッピング関係を確立することができ、前記マッピング関係を所定のマッピングリストに記憶する。対応する代替ネットワークサブ構造に対応するネットワークパラメータを取得する必要がある場合、直接に、代替ネットワークサブ構造の構造識別子によって、代替ネットワークサブ構造の構造識別子とネットワークパラメータとの間のマッピング関係を照会することができ、ニューラルネットワークのトレーニングの効率を改善することができる。

ステップ３０３において、スーパーネットワークの各ネットワークの複数の代替ネットワークサブ構造から、１つの代替ネットワークサブ構造をターゲットネットワークサブ構造として選択する。

ステップ３０４において、各層が選択したターゲットネットワークサブ構造に基づいて、サブネットワークを構築する。

ステップ３０５において、スーパーネットワークから継承されたネットワークパラメータをサブネットワークの初期化パラメータとして、サブネットワークをトレーニングし、サブネットワークのネットワークパラメータを取得する。

図４は、一例示的な実施例によって示されるニューラルネットワークのトレーニング方法の例示的なフローチャート４であり、図４に示されたように、前記方法は次のステップを含む。

ステップ４０１において、スーパーネットワークをトレーニングして、スーパーネットワークのネットワークパラメータを取得し、ここで、スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含む。

ステップ４０２において、スーパーネットワークのネットワークパラメータを取得した後、各前記代替ネットワークサブ構造の構造識別子と各前記代替ネットワークサブ構造のネットワークパラメータとの間のマッピング関係が対応して記憶される。

ステップ４０３において、スーパーネットワークの各ネットワークの複数の代替ネットワークサブ構造から、１つの代替ネットワークサブ構造をターゲットネットワークサブ構造として選択する。

ステップ４０４において、各層が選択したターゲットネットワークサブ構造に基づいて、サブネットワークを構築する。

ステップ４０５において、サブネットワークに含まれた代替ネットワークサブ構造の構造識別子に基づいて、前記マッピング関係を照会して、対応する代替ネットワークサブ構造のネットワークパラメータを取得する。

スーパーネットワークにトレーニングを実行した後、各代替ネットワークサブ構造に対応するネットワークパラメータを取得することができ、さらに各代替ネットワークサブ構造の構造識別子と各代替ネットワークサブ構造のネットワークパラメータとの間のマッピング関係を確立し、ここで、前記マッピング関係はリストの形で、マッピングリストに記憶される。本開示の実施例では、サブネットワークに含まれた代替ネットワークサブ構造の構造識別子に基づいて、マッピングリストから対応するネットワークパラメータを取得することができ、さらに前記ネットワークパラメータをサブネットワーク内の対応する代替ネットワークサブ構造と共有する。

ステップ４０６において、取得した代替ネットワークサブ構造のネットワークパラメータに基づいて、サブネットワークをトレーニングして、サブネットワークのネットワークパラメータを取得する。

本開示の実施例では、直接に、代替ネットワークサブ構造の構造識別子によって、前記代替ネットワークサブ構造の構造識別子とネットワークパラメータとの間のマッピング関係を照会することができ、ニューラルネットワークのトレーニングプロセスの計算量を減少させ、ニューラルネットワークのトレーニングの効率を改善することができる。

図５は、一例示的な実施例によって示されるニューラルネットワークのトレーニング方法の例示的なフローチャート５であり、図５に示されたように、前記方法は次のステップを含む。

ステップ５０１において、スーパーネットワークをトレーニングして、スーパーネットワークのネットワークパラメータを取得し、ここで、スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含む。

ステップ５０２において、スーパーネットワークの各ネットワークの複数の代替ネットワークサブ構造から、設定された検索アルゴリズムに基づいて、１つの代替ネットワークサブ構造をターゲットネットワークサブ構造として選択する。設定された検索アルゴリズムは、ランダム検索アルゴリズム、ベイジアン検索アルゴリズム、進化学習アルゴリズム、強化学習アルゴリズム、進化学習と強化学習を組み合わせたアルゴリズム、勾配ベースのアルゴリズムのうちの少なくとも１つを含む。

ステップ５０３において、各層によって選択された前記ターゲットネットワークサブ構造に基づいて、サブネットワークを構築する。

ステップ５０４において、スーパーネットワークから継承されたネットワークパラメータをサブネットワークの初期化パラメータとし、サブネットワークをトレーニングして、サブネットワークのネットワークパラメータを取得する。

選択的な実施例において、前記方法は、トレーニングされたサブネットワークに基づいて、入力データに対してデータ処理を行うことであって、テストデータセット内のテストデータのタイプは、イメージデータタイプ、テキストデータタイプ、およびオーディオデータタイプのうちの少なくとも１つを含むことをさらに含む。

選択的な実施例において、前記方法は、テストデータセットに基づいてトレーニングされたサブネットワークに対して性能評価を行い、評価結果を取得することをさらに含み、テストデータセット中のテストデータのタイプは、イメージデータタイプ、サービスデータタイプ、およびオーディオデータタイプのうちの少なくとも１つを含む。

ここで、トレーニングされたサブネットワークを構築した後、テストデータセットで、その性能を評価することができ、最適なサブネットワークが見つかるまで、ネットワーク構造を徐々に最適化する。例えば、検証の損失を最小化するか、報酬を最大化するサブネットワークである。ここで、テストデータセット内のテストデータをトレーニング済みのサブネットワークに入力し、評価結果をサブネットワークによって出力し、そして出力した評価結果を事前に設定された標準と比較して比較結果を取得し、比較結果に従ってサブネットワークを評価する。ここで、テスト結果は、サブネットワークがテストデータを処理する速度または精度であることができる。

本開示の上記の実施形態のいずれか一つの技術的解決策は、ネットワーク構造検索（ＮＡＳ：ＮｅｕｒａｌＡｒｃｈｉｔｅｃｔｕｒｅＳｅａｒｃｈ）に適用することができ、ここで、ＮＡＳはニューラルネットワークを自動的に設計する技術である。ＮＡＳがセンプルセットに基づいて高性能のニューラルネットワーク構造を自動的に設計することができ、ニューラルネットワークの使用と実装コストを効果的に削減することができる。

１つの検索空間、つまり候補ニューラルネットワーク構造セットが与えられると、検索戦略を使用して、検索空間から最適なネットワーク構造を検索する。そして性能評価戦略に基づいて、ニューラルネットワーク構造の長所と短所、つまり性能が評価される。例えば、ニューラルネットワークで処理されるデータの精度と、ニューラルネットワークで処理されるデータの速度等の指標を使用することによって性能評価を実行する。ここで、候補ニューラルネットワーク構造セットは上述の代替ネットワークサブ構造を含む。

ＮＡＳは、ディメンションに応じて、検索空間、検索戦略、性能評価戦略の３つのカテゴリに分類することができる。ここで、検索空間は、１つの検索可能なニューラルネットワークのアーキテクチャのセット、つまり候補ニューラルネットワーク構造を表す。

検索戦略は、最適なネットワーク構造パラメータ構成を迅速かつ正確に見つけるために使用されるアルゴリズムを定義し、例えば、ハイパーパラメータの最適化である。通常、検索アルゴリズムは、反復プロセスであり、最適なネットワーク構造パラメータ構成を迅速かつ正確に見つけるために使用することができるアルゴリズムの種類を定義する。検索アルゴリズムには、ランダム検索アルゴリズム、ベイジアン検索アルゴリズム、進化学習アルゴリズム、強化学習アルゴリズム、進化学習アルゴリズムと強化学習を組み合わせたアルゴリズム、および勾配ベースのアルゴリズムを含む。

検索プロセスの各ステップまたは反復では、検索空間からサンプルが生成され、サンプルに基づいてサブネットワークと呼ばれるニューラルネットワークが形成される。本開示の実施例において、サンプルは、上記の実施形態の代替ネットワークサブ構造から決定されたターゲットネットワークサブ構造である。

図６は、一例示的な実施例によって示されるニューラルネットワークのトレーニング方法の例示的なフローチャート６であり、図６に示されたように、前記方法は次のステップを含む。

ステップ６０１において、スーパーネットワークをトレーニングする。

本開示の実施例において、ＮＡＳに基づいて検索を実行するプロセスでは、すべてのサブ構造を含む検索空間のスーパーネットワーク、すなわち候補のニューラルネットワークの構造セットを生成するために、複数のネットワーク構造（以下、サブ構造と略称する）を含むスーパーネットワークをトレーニングすることができ、ここで、サブ構造はニューラルネットワークの一部である。スーパーネットワークは複数のネットワーク層を含み、各ネットワーク層は複数のサブ構造を含む。ここで、サブ構造は代替ネットワークサブ構造であり、スーパーネットワークは、すべての代替ネットワークサブ構造のセットであり得る。図７は、一例示的な実施例によって示されるスーパーネットワークの例示的な構造図であり、図７に示されたように、スーパーネットワーク７００は、第１のスーパーネットワーク層７０１、第２のスーパーネットワーク層７０２、第３のスーパーネットワーク層７０３を含み、第１のスーパーネットワーク層７０１、第２のスーパーネットワーク層７０２および第３のスーパーネットワーク層７０３は、並列した３つのサブ構造をそれぞれ含み、それぞれサブ構造Ａ、サブ構造Ｂ、およびサブ構造Ｃである。

スーパーネットワークにトレーニングを実行した後、各ネットワーク構造に対応する重みパラメータを取得することができるが、この時、各ネットワーク構造に対応する構造識別子と重みパラメータとの間のマッピング関係が確立することができ、マッピング関係はリストの形式でマッピングリストに記憶される。ここで、構造識別子は、唯一の識別子ネットワーク構造として使用されることができ、ネットワーク構造の番号、ネットワーク構造の名称を含む。

ステップ６０２において、スーパーネットワークからサブ構造をサンプリングし、サンプリングされたサブ構造によってサブネットワークを構築する。

ここで、スーパーネットワークからサブ構造を選択し、選択されたサブ構造に基づいて、サブネットワークを構築することができる。図８は、一例示的な実施例によって示されるサブネットワークの構築の例示的なフローチャートであり、図８に示されたように、スーパーネットワーク８００は、第１のスーパーネットワーク層８０１、第２のスーパーネットワーク層８０２、第３のスーパーネットワーク層８０３を含み、第１のスーパーネットワーク層８０１、第２のスーパーネットワーク層８０２および第３のスーパーネットワーク層８０３は、並列した３つのサブ構造をそれぞれ含み、それぞれサブ構造Ａ、サブ構造Ｂ、およびサブ構造Ｃである。サブネットワークを構築するプロセスでは、各ネットワーク層から１つのサブ構造をそれぞれ選択して、サブネットワークを構築することができる。例えば、スーパーネットワーク８００内の第１のネットワーク層８０１からサブ構造Ａをサブネットワーク８０４の第１のネットワーク層として選択し、第２のネットワーク層８０２からサブ構造Ａをサブネットワーク８０４の第２のネットワーク層として選択し、第３のネットワーク層８０３からサブ構造Ｃをサブネットワーク８０４の第３のネットワーク層として選択する。

ステップ６０３において、スーパーネットワーク内のサブ構造の重みパラメータをサブネットワーク内の対応するサブ構造と共有して、サブ構造を充分にトレーニングする。

スーパーネットワークにトレーニングを実行した後、各ネットワーク構造に対応するネットワークパラメータを取得することができ、各ネットワーク構造の構造識別子と重みパラメータとの間のマッピング関係を確立して、前記マッピング関係はリストの形式でマッピングリストに記憶される。ここで、サブネットワーク内のサブ構造の構造識別子に基づいて、マッピングリストから対応する重みパラメータを取得することができ、重みパラメータはサブネットワーク内の対応するサブ構造で共有することができる。スーパーネットワーク内のサブ構造の重みパラメータをサブネットワーク内の対応するサブ構造と共有した後、サブ構造に充分なトレーニングを実行することができる。

ステップ６０４において、テストデータセットに基づいてサブネットワークに性能評価を行って、評価結果を取得する。

図９は、一例示的な実施例によって示される重みパラメータの共有の例示的なフローチャートであり、図９に示されたように、スーパーネットワーク８００は、第１のスーパーネットワーク層９０１、第２のスーパーネットワーク層９０２、第３のスーパーネットワーク層９０３を含み、第１のスーパーネットワーク層９０１、第２のスーパーネットワーク層９０２および第３のスーパーネットワーク層９０３は、並列した３つのサブ構造をそれぞれ含み、それぞれサブ構造Ａ、サブ構造Ｂ、およびサブ構造Ｃである。サブネットワークを構築するプロセスでは、各ネットワーク層から１つのサブ構造をそれぞれ選択して、サブネットワークを構築することができる。例えば、スーパーネットワーク９００内の第１のネットワーク層９０１からサブ構造Ａをサブネットワーク９０４の第１のネットワーク層として選択し、第２のネットワーク層９０２からサブ構造Ａをサブネットワーク９０４の第２のネットワーク層として選択し、第３のネットワーク層９０３からサブ構造Ｃをサブネットワーク９０４の第３のネットワーク層として選択する。

したがって、重みパラメータが共有される場合、スーパーネットワーク９００内の第１のネットワーク層９０１のサブ構造Ａの重みパラメータは、サブネットワーク９０４の第１のネットワーク層のサブ構造Ａに共有され、スーパーネットワーク９００内の第２のネットワーク層９０２のサブ構造Ａの重みパラメータは、サブネットワーク９０４の第２のネットワーク層のサブ構造Ａと共有され、スーパーネットワーク９００内の第３のネットワーク層９０１のサブ構造Ｂの重みパラメータは、サブネットワーク９０４の第３のネットワーク層のサブ構造Ｂと共有され得る。

本開示に関する技術的解決策は、イメージ分類、オブジェクト検出、セマンティックセグメンテーション等のディープラーニングタスクで使用することができるが、これらに限定されない。

例えば、一連のニューラルネットワークモデルが重み共有ＮＡＳに基づいて検索され、検索されたニューラルネットワークモデルが展開に使用される。ここで、検索された各ニューラルネットワークモデルは最初からトレーニングする必要はないが、トレーニングされたスーパーネットワークからニューラルネットワークパラメータを初期化パラメータとして継承され、トレーニングを開始して最終的にトレーニングされたニューラルネットワークモデルを取得する。

本開示の実施例において、スーパーネットワーク内の各ネットワーク層からサブ構造をサンプリングし、サブネットワーク間の接続関係を確立してサブネットワークを取得することができる。そして、サブネットワーク内の各サブ構造の構造識別子に基づいて、マッピングリストから各サブ構造に対応する重みパラメータを取得し、サブネットワークにトレーニングを実行する。こうして、検索されたサブネットワークは最初からトレーニングする必要はないが、ニューラルネットワーク計算量を削減するだけでなく、検索アルゴリズムの検索効率も改善することができる。

図１０は、一例示的な実施例によって示されるニューラルネットワークのトレーニング装置のブロック図１である。図１０に示されたように、前記ニューラルネットワークのトレーニング装置１０００は、主に、
スーパーネットワークをトレーニングして、前記スーパーネットワークのネットワークパラメータを取得するように構成される第１のトレーニングモジュール１００１であって、前記スーパーネットワークの各ネットワークは、並列した複数の代替ネットワークサブ構造を含む第１のトレーニングモジュール１００１と、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、１つの代替ネットワークサブ構造をターゲットネットワークサブ構造として選択するように構成される選択モジュール１００２と、
各層が選択した前記ターゲットネットワークサブ構造に基づいて、サブネットワークを構築するように構成されるネットワーク構築モジュール１００３と、
前記スーパーネットワークから継承されたネットワークパラメータを前記サブネットワークの初期化パラメータとし、前記サブネットワークをトレーニングして、前記ネットワークパラメータを取得するように構成される第２のトレーニングモジュール１００4と、を含む。

選択的な実施例において、スーパーネットワークは、Ｎ個のネットワーク層を含み、各前記ネットワーク層は、Ｍ個の代替ネットワークサブ構造を含み、Ｎは２より大きいか等しい正の整数であり、Ｍは２より大きいか等しい正の整数である。

選択モジュールは、具体的に、サブネットワークの第ｎ個ネットワーク層の前記ターゲットネットワークサブ構造として、スーパーネットワークの第ｎ個のネットワーク層を構成する第ｍ個の代替ネットワークサブ構造を選択するように構成され、ｎはＮより小さいか等しい正の整数であり、ｍはＭより小さいか等しい正の整数である。

図１１は、一例示的な実施例によって示されるニューラルネットワークのトレーニング装置のブロック図２である。図１１に示されたように、前記ニューラルネットワークのトレーニング装置１１００は、主に、
スーパーネットワークをトレーニングして、前記スーパーネットワークのネットワークパラメータを取得するように構成される第１のトレーニングモジュール１００１であって、前記スーパーネットワークの各ネットワークは、並列した複数の代替ネットワークサブ構造を含む第１のトレーニングモジュール１００１と、
スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、１つの代替ネットワークサブ構造をターゲットネットワークサブ構造として選択するように構成された選択モジュール１００２と、
各層によって選択された前記ターゲットネットワークサブ構造に基づいて、サブネットワークを構築するように構成されたネットワーク構築モジュール１００３と、
スーパーネットワークから継承されたネットワークパラメータを前記サブネットワークの初期化パラメータとして、前記サブネットワークをトレーニングして、前記ネットワークパラメータを取得するように構成された第２のトレーニングモジュール１００４と、
スーパーネットワークのネットワークパラメータを取得された後、各前記代替ネットワークサブ構造の構造識別子と各前記代替ネットワークサブ構造のネットワークパラメータとの間のマッピング関係が対応して記憶されるように構成される記憶モジュール１１０1と、を含む。

選択的な実施例において、第２のトレーニングモジュールは、具体的に、
サブネットワークに含まれた代替ネットワークサブ構造の構造識別子に基づいて、前記マッピング関係を照会して、対応する代替ネットワークサブ構造のネットワークパラメータを取得し、
取得された代替ネットワークサブ構造のネットワークパラメータに基づいて、サブネットワークをトレーニングして、サブネットワークのネットワークパラメータを取得するように構成される。

選択的な実施例において、選択モジュールは、具体的に、
スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、設定された検索アルゴリズムに基づいて、１つの代替ネットワークサブ構造をターゲットネットワークサブ構造として選択するように構成され、
前記設定された検索アルゴリズムは、ランダム検索アルゴリズム、ベイジアン検索アルゴリズム、進化学習アルゴリズム、強化学習アルゴリズム、進化学習と強化学習を組み合わせたアルゴリズム、勾配ベースのアルゴリズムのうちの少なくとも１つを含む。

選択的な実施例において、前記装置は、さらに、
レーニングされたサブネットワークに基づいて、入力データに対してデータ処理を行うように構成されるデータ処理モジュールを含み、
テストデータセット内のテストデータのタイプは、イメージデータタイプ、テキストデータタイプ、およびオーディオデータタイプのうちの少なくとも１つを含む。

選択的な実施例において、前記装置は、さらに
テストデータセットに基づいて、トレーニングされたサブネットワークに対して性能評価を行い、評価結果を取得するように構成される性能評価モジュールを含み、
テストデータセット内のテストデータのタイプは、イメージデータタイプ、サービスデータタイプ、およびオーディオデータタイプのうちの少なくとも１つを含む。

上述の実施例の装置に関して、各モジュールが操作を実行する具体的な方法は、関連する前記方法の実施例に既に詳細に記載され、ここでは詳細に説明しない。

対応的に、本開示は
プロセッサと、
プロセッサによって実行可能な命令を記憶するように構成されたメモリと、を含むニューラルネットワークのトレーニング装置を提供する。

ここで、前記プロセッサは、実行中に上記の実施例のニューラルネットワークのいずれか一つのニューラルネットワークのトレーニング方法のステップを実装するように構成される。

図１２は、一例示的な実施例によって示されるニューラルネットワークのためのトレーニング装置のブロック図である。例えば、装置１２００は、携帯電話、コンピュータ、デジタル放送端末、メッセージング装置、ゲームコンソール、タブレット装置、医療装置、フィットネス装置、携帯情報端末等であり得る。

図１２を参考すれば、装置１２００は、処理コンポーネント１２０２、メモリ１２０４、電力コンポーネント１２０６、マルチメディアコンポーネント１２０８、オーディオコンポーネント１２１０、入力／出力（Ｉ／Ｏ）インターフェース１２１２、センサコンポーネント１２１４、および通信コンポーネント１２１６のうちの１つ以上を含む。

処理コンポーネント１２０２は、通常は、例えばディスプレイ、電話通話、データ通信、カメラ動作、および記録動作等に関連する動作などの装置１２００の全体的の動作を制御する。処理コンポーネント１２０２は、１つまたは複数のプロセッサ１２２０を含み、命令を実行して、上記の方法のステップの全部または一部のステップを完了することができる。加えて、処理コンポーネント１２０２は、処理コンポーネント１２０２と他のコンポーネントとの間の相互作用を促進するための１つまたは複数のモジュールを含むである。例えば、処理コンポーネント１２０２は、マルチメディアコンポーネント１２０８と処理コンポーネント１２０２との間の相互作用を促進するマルチメディアモジュールを含むである。

メモリ１２０４は、装置１２００での動作をサポートするために様々なタイプのデータを記憶するように構成される。そのようなデータの例には、装置１２００上で動作する任意のアプリケーションまたは方法の指示、連絡先データ、電話帳データ、メッセージ、写真、ビデオ等が含まれる。メモリ１２０４は、任意のタイプの揮発性または不揮発性記憶装置またはそれらの組み合わせによって実装することができ、例えば、読み取り専用メモリ（ＥＰＲＯＭ）、プログラム可能な読み取り専用メモリ（ＰＲＯＭ）、読み取り専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスク、または光ディスクのプログラミングである。

電力コンポーネント１２０６は、装置１２００の各コンポーネントに電力を提供する。電力コンポーネント１２０６は、電源管理システム、１つまたは複数の電源、および他の装置１２００の電力の生成、管理、および配布に関連するその他のコンポーネントを含む。

マルチメディアコンポーネント１２０８は、装置１２００とユーザーとの間の出力インターフェースを提供するスクリーンを含む。特定の実施レにおいて、スクリーンは、液晶ディスプレイ（ＬＣＤ）およびタッチパネル（ＴＰ）を含む。スクリーンがタッチパネルを含む場合、スクリーンは、タッチスクリーンとしてユーザーからの入力信号の受信を実行する。タッチパネルは、１つまたは複数のタッチセンサーを含み、タッチ、スワイプ、およびタッチパネル上のジェスチャーを検知する。前記タッチセンサーは、タッチ操作またはスライド操作の境界を感知するだけでなく、タッチ操作またはスライド操作に関連する時間と圧力も検出する。特定の実施レにおいて、マルチメディアコンポーネント１２０８は、前面カメラおよび／または背面カメラを含む。装置１２００が、撮影モードまたはビデオモード等の動作モードにあるとき、前面カメラおよび／または背面カメラは外部マルチメディアデータを受信することができる。各前面カメラと背面カメラは１個の固定された光学レンズシステムまたは焦点距離と光学ズーム機能を持つことができる。

オーディオコンポーネント１２１０は、オーディオ信号を出力および／または入力するように構成される。例えば、オーディオコンポーネント１２１０は、１つのマイク（ＭＩＣ）を含み、装置１２００が動作モード、例えば通話モード、録音モード、音声認識モード等の動作モードにある時、マイクは外部音声信号を受信するように構成される。受信されたオーディオ信号は、メモリ１２０４または通信コンポーネント１２１６を介して送信される。特定の実施レにおいて、オーディオコンポーネント１２１０は、スピーカーをさらにスピーカーを含み、オーディオ信号を出力することに使用される。

Ｉ／Ｏインターフェース１２１２は、処理コンポーネント１２０２と周辺インターフェースモジュールとの間のインターフェースを提供し、上述の周辺インターフェースモジュールは、キーボード、クリックホイール、ボタン等であり得る。これらのボタンには、ホームボタン、ボリュームボタン、スタートボタン、ロックボタンを含むが、限定されない。

センサコンポーネント１２１４は、１つまたは複数のセンサーを含み、装置１０００にさまざまな側面を提供するために使用される。例えば、センサコンポーネント１２１４は、装置１２００のオン／オフ状態、コンポーネントの相対的な位置を検出できる。例えば、前記コンポーネントは装置１２００のディスプレイとキーパッドであり、センサコンポーネント１２１４はさらに、装置１２００または装置１２００の１つのコンポーネントの位置の変化と、ユーザーと装置１２００の接触が存在するかとしないかと、装置１２００の向きまたは加速／減速、および装置１２００の温度変化を検出できる。センサコンポーネント１２１４は、接近センサーを含み、物理的接触なしに近くの物体の存在を検出することに使用されるように構成された。センサコンポーネント１２１４は、光センサーを含み、例えＣＭＯＳまたはＣＣＤイメージセンサーを含み、撮像用途で使用される。特定の実施レにおいて、前記センサコンポーネント１２１４はさらに、加速度センサー、ジャイロスコープセンサー、磁気センサー、圧力センサー、または温度センサー等を含むことができる。

通信コンポーネント１２１６は、装置１２００と他の装置との間の有線または無線方法の通信を促進するように構成される。装置１２００は、通信規格に基づいて、無線ネットワークにアクセスすることができ、例えＷｉＦｉ、２Ｇまたは３Ｇ、または彼らの組み合わせである。実施例において、通信コンポーネント１２１６は、放送チャンネルを介して外部放送管理システムから放送信号または放送関連情報を受信する。実施例において、前記通信コンポーネント１２１６はさらに、近距離通信（ＮＦＣ）モジュールを含み、短距離通信を促進する。例えば、ＮＦＣモジュールは、無線周波数識別（ＲＦＩＤ）技術、赤外線データ関連付け（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、Ｂｌｕｅｔｏｏｔｈ（登録商標）（ＢＴ）技術、およびその他の技術に基づいて実装できる。

例示的な実施例において、装置１２００は１つまたは複数の特定用途向け集積回路（ＡＳＩＣ）、デジタルシグナルプロセッサ（ＤＳＰ）、デジタル信号処理装置（ＤＳＰＤ）、プログラマブルロジック装置（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラー、マイクロコントローラー、マイクロプロセッサー、またはその他の電子機器で実装し、上記のメソッドを実行するのである。

例示的な実施例において、命令を含む非一時的なコンピュータ読み取り可能な記憶媒体を提供する。例えば、命令を含むメモリ１２０４、上述の命令は、装置１２００のプロセッサ１２２０によって上述の方法を完了することができる。例えば、前記非一時的なコンピュータ読み取り可能な記憶媒体は、ＲＯＭ、ランダムアクセスメモリ（ＲＡＭ）、ＣＤ−ＲＯＭ、磁気テープ、フロッピー（登録商標）ディスク、光データストレージ装置等であり得る。

非一時的なコンピュータ読み取り可能な記憶媒体であって、前記記憶媒体内の命令がモバイル端末のプロセッサによって実行される場合、モバイル端末がニューラルネットワークのトレーニング方法を実行するようにし、前記方法は、
スーパーネットワークをトレーニングして、前記スーパーネットワークのネットワークパラメータを取得することであって、前記スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含むことと、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、１つの代替ネットワークサブ構造をターゲットネットワークサブ構造として選択することと、
各層が選択した前記ターゲットネットワークサブ構造に基づいて、サブネットワークを構築することと、
前記スーパーネットワークから継承されたネットワークパラメータを前記サブネットワークの初期化パラメータとして、前記サブネットワークをトレーニングして、前記サブネットワークのネットワークパラメータを取得することと、を含む。

図１３は、一例示的な実施例によって示される別のニューラルネットワークのためのトレーニング装置１０００のブロック図である。図１３を参考すれば、装置１３００は処理コンポーネント１３２２を含み、さらに１つまたは多数のプロセッサを含み、およびメモリ１３３２で表されるメモリリソースは、処理コンポーネント１３２２によって実行可能な命令を記憶することに使用され、例えばアプリケーションプログラムである。メモリ１３３２に記憶されたアプリケーションプログラムは、１つまたは１つ以上の各命令に対応するモジュールを含む。それ以外に、処理コンポーネント１３２２は命令を実行するように構成され、上述のニューラルネットワークのトレーニング方法を実行し、前記方法は、
スーパーネットワークをトレーニングして、前記スーパーネットワークのネットワークパラメータを取得することであって、前記スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含むことと、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、１つの代替ネットワークサブ構造をサブネットワークのターゲットネットワークサブ構造として選択することと、
前記スーパーネットワークから継承されたネットワークパラメータを前記サブネットワークの初期化パラメータとして、前記サブネットワークをトレーニングして、前記サブネットワークのネットワークパラメータを取得することと、を含む。

装置１３００はさらに、１つの装置１３００の電力管理を実行するように構成された電源コンポーネント１３２６、装置１３００をネットワークに接続するように構成された１つの有線または無線ネットワークインターフェース１３５０、および１つの入力／出力（Ｉ／Ｏ）インターフェース１３５８をさらに含み得る。装置１３００は、メモリ１３３２に記憶されたに基づくオペレーティングシステムであり、例えばＷｉｎｄｏｗｓ（登録商標）ＳｅｒｖｅｒＴＭ，ＭａｃＯＳＸＴＭ，Ｕｎｉｘ（登録商標）ＴＭ，Ｌｉｎｕｘ（登録商標）ＴＭ，ＦｒｅｅＢＳＤＴＭまたは類似なものである。

当業者は、明細書を考慮して、本明細書に開示された発明を実施した後、本開示の他の実施形態を容易に想到し得る。本開示は、本開示のあらゆる変形、応用または適応性変化を網羅することを意図し、これらの変形、応用または適応性変化は、本開示の普通の原理に準拠し、本開示によって開示されていない本技術分野における公知知識または従来の技術的手段を含む。明細書と実施例は、例示としてのみ考慮され、本開示の真の範囲および思想は添付の特許請求の範囲によって示される。

本開示は、上述に既に説明し、図面に示した正確な構造に限定されるものではなく、その範囲から逸脱することなく様々な修正および変更を行うことができることを理解されたい。本発明の範囲は、添付の特許請求の範囲によってのみ制限される。

Claims

ニューラルネットワークのトレーニング方法であって、
スーパーネットワークをトレーニングして、前記スーパーネットワークのネットワークパラメータを取得することであって、前記スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含むことと、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、１つの前記代替ネットワークサブ構造をターゲットネットワークサブ構造として選択することと、
各層が選択した前記ターゲットネットワークサブ構造に基づいて、サブネットワークを構築することと、
前記スーパーネットワークから継承されたネットワークパラメータを前記サブネットワークの初期化パラメータとし、前記サブネットワークをトレーニングして、前記サブネットワークのネットワークパラメータを取得することとを含む、前記方法。
前記スーパーネットワークは、Ｎ個のネットワーク層を含み、各前記ネットワーク層は、Ｍ個の代替ネットワークサブ構造を含み、Ｎは２より大きいか等しい正の整数であり、Ｍは２より大きいか等しい正の整数であり、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、１つの前記代替ネットワークサブ構造をターケットネットワークのサブ構造として選択することは、
前記サブネットワークの第ｎ個のネットワーク層の前記ターゲットネットワークサブ構造として、前記スーパーネットワークの第ｎ個のネットワーク層の第ｍ個の代替ネットワークサブ構造を選択することであって、ｎはＮより小さいか等しい正の整数であり、ｍはＭより小さいか等しい正の整数であることを含む、
請求項１に記載の方法。
前記方法は、
前記スーパーネットワークのネットワークパラメータを取得した後、各前記代替ネットワークサブ構造の構造識別子と各前記代替ネットワークサブ構造のネットワークパラメータとの間のマッピング関係が対応して記憶されることをさらに含む、
請求項１に記載の方法。
前記スーパーネットワークから継承されたネットワークパラメータを前記サブネットワークの初期化パラメータとし、前記サブネットワークをトレーニングして前記サブネットワークのネットワークパラメータを取得することは、
前記サブネットワークに含まれた代替ネットワークサブ構造の構造識別子に基づいて、前記マッピング関係を照会して、対応する代替ネットワークサブ構造のネットワークパラメータを取得することと、
取得された前記サブネットワークの代替ネットワークサブ構造のネットワークパラメータに基づいて、前記サブネットワークをトレーニングして、前記サブネットワークのネットワークパラメータを取得することを含む、
請求項３に記載の方法。
前記スーパーネットワークの各ネットワーク層の複数のネットワークサブ構造から、１つの前記代替ネットワークサブ構造をターゲットネットワークサブ構造として選択することは、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、設定された検索アルゴリズムに基づいて、１つの前記代替ネットワークサブ構造をターゲットネットワークサブ構造として選択することを含み、
前記設定された検索アルゴリズムは、ランダム検索アルゴリズム、ベイジアン検索アルゴリズム、進化学習アルゴリズム、強化学習アルゴリズム、進化学習と強化学習を組み合わせたアルゴリズム、勾配ベースのアルゴリズムのうちの少なくとも１つを含む、
請求項１に記載の方法。
前記方法は、
トレーニングされたサブネットワークに基づいて、入力データに対してデータ処理を行うことをさらに含み、
前記入力データのタイプは、イメージデータタイプ、テキストデータタイプ、およびオーディオデータタイプのうちの少なくとも１つを含む、
請求項１ないし５のいずれか一項に記載の方法。
前記方法は、
テストデータセットに基づいて、トレーニングされたサブネットワークに対して性能評価を行い、評価結果を取得することをさらに含み、
前記テストデータセット内のテストデータのタイプは、イメージデータタイプ、サービスデータタイプ、およびオーディオデータタイプのうちの少なくとも１つを含む、
請求項１ないし５のいずれか一項に記載の方法。
ニューラルネットワークのトレーニング装置であって、
スーパーネットワークをトレーニングして、前記スーパーネットワークのネットワークパラメータを取得するように構成される第１のトレーニングモジュールであって、前記スーパーネットワークの各ネットワーク層は、並列した複数の代替ネットワークサブ構造を含む第１のトレーニングモジュールと、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、１つの代替ネットワークサブ構造をターゲットネットワークサブ構造として選択するように構成される選択モジュールと、
各層が選択した前記ターゲットネットワークサブ構造に基づいて、サブネットワークを構築するように構成されるネットワーク構築モジュールと、
前記スーパーネットワークから継承されたネットワークパラメータを前記サブネットワークの初期化パラメータとし、前記サブネットワークをトレーニングして、前記サブネットワークのネットワークパラメータを取得するように構成される第２のトレーニングモジュールと、を含む、前記装置。
前記スーパーネットワークは、Ｎ個のネットワーク層を含み、各前記ネットワーク層は、Ｍ個の代替ネットワークサブ構造を含み、Ｎは２より大きいか等しい正の整数であり、Ｍは２より大きいか等しい正の整数であり、
前記選択モジュールは、具体的に、前記サブネットワークの第ｎ個ネットワーク層の前記ターゲットネットワークサブ構造として、前記スーパーネットワークの第ｎ個のネットワーク層の第ｍ個の代替ネットワークサブ構造を選択するように構成され、ｎはＮより小さいか等しい正の整数であり、ｍはＭより小さいか等しい正の整数である、
請求項８に記載の装置。
前記装置は、さらに、
前記スーパーネットワークのネットワークパラメータを取得された後、各前記代替ネットワークサブ構造の構造識別子と各前記代替ネットワークサブ構造のネットワークパラメータとの間のマッピング関係が対応して記憶されるように構成される記憶モジュールを含む、
請求項８に記載の装置。
前記第２のトレーニングモジュールは、具体的に、
前記サブネットワークに含まれる代替ネットワークサブ構造の構造識別子に基づいて、前記マッピング関係を照会して、対応する代替ネットワークサブ構造のネットワークパラメータを取得し、
前記取得された前記代替ネットワークサブ構造のネットワークパラメータに基づいて、前記サブネットワークをトレーニングして前記サブネットワークのネットワークパラメータを取得するように構成される、
請求項１０に記載の装置。
前記選択モジュールは、具体的に、
前記スーパーネットワークの各ネットワーク層の複数の代替ネットワークサブ構造から、設定された検索アルゴリズムに基づいて、１つの前記代替ネットワークサブ構造をターゲットネットワークサブ構造として選択するように構成され、
前記設定された検索アルゴリズムは、ランダム検索アルゴリズム、ベイジアン検索アルゴリズム、進化学習アルゴリズム、強化学習アルゴリズム、進化学習と強化学習を組み合わせたアルゴリズム、勾配ベースのアルゴリズムのうちの少なくとも１つを含む、
請求項８に記載の装置。
前記装置は、さらに、
トレーニングされたサブネットワークに基づいて、入力データに対してデータ処理を行うように構成されるデータ処理モジュールを含み、
前記入力データのタイプは、イメージデータタイプ、テキストデータタイプ、およびオーディオデータタイプのうちの少なくとも１つを含む、
請求項８ないし１２のいずれか一項に記載の装置。
前記装置は、さらに、
テストデータセットに基づいて、トレーニングされたサブネットワークに対して性能評価を行って、評価結果を取得するように構成される性能評価モジュールを含み、
前記テストデータセット内のテストデータのタイプは、イメージデータタイプ、サービスデータタイプ、およびオーディオデータタイプのうちの少なくとも１つを含む、
請求項８ないし１２のいずれか一項に記載の方法。
ニューラルネットワークのトレーニング装置であって、
プロセッサと、
プロセッサによって実行可能な命令を記憶するように構成されるメモリと、を含み、
前記プロセッサは、実行する時、前記請求項１ないし７のいずれか一項に記載のニューラルネットワークのトレーニング方法のステップを実装するように構成される、前記装置。
非一時的なコンピュータ可読記憶媒体であって、
前記記憶媒体の命令がニューラルネットワークのトレーニング装置のプロセッサによって実行される場合、前記装置に前記請求項１ないし７のいずれか一項に記載のニューラルネットワークのトレーニング方法を実行させるようにする、前記コンピュータ可読記憶媒体。