JP2023514173A

JP2023514173A - サブ－カーネルサーチングモジュールを利用してオン－デバイスニューラルネットワークモデルを最適化する方法及び装置

Info

Publication number: JP2023514173A
Application number: JP2022548235A
Authority: JP
Inventors: 權成顔; 金鎔重; 康鳳男; 諸泓模
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2020-05-13
Filing date: 2021-01-21
Publication date: 2023-04-05
Anticipated expiration: 2041-01-21
Also published as: US10970633B1; KR20220088497A; CN115298671A; WO2021230463A1; EP3944154A1; JP7425216B2

Abstract

オン－デバイスニューラルネットワークモデルを最適化する方法は、（ａ）ニューラルネットワーク（ＮＮ）モデルの搭載されたエッジデバイスが許容する最大のコンピューティングパワーを利用して目的とするタスクを遂行することができる最大キャパシティを持つビッグＮＮモデルを入力データに対する第１インファレンス結果を生成するように学習させた状態で、サブ－カーネルサーチングモジュールによって、学習データに対応する制約と状態ベクトルを把握し、適切な特定のサブ－カーネルのアーキテクチャー情報を生成させる段階と、（ｂ）前記アーキテクチャー情報を参照して前記ビッグＮＮモデルを最適化して前記学習データに対する第２インファレンス結果を生成する特定のスモールＮＮモデルを生成させる段階と、（ｃ）前記第１及び第２インファレンス結果を参照して前記サブ－カーネルサーチングモジュールを学習させる段階と、を含む。【選択図】図４

Description

本発明は、２０２０年５月１３日付にて出願された米国特許出願第６３／０２４，０２５号と２０２０年１２月２８日付にて出願された米国特許出願第１７／１３５，３０１号に対する優先権を主張し、これは本願に参照として組み込まれる。

本発明は、オン－デバイスニューラルネットワークモデル（ｏｎ－ｄｅｖｉｃｅｎｅｕｒａｌｎｅｔｗｏｒｋｍｏｄｅｌ）を最適化する方法及び装置に係り、より詳細には、オン－デバイスニューラルネットワークモデルを最適化するために利用されるサブ－カーネルサーチングモジュール（Ｓｕｂ－ＫｅｒｎｅｌＳｅａｒｃｈｉｎｇＭｏｄｕｌｅ、ＳＳＭ）を学習させ、サブ－カーネルサーチングモジュールを利用してオン－デバイスニューラルネットワークモデルを最適化する方法及びこれを利用した学習装置と最適化装置に関する。

イメージクラシフィケーション（Ｉｍａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎ）が使用されるデバイスは、入力されたイメージの明るさ、振動、ノイズなどの様々な要因によって入力されたイメージの中で少なくとも一部を識別するのに困難を経験することがある。

したがって、ディープラーニング（ｄｅｅｐｌｅａｒｎｉｎｇ）を適用して多様なイメージに対する持続的な学習を通じてイメージクラシフィケーションの正確度を向上させることができる。

しかし、イメージクラシフィケーションの正確度を向上させるためには、持続的なニューラルネットワークモデル（ｎｅｕｒａｌｎｅｔｗｏｒｋｍｏｄｅｌ）の最適化（ｏｐｔｉｍｉｚａｔｉｏｎ）が必要であり、これによってニューラルネットワークモデルを効率的にアップデートするための多様な技術が開発されている。

このため、従来は人が直接ディープラーニングネットワークモデルを設計したが、最近はＡＩニューラルネットワークがデバイスに適用されたニューラルネットワークモデルを直接設計するニューラルアーキテクチャサーチ（ＮｅｕｒａｌＡｒｃｈｉｔｅｃｔｕｒｅＳｅａｒｃｈ、ＮＡＳ）のような方法が開発されている。

一例として、図１を参照すれば、従来のＮＡＳはリカレントニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ、ＲＮＮ）を利用してデバイスに適用されたり適用されるニューラルネットワークモデルのアーキテクチャー情報を入れたコンフィギュレーションストリング（ｃｏｎｆｉｇｕｒａｔｉｏｎｓｔｒｉｎｇ）を生成することでチャイルドニューラルネットワークモデル（ｃｈｉｌｄｎｅｕｒａｌｎｅｔｗｏｒｋｍｏｄｅｌ）を設計する。以後、チャイルドニューラルネットワークモデルの性能について検証セット（ｖａｌｉｄａｔｉｏｎｓｅｔ）を利用して測定し、結果から得た正確度（ａｃｃｕｒａｃｙ）Ｒを強化学習（ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ）のリウォード（ｒｅｗａｒｄ）で使用し、チャイルドニューラルネットワークモデルのパラメーター（ｐａｒａｍｅｔｅｒ）をアップデートする。それ以外にも、最適のネットワーク性能を達成するために、勾配降下最適化（ｇｒａｄｉｅｎｔｄｅｓｃｅｎｔｏｐｔｉｍｉｚａｔｉｏｎ）、進化サーチ（ｅｖｏｌｕｔｉｏｎａｒｙｓｅａｒｃｈ）などの技法が適用されている。

また、図２を参照すれば、他の従来のニューラルネットワーク最適化技術としてオンライン学習（ｏｎｌｉｎｅｌｅａｒｎｉｎｇ）のような方法がある。このようなオンライン学習では、既存のニューラルネットワークモデルに対してオンラインでインファレンス（推論：ｉｎｆｅｒｅｎｃｅ）を進めた後、その結果に応じて既存のニューラルネットワークモデルをアップデートするか、再学習させる過程を利用している。

このように、ニューラルネットワークを利用したニューラルネットワークモデルアーキテクチャーの最適化は、自律走行自動車、無人飛行機、ロボットなどのディープラーニング技術が必要な走行装置に搭載されたエッジデバイス（ｅｄｇｅｄｅｖｉｃｅ）に有用であるが、エッジデバイスに特定機能を遂行するニューラルネットワークモデルを搭載して利用する従来の方法には次のような問題点が存在する。

まず、エッジデバイスに搭載されたニューラルネットワークモデルは許容された演算量とパラメーターの数が相対的に少ないため、モデルキャパシティ（ｍｏｄｅｌｃａｐａｃｉｔｙ）に制限を持つようになる。

また、イメージを検出して認識するために必要なモデルキャパシティはイメージの難易度によって異なるが、エッジデバイスに搭載される従来のニューラルネットワークモデルは全てのイメージに対して同じ演算量とパラメーターを適用するので、イメージの難易度によって検出及び認識能力の偏差が大きくなる限界がある。

これに加え、エッジデバイスに搭載されたニューラルネットワークモデルは、人が介入せずにハードサンプル（ｈａｒｄｓａｍｐｌｅ）を見つけることが難しいため、ハードサンプルに対する学習を行ってニューラルネットワークモデルの性能を改善するためには多くの人力と費用が要されるという問題点が存在する。

したがって、前記問題点を解決するための改善方案が要求されているのが実情である。

本発明は、上述した問題点を全て解決することをその目的とする。

また、本発明はエッジデバイス（ｅｄｇｅｄｅｖｉｃｅ）に搭載されたニューラルネットワークモデル（ｎｅｕｒａｌｎｅｔｗｏｒｋｍｏｄｅｌ）に対する最適化を外部サーバーの助けを得ずに遂行することをまた他の目的とする。

また、本発明はエッジデバイスの演算能力及び周辺環境によってニューラルネットワークモデルのサブ－アーキテクチャー（ｓｕｂ－ａｒｃｈｉｔｅｃｔｕｒｅ）を生成することでエッジデバイスに搭載されたニューラルネットワークモデルを最適化することをまた他の目的とする。

また、本発明は入力されたデータの難易度によって最適化された演算量（ｃｏｍｐｕｔａｔｉｏｎａｌｌｏａｄ）を適用することにより、インファレンス（ｉｎｆｅｒｅｎｃｅ）の際に読み取るウエイト（ｗｅｉｇｈｔｓ）の大きさと演算回数（ｍａｃ／ｆｌｏｐｓ）とを減少させることを目的とする。

また、本発明は各サブ－アーキテクチャーの各演算量によるハードサンプルを持続的に収集することでニューラルネットワークモデルの各サブ－アーキテクチャーの性能を向上させることをまた他の目的とする。

本発明の一実施例によると、サブ－カーネルサーチングモジュール（Ｓｕｂ－ＫｅｒｎｅｌＳｅａｒｃｈｉｎｇＭｏｄｕｌｅ、ＳＳＭ）を利用してオン－デバイスニューラルネットワークモデル（ｏｎ－ｄｅｖｉｃｅｎｅｕｒａｌｎｅｔｗｏｒｋｍｏｄｅｌ）を最適化する方法において、（ａ）ニューラルネットワークモデルが搭載されたエッジデバイスが許容する最大のコンピューティングパワーを利用して目的とするタスク（ｔａｓｋ）を遂行することができる最大キャパシティ（ｃａｐａｃｉｔｙ）を持つビッグニューラルネットワークモデル（ＢｉｇＮｅｕｒａｌＮｅｔｗｏｒｋＭｏｄｅｌ、Ｂ－ＮＮＭｏｄｅｌ）を、入力された入力データに対する第１インファレンス結果（ｆｉｒｓｔｉｎｆｅｒｅｎｃｅｒｅｓｕｌｔ）を生成するように学習させた状態で、学習データが獲得されると、学習装置が前記学習データをサブ－カーネルサーチングモジュールに入力し、前記サブ－カーネルサーチングモジュールによって、（ｉ）前記学習データに対応する演算量（ｃｏｍｐｕｔａｔｉｏｎａｌｌｏａｄ）、パラメーター（ｐａｒａｍｅｔｅｒｓ）、レイテンシ（ｌａｔｅｎｃｙ）、正確度（ａｃｃｕｒａｃｙ）、及びフロップス（ｆｌｏｐｓ）に適用された少なくとも一つの制約（ｃｏｎｓｔｒａｉｎｔ）を確認し、（ｉｉ）前記学習データに対応する複雑度、鮮明度の中の少なくとも一つに対する情報を含む状態ベクトル（ｓｔａｔｅｖｅｃｔｏｒ）を生成し、（ｉｉｉ）前記ビッグニューラルネットワークモデルの前記最大キャパシティに対応するスーパーカーネル（ｓｕｐｅｒｋｅｒｎｅｌ）のサブセット（ｓｕｂｓｅｔ）で、前記スーパーカーネルより小さいかまたは同じカーネルの大きさと、少ないかまたは同じチャンネルの数からなり、前記制約で前記状態ベクトルを持つ前記学習データに対して前記目的とするタスクを遂行することができる最小限のカーネルの大きさと最小限のチャンネルの数とからなる特定のサブ－カーネルのアーキテクチャー情報（ａｒｃｈｉｔｅｃｔｕｒｅｉｎｆｏｒｍａｔｉｏｎ）を生成させるプロセスを遂行するか、または遂行するように支援する段階と、（ｂ）前記学習装置が、（ｉ）前記特定のサブ－カーネルの前記アーキテクチャー情報を参照して前記ビッグニューラルネットワークモデルを最適化し、前記ビッグニューラルネットワークモデルから前記特定のサブ－カーネルの前記アーキテクチャー情報を持つ特定のスモールニューラルネットワークモデル（ＳｍａｌｌＮｅｕｒａｌＮｅｔｗｏｒｋＭｏｄｅｌ、Ｓ－ＮＮＭｏｄｅｌ）を生成し、（ｉｉ）前記特定のスモールニューラルネットワークモデルによって前記学習データに対する第２インファレンス結果（ｓｅｃｏｎｄｉｎｆｅｒｅｎｃｅｒｅｓｕｌｔ）を生成させるプロセスを遂行するか、または遂行するように支援する段階と、（ｃ）前記学習装置が、前記第１インファレンス結果と前記第２インファレンス結果とを参照して一つ以上の第１ロスを生成し、前記第１ロスを利用して前記サブ－カーネルサーチングモジュールを学習させるプロセスを遂行するか、または遂行するように支援する段階と、を含む方法が提供される。

前記（ａ）の段階において、前記学習装置は、前記サブ－カーネルサーチングモジュールによって、（ｉ）シーンオーバービューイングモジュール（ＳｃｅｎｅＯｖｅｒｖｉｅｗｉｎｇＭｏｄｕｌｅ、ＳＳＭ）を通じて前記学習データに対応するシーンフィーチャー（ｓｃｅｎｅｆｅａｔｕｒｅｓ）を生成させ、前記シーンフィーチャーに対応する前記状態ベクトルを生成させ、（ｉｉ）サブ－カーネルネットワーク生成器（Ｓｕｂ－ｋｅｒｎｅｌＮｅｔｗｏｒｋＧｅｎｅｒａｔｏｒ、ＳＮＧ）を通じて前記制約で前記状態ベクトルを持つ前記学習データに対して前記目的とするタスクを遂行することができる前記最小限のカーネルの大きさと前記最小限のチャンネルの数とからなる前記特定のサブ－カーネルの前記アーキテクチャー情報を生成させるプロセスを遂行するか、または遂行するように支援することを特徴とする。

前記学習装置は、（ｉ）与えられた前記制約で前記第１ロスを通じたバックプロパゲーション（ｂａｃｋ－ｐｒｏｐａｇａｔｉｏｎ）を通じて前記第１ロスを最小化するように前記シーンオーバービューイングモジュールと前記サブ－カーネルネットワーク生成器とを学習させ、（ｉｉ）前記状態ベクトルと、これに対応する原本正解（ｇｒｏｕｎｄｔｒｕｔｈ）とを参照して一つ以上の第２ロスを生成し、前記第２ロスを最小化するように前記シーンオーバービューイングモジュールをさらに学習させるプロセスを遂行するか、または遂行するように支援することを特徴とする。

前記シーンオーバービューイングモジュールは、コンボリューショナルニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、ＣＮＮ）で構成され、前記サブ－カーネルネットワーク生成器はリカレントニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ、ＲＮＮ）で構成され、前記学習装置は前記シーンオーバービューイングモジュールと前記サブ－カーネルネットワーク生成器とをそれぞれ学習させたり同時に学習させるプロセスを遂行するか、または遂行するように支援することを特徴とする。

前記学習装置は、前記シーンオーバービューイングモジュールの前記コンボリューショナルニューラルネットワークを通じて前記学習データに対して少なくとも一つのコンボリューション（ｃｏｎｖｏｌｕｔｉｏｎ）演算、少なくとも一つのプーリング（ｐｏｏｌｉｎｇ）演算、及び少なくとも一つのＦＣ（全結合：Ｆｕｌｌｙ－Ｃｏｎｎｅｃｔｅｄ）演算を適用して前記学習データに対応する前記シーンフィーチャーを生成させるプロセスを遂行するか、または遂行するように支援することを特徴とする。

前記（ｂ）の段階において、前記学習装置は、前記特定のサブ－カーネルの前記アーキテクチャー情報によって前記ビッグニューラルネットワークモデルの前記スーパーカーネルのカーネルの高さ、カーネルの幅、及びチャンネルの数の中の少なくとも一つを調整して前記ビッグニューラルネットワークモデルを最適化することにより、前記特定のサブ－カーネルの前記アーキテクチャー情報を持つ前記特定のスモールニューラルネットワークモデルを生成するプロセスを遂行するか、または遂行するように支援することを特徴とする。

前記学習装置は、前記第１インファレンス結果と前記第２インファレンス結果とを参照し、前記第１インファレンス結果と前記第２インファレンス結果との差が既設定された基準値を超える場合、前記学習データと前記特定のスモールニューラルネットワークモデルの前記アーキテクチャー情報とをサーバーに伝送し、前記サーバーによって前記学習データを前記特定のスモールニューラルネットワークモデルでのハードサンプル（ｈａｒｄｓａｍｐｌｅ）としてタグ付け（ｔａｇ）し、学習データベースに追加させるプロセスを遂行するか、または遂行するように支援する。

また、本発明の他の実施例によると、サブ－カーネルサーチングモジュール（Ｓｕｂ－ＫｅｒｎｅｌＳｅａｒｃｈｉｎｇＭｏｄｕｌｅ、ＳＳＭ）を利用してオン－デバイスニューラルネットワークモデル（ｏｎ－ｄｅｖｉｃｅｎｅｕｒａｌｎｅｔｗｏｒｋｍｏｄｅｌ）を最適化する方法において、（ａ）学習装置によって、（ｉ）ニューラルネットワークモデルが搭載されたエッジデバイスが許容する最大のコンピューティングパワーを利用して目的とするタスク（ｔａｓｋ）を遂行することができる最大キャパシティ（ｃａｐａｃｉｔｙ）を持つビッグニューラルネットワークモデル（ＢｉｇＮｅｕｒａｌＮｅｔｗｏｒｋＭｏｄｅｌ、Ｂ－ＮＮＭｏｄｅｌ）を、入力された入力データに対する第１インファレンス結果（ｆｉｒｓｔｉｎｆｅｒｅｎｃｅｒｅｓｕｌｔ）を生成するように学習させた状態で、学習データが獲得されると、前記学習データをサブ－カーネルサーチングモジュールに入力し、前記サブ－カーネルサーチングモジュールによって、（ｉ－１）前記学習データに対応する演算量（ｃｏｍｐｕｔａｔｉｏｎａｌｌｏａｄ）、パラメーター（ｐａｒａｍｅｔｅｒｓ）、レイテンシ（ｌａｔｅｎｃｙ）、正確度（ａｃｃｕｒａｃｙ）、及びフロップス（ｆｌｏｐｓ）の中の少なくとも一つに適用された学習用制約（ｃｏｎｓｔｒａｉｎｔ）を確認し、（ｉ－２）前記学習データに対応する複雑度、鮮明度の中の少なくとも一つに対する情報を含む学習用状態ベクトル（ｓｔａｔｅｖｅｃｔｏｒ）を生成し、（ｉ－３）前記ビッグニューラルネットワークモデルの前記最大キャパシティに対応するスーパーカーネル（ｓｕｐｅｒｋｅｒｎｅｌ）のサブセット（ｓｕｂｓｅｔ）で、前記スーパーカーネルより小さいか同じカーネルの大きさと、少ないか同じチャンネルの数とからなり、前記学習用制約で前記学習用状態ベクトルを持つ前記学習データに対して前記目的とするタスクを遂行することができる最小限のカーネルの大きさと最小限のチャンネルの数とからなる学習用特定のサブ－カーネルの学習用アーキテクチャー情報（ａｒｃｈｉｔｅｃｔｕｒｅｉｎｆｏｒｍａｔｉｏｎ）を生成させるプロセス、（ｉｉ）（ｉｉ－１）前記学習用特定のサブ－カーネルの前記学習用アーキテクチャー情報を参照して前記ビッグニューラルネットワークモデルを最適化し、前記ビッグニューラルネットワークモデルから前記学習用特定のサブ－カーネルの前記学習用アーキテクチャー情報を持つ学習用特定のスモールニューラルネットワークモデル（ＳｍａｌｌＮｅｕｒａｌＮｅｔｗｏｒｋＭｏｄｅｌ、Ｓ－ＮＮＭｏｄｅｌ）を生成し、（ｉｉ－２）前記学習用特定のスモールニューラルネットワークモデルによって前記学習データに対する第２インファレンス結果（ｓｅｃｏｎｄｉｎｆｅｒｅｎｃｅｒｅｓｕｌｔ）を生成させるプロセス、及び（ｉｉｉ）前記第１インファレンス結果と前記第２インファレンス結果とを参照して一つ以上の第１ロスを生成し、前記第１ロスを利用して前記サブ－カーネルサーチングモジュールを学習させるプロセスが遂行された状態で、最適化装置がテストデータを獲得すれば前記テストデータを前記サブ－カーネルサーチングモジュールに入力し、前記サブ－カーネルサーチングモジュールによって、（ｉ）前記テストデータに対応する演算量、パラメーター、レイテンシ、正確度、及びフロップスの中の少なくとも一つに適用されたテスト用の制約（ｃｏｎｓｔｒａｉｎｔ）を確認し、（ｉｉ）前記テストデータに対応する複雑度、鮮明度の中の少なくとも一つに対する情報を含むテスト用の状態ベクトルを生成し、（ｉｉｉ）前記ビッグニューラルネットワークモデルの前記最大キャパシティに対応する前記スーパーカーネルのサブセットで、前記スーパーカーネルより小さいか同じカーネルの大きさと少ないか同じチャンネルの数とからなり、前記テスト用の制約で前記テスト用の状態ベクトルを持つ前記テストデータに対して前記目的とするタスクを遂行することができる最小限のカーネルの大きさと最小限のチャンネルの数とからなるテスト用の特定のサブ－カーネルのテスト用のアーキテクチャー情報を生成させるプロセスを遂行するか、または遂行するように支援する段階と、（ｂ）前記最適化装置が、（ｉ）前記テスト用の特定のサブ－カーネルの前記テスト用のアーキテクチャー情報を参照して前記ビッグニューラルネットワークモデルを最適化し、前記ビッグニューラルネットワークモデルから前記テスト用の特定のサブ－カーネルの前記テスト用のアーキテクチャー情報を持つテスト用の特定のスモールニューラルネットワークモデルを生成し、（ｉｉ）前記テスト用の特定のスモールニューラルネットワークモデルによって前記テストデータに対する第３インファレンス結果（ｔｈｉｒｄｉｎｆｅｒｅｎｃｅｒｅｓｕｌｔ）を生成させるプロセスを遂行するか、または遂行するように支援する段階と、を含む方法が提供される。

前記（ａ）の段階において、前記最適化装置は、前記サブ－カーネルサーチングモジュールによって、（ｉ）シーンオーバービューイングモジュール（ＳｃｅｎｅＯｖｅｒｖｉｅｗｉｎｇＭｏｄｕｌｅ、ＳＳＭ）を通じて前記テストデータに対応するテスト用のシーンフィーチャー（ｓｃｅｎｅｆｅａｔｕｒｅｓ）を生成させ、前記テスト用のシーンフィーチャーに対応する前記テスト用の状態ベクトルを生成させ、（ｉｉ）サブ－カーネルネットワーク生成器（Ｓｕｂ－ｋｅｒｎｅｌＮｅｔｗｏｒｋＧｅｎｅｒａｔｏｒ、ＳＮＧ）を通じて前記テスト用の制約で前記テスト用の状態ベクトルを持つ前記学習データに対して前記目的とするタスクを遂行することができる最小限のカーネルの大きさと最小限のチャンネルの数とからなる前記テスト用の特定のサブ－カーネルの前記テスト用のアーキテクチャー情報を生成させるプロセスを遂行するか、または遂行するように支援することを特徴とする。

前記シーンオーバービューイングモジュールはコンボリューショナルニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、ＣＮＮ）で構成され、前記サブ－カーネルネットワーク生成器はリカレントニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ、ＲＮＮ）で構成されていることを特徴とする。

前記最適化装置は、前記シーンオーバービューイングモジュールの前記コンボリューションニューラルネットワークを通じて前記テストデータに対して少なくとも一つのコンボリューション（ｃｏｎｖｏｌｕｔｉｏｎ）演算、少なくとも一つのプーリング（ｐｏｏｌｉｎｇ）演算、及び少なくとも一つのＦＣ（Ｆｕｌｌｙ－Ｃｏｎｎｅｃｔｅｄ）演算を適用して前記テストデータに対応する前記テスト用のシーンフィーチャーを生成させるプロセスを遂行するか、または遂行するように支援することを特徴とする。

前記（ｂ）の段階において、前記最適化装置は、前記テスト用の特定のサブ－カーネルの前記テスト用のアーキテクチャー情報によって前記ビッグニューラルネットワークモデルの前記スーパーカーネルのカーネルの高さ、カーネルの幅、及びチャンネルの数の中の少なくとも一つを調整して前記ビッグニューラルネットワークモデルを最適化することにより、前記テスト用の特定のサブ－カーネルの前記テスト用のアーキテクチャー情報を持つ前記テスト用の特定のスモールニューラルネットワークモデルを生成するプロセスを遂行するか、または遂行するように支援することを特徴とする。

また、本発明の他の実施例によると、サブ－カーネルサーチングモジュール（Ｓｕｂ－ＫｅｒｎｅｌＳｅａｒｃｈｉｎｇＭｏｄｕｌｅ、ＳＳＭ）を利用してオン－デバイスニューラルネットワークモデル（ｏｎ－ｄｅｖｉｃｅｎｅｕｒａｌｎｅｔｗｏｒｋｍｏｄｅｌ）を最適化する学習装置であって、インストラクションを格納する少なくとも一つのメモリと、前記インストラクションを実行するために構成された少なくとも一つのプロセッサと、を含み、前記プロセッサが、（Ｉ）ニューラルネットワークモデルが搭載されたエッジデバイスが許容する最大のコンピューティングパワーを利用して目的とするタスク（ｔａｓｋ）を遂行することができる最大キャパシティ（ｃａｐａｃｉｔｙ）を持つビッグニューラルネットワークモデル（ＢｉｇＮｅｕｒａｌＮｅｔｗｏｒｋＭｏｄｅｌ、Ｂ－ＮＮＭｏｄｅｌ）を、入力された入力データに対する第１インファレンス結果（ｆｉｒｓｔｉｎｆｅｒｅｎｃｅｒｅｓｕｌｔ）を生成するように学習させた状態で、学習データが獲得されると、前記学習データをサブ－カーネルサーチングモジュールに入力し、前記サブ－カーネルサーチングモジュールによって、（ｉ）前記学習データに対応する演算量（ｃｏｍｐｕｔａｔｉｏｎａｌｌｏａｄ）、パラメーター（ｐａｒａｍｅｔｅｒｓ）、レイテンシ（ｌａｔｅｎｃｙ）、正確度（ａｃｃｕｒａｃｙ）、及びフロップス（ｆｌｏｐｓ）に適用された少なくとも一つの制約（ｃｏｎｓｔｒａｉｎｔ）を確認し、（ｉｉ）前記学習データに対応する複雑度、鮮明度の中の少なくとも一つに対する情報を含む状態ベクトル（ｓｔａｔｅｖｅｃｔｏｒ）を生成し、（ｉｉｉ）前記ビッグニューラルネットワークモデルの前記最大キャパシティに対応するスーパーカーネル（ｓｕｐｅｒｋｅｒｎｅｌ）のサブセット（ｓｕｂｓｅｔ）で、前記スーパーカーネルより小さいか同じカーネルの大きさと、少ないか同じチャンネルの数とからなり、前記制約で前記状態ベクトルを持つ前記学習データに対して前記目的とするタスクを遂行することができる最小限のカーネルの大きさと最小限のチャンネルの数とからなる特定のサブ－カーネルのアーキテクチャー情報（ａｒｃｈｉｔｅｃｔｕｒｅｉｎｆｏｒｍａｔｉｏｎ）を生成させるプロセスを遂行するか、または遂行するように支援するステップと、（ＩＩ）（ｉ）前記特定のサブ－カーネルの前記アーキテクチャー情報を参照して前記ビッグニューラルネットワークモデルを最適化し、前記ビッグニューラルネットワークモデルから前記特定のサブ－カーネルの前記アーキテクチャー情報を持つ特定のスモールニューラルネットワークモデル（ＳｍａｌｌＮｅｕｒａｌＮｅｔｗｏｒｋＭｏｄｅｌ、Ｓ－ＮＮＭｏｄｅｌ）を生成し、（ｉｉ）前記特定のスモールニューラルネットワークモデルによって前記学習データに対する第２インファレンス結果（ｓｅｃｏｎｄｉｎｆｅｒｅｎｃｅｒｅｓｕｌｔ）を生成させるプロセスを遂行するか、または遂行するように支援するステップと、（ＩＩＩ）前記第１インファレンス結果と前記第２インファレンス結果とを参照して一つ以上の第１ロスを生成し、前記第１ロスを利用して前記サブ－カーネルサーチングモジュールを学習させるプロセスを遂行するか、または遂行するように支援するステップと、を含む学習装置が提供される。

前記（Ｉ）のステップにおいて、前記プロセッサは、前記サブ－カーネルサーチングモジュールによって、（ｉ）シーンオーバービューイングモジュール（ＳｃｅｎｅＯｖｅｒｖｉｅｗｉｎｇＭｏｄｕｌｅ、ＳＳＭ）を通じて前記学習データに対応するシーンフィーチャー（ｓｃｅｎｅｆｅａｔｕｒｅｓ）を生成させ、前記シーンフィーチャーに対応する前記状態ベクトルを生成させ、（ｉｉ）サブ－カーネルネットワーク生成器（Ｓｕｂ－ｋｅｒｎｅｌＮｅｔｗｏｒｋＧｅｎｅｒａｔｏｒ、ＳＮＧ）を通じて前記制約で前記状態ベクトルを持つ前記学習データに対して前記目的とするタスクを遂行することができる前記最小限のカーネルの大きさと前記最小限のチャンネルの数とからなる前記特定のサブ－カーネルの前記アーキテクチャー情報を生成させるプロセスを遂行するか、または遂行するように支援することを特徴とする。

前記プロセッサは、（ｉ）与えられた前記制約で前記第１ロスを通じたバックプロパゲーション（ｂａｃｋ－ｐｒｏｐａｇａｔｉｏｎ）を通じて前記第１ロスを最小化するように前記シーンオーバービューイングモジュールと前記サブ－カーネルネットワーク生成器とを学習させ、（ｉｉ）前記状態ベクトルと、これに対応する原本正解（ｇｒｏｕｎｄｔｒｕｔｈ）を参照して一つ以上の第２ロスを生成し、前記第２ロスを最小化するように前記シーンオーバービューイングモジュールをさらに学習させるプロセスを遂行するか、または遂行するように支援することを特徴とする。

前記シーンオーバービューイングモジュールはコンボリューショナルニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、ＣＮＮ）で構成され、前記サブ－カーネルネットワーク生成器はリカレントニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ、ＲＮＮ）で構成され、前記プロセッサは前記シーンオーバービューイングモジュールと前記サブ－カーネルネットワーク生成器とをそれぞれ学習させたり同時に学習させるプロセスを遂行するか、または遂行するように支援することを特徴とする。

前記プロセッサは前記シーンオーバービューイングモジュールの前記コンボリューショナルニューラルネットワークを通じて前記学習データに対して少なくとも一つのコンボリューション（ｃｏｎｖｏｌｕｔｉｏｎ）演算、少なくとも一つのプーリング（ｐｏｏｌｉｎｇ）演算、及び少なくとも一つのＦＣ（全結合：Ｆｕｌｌｙ－Ｃｏｎｎｅｃｔｅｄ）演算を適用して前記学習データに対応する前記シーンフィーチャーを生成させるプロセスを遂行するか、または遂行するように支援することを特徴とする。

前記（ＩＩ）のステップにおいて、前記プロセッサは、前記特定のサブ－カーネルの前記アーキテクチャー情報によって前記ビッグニューラルネットワークモデルの前記スーパーカーネルのカーネルの高さ、カーネルの幅、及びチャンネルの数の中の少なくとも一つを調整して前記ビッグニューラルネットワークモデルを最適化することにより、前記特定のサブ－カーネルの前記アーキテクチャー情報を持つ前記特定のスモールニューラルネットワークモデルを生成するプロセスを遂行するか、または遂行するように支援することを特徴とする。

前記プロセッサは、前記第１インファレンス結果と前記第２インファレンス結果とを参照し、前記第１インファレンス結果と前記第２インファレンス結果との差が既設定された基準値を超える場合、前記学習データと前記特定のスモールニューラルネットワークモデルの前記アーキテクチャー情報とをサーバーに伝送し、前記サーバーによって前記学習データを前記特定のスモールニューラルネットワークモデルでのハードサンプル（ｈａｒｄｓａｍｐｌｅ）としてタグ付け（ｔａｇ）し、学習データベースに追加させるプロセスを遂行するか、または遂行するように支援する。

また、本発明の他の実施例によると、サブ－カーネルサーチングモジュール（Ｓｕｂ－ＫｅｒｎｅｌＳｅａｒｃｈｉｎｇＭｏｄｕｌｅ、ＳＳＭ）を利用してオン－デバイスニューラルネットワークモデル（ｏｎ－ｄｅｖｉｃｅｎｅｕｒａｌｎｅｔｗｏｒｋｍｏｄｅｌ）を最適化する最適化装置であって、インストラクションを格納する少なくとも一つのメモリと、前記インストラクションを実行するために構成された少なくとも一つのプロセッサと、を含み、（Ｉ）学習装置によって、（ｉ）ニューラルネットワークモデルが搭載されたエッジデバイスが許容する最大のコンピューティングパワーを利用して目的とするタスク（ｔａｓｋ）を遂行することができる最大キャパシティ（ｃａｐａｃｉｔｙ）を持つビッグニューラルネットワークモデル（ＢｉｇＮｅｕｒａｌＮｅｔｗｏｒｋＭｏｄｅｌ、Ｂ－ＮＮＭｏｄｅｌ）を、入力された入力データに対する第１インファレンス結果（ｆｉｒｓｔｉｎｆｅｒｅｎｃｅｒｅｓｕｌｔ）を生成するように学習させた状態で、学習データが獲得されると、前記学習データをサブ－カーネルサーチングモジュールに入力し、前記サブ－カーネルサーチングモジュールによって、（ｉ－１）前記学習データに対応する演算量（ｃｏｍｐｕｔａｔｉｏｎａｌｌｏａｄ）、パラメーター（ｐａｒａｍｅｔｅｒｓ）、レイテンシ（ｌａｔｅｎｃｙ）、正確度（ａｃｃｕｒａｃｙ）、及びフロップス（ｆｌｏｐｓ）の中の少なくとも一つに適用された学習用制約（ｃｏｎｓｔｒａｉｎｔ）を確認し、（ｉ－２）前記学習データに対応する複雑度、鮮明度の中の少なくとも一つに対する情報を含む学習用状態ベクトル（ｓｔａｔｅｖｅｃｔｏｒ）を生成し、（ｉ－３）前記ビッグニューラルネットワークモデルの前記最大キャパシティに対応するスーパーカーネル（ｓｕｐｅｒｋｅｒｎｅｌ）のサブセット（ｓｕｂｓｅｔ）で、前記スーパーカーネルより小さいか同じカーネルの大きさと、少ないか同じチャンネルの数とからなり、前記学習用制約で前記学習用状態ベクトルを持つ前記学習データに対して前記目的とするタスクを遂行することができる最小限のカーネルの大きさと最小限のチャンネルの数とからなる学習用特定のサブ－カーネルの学習用アーキテクチャー情報（ａｒｃｈｉｔｅｃｔｕｒｅｉｎｆｏｒｍａｔｉｏｎ）を生成させるプロセス、（ｉｉ）（ｉｉ－１）前記学習用特定のサブ－カーネルの前記学習用アーキテクチャー情報を参照して前記ビッグニューラルネットワークモデルを最適化し、前記ビッグニューラルネットワークモデルから前記学習用特定のサブ－カーネルの前記学習用アーキテクチャー情報を持つ学習用特定のスモールニューラルネットワークモデル（ＳｍａｌｌＮｅｕｒａｌＮｅｔｗｏｒｋＭｏｄｅｌ、Ｓ－ＮＮＭｏｄｅｌ）を生成し、（ｉｉ－２）前記学習用特定のスモールニューラルネットワークモデルによって前記学習データに対する第２インファレンス結果（ｓｅｃｏｎｄｉｎｆｅｒｅｎｃｅｒｅｓｕｌｔ）を生成させるプロセス、及び（ｉｉｉ）前記第１インファレンス結果と前記第２インファレンス結果とを参照して一つ以上の第１ロスを生成し、前記第１ロスを利用して前記サブ－カーネルサーチングモジュールを学習させるプロセスが遂行された状態で、前記プロセッサがテストデータを獲得すれば前記テストデータを前記サブ－カーネルサーチングモジュールに入力し、前記サブ－カーネルサーチングモジュールによって、（ｉ）前記テストデータに対応する演算量、パラメーター、レイテンシ、正確度、及びフロップスの中の少なくとも一つに適用されたテスト用の制約（ｃｏｎｓｔｒａｉｎｔ）を確認し、（ｉｉ）前記テストデータに対応する複雑度、鮮明度の中の少なくとも一つに対する情報を含むテスト用の状態ベクトルを生成し、（ｉｉｉ）前記ビッグニューラルネットワークモデルの前記最大キャパシティに対応する前記スーパーカーネルのサブセットで、前記スーパーカーネルより小さいか同じカーネルの大きさと、少ないか同じチャンネルの数とからなり、前記テスト用の制約で前記テスト用の状態ベクトルを持つ前記テストデータに対して前記目的とするタスクを遂行することができる最小限のカーネルの大きさと最小限のチャンネルの数とからなるテスト用の特定のサブ－カーネルのテスト用のアーキテクチャー情報を生成させるプロセスを遂行するか、または遂行するように支援するステップと、（ＩＩ）前記プロセッサが（ｉ）前記テスト用の特定のサブ－カーネルの前記テスト用のアーキテクチャー情報を参照して前記ビッグニューラルネットワークモデルを最適化し、前記ビッグニューラルネットワークモデルから前記テスト用の特定のサブ－カーネルの前記テスト用のアーキテクチャー情報を持つテスト用の特定のスモールニューラルネットワークモデルを生成し、（ｉｉ）前記テスト用の特定のスモールニューラルネットワークモデルによって前記テストデータに対する第３インファレンス結果（ｔｈｉｒｄｉｎｆｅｒｅｎｃｅｒｅｓｕｌｔ）を生成させるプロセスを遂行するか、または遂行するように支援するステップと、を遂行する最適化装置が提供される。

前記（Ｉ）のステップにおいて、前記プロセッサは、前記サブ－カーネルサーチングモジュールによって、（ｉ）シーンオーバービューイングモジュール（ＳｃｅｎｅＯｖｅｒｖｉｅｗｉｎｇＭｏｄｕｌｅ、ＳＳＭ）を通じて前記テストデータに対応するテスト用のシーンフィーチャー（ｓｃｅｎｅｆｅａｔｕｒｅｓ）を生成させ、前記テスト用のシーンフィーチャーに対応する前記テスト用の状態ベクトルを生成させ、（ｉｉ）サブ－カーネルネットワーク生成器（Ｓｕｂ－ｋｅｒｎｅｌＮｅｔｗｏｒｋＧｅｎｅｒａｔｏｒ、ＳＮＧ）を通じて前記テスト用の制約で前記テスト用の状態ベクトルを持つ前記学習データに対して前記目的とするタスクを遂行することができる最小限のカーネルの大きさと、最小限のチャンネルの数とからなる前記テスト用の特定のサブ－カーネルの前記テスト用のアーキテクチャー情報を生成させるプロセスを遂行するか、または遂行するように支援することを特徴とする。

前記プロセッサは、前記シーンオーバービューイングモジュールの前記コンボリューションニューラルネットワークを通じて前記テストデータに対して少なくとも一つのコンボリューション（ｃｏｎｖｏｌｕｔｉｏｎ）演算、少なくとも一つのプーリング（ｐｏｏｌｉｎｇ）演算、及び少なくとも一つのＦＣ（全結合：Ｆｕｌｌｙ－Ｃｏｎｎｅｃｔｅｄ）演算を適用して前記テストデータに対応する前記テスト用のシーンフィーチャーを生成させるプロセスを遂行するか、または遂行するように支援することを特徴とする。

前記（ＩＩ）のステップにおいて、前記プロセッサは、前記テスト用の特定のサブ－カーネルの前記テスト用のアーキテクチャー情報によって前記ビッグニューラルネットワークモデルの前記スーパーカーネルのカーネルの高さ、カーネルの幅、及びチャンネルの数の中の少なくとも一つを調整して前記ビッグニューラルネットワークモデルを最適化することにより、前記テスト用の特定のサブ－カーネルの前記テスト用のアーキテクチャー情報を持つ前記テスト用の特定のスモールニューラルネットワークモデルを生成するプロセスを遂行するか、または遂行するように支援することを特徴とする。

この他にも、本発明の方法を行うためのコンピュータプログラムを記録するためのコンピュータ読み取り可能な記録媒体がさらに提供される。

本発明は、エッジデバイス（ｅｄｇｅｄｅｖｉｃｅ）に搭載されたニューラルネットワークモデル（ｎｅｕｒａｌｎｅｔｗｏｒｋｍｏｄｅｌ）に対する最適化を外部サーバーの助けを得ずに遂行する効果がある。

また、本発明はエッジデバイスの演算能力及び周辺環境によってニューラルネットワークモデルのサブ－アーキテクチャー（ｓｕｂ－ａｒｃｈｉｔｅｃｔｕｒｅ）を生成することでエッジデバイスに搭載されたニューラルネットワークモデルを最適化する効果がある。

また、本発明は入力されたデータの難易度によって最適化された演算量（ｃｏｍｐｕｔａｔｉｏｎａｌｌｏａｄ）を適用することでインファレンス（ｉｎｆｅｒｅｎｃｅ）の際に読み取るウエイト（ｗｅｉｇｈｔｓ）の大きさと演算回数（ｍａｃ／ｆｌｏｐｓ）を減少させる効果がある。

また、本発明は各サブ－アーキテクチャーの各演算量によるハードサンプルを持続的に収集することでニューラルネットワークモデルの各サブ－アーキテクチャーの性能を向上させる効果がある。

本発明の実施例の説明に利用されるために添付された以下の図面は、本発明の実施例のうち単に一部であるに過ぎず、本発明の属する技術分野において通常の知識を有する者（以下「通常の技術者」）にとっては、発明的作業が行われずにこれらの図面に基づいて他の各図面が得られる。
図１は、従来のニューラルネットワーク（ｎｅｕｒａｌｎｅｔｗｏｒｋ）を最適化（ｏｐｔｉｍｉｚａｔｉｏｎ）するためのシステムを簡略に示したものである。図２は、従来のニューラルネットワーク（ｎｅｕｒａｌｎｅｔｗｏｒｋ）を最適化（ｏｐｔｉｍｉｚａｔｉｏｎ）するためのシステムを簡略に示したものである。図３は、本発明の一実施例によってサブ－カーネルサーチングモジュール（Ｓｕｂ－ＫｅｒｎｅｌＳｅａｒｃｈｉｎｇＭｏｄｕｌｅ、ＳＳＭ）を利用してオン－デバイスニューラルネットワークモデル（ｏｎ－ｄｅｖｉｃｅｎｅｕｒａｌｎｅｔｗｏｒｋｍｏｄｅｌ）を最適化する方法において、サブ－カーネルサーチングモジュールを学習させる学習装置を簡略に示したものである。図４は、本発明の一実施例によってサブ－カーネルサーチングモジュールを利用してオン－デバイスニューラルネットワークモデルを最適化する方法において、サブ－カーネルサーチングモジュールを学習させる過程を簡略に示したものである。図５は、本発明の一実施例によってサブ－カーネルサーチングモジュールに含まれたシーンオーバービューイングモジュール（ＳｃｅｎｃｅＯｖｅｒｖｉｅｗｉｎｇＭｏｄｕｌｅ、ＳＯＭ）の構造を簡略に示したものである。図６は、本発明の一実施例によってスーパーカーネル（ｓｕｐｅｒｋｅｒｎｅｌ）とサブ－カーネル（ｓｕｂ－ｋｅｒｎｅｌ）の概念を利用してビッグニューラルネットワークモデル（ＢｉｇＮｅｕｒａｌＮｅｔｗｏｒｋＭｏｄｅｌ、Ｂ－ＮＮＭｏｄｅｌ）とスモールニューラルネットワークモデル（ＳｍａｌｌＮｅｕｒａｌＮｅｔｗｏｒｋＭｏｄｅｌ、Ｓ－ＮＮＭｏｄｅｌ）とを生成して学習させる方法を簡略に示したものである。図７は、本発明の一実施例によってサブ－カーネルサーチングモジュールを利用してオン－デバイスニューラルネットワークモデルを最適化する最適化装置を簡略に示したものである。図８は、本発明の一実施例によって入力と出力の例示を通じてサブ－カーネルサーチングモジュールを利用してオン－デバイスニューラルネットワークモデルを最適化する方法を簡略に示したものである。

後述する本発明に関する詳細な説明は、本発明の各目的、各技術的解法、及び各長所を明らかにするために本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、当業者が本発明を実施することができるように十分詳細に説明される。さらに、本発明は、本明細書に示された実施例のすべての可能な組み合わせを網羅する。本発明の多様な実施例は互いに異なるが、相互に排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造及び特性は、一実施例に関連して本発明の精神及び範囲を逸脱せず、かつ他の実施例で具現され得る。また、それぞれの開示された実施例内の個別の構成要素の位置又は配置は、本発明の精神及び範囲を逸脱せず、かつ変更され得ることが理解されるべきである。したがって、後述の詳細な説明は、限定的な意味として受け取られるべきものではなく、本発明の範囲は適切に説明されるのであれば、その請求項が主張することと均等な全ての範囲とともに添付された請求項によってのみ限定される。図面において類似の参照符号は、様々な態様にわたって同一であるか、又は類似の機能を指す。

本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含むことができ、この場合、道路環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ（例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ）でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではない。ここに提供された本開示の題目及び発明の概要は単に便宜のためのものであり、実施例の範囲または意味を制限しない。

参照として、本明細書は全般にわたって学習過程と係わる用語には「学習用」または「学習」を追加し、テスト過程と係わる用語には「テスト用の」または「テスト」を追加して可能な混沌を避けようとした。

また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴若しくは各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本明細書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。

ここに提供された本開示の題目及び発明の概要は単に便宜のためのものであり、実施例の範囲または意味を制限しない。

以下、本発明の属する技術分野において通常の知識を有する者が本発明を容易に実施し得るようにするために、本発明の好ましい実施例について、添付された図面を参照して詳細に説明することにする。

まず、図３は、本発明の一実施例によってサブ－カーネルサーチングモジュール（Ｓｕｂ－ＫｅｒｎｅｌＳｅａｒｃｈｉｎｇＭｏｄｕｌｅ、ＳＳＭ）を利用してオン－デバイスニューラルネットワークモデル（Ｏｎ－Ｄｅｖｉｃｅｎｅｕｒａｌｎｅｔｗｏｒｋｍｏｄｅｌ）を最適化する方法において、サブ－カーネルサーチングモジュールを学習させる学習装置を簡略に示したものである。

図３を参照すれば、学習装置１０００はオン－デバイスニューラルネットワークモデルを最適化するために利用されるサブ－カーネルサーチングモジュールを学習させるインストラクションを格納するメモリ１００１とメモリ１００１に格納されたインストラクションに対応してサブ－カーネルサーチングモジュールを学習させるための動作を遂行するプロセッサ１００２を含むことができる。

具体的に、学習装置１０００は、コンピューティング装置（例えば、コンピュータプロセッサ、メモリ、ストレージ、入力装置及び出力装置、その他既存コンピューティング装置の構成要素を含むことができる装置；ルーター、スイッチなどのような電子通信装置；ネットワーク付きストレージ（ＮＡＳ）及びストレージ領域ネットワーク（ＳＡＮ）のような電子情報ストレージシステム）とコンピュータソフトウェア（すなわち、コンピューティング装置によって特定方式で機能させるインストラクション）との組み合わせを利用して所望のシステム性能を達成するものであってもよい。

また、コンピューティング装置のプロセッサは、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）またはＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、キャッシュメモリ（ＣａｃｈｅＭｅｍｏｒｙ）、データバス（ＤａｔａＢｕｓ）などのハードウェア構成を含むことができる。また、コンピューティング装置は、オペレーティングシステム、特定目的を遂行するアプリケーションのソフトウェア構成をさらに含むこともできる。

しかし、コンピューティング装置が本発明を実施するためのミディアム、プロセッサ及びメモリが統合された形態の統合プロセッサを含む場合を排除するものではない。

このように構成された学習装置１０００を利用して、サブ－カーネルサーチングモジュール１００を学習させる過程を図４ないし図６を参照して説明すれば次のとおりである。

先ず、図４を参照すれば、学習装置１０００は、ニューラルネットワークモデルが搭載されたエッジデバイス（ｅｄｇｅｄｅｖｉｃｅ）が許容する最大のコンピューティングパワーを利用して目的とするタスク（ｔａｓｋ）を遂行することができる最大キャパシティ（ｃａｐａｃｉｔｙ）を持つビッグニューラルネットワークモデル（ＢｉｇＮｅｕｒａｌＮｅｔｗｏｒｋＭｏｄｅｌ、Ｂ－ＮＮＭｏｄｅｌ、２００）を入力データに対する第１インファレンス結果（ｆｉｒｓｔｉｎｆｅｒｅｎｃｅｒｅｓｕｌｔ）を生成するように学習させた状態で、学習データが獲得されると、学習データをサブ－カーネルサーチングモジュール１００に入力し、サブ－カーネルサーチングモジュールによって、（ｉ）学習データに対応する制約（ｃｏｎｓｔｒａｉｎｔ）を確認し、（ｉｉ）学習データに対応する状態ベクトル（ｓｔａｔｅｖｅｃｔｏｒ）を生成し、（ｉｉｉ）与えられた制約で状態ベクトルを持つ学習データに対して前記目的とするタスクを遂行することができる最小限のカーネルの大きさと最小限のチャンネル数とからなる特定のサブ－カーネルのアーキテクチャー情報（ａｒｃｈｉｔｅｃｔｕｒｅｉｎｆｏｒｍａｔｉｏｎ）を生成させるプロセスを遂行するか、または遂行するように支援することができる。

ここで、制約は少なくとも演算量（ｃｏｍｐｕｔａｔｉｏｎａｌｌｏａｄ）、パラメーター（ｐａｒａｍｅｔｅｒｓ）、レイテンシ（ｌａｔｅｎｃｙ）、正確度（ａｃｃｕｒａｃｙ）、及びフロップス（ｆｌｏｐｓ）の中の一つに適用された制約を含み、学習データが入力される時のエッジデバイスのデバイス状態及び周辺環境によって制約は変更されることがある。また、制約は各エッジデバイスによって既設定されたり追加に入力されて変更されることがある。また、ここで目的とするタスクとは、データ分析、分類、データに含まれた情報検出などの目的を遂行することができ、目的によって利用されるデータの種類もテキスト、イメージ、テキストが含まれたイメージなどに変わることがあるが、本発明がこれに限定されるものではない。

なお、状態ベクトルは少なくとも学習データの複雑度、鮮明度の中の一つに対する情報を含む１次元ベクトル（１－ｄｉｍｅｎｓｉｏｎａｌｖｅｃｔｏｒ）であり、これによって、状態ベクトルは学習データの難易度（ｄｉｆｆｉｃｕｌｔｙｌｅｖｅｌ）を判断する基準になることができる。次いで、特定のサブ－カーネルはビッグニューラルネットワークモデルの最大キャパシティに対応するスーパーカーネル（ｓｕｐｅｒｋｅｒｎｅｌ）のサブセット（ｓｕｂｓｅｔ）であって、スーパーカーネルより小さいか同じカーネルの大きさと、少ないか同じチャンネルの数とからなっている。

一方、サブ－カーネルサーチングモジュール１００はシーンオーバービューイングモジュール（ＳｃｅｎｅＯｖｅｒｖｉｅｗｉｎｇＭｏｄｕｌｅ、ＳＳＭ、１１０）とサブ－カーネルネットワーク生成器（Ｓｕｂ－ｋｅｒｎｅｌＮｅｔｗｏｒｋＧｅｎｅｒａｔｏｒ、ＳＮＧ、１２０）とで構成することができる。

具体的に、学習装置１０００は、サブ－カーネルサーチングモジュール１００によって、（ｉ）シーンオーバービューイングモジュール１１０を通じて学習データに対応するシーンフィーチャー（ｓｃｅｎｅｆｅａｔｕｒｅｓ）を生成させ、シーンフィーチャーに対応する状態ベクトルを生成させ、（ｉｉ）サブ－カーネルネットワーク生成器１２０を通じて前記制約で前記状態ベクトルを持つ学習データに対して目的とするタスクを遂行することができる最小限のカーネルの大きさと最小限のチャンネル数とからなる特定のサブ－カーネルのアーキテクチャー情報を生成させるプロセスを遂行するか、または遂行するように支援することができる。

ここで、与えられた制約によって演算量、パラメーター、レイテンシ、正確度、及びフロップスなどは互いに相互関連して影響を与えることができる。その例として、要求される正確度が高くなれば、それによって要求される最小パラメーターの数が増加することがある一方、フロップスが減少するか、レイテンシが増加するなどの演算量減少が発生すると、許容されるパラメーターの数が減少することがある。したがって、特定のサブ－カーネルのアーキテクチャー情報は与えられた制約で与えられた状態ベクトルを持つ学習データに対して目的とするタスクを遂行することができる最小限のキャパシティに対応する最小限のカーネルの大きさと最小限のチャンネル数に対する情報とを含むことができる。

この時、シーンオーバービューイングモジュール１１０はデバイスの全体性能に大きい影響を及ぼさない小さいコンボリューショナルニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、ＣＮＮ）で構成することができ、サブ－カーネルネットワーク生成器１２０は全体性能に大きい影響を及ぼさない小さいリカレントニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ、ＲＮＮ）で構成することができる。

図５を参照すれば、シーンオーバービューイングモジュール１１０は、一例として、コンボリューショナルレイヤー（ｃｏｎｖｏｌｕｔｉｏｎａｌｌａｙｅｒ）、プーリングレイヤー（ｐｏｏｌｉｎｇｌａｙｅｒ）及びＦＣレイヤー（全結合層：Ｆｕｌｌｙ－Ｃｏｎｎｅｃｔｅｄｌａｙｅｒ）で構成されることができる。シーンオーバービューイングモジュール１１０に学習データが入力されると、交互に配置されている多数のコンボリューショナルレイヤーとプーリングレイヤーを経て生成されたフィーチャーマップ（ｆｅａｔｕｒｅｍａｐ）がＦＣレイヤーに入力されてアウトプットプリディックション（ｏｕｔｐｕｔｐｒｅｄｉｃｔｉｏｎｓ）を生成することができる。この時、アウトプットプリディックションは、１次元ベクトルの形態である状態ベクトル、すなわち、シーンオーバービューイングモジュール（ＳＯＭ、１１０）の出力物であるか、または一連の過程を経て状態ベクトルに転換することができる。

また、サブ－カーネルネットワーク生成器１２０が出力する特定のサブ－カーネルのアーキテクチャー情報のデータタイプ（ｄａｔａｔｙｐｅ）はディクショナリー（ｄｉｃｔｉｏｎａｒｙ）やストリング（ｓｔｒｉｎｇ）であってもよく、一例として、｛｛ｃｏｎｖ１：｛ｋ＝３、ｃ＝２６｝｝、｛ｃｏｎｖ２：｛ｋ＝７、ｃ＝３５｝｝、・・・、｛ｓｓｄ＿ｌａｙｅｒ：｛ｋ＝１、ｃ＝１２１｝｝｝のような形態でアーキテクチャー情報を出力することができる。すなわち、サブ－カーネルネットワーク生成器１２０は与えられた制約で生成されたシーンフィーチャーの情報を反映する状態ベクトルに対応するサブ－カーネル（ｓｕｂ－ｋｅｒｎｅｌ）のアーキテクチャーのパラメーターに対する情報を生成することができる。

次に、また図４を参照すれば、学習装置１０００は（ｉ）特定のサブ－カーネルのアーキテクチャー情報を参照してビッグニューラルネットワークモデル２００を最適化し、ビッグニューラルネットワークモデル２００から特定のサブ－カーネルのアーキテクチャー情報を持つ特定のスモールニューラルネットワークモデル（ＳｍａｌｌＮｅｕｒａｌＮｅｔｗｏｒｋＭｏｄｅｌ、Ｓ－ＮＮＭｏｄｅｌ、３００）を生成し、（ｉｉ）特定のスモールニューラルネットワークモデル３００によって学習データに対する第２インファレンス結果（ｓｅｃｏｎｄｉｎｆｅｒｅｎｃｅｒｅｓｕｌｔ）を生成させるプロセスを遂行するか、または遂行するように支援することができる。

ここで、学習装置１０００は特定のサブ－カーネルのアーキテクチャー情報によってビッグニューラルネットワークモデル２００のスーパーカーネルのカーネルの高さ、カーネルの幅及びチャンネルの数の中の少なくとも一つを調整してビッグニューラルネットワークモデル２００を最適化することで、特定のサブ－カーネルのアーキテクチャー情報を持つ特定のスモールニューラルネットワークモデル３００を生成するプロセスを遂行するか、または遂行するように支援することができる。すなわち、本発明はビッグニューラルネットワークモデル２００のスーパーカーネルのカーネルの高さ、カーネルの幅及びチャンネルの数の中の少なくとも一つを調整することでスーパーカーネルのカーネルの大きさとチャンネルの数の中の少なくとも一つを調整してビッグニューラルネットワークモデル２００のスーパーカーネルの大きさまたはボリュームに変化を与えることができる。

具体的に、図６は、本発明の一実施例によってスーパーカーネル（ｓｕｐｅｒｋｅｒｎｅｌ）とサブ－カーネル（ｓｕｂ－ｋｅｒｎｅｌ）の概念を利用してビッグニューラルネットワークモデル（Ｂ－ＮＮＭｏｄｅｌ、２００）とスモールニューラルネットワークモデル（Ｓ－ＮＮＭｏｄｅｌ、３００）とを生成して学習させる方法を簡略に示したものである。ここで、ビッグニューラルネットワークモデル（Ｂ－ＮＮＭｏｄｅｌ、２００）は、ニューラルネットワークモデル（ｎｅｕｒａｌｎｅｔｗｏｒｋｍｏｄｅｌ）を適用しようとするエッジデバイス（ｅｄｇｅｄｅｖｉｃｅ）、一例として、自律走行自動車、自律走行飛行体、ロボットなどのコンピューティングパワーが処理することのできる最大のキャパシティ、すなわち、最大の演算量（ｃｏｍｐｕｔａｔｉｏｎａｌｌｏａｄ）及び最大のパラメーター（ｐａｒａｍｅｔｅｒｓ）を持つニューラルネットワークモデルであって、人によって設計することができる。

ここで、ビッグニューラルネットワークモデルのスーパーカーネルは、最大限のカーネルの高さ、最大限のカーネルの幅及び最大限のチャンネルの数、すなわち、（ｍａｘ_ｋｅｒｎｅｌ_ｗ＊ｍａｘ_ｋｅｒｎｅｌ_ｈ＊ｍａｘ_ｃｈ）からなるニューラルネットワークモデルでのカーネルを意味する。言い換えれば、スーパーカーネルは、例えば、Ｘ－Ｙ平面上の２次元カーネルと、Ｘ－Ｙ平面に垂直のＺ軸に沿って配列された１次元チャンネルで構成された３次元構造を示すことができる。したがって、以下のスーパーカーネルは説明の便宜上、簡略に最大カーネルの大きさと最大チャンネルの数を持つものとして描写される場合がある。

そして、ビッグニューラルネットワークモデル（Ｂ－ＮＮＭｏｄｅｌ、２００）とスモールニューラルネットワークモデル（Ｓ－ＮＮＭｏｄｅｌ、３００）とを生成して学習させる方法としては、従来のワン－ショットニューラルアーキテクチャーサーチ（ｏｎｅ－ｓｈｏｔｎｅｕｒａｌａｒｃｈｉｔｅｃｔｕｒｅｓｅａｒｃｈ）などの方法が利用されることができる。

ここで、ビッグニューラルネットワークモデル２００のスーパーカーネルを学習させる時、スーパーカーネルのサブセット（ｓｕｂｓｅｔ）に属する一部のパラメーター（ｐａｒａｍｅｔｅｒ）をステップ（ｓｔｅｐ）ごとに学習させる方法でスーパーカーネルのカーネルの大きさとチャンネルの数とを調節しながら学習させると、ニューラルネットワークモデルのインファレンス（ｉｎｆｅｒｅｎｃｅ）の時のカーネルの大きさとチャンネルの大きさとを少しだけ変更しても性能が急に下落する問題を防いで、減った演算量とパラメーターの数に比例するように性能を調節することができる。

図６を参照してビッグニューラルネットワークモデル（Ｂ－ＮＮＭｏｄｅｌ、２００）を学習させる一例を挙げると、スーパーカーネルのカーネルの大きさ及びチャンネルの数に対応するカーネルの大きさ（７＊７）、チャンネルの数である１２８個からなる第１コンボリューショナルレイヤー（ｆｉｒｓｔｃｏｎｖｏｌｕｔｉｏｎａｌｌａｙｅｒ）、すなわち、ＣＯＮＶ１に対して第１ステップではスーパーカーネルの真ん中の３＊３＊６４カーネルの模様（ｋｅｒｎｅｌｓｈａｐｅ）を、そして第２ステップでは５＊５＊６４カーネルの模様をインファレンス（ｉｎｆｅｒｅｎｃｅ）の時に使用して学習させる方法でスーパーカーネルのサブセット（ｓｕｂｓｅｔ）に属する一部のパラメーターをステップごとに学習させることができる。

一方、スーパーカーネルのカーネルの大きさとチャンネルの数とを調節しながらニューラルネットワークモデルを学習させる具体的な方法については、次の論文、ＤｉｍｉｔｒｉｏｓＳｔａｍｏｕｌｉｓ著「Ｓｉｎｇｌｅ－ＰａｔｈＮＡＳ：ＤｅｓｉｇｎｉｎｇＨａｒｄｗａｒｅ－ＥｆｆｉｃｉｅｎｔＣｏｎｖＮｅｔｓｉｎｌｅｓｓｔｈａｎ４Ｈｏｕｒｓ」（２０１９）、ＪｉａｈｕｉＹｕ著「ＵｎｉｖｅｒｓａｌｌｙＳｌｉｍｍａｂｌｅＮｅｔｗｏｒｋｓａｎｄＩｍｐｒｏｖｅｄＴｒａｉｎｉｎｇＴｅｃｈｎｉｑｕｅｓ（２０１９）などを参照することができる。一例として、インファレンス及び学習時に利用されるカーネルの外の領域を一時的にゼロアウト（ｚｅｒｏ－ｏｕｔ）させると、使われるカーネルの大きさによって性能を維持することができる。また、バッチ統計（Ｂａｔｃｈｓｔａｔｉｓｔｉｃｓ）を学習以後に多量のデータで再度求めると、チャンネル変更による急激な性能低下を防ぐことができる。

したがって、本発明はスーパーカーネルを持つビッグニューラルネットワークモデル（Ｂ－ＮＮＭｏｄｅｌ、２００）を生成して学習させ、以後ビッグニューラルネットワークモデル（Ｂ－ＮＮＭｏｄｅｌ、２００）の最適化を通じたスモールニューラルネットワークモデル（Ｓ－ＮＮＭｏｄｅｌ、３００）の生成を可能とする。この時、スモールニューラルネットワークモデル（Ｓ－ＮＮＭｏｄｅｌ、３００）は、演算量、パラメーター、レイテンシ、正確度、フロップスなどの制約下で与えられた特定難易度の学習データに対して目的とするタスクを遂行するための最小限のカーネルの大きさと最小限のチャンネルの数とからなるニューラルネットワークモデルである。

次に、再び図４を参照すれば、学習装置１０００は第１インファレンス結果と第２インファレンス結果とを参照して一つ以上の第１ロスを生成し、第１ロスを利用して与えられた制約で第１ロスを通じたバックプロパゲーション（ｂａｃｋ－ｐｒｏｐａｇａｔｉｏｎ）を通じて第１ロスを最小化するようにシーンオーバービューイングモジュール１１０とサブ－カーネルネットワーク生成器１２０とを学習させるプロセスを遂行するか、または遂行するように支援することができる。

さらに、学習装置１０００は状態ベクトルとこれに対応する原本正解（ｇｒｏｕｎｄｔｒｕｔｈ）とを参照して一つ以上の第２ロスを生成し、第２ロスを最小化するようにシーンオーバービューイングモジュール１１０をさらに学習させるプロセスを遂行するか、または遂行するように支援することができる。これによって、シーンオーバービューイングモジュール１１０について、サブ－カーネルネットワーク生成器１２０にシーン（ｓｃｅｎｅ）に対する正しい情報を提供する方向に最適化することができる。この時、状態ベクトルに対応する原本正解は人や高度に学習されたニューラルネットワークによって生成されて学習が行われることがあるが、これとは違って、ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ（ＧＡＮ）を利用した非指導学習（ｕｎｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）などの方法で行われることもあり、本発明はこれに限定されない。

ここで、上記のように、サブ－カーネルサーチングモジュール１００を構成するシーンオーバービューイングモジュール（ＳＯＭ、１１０）とサブ－カーネルネットワーク生成器１２０とはそれぞれコンボリューショナルニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、ＣＮＮ）とリカレントニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ、ＲＮＮ）とで構成することができる。したがって、シーンオーバービューイングモジュール１１０とサブ－カーネルネットワーク生成器１２０とは、それぞれ学習させることもでき、統合された学習方法で一緒に学習させることもできる。統合された学習方法としては、シーン理解（ｓｃｅｎｅｕｎｄｅｒｓｔａｎｄｉｎｇ）方法を応用したＣＮＮ＋ＲＮＮコンバインドトレーニング（ｃｏｍｂｉｎｅｄｔｒａｉｎｉｎｇ）としてＯｒｉｏｌＶｉｎｙａｌｓ等「ＳｈｏｗａｎｄＴｅｌｌ：ＡＮｅｕｒａｌＩｍａｇｅＣａｐｔｉｏｎＧｅｎｅｒａｔｏｒ」（２０１５）のような方法を参照することができる。

そして、学習装置１０００によるシーンオーバービューイングモジュール１１０の学習において、学習装置１０００はビッグニューラルネットワークモデル（Ｂ－ＮＮｍｏｄｅｌ、２００）と学習用スモールニューラルネットワークモデル（Ｓ－ＮＮＭｏｄｅｌ、３００）との間の第１ロスを利用したバックプロパゲーションを通じてシーンオーバービューイングモジュール１１０によって演算量、パラメーター、レイテンシ、正確度、フロップスなどの中の少なくとも一つに対して与えられた制約下で第１ロスを最小化し、シーンオーバービューイングモジュール１１０がサブ－カーネルネットワーク生成器１２０に正確な情報を提供する方向に学習を行うことができる。この時、入力された学習データに対して第１ロスが既設定された臨界値より大きければ該学習データに対するビッグニューラルネットワークモデル（Ｂ－ＮＮＭｏｄｅｌ、２００）のキャパシティは十分であるが、スモールニューラルネットワークモデル（Ｓ－ＮＮＭｏｄｅｌ、３００）のキャパシティは十分ではないという情報を内包することができる。

一例として、シーンオーバービューイングモジュール（ＳＯＭ、１１０）から出力される状態ベクトルは、シーンフィーチャーに対応するシーン情報（ｓｃｅｎｅｉｎｆｏｒｍａｔｉｏｎ）を反映することができる。ここで、シーン情報は学習データの前景と背景の複雑度、データがどれほど明らかかなどの情報を反映してもよいが、本発明はこれに限定されない。学習データが複雑であったり明らかではないほどハードサンプル（ｈａｒｄｓａｍｐｌｅ）であり、この場合、より多くの演算量とパラメーターの数とを要求する方向にシーンオーバービューイングモジュール１１０の学習を行わせることができる。また、シーンオーバービューイングモジュール１１０の性能は、ニューラルネットワークモデルが搭載されたエッジデバイスの性能やオリジナルネットワークの大きさ、目標とする性能（例：ｓｐｅｅｄ、ａｃｃｕｒａｃｙ）によって調節することができる。

また、学習装置１０００によるサブ－カーネルネットワーク生成器１２０の学習において、学習装置１０００は第１ロスを利用したバックプロパゲーションを通じてサブ－カーネルネットワーク生成器１２０によって演算量、パラメーター、レイテンシ、正確度、フロップスなどの中の少なくとも一つに対し、与えられた制約下で第１ロスを最小化する方向に学習を行うことができる。この時、サブ－カーネルネットワーク生成器１２０の学習は、制約の微分可能性（ｄｉｆｆｅｒｅｎｔｉａｂｉｌｉｔｙ）によって強化学習（ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ）を利用した最適化や勾配降下最適化（ｇｒａｄｉｅｎｔｄｅｓｃｅｎｔｏｐｔｉｍｉｚａｔｉｏｎ）などの方法を選択することができる。

一方、学習装置１０００が上記のようにサブ－カーネルサーチングモジュール１００を学習させる時、入力された学習データに対して第１ロスが既設定された臨界値より大きい場合、すなわち、第１インファレンス結果と第２インファレンス結果との差が既設定された基準値を超える場合、該当学習データはビッグニューラルネットワークモデル（Ｂ－ＮＮＭｏｄｅｌ、２００）ではハードサンプルではないが、スモールニューラルネットワークモデル（Ｓ－ＮＮＭｏｄｅｌ、３００）ではハードサンプルでありえることを意味する。したがって、このような場合は学習装置１０００が該学習データとサブ－カーネルサーチングモジュールを通じて生成された学習用スモールニューラルネットワークモデル（Ｓ－ＮＮＭｏｄｅｌ、３００）アーキテクチャーの情報とをサーバーに伝送し、サーバーによって該学習データを該学習用スモールニューラルネットワークモデル（Ｓ－ＮＮＭｏｄｅｌ、３００）でのハードサンプルであるとタグ付け（ｔａｇ）し、学習データベースに追加させるプロセスを遂行するか、または遂行するように支援することができる。ここで、既設定された臨界値や既設定された基準値は同じでも異なってもよい。

しかし、これとは違って、別途コンピューティング装置を使用したモデルの大きさによるハードサンプルサーチ（ｈａｒｄｓａｍｐｌｅｓｅａｒｃｈ）が必要となる時、サブ－カーネルサーチングモジュール１００をハードサンプルサーチャー（ｈａｒｄｓａｍｐｌｅｓｅａｒｃｈｅｒ）として機能させることができる。具体的に、第１ロスが既設定された臨界値より大きい場合、ビッグニューラルネットワークモデル（Ｂ－ＮＮＭｏｄｅｌ、２００）の演算量で解くことができる問題がスモールニューラルネットワークモデル（Ｓ－ＮＮＭｏｄｅｌ、３００）の演算量で解きにくいことを暗示するので、第１ロスが既設定された臨界値より大きい場合、学習データとサブ－カーネルサーチングモジュール１００を通じて生成された当該特定のスモールニューラルネットワークモデル（Ｓ－ＮＮＭｏｄｅｌ、３００）のアーキテクチャーの情報とをサーバーに伝送し、該学習データは特定構造、特定演算量、特定パラメーターの数などを持つ当該特定のスモールニューラルネットワークモデル（Ｓ－ＮＮＭｏｄｅｌ、３００）へのハードサンプルであるということをタグ付けして学習データベースに追加することができる。したがって、学習データベースに格納されたハードサンプルは、以後、似ている演算量とパラメーターの数とを持つ特定のスモールニューラルネットワークモデル（Ｓ－ＮＮＭｏｄｅｌ、３００）の学習に利用することができる。ここで、本発明の特定のスモールニューラルネットワークモデル（Ｓ－ＮＮＭｏｄｅｌ、３００）はスモールニューラルネットワークモデル（Ｓ－ＮＮＭｏｄｅｌ、３００）として使用可能な全ての任意の構造を称することができるので、特定のスモールニューラルネットワークモデル（Ｓ－ＮＮＭｏｄｅｌ、３００）と称されるスモールニューラルネットワークモデル（Ｓ－ＮＮＭｏｄｅｌ、３００）は相異なることがある。

一方、上記のようにサブ－カーネルサーチングモジュール１００を学習させた状態で、最適化装置が学習したサブ－カーネルサーチングモジュール１００を利用してオン－デバイスニューラルネットワークモデルを最適化する方法を図７と図８を利用して説明すれば次のとおりである。

まず、図７は、本発明の一実施例によってサブ－カーネルサーチングモジュール１００を使用してオン－デバイスニューラルネットワークモデルを最適化する最適化装置２０００を簡略に示したものである。

図７を参照すれば、最適化装置２０００はサブ－カーネルサーチングモジュール１００を利用してオン－デバイスニューラルネットワークモデルであるビッグニューラルネットワークモデル（Ｂ－ＮＮＭｏｄｅｌ、２００）を最適化するためのインストラクションを格納するメモリ２００１とメモリ２００１に格納されたインストラクションに対応してサブ－カーネルサーチングモジュール１００とを利用してビッグニューラルネットワークモデル（Ｂ－ＮＮＭｏｄｅｌ、２００）を最適化するための動作を行うプロセッサ２００２を含むことができる。ここで、テスト用の特定のスモールニューラルネットワークモデル（Ｓ－ＮＮＭｏｄｅｌ、３００）を生成してテストするための基準値となるビッグニューラルネットワークモデル（Ｂ－ＮＮＭｏｄｅｌ、２００）は図７及び図８に記載していない。しかし、前記でサブ－カーネルサーチングモジュール１００を学習させる過程で提供されたビッグニューラルネットワークモデル（Ｂ－ＮＮＭｏｄｅｌ、２００）に対する説明は、図７及び図８でも相変らず適用することができる。

具体的に、最適化装置２０００は、典型的にコンピューティング装置（例えば、コンピュータプロセッサ、メモリ、ストレージ、入力装置及び出力装置、その他既存コンピューティング装置の構成要素を含むことができる装置；ルーター、スイッチなどのような電子通信装置；ネットワーク付きストレージ（ＮＡＳ）及びストレージ領域ネットワーク（ＳＡＮ）のような電子情報ストレージシステム）とコンピュータソフトウェア（すなわち、コンピューティング装置によって特定方式で機能させるインストラクション）の組み合わせを利用して所望のシステム性能を達成するものであってもよい。

一方、最適化装置２０００はそれぞれのエッジデバイスに入力されるデータによってエッジデバイスそれぞれに対応するサブ－カーネルサーチングモジュール１００を利用してビッグニューラルネットワークモデル（Ｂ－ＮＮＭｏｄｅｌ、２００）を最適化できるようにするためのもので、ニューラルネットワークモデルを適用するエッジデバイスに搭載することができる。

このように構成された最適化装置２０００を利用して本発明の一実施例によるサブ－カーネルサーチングモジュール１００を利用してニューラルネットワークモデルを最適化するための方法を説明すれば次のとおりである。以下の説明では、図４ないし図６を参照した説明から容易に理解可能な部分に対しては詳細な説明を省略する。

先ず、最適化装置２０００はテストデータを獲得すれば、テストデータをサブ－カーネルサーチングモジュール１００に入力し、サブ－カーネルサーチングモジュール１００によって、（ｉ）テストデータに対応するテスト用の制約（ここで、テスト用の制約は少なくとも演算量（ｃｏｍｐｕｔａｔｉｏｎａｌｌｏａｄ）、パラメーター（ｐａｒａｍｅｔｅｒｓ）、レイテンシ（ｌａｔｅｎｃｙ）、正確度（ａｃｃｕｒａｃｙ）、及びフロップス（ｆｌｏｐｓ）の中の一つに適用された制約を含む）を確認し、（ｉｉ）テストデータに対応するテスト用の状態ベクトル（テスト用の状態ベクトルは少なくともテストデータの複雑度、鮮明度の中の一つに対する情報を含む）を生成させ、（ｉｉｉ）与えられたテスト用の制約で前記テスト用の状態ベクトルを持つテストデータに対して目的とするタスクを遂行することができる最小限のカーネルの大きさと最小限のチャンネルの数とからなるテスト用の特定のサブ－カーネル（特定テスト用のサブ－カーネルはビッグニューラルネットワークモデルの最大キャパシティに対応するテスト用のスーパーカーネルのサブセットであり、テスト用のスーパーカーネルより小さいか同じカーネルの大きさと、少ないか同じチャンネルの数とからなっている）のテスト用のアーキテクチャー情報を生成させるプロセスを遂行するか、または遂行するように支援することができる。

次に、最適化装置２０００は（ｉ）テスト用の特定のサブ－カーネルのテスト用のアーキテクチャー情報を参照してビッグニューラルネットワークモデル２００を最適化し、ビッグニューラルネットワークモデル２００からテスト用の特定のサブ－カーネルのテスト用のアーキテクチャー情報を持つテスト用の特定のスモールニューラルネットワークモデル３００を生成し、（ｉｉ）テスト用の特定のスモールニューラルネットワークモデル３００によってテストデータに対する第３インファレンス結果（ｔｈｉｒｄｉｎｆｅｒｅｎｃｅｒｅｓｕｌｔ）を生成させるプロセスを遂行するか、または遂行するように支援することができる。ここで、サブ－カーネルサーチングモジュール１００を学習させる過程で獲得した学習用の特定のサブ－カーネルに対する学習用アーキテクチャー情報とサブ－カーネルサーチングモジュール１００をテストする過程で獲得したテスト用の特定のサブ－カーネルに対するテスト用アーキテクチャー情報とは、学習データとテストデータとの難易度の差によって互いに同一でないこともある。結果的に、エッジデバイスの固定されたキャパシティによってビッグニューラルネットワークモデル２００のキャパシティはサブ－カーネルサーチングモジュール１００の学習及びテスト過程で変わらないこともある一方、学習用スモールニューラルネットワークモデル３００とテスト用のスモールニューラルネットワークモデル３００とは互いに異なることがある。

ここで、最適化装置２０００はサブ－カーネルサーチングモジュール１００によって、（ｉ）シーンオーバービューイングモジュール（ＳｃｅｎｅＯｖｅｒｖｉｅｗｉｎｇＭｏｄｕｌｅ、ＳＳＭ、１１０）を通じてテストデータに対応するテスト用のシーンフィーチャーを生成させ、テスト用のシーンフィーチャーに対応するテスト用の状態ベクトルを生成させ、（ｉｉ）サブ－カーネルネットワーク生成器１２０を通じて与えられたテスト制約でテスト用の状態ベクトルを持つテストデータに対して目的とするタスクを遂行することができる最小限のカーネルの大きさと最小限のチャンネルの数からなるテスト用の特定のサブ－カーネルのテスト用アーキテクチャー情報を生成させるプロセスを遂行するか、または遂行するように支援することができる。

次いで、最適化装置２０００はテスト用の特定のサブ－カーネルのテスト用アーキテクチャー情報によってビッグニューラルネットワークモデルのテスト用のスーパーカーネルのカーネルの高さ、カーネルの幅、及びチャンネルの数の中の少なくとも一つを調整してビッグニューラルネットワークモデルを最適化することでテスト用の特定のサブ－カーネルのテスト用アーキテクチャー情報を持つテスト用の特定のスモールニューラルネットワークモデル３００を生成させるプロセスを遂行するか、または遂行するように支援することができる。

具体的に、図８は本発明の一実施例によって入力と出力の例示を通じてサブ－カーネルサーチングモジュール１００を利用してオン－デバイスニューラルネットワークモデルを最適化する方法を簡略に示している。

図８を参照すれば、最適化装置２０００は与えられたテスト用の特定のサブ－カーネルのテスト用のアーキテクチャー情報を参照してビッグニューラルネットワークモデル（Ｂ－ＮＮＭｏｄｅｌ、２００）を最適化することでテスト用の特定のサブ－カーネルのテスト用のアーキテクチャー情報を持つテスト用の特定のスモールニューラルネットワークモデル（Ｓ－ＮＮＭｏｄｅｌ、３００_１、３００_２）を生成し、生成されたテスト用の特定のスモールニューラルネットワークモデル（Ｓ－ＮＮＭｏｄｅｌ、３００_１、３００_２）によってテストデータに対する第３インファレンス（ｔｈｉｒｄｉｎｆｅｒｅｎｃｅ）を遂行させることができる。

この時、テスト用の特定のスモールニューラルネットワークモデル（Ｓ－ＮＮＭｏｄｅｌ、３００_１、３００_２）はビッグニューラルネットワークモデル（Ｂ－ＮＮＭｏｄｅｌ、２００）のサブセットであるため、テスト用の特定のスモールニューラルネットワークモデル（Ｓ－ＮＮＭｏｄｅｌ、３００_１、３００_２）の性能はいつもビッグニューラルネットワークモデル（Ｂ－ＮＮＭｏｄｅｌ、２００）の性能より小さいか同一である。また、テストデータの難易度が増加するほどテスト用の特定のスモールニューラルネットワークモデル（Ｓ－ＮＮＭｏｄｅｌ、３００_１、３００_２）のテスト用の特定のサブ－カーネル（ｓｕｂ－ｋｅｒｎｅｌ）に対して要求される演算量が大きくなることがある。

一例として、テストデータがイージーサンプル（ｅａｓｙｓａｍｐｌｅ）の場合は、ビッグニューラルネットワークモデル（Ｂ－ＮＮＭｏｄｅｌ、２００）を最適化してウエイトの大きさが小さくて演算回数が少ないテスト用の特定のスモールニューラルネットワークモデル（Ｓ－ＮＮＭｏｄｅｌ、３００_１）を生成させることで、ビッグニューラルネットワークモデル（Ｂ－ＮＮｍｏｄｅｌ、２００）に比べて少ない演算量、一例として、ビッグニューラルネットワークモデル（Ｂ－ＮＮＭｏｄｅｌ、２００）に対して１２％の演算量でテストデータに対する第３インファレンスを遂行することができる。一方、テストデータがハードサンプル（ｈａｒｄｓａｍｐｌｅ）の場合は、ビッグニューラルネットワークモデル（Ｂ－ＮＮＭｏｄｅｌ、２００）を最適化してテスト用の特定のスモールニューラルネットワークモデル（Ｓ－ＮＮＭｏｄｅｌ、３００_１）に比べてウエイトの大きさが大きくて演算回数が多いが、ビッグニューラルネットワークモデル（Ｂ－ＮＮｍｏｄｅｌ、２００）に比べてウエイトの大きさが小さくて演算回数が少ないテスト用の特定のスモールニューラルネットワークモデル（Ｓ－ＮＮＭｏｄｅｌ、３００_２）を生成することでテスト用の特定のスモールニューラルネットワークモデル（Ｓ－ＮＮＭｏｄｅｌ、３００_１）に比べて演算量が多いが、ビッグニューラルネットワークモデル（Ｂ－ＮＮＭｏｄｅｌ、２００）に比べると少ない演算量、一例として、ビッグニューラルネットワークモデル（Ｂ－ＮＮＭｏｄｅｌ）に対して８８％の演算量でテストデータに対する第３インファレンスを遂行することができる。

すなわち、本発明によってビッグニューラルネットワークモデル（Ｂ－ＮＮＭｏｄｅｌ）を最適化したテスト用の特定のスモールニューラルネットワークモデル（Ｓ－ＮＮＭｏｄｅｌ、３００_１、３００_２）は、サンプルの難易度によって最適化された演算量を持つようになり、サーバーなどの助けがなくてもエッジデバイス上でニューラルネットワークモデルの最適化を遂行することができる。

また、最適化装置２０００はテスト用の特定のスモールニューラルネットワークモデル（Ｓ－ＮＮｍｏｄｅｌ、３００_１、３００_２）によってテストデータをインファレンス（推論）した第３インファレンス結果と、ビッグニューラルネットワークモデル（Ｂ－ＮＮＭｏｄｅｌ、２００）によってテストデータをインファレンスした第４インファレンス結果（ｆｏｕｒｔｈｉｎｆｅｒｅｎｃｅｒｅｓｕｌｔ）とを参照して第３インファレンス結果と第４インファレンス結果との差が既設定された基準値を超える場合、テストデータとテスト用の特定のスモールニューラルネットワークモデル（Ｓ－ＮＮＭｏｄｅｌ、３００_１、３００_２）のアーキテクチャー情報とをサーバーに伝送し、サーバーによってテストデータをテスト用の特定のスモールニューラルネットワークモデル（Ｓ－ＮＮＭｏｄｅｌ、３００_１、３００_２）でのハードサンプルとしてタグ付けして学習データベースに追加させることができる。

この時、サブ－カーネルサーチングモジュール１００の学習はエッジデバイスに持続的に入力されるデータを通じてエッジデバイス上で持続的に行われることができるし、エッジデバイス上でサブ－カーネルサーチングモジュール１００の学習が一定以上行われると、スモールニューラルネットワークモデル（Ｓ－ＮＮＭｏｄｅｌ、３００）を通じてテスト及びインファレンスを遂行することができる。サブ－カーネルサーチングモジュール１００のオーバーヘッド（ｏｖｅｒｈｅａｄ）によってフレームごとにサブ－カーネルサーチングモジュール１００を実行して出力された新しいスモールニューラルネットワークモデル（Ｓ－ＮＮＭｏｄｅｌ、３００）のアーキテクチャー情報を使うか、または一定フレームごとにサブ－カーネルサーチングモジュール１００を実行して当該区間で最終的に出力されたアーキテクチャー情報を使うかを選択することができる。

以上、説明された本発明による実施例は、多様なコンピュータ構成要素を通じて遂行できるプログラム命令語の形態で具現され、コンピュータ読み取り可能な記録媒体に記録することができる。前記コンピュータ読み取り可能な記録媒体は、プログラム命令語、データファイル、データ構造などを単独でまたは組み合わせて含むことができる。前記コンピュータ読み取り可能な記録媒体に記録されるプログラム命令語は、本発明のために特別に設計されて構成されたものであるか、またはコンピュータソフトウェア分野の当業者に公知にされて使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例には、ハードディスク、フレキシブルディスク及び磁気テープのような磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような磁気－光媒体（ｍａｇｎｅｔｏ－ｏｐｔｉｃａｌｍｅｄｉａ）、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードのみならず、インタープリターなどを使用してコンピュータによって実行されることができる高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を行うために一つ以上のソフトウェアモジュールとして作動するように構成されることができるし、その逆も同様である。

以上、本発明が具体的な構成要素などのような特定事項と、限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものに過ぎず、本発明が前記実施例に限定されるものではなく、本発明が属する技術分野における通常の知識を有する者であれば、このような記載から多様な修正及び変形を図ることができる。

したがって、本発明の思想は前記説明された実施例に限って決められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形された全てのものは本発明の思想の範疇に属するものとする。

Claims

サブ－カーネルサーチングモジュール（Ｓｕｂ－ＫｅｒｎｅｌＳｅａｒｃｈｉｎｇＭｏｄｕｌｅ、ＳＳＭ）を利用してオン－デバイスニューラルネットワークモデル（ｏｎ－ｄｅｖｉｃｅｎｅｕｒａｌｎｅｔｗｏｒｋｍｏｄｅｌ）を最適化する方法において、
（ａ）ニューラルネットワークモデルが搭載されたエッジデバイスが許容する最大のコンピューティングパワーを利用して目的とするタスク（ｔａｓｋ）を遂行することができる最大キャパシティ（ｃａｐａｃｉｔｙ）を持つビッグニューラルネットワークモデル（ＢｉｇＮｅｕｒａｌＮｅｔｗｏｒｋＭｏｄｅｌ、Ｂ－ＮＮＭｏｄｅｌ）を、入力された入力データに対する第１インファレンス結果（ｆｉｒｓｔｉｎｆｅｒｅｎｃｅｒｅｓｕｌｔ）を生成するように学習させた状態で、学習データが獲得されると、学習装置が前記学習データをサブ－カーネルサーチングモジュールに入力し、前記サブ－カーネルサーチングモジュールによって、（ｉ）前記学習データに対応する演算量（ｃｏｍｐｕｔａｔｉｏｎａｌｌｏａｄ）、パラメーター（ｐａｒａｍｅｔｅｒｓ）、レイテンシ（ｌａｔｅｎｃｙ）、正確度（ａｃｃｕｒａｃｙ）、及びフロップス（ｆｌｏｐｓ）に適用された少なくとも一つの制約（ｃｏｎｓｔｒａｉｎｔ）を確認し、（ｉｉ）前記学習データに対応する複雑度、鮮明度の中の少なくとも一つに対する情報を含む状態ベクトル（ｓｔａｔｅｖｅｃｔｏｒ）を生成し、（ｉｉｉ）前記ビッグニューラルネットワークモデルの前記最大キャパシティに対応するスーパーカーネル（ｓｕｐｅｒｋｅｒｎｅｌ）のサブセット（ｓｕｂｓｅｔ）で、前記スーパーカーネルより小さいかまたは同じカーネルの大きさと、少ないかまたは同じチャンネルの数からなり、前記制約で前記状態ベクトルを持つ前記学習データに対して前記目的とするタスクを遂行することができる最小限のカーネルの大きさと最小限のチャンネルの数とからなる特定のサブ－カーネルのアーキテクチャー情報（ａｒｃｈｉｔｅｃｔｕｒｅｉｎｆｏｒｍａｔｉｏｎ）を生成させるプロセスを遂行するか、または遂行するように支援する段階と、
（ｂ）前記学習装置が、（ｉ）前記特定のサブ－カーネルの前記アーキテクチャー情報を参照して前記ビッグニューラルネットワークモデルを最適化し、前記ビッグニューラルネットワークモデルから前記特定のサブ－カーネルの前記アーキテクチャー情報を持つ特定のスモールニューラルネットワークモデル（ＳｍａｌｌＮｅｕｒａｌＮｅｔｗｏｒｋＭｏｄｅｌ、Ｓ－ＮＮＭｏｄｅｌ）を生成し、（ｉｉ）前記特定のスモールニューラルネットワークモデルによって前記学習データに対する第２インファレンス結果（ｓｅｃｏｎｄｉｎｆｅｒｅｎｃｅｒｅｓｕｌｔ）を生成させるプロセスを遂行するか、または遂行するように支援する段階と、
（ｃ）前記学習装置が、前記第１インファレンス結果と前記第２インファレンス結果とを参照して一つ以上の第１ロスを生成し、前記第１ロスを利用して前記サブ－カーネルサーチングモジュールを学習させるプロセスを遂行するか、または遂行するように支援する段階と、
を含む方法。
前記（ａ）の段階において、
前記学習装置は、前記サブ－カーネルサーチングモジュールによって、（ｉ）シーンオーバービューイングモジュール（ＳｃｅｎｅＯｖｅｒｖｉｅｗｉｎｇＭｏｄｕｌｅ、ＳＳＭ）を通じて前記学習データに対応するシーンフィーチャー（ｓｃｅｎｅｆｅａｔｕｒｅｓ）を生成させ、前記シーンフィーチャーに対応する前記状態ベクトルを生成させ、（ｉｉ）サブ－カーネルネットワーク生成器（Ｓｕｂ－ｋｅｒｎｅｌＮｅｔｗｏｒｋＧｅｎｅｒａｔｏｒ、ＳＮＧ）を通じて前記制約で前記状態ベクトルを持つ前記学習データに対して前記目的とするタスクを遂行することができる前記最小限のカーネルの大きさと前記最小限のチャンネルの数とからなる前記特定のサブ－カーネルの前記アーキテクチャー情報を生成させるプロセスを遂行するか、または遂行するように支援することを特徴とする請求項１に記載の方法。
前記学習装置は、（ｉ）与えられた前記制約で前記第１ロスを通じたバックプロパゲーション（ｂａｃｋ－ｐｒｏｐａｇａｔｉｏｎ）を通じて前記第１ロスを最小化するように前記シーンオーバービューイングモジュールと前記サブ－カーネルネットワーク生成器とを学習させ、（ｉｉ）前記状態ベクトルと、これに対応する原本正解（ｇｒｏｕｎｄｔｒｕｔｈ）とを参照して一つ以上の第２ロスを生成し、前記第２ロスを最小化するように前記シーンオーバービューイングモジュールをさらに学習させるプロセスを遂行するか、または遂行するように支援することを特徴とする請求項２に記載の方法。
前記シーンオーバービューイングモジュールは、コンボリューショナルニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、ＣＮＮ）で構成され、前記サブ－カーネルネットワーク生成器はリカレントニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ、ＲＮＮ）で構成され、
前記学習装置は前記シーンオーバービューイングモジュールと前記サブ－カーネルネットワーク生成器とをそれぞれ学習させたり同時に学習させるプロセスを遂行するか、または遂行するように支援することを特徴とする請求項２に記載の方法。
前記学習装置は、前記シーンオーバービューイングモジュールの前記コンボリューショナルニューラルネットワークを通じて前記学習データに対して少なくとも一つのコンボリューション（ｃｏｎｖｏｌｕｔｉｏｎ）演算、少なくとも一つのプーリング（ｐｏｏｌｉｎｇ）演算、及び少なくとも一つのＦＣ（全結合：Ｆｕｌｌｙ－Ｃｏｎｎｅｃｔｅｄ）演算を適用して前記学習データに対応する前記シーンフィーチャーを生成させるプロセスを遂行するか、または遂行するように支援することを特徴とする請求項４に記載の方法。
前記（ｂ）の段階において、
前記学習装置は、前記特定のサブ－カーネルの前記アーキテクチャー情報によって前記ビッグニューラルネットワークモデルの前記スーパーカーネルのカーネルの高さ、カーネルの幅、及びチャンネルの数の中の少なくとも一つを調整して前記ビッグニューラルネットワークモデルを最適化することにより、前記特定のサブ－カーネルの前記アーキテクチャー情報を持つ前記特定のスモールニューラルネットワークモデルを生成するプロセスを遂行するか、または遂行するように支援することを特徴とする請求項１に記載の方法。
前記学習装置は、前記第１インファレンス結果と前記第２インファレンス結果とを参照し、前記第１インファレンス結果と前記第２インファレンス結果との差が既設定された基準値を超える場合、前記学習データと前記特定のスモールニューラルネットワークモデルの前記アーキテクチャー情報とをサーバーに伝送し、前記サーバーによって前記学習データを前記特定のスモールニューラルネットワークモデルでのハードサンプル（ｈａｒｄｓａｍｐｌｅ）としてタグ付け（ｔａｇ）し、学習データベースに追加させるプロセスを遂行するか、または遂行するように支援する請求項１に記載の方法。
サブ－カーネルサーチングモジュール（Ｓｕｂ－ＫｅｒｎｅｌＳｅａｒｃｈｉｎｇＭｏｄｕｌｅ、ＳＳＭ）を利用してオン－デバイスニューラルネットワークモデル（ｏｎ－ｄｅｖｉｃｅｎｅｕｒａｌｎｅｔｗｏｒｋｍｏｄｅｌ）を最適化する方法において、
（ａ）学習装置によって、（ｉ）ニューラルネットワークモデルが搭載されたエッジデバイスが許容する最大のコンピューティングパワーを利用して目的とするタスク（ｔａｓｋ）を遂行することができる最大キャパシティ（ｃａｐａｃｉｔｙ）を持つビッグニューラルネットワークモデル（ＢｉｇＮｅｕｒａｌＮｅｔｗｏｒｋＭｏｄｅｌ、Ｂ－ＮＮＭｏｄｅｌ）を、入力された入力データに対する第１インファレンス結果（ｆｉｒｓｔｉｎｆｅｒｅｎｃｅｒｅｓｕｌｔ）を生成するように学習させた状態で、学習データが獲得されると、前記学習データをサブ－カーネルサーチングモジュールに入力し、前記サブ－カーネルサーチングモジュールによって、（ｉ－１）前記学習データに対応する演算量（ｃｏｍｐｕｔａｔｉｏｎａｌｌｏａｄ）、パラメーター（ｐａｒａｍｅｔｅｒｓ）、レイテンシ（ｌａｔｅｎｃｙ）、正確度（ａｃｃｕｒａｃｙ）、及びフロップス（ｆｌｏｐｓ）の中の少なくとも一つに適用された学習用制約（ｃｏｎｓｔｒａｉｎｔ）を確認し、（ｉ－２）前記学習データに対応する複雑度、鮮明度の中の少なくとも一つに対する情報を含む学習用状態ベクトル（ｓｔａｔｅｖｅｃｔｏｒ）を生成し、（ｉ－３）前記ビッグニューラルネットワークモデルの前記最大キャパシティに対応するスーパーカーネル（ｓｕｐｅｒｋｅｒｎｅｌ）のサブセット（ｓｕｂｓｅｔ）で、前記スーパーカーネルより小さいか同じカーネルの大きさと、少ないか同じチャンネルの数とからなり、前記学習用制約で前記学習用状態ベクトルを持つ前記学習データに対して前記目的とするタスクを遂行することができる最小限のカーネルの大きさと最小限のチャンネルの数とからなる学習用特定のサブ－カーネルの学習用アーキテクチャー情報（ａｒｃｈｉｔｅｃｔｕｒｅｉｎｆｏｒｍａｔｉｏｎ）を生成させるプロセス、（ｉｉ）（ｉｉ－１）前記学習用特定のサブ－カーネルの前記学習用アーキテクチャー情報を参照して前記ビッグニューラルネットワークモデルを最適化し、前記ビッグニューラルネットワークモデルから前記学習用特定のサブ－カーネルの前記学習用アーキテクチャー情報を持つ学習用特定のスモールニューラルネットワークモデル（ＳｍａｌｌＮｅｕｒａｌＮｅｔｗｏｒｋＭｏｄｅｌ、Ｓ－ＮＮＭｏｄｅｌ）を生成し、（ｉｉ－２）前記学習用特定のスモールニューラルネットワークモデルによって前記学習データに対する第２インファレンス結果（ｓｅｃｏｎｄｉｎｆｅｒｅｎｃｅｒｅｓｕｌｔ）を生成させるプロセス、及び（ｉｉｉ）前記第１インファレンス結果と前記第２インファレンス結果とを参照して一つ以上の第１ロスを生成し、前記第１ロスを利用して前記サブ－カーネルサーチングモジュールを学習させるプロセスが遂行された状態で、最適化装置がテストデータを獲得すれば前記テストデータを前記サブ－カーネルサーチングモジュールに入力し、前記サブ－カーネルサーチングモジュールによって、（ｉ）前記テストデータに対応する演算量、パラメーター、レイテンシ、正確度、及びフロップスの中の少なくとも一つに適用されたテスト用の制約（ｃｏｎｓｔｒａｉｎｔ）を確認し、（ｉｉ）前記テストデータに対応する複雑度、鮮明度の中の少なくとも一つに対する情報を含むテスト用の状態ベクトルを生成し、（ｉｉｉ）前記ビッグニューラルネットワークモデルの前記最大キャパシティに対応する前記スーパーカーネルのサブセットで、前記スーパーカーネルより小さいか同じカーネルの大きさと少ないか同じチャンネルの数とからなり、前記テスト用の制約で前記テスト用の状態ベクトルを持つ前記テストデータに対して前記目的とするタスクを遂行することができる最小限のカーネルの大きさと最小限のチャンネルの数とからなるテスト用の特定のサブ－カーネルのテスト用のアーキテクチャー情報を生成させるプロセスを遂行するか、または遂行するように支援する段階と、
（ｂ）前記最適化装置が、（ｉ）前記テスト用の特定のサブ－カーネルの前記テスト用のアーキテクチャー情報を参照して前記ビッグニューラルネットワークモデルを最適化し、前記ビッグニューラルネットワークモデルから前記テスト用の特定のサブ－カーネルの前記テスト用のアーキテクチャー情報を持つテスト用の特定のスモールニューラルネットワークモデルを生成し、（ｉｉ）前記テスト用の特定のスモールニューラルネットワークモデルによって前記テストデータに対する第３インファレンス結果（ｔｈｉｒｄｉｎｆｅｒｅｎｃｅｒｅｓｕｌｔ）を生成させるプロセスを遂行するか、または遂行するように支援する段階と、
を含む方法。
前記（ａ）の段階において、
前記最適化装置は、前記サブ－カーネルサーチングモジュールによって、（ｉ）シーンオーバービューイングモジュール（ＳｃｅｎｅＯｖｅｒｖｉｅｗｉｎｇＭｏｄｕｌｅ、ＳＳＭ）を通じて前記テストデータに対応するテスト用のシーンフィーチャー（ｓｃｅｎｅｆｅａｔｕｒｅｓ）を生成させ、前記テスト用のシーンフィーチャーに対応する前記テスト用の状態ベクトルを生成させ、（ｉｉ）サブ－カーネルネットワーク生成器（Ｓｕｂ－ｋｅｒｎｅｌＮｅｔｗｏｒｋＧｅｎｅｒａｔｏｒ、ＳＮＧ）を通じて前記テスト用の制約で前記テスト用の状態ベクトルを持つ前記学習データに対して前記目的とするタスクを遂行することができる最小限のカーネルの大きさと最小限のチャンネルの数とからなる前記テスト用の特定のサブ－カーネルの前記テスト用のアーキテクチャー情報を生成させるプロセスを遂行するか、または遂行するように支援することを特徴とする請求項８に記載の方法。
前記シーンオーバービューイングモジュールはコンボリューショナルニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、ＣＮＮ）で構成され、前記サブ－カーネルネットワーク生成器はリカレントニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ、ＲＮＮ）で構成されていることを特徴とする請求項９に記載の方法。
前記最適化装置は、前記シーンオーバービューイングモジュールの前記コンボリューションニューラルネットワークを通じて前記テストデータに対して少なくとも一つのコンボリューション（ｃｏｎｖｏｌｕｔｉｏｎ）演算、少なくとも一つのプーリング（ｐｏｏｌｉｎｇ）演算、及び少なくとも一つのＦＣ（Ｆｕｌｌｙ－Ｃｏｎｎｅｃｔｅｄ）演算を適用して前記テストデータに対応する前記テスト用のシーンフィーチャーを生成させるプロセスを遂行するか、または遂行するように支援することを特徴とする請求項１０に記載の方法。
前記（ｂ）の段階において、
前記最適化装置は、前記テスト用の特定のサブ－カーネルの前記テスト用のアーキテクチャー情報によって前記ビッグニューラルネットワークモデルの前記スーパーカーネルのカーネルの高さ、カーネルの幅、及びチャンネルの数の中の少なくとも一つを調整して前記ビッグニューラルネットワークモデルを最適化することにより、前記テスト用の特定のサブ－カーネルの前記テスト用のアーキテクチャー情報を持つ前記テスト用の特定のスモールニューラルネットワークモデルを生成するプロセスを遂行するか、または遂行するように支援することを特徴とする請求項８に記載の方法。
サブ－カーネルサーチングモジュール（Ｓｕｂ－ＫｅｒｎｅｌＳｅａｒｃｈｉｎｇＭｏｄｕｌｅ、ＳＳＭ）を利用してオン－デバイスニューラルネットワークモデル（ｏｎ－ｄｅｖｉｃｅｎｅｕｒａｌｎｅｔｗｏｒｋｍｏｄｅｌ）を最適化する学習装置であって、
インストラクションを格納する少なくとも一つのメモリと、
前記インストラクションを実行するために構成された少なくとも一つのプロセッサと、を含み、
前記プロセッサが、（Ｉ）ニューラルネットワークモデルが搭載されたエッジデバイスが許容する最大のコンピューティングパワーを利用して目的とするタスク（ｔａｓｋ）を遂行することができる最大キャパシティ（ｃａｐａｃｉｔｙ）を持つビッグニューラルネットワークモデル（ＢｉｇＮｅｕｒａｌＮｅｔｗｏｒｋＭｏｄｅｌ、Ｂ－ＮＮＭｏｄｅｌ）を、入力された入力データに対する第１インファレンス結果（ｆｉｒｓｔｉｎｆｅｒｅｎｃｅｒｅｓｕｌｔ）を生成するように学習させた状態で、学習データが獲得されると、前記学習データをサブ－カーネルサーチングモジュールに入力し、前記サブ－カーネルサーチングモジュールによって、（ｉ）前記学習データに対応する演算量（ｃｏｍｐｕｔａｔｉｏｎａｌｌｏａｄ）、パラメーター（ｐａｒａｍｅｔｅｒｓ）、レイテンシ（ｌａｔｅｎｃｙ）、正確度（ａｃｃｕｒａｃｙ）、及びフロップス（ｆｌｏｐｓ）に適用された少なくとも一つの制約（ｃｏｎｓｔｒａｉｎｔ）を確認し、（ｉｉ）前記学習データに対応する複雑度、鮮明度の中の少なくとも一つに対する情報を含む状態ベクトル（ｓｔａｔｅｖｅｃｔｏｒ）を生成し、（ｉｉｉ）前記ビッグニューラルネットワークモデルの前記最大キャパシティに対応するスーパーカーネル（ｓｕｐｅｒｋｅｒｎｅｌ）のサブセット（ｓｕｂｓｅｔ）で、前記スーパーカーネルより小さいか同じカーネルの大きさと、少ないか同じチャンネルの数とからなり、前記制約で前記状態ベクトルを持つ前記学習データに対して前記目的とするタスクを遂行することができる最小限のカーネルの大きさと最小限のチャンネルの数とからなる特定のサブ－カーネルのアーキテクチャー情報（ａｒｃｈｉｔｅｃｔｕｒｅｉｎｆｏｒｍａｔｉｏｎ）を生成させるプロセスを遂行するか、または遂行するように支援するステップと、（ＩＩ）（ｉ）前記特定のサブ－カーネルの前記アーキテクチャー情報を参照して前記ビッグニューラルネットワークモデルを最適化し、前記ビッグニューラルネットワークモデルから前記特定のサブ－カーネルの前記アーキテクチャー情報を持つ特定のスモールニューラルネットワークモデル（ＳｍａｌｌＮｅｕｒａｌＮｅｔｗｏｒｋＭｏｄｅｌ、Ｓ－ＮＮＭｏｄｅｌ）を生成し、（ｉｉ）前記特定のスモールニューラルネットワークモデルによって前記学習データに対する第２インファレンス結果（ｓｅｃｏｎｄｉｎｆｅｒｅｎｃｅｒｅｓｕｌｔ）を生成させるプロセスを遂行するか、または遂行するように支援するステップと、（ＩＩＩ）前記第１インファレンス結果と前記第２インファレンス結果とを参照して一つ以上の第１ロスを生成し、前記第１ロスを利用して前記サブ－カーネルサーチングモジュールを学習させるプロセスを遂行するか、または遂行するように支援するステップと、を含む学習装置。
前記（Ｉ）のステップにおいて、
前記プロセッサは、前記サブ－カーネルサーチングモジュールによって、（ｉ）シーンオーバービューイングモジュール（ＳｃｅｎｅＯｖｅｒｖｉｅｗｉｎｇＭｏｄｕｌｅ、ＳＳＭ）を通じて前記学習データに対応するシーンフィーチャー（ｓｃｅｎｅｆｅａｔｕｒｅｓ）を生成させ、前記シーンフィーチャーに対応する前記状態ベクトルを生成させ、（ｉｉ）サブ－カーネルネットワーク生成器（Ｓｕｂ－ｋｅｒｎｅｌＮｅｔｗｏｒｋＧｅｎｅｒａｔｏｒ、ＳＮＧ）を通じて前記制約で前記状態ベクトルを持つ前記学習データに対して前記目的とするタスクを遂行することができる前記最小限のカーネルの大きさと前記最小限のチャンネルの数とからなる前記特定のサブ－カーネルの前記アーキテクチャー情報を生成させるプロセスを遂行するか、または遂行するように支援することを特徴とする請求項１３に記載の学習装置。
前記プロセッサは、（ｉ）与えられた前記制約で前記第１ロスを通じたバックプロパゲーション（ｂａｃｋ－ｐｒｏｐａｇａｔｉｏｎ）を通じて前記第１ロスを最小化するように前記シーンオーバービューイングモジュールと前記サブ－カーネルネットワーク生成器とを学習させ、（ｉｉ）前記状態ベクトルと、これに対応する原本正解（ｇｒｏｕｎｄｔｒｕｔｈ）を参照して一つ以上の第２ロスを生成し、前記第２ロスを最小化するように前記シーンオーバービューイングモジュールをさらに学習させるプロセスを遂行するか、または遂行するように支援することを特徴とする請求項１４に記載の学習装置。
前記シーンオーバービューイングモジュールはコンボリューショナルニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、ＣＮＮ）で構成され、前記サブ－カーネルネットワーク生成器はリカレントニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ、ＲＮＮ）で構成され、
前記プロセッサは前記シーンオーバービューイングモジュールと前記サブ－カーネルネットワーク生成器とをそれぞれ学習させたり同時に学習させるプロセスを遂行するか、または遂行するように支援することを特徴とする請求項１４に記載の学習装置。
前記プロセッサは前記シーンオーバービューイングモジュールの前記コンボリューショナルニューラルネットワークを通じて前記学習データに対して少なくとも一つのコンボリューション（ｃｏｎｖｏｌｕｔｉｏｎ）演算、少なくとも一つのプーリング（ｐｏｏｌｉｎｇ）演算、及び少なくとも一つのＦＣ（全結合：Ｆｕｌｌｙ－Ｃｏｎｎｅｃｔｅｄ）演算を適用して前記学習データに対応する前記シーンフィーチャーを生成させるプロセスを遂行するか、または遂行するように支援することを特徴とする請求項１６に記載の学習装置。
前記（ＩＩ）のステップにおいて、
前記プロセッサは、前記特定のサブ－カーネルの前記アーキテクチャー情報によって前記ビッグニューラルネットワークモデルの前記スーパーカーネルのカーネルの高さ、カーネルの幅、及びチャンネルの数の中の少なくとも一つを調整して前記ビッグニューラルネットワークモデルを最適化することにより、前記特定のサブ－カーネルの前記アーキテクチャー情報を持つ前記特定のスモールニューラルネットワークモデルを生成するプロセスを遂行するか、または遂行するように支援することを特徴とする請求項１３に記載の学習装置。
前記プロセッサは、前記第１インファレンス結果と前記第２インファレンス結果とを参照し、前記第１インファレンス結果と前記第２インファレンス結果との差が既設定された基準値を超える場合、前記学習データと前記特定のスモールニューラルネットワークモデルの前記アーキテクチャー情報とをサーバーに伝送し、前記サーバーによって前記学習データを前記特定のスモールニューラルネットワークモデルでのハードサンプル（ｈａｒｄｓａｍｐｌｅ）としてタグ付け（ｔａｇ）し、学習データベースに追加させるプロセスを遂行するか、または遂行するように支援する請求項１３に記載の学習装置。
サブ－カーネルサーチングモジュール（Ｓｕｂ－ＫｅｒｎｅｌＳｅａｒｃｈｉｎｇＭｏｄｕｌｅ、ＳＳＭ）を利用してオン－デバイスニューラルネットワークモデル（ｏｎ－ｄｅｖｉｃｅｎｅｕｒａｌｎｅｔｗｏｒｋｍｏｄｅｌ）を最適化する最適化装置であって、
インストラクションを格納する少なくとも一つのメモリと、
前記インストラクションを実行するために構成された少なくとも一つのプロセッサと、を含み、
（Ｉ）学習装置によって、（ｉ）ニューラルネットワークモデルが搭載されたエッジデバイスが許容する最大のコンピューティングパワーを利用して目的とするタスク（ｔａｓｋ）を遂行することができる最大キャパシティ（ｃａｐａｃｉｔｙ）を持つビッグニューラルネットワークモデル（ＢｉｇＮｅｕｒａｌＮｅｔｗｏｒｋＭｏｄｅｌ、Ｂ－ＮＮＭｏｄｅｌ）を、入力された入力データに対する第１インファレンス結果（ｆｉｒｓｔｉｎｆｅｒｅｎｃｅｒｅｓｕｌｔ）を生成するように学習させた状態で、学習データが獲得されると、前記学習データをサブ－カーネルサーチングモジュールに入力し、前記サブ－カーネルサーチングモジュールによって、（ｉ－１）前記学習データに対応する演算量（ｃｏｍｐｕｔａｔｉｏｎａｌｌｏａｄ）、パラメーター（ｐａｒａｍｅｔｅｒｓ）、レイテンシ（ｌａｔｅｎｃｙ）、正確度（ａｃｃｕｒａｃｙ）、及びフロップス（ｆｌｏｐｓ）の中の少なくとも一つに適用された学習用制約（ｃｏｎｓｔｒａｉｎｔ）を確認し、（ｉ－２）前記学習データに対応する複雑度、鮮明度の中の少なくとも一つに対する情報を含む学習用状態ベクトル（ｓｔａｔｅｖｅｃｔｏｒ）を生成し、（ｉ－３）前記ビッグニューラルネットワークモデルの前記最大キャパシティに対応するスーパーカーネル（ｓｕｐｅｒｋｅｒｎｅｌ）のサブセット（ｓｕｂｓｅｔ）で、前記スーパーカーネルより小さいか同じカーネルの大きさと、少ないか同じチャンネルの数とからなり、前記学習用制約で前記学習用状態ベクトルを持つ前記学習データに対して前記目的とするタスクを遂行することができる最小限のカーネルの大きさと最小限のチャンネルの数とからなる学習用特定のサブ－カーネルの学習用アーキテクチャー情報（ａｒｃｈｉｔｅｃｔｕｒｅｉｎｆｏｒｍａｔｉｏｎ）を生成させるプロセス、（ｉｉ）（ｉｉ－１）前記学習用特定のサブ－カーネルの前記学習用アーキテクチャー情報を参照して前記ビッグニューラルネットワークモデルを最適化し、前記ビッグニューラルネットワークモデルから前記学習用特定のサブ－カーネルの前記学習用アーキテクチャー情報を持つ学習用特定のスモールニューラルネットワークモデル（ＳｍａｌｌＮｅｕｒａｌＮｅｔｗｏｒｋＭｏｄｅｌ、Ｓ－ＮＮＭｏｄｅｌ）を生成し、（ｉｉ－２）前記学習用特定のスモールニューラルネットワークモデルによって前記学習データに対する第２インファレンス結果（ｓｅｃｏｎｄｉｎｆｅｒｅｎｃｅｒｅｓｕｌｔ）を生成させるプロセス、及び（ｉｉｉ）前記第１インファレンス結果と前記第２インファレンス結果とを参照して一つ以上の第１ロスを生成し、前記第１ロスを利用して前記サブ－カーネルサーチングモジュールを学習させるプロセスが遂行された状態で、前記プロセッサがテストデータを獲得すれば前記テストデータを前記サブ－カーネルサーチングモジュールに入力し、前記サブ－カーネルサーチングモジュールによって、（ｉ）前記テストデータに対応する演算量、パラメーター、レイテンシ、正確度、及びフロップスの中の少なくとも一つに適用されたテスト用の制約（ｃｏｎｓｔｒａｉｎｔ）を確認し、（ｉｉ）前記テストデータに対応する複雑度、鮮明度の中の少なくとも一つに対する情報を含むテスト用の状態ベクトルを生成し、（ｉｉｉ）前記ビッグニューラルネットワークモデルの前記最大キャパシティに対応する前記スーパーカーネルのサブセットで、前記スーパーカーネルより小さいか同じカーネルの大きさと、少ないか同じチャンネルの数とからなり、前記テスト用の制約で前記テスト用の状態ベクトルを持つ前記テストデータに対して前記目的とするタスクを遂行することができる最小限のカーネルの大きさと最小限のチャンネルの数とからなるテスト用の特定のサブ－カーネルのテスト用のアーキテクチャー情報を生成させるプロセスを遂行するか、または遂行するように支援するステップと、（ＩＩ）前記プロセッサが（ｉ）前記テスト用の特定のサブ－カーネルの前記テスト用のアーキテクチャー情報を参照して前記ビッグニューラルネットワークモデルを最適化し、前記ビッグニューラルネットワークモデルから前記テスト用の特定のサブ－カーネルの前記テスト用のアーキテクチャー情報を持つテスト用の特定のスモールニューラルネットワークモデルを生成し、（ｉｉ）前記テスト用の特定のスモールニューラルネットワークモデルによって前記テストデータに対する第３インファレンス結果（ｔｈｉｒｄｉｎｆｅｒｅｎｃｅｒｅｓｕｌｔ）を生成させるプロセスを遂行するか、または遂行するように支援するステップと、を遂行する最適化装置。
前記（Ｉ）のステップにおいて、
前記プロセッサは、前記サブ－カーネルサーチングモジュールによって、（ｉ）シーンオーバービューイングモジュール（ＳｃｅｎｅＯｖｅｒｖｉｅｗｉｎｇＭｏｄｕｌｅ、ＳＳＭ）を通じて前記テストデータに対応するテスト用のシーンフィーチャー（ｓｃｅｎｅｆｅａｔｕｒｅｓ）を生成させ、前記テスト用のシーンフィーチャーに対応する前記テスト用の状態ベクトルを生成させ、（ｉｉ）サブ－カーネルネットワーク生成器（Ｓｕｂ－ｋｅｒｎｅｌＮｅｔｗｏｒｋＧｅｎｅｒａｔｏｒ、ＳＮＧ）を通じて前記テスト用の制約で前記テスト用の状態ベクトルを持つ前記学習データに対して前記目的とするタスクを遂行することができる最小限のカーネルの大きさと、最小限のチャンネルの数とからなる前記テスト用の特定のサブ－カーネルの前記テスト用のアーキテクチャー情報を生成させるプロセスを遂行するか、または遂行するように支援することを特徴とする請求項２０に記載の最適化装置。
前記シーンオーバービューイングモジュールはコンボリューショナルニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、ＣＮＮ）で構成され、前記サブ－カーネルネットワーク生成器はリカレントニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ、ＲＮＮ）で構成されていることを特徴とする請求項２１に記載の最適化装置。
前記プロセッサは、前記シーンオーバービューイングモジュールの前記コンボリューションニューラルネットワークを通じて前記テストデータに対して少なくとも一つのコンボリューション（ｃｏｎｖｏｌｕｔｉｏｎ）演算、少なくとも一つのプーリング（ｐｏｏｌｉｎｇ）演算、及び少なくとも一つのＦＣ（全結合：Ｆｕｌｌｙ－Ｃｏｎｎｅｃｔｅｄ）演算を適用して前記テストデータに対応する前記テスト用のシーンフィーチャーを生成させるプロセスを遂行するか、または遂行するように支援することを特徴とする請求項２２に記載の最適化装置。
前記（ＩＩ）のステップにおいて、
前記プロセッサは、前記テスト用の特定のサブ－カーネルの前記テスト用のアーキテクチャー情報によって前記ビッグニューラルネットワークモデルの前記スーパーカーネルのカーネルの高さ、カーネルの幅、及びチャンネルの数の中の少なくとも一つを調整して前記ビッグニューラルネットワークモデルを最適化することにより、前記テスト用の特定のサブ－カーネルの前記テスト用のアーキテクチャー情報を持つ前記テスト用の特定のスモールニューラルネットワークモデルを生成するプロセスを遂行するか、または遂行するように支援することを特徴とする請求項２０に記載の最適化装置。