JP7295282B2

JP7295282B2 - 適応的ハイパーパラメータセットを利用したマルチステージ学習を通じて自律走行自動車のマシンラーニングネットワークをオンデバイス学習させる方法及びこれを利用したオンデバイス学習装置

Info

Publication number: JP7295282B2
Application number: JP2021576475A
Authority: JP
Inventors: 泓模諸; 鎔重金; 東奎劉; 成顔權
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2020-05-05
Filing date: 2021-05-04
Publication date: 2023-06-20
Anticipated expiration: 2041-05-04
Also published as: US11203361B2; CN114175068A; JP2022539696A; EP3910563A1; WO2021225360A1; KR20210155824A; US20210347379A1

Description

本発明は２０２０年５月５日に出願された米国特許出願第６３／０２０，１０１号及び２０２１年４月１３日に出願された米国特許出願第１７／２２９，３５０号に対する優先権を主張し、これらの出願は本願に参照として組み込まれる。

本発明は自律走行自動車のマシンラーニングネットワークをオンデバイス学習する方法及びそれを利用した装置に関し、より詳細には、自律走行自動車に取り付けられるマシンラーニングネットワークがエンベディッド（Ｅｍｂｅｄｄｅｄ）されたシステム上で適応的ハイパーパラメータセットを利用したマルチステージ学習を通じてオンデバイス学習する方法及びそれを利用したオンデバイス学習装置に関する。

自律走行自動車に適用されているマシンラーニングネットワークを、予め学習していない新しい走行環境に適応させるためには、自律走行自動車が走行しながらセンサ、一例として、カメラ、ライダ、レーダなどを通じて獲得した情報を利用して前記マシンラーニングネットワークを再学習する過程が必要となる。

自律走行自動車から獲得されるデータを使用して学習に利用するための原本正解（ｇｒｏｕｎｄｔｒｕｔｈ）を生成するためのアノテーションを遂行する際、これを自律走行自動車自体で遂行することは困難であるため、マシンラーニングネットワークのベースモデルを生成するか、以前学習に使用された学習用データの一部及び自律走行自動車からリアルタイムに獲得されるデータのうち学習に使用するデータを統合した学習用データセットを構成して自律走行自動車のマシンラーニングネットワークを学習させる方法が提示されている。

特に、従来の方法では、ＯＴＡ（ｏｖｅｒｔｈｅａｉｒ）技術を活用して自律走行自動車においてマシンラーニングネットワークの学習に必要なデータをクラウド（Ｃｌｏｕｄ）に伝送し、サーバサイドからクラウドを通じて伝送されたデータを利用してマシンラーニングネットワークを学習させた後、学習を通じてアップデートされたモデルのみを再び自律走行車両に伝送するオンデバイス学習用技術が注目されている。

しかし、このようなＯＴＡ技術を活用する従来のオンデバイス学習方法はアップデートの周期が遅く、クラウドサーバとのＯＴＡ連結が不可能な状況では使用することができないという限界がある。

従って、クラウドサーバとＯＴＡ連結する過程なく、限定されたコンピューティングパワーを有する自律走行車両内にエンベディッドされたシステムを利用してマシンラーニングネットワークを学習させることができる技術が要求される実情である。

本発明は、前述した問題点を全て解決することをその目的とする。

また、本発明は自律走行自動車に取り付けられるエンベディッドシステム上において、オンデバイスからなるマルチステージ学習を通じて自律走行車両のコンピューティングパワーによってマシンラーニングネットワークの性能を向上させることを他の目的とする。

また、本発明はオンデバイス学習を通じてマシンラーニングネットワークの性能を向上させるために、固定的なハイパーパラメータの代わりにマルチステージ学習を通じて生成された適応的ハイパーパラメータセットを適用して学習することを他の目的とする。

また、本発明はクラウドサーバのＯＴＡ連結を通じてマシンラーニングネットワークのベストモデルを学習するために必要とする時間よりも短い周期内に現在のモデルよりも性能の向上したマシンラーニングネットワークをアップデートすることを他の目的とする。

前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための本発明の特徴的な構成は以下の通りである。

本発明の一態様によると、適応的ハイパーパラメータセットを利用したマルチステージ学習を通じて自律走行自動車のマシンラーニングネットワークをオンデバイス学習させる方法において、（ａ）自律走行自動車の運行中に新しい学習用データを獲得する状態でオンデバイス学習条件を満たす場合、オンデバイス学習装置が、（ｉ）基本ハイパーパラメータセットを参照して現在学習を第１ステージ学習乃至第ｎ（前記ｎは２以上の整数である）ステージ学習に区分し、前記新しい学習用データと以前学習に利用された以前学習用データとを利用して前記第１ステージ学習乃至前記第ｎステージ学習のための第１ステージ学習データ乃至第ｎステージ学習用データを生成し、（ｉｉ）前記基本ハイパーパラメータセットに含まれたハイパーパラメータのそれぞれの基本値を基準に予め設定された範囲内の第１候補値のそれぞれを組合せて第１＿１ハイパーパラメータセット候補乃至第１＿ｈ（前記ｈは２以上の整数である）ハイパーパラメータセット候補を生成し、（ｉｉｉ）前記基本ハイパーパラメータセット及び前記第１＿１ハイパーパラメータセット候補乃至前記第１＿ｈハイパーパラメータセット候補のそれぞれを適用して前記マシンラーニングネットワークをそれぞれ前記第１ステージ学習データを利用して学習させ、（ｉｖ）前記基本ハイパーパラメータセット及び前記第１＿１ハイパーパラメータセット候補乃至前記第１＿ｈハイパーパラメータセット候補のそれぞれを適用して学習された前記マシンラーニングネットワークのそれぞれの性能を評価して性能の最も高い前記マシンラーニングネットワークを前記第１ステージ学習済みマシンラーニングネットワークとして選定し、（ｖ）前記第１ステージ学習済みマシンラーニングネットワークの学習に適用されたハイパーパラメータセットを第１適応的ハイパーパラメータセットとして生成する段階；（ｂ）前記オンデバイス学習装置が、ｋを２からｎ－１まで増加させ、（ｉ）第ｋ－１適応的ハイパーパラメータセットに含まれたハイパーパラメータのそれぞれの第ｋ－１適応値を基準に前記予め設定された範囲内の第ｋ候補値のそれぞれを組合せて第ｋ＿１ハイパーパラメータセット候補乃至第ｋ＿ｈハイパーパラメータセット候補を生成し、（ｉｉ）前記第ｋ－１ハイパーパラメータセット及び前記第ｋ＿１ハイパーパラメータセット候補乃至前記第ｋ＿ｈハイパーパラメータセットのそれぞれを適用して第ｋ－１ステージ学習済みマシンラーニングネットワークをそれぞれ前記第ｋステージ学習用データを利用して学習させ、（ｉｉｉ）前記第ｋ－１適応的ハイパーパラメータセット及び前記第ｋ＿１ハイパーパラメータセット候補乃至前記第ｋ＿ｈハイパーパラメータセット候補のそれぞれを適用して学習された前記第ｋ－１ステージ学習済みマシンラーニングネットワークのそれぞれの性能を評価して性能の最も高い前記第ｋ－１ステージ学習済みマシンラーニングネットワークを第ｋステージ学習済みマシンラーニングネットワークとして選定し、（ｉｖ）前記第ｋステージ学習済みマシンラーニングネットワークの学習に適用されたハイパーパラメータセットを第ｋ適応的ハイパーパラメータセットとして生成する段階；及び（ｃ）前記オンデバイス学習装置が、（ｉ－１）前記第１適応的ハイパーパラメータセット乃至第ｎ－１適応的ハイパーパラメータセットのそれぞれと、（ｉ－２）前記第１ステージ学習により学習されたマシンラーニングネットワーク乃至第ｎ－１ステージ学習により学習されたマシンラーニングネットワークのそれぞれの性能評価結果とを参照して構築した最適化関数を使用して第ｎ適応的ハイパーパラメータセットを生成し、（ｉｉ）前記第ｎ適応的ハイパーパラメータセットを適用して前記第ｎ－１ステージ学習済みマシンラーニングネットワークを前記第ｎステージ学習用データを利用して第ｎステージ学習させることによって前記現在学習を完了する段階；を含むことを特徴とする方法が提供される。

一例として、（ｄ）前記オンデバイス学習装置は、（ｉ）前記現在学習が完了した状態で前記マシンラーニングネットワークの性能が一定の閾値以上向上していない場合、前記マシンラーニングネットワークをアップデートすることなく、次回のオンデバイス学習条件を満たすまで前記マシンラーニングネットワークを利用して前記自律走行自動車が運行されるようにするプロセス、及び（ｉｉ）前記現在学習が完了した状態で前記マシンラーニングネットワークの性能が一定の閾値以上向上した場合、前記マシンラーニングネットワークを現在学習済みマシンラーニングネットワークにアップデートし、前記次回のオンデバイス学習条件を満たすまで前記現在学習済みマシンラーニングネットワークを利用して前記自律走行自動車が運行されるようにするプロセスを遂行する段階をさらに含むことを特徴とする方法が提供される。

一例として、前記オンデバイス学習装置は、前記第ｋステージ学習済みマシンラーニングネットワークの性能が前記第ｋ－１ステージ学習済みマシンラーニングネットワークの性能よりも高い場合、第ｋ＋１適応的ハイパーパラメータセット乃至前記第ｎ適応的ハイパーパラメータセットのそれぞれを前記第ｋ適応的ハイパーパラメータセットと同一に設定することを特徴とする方法が提供される。

一例として、前記オンデバイス学習装置は、前記第１適応的ハイパーパラメータセット乃至前記第ｎ適応的ハイパーパラメータセットに含まれた少なくとも一つのハイパーパラメータの適応値を同一に維持する方法が提供される。

一例として、前記オンデバイス学習装置は、前記第ｋステージ学習により学習されたマシンラーニングネットワークの性能が前記第ｋ－１ステージ学習により学習されたマシンラーニングネットワークの性能よりも高い場合、前記第ｋステージ学習を前記第ｎステージ学習として設定することによって前記現在学習を完了することを特徴とする方法が提供される。

一例として、前記（ａ）段階で、前記自律走行自動車に取り付けられたセンサにより獲得されたセンシングデータが獲得されると、前記マシンラーニングネットワークが前記センシングデータを分析して前記自律走行自動車の走行情報に対するアウトプットデータを生成した状態で、前記オンデバイス学習装置が、前記センシングデータと前記センシングデータのそれぞれに対応するアウトプットデータとを前記データセレクションネットワークに入力することで、前記データセレクションネットワークをもって、前記アウトプットデータを参照して前記マシンラーニングネットワークの学習に使用される特定のセンシングデータを選定させ、選定された特定のセンシングデータを前記新しい学習用データとして格納させることを特徴とする方法が提供される。

一例として、前記ハイパーパラメータは、学習アルゴリズム設定、ミニバッチサイズ、マキシマムステージ、及び前記各ステージ別マキシマムエポックのうち少なくとも一つを含むことを特徴とする方法が提供される。

一例として、前記（ａ）段階で、前記オンデバイス学習装置は、前記マシンラーニングネットワークのベースモデルとして予め決定されたハイパーパラメータセットを前記基本ハイパーパラメータセットとして選択するか、以前学習により生成されたベストハイパーパラメータセットを前記基本ハイパーパラメータセットとして選択することを特徴とする方法が提供される。

本発明の一態様によると、適応的ハイパーパラメータセットを利用したマルチステージ学習を通じて自律走行自動車のマシンラーニングネットワークをオンデバイス学習させる装置において、インストラクションを格納する少なくとも一つのメモリ遂行及び前記インストラクションを遂行するように設定された一つ以上のプロセッサを含み、前記プロセッサが、（Ｉ）自律走行自動車の運行中に新しい学習用データを獲得する状態でオンデバイス学習条件を満たす場合、基本ハイパーパラメータセットを参照して現在学習を第１ステージ学習乃至第ｎ（前記ｎは２以上の整数である）ステージ学習に区分し、前記新しい学習用データと以前学習に利用された以前学習用データとを利用して前記第１ステージ学習乃至前記第ｎステージ学習のための第１ステージ学習データ乃至第ｎステージ学習用データを生成し、前記基本ハイパーパラメータセットに含まれたハイパーパラメータのそれぞれの基本値を基準に予め設定された範囲内の第１候補値のそれぞれを組合せて第１＿１ハイパーパラメータセット候補乃至第１＿ｈ（前記ｈは２以上の整数である）ハイパーパラメータセット候補を生成して前記基本ハイパーパラメータセット及び前記第１＿１ハイパーパラメータセット候補乃至前記第１＿ｈハイパーパラメータセット候補のそれぞれを適用して前記マシンラーニングネットワークをそれぞれ前記第１ステージ学習データを利用して学習させ、（ｉｖ）前記基本ハイパーパラメータセット及び前記第１＿１ハイパーパラメータセット候補乃至前記第１＿ｈハイパーパラメータセット候補のそれぞれを適用して学習された前記マシンラーニングネットワークのそれぞれの性能を評価して性能の最も高い前記マシンラーニングネットワークを前記第１ステージ学習済みマシンラーニングネットワークとして選定し、（ｖ）前記第１ステージ学習済みマシンラーニングネットワークの学習に適用されたハイパーパラメータセットを第１適応的ハイパーパラメータセットとして生成するプロセス、（ＩＩ）ｋを２からｎ－１まで増加させ、第ｋ－１適応的ハイパーパラメータセットに含まれたハイパーパラメータのそれぞれの第ｋ－１適応値を基準に前記予め設定された範囲内の第ｋ候補値のそれぞれを組合せて第ｋ＿１ハイパーパラメータセット候補乃至第ｋ＿ｈハイパーパラメータセット候補を生成し、前記第ｋ－１ハイパーパラメータセット及び前記第ｋ＿１ハイパーパラメータセット候補乃至前記第ｋ＿ｈハイパーパラメータセットのそれぞれを適用して第ｋ－１ステージ学習済みマシンラーニングネットワークをそれぞれ前記第ｋステージ学習用データを利用して学習させ、前記第ｋ－１適応的ハイパーパラメータセット及び前記第ｋ＿１ハイパーパラメータセット候補乃至前記第ｋ＿ｈハイパーパラメータセット候補のそれぞれを適用して学習された前記第ｋ－１ステージ学習済みマシンラーニングネットワークのそれぞれの性能を評価して性能の最も高い前記第ｋ－１ステージ学習済みマシンラーニングネットワークを第ｋステージ学習済みマシンラーニングネットワークとして選定し、前記第ｋステージ学習済みマシンラーニングネットワークの学習に適用されたハイパーパラメータセットを第ｋ適応的ハイパーパラメータセットとして生成するプロセス及び（ＩＩＩ）前記第１適応的ハイパーパラメータセット乃至第ｎ－１適応的ハイパーパラメータセットのそれぞれと、前記第１ステージ学習により学習されたマシンラーニングネットワーク乃至第ｎ－１ステージ学習により学習されたマシンラーニングネットワークのそれぞれの性能評価結果とを参照して構築した最適化関数を使用して第ｎ適応的ハイパーパラメータセットを生成し、前記第ｎ適応的ハイパーパラメータセットを適用して前記第ｎ－１ステージ学習済みマシンラーニングネットワークを前記第ｎステージ学習用データを利用して第ｎステージ学習させることによって前記現在学習を完了するプロセスを遂行する学習装置が提供される。

一例として、（ＩＶ）前記プロセッサは、前記現在学習が完了した状態で前記マシンラーニングネットワークの性能が一定の閾値以上向上していない場合、前記マシンラーニングネットワークをアップデートすることなく、次回のオンデバイス学習条件を満たすまで前記マシンラーニングネットワークを利用して前記自律走行自動車が運行されるようにするプロセス、及び前記現在学習が完了した状態で前記マシンラーニングネットワークの性能が一定の閾値以上向上した場合、前記マシンラーニングネットワークを現在学習済みマシンラーニングネットワークにアップデートし、前記次回のオンデバイス学習条件を満たすまで前記現在学習済みマシンラーニングネットワークを利用して前記自律走行自動車が運行されるようにするプロセスをさらに遂行する装置を提供する。

一例として、前記プロセッサは、前記第ｋステージ学習済みマシンラーニングネットワークの性能が前記第ｋ－１ステージ学習済みマシンラーニングネットワークの性能よりも高い場合、第ｋ＋１適応的ハイパーパラメータセット乃至前記第ｎ適応的ハイパーパラメータセットのそれぞれを前記第ｋ適応的ハイパーパラメータセットと同一に設定することを特徴とする装置を提供する。

一例として、前記（ＩＩ）プロセスで、前記プロセッサは、前記第１適応的ハイパーパラメータセット乃至前記第ｎ適応的ハイパーパラメータセットに含まれた少なくとも一つのハイパーパラメータの適応値を同一に維持する装置を提供する。

一例として、前記プロセッサは、前記第ｋステージ学習済みマシンラーニングネットワークの性能が前記第ｋ－１ステージ学習済みマシンラーニングネットワークの性能よりも高い場合、前記第ｋステージ学習を前記第ｎステージ学習として設定することによって前記現在学習を完了することを特徴とする装置を提供する。

一例として、前記（Ｉ）プロセスで、前記自律走行自動車に取り付けられたセンサにより獲得されたセンシングデータが獲得されると、前記マシンラーニングネットワークがディープラーニング基盤に前記センシングデータを分析して前記自律走行自動車の走行情報に対するアウトプットデータを生成した状態で、前記プロセッサは、前記センシングデータと前記センシングデータのそれぞれに対応するアウトプットデータとを前記データセレクションネットワークに入力することで、前記データセレクションネットワークをもって、前記アウトプットデータを参照して前記マシンラーニングネットワークの学習に使用される特定のセンシングデータを選定させ、選定された特定のセンシングデータを前記新しい学習用データとして格納させることを特徴とする装置を提供する。

一例として、前記ハイパーパラメータは、学習アルゴリズム設定、ミニバッチサイズ、マキシマムステージ、及び前記各ステージ別マキシマムエポックのうち少なくとも一つを含むことを特徴とする装置を提供する。

一例として、前記（Ｉ）段階で、前記プロセッサは、前記マシンラーニングネットワークのベースモデルとして予め決定されたハイパーパラメータセットを前記基本ハイパーパラメータセットとして選択するか、以前学習により生成されたベストハイパーパラメータセットを前記基本ハイパーパラメータセットとして選択することを特徴とする装置を提供する。

その他にも、本発明の方法を実行するためのコンピュータプログラムを格納するためのコンピュータ読取り可能な記録媒体がさらに提供される。

本発明は自律走行自動車に取り付けられるエンベディッドシステム上において、オンデバイスからなるマルチステージ学習を通じて自律走行車両のコンピューティングパワーによってマシンラーニングネットワークの性能を向上させることができるという他の効果を有する。

また、本発明はオンデバイス学習を通じてマシンラーニングネットワークの性能を向上させるために、固定的なハイパーパラメータの代わりにマルチステージ学習を通じて生成された適応的ハイパーパラメータセットを適用して学習することができるという他の効果を有する。

また、本発明はクラウドサーバのＯＴＡ連結を通じてマシンラーニングネットワークのベストモデルを学習するために必要とする時間よりも短い周期内に現在のモデルよりも性能の向上したマシンラーニングネットワークをアップデートすることができるという他の効果を有する。

本発明の実施例の説明に利用されるために添付された以下の図面は、本発明の実施例のうち単に一部であるに過ぎず、本発明の属する技術分野において通常の知識を有する者（以下「通常の技術者」）にとっては、発明的作業が行われずにこれらの図面に基づいて他の各図面が得られ得る。

図１は本発明の一実施例において、適応的ハイパーパラメータセットを利用したマルチステージ学習を通じて自律走行自動車のマシンラーニングネットワークをオンデバイス学習させるオンデバイス学習装置を簡略に示した図面である。図２は本発明の一実施例において、適応的ハイパーパラメータセットを利用したマルチステージ学習を通じて自律走行自動車のマシンラーニングネットワークをオンデバイス学習させる方法を簡略に示した図面である。図３は本発明の一実施例において、ハイパーパラメータセットの構成を簡略に示した図面である。図４は本発明の一実施例によってそれぞれのステージ学習を通じて適応的ハイパーパラメータセットを生成し、生成された適応的ハイパーパラメータセットを活用してマシンラーニングネットワークをマルチステージ学習させる方法を簡略に示した図面である。

後述する本発明に関する詳細な説明は、本発明の各目的、各技術的解法、及び各長所を明らかにするために本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、通常の技術者が本発明を実施することができるように十分詳細に説明される。

また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。

さらに、本発明は、本明細書に示された実施例のすべての可能な組合せを網羅する。本発明の多様な実施例は互いに異なるが、相互に排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造及び特性は、一実施例に関連して本発明の精神及び範囲を逸脱せず、かつ他の実施例で具現され得る。また、それぞれの開示された実施例内の個別の構成要素の位置又は配置は、本発明の精神及び範囲を逸脱せず、かつ変更され得ることが理解されるべきである。したがって、後述の詳細な説明は、限定的な意味として受け取ろうとするものではなく、本発明の範囲は適切に説明されるのであれば、その請求項が主張することと均等な全ての範囲とともに添付された請求項によってのみ限定される。図面において類似の参照符号は、様々な側面にわたって同一であるか、又は類似の機能を指す。

以下、本発明の属する技術分野において通常の知識を有する者が本発明を容易に実施し得るようにするために、本発明の好ましい実施例について、添付された図面を参照して詳細に説明することにする。

図１は本発明の一実施例において、適応的ハイパーパラメータセットを利用したマルチステージ学習を通じて自律走行自動車のマシンラーニングネットワークをオンデバイス学習させるオンデバイス学習装置１０００を簡略に示した図面である。

図１を参照すると、オンデバイス学習装置１０００は適応的ハイパーパラメータセットを利用したマルチステージ学習を通じて自律走行自動車のマシンラーニングネットワークをオンデバイス学習させるための各インストラクションが格納されたメモリ１００１とメモリ１００１に格納された各インストラクションとによって適応的ハイパーパラメータセットを利用したマルチステージ学習を通じて自律走行自動車のマシンラーニングネットワークをオンデバイス学習させるための動作を遂行するプロセッサ１００２とを含むことができる。

具体的には、オンデバイス学習装置１０００は、典型的にコンピューティング装置（例えば、コンピュータプロセッサ、メモリ、ストレージ、入力装置及び出力装置、その他既存のコンピューティング装置の構成要素を含むことができる装置；ルータ、スイッチなどのような電子通信装置；ネットワーク接続ストレージ（ＮＡＳ）及びストレージ領域ネットワーク（ＳＡＮ）のような電子情報ストレージシステム）及びコンピュータソフトウェア（即ち、コンピューティング装置をもって特定の方式で機能させる各インストラクション）の組合せを利用して所望のシステム性能を達成するものであり得る。

また、コンピューティング装置のプロセッサはＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）またはＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、キャッシュメモリ（ＣａｃｈｅＭｅｍｏｒｙ）、データバス（ＤａｔａＢｕｓ）などのハードウェア構成を含むことができる。また、コンピューティング装置はオペレーティングシステム、特定の目的を遂行するアプリケーションのソフトウェア構成をさらに含むことができる。

しかし、コンピューティング装置が本発明を実施するためのミディアム、プロセッサ及びメモリが統合された形態である統合プロセッサを含む場合を排除するわけではない。

このように構成された本発明の一実施例において、オンデバイス学習装置１０００を参照して適応的ハイパーパラメータセットを利用したマルチステージ学習を通じて自律走行自動車のマシンラーニングネットワークをオンデバイス学習させる方法を図２乃至図４を参照して説明すると次の通りである。

図２を参照すると、自律走行自動車の運行中に、前記自律走行自動車に取り付けられた各種のセンサを通じてセンシングされるセンシングデータが獲得されると、自律走行自動車のマシンラーニングネットワークはディープラーニング基盤にセンシングデータを分析して自律走行自動車の走行に関する情報を含むアウトプットデータ獲得し、獲得されたアウトプットデータを参照して自律走行自動車が走行することができるようにすることができる。

この際、前記センサは、カメラ、レーダ（ｒａｄａｒ）、ライダ（ｌｉｄａｒ）などを含むことができ、様々なセンサを融合した形態であり得る。また、前記センシングデータはセンサの特定の視野角範囲に該当する領域の環境情報を含むか、センサの周辺全体の環境情報を含むことができる。そして、センシングデータは自動車の周辺を撮影したビデオまたはイメージ、自動車の各種のセンサからセンシングされる走行情報であるが、本発明がこれに限定されるわけではなく、自律走行自動車の走行中にセンシングされる全ての種類のデータを含むことができる。

また、前記マシンラーニングネットワーク５００はディープラーニング学習基盤のネットワークなどを含むことができ、撮影された走行イメージを分析して自律走行自動車の走行環境に伴う物体情報、車線情報などの走行環境情報を出力する物体検出器（ｏｂｊｅｃｔｄｅｔｅｃｔｏｒ）、分類ネットワーク（ｃｌａｓｓｉｆｉｃａｔｉｏｎｎｅｔｗｏｒｋ）及びセグメンテーションネットワーク（ｓｅｇｍｅｎｔａｔｉｏｎｎｅｔｗｏｒｋ）などを含むことができ、その他にも走行環境に対する分析を基盤に自律走行自動車の走行を支援する様々な作業、一例として行動予測（ｂｅｈａｖｉｏｒｐｒｅｄｉｃｔｉｏｎ）及びリスク探知（ｒｉｓｋｄｅｔｅｃｔｉｏｎ）などを遂行する様々なネットワークを含むことができる。

このような自律走行自動車の運行中に、オンデバイス学習装置１０００は、前記センシングデータと前記センシングデータのそれぞれに対応するマシンラーニングネットワーク５００のアウトプットデータとを参照して自律走行自動車が繰り返して走行する環境または新たに走行する環境に適応するように前記マシンラーニングネットワーク５００の性能を改善するための学習に有用な特定のセンシングデータを選定し、選定された特定のセンシングデータを新しい学習用データベース４１０に格納することができる。

一例として、前記マシンラーニングネットワーク５００が走行環境に関する物体を探索し、前記物体のクラスを分類するためのＣＮＮ（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）基盤の物体検出器の場合、前記センシングデータから検出されたそれぞれの物体に対する検出確率分布情報を参照して前記マシンラーニングネットワーク５００の学習に使用する特定のセンシングデータを選定することができる。

具体的に、前記センシングデータから検出された前記物体のそれぞれの検出確率が予め設定された確率よりも低い場合、該当センシングデータを前記マシンラーニングネットワーク５００が分類し難いデータであるハードサンプルに分類した後、これを新しい学習用データとして選定して新しい学習用データベース４１０に格納することができる。しかし、前記マシンラーニングネットワーク５００の性能を向上させるためのセンシングデータを選択する方法はこれに限定されるわけではなく、学習に有用な特定のセンシングデータを選定する様々な方法が適用され得る。この際、予め設定された確率は前記マシンラーニングネットワーク５００により検出された物体の分類結果を比較するために予め決定された確率であり得る。

一方、前記ではオンデバイス学習装置１０００がマシンラーニングネットワーク５００の学習に有用な特徴センシングデータを選定したが、これとは異なり、オンデバイス学習装置１０００は前記センシングデータと前記センシングデータのそれぞれに対応する前記マシンラーニングネットワーク５００の前記アウトプットデータとをディープラーニング基盤のデータセレクションネットワーク３００に入力することで、前記データセレクションネットワーク３００をもって、前記アウトプットデータを参照して前記マシンラーニングネットワーク５００の学習に有用な特定のセンシング情報を選定させることができる。

次に、前記のような方法により自律走行自動車の運行中に獲得されるセンシングデータのうちマシンラーニングネットワークの学習に有用な特定のセンシング情報である新しい学習用データを収集する状態で、少なくとも一つ以上のオンデバイス学習コンディション、一例として、予め設定された時間条件、予め設定された学習データの個数条件、予め設定された自律走行自動車の運行状態条件などを満たす場合、オンデバイス学習装置１０００は前記マシンラーニングネットワーク５００の基本ハイパーパラメータセットを参照して現在学習を第１ステージ学習乃至第ｎステージ学習に区分することができる。この際、前記ｎは２以上の整数である。

一例として、オンデバイス学習装置１０００はハイパーパラメータセレクションネットワーク２００をもって前記マシンラーニングネットワーク５００の前記基本ハイパーパラメータセットを参照して前記現在学習を前記第１ステージ学習乃至前記第ｎステージ学習に区分させることができる。

一方、図３を参照すると、ハイパーパラメータセット３０には１個以上のハイパーパラメータが含まれ得る。一例として、ハイパーパラメータセット３０は学習アルゴリズムのパラメータ（Ｌ）、ミニバッチのサイズ（Ｂ）、最大ステージの数（Ｄ）、及びステージ別マキシマムエポック（ｅｐｏｃｈ）（Ｅ）を含むことができるが、本発明がこれに限定されるわけではなく、学習性能を向上させるための様々なハイパーパラメータの組合せが含まれ得る。また、前記学習アルゴリズムのパラメータ（Ｌ）はＳＧＤ、Ａｄａｍ、ＡｄａＧｒａｄ、ＲＭＳＰｒｏｐなどのような学習アルゴリズムのオプティマイザ（ｏｐｔｉｍｉｚｅｒ）種類を選択するカテゴリーと、学習レート、重み減衰（ｗｅｉｇｈｔｄｅｃａｙ）、モメンタム（ｍｏｍｅｎｔｕｍ）、ダムピング（ｄａｍｐｉｎｇ）などの付加パラメータを含むカテゴリーを含むことができる。

この際、オンデバイス学習装置１０００またはオンデバイス学習装置１０００の前記ハイパーパラメータセレクションネットワーク２００は、前記マシンラーニングネットワーク５００のベースモデル学習のために予め決定されたハイパーパラメータの基本値を使用して次の数式のように基本ハイパーパラメータセットを生成することができる。この際、前記ベースモデルは工場初期化時点の前記マシンラーニングネットワーク５００であり得、前記基本値は前記基本ハイパーパラメータセットに含まれたそれぞれのハイパーパラメータの値である。

Ｈ_init＝｛Ｌ_pre，Ｂ_pre，Ｄ_pre，Ｅ_pre｝

また、オンデバイス学習装置１０００またはオンデバイス学習装置１０００のハイパーパラメータセレクションネットワーク２００は、前記マシンラーニングネットワーク５００の過去の学習のうち最高の性能を有する前記マシンラーニングネットワーク５００のハイパーパラメータの最高性能値を使用して次の数式のように基本ハイパーパラメータセットを生成することができる。この際、前記最高性能値は前記最高の性能を有するマシンラーニングネットワークに適用されたそれぞれのハイパーパラメータの値である。

Ｈ_init＝｛Ｌ_opt，Ｂ_opt，Ｄ_opt，Ｅ_opt｝

この際、Ｌにおける前記付加パラメータの基本値は一般的に０に近い小さい数であり得、Ｌのオプティマイザ、Ｂ、Ｄ、Ｅは学習に利用されるデータセットの大きさとオンデバイス学習装置１０００のコンピュータ能力とを考慮して選択され得る。

また、図２を参照すると、前記オンデバイス学習装置１０００は前記新しい学習用データベース４１０及び以前学習用データベース４２０に格納された前記新しい学習用データ及び以前学習用データをサンプリングして前記現在学習のための学習用データセットを生成し、これを第１ステージ学習用データ乃至第ｎステージ学習用データとして指定させるか、前記基本ハイパーパラメータセットによってそれぞれのステージ学習に使用する複数の学習用データセットを生成し、これを前記第１ステージ学習用データ乃至前記第ｎステージ学習用データとして指定させることができる。また、オンデバイス学習装置１０００はネットワークトレーナ１００をもって前記のような方法で前記第１ステージ学習用データ乃至前記第ｎステージ学習用データとして指定させることができる。

この際、前記学習用データセットをサンプリングすることは前記現在学習の進行過程のうちある時点に行われることであり得、または場合によってそれぞれのステージ学習毎に数回にわたってサンプリングが進行され得るが、本発明が学習用データセットをサンプリングする時点及び方法はこれに限定されるわけではない。

また、前記以前学習用データは前記マシンラーニングネットワーク５００のベースモデルの学習または以前学習に使用されたデータとして原本正解がラベリングされたラベルドデータ（ｌａｂｅｌｅｄｄａｔａ）であり得、前記新しい学習用データは原本正解がラベリングされていないアンラベルドデータ（ｕｎｌａｂｅｌｅｄｄａｔａ）であり得る。この際、別途に構成されたオートラベリングネットワークを通じてクラスラベリングを遂行するか、マニュアルラベリングなど様々な方法を通じて前記新しい学習用データのアノテーションを進行することができる。また、以前学習用ラベルドデータと新しい学習用アンラベルドデータとを利用した準指導学習（ｓｅｍｉ－ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）を遂行することができる。

次に、オンデバイス学習装置１０００は、基本ハイパーパラメータセットを参照して前記基本ハイパーパラメータセットに含まれたハイパーパラメータのそれぞれの基本値を基準に予め設定された範囲内の第１候補値のそれぞれを組合せて第１＿１ハイパーパラメータセット候補乃至第１＿ｈハイパーパラメータセット候補を生成することができる。この際、前記ｈは２以上の整数である。また、オンデバイスラーニングデバイス１０００はハイパーパラメータセレクションネットワーク２００をもって前記基本ハイパーパラメータセットを参照して前記第１＿１ハイパーパラメータセット候補乃至前記第１＿ｈハイパーパラメータセット候補を生成させることができる。

一例として、前記オンデバイス学習装置１０００または前記オンデバイス学習装置１０００の前記ハイパーパラメータセレクションネットワーク２００は、前記マシンラーニングネットワーク５００のベースモデルとして予め決定されたハイパーパラメータの基本値を使用して次の数式のように基本ハイパーパラメータセットを生成することができる。

Ｈ_init＝｛Ｌ_pre，Ｂ_pre，Ｄ_pre，Ｅ_pre｝＝｛０．１_pre，５_pre，５_pre，１０_pre｝

この際、前記オンデバイス学習装置１０００または前記オンデバイス学習装置１０００の前記ハイパーパラメータセレクションネットワーク２００は、前記それぞれのハイパーパラメータの基本値のそれぞれを基準に予め設定された範囲内の第１候補値を決定することができる。即ち、それぞれのハイパーパラメータの第１候補値はＬ₁＝｛０．１２，０．１１，０．０９，０．０８｝、Ｂ₁＝｛７，６，４，３｝、Ｄ₁＝｛８，７，６，４，３，２｝、Ｅ_１＝｛６，８，１２，１４｝のようで構成され得、それぞれのハイパーパラメータ毎に異なる範囲が予め設定され得る。そして前記オンデバイス学習装置１０００または前記オンデバイス学習装置１０００の前記ハイパーパラメータセレクションネットワーク２００は前記それぞれのハイパーパラメータの第１候補値のうち一つの値をそれぞれ組合せて前記ハイパーパラメータセット候補を生成することができる。一例として、前記第１＿１ハイパーパラメータセット候補乃至前記第１＿ｈハイパーパラメータセット候補は、Ｈ_{1_1can}＝｛０．１２，７，８，６｝乃至Ｈ_{1_hcan}＝｛０．０８，３，２，１４｝のような組合せで生成され得る。

これとは異なり、前記オンデバイス学習装置１０００または前記オンデバイス学習装置１０００の前記ハイパーパラメータセレクションネットワーク２００は前記第１候補値を利用して組合せることができる全てのハイパーパラメータセット候補のうちランダムにｈ個を選定して前記第１＿１ハイパーパラメータセット候補乃至前記第１＿ｈハイパーパラメータセット候補を生成することができる。

次に、オンデバイス学習装置１０００は、前記基本ハイパーパラメータセット及び前記第１＿１ハイパーパラメータセット候補乃至前記第１＿ｈハイパーパラメータセット候補のそれぞれによってそれぞれ前記第１ステージ学習データを利用して前記マシンラーニングネットワークを学習させることができる。

一例として、前記オンデバイス学習装置１０００は、前記ハイパーパラメータセレクションネットワーク２００をもって、前記基本ハイパーパラメータセット、前記第１＿１ハイパーパラメータセット候補乃至前記第１＿ｈハイパーパラメータセット候補をネットワークトレーナ１００に伝達させる。そして、前記オンデバイス学習装置１０００は前記ネットワークトレーナ１００をもって、前記基本ハイパーパラメータセット及び前記第１＿１ハイパーパラメータセット候補乃至前記第１＿ｈハイパーパラメータセット候補のそれぞれによって前記第１学習用データを利用して前記マシンラーニングネットワーク５００をそれぞれ学習させることができる。

また、前記オンデバイス学習装置１０００は前記ハイパーパラメータセレクションネットワーク２００をもって、前記基本ハイパーパラメータセット、前記第１＿１ハイパーパラメータセット候補乃至前記第１＿ｈハイパーパラメータセット候補のそれぞれを順次にネットワークトレーナ１００に伝達させ、前記ネットワークトレーナ１００をもって順次に伝達される前記基本ハイパーパラメータセット及び前記第１＿１ハイパーパラメータセット候補乃至前記第１＿ｈハイパーパラメータセット候補のそれぞれによって前記第１学習用データを利用して前記マシンラーニングネットワーク５００をそれぞれ学習させることができる。

即ち、前記オンデバイス学習装置１０００は、前記ハイパーパラメータセレクションネットワーク２００をもって前記基本ハイパーパラメータセットを前記ネットワークトレーナ１００に伝送させ、前記ネットワークトレーナ１００をもって前記基本ハイパーパラメータセットによって前記第１学習用データを利用して前記マシンラーニングネットワーク５００を学習させることができる。そして、前記オンデバイス学習装置１０００は、前記ハイパーパラメータセレクションネットワーク２００をもって前記第１＿１ハイパーパラメータセットを前記ネットワークトレーナ１００に伝送させ、前記ネットワークトレーナ１００をもって前記第１＿１ハイパーパラメータセットによって前記第１ステージ学習用データを利用して前記マシンラーニングネットワーク５００を学習させることができる。以後、前記オンデバイス学習装置１０００は同一の方法で、前記ハイパーパラメータセレクションネットワーク２００をもって第１＿２ハイパーパラメータセット乃至前記第１＿ｈハイパーパラメータセットのそれぞれを順次に前記ネットワークトレーナ１００に伝送させ、前記ネットワークトレーナ１００をもって順次に伝送される第１＿２ハイパーパラメータセット乃至前記第１＿ｈハイパーパラメータセットのそれぞれによって前記第１学習用データを利用して前記マシンラーニングネットワーク５００をそれぞれ学習させることができる。

次に、オンデバイス学習装置１０００は、前記基本ハイパーパラメータセット及び前記第１＿１ハイパーパラメータセット候補乃至前記第１＿ｈハイパーパラメータセット候補のそれぞれを適用して学習された前記マシンラーニングネットワーク５００のそれぞれの性能を評価して性能の最も高い前記マシンラーニングネットワーク５００を前記第１ステージ学習済みマシンラーニングネットワーク５００として選定し、前記第１ステージ学習済みマシンラーニングネットワーク５００の学習に適用されたハイパーパラメータセット３０を第１適応的ハイパーパラメータセットとして生成することができる。

一例として、オンデバイス学習装置１０００は前記ネットワークトレーナ１００をもって検証データを利用して前記基本ハイパーパラメータセット及び前記第１＿１ハイパーパラメータセット候補乃至前記第１＿ｈハイパーパラメータセット候補のそれぞれを適用して学習された前記マシンラーニングネットワーク５００のそれぞれを交差検証して獲得した性能評価結果を前記ハイパーパラメータセレクションネットワーク２００に伝送させることができる。そして、オンデバイス学習装置１０００は前記ハイパーパラメータセレクションネットワーク２００をもって交差検証された性能評価結果を参照して、最も高い性能を有する前記マシンラーニングネットワーク５００を前記第１ステージ学習済みマシンラーニングネットワーク５００として選定させ、前記第１ステージ学習を通じて学習されたマシンラーニングネットワーク５００の学習に使用されたハイパーパラメータセット３０を第１適応的ハイパーパラメータセットとして生成させることができる。

これで、オンデバイス学習装置１０００は前記第１ステージ学習を完了することで前記第１適応的ハイパーパラメータセットを生成し、前記第１適応的ハイパーパラメータセットを使用して次のステージ学習を進行することができる。

次に、前記第１ステージ学習が完了した状態で、前記オンデバイス学習装置１０００は、ｋを２からｎ－１まで増加させ、第ｋ－１適応的ハイパーパラメータセットに含まれたハイパーパラメータのそれぞれの第ｋ－１適応値を基準に前記予め設定された範囲内の第ｋ候補値のそれぞれを組合せて第ｋ＿１ハイパーパラメータセット候補乃至第ｋ＿ｈハイパーパラメータセット候補を生成することができる。この際、前記適応的値は前記適応的ハイパーパラメータセットに含まれたそれぞれのハイパーパラメータの値である。

次に、オンデバイス学習装置１０００は、前記第ｋ－１ハイパーパラメータセット及び前記第ｋ＿１ハイパーパラメータセット候補乃至前記第ｋ＿ｈハイパーパラメータセットのそれぞれを適用して第ｋ－１ステージ学習済みマシンラーニングネットワーク５００をそれぞれ前記第ｋステージ学習用データを利用して学習させることができる。

次に、オンデバイス学習装置１０００は、前記第ｋ－１適応的ハイパーパラメータセット及び前記第ｋ＿１ハイパーパラメータセット候補乃至前記第ｋ＿ｈハイパーパラメータセット候補のそれぞれを適用して学習された前記第ｋ－１ステージ学習済みマシンラーニングネットワーク５００のそれぞれの性能を評価して性能の最も高い前記第ｋ－１ステージ学習済みマシンラーニングネットワーク５００を第ｋステージ学習済みマシンラーニングネットワーク５００として選定し、前記第ｋステージ学習済みマシンラーニングネットワーク５００の学習に適用されたハイパーパラメータセット３０を第ｋ適応的ハイパーパラメータセットとして選定することができる。

この際、前記オンデバイス学習装置１０００は、前記オンデバイス学習装置１０００または他の装置を通じて前述した方法を繰り返して前記第１ステージ学習乃至前記第ｎ－１ステージ学習を順次に進行することで、前記第１適応的ハイパーパラメータセット乃至前記第ｎ－１適応的ハイパーパラメータセットを生成することができ、これを遂行する具体的な方法は前述した通りであるため、重複する説明は省略する。

次に、前記第ｎステージ学習を遂行する具体的な方法は図４を参照して説明することができる。図４を参照すると、前記第ｎステージ学習Ｓ４１－Ｎを除いた残りのステージ学習Ｓ４１－１、Ｓ４１－Ｋ、Ｓ４１－Ｎ－１が全て完了した状態で、前記オンデバイス学習装置１０００は、前記第１適応的ハイパーパラメータセット乃至前記第ｎ－１適応的ハイパーパラメータセットのそれぞれと、前記第１ステージ学習Ｓ４１－１により学習されたマシンラーニングネットワーク５００乃至前記第ｎ－１ステージ学習Ｓ４１－Ｎ－１により学習されたマシンラーニングネットワーク５００のそれぞれの性能評価結果とを参照して構築した最適化関数を使用して前記第ｎ適応的ハイパーパラメータセットを生成することができる。

一例として、前記オンデバイス学習装置１０００は、前記ハイパーパラメータセレクションネットワーク２００をもって前記第１ステージ学習Ｓ４１－１乃至前記第ｎ－１ステージ学習Ｓ４１－Ｎ－１の学習を参照して前記以前学習により学習されたマシンラーニングネットワーク５００の性能を上回る性能結果をアウトプットするために必要と予測される第ｎ適応的ハイパーパラメータセットを生成させることができる。

具体的に、前記オンデバイス学習装置１０００は前記ハイパーパラメータセレクションネットワーク２００をもって、前記第１適応的ハイパーパラメータセット乃至前記第ｎ－１適応的ハイパーパラメータセットとそれぞれの前記第１適応的ハイパーパラメータセット乃至前記第ｎ－１適応的ハイパーパラメータセットとを使用して学習したそれぞれのマシンラーニングネットワーク５００の性能評価結果のそれぞれを参照して最適化関数を構築することで、前記第ｎ－１ステージ学習Ｓ４１－Ｎ－１を通じて学習された前記マシンラーニングネットワーク５００の性能を向上させることができる前記第ｎ適応的ハイパーパラメータセットを予測させることができる。

この際、前記最適化関数は、前記以前学習を通じて学習されたマシンラーニングネットワーク５００または現在学習の前記第１ステージ学習乃至前記第ｎ－１ステージ学習を通じて学習されたマシンラーニングネットワーク５００の性能を上回る結果を出すことができる前記適応的ハイパーパラメータセットを生成するために、確率的推定をする一つ以上の代理モデル（Ｓｕｒｒｏｇａｔｅｍｏｄｅｌ）及び獲得関数（ＡｃｑｕｉｓｉｔｉｏｎＦｕｎｃｔｉｏｎ）を活用することができ、前記最適化関数の演算を通じて生成されたそれぞれのハイパーパラメータの最適の値を使用して前記第ｎ適応的ハイパーパラメータセットを生成することができる。この際、前記最適の値は前記最適化関数の演算を通じて生成されたそれぞれのハイパーパラメータの値である。

次に、オンデバイス学習装置１０００は、前記第ｎ適応的ハイパーパラメータセットを適用して前記第ｎ－１ステージ学習済みマシンラーニングネットワーク５００を前記第ｎステージ学習用データを利用して第ｎステージ学習させることによって前記現在学習を完了することができる。

一例として、前記オンデバイス学習装置１０００は、前記ネットワークトレーナ１００をもって、前記第ｎ適応的ハイパーパラメータセットによって前記第ｎ－１ステージ学習を通じて学習されたマシンラーニングネットワーク５００を前記第ｎステージ学習用データを利用して学習させることによって前記マルチステージ学習４０に含まれた全てのステージ学習を終え、前記現在学習を完了させることができる。

次に、前記オンデバイス学習装置１０００は、前記現在学習が完了した状態で前記マシンラーニングネットワーク５００の性能が一定の閾値以上向上していない場合、前記マシンラーニングネットワーク５００をアップデートすることなく、次回のオンデバイス学習条件を満たすまで前記マシンラーニングネットワーク５００を利用して前記自律走行自動車が運行されるようにすることができる。この際、前記閾値はマシンラーニングネットワーク５００の性能レベルを比較するために予め決定された値であり得る。

一例として、前記オンデバイス学習装置１０００は前記ネットワークトレーナ１００をもって、前記現在学習が完了した前記マシンラーニングネットワーク５００の性能が前記以前学習が完了した前記マシンラーニングネットワーク５００の性能よりも向上していないと判断した場合、現在学習が完了した前記マシンラーニングネットワーク５００を自律走行自動車の前記マシンラーニングネットワーク５００にアップデートしないことによって、次回の前記オンデバイス学習条件を満たすまで前記以前学習を通じて学習されたマシンラーニングネットワーク５００を利用して前記自律走行自動車が運行されるようにすることができる。

また、前記オンデバイス学習装置１０００は、前記現在学習が完了した状態で前記マシンラーニングネットワーク５００の性能が一定の閾値以上向上した場合、前記マシンラーニングネットワーク５００を現在学習済みマシンラーニングネットワーク５００にアップデートし、前記次回のオンデバイス学習条件を満たすまで前記現在学習済みマシンラーニングネットワーク５００を利用して前記自律走行自動車が運行されるようにすることができる。

一例として、前記オンデバイス学習装置１０００は前記ネットワークトレーナ１００をもって、前記現在学習が完了した前記マシンラーニングネットワーク５００の性能が前記以前学習が完了した前記マシンラーニングネットワーク５００の性能よりも向上した場合、前記現在学習が完了したマシンラーニングネットワーク５００を自律走行自動車の前記マシンラーニングネットワーク５００にアップデートすることで、前記次回のオンデバイス学習条件を満たすまで前記自律走行自動車が前記現在学習を通じてアップデートされたマシンラーニングネットワーク５００を使用して運行されるようにすることができる。この際、自律走行自動車の前記マシンラーニングネットワーク５００をアップデートする方法は、前記現在学習が完了したマシンラーニングネットワーク５００自体を伝送して自律走行自動車のマシンラーニングネットワーク５００に替わるように交替する方式を通じてアップデートするか、前記現在学習が完了した前記マシンラーニングネットワーク５００からアップデートされたラーニングパラメータを伝送して前記自律走行自動車のマシンラーニングネットワーク５００に適用されたラーニングパラメータをアップデートすることによって自律走行自動車のマシンラーニングネットワーク５００がアップデートされるようにすることができるが、本発明はこれに限定されるわけではない。

また、前記オンデバイス学習装置１０００または前記オンデバイス学習装置１０００のハイパーパラメータセレクションネットワーク２００は、各ステージ学習を通じてそれぞれの前記適応的ハイパーパラメータセットを生成する過程で、前記第ｋステージ学習を通じて学習されたマシンラーニングネットワーク５００の性能が前記第ｋ－１ステージ学習を通じて学習されたマシンラーニングネットワーク５００の性能よりも高い場合、前記第ｋ適応的ハイパーパラメータセットを前記第ｋ＋１適応的ハイパーパラメータセット乃至前記第ｎ適応的ハイパーパラメータセットのそれぞれとして生成することができる。

また、前記オンデバイス学習装置または前記オンデバイス学習装置１０００のハイパーパラメータセレクションネットワーク２００は、前記第ｋステージ学習を通じて学習されたマシンラーニングネットワーク５００の性能が前記第ｋ－１ステージ学習を通じて学習されたマシンラーニングネットワーク５００の性能よりも高いと判断する場合、前記第ｋステージ学習を前記第ｎステージ学習Ｓ４１－Ｎとして設定することによって前記現在学習を完了することができる。以後、前記オンデバイス学習装置または前記オンデバイス学習装置１０００のハイパーパラメータセレクションネットワーク２００は前記マシンラーニングネットワーク５００を前記第ｎステージ学習を通じて学習されたマシンラーニングネットワーク５００にアップデートすることで、前記次回のオンデバイス学習条件を満たすまで前記自律走行自動車が前記現在学習を通じてアップデートされたマシンラーニングネットワーク５００を使用して運行されるようにすることができる。

即ち、このようにすることによって、既存のマシンラーニングネットワーク５００の性能を上回るマシンラーニングネットワーク５００が確保されると、残りのステージ学習を遂行することなく現在学習を完了することができ、残りのステージ学習を通じて適応的ハイパーパラメータセットを生成することに追加的に消耗されるコンピューティングリソースを減少し、前記性能の向上したマシンラーニングネットワーク５００を自律走行車両の運行に早くアップデートすることができる。

また、前記オンデバイス学習装置１０００は、前記第１適応的ハイパーパラメータセット乃至前記第ｎ適応的ハイパーパラメータセットに含まれた少なくとも一つのハイパーパラメータの適応値を同一に維持することができる。これは次の通り表れ得る。

Ｈ_st+1＝Ｈ_st

一例として、前記オンデバイス学習装置１０００は前記ハイパーパラメータセレクションネットワーク２００をもって、それぞれのステージ学習を通じてそれぞれの適応的ハイパーパラメータセットを生成するために、前記適応的ハイパーパラメータセットに含まれたそれぞれのハイパーパラメータのうち一部または全部を同一に維持することができる。例えば、前記オンデバイス学習装置１０００は前記ハイパーパラメータセレクションネットワーク２００をもって、前記適応的ハイパーパラメータセットに含まれたハイパーパラメータのうち一つの前記ミニバッチのサイズの適応的値が前記第１適応的ハイパーパラメータセット乃至前記第ｎ適応的ハイパーパラメータセットのうち一部または全部に同一に維持されるように選択することができる。

また、以上にて説明された本発明による実施例は、多様なコンピュータの構成要素を通じて遂行することができるプログラム命令語の形態で具現されて、コンピュータ読取り可能な記録媒体に格納され得る。前記コンピュータ読取り可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独で又は組合せて含むことができる。前記コンピュータ読取り可能な記録媒体に格納されるプログラム命令語は、本発明のために特別に設計され、構成されたものであるか、コンピュータソフトウェア分野の当業者に公知にされて使用可能なものであり得る。コンピュータ読取り可能な記録媒体の例には、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカル・ディスク（ＦｌｏｐｔｉｃａｌＤｉｓｋ）のような磁気－光メディア（Ｍａｇｎｅｔｏ－ＯｐｔｉｃａｌＭｅｄｉａ）、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令語を格納して遂行するように特別途に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタープリターなどを使用してコンピュータによって実行される高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を実行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その反対も同様である。

以上にて本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解の一助とするために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば、かかる記載から多様な修正及び変形が行われ得る。

従って、本発明の思想は、前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

Claims

適応的ハイパーパラメータセットを利用したマルチステージ学習を通じて自律走行自動車の走行を支援する１又は複数の作業に関連した複数の異なるタイプの学習を実行することが可能なマシンラーニングネットワークをオンデバイス学習及びアップデートさせる方法であって、前記複数の異なるタイプの学習は、ディープラーニング学習基盤のネットワーク、行動予測ネットワーク、又は、リスク探知ネットワークを含み、前記オンデバイス学習及びアップデートは、クラウドサーバに接続せずに実現され、前記自律走行自動車は、走行環境に関する学習を行うためのセンシングデータを獲得するように構成され、前記センシングデータは、前記マシンラーニングネットワークと通信を行うことにより少なくとも１つのセンサ又は複数のセンサの組み合わせにより獲得され、前記自律走行自動車の周辺を撮影したイメージを含み、前記少なくとも１つのセンサがカメラ、レーダ、又は、ライダであり、前記センシングデータの少なくとも一部は前記マシンラーニングネットワークのための学習データであり、前記学習とアップデートは、適応的ハイパーパラメータセットを利用してマルチステージ学習を行って、前記センシングデータに対応したアウトプットデータを生成することにより現在の走行環境において前記自律走行自動車が自律的に走行し続けるようにすることにより達成され、前記自律走行自動車は、前記マシンラーニングネットワークと通信を行うオンデバイス学習装置を含み、前記マシンラーニングネットワークは、物体検出器、分類ネットワーク、及び、セグメンテーションネットワークのうちの少なくとも１つを含む方法において、
（ａ）自律走行自動車の運行中に新しい学習用データを獲得する状態でオンデバイス学習条件を満たす場合、オンデバイス学習装置が、（ｉ）ベースモデル学習のために予め決定されたハイパーパラメータの基本値を使用して生成された、又は、過去の学習のうち最高の性能を有するマシンラーニングネットワークのハイパーパラメータの最高性能値を使用して生成された基本ハイパーパラメータセットを参照して現在学習を第１ステージ学習乃至第ｎ（前記ｎは２以上の整数である）ステージ学習に区分し、前記新しい学習用データと以前学習に利用された以前学習用データとを利用して前記第１ステージ学習乃至前記第ｎステージ学習のための第１ステージ学習データ乃至第ｎステージ学習用データを生成し、（ｉｉ）前記基本ハイパーパラメータセットに含まれた、学習アルゴリズム設定（Ｌ）、ミニバッチサイズ（Ｂ）、マキシマムステージ（Ｄ）、及び前記各ステージ別マキシマムエポック（Ｅ）のうち少なくとも一つを含むハイパーパラメータのそれぞれの基本値を基準に予め設定された範囲内の第１候補値のそれぞれを組合せて第１＿１ハイパーパラメータセット候補乃至第１＿ｈ（前記ｈは２以上の整数である）ハイパーパラメータセット候補を生成し、（ｉｉｉ）前記基本ハイパーパラメータセット及び前記第１＿１ハイパーパラメータセット候補乃至前記第１＿ｈハイパーパラメータセット候補のそれぞれを適用して前記マシンラーニングネットワークをそれぞれ前記第１ステージ学習データを利用して学習させ、（ｉｖ）前記基本ハイパーパラメータセット及び前記第１＿１ハイパーパラメータセット候補乃至前記第１＿ｈハイパーパラメータセット候補のそれぞれを適用して学習された前記マシンラーニングネットワークのそれぞれの性能を評価して性能の最も高い前記マシンラーニングネットワークを前記第１ステージ学習済みマシンラーニングネットワークとして選定し、（ｖ）前記第１ステージ学習済みマシンラーニングネットワークの学習に適用された、学習アルゴリズム設定（Ｌ）、ミニバッチサイズ（Ｂ）、マキシマムステージ（Ｄ）、及び前記各ステージ別マキシマムエポック（Ｅ）のうち少なくとも一つを含むハイパーパラメータセットを第１適応的ハイパーパラメータセットとして生成する段階；
（ｂ）前記オンデバイス学習装置が、ｋを２からｎ－１まで増加させ、（ｉ）第ｋ－１適応的ハイパーパラメータセットに含まれたハイパーパラメータのそれぞれの第ｋ－１適応値を基準に前記予め設定された範囲内の第ｋ候補値のそれぞれを組合せて第ｋ＿１ハイパーパラメータセット候補乃至第ｋ＿ｈハイパーパラメータセット候補を生成し、（ｉｉ）前記第ｋ－１ハイパーパラメータセット及び前記第ｋ＿１ハイパーパラメータセット候補乃至前記第ｋ＿ｈハイパーパラメータセットのそれぞれを適用して第ｋ－１ステージ学習済みマシンラーニングネットワークをそれぞれ前記第ｋステージ学習用データを利用して学習させ、（ｉｉｉ）前記第ｋ－１適応的ハイパーパラメータセット及び前記第ｋ＿１ハイパーパラメータセット候補乃至前記第ｋ＿ｈハイパーパラメータセット候補のそれぞれを適用して学習された前記第ｋ－１ステージ学習済みマシンラーニングネットワークのそれぞれの性能を評価して性能の最も高い前記第ｋ－１ステージ学習済みマシンラーニングネットワークを第ｋステージ学習済みマシンラーニングネットワークとして選定し、（ｉｖ）前記第ｋステージ学習済みマシンラーニングネットワークの学習に適用されたハイパーパラメータセットを第ｋ適応的ハイパーパラメータセットとして生成する段階；及び
（ｃ）前記オンデバイス学習装置が、（ｉ－１）前記第１適応的ハイパーパラメータセット乃至第ｎ－１適応的ハイパーパラメータセットのそれぞれと、（ｉ－２）前記第１ステージ学習により学習されたマシンラーニングネットワーク乃至第ｎ－１ステージ学習により学習されたマシンラーニングネットワークのそれぞれの性能評価結果とを参照して構築した最適化関数を使用して第ｎ適応的ハイパーパラメータセットを生成し、（ｉｉ）前記第ｎ適応的ハイパーパラメータセットを適用して前記第ｎ－１ステージ学習済みマシンラーニングネットワークを前記第ｎステージ学習用データを利用して第ｎステージ学習させることによって、前記自律走行自動車を現在の走行環境又は新しい走行環境において自律的に走行し続けるために使用される前記現在学習を完了する段階；
を含むことを特徴とする方法。
（ｄ）前記オンデバイス学習装置は、（ｉ）前記現在学習が完了した状態で前記マシンラーニングネットワークの性能が一定の閾値以上向上していない場合、前記マシンラーニングネットワークをアップデートすることなく、次回のオンデバイス学習条件を満たすまで前記マシンラーニングネットワークを利用して前記自律走行自動車が運行されるようにするプロセス、及び（ｉｉ）前記現在学習が完了した状態で前記マシンラーニングネットワークの性能が一定の閾値以上向上した場合、前記マシンラーニングネットワークを現在学習済みマシンラーニングネットワークにアップデートし、前記次回のオンデバイス学習条件を満たすまで前記現在学習済みマシンラーニングネットワークを利用して前記自律走行自動車が運行されるようにするプロセスを遂行する段階；
をさらに含むことを特徴とする、請求項１に記載の方法。
前記オンデバイス学習装置は、前記第ｋステージ学習済みマシンラーニングネットワークの性能が前記第ｋ－１ステージ学習済みマシンラーニングネットワークの性能よりも高い場合、第ｋ＋１適応的ハイパーパラメータセット乃至前記第ｎ適応的ハイパーパラメータセットのそれぞれを前記第ｋ適応的ハイパーパラメータセットと同一に設定することを特徴とする、請求項１に記載の方法。
前記（ｂ）段階で、
前記オンデバイス学習装置は、前記第１適応的ハイパーパラメータセット乃至前記第ｎ適応的ハイパーパラメータセットに含まれた少なくとも一つのハイパーパラメータの適応値を同一に維持する、請求項１に記載の方法。
前記オンデバイス学習装置は、前記第ｋステージ学習により学習されたマシンラーニングネットワークの性能が前記第ｋ－１ステージ学習により学習されたマシンラーニングネットワークの性能よりも高い場合、前記第ｋステージ学習を前記第ｎステージ学習として設定することによって前記現在学習を完了することを特徴とする、請求項１に記載の方法。
前記（ａ）段階で、
前記自律走行自動車に取り付けられたセンサにより獲得されたセンシングデータが獲得されると、前記マシンラーニングネットワークが前記センシングデータを分析して前記自律走行自動車の走行情報に対するアウトプットデータを生成した状態で、
前記オンデバイス学習装置が、前記センシングデータと前記センシングデータのそれぞれに対応するアウトプットデータとを前記データセレクションネットワークに入力することで、前記データセレクションネットワークをもって、前記アウトプットデータを参照して前記マシンラーニングネットワークの学習に使用される特定のセンシングデータを選定させ、選定された特定のセンシングデータを前記新しい学習用データとして格納させることを特徴とする、請求項１に記載の方法。
前記（ａ）段階で、
前記オンデバイス学習装置は、前記マシンラーニングネットワークのベースモデルとして予め決定されたハイパーパラメータセットを前記基本ハイパーパラメータセットとして選択するか、以前学習により生成されたベストハイパーパラメータセットを前記基本ハイパーパラメータセットとして選択することを特徴とする、請求項１に記載の方法。
適応的ハイパーパラメータセットを利用したマルチステージ学習を通じて自律走行自動車の走行を支援する１又は複数の作業に関連した複数の異なるタイプの学習を実行することが可能なマシンラーニングネットワークをオンデバイス学習及びアップデートさせる装置であって、前記複数の異なるタイプの学習は、ディープラーニング学習基盤のネットワーク、行動予測ネットワーク、又は、リスク探知ネットワークを含み、前記オンデバイス学習及びアップデートは、クラウドサーバに接続せずに実現され、前記自律走行自動車は、走行環境に関する学習を行うためのセンシングデータを獲得するように構成され、前記センシングデータは、前記マシンラーニングネットワークと通信を行うことにより少なくとも１つのセンサ又は複数のセンサの組み合わせにより獲得され、前記自律走行自動車の周辺を撮影したイメージを含み、前記少なくとも１つのセンサがカメラ、レーダ、又は、ライダであり、前記センシングデータの少なくとも一部は前記マシンラーニングネットワークのための学習データであり、前記学習とアップデートは、適応的ハイパーパラメータセットを利用してマルチステージ学習を行って、前記センシングデータに対応したアウトプットデータを生成することにより現在の走行環境において前記自律走行自動車が自律的に走行し続けるようにすることにより達成され、前記自律走行自動車は、前記マシンラーニングネットワークと通信を行うオンデバイス学習装置を含み、前記マシンラーニングネットワークは、物体検出器、分類ネットワーク、及び、セグメンテーションネットワークのうちの少なくとも１つを含む装置において、
インストラクションを格納する少なくとも一つのメモリ；及び
前記インストラクションを遂行するように設定された一つ以上のプロセッサを含み、
前記プロセッサが、（Ｉ）自律走行自動車の運行中に新しい学習用データを獲得する状態でオンデバイス学習条件を満たす場合、ベースモデル学習のために予め決定されたハイパーパラメータの基本値を使用して生成された、又は、過去の学習のうち最高の性能を有するマシンラーニングネットワークのハイパーパラメータの最高性能値を使用して生成された基本ハイパーパラメータセットを参照して現在学習を第１ステージ学習乃至第ｎ（前記ｎは２以上の整数である）ステージ学習に区分し、前記新しい学習用データと以前学習に利用された以前学習用データとを利用して前記第１ステージ学習乃至前記第ｎステージ学習のための第１ステージ学習データ乃至第ｎステージ学習用データを生成し、前記基本ハイパーパラメータセットに含まれた、学習アルゴリズム設定（Ｌ）、ミニバッチサイズ（Ｂ）、マキシマムステージ（Ｄ）、及び前記各ステージ別マキシマムエポック（Ｅ）のうち少なくとも一つを含むハイパーパラメータのそれぞれの基本値を基準に予め設定された範囲内の第１候補値のそれぞれを組合せて第１＿１ハイパーパラメータセット候補乃至第１＿ｈ（前記ｈは２以上の整数である）ハイパーパラメータセット候補を生成して前記基本ハイパーパラメータセット及び前記第１＿１ハイパーパラメータセット候補乃至前記第１＿ｈハイパーパラメータセット候補のそれぞれを適用して前記マシンラーニングネットワークをそれぞれ前記第１ステージ学習データを利用して学習させ、前記基本ハイパーパラメータセット及び前記第１＿１ハイパーパラメータセット候補乃至前記第１＿ｈハイパーパラメータセット候補のそれぞれを適用して学習された前記マシンラーニングネットワークのそれぞれの性能を評価して性能の最も高い前記マシンラーニングネットワークを前記第１ステージ学習済みマシンラーニングネットワークとして選定し、前記第１ステージ学習済みマシンラーニングネットワークの学習に適用された、学習アルゴリズム設定（Ｌ）、ミニバッチサイズ（Ｂ）、マキシマムステージ（Ｄ）、及び前記各ステージ別マキシマムエポック（Ｅ）のうち少なくとも一つを含むハイパーパラメータセットを第１適応的ハイパーパラメータセットとして生成するプロセス、（ＩＩ）ｋを２からｎ－１まで増加させ、第ｋ－１適応的ハイパーパラメータセットに含まれたハイパーパラメータのそれぞれの第ｋ－１適応値を基準に前記予め設定された範囲内の第ｋ候補値のそれぞれを組合せて第ｋ＿１ハイパーパラメータセット候補乃至第ｋ＿ｈハイパーパラメータセット候補を生成し、前記第ｋ－１ハイパーパラメータセット及び前記第ｋ＿１ハイパーパラメータセット候補乃至前記第ｋ＿ｈハイパーパラメータセットのそれぞれを適用して第ｋ－１ステージ学習済みマシンラーニングネットワークをそれぞれ前記第ｋステージ学習用データを利用して学習させ、前記第ｋ－１適応的ハイパーパラメータセット及び前記第ｋ＿１ハイパーパラメータセット候補乃至前記第ｋ＿ｈハイパーパラメータセット候補のそれぞれを適用して学習された前記第ｋ－１ステージ学習済みマシンラーニングネットワークのそれぞれの性能を評価して性能の最も高い前記第ｋ－１ステージ学習済みマシンラーニングネットワークを第ｋステージ学習済みマシンラーニングネットワークとして選定し、前記第ｋステージ学習済みマシンラーニングネットワークの学習に適用されたハイパーパラメータセットを第ｋ適応的ハイパーパラメータセットとして生成するプロセス及び（ＩＩＩ）前記第１適応的ハイパーパラメータセット乃至第ｎ－１適応的ハイパーパラメータセットのそれぞれと、前記第１ステージ学習により学習されたマシンラーニングネットワーク乃至第ｎ－１ステージ学習により学習されたマシンラーニングネットワークのそれぞれの性能評価結果とを参照して構築した最適化関数を使用して第ｎ適応的ハイパーパラメータセットを生成し、前記第ｎ適応的ハイパーパラメータセットを適用して前記第ｎ－１ステージ学習済みマシンラーニングネットワークを前記第ｎステージ学習用データを利用して第ｎステージ学習させることによって、前記自律走行自動車を現在の走行環境又は新しい走行環境において自律的に走行し続けるために使用される前記現在学習を完了するプロセスを遂行する学習装置。
（ＩＶ）前記プロセッサは、前記現在学習が完了した状態で前記マシンラーニングネットワークの性能が一定の閾値以上向上していない場合、前記マシンラーニングネットワークをアップデートすることなく、次回のオンデバイス学習条件を満たすまで前記マシンラーニングネットワークを利用して前記自律走行自動車が運行されるようにするプロセス、及び前記現在学習が完了した状態で前記マシンラーニングネットワークの性能が一定の閾値以上向上した場合、前記マシンラーニングネットワークを現在学習済みマシンラーニングネットワークにアップデートし、前記次回のオンデバイス学習条件を満たすまで前記現在学習済みマシンラーニングネットワークを利用して前記自律走行自動車が運行されるようにするプロセスをさらに遂行する、請求項８に記載の装置。
前記プロセッサは、前記第ｋステージ学習済みマシンラーニングネットワークの性能が前記第ｋ－１ステージ学習済みマシンラーニングネットワークの性能よりも高い場合、第ｋ＋１適応的ハイパーパラメータセット乃至前記第ｎ適応的ハイパーパラメータセットのそれぞれを前記第ｋ適応的ハイパーパラメータセットと同一に設定することを特徴とする、請求項８に記載の装置。
前記（ＩＩ）プロセスで、
前記プロセッサは、前記第１適応的ハイパーパラメータセット乃至前記第ｎ適応的ハイパーパラメータセットに含まれた少なくとも一つのハイパーパラメータの適応値を同一に維持する、請求項８に記載の装置。
前記プロセッサは、前記第ｋステージ学習済みマシンラーニングネットワークの性能が前記第ｋ－１ステージ学習済みマシンラーニングネットワークの性能よりも高い場合、前記第ｋステージ学習を前記第ｎステージ学習として設定することによって前記現在学習を完了することを特徴とする、請求項８に記載の装置。
前記（Ｉ）プロセスで、
前記自律走行自動車に取り付けられたセンサにより獲得されたセンシングデータが獲得されると、前記マシンラーニングネットワークがディープラーニング基盤に前記センシングデータを分析して前記自律走行自動車の走行情報に対するアウトプットデータを生成した状態で、
前記プロセッサは、前記センシングデータと前記センシングデータのそれぞれに対応するアウトプットデータとを前記データセレクションネットワークに入力することで、前記データセレクションネットワークをもって、前記アウトプットデータを参照して前記マシンラーニングネットワークの学習に使用される特定のセンシングデータを選定させ、選定された特定のセンシングデータを前記新しい学習用データとして格納させることを特徴とする、請求項８に記載の装置。
前記（Ｉ）プロセスで、
前記プロセッサは、前記マシンラーニングネットワークのベースモデルとして予め決定されたハイパーパラメータセットを前記基本ハイパーパラメータセットとして選択するか、以前学習により生成されたベストハイパーパラメータセットを前記基本ハイパーパラメータセットとして選択することを特徴とする、請求項８に記載の装置。