JP2023184403A

JP2023184403A - 継続学習のための機械学習方法および電子機器

Info

Publication number: JP2023184403A
Application number: JP2022201681A
Authority: JP
Inventors: 峻因郭; Jiun-In Guo; 城甫劉; Cheng-Fu Liou
Original assignee: Wistron Corp
Current assignee: Wistron Corp
Priority date: 2022-06-17
Filing date: 2022-12-19
Publication date: 2023-12-28
Also published as: US20230410481A1; TWI812291B; EP4293579A1; TW202401304A; CN117315276A

Abstract

【課題】継続学習のための機械学習方法であって、以下のステップを含む方法を提供する。【解決手段】入力画像を取り込む。複数のサブモデルによって入力画像に対して特徴抽出を実行して複数の特徴マップを取得し、ここで、サブモデルは、複数のタスクに対応しており、かつサブモデルは、ニューラルネットワークモデルおよび複数のチャネルごとのマスクによって決定される。特徴マップを複数のエネルギースコアに変換する。エネルギースコアに従って、タスクのうちのターゲットタスクに対応するターゲットサブモデルをサブモデルから選択する。ターゲットサブモデルによってターゲットタスクに対応する予測結果を出力する。【選択図】図１

Description

本開示は、機械学習技術に関しており、より具体的には、本開示は、タスク認識型の継続学習用に構成された機械学習方法および電子機器に関する。

近年の人工知能（ＡＩ）の爆発的な成長は、人間の生活を大きく変化させた。ＡＩ技術が進歩し続けるにつれて、様々な応用分野（例えば、自律型ドローン、機械的手術、医療診断および治療）において、継続的（あるいは絶え間ない）または生涯にわたる学習、いわゆる「終わりのない」学習をサポートする必要性がある。生涯学習システムは、新しいタスクのために学習した知識の効率的な伝達および使用に集中しており、複数のタスクを順に管理することができる。関連技術において、前記要件を満たすために適用される方法とは、「共同学習」を指し、即ち、全てのタスクのトレーニングデータが同時に取得され、共同で最適化される。しかしながら、共同学習技術によると、タスクの数が増加すると、新しいタスクのデータが以前のタスクのデータによって薄められ、データ量の増加に伴い、トレーニング時間も延長される。更に、顔認識等のアプリケーションシナリオでは、以前のタスクにおける人間の顔データは、プライバシーの問題により、もはやアクセスおよび再トレーニングが不可能である可能性がある。

ＡＩが人間の脳のように知識を蓄積できるようにするために、以前のデータにアクセスできないことにより生じる「破滅的忘却」の問題を防ぐ必要性がある一方、新しいタスクにおける学習した知識を効果的に伝達および使用し、タスクを順に処理することに焦点を当てた継続学習が開発されてきた。継続学習方法は、３つの主要なカテゴリに、即ち、経験再生、分極正則化項、および動的ネットワーク分離に分類することができる。分極正則化項に基づく既存の継続学習技術では、以前のタスクのデータが提供されなくても、新しいタスクを学習した後に、以前のタスクの知識の破滅的忘却という無視し難い問題が依然として発生し得る。対照的に、破滅的忘却の現象は、新しいタスクに以前のタスクの以前のデータを提供し、新しいタスクの学習を支援する経験再生においては、比較的マイナーである。しかしながら、プライバシーの問題に起因して以前のデータを保存することが困難な場合、その後のモデルの更新に悪影響を及ぼす可能性がある。動的ネットワーク分離に関しては、パラメータの数およびモデルのデータ量は、タスクの増加に比例して増加し、これは、多くの計算リソースを消費し、ユーザの負担を軽減しない可能性がある。

既存の継続学習は、タスクベースの逐次学習セットアップで動作する場合が多く、これは、実際の適用ではめったに遭遇しない。従って、このような問題を解決するために、タスクフリーの継続学習が開発され始めている。関連技術によれば、タスクフリーの継続学習は、しばしば経験再生を必要とし、学習プロセスは比較およびスコアリングのためにソフトマックス関数の確信度に依存する。しかしながら、ニューラルネットワークは、標本空間にオーバーフィットする可能性があり、それ故、未学習クラスの標本に高い確信度を付与し、従って、後続の計算のクロスタスク精度のパフォーマンスが低下する結果となる。

本開示は、破滅的忘却を効果的に防止し、同時に、複数のタスクからターゲットタスクを自己適応的に識別する効果を達成することができる、継続学習のための機械学習方法および電子機器を提供する。

本開示の一実施形態は、継続学習のための機械学習方法を提供し、この方法は、以下のステップを含む。入力画像を取り込む。複数のサブモデルによって入力画像に対して特徴抽出を実行して複数の特徴マップを取得し、ここで、サブモデルは複数のタスクに対応しており、かつサブモデルがニューラルネットワークモデルおよび複数のチャネルごとのマスクによって決定される。特徴マップを複数のエネルギースコアに変換する。エネルギースコアに従って、サブモデルからタスクのうちのターゲットタスクに対応するターゲットサブモデルを選択する。ターゲットサブモデルによってターゲットタスクに対応する予測結果を出力する。

本開示の一実施形態では、機械学習方法は、更に以下のステップを含む。タスクに関連付けられたトレーニングデータを受信し、ここで、トレーニングデータに、トレーニング画像と、トレーニング画像に対応するクラスラベルとを含む。ニューラルネットワークモデルおよびチャネルごとのマスクに従って、トレーニング画像に対して特徴抽出を実行して、トレーニング特徴マップを取得する。トレーニング特徴マップを特徴エネルギースコアに変換する。クラスラベル、チャネルごとのマスク、および特徴エネルギースコアに従って、損失関数を決定する。損失関数に従って、逆方向伝搬勾配を決定する。逆方向伝播勾配に従って、ニューラルネットワークモデルおよびチャネルごとのマスクを更新し、ここで、チャネルごとのマスクはタスクに対応しており、タスクのうちの少なくとも１つのトレーニングタスクに対応するチャネルごとのマスクのうちの１つのチャネルごとのマスクを更新する。

別の態様では、本開示の一実施形態は、タスク認識型の継続学習用に構成された電子機器を提供し、電子機器は、複数のモジュールを記憶する記憶媒体と、記憶媒体に結合され、モジュールを実行するように構成されたプロセッサとを含む。ここで、モジュールは、入力画像を取り込む画像取り込みモジュールと、複数のサブモデルによって入力画像に対して特徴抽出を実行して複数の特徴マップを取得する推論モジュールとを含み、サブモデルは、複数のタスクに対応しており、かつサブモデルは、ニューラルネットワークモデルおよび複数のチャネルごとのマスクによって決定され、特徴マップは、複数のエネルギースコアに変換され、タスクのうちのターゲットタスクに対応するターゲットサブモデルがエネルギースコアに従ってサブモデルから選択され、ターゲットタスクに対応する予測結果がターゲットサブモデルによって出力される。

本開示の一実施形態では、モジュールは、更に、タスクに関連付けられたトレーニングデータを受信し、ここで、トレーニングデータに、トレーニング画像と、トレーニング画像に対応するクラスラベルとを含み；ニューラルネットワークモデルおよびチャネルごとのマスクに従って、トレーニング画像に対して特徴抽出を実行して、トレーニング特徴マップを取得し；トレーニング特徴マップを特徴エネルギースコアに変換し；クラスラベル、チャネルごとのマスク、および特徴エネルギースコアに従って、損失関数を決定し；損失関数に従って、逆方向伝搬勾配を決定し；逆方向伝播勾配に従って、ニューラルネットワークモデルおよびチャネルごとのマスクを更新し、チャネルごとのマスクがタスクに対応しており、タスクのうちの少なくとも１つのトレーニングタスクに対応するチャネルごとのマスクのうちの１つのチャネルごとのマスクを更新する、トレーニングモジュールを含む。

上記を考慮して、本開示の１つ以上の実施形態は、エネルギースコアに基づくタスク認証型継続学習メカニズムを提供し、複数のタスクに対応する特徴マップは、ニューラルネットワークモデル内のチャネルごとのマスクによって分類されてサブモデルを決定し、以前に学習したタスクに対応するチャネルごとのマスクと共にニューラルネットワークモデルにより、損失関数に従って、他の以前のタスクに重要なニューラルネットワークパラメータが再度適用されるか否かを自動的に決定することを可能にし、ニューラルネットワークパラメータが適用されることで新しいタスクを最適化し、それにより、ニューラルネットワークモデルの再利用率を向上させ得る。従って、ニューラルネットワークモデルは、次のタスクを学習するためにより多くのニューロンを保持することが可能となり、サブモデル内の重要なパラメータを保存して、破滅的忘却を更に効果的に防ぐことができる。

添付の図面は、本開示の更なる理解を提供するために含まれており、本明細書に組み込まれ、本明細書の一部を構成するものである。図面は、本開示の実施形態を示しており、本明細書と共に、本開示の原理を説明するのに役立つ。

本開示の一実施形態による、電子機器の概略図である。本開示の一実施形態による、機械学習方法における推論段階のフローチャートである。本開示の一実施形態による、機械学習方法におけるトレーニング段階のフローチャートである。本開示の一実施形態による、トレーニングモジュールが新しいタスクを学習していることを示す概略図である。本開示の一実施形態による、推論モジュールの動作の概略図である。本開示の一実施形態による、ニューラルネットワークモデルのトレーニングの概略図である。本開示の一実施形態における逆方向伝搬勾配による、タスクに対応するニューラルネットワークモデルおよびチャネルごとのマスクの更新の概略図である。本開示の別の実施形態による、タスクに対応するニューラルネットワークモデルおよびチャネルごとのマスクの動作の概略図である。本開示の別の実施形態による、ニューラルネットワークモデルの概略図である。本開示の一実施形態による、複数のタスクに関連付けられたトレーニングデータの概略図である。

本開示で提供されるいくつかの実施形態を、添付の図面を参照して詳細に説明する。以下の説明における参照番号は、同じ参照番号が異なる図面に出現する場合、同じまたは類似の要素を指していると見なす。これらの実施形態は、本発明の一部にすぎず、本発明の全ての可能な実施形態が開示されているわけではない。より正確には、これらの実施形態は、特許請求の範囲において提供される範囲内の方法および装置の例示として役立つ。更に、可能な限り、図面および実施形態において同じ参照番号を有する要素／構成要素／ステップは、同じまたは類似の部分を示す。異なる実施形態において同じ参照番号または同じ用語によってマークされた要素／構成要素／ステップの関連する説明に対して、相互参照がなされ得る。

図１は、本開示の一実施形態による電子機器の概略図である。電子機器１０は、プロセッサ１１０および記憶媒体１２０を含む。

電子機器１０は、エッジ計算装置であってもよい。電子機器１０は、埋め込み式プラットフォーム上に実装されたエッジ計算装置であってもよく、電子機器１０は、人間の顔認識、アクセスコントロール、本人確認、デジタル監視、金融業界、小売業、無人店舗、スマートファクトリー、ドローン、機械的手術、医療診断等の様々なシナリオに適用される画像認識装置であってもよい。電子機器１０は、デスクトップコンピュータ、ノートブックコンピュータ、サーバ、スマートフォン、またはタブレットコンピュータであってもよく、電子機器１０のモデル番号、ブランド、およびオペレーティングシステムは、本開示において限定されるものとして解釈されるべきではない。

プロセッサ１１０は、例えば、中央処理装置（ＣＰＵ）または別の汎用または専用のプログラマブルマイクロコントロールユニット（ＭＣＵ）、マイクロプロセッサ、デジタルシグナルプロセッサ（ＤＳＰ）、プログラマブルコントローラ、特定用途向け統合型回路（ＡＳＩＣ）、グラフィックスプロセッシングユニット（ＧＰＵ）、テンソルプロセッシングユニット（ＴＰＵ）、イメージシグナルプロセッサ（ＩＳＰ）、イメージプロセッシングユニット（ＩＰＵ）、演算装置（ＡＬＵ）、複雑なプログラマブルロジックデバイス（ＣＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、または他の同様の要素または上述した要素の組み合わせである。プロセッサ１１０は、記憶媒体１２０に結合されてもよく、記憶媒体１２０に記憶された複数のモジュールまたは様々なアプリケーションプログラムにアクセスして実行することができる。

記憶媒体１２０は、例えば、任意のタイプの固定または移動可能なランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、フラッシュメモリ、ハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＳＤ）、または同様のコンポーネントまたは上記のコンポーネントの組み合わせであり、プロセッサ１１０によって実行可能な複数のモジュール、コンピュータプログラム、または様々なアプリケーションプログラムを格納するように構成されている。この実施形態では、記憶媒体１２０に格納されているモジュールは、画像取り込みモジュール１２０１、推論モジュール１２０３、およびトレーニングモジュール１２０５を含み、これらの役割は以下で説明する。

一実施形態では、電子機器１０は、更に、画像取り込み装置１３０を含むことができる。プロセッサ１１０を画像取り込み装置１３０に結合することができる。画像取り込み装置１３０は、例えば、デジタルカメラ、カムコーダ、またはレンズおよび感光性素子を有するカメラレンズである。感光性素子は、レンズに入射する光の強度を感知するように機能し、それによって、画像を生成する。

図２は、本開示の一実施形態による機械学習方法における推論段階のフローチャートである。図２に図示される機械学習方法は、図１に図示した電子機器１０に適用可能である。図１および図２の両方を参照されたい。

ステップＳ２１０において、画像取り込みモジュール１２０１が入力画像を取り込む。例えば、画像取り込みモジュール１２０１は、画像取り込み装置１３０を介して入力画像を取り込むか、データベースから入力画像を取り込むか、またはインターネットから入力画像を受信する。

ステップＳ２２０において、推論モジュール１２０３が複数のサブモデルによって入力画像に対して特徴抽出を実行して、複数の特徴マップを取得する。具体的には、特徴抽出とは、元のデータセットにおける情報を保持しつつ、生データを処理可能な数値特徴に変換するプロセスを指す。例えば、画像データに対する特徴抽出は、画像の興味のある部分を、特徴マップとしても知られる数値特徴ベクトルまたは特徴マトリックスとして表す。各サブモデルが入力画像から入力画像の特徴を抽出し、画像の特徴を特徴マップとして表す。特徴マップは、限定されないが、一連の数値データ、データベクトル、またはデータマトリックスとして表すことができる。サブモデルは、複数のタスクに対応しており、かつサブモデルは、ニューラルネットワークモデルおよびニューラルネットワークモデル内の複数のチャネルごとのマスクによって決定されることに留意されたい。ステップＳ２３０において、推論モジュール１２０３が特徴マップを複数のエネルギースコアに変換する。ステップＳ２４０において、推論モジュール１２０３がエネルギースコアに従って、サブモデルからタスクのうちのターゲットタスクに対応するターゲットサブモデルを選択する。ステップＳ２５０において、推論モジュール１２０３がターゲットサブモデルによって、ターゲットタスクに対応する予測結果を出力する。

図３は、本開示の一実施形態による機械学習方法におけるトレーニング段階のフローチャートである。図３に示される機械学習方法は、図１に示した電子機器１０に適用可能である。図１および図３の両方を参照されたい。ステップＳ３１０において、トレーニングモジュール１２０５が複数のタスクに関連するトレーニングデータを受信する。トレーニングデータは、トレーニング画像と、トレーニング画像に対応するクラスラベルとを含む。クラスラベルは、タスクのうちのトレーニングタスクに対応することができる。ステップＳ３２０において、トレーニングモジュール１２０５がニューラルネットワークモデルおよび複数のチャネルごとのマスクに従って、トレーニング画像に対して特徴抽出を実行して、トレーニング特徴マップを取得する。ステップＳ３３０において、トレーニングモジュール１２０５がトレーニング特徴マップを特徴エネルギースコアに変換する。ステップＳ３４０において、トレーニングモジュール１２０５が、クラスラベル、チャネルごとのマスク、および特徴エネルギースコアに従って、損失関数を取得するよう計算する。損失関数の数値は、トレーニングデータのサンプルからクラスラベル、チャネルごとのマスク、および特徴エネルギースコアの実現に従って計算することができる。ステップＳ３５０において、トレーニングモジュール１２０５が損失関数に従って逆方向伝搬勾配を決定する。例えば、逆方向伝搬勾配は、ステップＳ３４０における損失関数の数値の計算結果によって決定される。具体的には、逆方向伝搬勾配とは、損失関数を最小化する値の方向を指す、損失関数の勾配を指す。ニューラルネットワークの場合、逆方向伝播勾配とは、ニューラルネットワークの各層の重みに対する逆伝播によって計算された損失関数の勾配を指す。ステップＳ３６０において、トレーニングモジュール１２０５が、逆方向伝播勾配に従って、ニューラルネットワークモデルおよびチャネルごとのマスクを更新し、チャネルごとのマスクはタスクに対応しており、タスクのうちの少なくとも１つのトレーニングタスクに対応するチャネルごとのマスクのうちの１つのチャネルごとのマスクが更新される。

例えば、電子機器１０は、同じニューラルネットワークモデルを適用して、複数のタスク１、２、・・・、およびｔの各々に対して継続学習を行うことができる。チャネルごとのマスクは、タスク１、２、・・・、およびｔの各々に対応し得る。一実施形態では、トレーニングタスクがタスクｔである場合、トレーニングモジュール１２０５は、タスクｔに関連付けられたトレーニングデータを受信し、トレーニングデータは、タスクｔに関連付けられたトレーニング画像と、トレーニング画像に対応するクラスラベルとを含む。クラスラベルは、タスクｔのクラスに対応することができる（ステップＳ３１０）。トレーニングモジュール１２０５は、トレーニング画像に対して特徴抽出を実行することによって、ニューラルネットワークモデルおよびタスクｔに対応するチャネルごとのマスクのうちの１つのチャネルごとのマスクに従って、トレーニング特徴マップを取得する（ステップＳ３２０）。トレーニングモジュール１２０５は、トレーニング特徴マップを特徴エネルギースコアに変換する（ステップＳ３３０）。トレーニングモジュール１２０５は、クラスラベル、タスクｔに対応するチャネルごとのマスクのうちの特定のチャネルごとのマスク、および特徴エネルギースコアに従って、損失関数を取得するよう計算する（ステップＳ３４０）。損失関数の数値は、クラスラベル、タスクｔに対応するチャネルごとのマスク、および特徴エネルギースコアの実現に従って、タスクｔに関連付けられたトレーニングデータのサンプルから計算することができる。トレーニングモジュール１２０５は、損失関数に従って、タスクｔに対応するチャネルごとのマスクのうちの特定のチャネルごとのマスクの逆方向伝搬勾配を決定する（ステップＳ３５０）。例えば、逆方向伝搬勾配は、ステップＳ３４０における損失関数の数値の計算結果によって決定される。トレーニングモジュール１２０５は、逆方向伝搬勾配に従って、ニューラルネットワークモデルおよびタスクｔに対応するチャネルごとのマスクのうちの特定のチャネルごとのマスクを更新する（ステップＳ３６０）。従って、電子機器１０がタスク１、２、・・・、およびｔを学習した後、チャネルごとのマスクが同じニューラルネットワークモデルを、タスク１、２、・・・、およびｔに対応する複数のサブモデルに分類することができる。

図２に示される推論段階および図３に示されるトレーニング段階の実行順序は、本開示において限定的ではないことに言及する価値があるだろう。一実施形態では、タスクは、新しいタスクのトレーニングデータを含む。電子機器１０は、最初に、図３に示されるトレーニング段階のステップを実行して、新しいタスクを学習してもよい。電子機器１０が新しいタスクのためのトレーニング段階を完了すると、図２に示される推論段階のステップが実行されて、新しいタスクにてトレーニングされたチャネルごとのマスクおよびニューラルネットワークモデルに従って、入力画像を予測する。一実施形態では、電子機器１０は、タスクについて事前トレーニングを完了した事前に格納されたニューラルネットワークモデルと、ニューラルネットワークモデルに対応するチャネルごとのマスクとに従って、図３に示す推論段階のステップを実行することができる。タスクに新しいタスクがある場合、電子機器１０は、新しいタスクのトレーニングデータに従ってトレーニングを実行し、新しいタスクに対応するニューラルネットワークモデルおよびチャネルごとのマスクのうちの１つのチャネルごとのマスクを更新する。従って、本開示の１つ以上の実施形態に提供される電子機器１０は、１つのニューラルネットワークを適用することによって、複数のタスクに対して継続学習を実行することで、複数のタスクの特徴を取り込む機能を達成し、特定のタスクのトレーニングデータに対してタスクベースの逐次学習を実行することで、以前のタスクを忘却することなく、新しいタスクを学習する効果を達成し、タスクを手動で割り当てなければならない従来の継続学習方法の制限を軽減する。

一実施形態では、ニューラルネットワークモデルは、少なくとも１つの畳み込み層および少なくとも１つのバッチ正規化層を含む。一実施形態では、ニューラルネットワークモデルは、例えば、ＲｅｓＮｅｔ、ＶＧＧ、またはＭｏｂｉｌｅＮｅｔ－ｖ２のニューラルネットワークアーキテクチャである、畳み込みニューラルネットワークアーキテクチャであり得る。電子機器１０は、例えば、エッジ計算装置である。一般に、エッジ計算装置のメモリ容量および計算能力には多くの制限があり、従来の共同学習は許可されないことが多い。本開示の１つ以上の実施形態で提供される機械学習では、タスクの入力データの中で、ニューラルネットワークアーキテクチャを変更することなく、ターゲットタスクが自動的に決定され、データの僅かな部分に対する連続的なトレーニングを通して継続学習を達成する。ハードウェア仕様がそれほど強力でないエッジ計算装置の場合、本開示の１つ以上の実施形態に従って、より省電力かつより高速な方法で、ディープネットワークラーニングを実行することができる。

図４は、本開示の一実施形態に従って、トレーニングモジュールが新しいタスクを学習していることを示す概略図である。図４を参照すると、ステップＳ４１０において、電子機器１０が新しいタスクのトレーニングデータを受信する。ステップＳ４２０において、トレーニングモジュール１２０５が、図３に示されるステップを実行して、新しいタスクのトレーニングデータに従って、ニューラルネットワークモデルＮＮおよびチャネルごとのマスクＧＳのパラメータを更新し、トレーニングを完了する。ステップＳ４３０において、現在のタスクに対するトレーニングが完了した後、次のタスクについてトレーニングを実行する必要がある場合、次のタスクに対して学習を実行する。

具体的には、任意の新しいタスクのトレーニングデータについて、チャネルごとのマスクＧＳは、ニューラルネットワークモデルＮＮの一部が計算を実行しないように制限することができる。従って、ニューラルネットワークモデルＮＮおよびチャネルごとのマスクＧＳに従って、複数のサブモデルが決定され、サブモデルが重要なニューロンを介してトレーニングデータに対して特徴抽出を実行し、トレーニング特徴マップを取得する。トレーニングモジュール１２０５は、トレーニング特徴マップに従って、特徴エネルギースコアを計算する。次に、トレーニングモジュール１２０５が、トレーニングデータのクラスラベル、チャネルごとのマスク、および特徴エネルギースコアに従って、損失関数を決定する。損失関数により逆方向伝搬勾配が決定される。トレーニングモジュール１２０５が、逆方向伝搬勾配に従って、ニューラルネットワークモデルＮＮおよびチャネルごとのマスクＧＳを更新する。一実施形態では、逆方向伝搬勾配に従ってパラメータを更新するプロセスにおいて、チャネルごとのマスクＧＳは、タスク１、２、・・・、およびｔに対応しており、タスク１、２、・・・、およびｔの少なくとも１つのトレーニングタスクに対応するチャネルごとのマスクが更新される。逆方向伝播勾配は、トレーニングプロセスにおけるパラメータの重要度を自動的に決定する。重要度が高い場合、対応するチャネルごとのマスクがアクティブ化され、アクティブ化されたチャネルごとのマスクが、ニューラルネットワークモデルＮＮのパラメータの一部を自己適応的に更新する。換言すると、電子機器１０がタスク１、２、・・・、およびｔを学習した後、チャネルごとのマスクＧＳは、同じニューラルネットワークモデルＮＮを、タスク１、２、・・・、およびｔに対応する複数のサブモデルに分類することができる。

本開示の一実施形態では、トレーニングモジュール１２０５が、複数のチャネルごとのマスクＧＳに基づいて、複数のアクティブ化パラメータを決定する。トレーニングモジュール１２０５が複数のアクティブ化パラメータに従って損失を計算した後、トレーニングモジュール１２０５は、損失に従って逆方向伝搬勾配を調整する。トレーニングモジュール１２０５が、調整された逆方向伝搬勾配に従って、ニューラルネットワークモデルＮＮおよびチャネルごとのマスクＧＳを更新する。一実施形態では、逆方向伝搬勾配に従ってパラメータを更新するプロセスにおいて、チャネルごとのマスクＧＳは、タスク１、２、・・・、およびｔに対応しており、タスク１、２、・・・、およびｔのうちの少なくとも１つのトレーニングタスクに対応するチャネルごとのマスクが更新される。

本開示の一実施形態では、損失関数は、交差エントロピー誤差、チャネルごとのマスク分極正則化項、およびエネルギー損失を含む。

本開示の一実施形態では、ニューラルネットワークモデルＮＮは、少なくとも１つの畳み込み層および少なくとも１つのバッチ正規化層を含み、チャネルごとのマスクＧＳはそれぞれ、少なくとも１つのバッチ正規化層のスケーリング係数を含む。一実施形態では、スケーリング係数の次元は、畳み込み層の次元と同じであり、各バッチ正規化層のスケーリング係数は、畳み込み層の対応する畳み込みカーネルに関連付けられている。本開示の一実施形態では、チャネルごとのマスク分極正則化項は、スケーリング係数に関連付けられている。

本開示の一実施形態では、トレーニングモジュール１２０５は、トレーニング画像を少なくとも１つの畳み込み層に通して、入力特徴マップを取得する。トレーニングモジュール１２０５は、少なくとも１つのバッチ正規化層を介して、入力特徴マップおよび対応するスケーリング係数に対して正規化計算を実行することで、トレーニング特徴マップを取得する。

図５は、本開示の一実施形態による推論モジュール１２０３の動作の概略図である。図５を参照すると、ステップＳ５１０において、推論モジュール１２０３が入力画像ＩＭＧを取り込む。具体的には、Ｎ個のチャネルごとのマスクＧＳ＿１、ＧＳ＿２、・・・、およびＧＳ＿Ｎに対応するＮ個のタスク（Ｎは正の整数）を学習したニューラルネットワークモデルＮＮと、チャネルごとのマスクＧＳ＿１、ＧＳ＿２、・・・、およびＧＳ＿Ｎとがそれぞれ、ニューラルネットワークモデルＮＮの一部を適用することによって、複数のタスクを計算できることを記録している。チャネルごとのマスクＧＳ＿１、ＧＳ＿２、・・・、ＧＳ＿ＮおよびニューラルネットワークモデルＮＮを使用して、複数のサブモデルＳＵＢ＿１、ＳＵＢ＿２、・・・、およびＳＵＢ＿Ｎによって入力画像ＩＭＧに対して特徴抽出が実行されることが決定されて、複数の特徴マップを取得する。

本開示の１つ以上の実施形態では、サブモデルＳＵＢ＿１、ＳＵＢ＿２、・・・、ＳＵＢ＿Ｎが同じニューラルネットワークモデルＮＮを共有することに留意されたい。即ち、チャネルごとのマスクＧＳ＿１、ＧＳ＿２、・・・、およびＧＳ＿Ｎが、同じニューラルネットワークモデルＮＮをタスクに対応するサブモデルに分類する。

ステップＳ５２０において、推論モジュール１２０３が、サブモデルＳＵＢ＿１、ＳＵＢ＿２、・・・、およびＳＵＢ＿Ｎによって、入力画像ＩＭＧに対して特徴抽出を実行して、複数の特徴マップを取得する。ステップＳ５３０において、推論モジュール１２０３が、サブモデルＳＵＢ＿１、ＳＵＢ＿２、・・・、およびＳＵＢ＿Ｎに対応する特徴マップを複数のエネルギースコアＥ＿１、Ｅ＿２、・・・、およびＥ＿Ｎにそれぞれ変換する。エネルギースコアＥ＿１、Ｅ＿２、・・・、およびＥ＿Ｎは、サブモデルＳＵＢ＿１、ＳＵＢ＿２、・・・、およびＳＵＢ＿Ｎの安定性を表すスカラーである。エネルギーに関して、スカラーが低いほど、サブモデルはより安定している。エネルギースコアＥ＿１、Ｅ＿２、・・・、およびＥ＿Ｎは、タスク認識の効果を達成するように、入力画像ＩＭＧとサブモデルとの間の相関度を測定する。サブモデルＳＵＢ＿１、ＳＵＢ＿２、・・・、およびＳＵＢ＿Ｎは、タスクに対応している。

ステップＳ５４０において、推論モジュール１２０３が、エネルギースコアＥ＿１、Ｅ＿２、・・・、およびＥ＿Ｎに従って、サブモデルＳＵＢ＿１、ＳＵＢ＿２、・・・、およびＳＵＢ＿Ｎから、ターゲットタスクに対応するターゲットサブモデルを選択する。ターゲットタスクは、トレーニングが完了したタスクのうちの１つであり、かつターゲットタスクは、入力画像ＩＭＧを相対的に処理するタスクである。ターゲットサブモデルは、エネルギースコアＥ＿１、Ｅ＿２、・・・、およびＥ＿Ｎに従って、ターゲットタスクに最も関連すると判定されたサブモデルのうちの１つである。

本開示の一実施形態では、推論モジュール１２０３が、エネルギースコアＥ＿１、Ｅ＿２、・・・、およびＥ＿Ｎの最小値に対応するサブモデルの１つをターゲットサブモデルとして選択する。いくつかの実施形態では、タスクは第１のタスクおよび第２のタスクを含むことができ、ターゲットサブモデルは、第１のタスクに対応するサブモデルまたは第２のタスクに対応するサブモデルであり得る。いくつかの実施形態では、ターゲットサブモデルは、タスクに対応するサブモデルの１つでもあり得る。

ステップＳ５５０において、推論モジュール１２０３は、ターゲットサブモデルを介して、ターゲットタスクに対応する予測結果を出力する。一実施形態では、推論モジュール１２０３は、ターゲットサブモデルに対応する特徴マップを、ソフトマックス関数を介して、ターゲットタスクの予測クラスに対応する信頼度スコアに変換して、対応する予測結果を取得する。

エネルギースコアＥは、次の数式（２）によって計算される。

エネルギー損失は、次の数式（４）によって計算される。

調整された逆方向伝搬勾配は、次の数式（６）によって計算される。

図６Ａおよび図６Ｂに記載の実施形態は、本開示にて提供される好ましい実施形態であり、バッチ正規化層のスケーリング係数を介して、タスクに対応するチャネルごとのマスクによって、自己適応的にタスクからターゲットタスクを識別する効果を達成することができる。しかしながら、本開示の精神および範囲から逸脱することなく、チャネルごとのマスクＧＳは、バッチ正規化層を介して実装されることに限定されないものとする。いくつかの実施形態では、チャネルごとのマスクＧＳは、複数の重要度係数を通じて、特徴マップに要素ごとの乗算を実行することによって実装されてもよい。

図７は、本開示の別の実施形態による、タスクに対応するニューラルネットワークモデルおよびチャネルごとのマスクの操作の概略図である。本開示の一実施形態では、チャネルごとのマスクＧＳはそれぞれ、複数の重要度係数を含む。推論モジュール１２０３は、入力画像をニューラルネットワークモデルＮＮに通して、出力特徴マップを取得する。ステップＳ７０において、推論モジュール１２０３は、出力特徴マップおよび重要度係数に対して要素ごとの乗算を実行して、特徴マップを取得する。ステップＳ７１において、推論モジュール１２０３は、特徴マップに活性化関数を適用して、予測結果を取得する。

重要度係数は、次の数式（７）によって計算される。

本開示の一実施形態では、損失関数は重要度係数正則化項を含み、重要度係数正則化項は、重要度係数に関連付けられる。

本開示の別の実施形態では、調整された逆方向伝搬勾配は、次の数式（８）によって計算される。

図８は、本開示の別の実施形態によるニューラルネットワークモデルＮＮの概略図である。ニューラルネットワークモデルＮＮは、畳み込み層８１０およびバッチ正規化層８２０を含む。図７を併せて参照すると、重要度係数は、畳み込み層８１０の複数の畳み込みカーネルに関連付けられている。一実施形態では、ニューラルネットワークモデルＮＮは、例えば、ＲｅｓＮｅｔ、ＶＧＧ、またはＭｏｂｉｌｅＮｅｔ－ｖ２のニューラルネットワークアーキテクチャである畳み込みニューラルネットワークアーキテクチャであってもよい。図７および図８に示される実施形態では、チャネルごとのマスクＧＳは、複数の重要度係数による要素ごとの乗算を実行することで、ニューラルネットワークモデルＮＮのバッチ正規化層８２０に限定される、畳み込み層８１０のニューロンの重要なパラメータスクリーニングを達成することができることに留意されたい。

図９は、本開示の一実施形態による、複数のタスクに関連付けられたトレーニングデータの概略図である。本開示の一実施形態では、機械学習方法を適用して、アクセスコントロールマネジメントに応答して、マスクを着用した人間の顔を認識する能力を高めることができる。例えば、マスクを着用した人間の顔の画像９１０および対応するクラスラベルは、トレーニングのための最初のタスクとして機能し得る。次に、ステップＳ９０において、マスクを着用している人間の顔の別の画像９２０が、トレーニングのための新しいタスクとして機能している。この実施例において、本開示の１つ以上の実施形態で提供される機械学習方法は、以前のタスクのデータにアクセスする、または以前のタスクのデータを保存することなく、マスクを着用している人間の顔の新しい画像９２０のデータセットを新しいタスクとして取り扱うことができる。新しいタスクで更新されたチャネルごとのマスクは、トレーニングを通じて新しいタスクにとって重要な畳み込みニューロンを選択することができ、かつ新しいタスクは以前のタスクのパラメータを使用することを可能とする故、マスクを着用している人間の顔の画像の認識を学習するタスクは、マスクによってカバーされていない目、眉毛、および額に関連して、以前のタスクにおいて学習した特徴を適用することができる。口および鼻等の新しいタスクにおいて重要でないパラメータについては、最初のタスクにおける関連する畳み込みニューロンが、新しいタスクではアクティブ化されない。更に、以前のタスクモデルに重要でない畳み込みニューロンを適用して、マスクを着用した後の突出している鼻の影領域や、マスクによって遮断された人間の顔の投影面の輪郭またはプロファイル等、マスクを着用した人間の顔の詳細な特徴を学習する。

本開示の一実施形態では、機械学習方法は、類似の商品を検索するように構成することができる。例えば、学習の最初のタスクが、春用の衣服やアクセサリーを特定することであるとする。その場合、季節ごとの衣替えの時期までに、新しい学習タスクは、冬用の衣服やアクセサリーを特定することであり、新しいタスクのトレーニングは、以前のタスクモデルのトレーニングに既に衣服の一般的な特徴が含まれている故に、冬用の衣服やアクセサリーの画像およびデータを使用して実行される。新しいタスクで更新されたチャネルごとのマスクは、トレーニングを通じて新しいタスクにとって重要な畳み込みニューロンを選択することができ、かつ新しいタスクは以前のタスクのパラメータを使用することを許可する故に、冬用の衣服およびアクセサリーの画像の識別を学習するタスクは、以前のタスクで学習した詳細な特徴（例えば、襟、袖、ボタン等）を適用することで、再利用率を改善し、電子機器のコンピューティング性能を向上させることができる。

本開示の一実施形態では、機械学習方法は、スマートファクトリーによって製造されたプリント回路基板の表面に設置された要素の欠陥を検出するように構成することができる。例えば、学習の最初のタスクは、２つのクラス、即ち、正常および異常の画像を含む、第１のモデルの抵抗器の欠陥を区別することである。プリント回路基板に第２のモデルの抵抗器を追加的に設ける必要がある場合、第１のタスクに対応するニューラルネットワークモデルのトレーニングには、外観および欠陥等の抵抗器の特徴が含まれている故、第２のタスクにおいて更新された第２のモデルの抵抗器の画像およびデータを含むチャネルごとのマスクは、要素の外観やいくつかの一般的なオフセット欠陥等、第１のタスクから第２のタスクにとって重要な畳み込みニューロンを選択することができる。換言すると、新しいタスクでは、以前のタスクにとって重要な畳み込みカーネルが繰り返し使用され、以前のタスクにとって重要ではない畳み込みカーネルを適用して、第１のタスクに欠けている特徴を学習することができる。このように、以前のパラメータを効果的に使用することができ、新しいタスクにとって重要な欠陥の特徴を学習することができる。

要約すると、本開示の１つ以上の実施形態は、エネルギースコアに基づくタスク認識型継続学習メカニズムを提供し、複数のタスクに対応する特徴マップは、ニューラルネットワークモデルのチャネルごとのマスクによって分類されることで、サブモデルを決定し、タスクに対応するチャネルごとのマスクと共にニューラルネットワークモデルが、別の以前のタスクにとって重要な畳み込みパラメータを、クロスタスク方式で、自動的に選択することを可能とし、以前のタスクによって使用されなかった畳み込みパラメータを適用して、新しいタスクおよび知識を学習する。最後に、損失関数を適用して逆方向伝搬勾配を決定して、新しいタスクを最適化し、それにより、ニューラルネットワークモデルの再利用率を向上させることができる。従って、ニューラルネットワークモデルは、次のタスクを学習するためにより多くのニューロンを保持することが可能となり、サブモデル内の重要なパラメータを保存して、破滅的忘却を更に効果的に防ぐことができる。

本開示の範囲または精神から逸脱することなく、開示された実施形態に対して様々な修正および変更を行うことができることは、当業者には明らかであろう。上記を考慮して、本開示は、それらが以下の特許請求の範囲およびそれらの均等物の範囲内にあるという条件の下に、修正および変更をカバーすることが意図されている。

本開示の継続学習のための機械学習方法および電子機器は、例えば、人間の顔認識、アクセスコントロール、本人確認、デジタル監視、金融産業、小売業、無人店舗、スマートファクトリー、ドローン、機械的手術、医療診断等に適用可能である。

１０：電子機器
１１０：プロセッサ
１２０：記憶媒体
１２０１：画像取り込みモジュール
１２０３：推論モジュール
１２０５：トレーニングモジュール
１３０：画像取り込み装置
ＩＭＧ：画像
ＮＮ：ニューラルネットワークモデル
ＧＳ、ＧＳ＿１、ＧＳ＿２、ＧＳ＿Ｎ：チャネルごとのマスク
ＳＵＢ＿１、ＳＵＢ＿２、ＳＵＢ＿Ｎ：サブモデル
Ｓ２１０、Ｓ２２０、Ｓ２３０、Ｓ２４０、Ｓ２５０、Ｓ３１０、Ｓ３２０、Ｓ３３０、Ｓ３４０、Ｓ３５０、Ｓ３６０、Ｓ４１０、Ｓ４２０、Ｓ４３０、Ｓ５１０、Ｓ５２０、Ｓ５３０、Ｓ５４０、Ｓ５５０、Ｓ６０、Ｓ６１、Ｓ６２、Ｓ６３、Ｓ７０、Ｓ７１、Ｓ９０：ステップ
６１０、６３０、６５０、６１０´、６３０´、６５０´、８２０：バッチ正規化層
６２０、６４０、６２０´、６４０´、８１０：畳み込み層
９１０、９２０：画像
Ｈ：高さ
Ｗ：幅

Claims

継続学習のための機械学習方法であって、
入力画像を取り込むステップと、
複数のサブモデルによって前記入力画像に対して特徴抽出を実行して、複数の特徴マップを取得するステップであって、前記サブモデルが複数のタスクに対応しており、かつ前記サブモデルがニューラルネットワークモデルおよび複数のチャネルごとのマスクによって決定されるステップと、
前記特徴マップを複数のエネルギースコアに変換するステップと、
前記エネルギースコアに従って、前記タスクのうちのターゲットタスクに対応するターゲットサブモデルを前記サブモデルから選択するステップと、
前記ターゲットサブモデルによって前記ターゲットタスクに対応する予測結果を出力するステップと、
を含む、機械学習方法。
前記ニューラルネットワークモデルは、少なくとも１つの畳み込み層および少なくとも１つのバッチ正規化層を含み、前記チャネルごとのマスクがそれぞれ、前記少なくとも１つのバッチ正規化層の複数のスケーリング係数を含み、前記スケーリング係数は、前記少なくとも１つの畳み込み層の複数の畳み込みカーネルに関連付けられており、前記サブモデルによって入力画像に対して特徴抽出を実行して、特徴マップを取得するステップに、
前記入力画像を前記少なくとも１つの畳み込み層に通して、入力特徴マップを取得するステップと、
少なくとも１つのバッチ正規化層を通して、前記入力特徴マップおよび前記チャネルごとのマスクのそれぞれのスケーリング係数に対して正規化計算を実行して、特徴マップを取得するステップと、
を含み、前記エネルギースコアに従って、前記タスクのうちのターゲットタスクに対応するターゲットサブモデルを前記サブモデルから選択するステップに、
前記エネルギースコアの最小値に対応するサブモデルを前記ターゲットサブモデルとして選択するステップを含み、
前記チャネルごとのマスクがそれぞれ、複数の重要度係数を含み、前記サブモデルによって前記入力画像に対して特徴抽出を実行して、特徴マップを取得するステップに、
前記入力画像を前記ニューラルネットワークモデルに通して、出力特徴マップを取得するステップと、
前記出力特徴マップおよび前記チャネルごとのマスクのぞれぞれの重要度係数に対して要素ごとの乗算を実行して、特徴マップを取得するステップと、
を含む、請求項１に記載の機械学習方法。
機械学習方法であって、更に、
前記タスクに関連付けられたトレーニングデータを受信するステップであって、前記トレーニングデータに、トレーニング画像と、前記トレーニング画像に対応するクラスラベルとを含むステップと、
前記ニューラルネットワークモデルおよび前記チャネルごとのマスクに従って、前記トレーニング画像に対して特徴抽出を実行して、トレーニング特徴マップを取得するステップと、
前記トレーニング特徴マップを特徴エネルギースコアに変換するステップと、
前記クラスラベル、前記チャネルごとのマスク、および前記特徴エネルギースコアに従って、損失関数を決定するステップと、
前記損失関数に従って、逆方向伝搬勾配を決定するステップと、
前記逆方向伝播勾配に従って、前記ニューラルネットワークモデルおよび前記チャネルごとのマスクを更新するステップであって、前記チャネルごとのマスクが前記タスクに対応しており、前記タスクのうちの少なくとも１つのトレーニングタスクに対応する前記チャネルごとのマスクのうちの１つのチャネルごとのマスクを更新するステップと、
を含み、前記ニューラルネットワークモデルが少なくとも１つの畳み込み層および少なくとも１つのバッチ正規化層を含み、前記チャネルごとのマスクがそれぞれ、前記少なくとも１つのバッチ正規化層の複数のスケーリング係数を含み、前記スケーリング係数が前記少なくとも１つの畳み込み層の複数の畳み込みカーネルに関連付けられており、前記ニューラルネットワークモデルおよび前記チャネルごとのマスクに従って、前記トレーニング画像に対して特徴抽出を実行して、トレーニング特徴マップを取得するステップに、
前記トレーニング画像を前記少なくとも１つの畳み込み層に通して、入力特徴マップを取得するステップと、
前記少なくとも１つのバッチ正規化層を通して、前記入力特徴マップおよび前記スケーリング係数に対して正規化計算を実行して、前記トレーニング特徴マップを取得するステップと、
を含み、前記損失関数が、
交差エントロピー誤差、
チャネルごとのマスク分極正則化項、および
エネルギー損失
の線形結合を含み、
前記チャネルごとのマスク分極正則化項が前記スケーリング係数に関連付けられており、かつ
前記エネルギー損失は、前記特徴エネルギースコアに関連付けられており、
前記チャネルごとのマスク分極正則化項は、前記スケーリング係数に関連付けられ、
前記逆方向伝搬勾配に従って、前記ニューラルネットワークモデルおよびチャネルごとのマスクを更新するステップに、
前記チャネルごとのマスクに従って、複数のアクティブ化パラメータを決定するステップと、
前記アクティブ化パラメータに従って、調整された逆方向伝搬勾配として前記逆方向伝搬勾配を調整するステップと、
前記調整された逆方向伝搬勾配に従って、前記ニューラルネットワークモデルおよび前記チャネルごとのマスクを更新するステップと、
を含み、前記チャネルごとのマスクがそれぞれ、複数の重要度係数を含み、前記損失関数が重要度係数正則化項を含み、前記重要度係数正則化項が前記重要度係数に関連付けられており、
前記逆方向伝搬勾配に従って、前記ニューラルネットワークモデルおよび前記チャネルごとのマスクを更新するステップに、
前記チャネルごとのマスクに従って、複数のアクティブ化パラメータを決定するステップと、
前記アクティブ化パラメータに従って、調整された逆方向伝搬勾配として、前記逆方向伝搬勾配を調整するステップと、
前記調整された逆方向伝搬勾配に従って、前記ニューラルネットワークモデルおよび前記チャネルごとのマスクを更新するステップと、
を含み、前記調整された逆方向伝搬勾配が次の数式、即ち、
によって計算され、
継続学習のための電子機器であって、
複数のモジュールを記憶する記憶媒体と、
前記記憶媒体に結合され、前記モジュールを実行するプロセッサと、
を含み、前記モジュールに、
入力画像を取り込む画像取り込みモジュールと、
複数のサブモデルによって、前記入力画像に対して特徴抽出を実行して、複数の特徴マップを取得する推論モジュールと、
を含み、前記サブモデルが複数のタスクに対応しており、前記サブモデルがニューラルネットワークモデルおよび複数のチャネルごとのマスクによって決定され、前記特徴マップが複数のエネルギースコアに変換され、前記タスクのうちのターゲットタスクに対応するターゲットサブモデルが前記エネルギースコアに従って、前記サブモデルから選択され、前記ターゲットタスクに対応する予測結果が前記ターゲットサブモデルによって出力される、継続学習のための電子機器。
前記モジュールは、更に、
前記タスクに関連付けられたトレーニングデータを受信し、前記トレーニングデータに、トレーニング画像と、前記トレーニング画像に対応するクラスラベルとを含み；前記ニューラルネットワークモデルおよび前記チャネルごとのマスクに従って、前記トレーニング画像に対して特徴抽出を実行して、トレーニング特徴マップを取得し；前記トレーニング特徴マップを特徴エネルギースコアに変換し；前記クラスラベル、前記チャネルごとのマスク、および前記特徴エネルギースコアに従って、損失関数を決定し；前記損失関数に従って、逆方向伝搬勾配を決定し；前記逆方向伝搬勾配に従って、前記ニューラルネットワークモデルおよび前記チャネルごとのマスクを更新する、トレーニングモジュールを含み、前記チャネルごとのマスクが前記タスクに対応しており、前記タスクのうちの少なくとも１つのトレーニングタスクに対応する前記チャネルごとのマスクのうちの１つのチャネルごとのマスクを更新する、請求項４に記載の電子機器。