JP2022543245A

JP2022543245A - 学習を転移させるための学習のためのフレームワーク

Info

Publication number: JP2022543245A
Application number: JP2022506660A
Authority: JP
Inventors: ジュー，リンチャオ; フィスター，トーマス・ジョン; アリク，セルジャン・オメール
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-08-02
Filing date: 2020-08-02
Publication date: 2022-10-11
Anticipated expiration: 2040-08-02
Also published as: KR20220024990A; US20240054345A1; WO2021026044A1; EP4007973A1; JP7342242B2; CN114207626A; US20210034976A1; JP2023162346A

Abstract

方法（４００）は、ソースデータセット（１０４）およびターゲットデータセット（１０６）を受信するステップと、ソースデータセットおよびターゲットデータセットに基づいて深層学習モデル（１５０）についての損失関数（２０１）を識別するステップとを含む。損失関数（２０１）は、エンコーダ重み（２１０）、ソース分類器層重み（２０２）、ターゲット分類器層重み（２０４）、係数（２０６）、およびポリシー重み（２０８）を含む。学習を転移させるための学習（learning to transfer learn：Ｌ２ＴＬ）アーキテクチャ（２００）に関する複数の学習反復の各々の第１段階中に、当該方法はまた、勾配降下ベースの最適化を適用して、損失関数を最小化するエンコーダ重み、ソース分類器層重み、およびターゲット分類器重みを学習するステップと、ポリシーモデル（２０９）のアクションをサンプリングすることによって係数を決定するステップとを含み、複数の学習反復の各々の第２段階中に、評価メトリック（２２０）を最大化するポリシー重みを決定するステップとをさらに含む。

Description

技術分野
本開示は、学習を転移させるための学習のためのフレームワークに関する。

背景
機械学習モデルは、入力を受信するとともに、受信した入力に基づいて出力、たとえば、予測された出力、を生成する。いくつかの機械学習モデルは、パラメトリックモデルであり、受信した入力とモデルのパラメータの値とに基づいて出力を生成する。

いくつかの機械学習モデルは、受信した入力のための出力を生成するために複数層のモデルを採用する深層モデルである。たとえば、深層ニューラルネットワークは、出力層と１つ以上の隠れ層とを含む深層機械学習モデルである。当該１つ以上の隠れ層は各々、受信した入力に非線形変換を適用して出力を生成するものである。

概要
本開示の一局面は、ソースデータセットおよびターゲットデータセットのために共同で最適化される深層学習モデルについての重み割当てを適応的に学習する方法を提供する。当該方法は、データ処理ハードウェアにおいて、ソースデータセットおよびターゲットデータセットを受信するステップと、当該データ処理ハードウェアによって、当該ソースデータセットおよび当該ターゲットデータセットに基づいて深層学習モデルについての損失関数を識別するステップとを含む。損失関数は、エンコーダ重み、ソース分類器層重み、ターゲット分類器層重み、係数、およびポリシー重みを含む。深層学習モデルのための重み割当てを学習するように構成された学習を転移させるための学習（learning to transfer learn：Ｌ２ＴＬ）アーキテクチャに関する複数の学習反復の各々の第１段階中に、当該方法はまた、当該データ処理ハードウェアによって、勾配降下ベースの最適化を適用して、損失関数を最小化するエンコーダ重み、ソース分類器層重み、およびターゲット分類器層重みを学習するステップと、当該データ処理ハードウェアによって、ポリシーモデルのアクションをサンプリングすることによって係数を決定するステップと含む。Ｌ２ＴＬアーキテクチャに関する複数の学習反復の各々の第２段階中に、当該方法はまた、データ処理ハードウェアによって、損失関数についての評価メトリックを最大化するポリシー重みを決定するステップを含む。

本開示の実現例は、以下の任意の特徴のうちの１つ以上を含み得る。いくつかの実現例では、損失関数についての評価メトリックを最大化するポリシー重みを決定するステップは、第１段階中に学習されたエンコーダ重みおよびターゲット分類層重みを用いるステップを含む。ポリシーモデルは、学習反復の第１段階の実行中、固定され得る。ポリシーモデルは、強化学習ベースのポリシーモデルを含み得る。損失関数についての評価メトリックは、ターゲット評価データセット上の深層学習モデルの性能を定量化し得る。ターゲット評価データセットは、それまで深層学習モデルによって認識されていなかったデータサンプルのサブセットをターゲットデータセット内に含む。

いくつかの例では、複数の学習反復の各々の第１段階中に、当該方法はまた、データ処理ハードウェアによって、特定のサイズを有するソースデータセットからソースデータサンプルのトレーニングバッチをサンプリングするステップと、データ処理ハードウェアによって、深層学習モデルをトレーニングする際に用いるためのＮ個の最適な信頼スコアを有するソースデータサンプルをソースデータサンプルのトレーニングバッチから選択して、損失関数を最小化するエンコーダ重み、ソース分類器層重み、およびターゲット分類器層重みを学習するステップとを含む。追加の例では、複数の学習反復の各々の第２段階中に、当該方法はまた、データ処理ハードウェアによって、ターゲット評価データセット上のポリシー勾配を用いてポリシーモデルをトレーニングして、評価メトリックを最大化する報酬を計算するステップを含む。これらの追加の例では、損失関数についての評価メトリックを最大化するポリシー重みを決定するステップは、計算された報酬に基づいている。

いくつかの実現例では、ソースデータセットは第１の複数の画像を含み、ターゲットデータセットは第２の複数の画像を含む。ここで、ソースデータセットの第１の複数の画像内の画像の数は、ターゲットデータセットの第２の複数の画像内の画像の数よりも多くなり得る。Ｌ２ＴＬアーキテクチャは、エンコーダネットワーク層、ソース分類器層、およびターゲット分類器層を含み得る。

本開示の別の局面は、ソースデータセットおよびターゲットデータセットのために共同で最適化される深層学習モデルのための重み割当てを適応的に学習するためのシステムを提供する。当該システムは、データ処理ハードウェアと、ユーザデバイスのデータ処理ハードウェアと通信するメモリハードウェアとを含む。当該メモリハードウェアは命令を格納している。当該命令は、当該データ処理ハードウェア上で実行されると当該データ処理ハードウェアに以下の動作を実行させる。当該以下の動作は、ソースデータセットおよびターゲットデータセットを受信する動作と、ソースデータセットおよびターゲットデータセットに基づいて深層学習モデルについての損失関数を識別する動作とを含む。損失関数は、エンコーダ重み、ソース分類器層重み、ターゲット分類器層重み、係数、およびポリシー重みを含む。深層学習モデルのための重み割当てを学習するように構成された学習を転移させるための学習（Ｌ２ＴＬ）アーキテクチャに関する複数の学習反復の各々の第１段階中に、当該以下の動作はまた、勾配降下ベースの最適化を適用して、損失関数を最小化するエンコーダ重み、ソース分類器層重み、およびターゲット分類器層重みを学習する動作と、ポリシーモデルのアクションをサンプリングすることによって係数を決定する動作とを含む。Ｌ２ＴＬアーキテクチャに関する複数の学習反復の各々の第２段階中に、当該以下の動作はまた、損失関数についての評価メトリックを最大化するポリシー重みを決定する動作を含む。

この局面は、以下の任意の特徴のうちの１つ以上を含み得る。いくつかの実現例では、損失関数についての評価メトリックを最大化するポリシー重みを決定する動作は、第１段階中に学習されたエンコーダ重みおよびターゲット分類層重みを用いる動作を含む。学習反復の第１段階の実行中、ポリシーモデルは固定され得る。ポリシーモデルは、強化学習ベースのポリシーモデルを含み得る。損失関数についての評価メトリックは、ターゲット評価データセット上の深層学習モデルの性能を定量化し得る。ターゲット評価データセットは、それまで深層学習モデルによって認識されていなかったデータサンプルのサブセットをターゲットデータセット内に含む。

いくつかの例では、複数の学習反復の各々の第１段階中に、当該以下の動作はまた、特定のサイズを有するソースデータセットからソースデータサンプルのトレーニングバッチをサンプリングする動作と、深層学習モデルをトレーニングする際に用いるためのＮ個の最適な信頼スコアを有するソースデータサンプルをソースデータサンプルのトレーニングバッチから選択して、損失関数を最小化するエンコーダ重み、ソース分類器層重み、およびターゲット分類器層重みを学習する動作とを含む。追加の例では、複数の学習反復の各々の第２段階中、当該以下の動作はまた、ターゲット評価データセット上のポリシー勾配を用いてポリシーモデルをトレーニングして、評価メトリックを最大化する報酬を計算する動作を含む。これらの追加の例では、損失関数についての評価メトリックを最大化するポリシー重みを決定する動作は、計算された報酬に基づいている。

いくつかの実現例では、ソースデータセットは第１の複数の画像を含み、ターゲットデータセットは第２の複数の画像を含む。ここで、ソースデータセットの第１の複数の画像内の画像の数は、ターゲットデータセットの第２の複数の画像内の画像の数より多くてもよい。Ｌ２ＴＬアーキテクチャは、エンコーダネットワーク層、ソース分類器層、およびターゲット分類器層を含み得る。

本開示の１つ以上の実現例の詳細は添付の図面および以下の記載において説明されている。他の局面、特徴、および利点は以下の記載、添付の図面、および添付の特許請求の範囲から明らかになるだろう。

学習を転移させるための学習（Ｌ２ＴＬ）アーキテクチャと、ソースデータセットおよびトレーニングデータセットのために共同で最適化された深層学習モデルとを含むシステムを示す概略図である。ソースデータセットから情報を適切に抽出することによってターゲットデータセット上での転移学習を向上させるための学習を転移させるための学習アーキテクチャの例を示す概略図である。深層学習モデルの重みを更新するための複数の学習反復の各々の第１段階および第２段階を示す例示的な学習を転移させるための学習アルゴリズムを示す概略図である。ソースデータセットおよびターゲットデータセットのために共同で最適化される深層学習モデルのための重み割当てを適応的に学習する方法についての動作の例示的な構成を示す図である。本明細書で説明されるシステムおよび方法を実現するために用いられ得る例示的なコンピューティングデバイスを示す概略図である。

さまざまな図面における同様の参照符号は同様の要素を示している。
詳細な説明
深層ニューラルネットワークは画像、テキストおよび音声を理解するのに優れている。深層ニューラルネットワークの性能は、より多くのトレーニングデータで著しく向上させられる。アプリケーションが多様化しておりわずかなトレーニングデータセットで複数の使用事例をカバーしているので、従来のトレーニングアプローチは高性能を達成するには不充分であることが多い。余分なソースデータセットを利用し、関連情報をターゲットデータセットに「転移」させることが非常に有益となる。転移学習は、通常、大規模ソースデータセット上で予めトレーニングされたモデルを取得し、次いで、当該モデルをターゲットデータセット上でさらにトレーニングする（微調整（fine-tuning）として公知である）形式であり、大多数の現実世界の人工知能の用途のための標準レシピとなってきている。ランダムに初期化してからトレーニングする場合と比べて、微調整は、オブジェクト認識、意味のセグメント化、言語理解、音声合成、視聴覚認識、および言語翻訳について実証されるように、大幅な性能向上および収束加速をもたらす。

本明細書の実現例は、ソースデータセットから情報を適切に抽出することによってターゲットデータセットに対する転移学習を向上させるための、データ処理ハードウェア上で実行される学習を転移させるための学習（learn to transfer learn：Ｌ２ＴＬ）アーキテクチャを対象としている。固定された重み付け割当て関数を用いてソースドメインとターゲットドメインとの間の関連性を測定する転移学習技術とは対照的に、Ｌ２ＴＬアーキテクチャは、ソースデータセットおよびターゲットデータセットのために共同で最適化される深層学習モデルのための重み割当てを適応的に学習することができる。以下で明らかになるように、深層学習モデルに関する適応重みの学習は、ターゲット評価データセット上における深層学習モデルの性能によって導かれ得る。具体的には、当該性能は、ターゲット性能メトリックを用いて定量化することができ、これにより、Ｌ２ＴＬアーキテクチャは、ターゲット評価性能を向上させるという目的のために関連性を直接対象にすることができる。

重要度重み付け関数を求めて最適化する一方で、スケーリング係数を選択する際の１つの選択肢は、これらスケーリング係数を（１，０）と（０，１）とで交互にすることである。これにより、最適化されたポリシー重み

で収束するまでソースデータセットがトレーニングされ得るとともに、さらに、ソースデータセットから予めトレーニングされた重みで収束するまでターゲットデータセットがトレーニングされ得る。いくつかの実現例では、フレームワークは、単一の係数を、スケール不変で最適化するように最適化する。ポリシー最適化ステップは、トレーニング可能なパラメータについての勾配降下ベースの最適化からは切り離されており、信号は、それらトレーニング可能なパラメータ間で共有されている。

実現例は、Ｌ２ＴＬアーキテクチャに関する複数の学習反復の各々において２つの段階を用いることに向けられている。複数の学習反復の各々についての第１段階中に、Ｌ２ＴＬアーキテクチャは、勾配降下ベースの最適化を適用して、Ｌ２ＴＬアーキテクチャについての損失関数を最小化するエンコーダ重み、ソース分類器層重み、およびターゲット分類器重みを学習するとともに、ポリシーモデルのアクションをサンプリングすることによって係数を決定する。第１段階中、ポリシーモデルは固定され得る。場合によっては、損失は、或るバッチ内のソースデータセットサンプルの大部分が無関係である一方でいくつかのバッチがより関連性の高い例を含んでいる場合、歪められる可能性がある。この問題を緩和するために、Ｌ２ＴＬアーキテクチャは、より大きなバッチをサンプリングするとともに、より関連性の高い例を動的に選択することができる。各反復ごとに、Ｌ２ＴＬアーキテクチャは、特定のサイズを有するトレーニングバッチをサンプリングすることができるとともに、最高信頼スコアを有するいくつかの上位サンプルをトレーニングのために用いることができる。このアプローチは計算上の利益をもたらすことができる。なぜなら、収束に至るまで、ほとんどのソースデータセットサンプルに関して勾配が計算されないであろうからである。

複数の学習反復の各々についての第２段階中に、Ｌ２ＴＬアーキテクチャは、第１段階中に学習されたエンコーダ重みを用いてターゲット評価データセット上の評価メトリックを最大化するポリシー重み

を最適化する。これは、ポリシーモデルが重要度重み付け関数および単一の係数のためのアクションを報酬の最適化を目指して出力するように、ＲＬ問題として処理することができる。ポリシーモデルをトレーニングする場合、Ｌ２ＴＬアーキテクチャは、ポリシー勾配を用いることで、特定のサイズを有するバッチを用いてターゲットデータセット上の報酬を最大化することができる。Ｌ２ＴＬアーキテクチャは、移動平均ベースラインを用いて変動を減らすことができる。Ｌ２ＴＬアーキテクチャは、強化学習を用いてポリシー勾配を計算することができる。Ｌ２ＴＬアーキテクチャはまた、確率目標の勾配ベースの最適化、たとえば、Ａｄａｍオプティマイザ、を用いてポリシー勾配を最適化することもできる。

図１を参照すると、いくつかの実現例では、システム１００は、命令を格納するデータ処理ハードウェア１３４（たとえば、サーバもしくはＣＰＵ）および／またはリモートメモリハードウェア１３６などのリソース１３２を含むコンピューティング環境１３０を含む。当該命令は、データ処理ハードウェア１０２上で実行されると、当該データ処理ハードウェア１０２に動作を実行させる。学習を転移させるための学習（Ｌ２ＴＬ）アーキテクチャ２００および深層学習モデル１５０はリソース１３２上に常駐し得る。概して、深層学習モデル１５０は、受信した入力のための出力を生成するための複数層のモデルを含む深層学習ネットワーク、すなわち、機械学習モデル、を含む。図示される例では、深層学習モデル１５０は、ソースデータセット１０４およびターゲットデータセット１０６のために共同で最適化され、Ｌ２ＴＬアーキテクチャ２００は、深層学習モデル１５０のための重み割当てを適応的に学習するように構成されている。

図２は、データ処理ハードウェア１３４上で実行されるとともにソースデータセット１０４およびターゲットデータセット１０６を受信するＬ２ＴＬアーキテクチャ２００の例を示す。ソースデータセット１０４は第１の複数の画像を含み、ターゲットデータセット１０６は第２の複数の画像を含む。ソースデータセット１０４の第１の複数の画像は、ターゲットデータセット１０６の第２の複数の画像よりも多くの枚数の画像を含む。他の実現例では、ソースデータセット１０４およびターゲットデータセット１０６は画像以外のデータサンプル、たとえば、オーディオサンプルまたはテキストサンプルなどの、但しこれらには限定されないサンプルを含む。ターゲットデータセット１０６は、特化されたターゲットタスクを実行するように、たとえば、犬を含む画像を認識するように、深層学習モデル１５０をトレーニングするためのトレーニングサンプル（たとえば、犬を含む画像）の特化されたセットを含む。しかしながら、ソースデータセット１０４は、犬を含む可能性もあるし含まない可能性もあるさまざまなクラスにわたる画像のための非常に大規模な公開データセットを含んでいてもよい。特に、ソースデータセット１０４およびターゲットデータセット１０６は各々ラベル付けされ得る。ソースデータセット１０４内のソースサンプルが、ターゲットデータセット１０６内のターゲットサンプルに暗黙的に関連する特徴を有し得るとともに学習プロセスに利益をもたらす可能性があるが、それらはそれぞれ異なるクラスに属する可能性がある。たとえば、深層学習モデル１５０をトレーニングして鳥画像の分類を実行する例について検討する。ソースデータセット１０４は鳥画像を含まない可能性もあるが、類似する視覚的パターンを有する飛行機画像を有する可能性がある。これら類似する視覚的パターンは、未加工データの有益な表現を学習するために類似する視覚的パターンを共有しているので鳥分類器のトレーニングを支援するものとなるだろう。Ｌ２ＴＬアーキテクチャ２００は、そのポリシー学習を用いてこのような事例を自動的に処理するように設計されており、人手によるソースデータセットの選択または固定ドメイン類似法が実施し得ない方法で性能をさらに推進させることができる。Ｌ２ＴＬアーキテクチャ２００は、構成要素の損失項のスケーリングのために適応重み２０２、２０４、２０８、２１０を使用しつつ、ソースタスクおよびターゲットタスクのための深層学習モデル１５０の協調的最適化を考慮に入れている。図２のＬ２ＴＬアーキテクチャ２００における破線ボックスはトレーニング可能な関数に対応している。

Ｌ２ＴＬアーキテクチャ２００は、ソースデータセット１０４から情報を適切に抽出することによって、ターゲットデータセット１０６に対する転移学習を向上させるように構成されている。Ｌ２ＴＬアーキテクチャ２００は、ソースデータセット１０４およびターゲットデータセット１０６に基づいて深層学習ネットワーク１５０についての損失関数２０１を識別するように構成されている。損失関数２０１は、深層学習モデル１５０のエンコーダニューラルネットワーク１５２に関連付けられたエンコーダ重み２１０と、深層学習モデル１５０のソース分類器層１５４に関連付けられたソース分類器層重み２０２と、深層学習モデル１５０のターゲット分類器層１５６に関連付けられたターゲット分類器層重み２０４と、ソースデータセット１０４およびターゲットデータセット１０６についての係数２０６と、深層学習モデル１５０のポリシーモデル２０９に関連付けられたポリシー重み２０８とを含み得る。損失関数２０１は以下のように表わされ得る。

ここで、（ｘ，ｙ）は入力と出力との対であり、Ｂ_ＳおよびＢ_Ｔはソースバッチサイズおよびターゲットバッチサイズであり、α_ｓ［ｉ］およびα_ｔ［ｉ］はｉ番目の反復におけるスケーリング係数２０６であり、λは重要度重み付け関数２１２であり、

はトレーニング可能なパラメータΩ（符号化重み２１０）、ζ_Ｓ（ソース分類器層重み２０２）、およびζ_Ｔ（ターゲット分類器層重み２０４）を有するソースデータセット１０４およびターゲットデータセット１０６についての符号化関数である。以下で明らかになるように、式（１）によって表わされる損失関数２０１の学習目的は、性能メトリックＲ，２２０の最大化によって未認識のターゲット評価データセット１０６′に一般化されている。

Ｌ２ＴＬアーキテクチャ２００に関する複数の学習反復の各々についての第１段階中に、Ｌ２ＴＬアーキテクチャ２００は、勾配降下ベースの最適化を適用して、損失関数２０１を最小化するエンコーダ重みΩ２１０、ソース分類器層重みζ_Ｓ２０２、およびターゲット分類器層重みζ_Ｔ２０４を学習するとともに、ポリシーモデル２０９のアクションをサンプリングすることによって係数２０６を決定する。たとえば、勾配降下ベースの最適化を適用して、損失関数２０１を最小化する適応可能な重みΩ２１０、ζ_Ｓ２０２、およびζ_Ｔを学習することは以下の式で表わされてもよい。

第１段階中、ポリシーモデル２０９は固定されたままである。ほとんどのバッチはソースデータセット１０４からの関連サンプルを含む可能性があるが、損失関数２０１は、或るバッチ内のソースデータセットサンプルのほとんどが関連性のない（理想的には、より低い重みを得る可能性のある）場合には歪められる可能性がある。この問題を緩和するために、第１段階では、各反復ごとにより大きいバッチサイズを用いて、そこから最も関連性の高い例を動的に選択してもよい。各反復ごとに、Ｌ２ＴＬアーキテクチャは、サイズＭ_Ｓ・Ｂ_Ｓのトレーニングバッチをサンプリングするとともに、その反復中にトレーニング更新のために最高の重みを有するもののうち上位のＢ_Ｓを用いる。このアプローチも計算上の利益をもたらす。なぜなら、収束に至るまで、ほとんどのソースデータセットサンプルに関して勾配が計算されないであろうからである。

図２は、ソースデータセット１０４およびターゲットデータセット１０６のそれぞれの入力ｘと、それらの対応するラベル／出力ｙとの間の勾配を最小化することを含む、ソースデータセット１０４およびターゲットデータセット１０６の各々についての学習反復の第１段階中における、トレーニング目的を有するＬ２ＴＬアーキテクチャ２００を示す。ここで、符号化ネットワーク１５２は、ソースデータセット１０４からの入力特徴（たとえば、画像）を符号化するとともに、ソース分類器層１５４（「ソース決定層」とも称する）は、符号化された入力特徴を用いて信頼スコアを出力し、これにより、トレーニング目標は、入力特徴についての信頼スコアと対応するラベル／出力ｙとの間における（損失関数２０１の式（１）中の第１の項

に対応する）ソースデータセット分類損失を決定する。ソースデータセット分類損失に、損失関数２０１の式（１）中の

に対応する重要度重み２１２を掛けてから、加算関数２０３が、ソースデータセット分類損失と重要度重み２１２との積で（損失関数２０１の式１中の第２の項

に対応する）ターゲットデータセット分類損失を集約して、損失関数２０１についての集約勾配を決定する。各反復の損失関数の集約済み勾配に基づいて、Ｌ２ＴＬアーキテクチャ２００は、ソースデータセット１０３の収束に至るまで、エンコーダ重みΩ２１０、ソース分類器層重みζ_Ｓ２０２、およびターゲット分類器層重みζ_Ｔ２０４の各々を決定／更新する。

符号化ネットワーク１５２はまた、ターゲットデータセット１０６からの入力特徴（たとえば、画像）を符号化し、ターゲット分類器層１５６（「ソース決定層」とも称する）は、符号化された特徴を用いて信頼スコアを出力する。これにより、トレーニング目標が、入力特徴についての信頼スコアとターゲットデータセットについての対応するラベル／出力ｙとの間のターゲットデータセット分類損失

を決定する。上述のとおり、加算関数２０３は、ソースデータセット分類損失と重要度重み２０８との積とともにターゲットデータセット分類損失を集約して、損失関数２０１についての集約勾配を決定する。

Ｌ２ＴＬアーキテクチャ２００に関する複数の学習反復の各々についての第２段階中に、Ｌ２ＴＬアーキテクチャ２００は、損失関数２０１についての評価メトリックＲ，２２０を最大化するポリシー重みΦ２０８を決定する。ここで、Ｌ２ＴＬアーキテクチャ２００は、第１段階中に学習されたエンコーダ重みΩ２１０およびターゲット分類器層重みζ_Ｔ２０４を用いて評価メトリックＲ，２２０を最大化するポリシー重みΦ２０８を決定する。本明細書で用いられるように、損失関数についての評価メトリック（「評価メトリック（evaluation metric）」とも称する）２２０は、ターゲット評価データセット１０６′上の深層学習モデル１５０（すなわち、エンコーダネットワーク１５２およびターゲット分類層１５４）の性能を定量化する。いくつかの例では、ターゲット評価データセット１０６′は、トレーニングの第１段階中、それまで深層学習モデル１５０によって認識されていなかったデータサンプル（たとえば、画像）のサブセットをターゲットデータセット１０６内に含む。したがって、ポリシー重みΦ２０８を決定することは、ターゲット評価データセット１０６′に対する評価メトリックＲ_Ｄ′Ｔ２２０を最大化するようにポリシー重み２０８を最適化することを含む。これは以下のように表わされてもよい。

ここで、Ｄ′_Ｔは未認識のターゲット評価データセット１０６′であって、第１段階中、それまで深層学習モデル１５０によって認識されていなかったデータサンプル（入力特徴ｘ、出力ラベルｙ）のサブセットをターゲットデータセット１０６内に含み得る。ポリシーモデル２０９が第１段階中に固定されている間、第２段階中に、Ｌ２ＴＬアーキテクチャ２００は、ターゲット評価データセット１０６′上のポリシー勾配を用いてポリシーモデル２０９をトレーニングして、式３を用いて評価メトリック２２０を最大化する報酬を計算する。したがって、Ｌ２ＴＬアーキテクチャ２００は、計算された報酬に基づいて評価メトリックＲ，２２０を最大化するポリシー重みΦ２０８を決定／更新する。更新されたポリシー重みΦ２０８に基づいて、後続の学習反復の第１段階中に決定されるべきソースデータセット分類損失に対して乗数として適用される重要度重み２１２は、ポリシーモデル２０９のアクションをサンプリングすることによって更新される。こうして、Ｌ２ＴＬアーキテクチャ２００は、ポリシーモデル２０９を採用して、エンコーダ重みΩ２１０、ソース分類器層重みζ_Ｓ２０２、およびターゲット分類器層重みζ_Ｔ２０４を学習するとともに、ターゲット評価データセット１０６′に対する評価メトリックＲ，２２０を最大化するポリシー重みΦ２０８を決定／更新する。その結果、Ｌ２ＴＬアーキテクチャ２００は、ターゲット評価データセット１０６′についての性能を向上させるという特定の目標に関する関連性を直接ターゲットにすることによって、全体的な関連性をターゲットにする以上のことを行なう。図３は、重みΩ２１０、ζ_Ｓ２０２、ζ_Ｔ２０４およびΦ２０８を更新するための複数の学習反復の各々についての第１段階および第２段階を示す例示的なＬ２ＴＬアルゴリズムを示す。

実質的には、ポリシーモデル２０９は、ソースデータセット１０４の多数のクラスの各々ごとに適応的に重要度重み２１２を出力し、これにより、Ｌ２ＴＬアーキテクチャ２００がソースデータセットクラス重みを学習してターゲットデータセット１０６の性能を直接最適化することを可能にする。重要度重み２１２が適応的に割当てられていれば、深層学習モデル１５０をトレーニングしてターゲット目標を学習するための関連情報がソースデータセット１０４から抽出され得るように、Ｌ２ＴＬアーキテクチャ２００は、より高い重みをソースデータセット１０４内のより関連性の高いデータサンプルに割当てる。ポリシーモデル２０９は強化学習ベースのポリシーモデルを含み得る。さらに、いくつかの例では、Ｌ２ＴＬアーキテクチャ２００は、ターゲットタスクに対するソースデータセット１０４のサンプルの寄与に基づいてこれらサンプルのランク付けをもたらす。

図４は、ソースデータセット１０４およびターゲットデータセット１０６のために共同で最適化される深層学習モデル１５０のための重み割当てを適応的に学習する方法４００についての動作の例示的な構成のフローチャートを示す。データ処理ハードウェア１３４（図１）は、メモリハードウェア１３６（図１）に格納された命令を実行することによって方法４００のための動作を実行し得る。動作４０２において、方法４００は、ソースデータセット１０４およびターゲットデータセット１０６を受信する動作を含む。動作４０４において、方法４００は、ソースデータセット１０４およびターゲットデータセット１０６に基づいて深層学習モデル１５０についての損失関数２０１を識別する動作を含む。損失関数２０１は、エンコーダ重み２１０、ソース分類器層重み２０２、ターゲット分類器層重み２０４、係数２０６、およびポリシー重み２０８を含む。

深層学習モデル１５０のための重み割当てを学習するように構成された学習を転移させるための学習（Ｌ２ＴＬ）アーキテクチャ２００に関する複数の学習反復の各々の第１段階中、方法４００はまた、動作４０６において、勾配降下ベースの最適化を適用して、損失関数を最小化するエンコーダ重み、ソース分類器層重み、およびターゲット分類器重みを学習する動作と、動作４０８において、ポリシーモデル２０９のアクションをサンプリングすることによって係数２０６を決定する動作とを含む。Ｌ２ＴＬアーキテクチャ２００に関する複数の学習反復の各々の第２段階中、方法４００はまた、動作４１０において、損失関数２０１についての評価メトリック２２０を最大化するポリシー重み２０８を決定する動作を含む。

ソフトウェアアプリケーション（すなわち、ソフトウェアリソース）とは、コンピューティングデバイスにタスクを実行させるコンピュータソフトウェアを指し得る。いくつかの例では、ソフトウェアアプリケーションは「アプリケーション」、「アプリ」、または「プログラム」とも称され得る。例示的なアプリケーションは、システム診断アプリケーション、システム管理アプリケーション、システム保守アプリケーション、文書処理アプリケーション、表計算アプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、およびゲーミングアプリケーションを含むが、それらに限定されない。

非一時的メモリは、プログラム（たとえば命令のシーケンス）またはデータ（たとえばプログラム状態情報）を、コンピューティングデバイスによる使用のために一時的または永続的に格納するために使用される物理デバイスであってもよい。非一時的メモリは、揮発性および／または不揮発性のアドレス可能半導体メモリであってもよい。不揮発性メモリの例は、フラッシュメモリおよび読出専用メモリ（ＲＯＭ）／プログラマブル読出専用メモリ（ＰＲＯＭ）／消去可能プログラマブル読出専用メモリ（ＥＰＲＯＭ）／電子的消去可能プログラマブル読出専用メモリ（ＥＥＰＲＯＭ）（たとえば、典型的にはブートプログラムなどのファームウェアのために使用される）を含むが、それらに限定されない。揮発性メモリの例は、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、相変化メモリ（ＰＣＭ）、およびディスクまたはテープを含むが、それらに限定されない。

図５は、本明細書で説明するシステムおよび方法を実現するために使用され得る例示的なコンピューティングデバイス５００の概略図である。コンピューティングデバイス５００は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなどの、さまざまな形態のデジタルコンピュータを表わすよう意図されている。ここに示すコンポーネント、それらの接続および関係、ならびにそれらの機能は単なる例示を意図したものであって、この文書で説明および／または主張される本発明の実現例を限定するよう意図したものではない。

コンピューティングデバイス５００は、プロセッサ５１０（たとえば、データ処理ハードウェア）と、メモリ５２０（たとえば、メモリハードウェア）と、ストレージデバイス（たとえば、メモリハードウェア）５３０と、メモリ５２０および高速拡張ポート５５０に接続している高速インターフェイス／コントローラ５４０と、低速バス５７０およびストレージデバイス５３０に接続している低速インターフェイス／コントローラ５６０とを含む。コンポーネント５１０、５２０、５３０、５４０、５５０、および５６０の各々は、さまざまなバスを使用して相互接続されており、共通のマザーボード上にまたは他の態様で適宜搭載されてもよい。プロセッサ５１０は、コンピューティングデバイス５００内で実行される命令を処理可能であり、これらの命令は、グラフィカルユーザインターフェイス（graphical user interface：ＧＵＩ）のためのグラフィック情報を、高速インターフェイス５４０に結合されたディスプレイ５８０などの外部入出力デバイス上に表示するために、メモリ５２０内またはストレージデバイス５３０上に格納された命令を含む。他の実現例では、複数のプロセッサおよび／または複数のバスが、複数のメモリおよび複数のタイプのメモリとともに適宜使用されてもよい。また、複数のコンピューティングデバイス５００が接続されてもよく、各デバイスは（たとえば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして）必要な動作の部分を提供する。プロセッサ５１０は、図１のデータ処理ハードウェア１３４に対応し得るとともに、Ｌ２ＴＬアーキテクチャ２００および深層学習モデル１５０を実行し得る。

メモリ５２０は、情報をコンピューティングデバイス５００内に非一時的に格納する。メモリ５２０は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットであってもよい。非一時的メモリ５２０は、プログラム（たとえば命令のシーケンス）またはデータ（たとえばプログラム状態情報）を、コンピューティングデバイス５００による使用のために一時的または永続的に格納するために使用される物理デバイスであってもよい。不揮発性メモリの例は、フラッシュメモリおよび読出専用メモリ（ＲＯＭ）／プログラマブル読出専用メモリ（ＰＲＯＭ）／消去可能プログラマブル読出専用メモリ（ＥＰＲＯＭ）／電子的消去可能プログラマブル読出専用メモリ（ＥＥＰＲＯＭ）（たとえば、典型的にはブートプログラムなどのファームウェアのために使用される）を含むが、それらに限定されない。揮発性メモリの例は、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、相変化メモリ（ＰＣＭ）、およびディスクまたはテープを含むが、それらに限定されない。

ストレージデバイス５３０は、コンピューティングデバイス５００のための大容量ストレージを備えることができる。いくつかの実現例では、ストレージデバイス５３０はコンピュータ可読媒体である。さまざまな異なる実現例では、ストレージデバイス５３０は、フロッピー（登録商標）ディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリもしくは他の同様のソリッドステートメモリデバイス、または、ストレージエリアネットワークもしくは他の構成におけるデバイスを含むデバイスのアレイであってもよい。追加の実現例では、コンピュータプログラム製品が情報担体において有形に具現化され得る。コンピュータプログラム製品は、実行されると上述のような１つ以上の方法を実行する命令を含む。情報担体は、メモリ５２０、ストレージデバイス５３０、またはプロセッサ５１０上のメモリなどのコンピュータ可読媒体または機械可読媒体である。

高速コントローラ５４０はコンピューティングデバイス５００のための帯域幅集中型の動作を管理し、一方、低速コントローラ５６０はより低帯域幅集中型の動作を管理する。このような役務機能の割当ては例示に過ぎない。いくつかの実現例では、高速コントローラ５４０は、メモリ５２０、ディスプレイ５８０に（たとえば、グラフィックスプロセッサまたはアクセラレータを介して）結合されるとともに、さまざまな拡張カード（図示せず）を受付け得る高速拡張ポート５５０に結合される。いくつかの実現例では、低速コントローラ５６０は、ストレージデバイス５３０および低速拡張ポート５９０に結合される。さまざまな通信ポート（たとえば、ＵＳＢ、ブルートゥース（登録商標）、イーサネット（登録商標）、無線イーサネット）を含み得る低速拡張ポート５９０は、キーボード、ポインティングデバイス、スキャナなどの１つ以上の入出力デバイスに、または、スイッチもしくはルータなどのネットワーキングデバイスに、たとえばネットワークアダプタを介して結合されてもよい。

コンピューティングデバイス５００は、図に示すように多くの異なる形態で実現されてもよい。たとえばそれは、標準サーバ５００ａとして、またはそのようなサーバ５００ａのグループにおいて複数回実現されてもよく、ラップトップコンピュータ５００ｂとして、またはラックサーバシステム５００ｃの一部として実現されてもよい。

ここに説明されるシステムおよび技術のさまざまな実現例は、デジタル電子および／または光学回路、集積回路、特別に設計されたＡＳＩＣ（application specific integrated circuit：特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組合せにおいて実現され得る。これらのさまざまな実現例は、データおよび命令をストレージシステムとの間で送受信するように結合された、専用または汎用であり得る少なくとも１つのプログラマブルプロセッサと、少なくとも１つの入力デバイスと、少なくとも１つの出力デバイスとを含むプログラマブルシステム上で実行可能および／または解釈可能である１つ以上のコンピュータプログラムにおける実現例を含み得る。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても公知である）は、プログラマブルプロセッサのための機械命令を含むとともに、高レベルの手続き型および／またはオブジェクト指向型プログラミング言語で、および／またはアセンブリ／機械語で実現され得る。本明細書中で使用される場合、「機械可読媒体」および「コンピュータ可読媒体」という語は、機械命令および／またはデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、非一時的コンピュータ可読媒体、機器および／またはデバイス（たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（Programmable Logic Device：ＰＬＤ））を指し、機械命令を機械可読信号として受信する機械可読媒体を含む。「機械可読信号」という語は、機械命令および／またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。

この明細書で説明されるプロセスおよび論理フローは、データ処理ハードウェアとも称される１つ以上のプログラマブルプロセッサが、入力データに基づいて動作することおよび出力を生成することによって機能を実行するために１つ以上のコンピュータプログラムを実行することによって行なわれ得る。プロセスおよび論理フローはまた、たとえばＦＰＧＡ（field programmable gate array：フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）といった専用論理回路によって実行可能である。コンピュータプログラムの実行に適したプロセッサは、一例として、汎用および専用のマイクロプロセッサと、任意の種類のデジタルコンピュータの任意の１つ以上のプロセッサとを含む。一般に、プロセッサは、命令およびデータを、読出専用メモリまたはランダムアクセスメモリまたはそれら双方から受信するであろう。コンピュータの本質的要素は、命令を実行するためのプロセッサと、命令およびデータを格納するための１つ以上のメモリデバイスとである。一般に、コンピュータはまた、たとえば磁気ディスク、光磁気ディスクまたは光ディスクなどの、データを格納するための１つ以上の大容量ストレージデバイスを含むこととなるか、または、当該大容量ストレージデバイスからデータを受信するかまたは当該大容量ストレージデバイスにデータを転送するかまたはそれら双方を行なうように動作可能に結合されることとなるだろう。しかしながら、コンピュータは、そのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを格納するのに適したコンピュータ可読媒体は、あらゆる形態の不揮発性メモリ、媒体、およびメモリデバイスを含み、一例として、半導体メモリデバイス、たとえばＥＰＲＯＭ、ＥＥＰＲＯＭ、およびフラッシュメモリデバイス；磁気ディスク、たとえば内部ハードディスクまたはリムーバブルディスク；光磁気ディスク；ならびに、ＣＤＲＯＭおよびＤＶＤ－ＲＯＭディスクを含む。プロセッサおよびメモリは、専用論理回路によって補完されてもよく、または専用論理回路に組込まれてもよい。

ユーザとの対話を提供するために、この開示の１つ以上の局面は、情報をユーザに表示するためのディスプレイデバイス、たとえばＣＲＴ（cathode ray tube：陰極線管）、ＬＣＤ（liquid crystal display：液晶ディスプレイ）モニタ、またはタッチスクリーンと、任意には、ユーザによるコンピュータへの入力を可能にするキーボードおよびポインティングデバイス、たとえばマウスまたはトラックボールとを有するコンピュータ上で実現され得る。他の種類のデバイスも同様に、ユーザとの対話を提供するために使用され得る。たとえば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、たとえば視覚フィードバック、聴覚フィードバックまたは触覚フィードバックであり得る。また、ユーザからの入力は、音響入力、音声入力または触覚入力を含む任意の形態で受信され得る。加えて、コンピュータは、ユーザによって使用されるデバイスに文書を送信し、当該デバイスから文書を受信することによって、たとえば、ユーザのクライアントデバイス上のウェブブラウザから受信された要求に応答してウェブページを当該ウェブブラウザに送信することによって、ユーザと対話することができる。

いくつかの実現例を説明してきた。にもかかわらず、本開示の精神および範囲から逸脱することなく、さまざまな変更を行なってもよいことが理解されるであろう。したがって、他の実現例は添付の特許請求の範囲内にある。

Claims

方法（４００）であって、
データ処理ハードウェア（１３４）において、ソースデータセット（１０４）およびターゲットデータセット（１０６）を受信するステップと、
前記データ処理ハードウェア（１３４）によって、前記ソースデータセット（１０４）および前記ターゲットデータセット（１０６）に基づいて深層学習モデル（１５０）についての損失関数（２０１）を識別するステップとを含み、前記損失関数（２０１）は、
エンコーダ重み（２１０）と、
ソース分類器層重み（２０２）と、
ターゲット分類器層重み（２０４）と、
係数（２０６）と、
ポリシー重み（２０８）とを含み、前記方法（４００）はさらに、
前記深層学習モデル（１５０）のための重み割当てを学習するように構成された学習を転移させるための学習（learning to transfer learn：Ｌ２ＴＬ）アーキテクチャ（２００）に関する複数の学習反復の各々の第１段階中に、
前記データ処理ハードウェア（１３４）によって、勾配降下ベースの最適化を適用して、前記損失関数（２０１）を最小化する前記エンコーダ重み（２１０）、前記ソース分類器層重み（２０２）、および前記ターゲット分類器層重み（２０４）を学習するステップと、
前記データ処理ハードウェア（１３４）によって、ポリシーモデル（２０９）のアクションをサンプリングすることによって前記係数（２０６）を決定するステップと、
前記Ｌ２ＴＬアーキテクチャ（２００）に関する前記複数の学習反復の各々の第２段階中に、
前記データ処理ハードウェア（１３４）によって、前記損失関数（２０１）についての評価メトリック（２２０）を最大化する前記ポリシー重み（２０８）を決定するステップとを含む、方法（４００）。
前記学習反復の前記第１段階の実行中、前記ポリシーモデル（２０９）は固定されている、請求項１に記載の方法（４００）。
前記ポリシーモデル（２０９）は強化学習ベースのポリシーモデルを含む、請求項１または２に記載の方法（４００）。
前記損失関数（２０１）についての前記評価メトリック（２２０）を最大化する前記ポリシー重み（２０８）を決定するステップは、前記第１段階中に学習された前記エンコーダ重み（２１０）および前記ターゲット分類層重み１５４を用いるステップを含む、請求項１から３のいずれか１項に記載の方法（４００）。
前記損失関数（２０１）についての前記評価メトリック（２２０）は、ターゲット評価データセット（１０６′）上の前記深層学習モデル（１５０）の性能を定量化し、前記ターゲット評価データセット（１０６′）は、それまで前記深層学習モデル（１５０）によって認識されていなかったデータサンプルのサブセットを前記ターゲットデータセット（１０６）内に含む、請求項１から４のいずれか１項に記載の方法（４００）。
前記複数の学習反復の各々の前記第１段階中に、
前記データ処理ハードウェア（１３４）によって、特定のサイズを有する前記ソースデータセット（１０４）からソースデータサンプルのトレーニングバッチをサンプリングするステップと、
前記データ処理ハードウェア（１３４）によって、前記深層学習モデル（１５０）をトレーニングする際に用いるためのＮ個の最適な信頼スコアを有する前記ソースデータサンプルを前記ソースデータサンプルのトレーニングバッチから選択して、前記損失関数（２０１）を最小化する前記エンコーダ重み（２１０）、前記ソース分類器層重み（２０２）、および前記ターゲット分類器層重み（２０４）を学習するステップとをさらに含む、請求項１から５のいずれか１項に記載の方法（４００）。
前記複数の学習反復の各々の前記第２段階中、
前記データ処理ハードウェアによって、ターゲット評価データセット（１０６′）上のポリシー勾配を用いて前記ポリシーモデル（２０９）をトレーニングして、前記評価メトリック（２２０）を最大化する報酬を計算するステップをさらに含み、
前記損失関数（２０１）についての前記評価メトリック（２２０）を最大化する前記ポリシー重み（２０８）を決定するステップは、前記計算された報酬に基づいている、請求項１から６のいずれか１項に記載の方法（４００）。
前記ソースデータセット（１３４）は第１の複数の画像を含み、
前記ターゲットデータセット（１３４）は第２の複数の画像を含む、請求項１から７のいずれか１項に記載の方法（４００）。
前記ソースデータセット（１３４）の前記第１の複数の画像内の画像の数は、前記ターゲットデータセット（１０４）の前記第２の複数の画像内の画像の数よりも多い、請求項８に記載の方法（４００）。
前記Ｌ２ＴＬアーキテクチャ（２００）は、エンコーダネットワーク層（１５２）、ソース分類器層（１５４）、およびターゲット分類器層（１５６）を備える、請求項１から９のいずれか１項に記載の方法（４００）。
システム（１００）であって、
データ処理ハードウェア（１３４）と、
前記データ処理ハードウェア（１３４）と通信するとともに命令を格納するメモリハードウェア（１３６）とを備え、前記命令は、前記データ処理ハードウェア（１３４）上で実行されると、前記データ処理ハードウェアに以下の動作を実行させ、前記以下の動作は、
ソースデータセット（１０６）およびターゲットデータセット（１０４）を受信する動作と、
前記ソースデータセット（１０４）および前記ターゲットデータセット（１０６）に基づいて深層学習モデル（１５０）についての損失関数（２０１）を識別する動作とを含み、前記損失関数（２０１）は、
エンコーダ重み（２１０）と、
ソース分類器層重み（２０２）と、
ターゲット分類器層重み（２０４）と、
係数（２０６）と、
ポリシー重み（２０８）とを含み、前記以下の動作はさらに、
前記深層学習モデル（１５０）のための重み割当てを学習するように構成された学習を転移させるための学習（Ｌ２ＴＬ）アーキテクチャ（２００）に関する複数の学習反復の各々の第１段階中に、
勾配降下ベースの最適化を適用して、前記損失関数（２０１）を最小化する前記エンコーダ重み（２１０）、前記ソース分類器層重み（２０２）、および前記ターゲット分類器層重み（２０４）を学習する動作と、
ポリシーモデル（２０９）のアクションをサンプリングすることによって前記係数（２０６）を決定する動作と、
前記Ｌ２ＴＬアーキテクチャ（２００）に関する前記複数の学習反復の各々の第２段階中に、
前記損失関数（２０１）についての評価メトリック（２２０）を最大化する前記ポリシー重み（２０８）を決定する動作とを含む、システム（１００）。
前記学習反復の前記第１段階の実行中、前記ポリシーモデル（２０９）は固定されている、請求項１１に記載のシステム（１００）。
前記ポリシーモデル（２０９）は強化学習ベースのポリシーモデルを含む、請求項１１または１２に記載のシステム（１００）。
前記損失関数（２０１）についての前記評価メトリックを最大化する前記ポリシー重み（２０８）を決定する動作は、前記第１段階中に学習された前記エンコーダ重み（２１０）を用いる動作を含む、請求項１１から１３のいずれか１項に記載のシステム（１００）。
前記損失関数（２０１）についての前記評価メトリック（２２０）は、ターゲット評価データセット（１０６′）上の前記深層学習モデル（１５０）の性能を定量化し、前記ターゲット評価データセット（１０６′）は、それまで前記深層学習モデル（１５０）によって認識されていなかったデータサンプルのサブセットを前記ターゲットデータセット（１０６）内に含む、請求項１１から１４のいずれか１項に記載のシステム（１００）。
前記以下の動作はさらに、前記複数の学習反復の各々の前記第１段階中に、
特定のサイズを有する前記ソースデータセット（１０４）からソースデータサンプルのトレーニングバッチをサンプリングする動作と、
前記深層学習モデル（１５０）をトレーニングする際に用いるためのＮ個の最適な信頼スコアを有する前記ソースデータサンプルを前記ソースデータサンプルのトレーニングバッチから選択して、前記損失関数（２０１）を最小化する前記エンコーダ重み（２１０）、前記ソース分類器層重み（２０２）、および前記ターゲット分類器層重み（２０４）を学習する動作とをさらに含む、請求項１１から１５のいずれか１項に記載のシステム（１００）。
前記以下の動作はさらに、前記複数の学習反復の各々の前記第２段階中に、
ターゲット評価データセット（１０６′）上のポリシー勾配を用いて前記ポリシーモデル（２０９）をトレーニングして、前記評価メトリック（２２０）を最大化する報酬を計算する動作を含み、
前記損失関数（２０１）についての前記評価メトリック（２２０）を最大化する前記ポリシー重み（２０８）を決定する動作は、前記計算された報酬に基づいている、請求項１１から１６のいずれか１項に記載のシステム（１００）。
前記ソースデータセット（１３４）は第１の複数の画像を含み、
前記ターゲットデータセット（１３４）は第２の複数の画像を含む、請求項１１から１７のいずれか１項に記載のシステム（１００）。
前記ソースデータセット（１３４）の前記第１の複数の画像内の画像の数は、前記ターゲットデータセット（１０４）の前記第２の複数の画像内の画像の数よりも多い、請求項１８に記載のシステム（１００）。
前記Ｌ２ＴＬアーキテクチャ（２００）は、エンコーダネットワーク層（１５２）、ソース分類器層（１５４）、およびターゲット分類器層（１５６）を備える、請求項１１から１９のいずれか１項に記載のシステム（１００）。