JP2020508522A

JP2020508522A - 監視されていないクロスドメイン画像生成のための周期的敵対的生成ネットワーク

Info

Publication number: JP2020508522A
Application number: JP2019546011A
Authority: JP
Inventors: ウォングンチョイ、; サミュエルシュルター、; キーユクソン、; マンモハンチャンドラカー、
Original assignee: NEC Laboratories America Inc
Current assignee: NEC Laboratories America Inc
Priority date: 2017-04-25
Filing date: 2018-02-28
Publication date: 2020-03-19
Also published as: US20180307947A1; WO2018200072A1; US10474929B2; DE112018002166T5

Abstract

それぞれ実際の画像を含む第１の画像ドメインと第２の画像ドメインとに対する監視されていないクロスドメイン画像生成のためのシステムが提供される。第１の生成器は、第１のドメイン内の実際の画像のセマンティックコンテンツを含みながら、第２のドメイン内の実際の画像と類似する合成画像を生成する。第２の生成器は、第２のドメイン内の実際の画像のセマンティックコンテンツを含みながら、第１のドメイン内の実際の画像と類似する合成画像を生成する。第１の弁別器は、第２の生成器によって生成される合成画像に対して第１のドメイン内の実際の画像を弁別する。第２の弁別器は、第１の生成器によって生成される合成画像に対して第２のドメイン内の実際の画像を弁別する。弁別器および生成器は、ディープニューラルネットワークであり、それぞれ、合成画像の質を改善するために、弁別ネットワークのエラー率を高くするように構成された周期的ＧＡＮフレームワーク内に生成ネットワークおよび弁別ネットワークを形成する。

Description

関連出願情報
本出願は、本明細書に参照として援用される、２０１７年４月２５日付米国仮特許出願第62/489,529号、および２０１８年２月２７日付米国実用特許出願第15/906,710号の優先権を主張する。

本発明は、画像認識、より詳細には、監視されていないクロスドメイン画像生成のための周期的敵対的生成ネットワークに関する。

関連技術の説明
ソースドメイン内にのみラベルを備えながら、ターゲットドメイン内に画像を生成することにより、ターゲットドメインラベルを必要とすることなく、ターゲットドメイン内での画像認識分類子を学習することが可能になる。画像生成を伴う可能性がある分野では、画像生成器に対するテスト（ターゲット）およびソース（訓練）ドメインは、しばしば、多数の方法で変化する可能性がある。このように、画像生成器によって生成される画像の質が不足していることがあり、２つのドメインからの対応する画像の対になった訓練データが利用可能ではないことがある。したがって、このような変化を少なくし、向上した分類精度を提供するために、ドメイン適応の必要がある。

本発明の態様によると、それぞれ実際の画像を含む第１の画像ドメインと第２の画像ドメインとに対する監視されていないクロスドメイン画像生成のためのシステムが提供される。システムは、第１の画像ドメイン内の１つまたは複数の実際の画像のセマンティックコンテンツを含みながら、第２の画像ドメイン内の１つまたは複数の実際の画像と類似する外観を有する合成画像を生成する第１の画像生成器を備えている。システムはさらに、第２の画像ドメイン内の少なくとも１つの実際の画像のセマンティックコンテンツを含みながら、第１の画像ドメイン内の少なくとも１つの実際の画像と類似する外観を有する合成画像を生成する第２の画像生成器を備えている。システムはまた、第２の画像生成器によって生成される合成画像に対して第１の画像ドメイン内の実際の画像を弁別する第１の弁別器を備えている。システムは加えて、第１の画像生成器によって生成される合成画像に対して第２の画像ドメイン内の実際の画像を弁別する第２の弁別器を備えている。弁別器および生成器は、ディープニューラルネットワークであり、それぞれ、合成画像の質を改善するために、弁別ネットワークのエラー率を高くするように構成された周期的敵対的生成ネットワーク（ＧＡＮ）フレームワーク内に生成ネットワークおよび弁別ネットワークを形成する。

本発明の別の態様によると、それぞれ実際の画像を含む第１の画像ドメインと第２の画像ドメインとに対する監視されていないクロスドメイン画像生成のためのコンピュータ実施方法が提供される。方法は、第１の画像生成器によって、第１の画像ドメイン内の１つまたは複数の実際の画像のセマンティックコンテンツを含みながら、第２の画像ドメイン内の１つまたは複数の実際の画像と類似する外観を有する合成画像を生成することを含んでいる。方法はさらに、第２の画像生成器によって、第２の画像ドメイン内の少なくとも１つの実際の画像のセマンティックコンテンツを含みながら、第１の画像ドメイン内の少なくとも１つの実際の画像と類似する外観を有する合成画像を生成することを含んでいる。方法はまた、第１の弁別器によって、第２の画像生成器によって生成される合成画像に対して第１の画像ドメイン内の実際の画像を弁別することを含んでいる。方法は加えて、第２の弁別器によって、第１の画像生成器によって生成される合成画像に対して第２の画像ドメイン内の実際の画像を弁別することを含んでいる。生成器はそれぞれ、ニューラルネットワークベースであり、それぞれ、周期的敵対的生成ネットワーク（ＧＡＮ）フレームワーク内に生成ネットワークおよび弁別ネットワークを形成する。方法はさらに、合成画像の質を改善するために、弁別ネットワークのエラー率を高くすることを含んでいる。

本発明のさらに別の態様によると、それぞれ実際の画像を含む第１の画像ドメインと第２の画像ドメインとに対する監視されていないクロスドメイン画像生成のためのコンピュータプログラム製品が提供される。コンピュータプログラム製品は、プログラム命令がそれによって具現化された非一時的コンピュータ読取可能記憶媒体を備えている。プログラム命令は、コンピュータに方法を行わせるために、コンピュータによって実行可能である。方法は、コンピュータの第１の画像生成器によって、第１の画像ドメイン内の１つまたは複数の実際の画像のセマンティックコンテンツを含みながら、第２の画像ドメイン内の１つまたは複数の実際の画像と類似する外観を有する合成画像を生成することを含んでいる。方法はさらに、コンピュータの第２の画像生成器によって、第２の画像ドメイン内の少なくとも１つの実際の画像のセマンティックコンテンツを含みながら、第１の画像ドメイン内の少なくとも１つの実際の画像と類似する外観を有する合成画像を生成することを含んでいる。方法はまた、コンピュータの第１の弁別器によって、第２の画像生成器によって生成される合成画像に対して第１の画像ドメイン内の実際の画像を弁別することを含んでいる。方法は加えて、コンピュータの第２の弁別器によって、第１の画像生成器によって生成される合成画像に対して第２の画像ドメイン内の実際の画像を弁別することを含んでいる。弁別器および生成器はそれぞれ、ニューラルネットワークベースであり、それぞれ、周期的敵対的生成ネットワーク（ＧＡＮ）フレームワーク内に生成ネットワークおよび弁別ネットワークを形成する。方法は、合成画像の質を改善するために、弁別ネットワークのエラー率を高くすることをさらに含んでいる。

これらおよび他の特性および利点は、添付の図面に関連して読み取られるべきである、その例示的な実施態様の以下の詳細な説明から明らかになるだろう。

本開示は、以下の図面を参照して、好ましい実施態様の以下の説明で詳細を提供する。
本原理の実施態様により、本原理を適用することができる例示的な処理システムを示す図である。本発明の実施態様による、本発明の例示的な周期的敵対的生成ネットワーク（ＧＡＮ）フレームワークを示す図である。本発明の実施態様による、テスト段階中の図２の周期的ＧＡＮフレームワークの一部を示す図である。本原理の実施態様による、第１の画像ドメインと第２の画像ドメインとに対する監視されていないクロスドメイン画像生成のための例示的な方法を示す図である。本原理の実施態様による、第１の画像ドメインと第２の画像ドメインとに対する監視されていないクロスドメイン画像生成のための例示的な方法を示す図である。

本発明は、監視されていないクロスドメイン画像生成のための周期的敵対的生成ネットワークを対象としている。

実施態様では、ソースおよびターゲットドメイン内のあらゆる対応する対の画像を有することなく、異なるターゲットドメイン内に画像を生成するためにソースドメインから画像を取得し、その後、ソースドメインに戻す周期的敵対的生成ネットワークが提案されている。これは、ソースドメイン内に利用可能なラベルがあるが、ターゲットドメイン内にはラベルがない状態での、オブジェクト検出およびセマンティックセグメンテーションなどの画像認識の応用例で使用され、それにより、生成された画像は、画像性状が変化しながら、ソースおよびターゲットドメインにわたってラベルが保存された訓練データとして利用可能になる。

実施態様では、本発明は、１つのドメインから別のドメインに画像を転送することができる画像生成アルゴリズムを提供している。例えば、ドメイン転送は、これに限らないが、例えば、合成画像から実際の画像を生成すること、日中の画像から夜間の画像を生成することなどを伴う可能性がある。実施態様では、生成プロセスは、ターゲットドメイン内の画像と区別できなくするように、画像特徴を変性させながら、入力画像内の高レベルのセマンティック概念を維持する。

実施態様では、訓練データセット内で監視されることなく学習することができる、監視されていないドメイン間の変換モデルが提供されている。これにより、両方のドメインにおいて対応する画像を有する（すなわち、画像間変換として監視される）ことが不可能である、合成画像からのリアルな画像生成、明るい日中の画像からの雨のシーン生成などの多くの価値のある応用例に対する高品質画像生成モデルを学習することが可能になる。

実施態様では、本発明は、例えば、これに限らないが、雨の画像から明るい画像へ、また雨の画像へ戻すなどの周期的に２つのドメイン転送に適用される場合に、画像コンテンツ全体を復活させる周期的敵対的生成ネットワーク（ＧＡＮ）フレームワークを利用している。このような周期的一貫性を行うことは、画像性状をターゲットドメインに適応させながら、生成プロセスにわたってセマンティックコンテンツを一貫性があるようにするドメイン転送モデル学習を助けている。

図１は、本発明の実施態様による、本発明の原理を適用することができる例示的な処理システム１００を示している。処理システム１００は、システムバス１０２を介して他の構成部品に動作可能に接続された少なくとも１つのプロセッサ（ＣＰＵ）１０４を備えている。キャッシュ１０６、読取専用メモリ（ＲＯＭ）１０８、ランダムアクセスメモリ（ＲＡＭ）１１０、入出力（Ｉ／Ｏ）アダプタ１２０、音声アダプタ１３０、ネットワークアダプタ１４０、ユーザインターフェイスアダプタ１５０、およびディスプレイアダプタ１６０は、システムバス１０２に動作可能に接続されている。少なくとも１つのグラフィックス処理ユニット（ＧＰＵ）１９４は、システムバス１０２に動作可能に接続されている。

第１の記憶デバイス１２２および第２の記憶デバイス１２４は、Ｉ／Ｏアダプタ１２０によってシステムバス１０２に動作可能に接続されている。記憶デバイス１２２および１２４は、ディスク記憶デバイス（例えば、磁気または光学ディスク記憶デバイス）、固体磁気デバイスなどのいずれであってもよい。記憶デバイス１２２および１２４は、同じタイプの記憶デバイス、または異なるタイプの記憶デバイスであってもよい。

スピーカ１３２は、音声アダプタ１３０によってシステムバス１０２に動作可能に接続されている。トランシーバ１４２は、ネットワークアダプタ１４０によってシステムバス１０２に動作可能に接続されている。ディスプレイデバイス１６２は、ディスプレイアダプタ１６０によってシステムバス１０２に動作可能に接続されている。

第１のユーザ入力デバイス１５２、第２のユーザ入力デバイス１５４、および第３のユーザ入力デバイス１５６は、ユーザインターフェイスアダプタ１５０によってシステムバス１０２に動作可能に接続されている。ユーザ入力デバイス１５２、１５４および１５６は、キーボード、マウス、キーパッド、画像捕捉デバイス、動作感知デバイス、マイク、前述のデバイスの少なくとも２つの機能を組み込んだデバイスなどのいずれであってもよい。もちろん、本発明の趣旨を維持しながら、他のタイプの入力デバイスを使用することもできる。ユーザ入力デバイス１５２、１５４および１５６は、同じタイプのユーザ入力デバイスであってもよいし、異なるタイプのユーザ入力デバイスであってもよい。ユーザ入力デバイス１５２、１５４および１５６は、システム１００に情報を入力するおよびシステム１００から情報を出力するために使用される。

もちろん、処理システム１００は、当業者に簡単に考えられるように、他の要素（図示せず）を含み、特定の要素を省略してもよい。例えば、様々な他の入力デバイスおよび／または出力デバイスは、当業者によって簡単に分かるように、その特定の実施によって、処理システム１００に含めることができる。例えば、様々なタイプの無線および／または有線入力および／または出力デバイスを使用することができる。さらに、当業者に簡単に理解されるように、様々な構成で追加のプロセッサ、コントローラ、メモリなどを利用することもできる。処理システム１００のこれらおよび他の変形は、本明細書で提供される本発明の教示を鑑みて、当業者によって簡単に考えられる。

さらに、図２を参照して以下に説明するフレームワーク２００は、本発明のそれぞれの実施態様を実施するためのフレームワークであることを理解されたい。処理システム１００の一部または全てを、フレームワーク２００の要素の１つまたは複数で実施することができる。

さらに、処理システム１００は、例えば、図４から５の方法４００の少なくとも一部を含む、本明細書に記載された方法の少なくとも一部を行うことができることを理解されたい。同様に、図４から５の方法４００の少なくとも一部を行うために、フレームワーク２００の一部または全てを使用することができる。

図２は、本発明の実施態様による、本発明の例示的な周期的敵対的生成ネットワーク（ＧＡＮ）フレームワーク２００を示している。

周期的ＧＡＮフレームワーク（これ以下、短く「フレームワーク」とする）２００は、第１の画像ドメイン（これ以下、短く「ドメインＡ」とする）２９１および第２の画像ドメイン（これ以下、短く「ドメインＢ」とする）２９２にそれぞれ対応する第１のドメイン入力（これ以下、短く「入力Ａ」とする）２０１および第２のドメイン入力（これ以下、短く「入力Ｂ」とする）２５１を含んでいる。ドメインＡ２９１およびドメインＢ２９２は、実際の画像を含むそれぞれの画像ドメインである。したがって、入力Ａ２０１および入力Ｂ２５１は、それぞれの実際の画像として実施されている。したがって、２つのドメインは監視される（同じ画像を含む）必要がない。

フレームワーク２００はさらに、ニューラルネットワークベース弁別器（これ以下、短く「弁別器Ａ」とする）２１０、ニューラルネットワークベース弁別器（これ以下、短く「弁別器Ｂ」とする）２２０、ニューラルネットワークベース画像生成器（これ以下、短く「生成器Ａ２Ｂ」とする）２３０、ニューラルネットワークベース画像生成器（これ以下、短く「生成器Ｂ２Ａ」とする）２４０、および周期的一貫性損失（本明細書では「Ｌ２損失」とも呼ぶ）２５０を含んでいる。生成器Ａ２Ｂ２３０は、ドメインＡ２９１で訓練される生成モデルとして実施することができる。実施態様では、生成器は畳み込みニューラルネットワークによって実施することができ、弁別器は非畳み込みニューラルネットワークによって実施することができる。もちろん、本発明の教示により、本発明の趣旨を維持しながら、他のタイプのニューラルネットワークも使用することができる。

生成器Ａ２Ｂ２３０は、ドメインＡ２９１からの入力画像のセマンティックコンテンツを含むが、ドメインＢ２９２内の画像と類似して見える画像ＡＢＡ２７７を生成している。生成器Ｂ２Ａ２４０は、生成器Ａ２Ｂ２３０の出力に基づいて画像ＡＢ２７８を生成している。弁別器Ａ２１０および弁別器Ｂ２２０は、ドメインＡ２９１（またはドメインＢ２９２）用の生成された画像に対して、ドメインＡ２９１（またはドメインＢ２９２）からの実際の画像を弁別するように訓練されている。すなわち、弁別器Ａ２１０は、ドメインＡ２９１用の生成された画像に対してドメインＡ２９１からの実際の画像を弁別し、弁別器Ｂ２２０は、ドメインＢ２９２用の生成された画像に対してドメインＢ２９２からの実際の画像を弁別している。

敵対的生成ネットワーク（ＧＡＮ）フレームワーク２００は、周期的一貫性損失Ｌ２２５０と共に、ニューラルネットワークベース要素（２１０、２２０、２３０および２４０）を学習する。ＧＡＮ損失により、弁別器から生じる勾配によって達成される、対応するターゲットドメイン内の画像と類似して生成出力が見えるようにする。一方、周期的一貫性損失（この場合、Ｌ２）は、画像のセマンティックコンテンツを維持するのを助ける。また、ＢＡＢ方向（すなわち、ＢからＡまで、およびＢに戻る）に対して画像周期的ＧＡＮを同時に学習することに留意されたい。ＧＡＮ損失は、弁別器からの勾配によって達成される、ターゲットドメインからの画像として類似した統計を、生成器によって合成される画像が有するようにする。Ｌ２損失は、ＧＡＮフレームワークに使用される周期的解決法によるものであり、クロスドメイン画像生成の際の周期的一貫性損失を示している。第１の生成器の出力を入力として使用して合成される画像と元の画像を比較する。Ｌ２損失が本実施態様で使用されているが、Ｌ１、ＳＳＩＭ、知覚損失、または端部分配などの特定の画像統計に対して一貫性を与える他の対象物などの代替損失を使用して、同等の構成を導き出すことができる。

実施態様では、ＧＡＮフレームワーク２００は、ＧＡＮとＬ２損失機能との組合せを使用することによって、生成モデルと弁別器との両方を同時に学習するように構成されている。得られる訓練ダイナミクスは普通、（１つまたは複数の）生成器（すなわち、（１つまたは複数の）生成モデル）と（１つまたは複数の）弁別器（すなわち、（１つまたは複数の）損失機能）との間のゲームとして記載されている。

弁別器（２１０および２２０）および生成器（２３０および２４０）はそれぞれ、敵対的生成ネットワーク（ＧＡＮ）フレームワーク２００内に生成ネットワークおよび弁別ネットワークを形成し、ＧＡＮフレームワークは弁別ネットワークのエラー率を高くする（すなわち、真のデータ分配から来たように見える新規の合成画像を作り出すことによって弁別ネットワークを「だます」）ように構成されている。すなわち、生成器（２３０および２４０）の目的は、弁別器（２１０および２２０）をだますリアルなサンプルを作り出すことであり、弁別器（２１０および２２０）は生成器（２３０および２４０）からの真の訓練データとサンプルとを区別するように訓練されている。

実施態様では、フレームワーク２００は、ハンドクラフト生成アルゴリズムにたよるのではなく、ディープラーニングに基づき、訓練可能であり得る。したがって、適切なデータセットが存在する限り、多くの異なるドメイン転送タスクに適用することができる。また、本発明は監視を必要としないので、多くの異なる画像生成タスクに幅広く適用可能である。

図３は、本発明の実施態様による、テスト段階３００中の図２の周期的ＧＡＮフレームワーク２００の一部を示している。

生成器Ａ２Ｂ２３０がドメインＡ２９１で訓練されると、ドメインＡ２９１からのあらゆる画像でドメインＢ２９２内に画像を作り出すように、生成器Ａ２Ｂ２３０を展開させることができる。

図４から５は、本原理の実施態様による、それぞれ実際の画像を含む、第１の画像ドメインと第２の画像ドメインとに対する監視されていないクロスドメイン画像生成のための例示的方法４００を示している。

方法４００は、第１の画像生成器（例えば、生成器Ａ２Ｂ２３０）、第２の画像生成器（例えば、生成器Ｂ２Ａ２４０）、第１の弁別器（例えば、弁別器Ａ２１０）、および第２の弁別器（例えば、弁別器Ｂ２２０）を有する周期的敵対的生成ネットワーク（ＧＡＮ）によって行われている。弁別器および生成器は、それぞれニューラルネットワークベースであり、周期的敵対的生成ネットワーク（ＧＡＮ）フレームワーク内に生成ネットワークおよび弁別ネットワークをそれぞれ形成する。周期的ＧＡＮフレームワークは、合成画像の質を改善するために、弁別ネットワークのエラー率を高くするように構成されている。実施態様では、ブロック４１０から４４０は、周期的ＧＡＮフレームワークの訓練段階に対応することができ、ブロック４５０および４６０は周期的ＧＡＮフレームワークのテスト段階に対応することができる。

ブロック４１０では、第１の画像生成器によって、第１の画像ドメイン内の１つまたは複数の実際の画像のセマンティックコンテンツを含みながら、第２の画像ドメイン内の１つまたは複数の実際の画像と類似する外観を有する合成画像を生成する。

ブロック４２０では、第２の画像生成器によって、第２の画像ドメイン内の少なくとも１つの実際の画像のセマンティックコンテンツを含みながら、第１の画像ドメイン内の少なくとも１つの実際の画像と類似する外観を有する合成画像を生成する。

ブロック４３０では、第１の弁別器によって、第２の画像生成器によって生成される合成画像に対して第１の画像ドメイン内の実際の画像を弁別する。

実施態様では、ブロック４３０はブロック４３０を含むことができる。

ブロック４３０Ａでは、第２の画像生成器によって生成される合成画像に対して、第１の画像ドメイン内の実際の画像に適用される弁別プロセスによる勾配を得る。

ブロック４４０では、第２の弁別器によって、第１の画像生成器によって生成される合成画像に対して第２の画像ドメイン内の実際の画像を弁別する。

実施態様では、ブロック４４０はブロック４４０を含むことができる。

ブロック４４０Ａでは、第１の画像生成器によって生成される合成画像に対して、第２の画像ドメイン内の実際の画像に適用される弁別プロセスによる勾配を得る。

ブロック４５０では、（ブロック４１０から４４０毎に訓練される）生成ネットワークによって、第１の画像ドメインからの入力画像を使用して１つまたは複数の追加の合成画像を生成する。１つまたは複数の追加の合成画像は、第１の画像ドメインからの入力画像のセマンティックコンテンツを含みながら、第２の画像ドメイン内の画像の少なくともサブセットと類似して見えるように生成されている。追加の合成画像は、周期的ＧＡＮフレームワークの訓練によって実施される学習プロセスにより、前に生成された合成画像よりも高い品質となる。例えば、追加の合成画像は、周期的一貫性損失（Ｌ２）がソースドメインからのセマンティックコンテンツを保存するように利用され、類似した外観を得るためにＧＡＮ損失を利用するために、ブロック４３０Ａおよび４４０Ａにより得られた勾配を使用することができる。

追加の合成画像は、当業者に簡単に理解されるように、無数の応用例で使用することができる。例えば、本発明を適用することができる他の応用例としては、これに限らないが、オブジェクトカテゴリー検出または他のタイプの検出／分類ネットワーク内で他の監視された学習要素を訓練すること（例えば、ブロック４５０Ａ参照）、異なる天候条件に対するデータセットの生成（例えば、ブロック４５０Ｂ参照）、周期的ドメイン転送（例えば、ブロック４５０Ｃ参照）、注釈抽出および対応する応答アクションパフォーマンス（例えば、ブロック４５０Ｄ）などが挙げられる。

実施態様では、ブロック４５０はブロック４５０ＡからＣを含むことができる。

ブロック４５０Ａでは、追加の合成画像の１つまたは複数を使用して、オブジェクトカテゴリー検出または他のタイプの検出／分類ネットワーク内で監視された別の学習要素を訓練する。

ブロック４５０Ｂでは、異なる天候および／または他の環境条件に対する追加の合成された画像を生成する。

ブロック４５０Ｃでは、追加の合成された画像を使用して、第１の画像ドメインと第２の画像ドメインとに対して周期的ドメイン転送を行う。

実施態様では、ブロック４５０Ｃはブロック４５０Ｃ１を含むことができる。

ブロック４５０Ｃ１では、周期的ＧＡＮフレームワークによって、ドメインの１つから別のドメインに画像性状を適応させながら、周期的ドメイン転送にわたって周期的一貫性を実施する。

ブロック４５０Ｄでは、追加の合成画像を使用して注釈動作を行い、得られた注釈と所定のセットのアクションワードとの間でマッチング動作を行い、１つまたは複数のマッチが起こる場合に応答アクションを開始する。

本発明の実施態様による、本発明の様々な態様に関し、さらなる説明を次に行う。

本発明は、高品質画像生成モデルを学習するために、原理に基づいたディープ生成モデルを組み込んでいる。

本発明は、監視されたデータセット、例えば、２つのドメイン内の同じ画像を必要としない新規の周期的ＧＡＮフレームワークを導入している。

テスト時、既に訓練された生成ネットワークを使用して、新しい画像を効率的に生成することができる。

実施態様では、生成された画像は、セマンティックセグメンテーションまたはオブジェクトカテゴリー検出ネットワークなどの他の監視された学習モジュールを訓練するために使用することができる。特に、合成からリアルへのドメイン転送のために訓練された画像生成ネットワークを使用して、詳細な注釈を有するデータセットを、ほとんど無料で得ることができる。Ｌ２損失によって保存されるように、注釈をセマンティックコンテンツから得るおよび／またはそうでなければ導き出すことができる。実施態様では、注釈と所定のセットのアクションとの間のマッチを使用して応答アクションを開始することができるように、注釈を受け、注釈に対するマッチングを行うために、プロセッサ（例えば、ＣＰＵ１０４）を使用することができる。例えば、（例えば、武器（例えば、銃器またはナイフ）の存在による）危険などのアクションを分類する場合、領域からのまたは領域内に入れられた武器を人に持たせておくために、ドアをロックすることなどのアクションをプロセッサによって開始することができる。

実施態様では、本発明は、異なる天候条件に対する画像生成ネットワークを訓練するために適用することができる。全ての可能性のある天候条件に対する大きなデータセットを有することは、法外に費用がかかる可能性があることを理解されたい。しかし、本発明を使用して、データセットを、追加の労力なく、異なる天候条件に対して生成することができる。

本発明を適用することができるこれらおよび他の応用例は、本発明の精神を維持しながら、本明細書で提供された本発明の教示を鑑みて、当業者によって簡単に判断される。

本発明によって行われた多くの利点および／または貢献のいくつかは、これに限らないが以下のものが挙げられる。

本発明は、モデルを訓練するために監視されたデータセットを必要とせず、監視されたデータセットはしばしば、多くの重要な応用例ドメインで利用可能でないことに留意されたい。

さらに、本発明は、従来の解決法より高品質の画像を生成することができる。

加えて、本発明を使用して、オブジェクト検出、セマンティックセグメンテーションなどの他の監視された学習方法に対する画像データを生成することができる。これにより、データ取得の費用をかなり低くすることができる。

本明細書に記載された実施態様は、全体的にハードウェア、全体的にソフトウェアである、またはハードウェアの要素とソフトウェアの要素との両方を含むことができる。好ましい実施態様では、本発明は、これに限らないが、ファームウェア、常駐ソフトウェア、マイクロコードなどを含む、ソフトウェア内で実施される。

実施態様は、コンピュータまたはあらゆる命令実行システムによる、またはこれに関する使用のために、プログラムコードを提供するコンピュータ使用可能またはコンピュータ読取可能媒体からアクセス可能なコンピュータプログラム製品を含むことができる。コンピュータ使用可能またはコンピュータ読取可能媒体は、命令実行システム、装置、またはデバイスによる、またはこれに関する使用のために、プログラムを記憶、通信、伝搬、または輸送するあらゆる装置を備えることができる。媒体は、磁気、光学、電子、電磁、赤外線、または半導体システム（または、装置もしくはデバイス）、または伝搬媒体であってもよい。媒体としては、半導体または固体メモリ、磁気テープ、取り外し可能コンピュータディスケット、ランダムアクセスメモリ（ＲＡＭ）、読取専用メモリ（ＲＯＭ）、剛性磁気ディスクおよび光学ディスクなどのコンピュータ読取可能媒体が挙げられる。

例えば「Ａ／Ｂ」、「Ａおよび／またはＢ」および「ＡおよびＢの少なくとも１つ」の場合、以下の「／」、「および／または」、および「少なくとも１つ」のいずれかの使用は、第１の挙げられた選択肢（Ａ）のみの選択、または第２の挙げられた選択肢（Ｂ）のみの選択、または両方の選択肢（ＡおよびＢ）の選択を含むことを意図していることを理解されたい。別の実施例として、「Ａ、Ｂ、および／またはＣ」および「Ａ、Ｂ、およびＣの少なくとも１つ」の場合、このような表現は、第１の挙げられた選択肢（Ａ）のみの選択、または第２の挙げられた選択肢（Ｂ）のみの選択、または第３の挙げられた選択肢（Ｃ）のみの選択、または第１および第２の挙げられた選択肢（ＡおよびＢ）のみの選択、または第１および第３の挙げられた選択肢（ＡおよびＣ）のみの選択、または第２および第３の挙げられた選択肢（ＢおよびＣ）のみの選択、または３つ全ての選択肢（Ａ、ＢおよびＣ）の選択を含むことを意図している。これは、挙げられた多くの項目に対して、本技術および関連技術の当業者によって簡単に分かるように広げることができる。

（例示的なものであり、限定することを意図していない）システムおよび方法の好ましい実施態様を記載したが、変更および変形は、上記教示を鑑みて当業者によって行うことができることに留意されたい。したがって、添付の特許請求の範囲で概略を説明したように、本発明の範囲および趣旨内にある開示された特定の実施態様で変更を行ってもよいことを理解されたい。特許法によって必要とされる詳細および細部と共に、本発明の態様をこのように記載したが、特許によって保護される請求および所望するものは、添付の特許請求の範囲に記載されている。

Claims

それぞれ実際の画像を含む第１の画像ドメインと第２の画像ドメインとに対する監視されていないクロスドメイン画像生成のためのシステムであって、
前記第１の画像ドメイン内の１つまたは複数の前記実際の画像のセマンティックコンテンツを含みながら、前記第２の画像ドメイン内の１つまたは複数の前記実際の画像と類似する外観を有する合成画像を生成する第１の画像生成器と、
前記第２の画像ドメイン内の少なくとも１つの前記実際の画像のセマンティックコンテンツを含みながら、前記第１の画像ドメイン内の少なくとも１つの前記実際の画像と類似する外観を有する合成画像を生成する第２の画像生成器と、
前記第２の画像生成器によって生成される前記合成画像に対して前記第１の画像ドメイン内の前記実際の画像を弁別する第１の弁別器と、
前記第１の画像生成器によって生成される前記合成画像に対して前記第２の画像ドメイン内の前記実際の画像を弁別する第２の弁別器とを有し、
前記弁別器および前記生成器は、ディープニューラルネットワークであり、それぞれ、前記合成画像の質を改善するために、弁別ネットワークのエラー率を高くするように構成された周期的敵対的生成ネットワーク（ＧＡＮ）フレームワーク内に生成ネットワークおよび前記弁別ネットワークを形成するシステム。
請求項１に記載のシステムにおいて、
前記周期的ＧＡＮフレームワークは、前記生成された合成画像内に含有用の前記セマンティックコンテンツを保存するために、周期的一貫性損失を利用するシステム。
請求項１に記載のシステムにおいて、
前記第１の画像ドメインおよび前記第２の画像ドメインは、互いに対して少なくともいくつかの異なる実際の画像を含むシステム。
請求項１に記載のシステムにおいて、
前記生成器は、それぞれの畳み込みニューラルネットワークによって実施され、前記弁別器はそれぞれの非畳み込みニューラルネットワークによって実施されるシステム。
請求項１に記載のシステムにおいて、
前記生成器は、前記弁別器によって提供される勾配を使用して前記合成画像を生成するシステム。
請求項１に記載のシステムにおいて、
前記生成ネットワークは、オブジェクトカテゴリー検出ネットワーク内で別の監視された学習要素を訓練するように構成されているシステム。
請求項１に記載のシステムにおいて、
前記周期的ＧＡＮフレームワークは、前記第１の画像ドメインと前記第２の画像ドメインとに関する周期的ドメイン転送を行うように構成されているシステム。
請求項７に記載のシステムにおいて、
前記周期的ＧＡＮフレームワークは、前記ドメインの１つから別の前記ドメインに画像性状を適応させながら、前記周期的ドメイン転送にわたって周期的一貫性を実施するように構成されているシステム。
請求項１に記載のシステムにおいて、
前記周期的ＧＡＮフレームワークの前記生成ネットワークは、前記第１のドメインと前記第２のドメインとのいずれかで前記実際の画像から異なる天候条件に対する前記合成画像を生成するように構成されているシステム。
請求項１に記載のシステムにおいて、
前記周期的ＧＡＮフレームワークは、前記ドメインのうち訓練データセットによる監視されていない学習のために構成された監視されていないドメイン間の変換モデルを形成するシステム。
それぞれ実際の画像を含む第１の画像ドメインと第２の画像ドメインとに対する監視されていないクロスドメイン画像生成のためのコンピュータ実施方法であって、
第１の画像生成器によって、前記第１の画像ドメイン内の１つまたは複数の前記実際の画像のセマンティックコンテンツを含みながら、前記第２の画像ドメイン内の１つまたは複数の前記実際の画像と類似する外観を有する合成画像を生成することと、
第２の画像生成器によって、前記第２の画像ドメイン内の少なくとも１つの前記実際の画像のセマンティックコンテンツを含みながら、前記第１の画像ドメイン内の少なくとも１つの前記実際の画像と類似する外観を有する合成画像を生成することと、
第１の弁別器によって、前記第２の画像生成器によって生成される前記合成画像に対して前記第１の画像ドメイン内の前記実際の画像を弁別することと、
第２の弁別器によって、前記第１の画像生成器によって生成される前記合成画像に対して前記第２の画像ドメイン内の前記実際の画像を弁別することとを含み、
前記弁別器および前記生成器はそれぞれ、ニューラルネットワークベースであり、それぞれ、周期的敵対的生成ネットワーク（ＧＡＮ）フレームワーク内に生成ネットワークおよび弁別ネットワークを形成し、前記方法は、前記合成画像の質を改善するために、前記弁別ネットワークのエラー率を高くすることをさらに含む方法。
請求項１１に記載のコンピュータ実施方法において、
前記生成された合成画像内に含有用の前記セマンティックコンテンツを保存するために、前記周期的ＧＡＮフレームワーク内の周期的一貫性損失を利用することをさらに含むコンピュータ実施方法。
請求項１１に記載のコンピュータ実施方法において、
前記第１の画像ドメインおよび前記第２の画像ドメインは、互いに対して少なくともいくつかの異なる実際の画像を含むコンピュータ実施方法。
請求項１１に記載のコンピュータ実施方法において、
前記生成器のそれぞれ１つとして１対の畳み込みニューラルネットワークそれぞれを構成することと、
前記弁別器のそれぞれ１つとして１対の非畳み込みニューラルネットワークそれぞれを構成することとをさらに含むコンピュータ実施方法。
請求項１１に記載のコンピュータ実施方法において、
前記生成するステップは、前記弁別器によって提供される勾配を使用して前記合成画像を生成するコンピュータ実施方法。
請求項１１に記載のコンピュータ実施方法において、
前記生成ネットワークによって、オブジェクトカテゴリー検出ネットワーク内で別の監視された学習要素を訓練することをさらに含むコンピュータ実施方法。
請求項１１に記載のコンピュータ実施方法において、
前記周期的ＧＡＮフレームワークによって、前記第１の画像ドメインと前記第２の画像ドメインとに関する周期的ドメイン転送を行うことをさらに含むコンピュータ実施方法。
請求項１７に記載のコンピュータ実施方法において、
前記周期的ＧＡＮフレームワークに、前記ドメインの１つから別の前記ドメインに画像性状を適応させながら、前記周期的ドメイン転送にわたって周期的一貫性を実施させることをさらに含むコンピュータ実施方法。
請求項１１に記載のコンピュータ実施方法において、
前記周期的ＧＡＮフレームワークの前記生成ネットワークを、前記第１のドメインと前記第２のドメインとのいずれかで前記実際の画像から異なる天候条件に対する前記合成画像を生成するように構成することをさらに含むコンピュータ実施方法。
それぞれ実際の画像を含む第１の画像ドメインと第２の画像ドメインとに対する監視されていないクロスドメイン画像生成のためのコンピュータプログラム製品であって、プログラム命令がそれによって具現化された非一時的コンピュータ読取可能記憶媒体を備え、前記プログラム命令は、コンピュータに方法を行わせるために、前記コンピュータによって実行可能であり、前記方法は、
前記コンピュータの第１の画像生成器によって、前記第１の画像ドメイン内の１つまたは複数の前記実際の画像のセマンティックコンテンツを含みながら、前記第２の画像ドメイン内の１つまたは複数の前記実際の画像と類似する外観を有する合成画像を生成することと、
前記コンピュータの第２の画像生成器によって、前記第２の画像ドメイン内の少なくとも１つの前記実際の画像のセマンティックコンテンツを含みながら、前記第１の画像ドメイン内の少なくとも１つの前記実際の画像と類似する外観を有する合成画像を生成することと、
前記コンピュータの第１の弁別器によって、前記第２の画像生成器によって生成される前記合成画像に対して前記第１の画像ドメイン内の前記実際の画像を弁別することと、
前記コンピュータの第２の弁別器によって、前記第１の画像生成器によって生成される前記合成画像に対して前記第２の画像ドメイン内の前記実際の画像を弁別することとを含み、
前記弁別器および前記生成器はそれぞれ、ニューラルネットワークベースであり、それぞれ、周期的敵対的生成ネットワーク（ＧＡＮ）フレームワーク内に生成ネットワークおよび弁別ネットワークを形成し、前記方法は、前記合成画像の質を改善するために、前記弁別ネットワークのエラー率を高くすることをさらに含むコンピュータプログラム製品。