JP2020508522A - 監視されていないクロスドメイン画像生成のための周期的敵対的生成ネットワーク - Google Patents
監視されていないクロスドメイン画像生成のための周期的敵対的生成ネットワーク Download PDFInfo
- Publication number
- JP2020508522A JP2020508522A JP2019546011A JP2019546011A JP2020508522A JP 2020508522 A JP2020508522 A JP 2020508522A JP 2019546011 A JP2019546011 A JP 2019546011A JP 2019546011 A JP2019546011 A JP 2019546011A JP 2020508522 A JP2020508522 A JP 2020508522A
- Authority
- JP
- Japan
- Prior art keywords
- image
- domain
- computer
- generator
- periodic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7753—Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
それぞれ実際の画像を含む第1の画像ドメインと第2の画像ドメインとに対する監視されていないクロスドメイン画像生成のためのシステムが提供される。第1の生成器は、第1のドメイン内の実際の画像のセマンティックコンテンツを含みながら、第2のドメイン内の実際の画像と類似する合成画像を生成する。第2の生成器は、第2のドメイン内の実際の画像のセマンティックコンテンツを含みながら、第1のドメイン内の実際の画像と類似する合成画像を生成する。第1の弁別器は、第2の生成器によって生成される合成画像に対して第1のドメイン内の実際の画像を弁別する。第2の弁別器は、第1の生成器によって生成される合成画像に対して第2のドメイン内の実際の画像を弁別する。弁別器および生成器は、ディープニューラルネットワークであり、それぞれ、合成画像の質を改善するために、弁別ネットワークのエラー率を高くするように構成された周期的GANフレームワーク内に生成ネットワークおよび弁別ネットワークを形成する。
Description
関連出願情報
本出願は、本明細書に参照として援用される、2017年4月25日付米国仮特許出願第62/489,529号、および2018年2月27日付米国実用特許出願第15/906,710号の優先権を主張する。
本出願は、本明細書に参照として援用される、2017年4月25日付米国仮特許出願第62/489,529号、および2018年2月27日付米国実用特許出願第15/906,710号の優先権を主張する。
本発明は、画像認識、より詳細には、監視されていないクロスドメイン画像生成のための周期的敵対的生成ネットワークに関する。
関連技術の説明
ソースドメイン内にのみラベルを備えながら、ターゲットドメイン内に画像を生成することにより、ターゲットドメインラベルを必要とすることなく、ターゲットドメイン内での画像認識分類子を学習することが可能になる。画像生成を伴う可能性がある分野では、画像生成器に対するテスト(ターゲット)およびソース(訓練)ドメインは、しばしば、多数の方法で変化する可能性がある。このように、画像生成器によって生成される画像の質が不足していることがあり、2つのドメインからの対応する画像の対になった訓練データが利用可能ではないことがある。したがって、このような変化を少なくし、向上した分類精度を提供するために、ドメイン適応の必要がある。
ソースドメイン内にのみラベルを備えながら、ターゲットドメイン内に画像を生成することにより、ターゲットドメインラベルを必要とすることなく、ターゲットドメイン内での画像認識分類子を学習することが可能になる。画像生成を伴う可能性がある分野では、画像生成器に対するテスト(ターゲット)およびソース(訓練)ドメインは、しばしば、多数の方法で変化する可能性がある。このように、画像生成器によって生成される画像の質が不足していることがあり、2つのドメインからの対応する画像の対になった訓練データが利用可能ではないことがある。したがって、このような変化を少なくし、向上した分類精度を提供するために、ドメイン適応の必要がある。
本発明の態様によると、それぞれ実際の画像を含む第1の画像ドメインと第2の画像ドメインとに対する監視されていないクロスドメイン画像生成のためのシステムが提供される。システムは、第1の画像ドメイン内の1つまたは複数の実際の画像のセマンティックコンテンツを含みながら、第2の画像ドメイン内の1つまたは複数の実際の画像と類似する外観を有する合成画像を生成する第1の画像生成器を備えている。システムはさらに、第2の画像ドメイン内の少なくとも1つの実際の画像のセマンティックコンテンツを含みながら、第1の画像ドメイン内の少なくとも1つの実際の画像と類似する外観を有する合成画像を生成する第2の画像生成器を備えている。システムはまた、第2の画像生成器によって生成される合成画像に対して第1の画像ドメイン内の実際の画像を弁別する第1の弁別器を備えている。システムは加えて、第1の画像生成器によって生成される合成画像に対して第2の画像ドメイン内の実際の画像を弁別する第2の弁別器を備えている。弁別器および生成器は、ディープニューラルネットワークであり、それぞれ、合成画像の質を改善するために、弁別ネットワークのエラー率を高くするように構成された周期的敵対的生成ネットワーク(GAN)フレームワーク内に生成ネットワークおよび弁別ネットワークを形成する。
本発明の別の態様によると、それぞれ実際の画像を含む第1の画像ドメインと第2の画像ドメインとに対する監視されていないクロスドメイン画像生成のためのコンピュータ実施方法が提供される。方法は、第1の画像生成器によって、第1の画像ドメイン内の1つまたは複数の実際の画像のセマンティックコンテンツを含みながら、第2の画像ドメイン内の1つまたは複数の実際の画像と類似する外観を有する合成画像を生成することを含んでいる。方法はさらに、第2の画像生成器によって、第2の画像ドメイン内の少なくとも1つの実際の画像のセマンティックコンテンツを含みながら、第1の画像ドメイン内の少なくとも1つの実際の画像と類似する外観を有する合成画像を生成することを含んでいる。方法はまた、第1の弁別器によって、第2の画像生成器によって生成される合成画像に対して第1の画像ドメイン内の実際の画像を弁別することを含んでいる。方法は加えて、第2の弁別器によって、第1の画像生成器によって生成される合成画像に対して第2の画像ドメイン内の実際の画像を弁別することを含んでいる。生成器はそれぞれ、ニューラルネットワークベースであり、それぞれ、周期的敵対的生成ネットワーク(GAN)フレームワーク内に生成ネットワークおよび弁別ネットワークを形成する。方法はさらに、合成画像の質を改善するために、弁別ネットワークのエラー率を高くすることを含んでいる。
本発明のさらに別の態様によると、それぞれ実際の画像を含む第1の画像ドメインと第2の画像ドメインとに対する監視されていないクロスドメイン画像生成のためのコンピュータプログラム製品が提供される。コンピュータプログラム製品は、プログラム命令がそれによって具現化された非一時的コンピュータ読取可能記憶媒体を備えている。プログラム命令は、コンピュータに方法を行わせるために、コンピュータによって実行可能である。方法は、コンピュータの第1の画像生成器によって、第1の画像ドメイン内の1つまたは複数の実際の画像のセマンティックコンテンツを含みながら、第2の画像ドメイン内の1つまたは複数の実際の画像と類似する外観を有する合成画像を生成することを含んでいる。方法はさらに、コンピュータの第2の画像生成器によって、第2の画像ドメイン内の少なくとも1つの実際の画像のセマンティックコンテンツを含みながら、第1の画像ドメイン内の少なくとも1つの実際の画像と類似する外観を有する合成画像を生成することを含んでいる。方法はまた、コンピュータの第1の弁別器によって、第2の画像生成器によって生成される合成画像に対して第1の画像ドメイン内の実際の画像を弁別することを含んでいる。方法は加えて、コンピュータの第2の弁別器によって、第1の画像生成器によって生成される合成画像に対して第2の画像ドメイン内の実際の画像を弁別することを含んでいる。弁別器および生成器はそれぞれ、ニューラルネットワークベースであり、それぞれ、周期的敵対的生成ネットワーク(GAN)フレームワーク内に生成ネットワークおよび弁別ネットワークを形成する。方法は、合成画像の質を改善するために、弁別ネットワークのエラー率を高くすることをさらに含んでいる。
これらおよび他の特性および利点は、添付の図面に関連して読み取られるべきである、その例示的な実施態様の以下の詳細な説明から明らかになるだろう。
本開示は、以下の図面を参照して、好ましい実施態様の以下の説明で詳細を提供する。
本原理の実施態様により、本原理を適用することができる例示的な処理システムを示す図である。
本発明の実施態様による、本発明の例示的な周期的敵対的生成ネットワーク(GAN)フレームワークを示す図である。
本発明の実施態様による、テスト段階中の図2の周期的GANフレームワークの一部を示す図である。
本原理の実施態様による、第1の画像ドメインと第2の画像ドメインとに対する監視されていないクロスドメイン画像生成のための例示的な方法を示す図である。
本原理の実施態様による、第1の画像ドメインと第2の画像ドメインとに対する監視されていないクロスドメイン画像生成のための例示的な方法を示す図である。
本発明は、監視されていないクロスドメイン画像生成のための周期的敵対的生成ネットワークを対象としている。
実施態様では、ソースおよびターゲットドメイン内のあらゆる対応する対の画像を有することなく、異なるターゲットドメイン内に画像を生成するためにソースドメインから画像を取得し、その後、ソースドメインに戻す周期的敵対的生成ネットワークが提案されている。これは、ソースドメイン内に利用可能なラベルがあるが、ターゲットドメイン内にはラベルがない状態での、オブジェクト検出およびセマンティックセグメンテーションなどの画像認識の応用例で使用され、それにより、生成された画像は、画像性状が変化しながら、ソースおよびターゲットドメインにわたってラベルが保存された訓練データとして利用可能になる。
実施態様では、本発明は、1つのドメインから別のドメインに画像を転送することができる画像生成アルゴリズムを提供している。例えば、ドメイン転送は、これに限らないが、例えば、合成画像から実際の画像を生成すること、日中の画像から夜間の画像を生成することなどを伴う可能性がある。実施態様では、生成プロセスは、ターゲットドメイン内の画像と区別できなくするように、画像特徴を変性させながら、入力画像内の高レベルのセマンティック概念を維持する。
実施態様では、訓練データセット内で監視されることなく学習することができる、監視されていないドメイン間の変換モデルが提供されている。これにより、両方のドメインにおいて対応する画像を有する(すなわち、画像間変換として監視される)ことが不可能である、合成画像からのリアルな画像生成、明るい日中の画像からの雨のシーン生成などの多くの価値のある応用例に対する高品質画像生成モデルを学習することが可能になる。
実施態様では、本発明は、例えば、これに限らないが、雨の画像から明るい画像へ、また雨の画像へ戻すなどの周期的に2つのドメイン転送に適用される場合に、画像コンテンツ全体を復活させる周期的敵対的生成ネットワーク(GAN)フレームワークを利用している。このような周期的一貫性を行うことは、画像性状をターゲットドメインに適応させながら、生成プロセスにわたってセマンティックコンテンツを一貫性があるようにするドメイン転送モデル学習を助けている。
図1は、本発明の実施態様による、本発明の原理を適用することができる例示的な処理システム100を示している。処理システム100は、システムバス102を介して他の構成部品に動作可能に接続された少なくとも1つのプロセッサ(CPU)104を備えている。キャッシュ106、読取専用メモリ(ROM)108、ランダムアクセスメモリ(RAM)110、入出力(I/O)アダプタ120、音声アダプタ130、ネットワークアダプタ140、ユーザインターフェイスアダプタ150、およびディスプレイアダプタ160は、システムバス102に動作可能に接続されている。少なくとも1つのグラフィックス処理ユニット(GPU)194は、システムバス102に動作可能に接続されている。
第1の記憶デバイス122および第2の記憶デバイス124は、I/Oアダプタ120によってシステムバス102に動作可能に接続されている。記憶デバイス122および124は、ディスク記憶デバイス(例えば、磁気または光学ディスク記憶デバイス)、固体磁気デバイスなどのいずれであってもよい。記憶デバイス122および124は、同じタイプの記憶デバイス、または異なるタイプの記憶デバイスであってもよい。
スピーカ132は、音声アダプタ130によってシステムバス102に動作可能に接続されている。トランシーバ142は、ネットワークアダプタ140によってシステムバス102に動作可能に接続されている。ディスプレイデバイス162は、ディスプレイアダプタ160によってシステムバス102に動作可能に接続されている。
第1のユーザ入力デバイス152、第2のユーザ入力デバイス154、および第3のユーザ入力デバイス156は、ユーザインターフェイスアダプタ150によってシステムバス102に動作可能に接続されている。ユーザ入力デバイス152、154および156は、キーボード、マウス、キーパッド、画像捕捉デバイス、動作感知デバイス、マイク、前述のデバイスの少なくとも2つの機能を組み込んだデバイスなどのいずれであってもよい。もちろん、本発明の趣旨を維持しながら、他のタイプの入力デバイスを使用することもできる。ユーザ入力デバイス152、154および156は、同じタイプのユーザ入力デバイスであってもよいし、異なるタイプのユーザ入力デバイスであってもよい。ユーザ入力デバイス152、154および156は、システム100に情報を入力するおよびシステム100から情報を出力するために使用される。
もちろん、処理システム100は、当業者に簡単に考えられるように、他の要素(図示せず)を含み、特定の要素を省略してもよい。例えば、様々な他の入力デバイスおよび/または出力デバイスは、当業者によって簡単に分かるように、その特定の実施によって、処理システム100に含めることができる。例えば、様々なタイプの無線および/または有線入力および/または出力デバイスを使用することができる。さらに、当業者に簡単に理解されるように、様々な構成で追加のプロセッサ、コントローラ、メモリなどを利用することもできる。処理システム100のこれらおよび他の変形は、本明細書で提供される本発明の教示を鑑みて、当業者によって簡単に考えられる。
さらに、図2を参照して以下に説明するフレームワーク200は、本発明のそれぞれの実施態様を実施するためのフレームワークであることを理解されたい。処理システム100の一部または全てを、フレームワーク200の要素の1つまたは複数で実施することができる。
さらに、処理システム100は、例えば、図4から5の方法400の少なくとも一部を含む、本明細書に記載された方法の少なくとも一部を行うことができることを理解されたい。同様に、図4から5の方法400の少なくとも一部を行うために、フレームワーク200の一部または全てを使用することができる。
図2は、本発明の実施態様による、本発明の例示的な周期的敵対的生成ネットワーク(GAN)フレームワーク200を示している。
周期的GANフレームワーク(これ以下、短く「フレームワーク」とする)200は、第1の画像ドメイン(これ以下、短く「ドメインA」とする)291および第2の画像ドメイン(これ以下、短く「ドメインB」とする)292にそれぞれ対応する第1のドメイン入力(これ以下、短く「入力A」とする)201および第2のドメイン入力(これ以下、短く「入力B」とする)251を含んでいる。ドメインA291およびドメインB292は、実際の画像を含むそれぞれの画像ドメインである。したがって、入力A201および入力B251は、それぞれの実際の画像として実施されている。したがって、2つのドメインは監視される(同じ画像を含む)必要がない。
フレームワーク200はさらに、ニューラルネットワークベース弁別器(これ以下、短く「弁別器A」とする)210、ニューラルネットワークベース弁別器(これ以下、短く「弁別器B」とする)220、ニューラルネットワークベース画像生成器(これ以下、短く「生成器A2B」とする)230、ニューラルネットワークベース画像生成器(これ以下、短く「生成器B2A」とする)240、および周期的一貫性損失(本明細書では「L2損失」とも呼ぶ)250を含んでいる。生成器A2B230は、ドメインA291で訓練される生成モデルとして実施することができる。実施態様では、生成器は畳み込みニューラルネットワークによって実施することができ、弁別器は非畳み込みニューラルネットワークによって実施することができる。もちろん、本発明の教示により、本発明の趣旨を維持しながら、他のタイプのニューラルネットワークも使用することができる。
生成器A2B230は、ドメインA291からの入力画像のセマンティックコンテンツを含むが、ドメインB292内の画像と類似して見える画像ABA277を生成している。生成器B2A240は、生成器A2B230の出力に基づいて画像AB278を生成している。弁別器A210および弁別器B220は、ドメインA291(またはドメインB292)用の生成された画像に対して、ドメインA291(またはドメインB292)からの実際の画像を弁別するように訓練されている。すなわち、弁別器A210は、ドメインA291用の生成された画像に対してドメインA291からの実際の画像を弁別し、弁別器B220は、ドメインB292用の生成された画像に対してドメインB292からの実際の画像を弁別している。
敵対的生成ネットワーク(GAN)フレームワーク200は、周期的一貫性損失L2 250と共に、ニューラルネットワークベース要素(210、220、230および240)を学習する。GAN損失により、弁別器から生じる勾配によって達成される、対応するターゲットドメイン内の画像と類似して生成出力が見えるようにする。一方、周期的一貫性損失(この場合、L2)は、画像のセマンティックコンテンツを維持するのを助ける。また、BAB方向(すなわち、BからAまで、およびBに戻る)に対して画像周期的GANを同時に学習することに留意されたい。GAN損失は、弁別器からの勾配によって達成される、ターゲットドメインからの画像として類似した統計を、生成器によって合成される画像が有するようにする。L2損失は、GANフレームワークに使用される周期的解決法によるものであり、クロスドメイン画像生成の際の周期的一貫性損失を示している。第1の生成器の出力を入力として使用して合成される画像と元の画像を比較する。L2損失が本実施態様で使用されているが、L1、SSIM、知覚損失、または端部分配などの特定の画像統計に対して一貫性を与える他の対象物などの代替損失を使用して、同等の構成を導き出すことができる。
実施態様では、GANフレームワーク200は、GANとL2損失機能との組合せを使用することによって、生成モデルと弁別器との両方を同時に学習するように構成されている。得られる訓練ダイナミクスは普通、(1つまたは複数の)生成器(すなわち、(1つまたは複数の)生成モデル)と(1つまたは複数の)弁別器(すなわち、(1つまたは複数の)損失機能)との間のゲームとして記載されている。
弁別器(210および220)および生成器(230および240)はそれぞれ、敵対的生成ネットワーク(GAN)フレームワーク200内に生成ネットワークおよび弁別ネットワークを形成し、GANフレームワークは弁別ネットワークのエラー率を高くする(すなわち、真のデータ分配から来たように見える新規の合成画像を作り出すことによって弁別ネットワークを「だます」)ように構成されている。すなわち、生成器(230および240)の目的は、弁別器(210および220)をだますリアルなサンプルを作り出すことであり、弁別器(210および220)は生成器(230および240)からの真の訓練データとサンプルとを区別するように訓練されている。
実施態様では、フレームワーク200は、ハンドクラフト生成アルゴリズムにたよるのではなく、ディープラーニングに基づき、訓練可能であり得る。したがって、適切なデータセットが存在する限り、多くの異なるドメイン転送タスクに適用することができる。また、本発明は監視を必要としないので、多くの異なる画像生成タスクに幅広く適用可能である。
図3は、本発明の実施態様による、テスト段階300中の図2の周期的GANフレームワーク200の一部を示している。
生成器A2B230がドメインA291で訓練されると、ドメインA291からのあらゆる画像でドメインB292内に画像を作り出すように、生成器A2B 230を展開させることができる。
図4から5は、本原理の実施態様による、それぞれ実際の画像を含む、第1の画像ドメインと第2の画像ドメインとに対する監視されていないクロスドメイン画像生成のための例示的方法400を示している。
方法400は、第1の画像生成器(例えば、生成器A2B230)、第2の画像生成器(例えば、生成器B2A240)、第1の弁別器(例えば、弁別器A210)、および第2の弁別器(例えば、弁別器B220)を有する周期的敵対的生成ネットワーク(GAN)によって行われている。弁別器および生成器は、それぞれニューラルネットワークベースであり、周期的敵対的生成ネットワーク(GAN)フレームワーク内に生成ネットワークおよび弁別ネットワークをそれぞれ形成する。周期的GANフレームワークは、合成画像の質を改善するために、弁別ネットワークのエラー率を高くするように構成されている。実施態様では、ブロック410から440は、周期的GANフレームワークの訓練段階に対応することができ、ブロック450および460は周期的GANフレームワークのテスト段階に対応することができる。
ブロック410では、第1の画像生成器によって、第1の画像ドメイン内の1つまたは複数の実際の画像のセマンティックコンテンツを含みながら、第2の画像ドメイン内の1つまたは複数の実際の画像と類似する外観を有する合成画像を生成する。
ブロック420では、第2の画像生成器によって、第2の画像ドメイン内の少なくとも1つの実際の画像のセマンティックコンテンツを含みながら、第1の画像ドメイン内の少なくとも1つの実際の画像と類似する外観を有する合成画像を生成する。
ブロック430では、第1の弁別器によって、第2の画像生成器によって生成される合成画像に対して第1の画像ドメイン内の実際の画像を弁別する。
実施態様では、ブロック430はブロック430を含むことができる。
ブロック430Aでは、第2の画像生成器によって生成される合成画像に対して、第1の画像ドメイン内の実際の画像に適用される弁別プロセスによる勾配を得る。
ブロック440では、第2の弁別器によって、第1の画像生成器によって生成される合成画像に対して第2の画像ドメイン内の実際の画像を弁別する。
実施態様では、ブロック440はブロック440を含むことができる。
ブロック440Aでは、第1の画像生成器によって生成される合成画像に対して、第2の画像ドメイン内の実際の画像に適用される弁別プロセスによる勾配を得る。
ブロック450では、(ブロック410から440毎に訓練される)生成ネットワークによって、第1の画像ドメインからの入力画像を使用して1つまたは複数の追加の合成画像を生成する。1つまたは複数の追加の合成画像は、第1の画像ドメインからの入力画像のセマンティックコンテンツを含みながら、第2の画像ドメイン内の画像の少なくともサブセットと類似して見えるように生成されている。追加の合成画像は、周期的GANフレームワークの訓練によって実施される学習プロセスにより、前に生成された合成画像よりも高い品質となる。例えば、追加の合成画像は、周期的一貫性損失(L2)がソースドメインからのセマンティックコンテンツを保存するように利用され、類似した外観を得るためにGAN損失を利用するために、ブロック430Aおよび440Aにより得られた勾配を使用することができる。
追加の合成画像は、当業者に簡単に理解されるように、無数の応用例で使用することができる。例えば、本発明を適用することができる他の応用例としては、これに限らないが、オブジェクトカテゴリー検出または他のタイプの検出/分類ネットワーク内で他の監視された学習要素を訓練すること(例えば、ブロック450A参照)、異なる天候条件に対するデータセットの生成(例えば、ブロック450B参照)、周期的ドメイン転送(例えば、ブロック450C参照)、注釈抽出および対応する応答アクションパフォーマンス(例えば、ブロック450D)などが挙げられる。
実施態様では、ブロック450はブロック450AからCを含むことができる。
ブロック450Aでは、追加の合成画像の1つまたは複数を使用して、オブジェクトカテゴリー検出または他のタイプの検出/分類ネットワーク内で監視された別の学習要素を訓練する。
ブロック450Bでは、異なる天候および/または他の環境条件に対する追加の合成された画像を生成する。
ブロック450Cでは、追加の合成された画像を使用して、第1の画像ドメインと第2の画像ドメインとに対して周期的ドメイン転送を行う。
実施態様では、ブロック450Cはブロック450C1を含むことができる。
ブロック450C1では、周期的GANフレームワークによって、ドメインの1つから別のドメインに画像性状を適応させながら、周期的ドメイン転送にわたって周期的一貫性を実施する。
ブロック450Dでは、追加の合成画像を使用して注釈動作を行い、得られた注釈と所定のセットのアクションワードとの間でマッチング動作を行い、1つまたは複数のマッチが起こる場合に応答アクションを開始する。
本発明の実施態様による、本発明の様々な態様に関し、さらなる説明を次に行う。
本発明は、高品質画像生成モデルを学習するために、原理に基づいたディープ生成モデルを組み込んでいる。
本発明は、監視されたデータセット、例えば、2つのドメイン内の同じ画像を必要としない新規の周期的GANフレームワークを導入している。
テスト時、既に訓練された生成ネットワークを使用して、新しい画像を効率的に生成することができる。
実施態様では、生成された画像は、セマンティックセグメンテーションまたはオブジェクトカテゴリー検出ネットワークなどの他の監視された学習モジュールを訓練するために使用することができる。特に、合成からリアルへのドメイン転送のために訓練された画像生成ネットワークを使用して、詳細な注釈を有するデータセットを、ほとんど無料で得ることができる。L2損失によって保存されるように、注釈をセマンティックコンテンツから得るおよび/またはそうでなければ導き出すことができる。実施態様では、注釈と所定のセットのアクションとの間のマッチを使用して応答アクションを開始することができるように、注釈を受け、注釈に対するマッチングを行うために、プロセッサ(例えば、CPU104)を使用することができる。例えば、(例えば、武器(例えば、銃器またはナイフ)の存在による)危険などのアクションを分類する場合、領域からのまたは領域内に入れられた武器を人に持たせておくために、ドアをロックすることなどのアクションをプロセッサによって開始することができる。
実施態様では、本発明は、異なる天候条件に対する画像生成ネットワークを訓練するために適用することができる。全ての可能性のある天候条件に対する大きなデータセットを有することは、法外に費用がかかる可能性があることを理解されたい。しかし、本発明を使用して、データセットを、追加の労力なく、異なる天候条件に対して生成することができる。
本発明を適用することができるこれらおよび他の応用例は、本発明の精神を維持しながら、本明細書で提供された本発明の教示を鑑みて、当業者によって簡単に判断される。
本発明によって行われた多くの利点および/または貢献のいくつかは、これに限らないが以下のものが挙げられる。
本発明は、モデルを訓練するために監視されたデータセットを必要とせず、監視されたデータセットはしばしば、多くの重要な応用例ドメインで利用可能でないことに留意されたい。
さらに、本発明は、従来の解決法より高品質の画像を生成することができる。
加えて、本発明を使用して、オブジェクト検出、セマンティックセグメンテーションなどの他の監視された学習方法に対する画像データを生成することができる。これにより、データ取得の費用をかなり低くすることができる。
本明細書に記載された実施態様は、全体的にハードウェア、全体的にソフトウェアである、またはハードウェアの要素とソフトウェアの要素との両方を含むことができる。好ましい実施態様では、本発明は、これに限らないが、ファームウェア、常駐ソフトウェア、マイクロコードなどを含む、ソフトウェア内で実施される。
実施態様は、コンピュータまたはあらゆる命令実行システムによる、またはこれに関する使用のために、プログラムコードを提供するコンピュータ使用可能またはコンピュータ読取可能媒体からアクセス可能なコンピュータプログラム製品を含むことができる。コンピュータ使用可能またはコンピュータ読取可能媒体は、命令実行システム、装置、またはデバイスによる、またはこれに関する使用のために、プログラムを記憶、通信、伝搬、または輸送するあらゆる装置を備えることができる。媒体は、磁気、光学、電子、電磁、赤外線、または半導体システム(または、装置もしくはデバイス)、または伝搬媒体であってもよい。媒体としては、半導体または固体メモリ、磁気テープ、取り外し可能コンピュータディスケット、ランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、剛性磁気ディスクおよび光学ディスクなどのコンピュータ読取可能媒体が挙げられる。
例えば「A/B」、「Aおよび/またはB」および「AおよびBの少なくとも1つ」の場合、以下の「/」、「および/または」、および「少なくとも1つ」のいずれかの使用は、第1の挙げられた選択肢(A)のみの選択、または第2の挙げられた選択肢(B)のみの選択、または両方の選択肢(AおよびB)の選択を含むことを意図していることを理解されたい。別の実施例として、「A、B、および/またはC」および「A、B、およびCの少なくとも1つ」の場合、このような表現は、第1の挙げられた選択肢(A)のみの選択、または第2の挙げられた選択肢(B)のみの選択、または第3の挙げられた選択肢(C)のみの選択、または第1および第2の挙げられた選択肢(AおよびB)のみの選択、または第1および第3の挙げられた選択肢(AおよびC)のみの選択、または第2および第3の挙げられた選択肢(BおよびC)のみの選択、または3つ全ての選択肢(A、BおよびC)の選択を含むことを意図している。これは、挙げられた多くの項目に対して、本技術および関連技術の当業者によって簡単に分かるように広げることができる。
(例示的なものであり、限定することを意図していない)システムおよび方法の好ましい実施態様を記載したが、変更および変形は、上記教示を鑑みて当業者によって行うことができることに留意されたい。したがって、添付の特許請求の範囲で概略を説明したように、本発明の範囲および趣旨内にある開示された特定の実施態様で変更を行ってもよいことを理解されたい。特許法によって必要とされる詳細および細部と共に、本発明の態様をこのように記載したが、特許によって保護される請求および所望するものは、添付の特許請求の範囲に記載されている。
Claims (20)
- それぞれ実際の画像を含む第1の画像ドメインと第2の画像ドメインとに対する監視されていないクロスドメイン画像生成のためのシステムであって、
前記第1の画像ドメイン内の1つまたは複数の前記実際の画像のセマンティックコンテンツを含みながら、前記第2の画像ドメイン内の1つまたは複数の前記実際の画像と類似する外観を有する合成画像を生成する第1の画像生成器と、
前記第2の画像ドメイン内の少なくとも1つの前記実際の画像のセマンティックコンテンツを含みながら、前記第1の画像ドメイン内の少なくとも1つの前記実際の画像と類似する外観を有する合成画像を生成する第2の画像生成器と、
前記第2の画像生成器によって生成される前記合成画像に対して前記第1の画像ドメイン内の前記実際の画像を弁別する第1の弁別器と、
前記第1の画像生成器によって生成される前記合成画像に対して前記第2の画像ドメイン内の前記実際の画像を弁別する第2の弁別器とを有し、
前記弁別器および前記生成器は、ディープニューラルネットワークであり、それぞれ、前記合成画像の質を改善するために、弁別ネットワークのエラー率を高くするように構成された周期的敵対的生成ネットワーク(GAN)フレームワーク内に生成ネットワークおよび前記弁別ネットワークを形成するシステム。 - 請求項1に記載のシステムにおいて、
前記周期的GANフレームワークは、前記生成された合成画像内に含有用の前記セマンティックコンテンツを保存するために、周期的一貫性損失を利用するシステム。 - 請求項1に記載のシステムにおいて、
前記第1の画像ドメインおよび前記第2の画像ドメインは、互いに対して少なくともいくつかの異なる実際の画像を含むシステム。 - 請求項1に記載のシステムにおいて、
前記生成器は、それぞれの畳み込みニューラルネットワークによって実施され、前記弁別器はそれぞれの非畳み込みニューラルネットワークによって実施されるシステム。 - 請求項1に記載のシステムにおいて、
前記生成器は、前記弁別器によって提供される勾配を使用して前記合成画像を生成するシステム。 - 請求項1に記載のシステムにおいて、
前記生成ネットワークは、オブジェクトカテゴリー検出ネットワーク内で別の監視された学習要素を訓練するように構成されているシステム。 - 請求項1に記載のシステムにおいて、
前記周期的GANフレームワークは、前記第1の画像ドメインと前記第2の画像ドメインとに関する周期的ドメイン転送を行うように構成されているシステム。 - 請求項7に記載のシステムにおいて、
前記周期的GANフレームワークは、前記ドメインの1つから別の前記ドメインに画像性状を適応させながら、前記周期的ドメイン転送にわたって周期的一貫性を実施するように構成されているシステム。 - 請求項1に記載のシステムにおいて、
前記周期的GANフレームワークの前記生成ネットワークは、前記第1のドメインと前記第2のドメインとのいずれかで前記実際の画像から異なる天候条件に対する前記合成画像を生成するように構成されているシステム。 - 請求項1に記載のシステムにおいて、
前記周期的GANフレームワークは、前記ドメインのうち訓練データセットによる監視されていない学習のために構成された監視されていないドメイン間の変換モデルを形成するシステム。 - それぞれ実際の画像を含む第1の画像ドメインと第2の画像ドメインとに対する監視されていないクロスドメイン画像生成のためのコンピュータ実施方法であって、
第1の画像生成器によって、前記第1の画像ドメイン内の1つまたは複数の前記実際の画像のセマンティックコンテンツを含みながら、前記第2の画像ドメイン内の1つまたは複数の前記実際の画像と類似する外観を有する合成画像を生成することと、
第2の画像生成器によって、前記第2の画像ドメイン内の少なくとも1つの前記実際の画像のセマンティックコンテンツを含みながら、前記第1の画像ドメイン内の少なくとも1つの前記実際の画像と類似する外観を有する合成画像を生成することと、
第1の弁別器によって、前記第2の画像生成器によって生成される前記合成画像に対して前記第1の画像ドメイン内の前記実際の画像を弁別することと、
第2の弁別器によって、前記第1の画像生成器によって生成される前記合成画像に対して前記第2の画像ドメイン内の前記実際の画像を弁別することとを含み、
前記弁別器および前記生成器はそれぞれ、ニューラルネットワークベースであり、それぞれ、周期的敵対的生成ネットワーク(GAN)フレームワーク内に生成ネットワークおよび弁別ネットワークを形成し、前記方法は、前記合成画像の質を改善するために、前記弁別ネットワークのエラー率を高くすることをさらに含む方法。 - 請求項11に記載のコンピュータ実施方法において、
前記生成された合成画像内に含有用の前記セマンティックコンテンツを保存するために、前記周期的GANフレームワーク内の周期的一貫性損失を利用することをさらに含むコンピュータ実施方法。 - 請求項11に記載のコンピュータ実施方法において、
前記第1の画像ドメインおよび前記第2の画像ドメインは、互いに対して少なくともいくつかの異なる実際の画像を含むコンピュータ実施方法。 - 請求項11に記載のコンピュータ実施方法において、
前記生成器のそれぞれ1つとして1対の畳み込みニューラルネットワークそれぞれを構成することと、
前記弁別器のそれぞれ1つとして1対の非畳み込みニューラルネットワークそれぞれを構成することとをさらに含むコンピュータ実施方法。 - 請求項11に記載のコンピュータ実施方法において、
前記生成するステップは、前記弁別器によって提供される勾配を使用して前記合成画像を生成するコンピュータ実施方法。 - 請求項11に記載のコンピュータ実施方法において、
前記生成ネットワークによって、オブジェクトカテゴリー検出ネットワーク内で別の監視された学習要素を訓練することをさらに含むコンピュータ実施方法。 - 請求項11に記載のコンピュータ実施方法において、
前記周期的GANフレームワークによって、前記第1の画像ドメインと前記第2の画像ドメインとに関する周期的ドメイン転送を行うことをさらに含むコンピュータ実施方法。 - 請求項17に記載のコンピュータ実施方法において、
前記周期的GANフレームワークに、前記ドメインの1つから別の前記ドメインに画像性状を適応させながら、前記周期的ドメイン転送にわたって周期的一貫性を実施させることをさらに含むコンピュータ実施方法。 - 請求項11に記載のコンピュータ実施方法において、
前記周期的GANフレームワークの前記生成ネットワークを、前記第1のドメインと前記第2のドメインとのいずれかで前記実際の画像から異なる天候条件に対する前記合成画像を生成するように構成することをさらに含むコンピュータ実施方法。 - それぞれ実際の画像を含む第1の画像ドメインと第2の画像ドメインとに対する監視されていないクロスドメイン画像生成のためのコンピュータプログラム製品であって、プログラム命令がそれによって具現化された非一時的コンピュータ読取可能記憶媒体を備え、前記プログラム命令は、コンピュータに方法を行わせるために、前記コンピュータによって実行可能であり、前記方法は、
前記コンピュータの第1の画像生成器によって、前記第1の画像ドメイン内の1つまたは複数の前記実際の画像のセマンティックコンテンツを含みながら、前記第2の画像ドメイン内の1つまたは複数の前記実際の画像と類似する外観を有する合成画像を生成することと、
前記コンピュータの第2の画像生成器によって、前記第2の画像ドメイン内の少なくとも1つの前記実際の画像のセマンティックコンテンツを含みながら、前記第1の画像ドメイン内の少なくとも1つの前記実際の画像と類似する外観を有する合成画像を生成することと、
前記コンピュータの第1の弁別器によって、前記第2の画像生成器によって生成される前記合成画像に対して前記第1の画像ドメイン内の前記実際の画像を弁別することと、
前記コンピュータの第2の弁別器によって、前記第1の画像生成器によって生成される前記合成画像に対して前記第2の画像ドメイン内の前記実際の画像を弁別することとを含み、
前記弁別器および前記生成器はそれぞれ、ニューラルネットワークベースであり、それぞれ、周期的敵対的生成ネットワーク(GAN)フレームワーク内に生成ネットワークおよび弁別ネットワークを形成し、前記方法は、前記合成画像の質を改善するために、前記弁別ネットワークのエラー率を高くすることをさらに含むコンピュータプログラム製品。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762489529P | 2017-04-25 | 2017-04-25 | |
US62/489,529 | 2017-04-25 | ||
US15/906,710 | 2018-02-27 | ||
US15/906,710 US10474929B2 (en) | 2017-04-25 | 2018-02-27 | Cyclic generative adversarial network for unsupervised cross-domain image generation |
PCT/US2018/020101 WO2018200072A1 (en) | 2017-04-25 | 2018-02-28 | Cyclic generative adversarial network for unsupervised cross-domain image generation |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020508522A true JP2020508522A (ja) | 2020-03-19 |
Family
ID=63853998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019546011A Withdrawn JP2020508522A (ja) | 2017-04-25 | 2018-02-28 | 監視されていないクロスドメイン画像生成のための周期的敵対的生成ネットワーク |
Country Status (4)
Country | Link |
---|---|
US (1) | US10474929B2 (ja) |
JP (1) | JP2020508522A (ja) |
DE (1) | DE112018002166T5 (ja) |
WO (1) | WO2018200072A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021103574A (ja) * | 2020-04-17 | 2021-07-15 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | 顔融合モデルのトレーニング方法、装置及び電子機器 |
Families Citing this family (69)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102403494B1 (ko) | 2017-04-27 | 2022-05-27 | 에스케이텔레콤 주식회사 | 생성적 대립 네트워크에 기반한 도메인 간 관계를 학습하는 방법 |
US10970829B2 (en) * | 2017-08-24 | 2021-04-06 | Siemens Healthcare Gmbh | Synthesizing and segmenting cross-domain medical images |
US10235601B1 (en) * | 2017-09-07 | 2019-03-19 | 7D Labs, Inc. | Method for image analysis |
US11334762B1 (en) | 2017-09-07 | 2022-05-17 | Aurora Operations, Inc. | Method for image analysis |
US10956785B2 (en) | 2018-04-27 | 2021-03-23 | Arizona Board Of Regents On Behalf Of Arizona State University | Methods, systems, and media for selecting candidates for annotation for use in training classifiers |
WO2019241155A1 (en) * | 2018-06-11 | 2019-12-19 | Arterys Inc. | Simulating abnormalities in medical images with generative adversarial networks |
US11481637B2 (en) * | 2018-06-14 | 2022-10-25 | Advanced Micro Devices, Inc. | Configuring computational elements for performing a training operation for a generative adversarial network |
CN109284280B (zh) * | 2018-09-06 | 2020-03-24 | 百度在线网络技术(北京)有限公司 | 仿真数据优化方法、装置及存储介质 |
CN111127304B (zh) * | 2018-10-31 | 2024-02-20 | 微软技术许可有限责任公司 | 跨域图像转换 |
JP7318197B2 (ja) * | 2018-11-15 | 2023-08-01 | 富士通株式会社 | 逐次学習プログラム、逐次学習装置および逐次学習方法 |
CN109584257B (zh) * | 2018-11-28 | 2022-12-09 | 中国科学院深圳先进技术研究院 | 一种图像处理方法及相关设备 |
CN111238524B (zh) * | 2018-11-28 | 2021-12-14 | 驭势科技(北京)有限公司 | 视觉定位方法以及装置 |
CN109584339A (zh) * | 2018-12-04 | 2019-04-05 | 中国民航大学 | 一种基于生成式对抗网络的安检违禁品x光图像生成方法 |
CN109670559A (zh) * | 2018-12-07 | 2019-04-23 | 北京锐安科技有限公司 | 手写汉字的识别方法、装置、设备和存储介质 |
JP7046786B2 (ja) * | 2018-12-11 | 2022-04-04 | 株式会社日立製作所 | 機械学習システム、ドメイン変換装置、及び機械学習方法 |
CN109635748B (zh) * | 2018-12-14 | 2021-09-03 | 中国公路工程咨询集团有限公司 | 高分辨率影像中道路特征的提取方法 |
CN109635774B (zh) * | 2018-12-21 | 2022-09-13 | 中山大学 | 一种基于生成对抗网络的人脸合成方法 |
CN109840926B (zh) * | 2018-12-29 | 2023-06-20 | 中国电子科技集团公司信息科学研究院 | 一种图像生成方法、装置及设备 |
CN110414631B (zh) * | 2019-01-29 | 2022-02-01 | 腾讯科技(深圳)有限公司 | 基于医学图像的病灶检测方法、模型训练的方法及装置 |
CN109816764B (zh) | 2019-02-02 | 2021-06-25 | 深圳市商汤科技有限公司 | 图像生成方法及装置、电子设备和存储介质 |
CN111583096A (zh) * | 2019-02-15 | 2020-08-25 | 北京京东乾石科技有限公司 | 图片处理方法及装置、电子设备和计算机可读介质 |
CN109871898B (zh) * | 2019-02-27 | 2020-04-07 | 南京中设航空科技发展有限公司 | 一种利用生成对抗网络生成堆积物训练样本的方法 |
EP3706268B1 (en) * | 2019-03-07 | 2022-06-29 | ABB Schweiz AG | Artificial intelligence monitoring system using infrared images to identify hotspots in a switchgear |
EP3706267B1 (en) * | 2019-03-07 | 2021-11-24 | ABB Schweiz AG | Artificial intelligence monitoring system using infrared images to identify hotspots in a switchgear |
EP3706269B1 (en) * | 2019-03-07 | 2022-06-29 | ABB Schweiz AG | Artificial intelligence monitoring system using infrared images to identify hotspots in a switchgear |
EP3706270B1 (en) * | 2019-03-07 | 2022-06-29 | ABB Schweiz AG | Artificial intelligence monitoring system using infrared images to identify hotspots in a switchgear |
EP3706266A1 (en) * | 2019-03-07 | 2020-09-09 | ABB Schweiz AG | Artificial intelligence monitoring system using infrared images to identify hotspots in a switchgear |
GB2597857B (en) * | 2019-03-15 | 2023-05-17 | Invista Textiles Uk Ltd | Yarn quality control |
CN110082821B (zh) * | 2019-03-26 | 2020-10-02 | 长江大学 | 一种无标签框微地震信号检测方法及装置 |
US10832450B2 (en) * | 2019-03-27 | 2020-11-10 | GM Global Technology Operations LLC | Semantic preserved style transfer |
KR102039138B1 (ko) * | 2019-04-02 | 2019-10-31 | 주식회사 루닛 | 적대적 학습에 기반한 도메인 어댑테이션 방법 및 그 장치 |
US20200349391A1 (en) * | 2019-04-30 | 2020-11-05 | Shenzhen Sensetime Technology Co., Ltd. | Method for training image generation network, electronic device, and storage medium |
CN110322002B (zh) * | 2019-04-30 | 2022-01-04 | 深圳市商汤科技有限公司 | 图像生成网络的训练及图像处理方法和装置、电子设备 |
EP3739521A1 (en) | 2019-05-14 | 2020-11-18 | Robert Bosch GmbH | Training system for training a generator neural network |
CN110415182B (zh) * | 2019-06-18 | 2024-03-05 | 平安科技(深圳)有限公司 | 眼底oct影像增强方法、装置、设备及存储介质 |
CN110276811B (zh) * | 2019-07-02 | 2022-11-01 | 厦门美图之家科技有限公司 | 图像转换方法、装置、电子设备及可读存储介质 |
US11042758B2 (en) | 2019-07-02 | 2021-06-22 | Ford Global Technologies, Llc | Vehicle image generation |
CN110363122B (zh) * | 2019-07-03 | 2022-10-11 | 昆明理工大学 | 一种基于多层特征对齐的跨域目标检测方法 |
CN110399856B (zh) * | 2019-07-31 | 2021-09-14 | 上海商汤临港智能科技有限公司 | 特征提取网络训练方法、图像处理方法、装置及其设备 |
CN110634108B (zh) * | 2019-08-30 | 2023-01-20 | 北京工业大学 | 一种基于元-循环一致性对抗网络的复合降质网络直播视频增强方法 |
US10628931B1 (en) | 2019-09-05 | 2020-04-21 | International Business Machines Corporation | Enhancing digital facial image using artificial intelligence enabled digital facial image generation |
CN110807740B (zh) * | 2019-09-17 | 2023-04-18 | 北京大学 | 一种面向监控场景车窗图像的图像增强方法与系统 |
KR102095684B1 (ko) * | 2019-10-15 | 2020-03-31 | 주식회사 루닛 | 적대적 학습에 기반한 도메인 어댑테이션 방법 및 그 장치 |
TWI730467B (zh) | 2019-10-22 | 2021-06-11 | 財團法人工業技術研究院 | 影像轉換方法及影像轉換網路 |
CN110837850B (zh) * | 2019-10-23 | 2022-06-21 | 浙江大学 | 一种基于对抗学习损失函数的无监督域适应方法 |
CN110796199B (zh) * | 2019-10-30 | 2021-05-28 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置以及电子医疗设备 |
US11257255B2 (en) * | 2019-12-03 | 2022-02-22 | Leica Microsystems Cms Gmbh | Domain matching methods for transportable imaging applications |
CN111178502A (zh) * | 2019-12-12 | 2020-05-19 | 中国科学院深圳先进技术研究院 | 循环生成对抗网络模型的训练方法、系统以及电子设备 |
KR102282989B1 (ko) * | 2019-12-26 | 2021-07-29 | 주식회사 나눔에너지 | 머신러닝을 이용한 태양광패널 설치용 지붕 가장자리 이미지 추출 시스템 |
CN111199256B (zh) * | 2020-01-02 | 2024-03-22 | 东软医疗系统股份有限公司 | 图像优化网络的训练方法、图像处理方法及装置 |
CN111260652B (zh) * | 2020-01-09 | 2023-09-08 | 浙江传媒学院 | 一种基于mimo-gan的图像生成系统和方法 |
CN111340819B (zh) * | 2020-02-10 | 2023-09-12 | 腾讯科技(深圳)有限公司 | 图像分割方法、装置和存储介质 |
US11158059B1 (en) | 2020-04-02 | 2021-10-26 | International Business Machines Corporation | Image reconstruction based on edge loss |
CN111612703A (zh) * | 2020-04-22 | 2020-09-01 | 杭州电子科技大学 | 一种基于生成对抗网络的图像盲去模糊方法 |
CN111723720A (zh) * | 2020-06-15 | 2020-09-29 | 中国石油大学(华东) | 一种有机气体泄漏智能可视化实时在线监测系统 |
KR102271063B1 (ko) * | 2020-08-18 | 2021-06-29 | 정윤호 | 가상 피팅 서비스 제공 방법, 장치 및 그 시스템 |
KR20220162728A (ko) * | 2020-10-14 | 2022-12-08 | 엘지전자 주식회사 | 학습 데이터를 생성하는 인공 지능 장치 및 방법 |
CN112199505B (zh) * | 2020-10-30 | 2022-06-03 | 福州大学 | 一种基于特征表示学习的跨领域情感分类方法及系统 |
CN112365559B (zh) * | 2020-11-19 | 2022-08-26 | 华侨大学 | 一种基于结构相似度的生成对抗网络的红外图像着色方法 |
US20220269906A1 (en) * | 2021-02-24 | 2022-08-25 | Sony Group Corporation | Neural network-based image-to-image translation |
CN113095257A (zh) * | 2021-04-20 | 2021-07-09 | 上海商汤智能科技有限公司 | 异常行为检测方法、装置、设备及存储介质 |
DE102021002908A1 (de) | 2021-06-07 | 2021-07-29 | Daimler Ag | Verfahren zur datenbasierten Simulation von Wettereffekten in Sensordaten |
US11393574B1 (en) * | 2021-07-06 | 2022-07-19 | PAIGE.AI, Inc. | Systems and methods to process electronic images for synthetic image generation |
EP4367638A1 (en) | 2021-07-06 | 2024-05-15 | PAIGE.AI, Inc. | Systems and methods to process electronic images for synthetic image generation |
CN113793287A (zh) * | 2021-08-23 | 2021-12-14 | 西南科技大学 | 一种基于迂回策略的图像合成方法 |
CN114119792B (zh) * | 2021-08-31 | 2023-04-07 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 光学图像跨域对抗生成sar图像的方法 |
CN114240955B (zh) * | 2021-12-22 | 2023-04-07 | 电子科技大学 | 一种半监督的跨领域自适应的图像分割方法 |
CN115314254B (zh) * | 2022-07-07 | 2023-06-23 | 中国人民解放军战略支援部队信息工程大学 | 基于改进wgan-gp的半监督恶意流量检测方法 |
CN116821800B (zh) * | 2023-08-31 | 2023-11-10 | 深圳市路桥建设集团有限公司 | 基于半监督生成对抗网络的结构状态分类方法及相关设备 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2565870A1 (en) * | 2004-05-06 | 2005-12-15 | The Regents Of The University Of California | Method and system for aligning and classifying images |
US7814040B1 (en) * | 2006-01-31 | 2010-10-12 | The Research Foundation Of State University Of New York | System and method for image annotation and multi-modal image retrieval using probabilistic semantic models |
US9449392B2 (en) * | 2013-06-05 | 2016-09-20 | Samsung Electronics Co., Ltd. | Estimator training method and pose estimating method using depth image |
KR101758064B1 (ko) * | 2013-06-05 | 2017-07-14 | 삼성전자주식회사 | 깊이 영상을 이용하는 추정기 학습 방법 및 자세 추정 방법 |
US9710729B2 (en) * | 2014-09-04 | 2017-07-18 | Xerox Corporation | Domain adaptation for image classification with class priors |
US9607245B2 (en) * | 2014-12-02 | 2017-03-28 | Xerox Corporation | Adapted vocabularies for matching image signatures with fisher vectors |
US20180247201A1 (en) * | 2017-02-28 | 2018-08-30 | Nvidia Corporation | Systems and methods for image-to-image translation using variational autoencoders |
-
2018
- 2018-02-27 US US15/906,710 patent/US10474929B2/en active Active
- 2018-02-28 DE DE112018002166.1T patent/DE112018002166T5/de not_active Withdrawn
- 2018-02-28 WO PCT/US2018/020101 patent/WO2018200072A1/en active Application Filing
- 2018-02-28 JP JP2019546011A patent/JP2020508522A/ja not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021103574A (ja) * | 2020-04-17 | 2021-07-15 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | 顔融合モデルのトレーニング方法、装置及び電子機器 |
JP7114774B2 (ja) | 2020-04-17 | 2022-08-08 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 顔融合モデルのトレーニング方法、装置及び電子機器 |
US11830288B2 (en) | 2020-04-17 | 2023-11-28 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for training face fusion model and electronic device |
Also Published As
Publication number | Publication date |
---|---|
US20180307947A1 (en) | 2018-10-25 |
WO2018200072A1 (en) | 2018-11-01 |
US10474929B2 (en) | 2019-11-12 |
DE112018002166T5 (de) | 2020-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2020508522A (ja) | 監視されていないクロスドメイン画像生成のための周期的敵対的生成ネットワーク | |
Chintha et al. | Recurrent convolutional structures for audio spoof and video deepfake detection | |
Cheng et al. | An analysis of generative adversarial networks and variants for image synthesis on MNIST dataset | |
Cisse et al. | Houdini: Fooling deep structured prediction models | |
WO2020091891A1 (en) | Cross-domain image translation | |
EP4085369A1 (en) | Forgery detection of face image | |
KR102042168B1 (ko) | 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 방법 및 장치 | |
US11250282B2 (en) | Face spoofing detection using a physical-cue-guided multi-source multi-channel framework | |
JP2018026122A (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN112001488A (zh) | 训练生成型对抗性网络 | |
JP7332238B2 (ja) | タスク固有のデータ利用のための物理学により誘導されたディープマルチモーダル埋め込みのための方法及び装置 | |
Yin et al. | Neural network fragile watermarking with no model performance degradation | |
Zhang et al. | MultiResolution attention extractor for small object detection | |
US11301704B2 (en) | Method and apparatus with image recognition | |
Nida et al. | Video augmentation technique for human action recognition using genetic algorithm | |
CN114299304B (zh) | 一种图像处理方法及相关设备 | |
Zhu et al. | A novel simple visual tracking algorithm based on hashing and deep learning | |
EP4002205A1 (en) | Method and apparatus with image recognition | |
CN116486493A (zh) | 一种活体检测方法、装置及设备 | |
Masud et al. | LW-DeepFakeNet: a lightweight time distributed CNN-LSTM network for real-time DeepFake video detection | |
CN112380369B (zh) | 图像检索模型的训练方法、装置、设备和存储介质 | |
Lim et al. | Metamorphic testing-based adversarial attack to fool deepfake detectors | |
Santha | Deepfakes generation using LSTM based generative adversarial networks | |
Hui-bin et al. | Recognition of individual object in focus people group based on deep learning | |
Xu et al. | A weighted locally linear KNN model for image recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190822 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20200911 |