JP6957624B2 - ターゲット・ドメイン画像へのソース・ドメイン画像の変換 - Google Patents

ターゲット・ドメイン画像へのソース・ドメイン画像の変換 Download PDF

Info

Publication number
JP6957624B2
JP6957624B2 JP2019531682A JP2019531682A JP6957624B2 JP 6957624 B2 JP6957624 B2 JP 6957624B2 JP 2019531682 A JP2019531682 A JP 2019531682A JP 2019531682 A JP2019531682 A JP 2019531682A JP 6957624 B2 JP6957624 B2 JP 6957624B2
Authority
JP
Japan
Prior art keywords
neural network
domain
image
task
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019531682A
Other languages
English (en)
Other versions
JP2020502665A (ja
Inventor
ボウスマリス,コンスタンティノス
シルバーマン,ネイサン
マーティン ドーハン,デイビッド
アーハン,ドミトル
クリシュナン,ディリップ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2020502665A publication Critical patent/JP2020502665A/ja
Application granted granted Critical
Publication of JP6957624B2 publication Critical patent/JP6957624B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4084Scaling of whole images or parts thereof, e.g. expanding or contracting in the transform domain, e.g. fast Fourier transform [FFT] domain scaling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7753Incorporation of unlabelled data, e.g. multiple instance learning [MIL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本明細書は、出力を生成するためのニューラル・ネットワークの層を介する画像データの処理に関する。
ニューラル・ネットワークは、受け取られた入力に関する出力を予測するのに非線形ユニットの1つまたは複数の層を使用する機械学習モデルである。一部のニューラル・ネットワークは、出力層に加えて、1つまたは複数の隠れ層を含む。各隠れ層の出力は、ネットワーク内の次の層すなわち次の隠れ層または出力層への入力として使用される。ネットワークの各層は、パラメータのそれぞれのセットの現在値に従って、受け取られた入力から出力を生成する。
一般に、本明細書は、1つまたは複数のコンピュータによって実施され、ソース・ドメインからの画像および雑音ベクトルを受け取り、ソース・ドメインからの画像および雑音ベクトルを処理して、その画像をターゲット・ドメインからの画像に変換する、ドメイン変換ニューラル・ネットワークを説明する。
1つまたは複数のコンピュータのシステムが特定の動作またはアクションを実行するように構成されることは、そのシステムが、動作中にそのシステムに動作またはアクションを実行させるソフトウェア、ファームウェア、ハードウェア、またはそれらの組合せをインストールされていることを意味する。1つまたは複数のコンピュータ・プログラムが特定の動作またはアクションを実行するように構成されることは、1つまたは複数のプログラムが、データ処理装置によって実行された時にその装置に動作またはアクションを実行させる命令を含むことを意味する。
本明細書では、1つまたは複数のコンピュータによって実施されるドメイン変換ニューラル・ネットワークであって、ドメイン変換ニューラル・ネットワークは、ソース・ドメインから入力画像を受け取り、雑音ベクトルを受け取り、ソース・ドメインからソース・ドメインとは異なるターゲット・ドメインへの入力画像の変換である変換された画像を生成するために、ソース・ドメインからの入力画像および雑音ベクトルを含むネットワーク入力を処理するように構成される、ドメイン変換ニューラル・ネットワークを含むシステムが説明される。
雑音ベクトルは、所定の個数の雑音値を含むベクトルとすることができる。各雑音値は、それぞれの一様分布からサンプリングされ得る。入力画像は、それぞれが特定の解像度を有する複数のチャネルを含むことができ、ドメイン変換ニューラル・ネットワークは、特定の解像度を有する追加チャネルを生成するために雑音ベクトルを処理し、結合された入力を生成するために入力画像および追加チャネルを連結するように構成された結合するサブニューラル・ネットワーク(combining sub−neural network)を含むことができる。ドメイン変換ニューラル・ネットワークは、変換された画像を生成するために結合された入力を処理するように構成された畳み込みサブニューラル・ネットワークをさらに含むことができる。変換された画像を生成するために結合された入力を処理することは、結合された入力またはネットワーク入力に複数の解像度を保存する畳み込みを適用することを含むことができる。畳み込みサブニューラル・ネットワークは、それぞれがそれぞれの複数の解像度を保存する畳み込み層を含む複数の残差ブロックを含むことができる。ターゲット・ドメインは、実世界環境の画像とすることができ、ソース・ドメインは、実世界環境のシミュレーションの画像である。
本明細書では、1つまたは複数のコンピュータによって実施されるドメイン変換ニューラル・ネットワークであって、ドメイン変換ニューラル・ネットワークは、ソース・ドメインから入力画像を受け取り、ソース・ドメインは、実世界環境のシミュレーションの画像であり、ソース・ドメインからターゲット・ドメインへの入力画像の変換である変換された画像を生成するために、ソース・ドメインからの入力画像を含むネットワーク入力を処理し、ターゲット・ドメインは、実世界環境の画像であるように構成される、ドメイン変換ニューラル・ネットワークを含むシステムも開示される。
ドメイン変換ニューラル・ネットワークは、雑音ベクトルを受け取るようにさらに構成され得、ネットワーク入力は、雑音ベクトルをさらに含むことができる。雑音ベクトルは、所定の個数の雑音値を含むことができる ベクトルである。各雑音値は、それぞれの一様分布からサンプリングされ得る。入力画像は、それぞれが特定の解像度を有する複数のチャネルを含むことができ、ドメイン変換ニューラル・ネットワークは、特定の解像度を有する追加チャネルを生成するために雑音ベクトルを処理し、結合された入力を生成するために入力画像および追加チャネルを連結するように構成された結合するサブニューラル・ネットワークを含むことができる。ドメイン変換ニューラル・ネットワークは、変換された画像を生成するためにネットワーク入力または結合された入力のいずれかを処理するように構成された畳み込みサブニューラル・ネットワークを含むことができる。変換された画像を生成するためにネットワーク入力または結合された入力を処理することは、結合された入力またはネットワーク入力に複数の解像度を保存する畳み込みを適用することを含むことができる。畳み込みサブニューラル・ネットワークは、それぞれがそれぞれの複数の解像度を保存する畳み込み層を含む複数の残差ブロックを含むことができる。
本明細書では、ドメイン変換ニューラル・ネットワークをトレーニングする方法であって、方法は、ラベル付けされたトレーニング・ソース・ドメイン画像を受け取ることと、ラベル付けされていないトレーニング・ターゲット・ドメイン画像を受け取ることと、ターゲット・ドメイン画像とドメイン変換ニューラル・ネットワークによって生成された変換された画像との間で区別するために鑑別器ニューラル・ネットワークをトレーニングしている間に、変換された画像を生成するために、ラベル付けされたトレーニング・ソース・ドメイン画像およびラベル付けされていないトレーニング・ターゲット・ドメイン画像に対して、ドメイン変換ニューラル・ネットワークをトレーニングすることとを含む、方法も開示される。
トレーニングすることは、第1の最適化ステップの実行と第2の最適化ステップの実行との間で交番することによって2ステップ最適化プロセスを繰り返して実行することであって、第1の最適化ステップ中に、ドメイン変換ニューラル・ネットワークのパラメータの値を固定された状態に保ちながら鑑別器ニューラル・ネットワークのパラメータの現在値およびタスク・ニューラル・ネットワークのパラメータの現在値を更新することであって、タスク・ニューラル・ネットワークは、入力画像を受け取り、入力画像の特性を表すタスク出力を生成するために入力画像を処理するように構成される、更新することと、第2の最適化ステップ中に、鑑別器ニューラル・ネットワークのパラメータの値およびタスク・ニューラル・ネットワークのパラメータの値を固定された状態に保ちながらドメイン変換ニューラル・ネットワークのパラメータの現在値を更新することとを含む、繰り返して実行することを含むことができる。ドメイン変換ニューラル・ネットワークのパラメータの値を固定された状態に保ちながら鑑別器ニューラル・ネットワークのパラメータの現在値およびタスク・ニューラル・ネットワークのパラメータの現在値を更新することは、鑑別器ニューラル・ネットワークのパラメータに関する損失関数のドメイン損失項を最大にするためにニューラル・ネットワーク・トレーニング技法を実行することによって鑑別器ニューラル・ネットワークのパラメータの現在値の更新を判定することであって、ドメイン損失項は、(i)ターゲット・ドメインからではないものとしてターゲット・ドメイン画像を不正に識別することおよびターゲット・ドメインからであるものとして変換された画像を識別することに関して鑑別器ニューラル・ネットワークにペナルティを与えると同時に、(ii)鑑別器ニューラル・ネットワークによってターゲット・ドメインからではないものとして識別される変換された画像を生成することに関してドメイン変換ニューラル・ネットワークにペナルティを与える、判定することと、タスク・ニューラル・ネットワークのパラメータに関する損失関数のタスク固有損失項を最小にするためにニューラル・ネットワーク・トレーニング技法を実行することによってタスク・ニューラル・ネットワークのパラメータの現在値の更新を判定することであって、タスク固有損失項は、(i)対応するソース・ドメイン画像に関する既知のタスク出力とは異なって変換された画像の特性を表すことに関してタスク・ニューラル・ネットワークにペナルティを与えると同時に、(ii)対応するソース・ドメイン画像に関する既知のタスク出力からタスク・ニューラル・ネットワークによって異なって特性を表される変換された画像を生成することに関してドメイン変換ニューラル・ネットワークにペナルティを与える、判定することとを含むことができる。鑑別器ニューラル・ネットワークのパラメータの値およびタスク・ニューラル・ネットワークのパラメータの値を固定された状態に保ちながらドメイン変換ニューラル・ネットワークのパラメータの現在値を更新することは、ドメイン変換ニューラル・ネットワークのパラメータに関する損失関数を最小にするためにニューラル・ネットワーク・トレーニング技法を実行することによってドメイン変換ニューラル・ネットワークのパラメータの現在値の更新を判定することを含むことができる。
本明細書で説明される主題の特定の実施形態は、以下の利点のうちの1つまたは複数を実現するために実施され得る。本明細書で説明されるニューラル・ネットワーク・システムは、ターゲット・ドメインから引き出されたかのように見えるようにソース・ドメイン画像を効果的に適合させることができる。具体的には、多数のラベル付けされた例がソース・ドメインから使用可能であると同時に、相対的にはるかに少数のラベル付けされた例がターゲット・ドメインから使用可能である場合には、ニューラル・ネットワーク・システムは、ソース・ドメインからターゲット・ドメインへの画素空間内の変換を学習するために多数のラベル付けされた例を効果的に活用し、ラベル付けされたターゲット・ドメイン画像のデータ・セットが効果的に生成されることを可能にすることができる。ニューラル・ネットワーク・システムは、ドメイン変換ニューラル・ネットワークを再トレーニングする必要なしに、異なるタスクのために再利用され得る。すなわち、ドメイン変換ニューラル・ネットワークが、画素レベルである画像を別の画像に写像するので、ドメイン変換ニューラル・ネットワークによって生成される画像は、必ずしも任意の1つの分類タスクに使用されるラベル空間に固有ではない。たとえば、第1のクラシファイヤ・ニューラル・ネットワークを使用してトレーニングされたドメイン変換ニューラル・ネットワークは、同一の適合シナリオ内で異なるラベル空間を使用する別のクラシファイヤのトレーニング用の画像を生成することができる。ドメイン変換ニューラル・ネットワークのトレーニング中にタスク固有損失を組み込むことによって、トレーニング・プロセスは、安定化され、よりよく動作するドメイン変換ニューラル・ネットワーク、そのドメイン変換ニューラル・ネットワークによって生成される変換された画像に対してトレーニングされたよりよく動作するタスク・クラシファイヤ、またはその両方をもたらす。タスク固有損失を使用してトレーニングされたドメイン変換ニューラル・ネットワークは、それでも、テスト時間中に異なるラベル空間を使用するクラシファイヤによって処理される画像を生成するのに効果的に使用され得る。
本明細書の主題の1つまたは複数の実施形態の詳細が、添付図面および下の説明で示される。この主題の他の特徴、態様、および利点は、説明、図面、および特許請求の範囲から明白になる。
例の画像処理ニューラル・ネットワーク・システムを示す図である。 ドメイン変換ニューラル・ネットワークの例のアーキテクチャを示す図である。 ソース・ドメイン画像からターゲット・ドメイン画像を生成する例のプロセスを示す流れ図である。 ドメイン変換ニューラル・ネットワークをトレーニングする例のプロセスを示す流れ図である。 ドメイン変換ニューラル・ネットワークのトレーニング中に最適化ステップを実行する例のプロセスを示す流れ図である。
様々な図内の同様の符号および指定は、同様の要素を示す。
図1は、例の画像処理ニューラル・ネットワーク・システム100を示す。画像処理ニューラル・ネットワーク・システム100は、下で説明されるシステム、構成要素、および技法がその中で実施され得る、1つまたは複数の位置にある1つまたは複数のコンピュータ上のコンピュータ・プログラムとして実施されるシステムの例である。
画像処理ニューラル・ネットワーク・システム100は、入力としてソース・ドメイン画像102を受け取り、ソース・ドメイン画像102を処理して、ソース・ドメイン画像102をターゲット・ドメイン画像122に変換する。
ターゲット・ドメイン画像122は、ソース・ドメイン画像102内に示されたシーンがターゲット・ドメインでどのように表現されるのかを表す画像である。言い換えると、ターゲット・ドメイン画像122は、ターゲット・ドメインへのソース・ドメイン画像102の変換である、すなわち、ターゲット・ドメイン画像122は、ソース・ドメイン画像102の元の内容を維持しながらターゲット・ドメインからサンプリングされたかのように見える。
一般に、ソース・ドメインは、ターゲット・ドメインとは異なる。具体的には、ソース・ドメインからの画像内の画素値の分布は、ターゲット・ドメインからの画像内の画素値の分布とは異なる。
いくつかのケースで、ソース・ドメインおよびターゲット・ドメインは、主に、高水準画像統計ではなく低水準画像統計の分布に関して異なる。分布における低水準の差の例は、雑音、解像度、照明、および色に起因して生じる差を含む。その一方で、高水準の差は、クラスの個数、物体のタイプ、および3D位置などの幾何学的変動に関する差を含む可能性がある。
一例では、ソース・ドメインは、実世界環境をシミュレートする仮想環境の画像とすることができ、ターゲット・ドメインは、実世界の画像とすることができる。たとえば、ソース・ドメイン画像は、ロボットもしくは他の機械エージェントによってまたは自律車両もしくは半自律車両によって相互作用される実世界環境をシミュレートする仮想環境の画像とすることができ、ターゲット・ドメイン画像は、機械エージェントまたは車両によって取り込まれた実世界環境の画像とすることができる。したがって、ソース・ドメイン画像は、具体的にはめったに発生しないか実世界環境内で生成するのが困難もしくは危険であるエッジ・ケースに関して、より包括的である可能性がある。エージェントもしくは車両の制御ポリシを開発すると同時に、またはエージェントもしくは車両によって実行されるアクションを選択するのに使用されるニューラル・ネットワークをトレーニングすると同時に、ソース・ドメイン画像をターゲット・ドメイン画像に変換することによって、ある種の状況が環境のシミュレートされたバージョンでのみ遭遇される場合であっても、実世界環境内のエージェントまたは車両の性能が改善され得る。
別の例では、ソース・ドメインとターゲット・ドメインとの両方が、実世界画像であるが、測光の差を有する場合があり、たとえば、一方のドメインが屋内画像であり、他方のドメインが同様の物体の屋外画像である場合がある。
別の例では、ソース・ドメインおよびターゲット・ドメインが、同様の物体の画像の異なるコレクションから選択された画像である場合がある。たとえば、ソース・ドメインが、キュレートされた画像コレクションからの画像であり、ターゲット・ドメインが、キュレートされていないデータ・セットからの画像、たとえばインターネット画像である場合がある。
いくつかの場合に、ソース・ドメインが、ラベル付けされた画像が簡単に入手可能なドメインであるが、ターゲット・ドメインのラベル付けされた画像データの入手が、計算的に高価であるか、他の形で困難または実行不可能である場合がある。
画像処理ニューラル・ネットワーク・システム100は、トレーニングを介して、ソース・ドメイン画像102およびオプションで雑音ベクトル104を受け取り、ターゲット・ドメイン画像122を生成するために、ソース・ドメイン画像102を、および雑音ベクトルを受け取るように構成される時には雑音ベクトル104を処理するように構成された、ドメイン変換ニューラル・ネットワーク110を含む。
一般に、雑音ベクトルを使用する実施態様では、雑音ベクトル104は、所定の個数の雑音値を含むベクトルであり、ある入力画像の雑音ベクトル内の雑音値は、別の入力画像の雑音ベクトル内の雑音値とは異なる可能性が高い。具体的には、画像処理ニューラル・ネットワーク・システム100は、たとえばそれぞれの一様分布から各値をサンプリングすることによって、雑音値のそれぞれを生成する。
ドメイン変換ニューラル・ネットワーク110は、下で図2および図3を参照してより詳細に説明される。
画像処理システム100は、ドメイン変換ニューラル・ネットワーク110のパラメータのトレーニングされた値を判定するためにドメイン変換ニューラル・ネットワーク110をトレーニングするトレーニング・サブシステム150をも含む。具体的には、トレーニング・サブシステム150は、鑑別器(discriminator)ニューラル・ネットワーク160およびタスク・ニューラル・ネットワーク170を使用してドメイン変換ニューラル・ネットワーク110をトレーニングする。
鑑別器ニューラル・ネットワーク160は、入力画像すなわち、ソース・ドメインからの画像、ターゲット・ドメインからの画像、またはドメイン変換ニューラル・ネットワーク110によって生成された画像を受け取り、ターゲット画像がターゲット・ドメインからサンプリングされた尤度を表すターゲット・ドメイン・スコアを生成するために入力画像を処理するように構成されたニューラル・ネットワークである。
タスク・ニューラル・ネットワーク170は、画像すなわち、ソース・ドメインからの画像ターゲット・ドメインからの画像、またはドメイン変換ニューラル・ネットワーク110によって生成された画像を受け取り、画像のタスク出力を生成するために受け取られた画像に対して画像処理タスクを実行するために入力画像を処理する、ニューラル・ネットワークである。
たとえば、タスク・ニューラル・ネットワーク170は、1つまたは複数の物体カテゴリからの物体の画像を含むものとしてターゲット・ドメインからの入力画像を分類するように、すなわち、入力画像が物体カテゴリに属する物体の画像を含む尤度を表す1つまたは複数の物体カテゴリのそれぞれのスコアを含む入力画像の分類出力を生成するように、構成され得る。
別の例として、タスク・ニューラル・ネットワーク170は、入力画像内の物体の姿勢を推定するように構成され得る。一般に、物体の姿勢は、入力画像内の物体の位置および方位の組合せである。たとえば、システムは、物体の所定の個数の本体関節(body joint)のそれぞれの画像内での推定された位置を含む姿勢ベクトルを生成することができる。
別の例として、タスク・ニューラル・ネットワーク170は、それぞれがカテゴリのセットのうちの異なるカテゴリに属する複数の領域に入力画像を分割するように構成され得る。たとえば、システムは、タスク出力として、入力画像の画素ごとにその画素が属するカテゴリを識別するデータ、たとえばベクトルまたは行列を生成することができる。
鑑別器ニューラル・ネットワーク160およびタスク・ニューラル・ネットワーク170を使用するドメイン変換ニューラル・ネットワーク110のトレーニングは、下で図4および図5を参照して説明される。
図2は、ドメイン変換ニューラル・ネットワーク110の例のアーキテクチャを示す。具体的には、図2の例では、ドメイン変換ニューラル・ネットワーク110は、ソース・ドメイン画像および雑音ベクトルを受け取るように構成され、結合するサブニューラル・ネットワーク200および畳み込みサブニューラル・ネットワーク250を含む。
結合するサブニューラル・ネットワーク200は、ソース・ドメイン画像102および雑音ベクトル104を受け取り、結合された入力210を生成するためにソース・ドメイン画像102および雑音ベクトル104を処理するように構成される。畳み込みサブニューラル・ネットワーク250は、ターゲット・ドメイン画像122を生成するために結合された入力210を処理するように構成される。
具体的には、ソース・ドメイン画像102は、それぞれが特定の解像度を有する複数のチャネルを有する。たとえば、ソース・ドメイン画像102は、赤カラー・チャネル、緑カラー・チャネル、および青カラー・チャネルを有するRGB画像とすることができ、各チャネルは、同一の解像度を有する。
結合するサブニューラル・ネットワーク200は、たとえば雑音ベクトルの次元数を変換する1つまたは複数の全結合層を介して雑音ベクトル104を処理することによって、特定の解像度を有する追加チャネルを生成するために雑音ベクトル104を処理するように構成される。
次に、結合するサブニューラル・ネットワーク200は、結合された入力210を生成するために、すなわち、depth concatenation層を介してソース・ドメイン画像102および追加チャネルを処理することによって、ソース・ドメイン画像102および追加チャネルを連結するように構成される。
一般に、畳み込みサブニューラル・ネットワーク250は、解像度を保存する畳み込みを結合された入力210に適用することによって、すなわち、複数の解像度を保存する畳み込み層を含むニューラル・ネットワーク層を介して結合された入力210を処理することによって、ターゲット・ドメイン画像122を生成するために結合された入力210を処理するように構成される。解像度を保存する畳み込み層は、それぞれが同一の特定の解像度を有する1つまたは複数のチャネルを有する入力を受け取り、やはりその特定の解像度を有する出力を生成する、ニューラル・ネットワーク層である。すなわち、解像度を保存する畳み込み層は、入力とは異なるチャネル数を有する出力を生成する場合があるが、各出力チャネルは、入力チャネルと同一の解像度を有する。
具体的には、畳み込みサブニューラル・ネットワーク250は、それぞれが複数の解像度を保存する畳み込み層と1つまたは複数の他の種類のニューラル・ネットワーク層、たとえばバッチ正規化層とを含む複数の残差ブロック252A〜252Nを含む。
いくつかの例では、各残差ブロック252A〜252Nは、第1の解像度を保存する畳み込み層と、それに続くバッチ正規化層と、それに続く、バッチ正規化層の出力に正規化線形関数(rectified linear unit)アクティブ化を適用するアクティブ化層と、それに続くもう1つの解像度を保存する畳み込み層と、それに続くもう1つのバッチ正規化層と、最後に、それに続く、残差ブロックの出力を生成するために最後のバッチ正規化層の出力を残差ブロックへの入力と結合する、たとえば和または平均をとる結合する層と、というアーキテクチャを有する。
いくつかのケースで、畳み込みサブニューラル・ネットワーク250は、畳み込みサブニューラル・ネットワーク250内の最初の残差ブロックの前の1つまたは複数の最初の解像度を保存する畳み込み層、畳み込みサブニューラル・ネットワーク250内の最後の残差ブロックの後の1つまたは複数の最後の解像度を保存する畳み込み層、またはその両方をも含む。たとえば、最後の解像度を保存する畳み込み層は、それぞれ、3つのチャネルおよびストライド1を有し、逆正接、シグモイド、または入力を適当な出力範囲に写像する別のアクティブ化関数など、要素単位のアクティブ化関数を適用する層とすることができ、最後の解像度を保存する畳み込み層は、ターゲット・ドメイン画像122を生成する。
雑音ベクトルが使用されない実施態様では、入力ソース・ドメイン画像は、畳み込みサブニューラル・ネットワーク250に直接に渡され得る、すなわち、ニューラル・ネットワーク110は、結合するサブニューラル・ネットワーク200を含まない。
図3は、ソース・ドメイン画像からターゲット・ドメイン画像を生成する例のプロセス300の流れ図である。便宜のために、プロセス300は、1つまたは複数の位置に配置された1つまたは複数のコンピュータのシステムによって実行されるものとして説明される。たとえば、適当にプログラムされた画像処理ニューラル・ネットワーク・システム、たとえば図1の画像処理ニューラル・ネットワーク・システム100が、プロセス300を実行することができる。
システムは、ソース・ドメインからの画像を受け取る(ステップ302)。
オプションで、システムは、雑音ベクトルを生成する(ステップ304)。上で説明したように、システムは、1つまたは複数の一様分布から値をサンプリングすることによって雑音ベクトルの要素を生成することができる。
システムは、ドメイン変換ニューラル・ネットワークを使用して、ソース領域画像および使用される時に雑音ベクトルを処理する(ステップ304)。上で説明したように、ドメイン変換ニューラル・ネットワークは、トレーニングを介して、ソース・ドメイン画像および使用される時に雑音ベクトルを受け取り、ターゲット・ドメイン画像を生成するためすなわち、ソース・ドメイン画像をターゲット・ドメインからの画像に変換するために、ソース・ドメイン画像を処理するように構成されている。
生成された後に、システムは、様々な目的のいずれにもターゲット・ドメイン画像を使用することができる。
たとえば、ソース・ドメイン画像がラベル付けされている場合に、ソース・ドメイン画像のラベルを用いてターゲット・ドメイン画像にラベルを付け、ターゲット・ドメイン画像を分類するためのクラシファイヤ・ニューラル・ネットワークまたは異なる画像処理タスクを実行するための異なる種類の画像処理ニューラル・ネットワークをトレーニングするためのトレーニング・データとしての使用のためにラベル付けされたターゲット・ドメイン画像を記憶することができる。
別の例として、システムは、ロボットまたは別のエージェントの制御ポリシを学習するための強化学習技法の一部としてターゲット・ドメイン画像を使用することができる。すなわち、システムは、シミュレートされた環境とのエージェントのシミュレートされたバージョンの相互作用の結果として生成された画像を、実世界環境の画像に変換するのにドメイン変換ニューラル・ネットワークを使用し、制御ポリシの学習においてシミュレートされた環境の画像の代わりに実世界環境の画像を使用することができる。
図4は、ドメイン変換ニューラル・ネットワークをトレーニングする例のプロセス400の流れ図である。便宜のために、プロセス400は、1つまたは複数の位置に配置された1つまたは複数のコンピュータのシステムによって実行されるものとして説明される。たとえば、適当にプログラムされた画像処理ニューラル・ネットワーク・システム、たとえば図1の画像処理ニューラル・ネットワーク・システム100が、プロセス400を実行することができる。
システムは、ラベル付けされたトレーニング・ソース・ドメイン画像を受け取る(ステップ402)。ラベル付けされた画像は、それに関して既知のタスク出力すなわち、画像に関してタスク・ニューラル・ネットワークによって生成されるべきタスク出力が、トレーニング中にシステムから使用可能である画像である。
システムは、ラベル付けされていないトレーニング・ターゲット・ドメイン画像を受け取る(ステップ404)。ラベル付けされていない画像は、それに関して既知のタスク出力がトレーニング中にシステムから使用可能ではない画像である。
システムは、ラベル付けされたトレーニング・ソース・ドメイン画像およびラベル付けされていないターゲット・ドメイン画像に対してドメイン変換ニューラル・ネットワーク、鑑別器ニューラル・ネットワーク、およびタスク・ニューラル・ネットワークをトレーニングする(ステップ406)。
トレーニング中に、システムは、タスク・ニューラル・ネットワークによって正しく特性を表されるすなわち、それらの対応するソース・ドメイン画像と同一のタスク出力を割り当てられる変換された画像であって、変換された画像がターゲット・ドメインからのものである可能性が高いことを示すターゲット・ドメイン・スコアを鑑別器ニューラル・ネットワークによって割り当てられる変換された画像を生成するために、ドメイン変換ニューラル・ネットワークをトレーニングする。しかし、システムは、変換された画像を実際のターゲット・ドメイン画像から区別すること、すなわち、実際のターゲット・ドメイン画像に関して高いターゲット・ドメイン・スコアを生成すると同時に、変換された画像に関してより低いターゲット・ドメイン・スコアを生成することを試みるために鑑別器ニューラル・ネットワークをもトレーニングする。
具体的には、システムは、トレーニング画像を使用する2ステップ最適化プロセスを繰り返して実行することによって、ニューラル・ネットワークをトレーニングする。最適化プロセスの一方のステップ中に、システムは、ドメイン変換ニューラル・ネットワーク・パラメータを固定された状態に保ちながら、鑑別器ニューラル・ネットワークおよびタスク・ニューラル・ネットワークのパラメータを更新する。最適化プロセスの他方のステップ中に、システムは、鑑別器ニューラル・ネットワークおよびタスク・ニューラル・ネットワークのパラメータを固定された状態に保ちながら、ドメイン変換ニューラル・ネットワーク・パラメータを更新する。トレーニング中に、システムは、たとえば、ラベル付けされたトレーニング画像およびラベル付けされていないトレーニング画像の各k個のバッチの後に(kは、1以上の定数値である)、最適化プロセスのこの2つのステップの間で交番する。
2ステップ最適化プロセスは、下で図5を参照してより詳細に説明される。
図5は、ドメイン変換ニューラル・ネットワークのトレーニング中に最適化ステップを実行する例のプロセス500の流れ図である。便宜のために、プロセス500は、1つまたは複数の位置に配置された1つまたは複数のコンピュータのシステムによって実行されるものとして説明される。たとえば、適当にプログラムされた画像処理ニューラル・ネットワーク・システム、たとえば図1の画像処理ニューラル・ネットワーク・システム100が、プロセス500を実行することができる。
システムは、トレーニング画像から、ラベル付けされたソース・ドメイン画像およびラベル付けされていないトレーニング・ターゲット・ドメイン画像をサンプリングする(ステップ502)。
システムは、ターゲット・ドメイン画像のターゲット・ドメイン・スコアを生成するために、鑑別器ニューラル・ネットワークのパラメータの現在値に従って、鑑別器ニューラル・ネットワークを使用してターゲット・ドメイン画像を処理する(504)。
システムは、ソース・ドメイン画像のタスク出力を生成するために、タスク・ニューラル・ネットワークのパラメータの現在値に従って、タスク・ニューラル・ネットワークを使用してソース・ドメイン画像を処理する(506)。
オプションで、システムは、雑音ベクトルを生成し、変換された画像を生成するためにドメイン変換ニューラル・ネットワークのパラメータの現在値に従ってドメイン変換ニューラル・ネットワークを使用してソース・ドメイン画像および使用される場合に生成された雑音ベクトルを処理する(508)。
システムは、変換された画像のターゲット・ドメイン・スコアを生成するために鑑別器ニューラル・ネットワークのパラメータの現在値に従って鑑別器ニューラル・ネットワークを使用して変換された画像を処理する(510)。
システムは、変換された画像のタスク出力を生成するためにタスク・ニューラル・ネットワークのパラメータの現在値に従ってタスク・ニューラル・ネットワークを使用して変換された画像を処理する(512)。
現在の最適化ステップが、タスク・ニューラル・ネットワークおよび鑑別器ニューラル・ネットワークのパラメータを更新することである場合に、システムは、ドメイン変換ニューラル・ネットワークのパラメータの現在値を固定された状態に保ちながら、タスク・ニューラル・ネットワークおよび鑑別器ニューラル・ネットワークのパラメータの更新を判定するためにニューラル・ネットワーク・トレーニング技法の反復を実行する(514)。
具体的には、システムは、鑑別器ニューラル・ネットワークのパラメータに関する損失関数のドメイン損失項を最大にし、タスク・ニューラル・ネットワークのパラメータに関する損失関数のタスク固有損失項を最小にするために、ニューラル・ネットワーク・トレーニング技法の反復を実行する。
いくつかの実施態様では、損失関数は、
αL(D,G)+βL(G,T)
を満足し、ここで、αおよびβは、損失の相互作用を制御する固定された重みであり、L(D,G)は、鑑別器ニューラル・ネットワークがターゲット・ドメイン画像および変換された画像のドメインをどれほど正確に識別できるのかを測定するドメイン損失であり、L(G,T)は、タスク・ニューラル・ネットワークが実行するように構成される分類タスクに対するタスク・ニューラル・ネットワークの性能を測定するタスク固有損失である。
具体的には、ドメイン損失は、(i)ターゲット・ドメインからであることの低い尤度を有するものとしてターゲット・ドメイン画像を不正に識別することおよびターゲット・ドメインからであることの高い尤度を有するものとして変換された画像を識別することに関して鑑別器ニューラル・ネットワークにペナルティを与えると同時に、(ii)鑑別器ニューラル・ネットワークによってターゲット・ドメインからであることの低い尤度を有するものとして識別される変換された画像を生成することに関してドメイン変換ニューラル・ネットワークにペナルティを与える。いくつかの実施態様では、ドメイン損失L(D,G)は、
Figure 0006957624

を満足し、ここで、Eは、変数yに関する期待値であり、D(x;θ)は、鑑別器ニューラル・ネットワーク・パラメータの現在値θに従ってターゲット・ドメイン画像xに関して生成されるターゲット・ドメイン・スコアであり、G(x,z;θ)は、鑑別器ニューラル・ネットワーク・パラメータの現在値θに従ってソース・ドメイン画像xおよび雑音ベクトルzから生成される変換された画像であり、D(G(x,z;θ);θ)は、変換された画像に関して生成されるターゲット・ドメイン・スコアである。
タスク固有損失は、(i)対応するソース・ドメイン画像に割り当てられたラベルとは異なって変換された画像の特性を表すことに関してタスク・ニューラル・ネットワークにペナルティを与えると同時に、(ii)対応するソース・ドメイン画像に関する既知のタスク出力からタスク・ニューラル・ネットワークによって異なって特性を表される変換された画像を生成することに関してドメイン変換ニューラル・ネットワークにペナルティを与える。いくつかの実施態様では、タスク固有損失は、ソース・ドメイン画像の特性を不正に表すことに関してタスク・ニューラル・ネットワークに直接にペナルティを与えることもする。これらの実施態様の一部では、タスク固有損失L(G,T)は、
Figure 0006957624


を満足し、ここで、
Figure 0006957624

は、ソース・ドメイン画像xに関するタスク出力の転置であり、T(x;θ)は、タスク・ニューラル・ネットワーク・パラメータの現在値θに従ってソース・ドメイン画像xに関して生成されるタスク出力であり、T(G(x,z;θ);θ)は、ソース・ドメイン画像xから生成される変換された画像に関して生成されるタスク出力である。
いくつかの実施態様では、トレーニング・プロセス中に、システムは、損失関数に1つまたは複数の追加の項を追加することによって、変換された画像がそれらに対応するソース・ドメイン画像とどのように異なるべきかに関するある種の制約を課すことができる。
たとえば、いくつかのケースで、対応するソース・ドメイン画像からの前景画素における大きい差を有する変換された画像の生成に関してドメイン変換ニューラル・ネットワークにペナルティを与える、対応する固定された重みを有する追加の類似性損失項が、損失関数に追加され得る。
別の例として、対応するソース・ドメイン画像からの異なる高水準画像特徴表現を有する変換された画像の生成に関してドメイン変換ニューラル・ネットワークにペナルティを与える、対応する固定された重みを有する追加の知覚損失項が、損失関数に追加され得る。
ドメイン変換ニューラル・ネットワークのトレーニングを規則化する、対応する固定された重みを有する追加の規則化損失項、たとえばL2規則化損失項が、損失関数に追加され得る。
ドメイン変換ニューラル・ネットワークのパラメータの現在値を固定された状態に保ちながら、タスク・ニューラル・ネットワークおよび鑑別器ニューラル・ネットワークのパラメータの更新を判定するためにニューラル・ネットワーク・トレーニングの反復を実行するために、システムは、ドメイン損失を最大にするために従来の最急上昇法(gradient ascent)ベースの技法の反復を実行することによって、鑑別器ニューラル・ネットワークのパラメータに対する更新を判定し、タスク固有損失項を最小にするために従来の最急降化法(gradient descent)ベースの技法の反復を実行することによって、タスク・ニューラル・ネットワークのパラメータに対する更新を判定する。
現在の最適化ステップが、ドメイン変換ニューラル・ネットワークのパラメータを更新することである場合には、システムは、タスク・ニューラル・ネットワークおよび鑑別器ニューラル・ネットワークのパラメータの現在値を固定された状態に保ちながらドメイン変換ニューラル・ネットワークのパラメータの更新を判定するためにニューラル・ネットワーク・トレーニング技法の反復を実行する(516)。具体的には、システムは、ドメイン変換ニューラル・ネットワークのパラメータに関する損失関数すなわち、ドメイン損失、タスク固有損失、および含まれる場合にすべての追加項の組合せを最小にするために従来の最急降化法ベースの技法の反復を実行する。
プロセス500が、トレーニング例のバッチ全体に関して実行された後に、システムは、対応するニューラル・ネットワークの現在値を更新するために、判定された更新を対応するニューラル・ネットワークの現在値に適用する。
本明細書で説明される、本主題の実施形態および機能的動作は、本明細書で開示される構造およびその構造的同等物を含む、デジタル電子回路網内、有形に実施されたコンピュータ・ソフトウェアまたはファームウェア内、コンピュータ・ハードウェア内、またはそれらのうちの1つもしくは複数の組合せ内で実施され得る。本明細書で説明される主題の実施形態は、1つまたは複数のコンピュータ・プログラムすなわち、データ処理装置による実行のためまたはその動作を制御するために、有形の非一時的プログラム担体上で符号化されるコンピュータ・プログラム命令の1つまたは複数のモジュールとして実施され得る。その代わりにまたはそれに加えて、プログラム命令は、人工的に生成される伝搬される信号、たとえば、データ処理装置による実行のための適切な受信器装置への伝送のために情報を符号化するために生成される、機械生成される電気信号、光信号、または電磁信号上で符号化され得る。コンピュータ記憶媒体は、機械可読ストレージ・デバイス、機械可読ストレージ基板、ランダム・アクセス・メモリ・デバイス、シリアル・アクセス・メモリ・デバイス、またはこれらのうちの1つもしくは複数の組合せとすることができる。
用語「データ処理装置」は、たとえばプログラマブル・プロセッサ、コンピュータ、または複数のプロセッサもしくはコンピュータを含む、データを処理するすべての種類の装置、デバイス、および機械を包含する。装置は、特殊目的論理回路網、たとえば、FPGA(フィールド・プログラマブル・ゲート・アレイ)またはASIC(特定用途向け集積回路)を含むことができる。装置は、ハードウェアに加えて、問題のコンピュータ・プログラムの実行環境を作成するコード、たとえば、プロセッサ・ファームウェア、プロトコル・スタック、データベース管理システム、オペレーティング・システム、またはこれらのうちの1つもしくは複数の組合せを構成するコードを含むこともできる。
コンピュータ・プログラム(プログラム、ソフトウェア、ソフトウェア・アプリケーション、モジュール、ソフトウェア・モジュール、スクリプト、またはコードと呼ばれまたは説明される場合もある)は、コンパイルされる言語もしくは解釈される言語、または宣言型言語もしくは手続き型言語を含む任意の形態のプログラミング言語で記述され得、独立型プログラムとしてまたは、モジュール、コンポーネント、サブルーチン、もしくはコンピューティング環境内での使用に適する任意の他のユニットとしてを含む、任意の形態で展開され得る。コンピュータ・プログラムは、ファイル・システム内のファイルに対応する場合があるが、そうである必要はない。プログラムは、他のプログラムまたはデータ、たとえばマークアップ言語文書内に記憶された1つまたは複数のスクリプトを保持するファイルの部分内、問題のプログラムに専用の単一のファイル内、または複数の調整されたファイル内、たとえば1つまたは複数のモジュール、サブ・プログラム、もしくはコードの部分を記憶するファイル内に記憶され得る。コンピュータ・プログラムは、1つのコンピュータまたは、1つの場所に配置されるか複数の場所にまたがって分散され、通信ネットワークによって相互接続された複数のコンピュータ上での実行のために展開され得る。
本明細書で説明されるプロセスおよび論理フローは、入力データに作用し、出力を生成することによって機能を実行するために1つまたは複数のコンピュータ・プログラムを実行する1つまたは複数のプログラマブル・コンピュータによって実行され得る。プロセスおよび論理フローは、特殊目的論理回路網、たとえばFPGA(フィールド・プログラマブル・ゲート・アレイ)またはASIC(特定用途向け集積回路)によっても実行され得、装置は、それらとしても実施され得る。
コンピュータ・プログラムの実行に適切なコンピュータは、含む たとえば、汎用マイクロプロセッサもしくは特殊目的マイクロプロセッサまたはその両方、あるいは任意の他の種類の中央処理装置に基づくものとすることができる。一般に、中央処理装置は、読取専用メモリもしくはランダム・アクセス・メモリまたはその両方から命令およびデータを受け取る。コンピュータの本質的要素は、命令を実行する中央処理装置と、命令およびデータを記憶する1つまたは複数のメモリ・デバイスとである。一般に、コンピュータは、データを記憶する1つまたは複数のマス・ストレージ・デバイス、たとえば磁気、光磁気ディスク、または光ディスクをも含み、あるいは、これらからデータを受け取り、もしくはこれらにデータを転送し、またはその両方を行うように動作可能に結合される。しかし、コンピュータが、そのようなデバイスを有する必要はない。さらに、コンピュータは、別のデバイス、たとえば、少数の例を挙げると、携帯電話機、携帯情報端末(PDA)、モバイル・オーディオ・プレイヤ、モバイル・ビデオ・プレイヤ、ゲーム機、全地球測位システム(GPS)受信器、またはポータブル・ストレージ・デバイス、たとえばuniversal serial bus(USB)フラッシュ・ドライブに組み込まれ得る。コンピュータ・プログラム命令およびデータを記憶するのに適切なコンピュータ可読媒体は、たとえば半導体メモリ・デバイス、たとえばEPROM、EEPROM、およびフラッシュ・メモリ・デバイス、磁気ディスク、たとえば内蔵ハード・ディスクまたはリムーバブル・ディスク、光磁気ディスク、ならびにCD ROMディスクおよびDVD−ROMディスクを含む、すべての形態の不揮発性のメモリ、媒体、およびメモリ・デバイスを含む。プロセッサおよびメモリは、特殊目的論理回路網によって増補され、またはこれに組み込まれ得る。
ユーザとの相互作用を提供するために、本明細書で説明される主題の実施形態は、ユーザに情報を表示するディスプレイ・デバイス、たとえばCRT(陰極線管)モニタまたはLCD(液晶ディスプレイ)モニタと、それによってユーザがコンピュータに入力を供給できるキーボードおよびポインティング・デバイス、たとえばマウスまたはトラックボールとを有するコンピュータ上で実施され得る。他の種類のデバイスも、ユーザとの相互作用を提供するのに使用され得、たとえば、ユーザに供給されるフィードバックは、任意の形態の感覚フィードバック、たとえば視覚フィードバック、聴覚フィードバック、または触覚フィードバックとすることができ、ユーザからの入力は、音響入力、会話入力、または触覚入力を含む任意の形態で受け取られ得る。さらに、コンピュータは、ユーザによって使用されるデバイスに文書を送り、これから文書を受信することによって、たとえば、ウェブ・ブラウザから受信された要求に応答してユーザのクライアント・デバイス上のウェブ・ブラウザにウェブ・ページを送ることによって、ユーザと相互作用することができる。
本明細書で説明される主題の実施形態は、たとえばデータ・サーバとしてのバック・エンド・コンポーネントを含むか、ミドルウェア・コンポーネント、たとえばアプリケーション・サーバを含むか、フロント・エンド・コンポーネント、たとえばそれを介してユーザが本明細書で説明される主題の実施態様と相互作用することのできるグラフィカル・ユーザ・インターフェースまたはウェブ・ブラウザを有するクライアント・コンピュータを含むか、1つまたは複数のそのようなバック・エンド・コンポーネント、ミドルウェア・コンポーネント、またはフロント・エンド・コンポーネントの任意の組合せを含む、コンピューティング・システム内で実施され得る。システムのコンポーネントは、デジタル・データ通信の任意の形態または媒体、たとえば通信ネットワークによって相互接続され得る。通信ネットワークの例は、ローカル・エリア・ネットワーク(「LAN」)および広域ネットワーク(「WAN」)、たとえばインターネットを含む。
コンピューティング・システムは、クライアントおよびサーバを含むことができる。クライアントおよびサーバは、一般に、お互いからリモートであり、通常は通信ネットワークを介して相互作用する。クライアントおよびサーバの関係は、それぞれのコンピュータ上で走行し、お互いとのクライアント−サーバ関係を有するコンピュータ・プログラムのおかげで生じる。
本明細書は、多数の特定の実施態様詳細を含むが、これらは、いずれの発明または請求され得るものの範囲の限定と解釈されてはならず、むしろ、特定の発明の特定の実施形態に固有である可能性がある特徴の説明と解釈されなければならない。本明細書で別々の実施形態の文脈で説明されるある種の特徴が、単一の実施形態内で組み合わせて実施されることも可能である。逆に、単一の実施形態の文脈で説明される様々な特徴が、複数の実施形態で別々にまたは任意の適切な副組合せで実施されることも可能である。さらに、特徴が、上ではある種の組合せで働くものとして説明され、当初にそのように請求される場合があるが、請求される組合せからの1つまたは複数の特徴が、いくつかのケースで、組合せから削り取られることが可能であり、請求される組合せは、副組合せまたは副組合せの変形形態を対象とすることができる。
同様に、動作が、図面で特定の順序で示されるが、これが、所望の結果を達成するために、そのような動作が図示の特定の順序または順次順序で実行されることまたはすべての図示の動作が実行されることを要求するものと理解してはならない。ある種の状況では、マルチタスキングおよび並列処理が有利である場合がある。さらに、上で説明された実施形態での様々なシステム・モジュールおよび構成要素の分離を、すべての実施形態でそのような分離を要求するものと理解してはならず、説明されたプログラム構成要素およびシステムが、一般に、単一のソフトウェア製品内で一緒に統合されまたは複数のソフトウェア製品にパッケージ化され得ることを理解されたい。
本主題の特定の実施形態を説明した。他の実施形態は、以下の特許請求の範囲の範囲内にある。たとえば、特許請求の範囲に列挙されたアクションは、異なる順序で実行され、それでも所望の結果を達成することができる。一例として、添付図面に示されたプロセスは、所望の結果を達成するために、必ずしも図示の特定の順序または順次順序を要求しない。ある種の実施態様では、マルチタスキングおよび並列処理が有利である場合がある。

Claims (18)

  1. 1つまたは複数のコンピュータによって実施されるドメイン変換ニューラル・ネットワークを備えるシステムであって、前記ドメイン変換ニューラル・ネットワークは、
    ソース・ドメインから入力画像を受け取り、
    前記ソース・ドメインから前記ソース・ドメインとは異なるターゲット・ドメインへの前記入力画像の変換である変換画像を生成するために、前記ソース・ドメインからの前記入力画像を含むネットワーク入力を処理し、
    前記ドメイン変換ニューラル・ネットワークは、ターゲット・ドメイン画像と当該ドメイン変換ニューラル・ネットワークにより生成された変換画像とを区別するように構成された鑑別器ニューラル・ネットワークと同時にトレーニングされ、
    前記トレーニングは、第1の最適化ステップと第2の最適化ステップとの間で交番することによって2ステップ最適化プロセスを繰り返して実行することを含み、
    前記第1の最適化ステップ中に、前記ドメイン変換ニューラル・ネットワークのパラメータの値を固定された状態に保ちながら前記鑑別器ニューラル・ネットワークのパラメータの現在値およびタスク・ニューラル・ネットワークのパラメータの現在値を更新し、
    前記タスク・ニューラル・ネットワークは、前記入力画像を受け取り、前記入力画像を特徴づけるタスク出力を生成するために前記入力画像を処理するように構成され、
    前記第2の最適化ステップ中に、前記鑑別器ニューラル・ネットワークのパラメータの値およびタスク・ニューラル・ネットワークのパラメータの値を固定された状態に保ちながら前記ドメイン変換ニューラル・ネットワークのパラメータの現在値を更新する、
    システム。
  2. 前記ネットワーク入力は、さらに雑音ベクトルを含み、
    前記雑音ベクトルは、所定の個数の雑音値を含むベクトルである、請求項1に記載のシステム。
  3. 各雑音値は、それぞれの一様分布からサンプリングされる、請求項2に記載のシステム。
  4. 前記入力画像は、それぞれが特定の解像度を有する複数のチャネルを含み、
    前記ドメイン変換ニューラル・ネットワークは、
    前記雑音ベクトルを処理して前記特定の解像度を有する追加チャネルを生成し、
    前記入力画像と前記追加チャネルを結合して結合入力を生成する
    ように構成された結合サブニューラル・ネットワークと、
    前記変換された画像を生成するために前記結合された入力を処理する
    ように構成された畳み込みサブニューラル・ネットワークと
    をさらに含む、請求項2に記載のシステム。
  5. 前記変換された画像を生成するために前記結合された入力を処理することは、前記結合された入力または前記ネットワーク入力に複数の解像度を保存する畳み込みを適用することを含む、請求項4に記載のシステム。
  6. 前記畳み込みサブニューラル・ネットワークは、それぞれがそれぞれの複数の解像度を保存する畳み込み層を含む複数の残差ブロックを含む、請求項5に記載のシステム。
  7. ソース・ドメインから入力画像を受け取り、前記ソース・ドメインから前記ソース・ドメインとは異なるターゲット・ドメインへの前記入力画像の変換である前記入力画像の変換である変換画像を生成するために、前記ソース・ドメインからの前記入力画像を含むネットワーク入力を処理するドメイン変換ニューラル・ネットワークをトレーニングする方法であって、前記方法は、
    ラベル付けされたトレーニング・ソース・ドメイン画像を受け取ることと、
    ラベル付けされていないトレーニング・ターゲット・ドメイン画像を受け取ることと、
    ターゲット・ドメイン画像と前記ドメイン変換ニューラル・ネットワークによって生成された変換画像との間で区別するために鑑別器ニューラル・ネットワークをトレーニングしている間に、変換画像を生成するために、前記ラベル付けされたトレーニング・ソース・ドメイン画像および前記ラベル付けされていないトレーニング・ターゲット・ドメイン画像に対して、前記ドメイン変換ニューラル・ネットワークをトレーニングすることを含み、
    前記トレーニングは、第1の最適化ステップと第2の最適化ステップとの間で交番することによって2ステップ最適化プロセスを繰り返して実行することを含み、
    前記第1の最適化ステップ中に、前記ドメイン変換ニューラル・ネットワークのパラメータの値を固定された状態に保ちながら前記鑑別器ニューラル・ネットワークのパラメータの現在値およびタスク・ニューラル・ネットワークのパラメータの現在値を更新し、
    前記タスク・ニューラル・ネットワークは、前記入力画像を受け取り、前記入力画像を特徴づけるタスク出力を生成するために前記入力画像を処理するように構成され、
    前記第2の最適化ステップ中に、前記鑑別器ニューラル・ネットワークのパラメータの値および前記タスク・ニューラル・ネットワークのパラメータの値を固定された状態に保ちながら前記ドメイン変換ニューラル・ネットワークのパラメータの現在値を更新する、
    方法。
  8. 前記ドメイン変換ニューラル・ネットワークのパラメータの値を固定された状態に保ちながら前記鑑別器ニューラル・ネットワークのパラメータの現在値および前記タスク・ニューラル・ネットワークのパラメータの現在値を更新することは、
    前記鑑別器ニューラル・ネットワークの前記パラメータに関する損失関数のドメイン損失項を最大にするためにニューラル・ネットワーク・トレーニング技法を実行することによって前記鑑別器ニューラル・ネットワークの前記パラメータの前記現在値の更新を判定し、前記ドメイン損失項は、(i)前記ターゲット・ドメインからではないものとしてターゲット・ドメイン画像を不正に識別することおよび前記ターゲット・ドメインからであるものとして変換画像を識別することに関して前記鑑別器ニューラル・ネットワークにペナルティを与えると同時に、(ii)前記鑑別器ニューラル・ネットワークによって前記ターゲット・ドメインからではないものとして識別される変換画像を生成することに関して前記ドメイン変換ニューラル・ネットワークにペナルティを与え、
    前記タスク・ニューラル・ネットワークの前記パラメータに関する前記損失関数のタスク固有損失項を最小にするために前記ニューラル・ネットワーク・トレーニング技法を実行することによって前記タスク・ニューラル・ネットワークの前記パラメータの前記現在値の更新を判定することを含み、
    前記タスク固有損失項は、(i)対応するソース・ドメイン画像に関する既知のタスク出力とは異なって変換画像の特性を表すことに関して前記タスク・ニューラル・ネットワークにペナルティを与えると同時に、(ii)前記対応するソース・ドメイン画像に関する前記既知のタスク出力から前記タスク・ニューラル・ネットワークによって異なって特性を表される変換画像を生成することに関して前記ドメイン変換ニューラル・ネットワークにペナルティを与える、
    請求項7に記載の方法。
  9. 前記鑑別器ニューラル・ネットワークの前記パラメータの値および前記タスク・ニューラル・ネットワークの前記パラメータの値を固定された状態に保ちながら前記ドメイン変換ニューラル・ネットワークの前記パラメータの現在値を更新することは、
    前記ドメイン変換ニューラル・ネットワークの前記パラメータに関する前記損失関数を最小にするために前記ニューラル・ネットワーク・トレーニング技法を実行することによって前記ドメイン変換ニューラル・ネットワークの前記パラメータの前記現在値の更新を定めること
    を含む、請求項8に記載の方法。
  10. 1つまたは複数のコンピュータによって実施されるときに、前記1つまたは複数のコンピュータに、請求項1〜6のいずれか1項に記載の前記ドメイン変換ニューラル・ネットワークを実施させる命令を記憶する1つまたは複数のコンピュータ記憶媒体。
  11. 1つまたは複数のコンピュータによって実施されるドメイン変換ニューラル・ネットワークの動作方法であって、
    ソース・ドメインから入力画像を受け取るステップと、
    前記ソース・ドメインから前記ソース・ドメインとは異なるターゲット・ドメインへの前記入力画像の変換である変換画像を生成するために、前記ソース・ドメインからの前記入力画像を含むネットワーク入力を処理するステップと
    を備え、
    前記ドメイン変換ニューラル・ネットワークは、ターゲット・ドメイン画像と当該ドメイン変換ニューラル・ネットワークにより生成された変換画像とを区別するように構成された鑑別器ニューラル・ネットワークと同時にトレーニングされ、
    前記トレーニングは、第1の最適化ステップと第2の最適化ステップとの間で交番することによって2ステップ最適化プロセスを繰り返して実行することを含み、
    前記第1の最適化ステップ中に、前記ドメイン変換ニューラル・ネットワークのパラメータの値を固定された状態に保ちながら前記鑑別器ニューラル・ネットワークのパラメータの現在値およびタスク・ニューラル・ネットワークのパラメータの現在値を更新し、
    前記タスク・ニューラル・ネットワークは、前記入力画像を受け取り、前記入力画像を特徴づけるタスク出力を生成するために前記入力画像を処理するように構成され、
    前記第2の最適化ステップ中に、前記鑑別器ニューラル・ネットワークのパラメータの値およびタスク・ニューラル・ネットワークのパラメータの値を固定された状態に保ちながら前記ドメイン変換ニューラル・ネットワークのパラメータの現在値を更新する、
    方法。
  12. 前記ネットワーク入力は、さらに雑音ベクトルを含み、
    前記雑音ベクトルは、所定の個数の雑音値を含むベクトルである、請求項11に記載の方法。
  13. 各雑音値は、それぞれの一様分布からサンプリングされる、請求項12に記載の方法。
  14. 前記入力画像は、それぞれが特定の解像度を有する複数のチャネルを含み、
    前記ドメイン変換ニューラル・ネットワークは、
    前記雑音ベクトルを処理して前記特定の解像度を有する追加チャネルを生成し、
    前記入力画像と前記追加チャネルを結合して結合入力を生成する
    ように構成された結合サブニューラル・ネットワークと、
    前記変換された画像を生成するために前記結合された入力を処理する
    ように構成された畳み込みサブニューラル・ネットワークと
    をさらに含む、請求項12に記載の方法。
  15. 前記変換された画像を生成するために前記結合された入力を処理することは、前記結合された入力または前記ネットワーク入力に複数の解像度を保存する畳み込みを適用することを含む、請求項14に記載の方法。
  16. 前記畳み込みサブニューラル・ネットワークは、それぞれがそれぞれの複数の解像度を保存する畳み込み層を含む複数の残差ブロックを含む、請求項15に記載の方法。
  17. 1つまたは複数のコンピュータによって実施されるときに、前記1つまたは複数のコンピュータに、請求項7〜9のいずれか1項に記載の方法の動作を実行させる命令を記憶する1つまたは複数のコンピュータ記憶媒体。
  18. 1つまたは複数のコンピュータと、前記1つまたは複数のコンピュータによって実施されるときに、前記1つまたは複数のコンピュータに、請求項7〜9のいずれか1項に記載の方法の動作を実行させる命令を記憶する1つまたは複数のストレージ・デバイスとを含むシステム。
JP2019531682A 2016-12-15 2016-12-15 ターゲット・ドメイン画像へのソース・ドメイン画像の変換 Active JP6957624B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/GR2016/000067 WO2018109505A1 (en) 2016-12-15 2016-12-15 Transforming source domain images into target domain images

Publications (2)

Publication Number Publication Date
JP2020502665A JP2020502665A (ja) 2020-01-23
JP6957624B2 true JP6957624B2 (ja) 2021-11-02

Family

ID=57796749

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019531682A Active JP6957624B2 (ja) 2016-12-15 2016-12-15 ターゲット・ドメイン画像へのソース・ドメイン画像の変換

Country Status (5)

Country Link
US (1) US10991074B2 (ja)
EP (1) EP3555812B1 (ja)
JP (1) JP6957624B2 (ja)
CN (1) CN110226172B (ja)
WO (1) WO2018109505A1 (ja)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10268275B2 (en) 2016-08-03 2019-04-23 Ultrahaptics Ip Ltd Three-dimensional perceptions in haptic systems
US10529088B2 (en) 2016-12-02 2020-01-07 Gabriel Fine Automatically determining orientation and position of medically invasive devices via image processing
US11531395B2 (en) 2017-11-26 2022-12-20 Ultrahaptics Ip Ltd Haptic effects from focused acoustic fields
CN109754357B (zh) * 2018-01-26 2021-09-21 京东方科技集团股份有限公司 图像处理方法、处理装置以及处理设备
US11651584B2 (en) * 2018-10-16 2023-05-16 General Electric Company System and method for memory augmented domain adaptation
US11494612B2 (en) 2018-10-31 2022-11-08 Sony Interactive Entertainment Inc. Systems and methods for domain adaptation in neural networks using domain classifier
US11640519B2 (en) 2018-10-31 2023-05-02 Sony Interactive Entertainment Inc. Systems and methods for domain adaptation in neural networks using cross-domain batch normalization
US11222210B2 (en) * 2018-11-13 2022-01-11 Nec Corporation Attention and warping based domain adaptation for videos
GB2581991B (en) * 2019-03-06 2022-06-01 Huawei Tech Co Ltd Enhancement of three-dimensional facial scans
US11120526B1 (en) * 2019-04-05 2021-09-14 Snap Inc. Deep feature generative adversarial neural networks
US10546216B1 (en) * 2019-04-11 2020-01-28 Seetree Systems Ltd. Recurrent pattern image classification and registration
US11842517B2 (en) * 2019-04-12 2023-12-12 Ultrahaptics Ip Ltd Using iterative 3D-model fitting for domain adaptation of a hand-pose-estimation neural network
EP3739521A1 (en) * 2019-05-14 2020-11-18 Robert Bosch GmbH Training system for training a generator neural network
CN110135508B (zh) * 2019-05-21 2022-11-29 腾讯科技(深圳)有限公司 模型训练方法、装置、电子设备及计算机可读存储介质
JP7276449B2 (ja) * 2019-06-18 2023-05-18 日本電信電話株式会社 一般化データ生成装置、推定装置、一般化データ生成方法、推定方法、一般化データ生成プログラム、及び推定プログラム
CN110414845B (zh) * 2019-07-31 2023-09-19 创新先进技术有限公司 针对目标交易的风险评估方法及装置
CN110399856B (zh) * 2019-07-31 2021-09-14 上海商汤临港智能科技有限公司 特征提取网络训练方法、图像处理方法、装置及其设备
CN110570492B (zh) * 2019-09-11 2021-09-03 清华大学 一种基于神经网络的ct伪影抑制方法、设备以及介质
US11195056B2 (en) 2019-09-25 2021-12-07 Fotonation Limited System improvement for deep neural networks
US11664820B2 (en) * 2019-09-25 2023-05-30 Nokia Technologies Oy Domain adaptation
KR102637341B1 (ko) * 2019-10-15 2024-02-16 삼성전자주식회사 음성 생성 방법 및 장치
US11551084B2 (en) 2019-12-20 2023-01-10 Robert Bosch Gmbh System and method of robust active learning method using noisy labels and domain adaptation
CN111199256B (zh) * 2020-01-02 2024-03-22 东软医疗系统股份有限公司 图像优化网络的训练方法、图像处理方法及装置
CA3163620A1 (en) 2020-01-03 2021-07-08 Razvan RANCA Method of determining painting requirements for a damage vehicle
CN111401454A (zh) * 2020-03-19 2020-07-10 创新奇智(重庆)科技有限公司 一种基于迁移学习的少样本目标识别方法
WO2021236051A1 (en) * 2020-05-18 2021-11-25 Google Llc Few-shot domain adaptation in generative adversarial networks
KR20230022843A (ko) 2020-06-15 2023-02-16 인텔 코포레이션 적응적 런타임 효율적 이미지 분류를 위한 입력 이미지 크기 전환 가능 네트워크
EP4200744A1 (en) 2020-08-21 2023-06-28 Ventana Medical Systems, Inc. Correcting differences in multi-scanners for digital pathology images using deep learning
CN112184846A (zh) * 2020-09-16 2021-01-05 上海眼控科技股份有限公司 图像生成方法、装置、计算机设备和可读存储介质
WO2022058738A1 (en) 2020-09-17 2022-03-24 Ultraleap Limited Ultrahapticons
CN112232430A (zh) * 2020-10-23 2021-01-15 浙江大华技术股份有限公司 神经网络模型测试方法、装置、存储介质及电子装置
CN112184851B (zh) * 2020-10-26 2023-09-26 北京百度网讯科技有限公司 图像编辑方法、网络训练方法、相关装置及电子设备
JP2022085356A (ja) 2020-11-27 2022-06-08 株式会社Jvcケンウッド 機械学習装置、機械学習方法、および学習済みモデル
CN112836795B (zh) * 2021-01-27 2023-08-18 西安理工大学 一种多源非均衡域自适应方法
JP2022122326A (ja) 2021-02-10 2022-08-23 株式会社Jvcケンウッド 機械学習装置、機械学習方法、および機械学習プログラム
CN113469082B (zh) * 2021-07-08 2022-02-15 南京航空航天大学 一种基于迁移成分分析的卫星执行器故障检测方法
CN115705395A (zh) * 2021-08-10 2023-02-17 中兴通讯股份有限公司 信号识别方法及装置、计算机可读存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100470255C (zh) * 2006-04-21 2009-03-18 清华大学 基于多视子图像对的单通道合成孔径雷达动目标检测方法
US9460386B2 (en) * 2015-02-05 2016-10-04 International Business Machines Corporation Passage justification scoring for question answering
CN104850825B (zh) * 2015-04-18 2018-04-27 中国计量学院 一种基于卷积神经网络的人脸图像颜值计算方法
US9916522B2 (en) * 2016-03-11 2018-03-13 Kabushiki Kaisha Toshiba Training constrained deconvolutional networks for road scene semantic segmentation
US10289951B2 (en) * 2016-11-02 2019-05-14 Adobe Inc. Video deblurring using neural networks
US10192321B2 (en) * 2017-01-18 2019-01-29 Adobe Inc. Multi-style texture synthesis

Also Published As

Publication number Publication date
CN110226172B (zh) 2024-02-02
US20190304065A1 (en) 2019-10-03
US10991074B2 (en) 2021-04-27
JP2020502665A (ja) 2020-01-23
EP3555812B1 (en) 2022-07-06
WO2018109505A1 (en) 2018-06-21
CN110226172A (zh) 2019-09-10
EP3555812A1 (en) 2019-10-23

Similar Documents

Publication Publication Date Title
JP6957624B2 (ja) ターゲット・ドメイン画像へのソース・ドメイン画像の変換
JP6771645B2 (ja) ドメイン分離ニューラルネットワーク
US11200696B2 (en) Method and apparatus for training 6D pose estimation network based on deep learning iterative matching
US10289909B2 (en) Conditional adaptation network for image classification
US10740897B2 (en) Method and device for three-dimensional feature-embedded image object component-level semantic segmentation
CN110799992B (zh) 使用模拟和域适配以用于机器人控制
US20200160178A1 (en) Learning to generate synthetic datasets for traning neural networks
CN111386536A (zh) 语义一致的图像样式转换
JP7087006B2 (ja) 画像埋め込みを使用するロボティックエージェントのためのポリシーコントローラの最適化
CN111727441A (zh) 实现用于高效学习的条件神经过程的神经网络系统
US11951622B2 (en) Domain adaptation using simulation to simulation transfer
JP2024521645A (ja) 時空間上のアテンションを使用したビデオシーケンスからの物体表現の教師なし学習
Xiao Camera ISP optimization for computer vision tasks performed by deep neural networks
Kaur et al. Image Segmentation with Artificial Neural Networs Alongwith Updated Jseg Algorithm
Yamaguchi et al. Generative model based frame generation of volcanic flow video
CN117173509A (zh) 训练方法、检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190802

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190802

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20200214

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20200217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201013

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201026

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210819

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210906

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211006

R150 Certificate of patent or registration of utility model

Ref document number: 6957624

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150