JP2024059100A

JP2024059100A - エンコーダによって構成された画像の分析を決定するための装置及び方法

Info

Publication number: JP2024059100A
Application number: JP2023178260A
Authority: JP
Inventors: リーユメン; コレヴァアンナ; チャンダン
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-10-17
Filing date: 2023-10-16
Publication date: 2024-04-30
Also published as: CN117911806A; US20240135699A1; KR20240053554A; EP4357977A1

Abstract

【課題】画像の潜在表現を決定するように構成されているエンコーダをトレーニングするためのコンピュータ実装された方法及びシステムを提供する。【解決手段】方法は、トレーニング画像（ｘｉ）を、提供された画像に対する潜在表現とノイズ画像とを決定するエンコーダ（７０）に提供することによって潜在表現（ｗ）とノイズ画像（ε）とを決定するステップと、マスキングユニット（７４）がノイズ画像の部分をマスキングアウトすることにより、マスキングされたノイズ画像（εｍ）を決定するステップと、潜在表現とマスキングされたノイズ画像とを敵対的生成ネットワークの生成器（８０）に提供することによって予測画像を決定するステップと、エンコーダ（７０）のパラメータを、予測画像とトレーニング画像との間の差を特徴付ける損失値に基づいて適合させることによってエンコーダ（７０）をトレーニングするステップと、を含む。【選択図】図１

Description

本発明は、エンコーダをトレーニングするためのコンピュータ実装された方法と、画像の拡張を決定するための方法と、機械学習システムをトレーニングするための方法と、制御信号を決定するための方法と、トレーニングシステムと、制御システムと、コンピュータプログラムと、コンピュータ可読記憶媒体とに関する。

従来技術
Richardsonら著の「“Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation”，2021年，https://arxiv.org/pdf/2008.00951.pdf」は、画像から画像への翻訳のジェネリックなフレームワークを開示している。

Karrasら著の「“A style-based generator architecture for generative adversarial networks”，2019年，https://arxiv.org/pdf/1812.04948.pdf」は、高レベルの属性と、生成された画像における確率的変化とを自動的に学習して教師なしで分離するニューラルネットワークアーキテクチャであるＳｔｙｌｅＧＡＮを開示している。

Karrasら著の「“Analyzing and Improving the Image Quality of StyleGAN”，2020年，https://arxiv.org/pdf/1912.04958.pdf」は、ＳｔｙｌｅＧＡＮニューラルネットワークの改良版であるＳｔｙｌｅＧＡＮ２を開示している。

Zhangら著の「“The Unreasonable Effectiveness of Deep Features as a Perceptual Metric”，2018年，https://arxiv.org/pdf/1801.03924.pdf」は、ＬＰＩＰＳ（Learned Perceptual Image Patch Similarity）指標を開示している。

背景技術
画像の潜在因子を自動的に分析することは、複数の技術分野において実務者らが直面するタスクである。潜在表現から画像を決定することは、例えば、敵対的生成ネットワーク（generative adversarial network：ＧＡＮ）として知られるニューラルネットワークによって容易に達成可能であるが、その一方で、その反対の方向、すなわち、所与の画像に関する潜在表現を発見することは、困難な課題のままである。特に、機械学習システムを考慮する場合には、このような潜在因子を発見することは、解決されることが望ましいだろう課題である。なぜなら、これを解決することにより、画像にエンコードされた意味論的側面に関して機械学習システムをトレーニングするために既存のデータセットを拡張することが可能となるからである。例えば、画像の潜在因子とは、画像内に現在描写されている天候状況であるものとしてよい。この潜在因子の値を適合させて、適合させられた潜在表現をＧＡＮに供給することにより、所与の画像に関する種々異なる天候状況を特徴付ける拡張を作成することができる。次いで、これらの拡張を、機械学習システムをトレーニングするために使用することができる。トレーニングのために使用される画像の潜在因子、例えば意味論的因子に関してより多様なデータを用いて機械学習システムがトレーニングされることとなるので、分類及び／又は回帰分析に関する機械学習システムの性能を向上させることができる。

画像に関する潜在因子を決定するプロセスは、ＧＡＮに基づいて達成可能である。このような方法は、当分野においては、「ＧＡＮ反転」とも称される。ＧＡＮ反転に関する従前の研究では、ＦＦＨＱのような単純な顔データセットに関して有望な結果が示されている。ＧＡＮ生成器を使用して、Richardsonらは、所与の画像から特徴を抽出して、これらの特徴を中間潜在変数にマッピングするようにエンコーダをトレーニングすることを提案しており、この場合、潜在変数は、画像を操作するために、例えば、髪の色及びその他の顔の細部を変化させるために使用可能である。しかしながら、例えば、運転シーンのデータセットのような比較的高度な構造的複雑性を有するデータセットのことになると、シーン内の全てのオブジェクトを再構築すること、すなわち、画像内の全ての細部を復元することは、公知の方法では十分に可能ではない。例えば、顔データセットの場合には、人間の顔は、おおよそ中央にある単一のオブジェクトであるが、例えば、運転シーンを描写するデータセットでは、画像内に自動車のような複数のオブジェクトが存在するので、画像レイアウトが格段に多様になる。

Richardsonら著、「"Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation"，2021年，https://arxiv.org/pdf/2008.00951.pdf」 Karrasら著、「"A style-based generator architecture for generative adversarial networks"，2019年，https://arxiv.org/pdf/1812.04948.pdf」 Karrasら著、「"Analyzing and Improving the Image Quality of StyleGAN"，2020年，https://arxiv.org/pdf/1912.04958.pdf」 Zhangら著、「"The Unreasonable Effectiveness of Deep Features as a Perceptual Metric"，2018年，https://arxiv.org/pdf/1801.03924.pdf」

有利には、独立請求項１の特徴を有する方法は、画像の潜在因子を正確に分析することができるエンコーダをトレーニングすることを可能にする。このことは、エンコーダが、高度な構造的複雑性を有する画像を拡張するために、かつ、それによって正確な拡張を決定するために適しているという追加的な利点を有する。

発明の開示
第１の態様においては、本発明は、画像の潜在表現を決定するように構成されているエンコーダをトレーニングするためのコンピュータ実装された方法であって、エンコーダをトレーニングすることは、
・トレーニング画像をエンコーダに提供することによって潜在表現とノイズ画像とを決定するステップであって、エンコーダは、提供された画像に対する潜在表現とノイズ画像とを決定するように構成されている、ステップと、
・ノイズ画像の部分をマスキングアウトすることにより、マスキングされたノイズ画像を決定するステップと、
・潜在表現とマスキングされたノイズ画像とを敵対的生成ネットワークの生成器に提供することによって予測画像を決定するステップと、
・エンコーダのパラメータを損失値に基づいて適合させることによってエンコーダをトレーニングするステップであって、損失値は、予測画像とトレーニング画像との間の差を特徴付ける、ステップと
を含む、方法に関する。

エンコーダは、入力として画像を受信するように、かつ、画像のピクセル値に基づいて潜在表現を予測するように構成された機械学習システムであると理解することが可能である。好ましくは、エンコーダは、ニューラルネットワークであり、又は、ニューラルネットワークを含む。本方法においては、エンコーダには、潜在表現を予測するためにトレーニング画像が提供される。潜在表現を決定することは、画像分析の特定の形態の１つとして理解することが可能である。エンコーダは、画像を特徴付ける特定の潜在因子に関して画像を分析するようにトレーニングされ、この場合、潜在因子は、潜在表現に含まれる。

潜在表現に含まれる潜在因子を、当分野においては、「スタイル」と称することもできる。換言すれば、潜在表現は、画像の少なくとも１つの潜在的なスタイルを特徴付けるものとしても理解することが可能である。潜在因子は、画像の外観として一般的に理解することが可能である。例えば、１つの潜在因子は、画像内に描写されている状況の明るさであるものとしてよい。その場合、この潜在因子の具体的な値は、例えば昼間のシーンを描写する画像を特徴付けることができる。この潜在因子の他の値は、画像によって描写される夜間のシーンを特徴付けることができる。

エンコーダは、トレーニング中の第２のコンポーネント、すなわち、ノイズ画像を予測するようにさらに構成されている。このノイズ画像は、好ましくはトレーニング画像と同一のアスペクト比を有する画像として理解することが可能である。ノイズ画像という名称は、ＳｔｙｌｅＧＡＮにおける類似のエンティティの類似のネーミングに関して選択されている。換言すれば、ノイズ画像は、画像内のノイズの予測として理解されるべきではない。ノイズ画像は、生成器によって提供されるような画像の反転の１つの部分を特徴付けるエンティティである（他の部分は、潜在表現である）。換言すれば、生成器によってトレーニング画像が生成された場合に、エンコーダは、そのトレーニング画像を生成するための生成器への入力として使用されたノイズを決定することを学習する。ノイズ画像は、例えばトレーニング画像内のピクセルがどの程度ノイズを受けているかのパーセンテージ値を特徴付ける０から１までの間の値を含み得る。ノイズ画像は、トレーニング画像と同一のサイズであるものとしてよく、この場合、ノイズ画像内のピクセルと、トレーニング画像内のピクセルとの間に一対一の対応関係が存在する。しかしながら、エンコーダが、トレーニング画像と比較してスケールダウンされたサイズを有するノイズ画像を予測することも可能である。

エンコーダは、種々異なる種類のセンサからの画像を処理するように構成可能であると理解することが可能である。この意味において、画像は、カメラ、ＬＩＤＡＲセンサ、レーダセンサ、超音波センサ又はサーマルカメラから得られたセンサ測定値として理解することが可能である。

本方法においては、ノイズ画像の部分がマスキングアウトされる。このことは、ノイズ画像内のピクセルを他の値によって置き換えることとして理解することが可能である。例えば、ノイズ画像内のピクセル値を、好ましくはガウス分布からランダムに引き出されたピクセル値によって置き換えることによってマスキングアウトすることができる。どのピクセルをマスキングアウトすべきかを選択するために、画像内のピクセルを、マスキングアウトされるべきもの又はマスキングアウトされるべきでないものにランダムに割り当てることができる。代替的に、マスキングアウトされるべき画像の領域、例えば矩形の領域を、例えばランダムに決定することも可能である。このような矩形の領域は、パッチとも称されることがある。

潜在表現とマスキングされたノイズ画像とは、生成器に提供され、生成器は、潜在表現とノイズ画像とに基づいて画像を決定するように構成されている。生成器は、ニューラルネットワークであるものとしてよく、特に、ニューラルネットワークの種々異なる層において潜在表現とノイズ画像とを受信するように構成されたニューラルネットワークであるものとしてよい。好ましくは、エンコーダは、潜在表現を必要とする生成器の全ての入力に潜在表現を提供することができる。代替的に、複数の異なる潜在表現を予測して、これらの複数の異なる潜在表現を、潜在表現を必要とする入力に提供するように、エンコーダを構成することも可能である。ノイズ画像に関して、エンコーダは、好ましくは単一のノイズ画像を予測することができる。その場合、生成器には、ノイズ画像を必要とする全ての入力においてノイズ画像を提供することができる。代替的に、ノイズ画像を必要とする生成器の単一の入力のみにノイズ画像を提供し、ノイズ画像を必要とする他の全ての入力には、単一のランダムに引き出されたノイズ画像、又は、複数の異なるように引き出されたノイズ画像のコピーを提供するようにしてもよい。

好ましくは、生成器は、ＳｔｙｌｅＧＡＮ又はＳｔｙｌｅＧＡＮ２アーキテクチャに従って構成された生成器である。このような生成器は、「ＳｔｙｌｅＧＡＮ又はＳｔｙｌｅＧＡＮ２の生成器」とも称される。ＳｔｙｌｅＧＡＮ又はＳｔｙｌｅＧＡＮ２の生成器を使用する実施形態においては、潜在表現は、好ましくはＳｔｙｌｅＧＡＮ又はＳｔｙｌｅＧＡＮ２の生成器に直接的に提供され、すなわち、マッピングネットワークの使用が省略される。ＳｔｙｌｅＧＡＮ及びＳｔｙｌｅＧＡＮ２は、ＳｔｙｌｅＧＡＮのそれぞれ異なる部分に対してそれぞれ異なる潜在表現及び／又はノイズ画像を受信するようにも構成可能であるので、エンコーダは、ＳｔｙｌｅＧＡＮ又はＳｔｙｌｅＧＡＮ２への入力として機能する複数の潜在表現及び／又はノイズ画像を決定するようにも構成可能である。ＳｔｙｌｅＧＡＮ又はＳｔｙｌｅＧＡＮ２は、生成器を取得するために使用される好ましい敵対的生成ネットワークであるが、少なくとも潜在表現とノイズ画像とに基づいて画像を決定する限り、その他の機械学習システムも同様に可能である。

エンコーダのトレーニング中、生成器のパラメータは、好ましくは、固定されており、すなわち、適合させられない。しかしながら、一般的には、本方法の一部として生成器のパラメータを更新することも可能である。

生成器は、潜在表現とマスキングされたノイズ画像とに基づいて予測画像を決定する。次いで、エンコーダは、トレーニング画像と予測画像との間の差に基づいて、エンコーダのパラメータを適合させることによってトレーニングされる。このことは、損失値を決定し、この損失値に基づいてパラメータを適合させることによって達成される。好ましくは、このことは、損失に関するパラメータの勾配を逆伝播アルゴリズムによって決定し、負の勾配に従ってパラメータを適合させることによって達成される。代替的に、他の最適化法、例えば進化的最適化法も同様に使用することができる。

本方法は、生成器を反転させるための方法、すなわち、ＧＡＮ反転のための方法としても理解することが可能である。これにより、生成器のトレーニング中に決定される潜在空間からの潜在因子を、エンコーダによって復元することができる。本発明者らは、ノイズ画像の部分をマスキングすることが、提供された画像に関する潜在因子を正確に決定する際におけるエンコーダの性能の改善をもたらすこと、すなわち、エンコーダが、画像をより良好に分析可能となることを発見した。このことは、自然のシーンからの画像、又は、種々異なる可能性のある複数のオブジェクトが含まれる画像のような高度な構造的複雑性を描写する画像に対して特に当てはまる。

損失値は、特に損失関数に基づいて決定可能であり、損失関数の第１の項は、予測画像とトレーニング画像との間の差を特徴付ける。

好ましくは、第１の項は、差のマスキングをさらに特徴付け、マスキングは、差から、マスキングアウトされた部分内に収まるピクセルを除去する。

この差は、例えば、トレーニング画像及び予測画像からの対応するピクセルの平均Ｌ_２ノルムであるものとしてよい。本発明者らは、この差における、マスキングアウトされる対象となったピクセルを考慮しないことが、エンコーダの性能にとって有益であることを発見した。

好ましくは、損失関数は、エンコーダによって予測されるノイズ画像のノルムを特徴付ける第２の項を含む。

このことは、大きい分散を有するノイズ画像を予測することをエンコーダが学習することを、第２の項が抑制し、それによりノイズ画像によって提供される情報の量が制限されるので、有利である。それにより、画像の潜在因子がより忠実に潜在表現にエンコードされ、ノイズ画像に漏れ出ることがなくなる。

好ましくは、損失関数は、弁別器の出力信号の負の対数尤度を特徴付ける第３の項を含み、出力信号は、予測画像

を弁別器に提供することによって弁別器によって決定される。

本発明者らは、弁別器を使用することによって、提供された画像に関する正確な潜在表現を決定するためのエンコーダの精度がさらに向上することを発見した。弁別器のパラメータも、エンコーダのトレーニング中、好ましくは固定されている。デコーダを使用することにより、エンコーダは、それぞれの潜在因子に対する正確な値を特徴付ける潜在表現を決定するようにさらに促される。生成器及び弁別器は、固定されているものとしてよいので、エンコーダは、好ましくはトレーニング中に適合させることができる唯一のエンティティであり、すなわち、予測画像を変化させることができる唯一のエンティティである。本発明者らが発見したように、この項は、最適化中、現実のように見える画像を生成器によって生成させるための有利なインセンティブを提供する。換言すれば、エンコーダは、生成器によって現実のように見える画像にマッピングされる潜在表現を決定するように動機付けられる。

好ましくは、トレーニング画像は、ランダムにサンプリングされた潜在表現又はユーザ定義された潜在表現を生成器に提供することによって決定可能であり、損失関数は、ランダムにサンプリングされた潜在表現又はユーザ定義された潜在表現と、エンコーダから決定された潜在表現との間の差を特徴付ける第４の項を含む。

このことは、潜在表現と予測画像との間で前後にマッピングする際における周期的な一貫性を提供するものとして理解することが可能である。したがって、開始点は、ランダムに選択された潜在表現、又は、ユーザの裁量で選択された潜在表現であるものとしてよく、この潜在表現は、次いで、トレーニング画像を決定するために生成器に提供される。トレーニング画像は、次いで、エンコーダによって予測されるような潜在表現を決定するためにエンコーダに提供される。この潜在表現は、以前に選択された潜在表現に近いものであるべきであり、すなわち、潜在表現と画像との間での前後のマッピングは、同様の結果をもたらすべきである。第４の項は、有利にはそのような周期的な一貫性を保証するようにエンコーダを動機付ける。したがって、本発明者らは、第４の項が、有利にはエンコーダの精度をさらに向上させることを発見した。

第４の項が含まれる実施形態においては、生成器から予測画像を生成するために必要とされるノイズ画像は、ランダムにサンプリングされるものとしてもよいし、又は、所定のノイズ画像であるものとしてもよい。

好ましくは、損失関数は、トレーニング画像を特徴抽出器に提供することによって決定された第１の特徴表現と、予測画像を特徴抽出器に提供することによって決定された第２の特徴表現との差を特徴付ける第５の項を含み、差は、好ましくはマスキングアウトされた部分内にあるピクセルを特徴付ける特徴を特徴付けない。

このことは、ＬＰＩＰＳ指標を特徴付ける損失関数に項を追加することとして理解することが可能である。特徴抽出器は、供給されたトレーニング画像及び予測画像からそれぞれ機械学習の意味において特徴を決定するように構成された機械学習システムとして理解することが可能である。例えば、特徴抽出器は、ＶＧＧｎｅｔの畳み込み部分のようなニューラルネットワークであるものとしてよい。本発明者らは、第５の項を追加することによってエンコーダの精度がさらに向上することを発見した。

損失関数において第１の項から第５の項を任意に組み合わせることが可能である。換言すれば、これらの項のうちのいくつかを用いて、又は、これらの項のうちのいくつかを除外してトレーニングすることが可能である。

他の態様においては、本発明は、画像の拡張を決定するためのコンピュータ実装された方法であって、
・上記のような方法によってエンコーダをトレーニングすることに基づいて、エンコーダを取得するステップと、
・画像をエンコーダに提供することによって、第１の潜在表現とノイズ画像とを決定するステップと、
・第１の潜在表現を変更することにより、第２の潜在表現を決定するステップと、
・エンコーダをトレーニングする際に使用された生成器への入力として第２の潜在表現とノイズ画像とを提供することにより、拡張を決定するステップと、
を含む方法に関する。

トレーニングすることに基づいてエンコーダを取得することは、トレーニングのための方法を、拡張を決定するための方法の一部として実施することとして理解することが可能である。代替的に、トレーニングすることに基づいてエンコーダを取得することを、既にトレーニング済みのエンコーダを取得することとして理解することも可能であり、この場合、エンコーダは、上記で提示したようなトレーニングのための方法によってトレーニング済みである。

拡張を決定するための方法においては、エンコーダを使用して画像から潜在表現とノイズ画像とを抽出し、潜在表現における潜在因子を変更し、エンコーダをトレーニングする際に使用された生成器に、変更された潜在表現とノイズ画像とを提供することにより拡張を決定することによって、拡張が決定される。

有利には、本方法は、機械学習システムをトレーニングするために使用することができる画像を作成することを可能にする。潜在因子の変化に起因して、拡張は、少なくともその内容の一部を保持しながら画像の種々異なるスタイルを特徴付ける。このようにして、機械学習システムをトレーニングするために拡張を使用すると、この拡張によって種々異なるスタイルが特徴付けられるので、より多様な画像の集合が機械学習システムに提供されることとなる。本発明者らは、このことにより、機械学習システムの性能が改善されることを発見した。

したがって、他の態様においては、本発明は、機械学習システムをトレーニングするためのコンピュータ実装された方法であって、機械学習システムは、画像の分類及び／又は回帰分析を特徴付ける出力信号を決定するように構成されており、本方法は、
・請求項９に記載のトレーニング画像の拡張を決定するステップと、
・拡張に基づいて機械学習システムをトレーニングするステップと、
を含む、方法に関する。

本発明の実施形態を、以下の図面を参照しながらより詳細に説明する。

エンコーダをトレーニングするためのトレーニング方法の一部を概略的に示す図である。ノイズ画像をマスキングするための例を概略的に示す図である。画像を拡張するための拡張装置を示す図である。機械学習システムをトレーニングするためのトレーニングシステムを示す図である。アクチュエータの環境におけるアクチュエータを制御するための機械学習システムを含む制御システムを示す図である。少なくとも半自律的なロボットを制御する制御システムを示す図である。製造機械を制御する制御システムを示す図である。自動化されたパーソナルアシスタントを制御する制御システムを示す図である。アクセス制御システムを制御する制御システムを示す図である。監視システムを制御する制御システムを示す図である。イメージングシステムを制御する制御システムを示す図である。医用分析システムを制御する制御システムを示す図である。

実施形態の説明
図１は、エンコーダ（７０）をトレーニングするための方法の実施形態の一部を示している。本方法の間、エンコーダ（７０）は、画像の（スタイルとしても知られる）潜在因子を特徴付ける潜在表現（ｗ）とノイズ画像（ε）とを決定するようにトレーニングされ、ノイズ画像（ε）は、画像内のノイズの領域を予測するものとして理解することが可能である。

エンコーダ（７０）は、単一のトレーニング画像（ｘ_ｉ）に基づいてトレーニング可能である。しかしながら、好ましくは、本方法は、エンコーダ（７０）をトレーニングするために複数のトレーニング画像（ｘ_ｉ）を使用する。１つのトレーニング画像（ｘ_ｉ）又は複数のトレーニング画像（ｘ_ｉ）は、好ましくは高度な構造的複雑性を有するシーン、例えば自動車を運転している際に遭遇するシーン及び／又は街中のシーンのような自然環境のシーンを描写する。

本実施形態においては、エンコーダ（７０）は、潜在表現（ｗ）及び／又はノイズ画像（ε）を予測するニューラルネットワークによって特徴付けられる。他の実施形態においては、潜在表現（ｗ）及び／又はノイズ画像（ε）を予測するために他の機械学習モデルを使用するものとしてよい。エンコーダ（７０）は、好ましくはエンコーダ（７０）に供給されたトレーニング画像（ｘ_ｉ）から特徴（ｆ）を抽出するための特徴抽出器（７１）を含む。特徴（ｆ）は、好ましくは潜在表現（ｗ）を決定するように構成されたスタイルユニット（７２）に転送可能であり、かつ、ノイズ画像（ε）を決定するように構成されたノイズユニット（７３）に転送可能である。スタイルユニット（７２）及び／又はノイズユニット（７３）は、好ましくはニューラルネットワークであるものとしてもよい。しかしながら、一般的に、スタイルユニット（７２）及び／又はノイズユニット（７３）のために他の機械学習モデルを使用することもできる。他の実施形態においては、エンコーダ（７０）は、潜在表現（ｗ）とノイズ画像（ε）とを予測するための単一のニューラルネットワークを含むこともあり得る。

本実施形態においては、潜在表現（ｗ）は、行列又はテンソルであるように構成されており、ノイズ画像（ε）は、行列であるように構成されている。エンコーダ（７０）は、潜在表現（ｗ）及びノイズ画像（ε）の幅寸法及び高さ寸法が、トレーニング画像（ｘ_ｉ）の幅寸法及び高さ寸法と同一の比率を有することとなるように構成されている。このことは、好ましくは特徴抽出器（７１）と、スタイルユニット（７２）と、ノイズユニット（７３）とにおいてアスペクト保存演算を使用することによって、例えば幅及び高さに沿って等しいストライドを用いた畳み込み演算を使用することによって達成可能である。

ノイズ画像（ε）は、ノイズ画像（ε）をマスキングするように構成されたマスキングユニット（７４）に提供される。本実施形態においては、ノイズ画像（ε）の要素をランダムに選択し、それぞれの選択された要素を、ガウス分布からランダムに引き出された値によって置き換え、それによりマスキングされたノイズ画像（ε_ｍ）を決定することによって、マスキングが実施される。さらなる実施形態においては、ランダムに引き出された値を、他の確率分布から引き出すこともできる。

次いで、潜在表現（ｗ）とマスキングされたノイズ画像（ε_ｍ）とが、敵対的生成ネットワークの生成器（８０）への入力として提供される。敵対的生成ネットワークは、好ましくはエンコーダ（７０）をトレーニングするための方法を実施する前にトレーニング済みである。しかしながら、エンコーダ（７０）をトレーニングする際における追加的なステップとして、敵対的生成ネットワークをトレーニングすることも可能である。敵対的生成ネットワークは、提供された潜在表現とノイズ画像とに基づいて画像を決定するように構成されている。好ましくは、敵対的生成ネットワークは、ＳｔｙｌｅＧＡＮ又はＳｔｙｌｅＧＡＮ２である。

潜在表現は、好ましくはＳｔｙｌｅＧＡＮ又はＳｔｙｌｅＧＡＮ２のマッピングネットワークを使用することなく生成器（８０）に提供される。このことは、エンコーダがＳｔｙｌｅＧＡＮ又はＳｔｙｌｅＧＡＮ２の中間潜在空間から潜在表現を決定することを学習するので、有利である。この中間潜在空間は、ＳｔｙｌｅＧＡＮ又はＳｔｙｌｅＧＡＮ２の元の潜在空間よりも良好な解きほぐし（disentanglement）を有するので、このことにより、画像に関する潜在因子を決定する際におけるエンコーダの性能が、有利にはさらに向上する。

生成器（８０）は、潜在表現（ｗ）とノイズ画像（ε）とに基づいて予測画像

を決定する。次いで、トレーニング画像（ｘ_ｉ）と予測画像

との間の差を特徴付ける損失値を決定することができる。次いで、損失値を最小化するようにトレーニングを実施することができる。例えば、損失値は、損失関数に基づいて決定可能である。損失関数は、特に、差を特徴付ける第１の項、すなわち、

を特徴付けることができ、ここで、ｘ_ｉ及び

は、それぞれトレーニング画像及び予測画像であり、

は、アダマール積である。１－Ｍの項は、差におけるピクセルの好ましい重み付けを示し、すなわち、マスキングされたノイズ画像（ε_ｍ）においてマスキングアウトされたピクセルは、第１の項Ｌ_ｒｅｃを決定する際には考慮されない。１は、トレーニング画像（ｘ_ｉ）及び予測画像

と同一の形状の全て１の行列として理解されるべきであり、ノイズ画像（ε）がトレーニング画像（ｘ_ｉ）とは異なる形状を有する場合には、ノイズ画像（ε）をマスキングするために使用されるマスクが、トレーニング画像（ｘ_ｉ）のサイズにスケーリングされる。差

に対するＬ_２－ノルムを決定することは、特にｘ_ｉ及び

からの対応するピクセルのユークリッド距離の平均を求めることとして理解される。

好ましくは、損失関数は、ノイズ画像（ε）のノルムを特徴付ける第２の項を含む。好ましくは、これは、ノイズ画像εにおける値の和であり、これにより、ノイズ画像を予測する際におけるスパース性を促進する。第２の項は、以下の式：
Ｌ_{ｎｏｉｓｅ＿ｒｅｇ}＝｜ε｜
によって表現可能である。

好ましくは、損失関数は、弁別器の出力信号の負の対数尤度を特徴付ける第３の項を含み、この出力信号は、予測画像

を弁別器に提供することによって弁別器によって決定される。換言すれば、敵対的生成ネットワークをトレーニングする際に使用される弁別器は、エンコーダ（７０）をトレーニングする際における追加的なガイドとして使用可能である。デコーダを介して、エンコーダは、予測画像

がどの程度「現実的に」見えるかに関する追加的な情報を取得し、それにより、「現実的に」見える画像を予測するための潜在表現の有用性に関する情報を取得する。第３の項は、以下の式：

によって表現可能であり、ここで、Ｄは、弁別器であり、

は、期待値関数である。

好ましくは、損失関数は、ランダムにサンプリングされた潜在表現又はユーザ定義された潜在表現と、エンコーダ（７０）から決定された潜在表現との間の差を特徴付ける第４の項を含み、ランダムにサンプリングされた潜在表現又はユーザ定義された潜在表現は、生成器（８０）に提供され、それによりトレーニング画像（ｘ_ｉ）が決定される。換言すれば、トレーニング画像（ｘ_ｉ）は、ランダムにサンプリングされた潜在表現又はユーザ定義された潜在表現に基づいて決定される。第４の項は、以下の式：

によって表現可能であり、ここで、ｗ_ｇｔは、ランダムにサンプリングされた潜在表現又はユーザ定義された潜在表現である。

好ましくは、損失関数は、トレーニング画像（ｘ_ｉ）を特徴抽出器に提供することによって決定される第１の特徴表現と、予測画像

を特徴抽出器に提供することによって決定される第２の特徴表現との差を特徴付ける第５の項を含み、この差は、好ましくはマスキングアウトされた部分内にあるピクセルを特徴付ける特徴を特徴付けない。このことは、エンコーダ（７０）をトレーニングする際における追加的なガイドとしてＬＰＩＰＳ指標を使用することとして理解することが可能である。第５の項は、以下の式：

によって表現可能であり、ここで、Ｖは、特徴抽出器であり、マスクＭは、第１の項Ｌ_ｒｅｃに関して行われるのと同様に、特徴の幅及び高さにスケーリングされている。

損失関数Ｌを決定するために、これらの項の任意の組合せを使用することができる。好ましくは、それぞれ異なる項に１つの重みが割り当てられており、それぞれの重みは、その他の項に関するそれぞれの項の重要性を制御する。したがって、損失関数は、以下の式：

によって表現可能であり、ここで、α_１乃至α_５は、それぞれの項の重みである。これらの重みは、トレーニング方法のハイパーパラメータとして理解することが可能である。

次いで、エンコーダ（７０）を勾配降下法によってトレーニングすることができる。このことは、特に、パラメータに関する損失の負の勾配に従ってパラメータを適合させることとして理解することが可能である。

図２は、マスキングされたノイズ画像（ε_ｍ）を決定するために、どのようにしてノイズ画像（ε）をマスキングすることができるかを示している。ノイズ画像（ε）は、行列によって特徴付けられ、この行列の要素は、ノイズ値である。複数の要素が、マスキングアウトされるように選択される。これらの複数の要素は、ノイズ画像（ε）のマスキングアウトされた部分（ｐ）とも称される。これらの複数の要素を、二値行列Ｍによって特徴付けることができ、この二値行列Ｍは、マスキングアウトされた部分（ｐ）に対しては１の値を含み、全ての他の要素に対しては０の値を含む。次いで、マスキングアウトされた部分を、ランダムにサンプリングされた値によって、例えばガウス分布からサンプリングされた値によって置き換えることができる。

図３は、提供された画像（ｂ_ｉ）を拡張するように構成された拡張ユニット（９０）の実施形態を示している。拡張ユニット（９０）は、上記で提示したトレーニング方法によってトレーニング済みであるエンコーダ（７０）を含む。エンコーダ（７０）は、提供された画像（ｂ_ｉ）を受信し、ノイズ画像（ε）と潜在表現（ｗ）とを決定する。潜在表現（ｗ）は、変化ユニット（９１）に提供される。変化ユニット（９１）は、潜在表現の１つ又は複数の潜在因子を変化させるように構成されている。好ましくは、変化ユニット（９１）は、１つ又は複数の因子をランダムに決定して変化させる。変化の量も、変化ユニット（９１）のハイパーパラメータとして理解される間隔で、ランダムに選択可能である。変化ユニット（９１）は、潜在表現（ｗ）の潜在因子を変化させることによって第２の潜在表現

を決定する。第２の潜在表現

とノイズ画像（ε）とは、エンコーダ（７０）をトレーニングする際に使用された生成器（８０）に提供される。次いで、生成器（８０）は、拡張

として提供される画像を決定する。

図４は、機械学習システム（６０）をトレーニングデータセット（Ｔ）によってトレーニングするための拡張ユニット（９０）を使用する、トレーニングシステム（１４０）の実施形態を示している。トレーニングデータセット（Ｔ）は、機械学習システム（６０）をトレーニングするために使用される複数の画像（ｂ_ｉ）を含み、トレーニングデータセット（Ｔ）は、それぞれの画像（ｂ_ｉ）ごとに所望の出力信号（ｔ_ｉ）をさらに含み、この所望の出力信号（ｔ_ｉ）は、画像（ｂ_ｉ）に対応し、画像（ｂ_ｉ）の所望の分類及び／又は所望の回帰分析結果を特徴付ける。

トレーニングのために、トレーニングデータユニット（１５０）は、コンピュータ実装されるデータベース（Ｓｔ_２）にアクセスし、このデータベース（Ｓｔ_２）は、トレーニングデータセット（Ｔ）を提供する。トレーニングデータユニット（１５０）は、トレーニングデータセット（Ｔ）から少なくとも１つの画像（ｂ_ｉ）と、この画像（ｂ_ｉ）に対応する所望の出力信号（ｔ_ｉ）とを、好ましくはランダムに決定して、この画像（ｂ_ｉ）を機械学習システム（６０）に送信する。機械学習システム（６０）は、画像（ｂ_ｉ）に基づいて出力信号（ｙ_ｉ）を決定する。

所望の出力信号（ｔ_ｉ）と決定された出力信号（ｙ_ｉ）とが、修正ユニット（１８０）に送信される。

次いで、修正ユニット（１８０）は、所望の出力信号（ｔ_ｉ）と決定された出力信号（ｙ_ｉ）とに基づいて、機械学習システム（６０）に対する新たなパラメータ（Φ’）を決定する。この目的で、修正ユニット（１８０）は、所望の出力信号（ｔ_ｉ）と決定された出力信号（ｙ_ｉ）とを、損失関数を使用して比較する。損失関数は、決定された出力信号（ｙ_ｉ）が所望の出力信号（ｔ_ｉ）からどの程度ずれているかを特徴付ける第１の損失値を決定する。所与の実施形態においては、損失関数として負の対数尤度関数が使用される。代替的な実施形態においては、その他の損失関数も考えられる。

さらに、決定された出力信号（ｙ_ｉ）と所望の出力信号（ｔ_ｉ）とが、例えばテンソル形式の複数のサブ信号をそれぞれ含むことも考えられ、この場合、所望の出力信号（ｔ_ｉ）のサブ信号は、決定された出力信号（ｙ_ｉ）のサブ信号に対応する。例えば、機械学習システム（６０）が、オブジェクト検出のために構成されており、第１のサブ信号が、画像（ｂ_ｉ）の一部に関してオブジェクトの発生確率を特徴付け、第２のサブ信号が、そのオブジェクトの正確な位置を特徴付けることが考えられる。決定された出力信号（ｙ_ｉ）と所望の出力信号（ｔ_ｉ）とが、複数の対応するサブ信号を含む場合には、好ましくはそれぞれの対応するサブ信号ごとに適当な損失関数によって第２の損失値が決定され、これらの決定された第２の損失値が適当に組み合わせられて、例えば重み付き和によって第１の損失値が形成される。

修正ユニット（１８０）は、第１の損失値に基づいて新たなパラメータ（Φ’）を決定する。所与の実施形態においては、このことは、勾配降下法、好ましくは確率的勾配降下法、Ａｄａｍ又はＡｄａｍＷを使用して実施される。さらなる実施形態においては、トレーニングは、ニューラルネットワークをトレーニングするための進化的アルゴリズム又は二次法に基づくこともできる。

他の好ましい実施形態においては、上記のトレーニングは、所定の反復ステップ回数にわたって反復的に繰り返され、又は、第１の損失値が所定の閾値を下回るまで反復的に繰り返される。代替的又は追加的に、テストデータセット又は検証データセットに対する第１の平均損失値が所定の閾値を下回ると、トレーニングを終了させることも考えられる。複数回の反復のうちの少なくとも１回の反復において、以前の反復において決定された新たなパラメータ（Φ’）が、機械学習システム（６０）のパラメータ（Φ）として使用される。

さらに、トレーニングシステム（１４０）は、少なくとも１つのプロセッサ（１４５）と、少なくとも１つの機械可読記憶媒体（１４６）とを含み得るものであり、少なくとも１つの機械可読記憶媒体（１４６）は、プロセッサ（１４５）によって実行された場合に本発明の態様のうちの１つによるトレーニング方法をトレーニングシステム（１４０）に実行させる命令を含む。

図５は、アクチュエータ（１０）の環境（２０）におけるアクチュエータ（１０）の実施形態を示している。アクチュエータ（１０）は、制御システム（４０）と相互作用し、制御システム（４０）は、アクチュエータ（１０）を制御するために機械学習システム（６０）を使用する。アクチュエータ（１０）とアクチュエータ（１０）の環境（２０）とを、合わせてアクチュエータシステムと称することとする。好ましくは等間隔の時点に、センサ（３０）がアクチュエータシステムの状態を感知する。センサ（３０）は、複数のセンサを含み得る。好ましくは、センサ（３０）は、環境（２０）の画像を撮影する光学センサである。感知された状況を符号化する、センサ（３０）の出力信号（Ｓ）（又はセンサ（３０）が複数のセンサを含む場合には、これらのセンサの各々ごとの出力信号（Ｓ））が、制御システム（４０）に送信される。

それにより、制御システム（４０）は、センサ信号（Ｓ）のストリームを受信する。次いで、制御システム（４０）は、センサ信号（Ｓ）のストリームに依存して一連の制御信号（Ａ）を計算し、これらの制御信号（Ａ）は、次いで、アクチュエータ（１０）に送信される。

制御システム（４０）は、センサ（３０）のセンサ信号（Ｓ）のストリームを、任意選択肢の受信ユニット（５０）において受信する。受信ユニット（５０）は、センサ信号（Ｓ）を画像（ｘ）に変換する。代替的に、受信ユニット（５０）が設けられていない場合には、それぞれのセンサ信号（Ｓ）を直接的に画像（ｘ）として取得するものとしてもよい。画像（ｘ）を、例えばセンサ信号（Ｓ）の抜粋として提供することができる。代替的に、センサ信号（Ｓ）を処理して画像（ｘ）を生成するものとしてもよい。換言すれば、画像（ｘ）は、センサ信号（Ｓ）に従って提供される。

次いで、画像（ｘ）は、機械学習システム（６０）に伝送される。

機械学習システム（６０）は、パラメータ（Φ）によってパラメータ化されており、このパラメータ（Φ）は、パラメータ記憶装置（Ｓｔ_１）に格納されており、パラメータ記憶装置（Ｓｔ_１）によって提供される。

機械学習システム（６０）は、画像（ｘ）から出力信号（ｙ）を決定する。出力信号（ｙ）は、画像（ｘ）に１つ又は複数のラベルを割り当てる情報を含む。出力信号（ｙ）は、任意選択肢の変換ユニット（８０）に送信され、変換ユニット（８０）は、出力信号（ｙ）を制御信号（Ａ）に変換する。次いで、制御信号（Ａ）は、アクチュエータ（１０）を相応に制御するためにアクチュエータ（１０）に送信される。代替的に、出力信号（ｙ）を直接的に制御信号（Ａ）として取得するものとしてもよい。

アクチュエータ（１０）は、制御信号（Ａ）を受信し、相応に制御され、制御信号（Ａ）に対応する行動を実施する。アクチュエータ（１０）は、制御信号（Ａ）をさらなる制御信号に変換する制御ロジックを含み得るものであり、その場合、このさらなる制御信号を使用してアクチュエータ（１０）が制御される。

さらなる実施形態においては、制御システム（４０）は、センサ（３０）を含み得る。さらに他の実施形態においては、制御システム（４０）は、代替的又は追加的にアクチュエータ（１０）を含み得る。

さらに他の実施形態においては、制御システム（４０）が、アクチュエータ（１０）に代えて又はこれに加えて、ディスプレイ（１０ａ）を制御することを想定することができる。

さらに、制御システム（４０）は、少なくとも１つのプロセッサ（４５）と、少なくとも１つの機械可読記憶媒体（４６）とを含み得るものであり、少なくとも１つの機械可読記憶媒体（４６）上には、実行された場合に本発明の態様による方法を制御システム（４０）に実行させる命令が格納されている。

図６は、少なくとも半自律的なロボット、例えば少なくとも半自律的な車両（１００）を制御するために制御システム（４０）が使用される実施形態を示している。

センサ（３０）は、１つ又は複数のビデオセンサ、及び／又は、１つ又は複数のレーダセンサ、及び／又は、１つ又は複数の超音波センサ、及び／又は、１つ又は複数のＬｉＤＡＲセンサを含み得る。これらのセンサの一部又は全部は、必須ではないが、好ましくは車両（１００）に搭載されている。

機械学習システム（６０）は、画像（ｘ）に基づいて、少なくとも半自律的なロボットの近傍にあるオブジェクトを検出するように構成可能である。出力信号（ｙ）は、少なくとも半自律的なロボットの近傍におけるどこにオブジェクトが位置しているかを特徴付ける情報を含み得る。次いで、例えば検出されたオブジェクトとの衝突を回避するために、この情報に従って制御信号（Ａ）を決定することができる。

好ましくは車両（１００）に搭載されているアクチュエータ（１０）は、車両（１００）のブレーキ、推進システム、エンジン、ドライブトレイン又はステアリングによって提供可能である。検出されたオブジェクトとの衝突を車両（１００）が回避するように、アクチュエータ（１０）が制御されるように、制御信号（Ａ）を決定することができる。検出されたオブジェクトを、機械学習システム（６０）が最も尤もらしいと見なした、それらのオブジェクトの正体、例えば歩行者や樹木に従って分類し、その分類に依存して、制御信号（Ａ）を決定することもできる。

代替的又は追加的に、制御信号（Ａ）は、例えば機械学習システム（６０）によって検出されたオブジェクトが表示されるように、ディスプレイ（１０ａ）を制御するためにも使用可能である。車両（１００）が、検出されたオブジェクトのうちの少なくとも１つと衝突しそうになった場合に、警告信号が生成されるように、制御信号（Ａ）がディスプレイ（１０ａ）を制御することができるようにすることも想像することができる。警告信号は、警告音及び／又は触覚信号、例えば車両のステアリングホイールの振動であるものとしてよい。

さらなる実施形態においては、少なくとも半自律的なロボットは、例えば、飛行、水泳、潜水又は歩行によって移動することができる他の移動型ロボット（図示せず）によって提供可能である。移動型ロボットは、特に、少なくとも半自律的な芝刈り機、又は、少なくとも半自律的な掃除ロボットであるものとしてよい。上記の全ての実施形態において、移動型ロボットが前述の識別されたオブジェクトとの衝突を回避することができるように、移動型ロボットの推進ユニット及び／又はステアリング及び／又はブレーキが制御されるように、制御信号（Ａ）を決定することができる。

さらなる実施形態においては、少なくとも半自律的なロボットは、園芸用ロボット（図示せず）によって提供可能であり、園芸用ロボットは、センサ（３０）、好ましくは光学センサを使用して、環境（２０）における植物の状態を特定する。アクチュエータ（１０）は、液体を噴霧するためのノズル、及び／又は、切断装置、例えば、ブレードを制御することができる。植物の識別された種及び／又は識別された状態に依存して、アクチュエータ（１０）に、適当な液体の適当な量を植物に噴霧させるように、及び／又は、植物を切断させるように、制御信号（Ａ）を決定することができる。

さらに他の実施形態においては、少なくとも半自律的なロボットは、例えば、洗濯機、ストーブ、オーブン、電子レンジ又は食器洗浄機のような家電装置（図示せず）によって提供可能である。センサ（３０）、例えば光学センサは、家電装置によって処理が施されるべきオブジェクトの状態を検出することができる。例えば、家電装置が洗濯機である場合には、センサ（３０）は、洗濯機内の洗濯物の状態を検出することができる。次いで、検出された洗濯物の素材に依存して、制御信号（Ａ）を決定することができる。

図７は、例えば生産ラインの一部としての、製造システム（２００）の製造機械（１１）（例えば、パンチカッタ、カッタ、ガンドリル、又は、グリッパ）を制御するために制御システム（４０）が使用される実施形態を示している。製造機械は、製造された製品（１２）を移動させる搬送装置、例えば、コンベヤベルト又は組み立てラインを含み得る。制御システム（４０）は、アクチュエータ（１０）を制御し、アクチュエータ（１０）が、今度は製造機械（１１）を制御する。

センサ（３０）は、例えば製造された製品（１２）の特性を捕捉する光学センサによって提供可能である。したがって、機械学習システム（６０）は、画像分類器として理解することが可能である。

機械学習システム（６０）は、搬送装置に対する製造された製品（１２）の位置を特定することができる。次いで、製造された製品（１２）の後続の製造工程のために、製造された製品（１２）の特定された位置に依存してアクチュエータ（１０）を制御することができる。例えば、製造された製品をこの製造された製品自体の特定の箇所において切断するように、アクチュエータ（１０）を制御することができる。代替的に、製造された製品が破損しているかどうか、及び／又は、欠陥を示しているかどうかを、機械学習システム（６０）が分類することを想定することができる。その場合、その製造された製品を搬送装置から除去するように、アクチュエータ（１０）を制御することができる。

図８は、自動化されたパーソナルアシスタント（２５０）を制御するために制御システム（４０）が使用される実施形態を示している。センサ（３０）は、例えば、ユーザ（２４９）のジェスチャのビデオ画像を受信するための光学センサであるものとしてよい。代替的に、センサ（３０）は、例えば、ユーザ（２４９）の音声コマンドを受信するための音響センサであるものとしてもよい。

次いで、制御システム（４０）は、自動化されたパーソナルアシスタント（２５０）を制御するための制御信号（Ａ）を決定する。制御信号（Ａ）は、センサ（３０）のセンサ信号（Ｓ）に従って決定される。センサ信号（Ｓ）は、制御システム（４０）に送信される。例えば、機械学習システム（６０）は、例えばユーザ（２４９）によって実施されたジェスチャを識別するためのジェスチャ認識アルゴリズムを実行するように構成可能である。次いで、制御システム（４０）は、自動化されたパーソナルアシスタント（２５０）に送信するための制御信号（Ａ）を決定することができる。次いで、制御システム（４０）は、制御信号（Ａ）を自動化されたパーソナルアシスタント（２５０）に送信する。

例えば、機械学習システム（６０）によって認識された識別されたユーザジェスチャに従って、制御信号（Ａ）を決定することができる。制御信号（Ａ）は、自動化されたパーソナルアシスタント（２５０）にデータベースから情報を検索させ、この検索された情報を、ユーザ（２４９）による受信のために適した形態で出力させるための情報を含み得る。

さらなる実施形態においては、自動化されたパーソナルアシスタント（２５０）に代えて、制御システム（４０）が、識別されたユーザジェスチャに従って制御される家電装置（図示せず）を制御することを想定することができる。家電装置は、洗濯機、ストーブ、オーブン、電子レンジ、又は、食器洗浄機であるものとしてよい。

図９は、制御システム（４０）がアクセス制御システム（３００）を制御する実施形態を示している。アクセス制御システム（３００）は、アクセスを物理的に制御するように設計可能である。アクセス制御システム（３００）は、例えば、ドア（４０１）を含み得る。センサ（３０）は、アクセスが許可されるべきかどうかを判定するために関連するシーンを検出するように構成可能である。例えば、センサ（３０）は、画像又はビデオデータを提供するための、例えば、人物の顔を検出するための光学センサであるものとしてよい。したがって、機械学習システム（６０）は、画像分類器として理解することが可能である。

機械学習システム（６０）は、例えば、検出された人物の顔を、データベースに格納されている他の既知の人物の顔と照合し、それにより、その人物の識別情報を特定することによって、人物の識別情報を分類するように構成可能である。次いで、機械学習システム（６０）の分類に依存して、例えば特定された識別情報に従って、制御信号（Ａ）を決定することができる。アクチュエータ（１０）は、制御信号（Ａ）に依存してドアを開放又は閉鎖するロックであるものとしてよい。代替的に、アクセス制御システム（３００）は、非物理的かつ論理的なアクセス制御システムであるものとしてよい。この場合には、制御信号は、人物の識別情報に関する情報、及び／又は、その人物にアクセスが許可されるべきかどうかに関する情報を表示するように、ディスプレイ（１０ａ）を制御するために使用可能である。

図１０は、制御システム（４０）が監視システム（４００）を制御する実施形態を示している。この実施形態は、図９に示されている実施形態と大部分で同一である。したがって、異なっている態様についてのみ詳細に説明する。センサ（３０）は、監視下にあるシーンを検出するように構成されている。制御システム（４０）は、必ずしもアクチュエータ（１０）を制御する必要はないが、代替的に、ディスプレイ（１０ａ）を制御することができる。例えば、機械学習システム（６０）は、シーンの分類を決定することができ、例えば、光学センサ（３０）によって検出されたシーンが正常であるかどうか、又は、シーンが異常を示しているかどうかを判定することができる。次いで、ディスプレイ（１０ａ）に送信された制御信号（Ａ）は、例えばディスプレイ（１０ａ）に、決定された分類に依存して表示する内容を調整させるように、例えば、機械学習システム（６０）によって異常であると判定されたオブジェクトを強調表示させるように構成可能である。

図１１は、制御システム（４０）によって制御される医用イメージングシステム（５００）の実施形態を示している。イメージングシステムは、例えば、ＭＲＩ装置、Ｘ線イメージング装置、又は、超音波イメージング装置であるものとしてよい。センサ（３０）は、例えば患者の少なくとも１つの画像を撮影する、例えば患者の種々異なる種類の身体組織を表示する、イメージングセンサであるものとしてよい。

次いで、機械学習システム（６０）は、感知された画像の少なくとも一部の分類を決定することができる。したがって、画像の少なくとも一部は、機械学習システム（６０）への入力画像（ｘ）として使用される。

次いで、この分類に従って制御信号（Ａ）を選択することができ、それにより、ディスプレイ（１０ａ）を制御することができる。例えば、機械学習システム（６０）は、例えば画像内に表示された組織を悪性組織又は良性組織のいずれかに分類することによって、感知された画像内の種々異なる種類の組織を検出するように構成可能である。このことは、機械学習システム（６０）による入力画像（ｘ）のセマンティックセグメンテーションによって実施可能である。次いで、ディスプレイ（１０ａ）に、例えば入力画像（ｘ）を表示して、同一の組織種類の複数の異なる領域を同一の色で着色することによって複数の異なる組織を表示させるように、制御信号（Ａ）を決定することができる。

さらなる実施形態（図示せず）においては、イメージングシステム（５００）を、非医用目的で、例えばワークピースの材料特性を特定するために使用することができる。これらの実施形態においては、機械学習システム（６０）は、ワークピースの少なくとも一部の入力画像（ｘ）を受信し、入力画像（ｘ）のセマンティックセグメンテーションを実施し、それにより、ワークピースの材料特性を分類するように構成可能である。次いで、ディスプレイ（１０ａ）に、入力画像（ｘ）と、検出された材料特性に関する情報とを表示させるように、制御信号（Ａ）を決定することができる。

図１２は、制御システム（４０）によって制御される医用分析システム（６００）の実施形態を示している。医用分析システム（６００）にはマイクロアレイ（６０１）が供給され、マイクロアレイは、医用試料に曝露された複数のスポット（６０２、特徴としても知られる）を含む。医用試料は、例えば、ヒト試料であるものとしてもよいし、又は、例えばスワブから得られた動物試料であるものとしてもよい。

マイクロアレイ（６０１）は、ＤＮＡマイクロアレイ又はタンパク質マイクロアレイであるものとしてよい。

センサ（３０）は、マイクロアレイ（６０１）を感知するように構成されている。センサ（３０）は、好ましくはビデオセンサのような光学センサである。

機械学習システム（６０）は、センサ（３０）によって供給されたマイクロアレイの入力画像（ｘ）に基づいて試料の結果を分類するように構成されている。特に、機械学習システム（６０）は、マイクロアレイ（６０１）が試料中にウイルスの存在を示しているかどうかを判定するように構成可能である。

次いで、ディスプレイ（１０ａ）が分類の結果を表示するように、制御信号（Ａ）を選択することができる。

「コンピュータ」という用語は、所定の計算規則を処理するための任意の装置を包含するものとして理解することが可能である。これらの計算規則は、ソフトウェアの形態、ハードウェアの形態、又は、ソフトウェアとハードウェアとの混合形態であるものとしてよい。

一般的に、複数形には添え字が付されているものと理解することが可能であり、すなわち、好ましくは複数形に含まれる複数の要素に連続した整数を割り当てることにより、複数形のそれぞれの要素に一意の添え字が割り当てられる。好ましくは、ある複数形にＮ個の要素が含まれ、かつ、Ｎがその複数形における要素の個数である場合、これらの要素には、１乃至Ｎの整数が割り当てられる。複数形に含まれるそれぞれの要素には、これらの要素の添え字を介してアクセス可能であることも理解することが可能である。

Claims

画像（ｘ_ｉ）の潜在表現を決定するように構成されているエンコーダ（７０）をトレーニングするためのコンピュータ実装された方法であって、
前記エンコーダをトレーニングすることは、
・トレーニング画像（ｘ_ｉ）を前記エンコーダ（７０）に提供することによって潜在表現（ｗ）とノイズ画像（ε）とを決定するステップであって、前記エンコーダ（７０）は、提供された画像に対する潜在表現とノイズ画像とを決定するように構成されている、ステップと、
・前記ノイズ画像（ε）の部分（ｐ）をマスキングアウトすることにより、マスキングされたノイズ画像（ε_ｍ）を決定するステップと、
・前記潜在表現（ｗ）と前記マスキングされたノイズ画像（ε_ｍ）とを敵対的生成ネットワークの生成器（８０）に提供することによって予測画像

を決定するステップと、
・前記エンコーダ（７０）のパラメータを損失値に基づいて適合させることによって前記エンコーダ（７０）をトレーニングするステップであって、前記損失値は、前記予測画像

と前記トレーニング画像（ｘ_ｉ）との間の差を特徴付ける、ステップと、
を含む、方法。
前記ノイズ画像（ε）の部分（ｐ）をマスキングアウトすることは、前記部分（ｐ）内の値を、ランダムに引き出された値によって置き換えることを含む、
請求項１に記載の方法。
前記損失値は、損失関数に基づいて決定され、
前記損失関数の第１の項は、前記予測画像

と前記トレーニング画像（ｘ_ｉ）との間の差を特徴付ける、
請求項１又は２に記載の方法。
前記第１の項は、前記差のマスキングをさらに特徴付け、
前記マスキングは、前記差から、前記マスキングアウトされた部分（ｐ）内に収まるピクセルを除去する、
請求項３に記載の方法。
前記損失関数は、前記エンコーダ（７０）によって予測される前記ノイズ画像（ε）のノルムを特徴付ける第２の項を含む、
請求項３又は４に記載の方法。
前記損失関数は、弁別器の出力信号の負の対数尤度を特徴付ける第３の項を含み、
前記出力信号は、前記予測画像

を前記弁別器に提供することによって前記弁別器によって決定される、
請求項３乃至５のいずれか一項に記載の方法。
前記トレーニング画像（ｘ_ｉ）は、ランダムにサンプリングされた潜在表現、又は、ユーザ定義された潜在表現を前記生成器に提供することによって決定され、
前記損失関数は、前記ランダムにサンプリングされた潜在表現、又は、前記ユーザ定義された潜在表現と、前記エンコーダ（７０）から決定された前記潜在表現との間の差を特徴付ける第４の項を含む、
請求項３乃至６のいずれか一項に記載の方法。
前記損失関数は、前記トレーニング画像（ｘ_ｉ）を特徴抽出器に提供することによって決定された第１の特徴表現と、前記予測画像

を前記特徴抽出器に提供することによって決定された第２の特徴表現との差を特徴付ける第５の項を含み、
前記差は、好ましくは前記マスキングアウトされた部分（ｐ）内にあるピクセルを特徴付ける特徴を特徴付けない、
請求項３乃至７のいずれか一項に記載の方法。
画像（ｂ_ｉ）の拡張

を決定するためのコンピュータ実装された方法であって、
・請求項１乃至８のいずれか一項に記載の方法によってエンコーダ（７０）をトレーニングすることに基づいて、エンコーダ（７０）を取得するステップと、
・前記画像（ｂ_ｉ）を前記エンコーダ（７０）に提供することによって、第１の潜在表現（ｗ）とノイズ画像（ε）とを決定するステップと、
・前記第１の潜在表現（ｗ）を変更することにより、第２の潜在表現

を決定するステップと、
・前記エンコーダ（７０）をトレーニングする際に使用された生成器（８０）への入力として前記第２の潜在表現

と前記ノイズ画像（ε）とを提供することにより、前記拡張

を決定するステップと、
を含む方法。
機械学習システム（６０）をトレーニングするためのコンピュータ実装された方法であって、
前記機械学習システムは、画像（ｘ）の分類及び／又は回帰分析を特徴付ける出力信号（ｙ）を決定するように構成されており、
前記方法は、
・請求項９に記載のトレーニング画像（ｂ_ｉ）の拡張

を決定するステップと、
・前記拡張

に基づいて前記機械学習システム（６０）をトレーニングするステップと、
を含む、方法。
アクチュエータ（１０）の制御信号（Ａ）を決定するためのコンピュータ実装された方法であって、
前記制御信号（Ａ）は、請求項１０に従ってトレーニングされた機械学習システム（６０）の出力信号（ｙ）に基づいて決定され、
前記出力信号（ｙ）は、画像（ｘ）に基づいて決定される、
方法。
請求項１乃至８のいずれか一項に記載のトレーニング方法を実施するように構成されているトレーニングシステム（１４０）。
請求項１１に記載の方法を実施するように構成されている制御システム（４０）。
プロセッサ（４５，１４５）によって実行された場合に、請求項１乃至１１のいずれか一項に記載の方法の全てのステップをコンピュータに実施させるために構成されているコンピュータプログラム。
請求項１４に記載のコンピュータプログラムが格納されている機械可読記憶媒体（４６，１４６）。