JP2024059100A - エンコーダによって構成された画像の分析を決定するための装置及び方法 - Google Patents

エンコーダによって構成された画像の分析を決定するための装置及び方法 Download PDF

Info

Publication number
JP2024059100A
JP2024059100A JP2023178260A JP2023178260A JP2024059100A JP 2024059100 A JP2024059100 A JP 2024059100A JP 2023178260 A JP2023178260 A JP 2023178260A JP 2023178260 A JP2023178260 A JP 2023178260A JP 2024059100 A JP2024059100 A JP 2024059100A
Authority
JP
Japan
Prior art keywords
image
training
encoder
determining
latent representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023178260A
Other languages
English (en)
Inventor
リー ユメン
コレヴァ アンナ
チャン ダン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of JP2024059100A publication Critical patent/JP2024059100A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

【課題】画像の潜在表現を決定するように構成されているエンコーダをトレーニングするためのコンピュータ実装された方法及びシステムを提供する。【解決手段】方法は、トレーニング画像(xi)を、提供された画像に対する潜在表現とノイズ画像とを決定するエンコーダ(70)に提供することによって潜在表現(w)とノイズ画像(ε)とを決定するステップと、マスキングユニット(74)がノイズ画像の部分をマスキングアウトすることにより、マスキングされたノイズ画像(εm)を決定するステップと、潜在表現とマスキングされたノイズ画像とを敵対的生成ネットワークの生成器(80)に提供することによって予測画像を決定するステップと、エンコーダ(70)のパラメータを、予測画像とトレーニング画像との間の差を特徴付ける損失値に基づいて適合させることによってエンコーダ(70)をトレーニングするステップと、を含む。【選択図】図1

Description

本発明は、エンコーダをトレーニングするためのコンピュータ実装された方法と、画像の拡張を決定するための方法と、機械学習システムをトレーニングするための方法と、制御信号を決定するための方法と、トレーニングシステムと、制御システムと、コンピュータプログラムと、コンピュータ可読記憶媒体とに関する。
従来技術
Richardsonら著の「“Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation”,2021年,https://arxiv.org/pdf/2008.00951.pdf」は、画像から画像への翻訳のジェネリックなフレームワークを開示している。
Karrasら著の「“A style-based generator architecture for generative adversarial networks”,2019年,https://arxiv.org/pdf/1812.04948.pdf」は、高レベルの属性と、生成された画像における確率的変化とを自動的に学習して教師なしで分離するニューラルネットワークアーキテクチャであるStyleGANを開示している。
Karrasら著の「“Analyzing and Improving the Image Quality of StyleGAN”,2020年,https://arxiv.org/pdf/1912.04958.pdf」は、StyleGANニューラルネットワークの改良版であるStyleGAN2を開示している。
Zhangら著の「“The Unreasonable Effectiveness of Deep Features as a Perceptual Metric”,2018年,https://arxiv.org/pdf/1801.03924.pdf」は、LPIPS(Learned Perceptual Image Patch Similarity)指標を開示している。
背景技術
画像の潜在因子を自動的に分析することは、複数の技術分野において実務者らが直面するタスクである。潜在表現から画像を決定することは、例えば、敵対的生成ネットワーク(generative adversarial network:GAN)として知られるニューラルネットワークによって容易に達成可能であるが、その一方で、その反対の方向、すなわち、所与の画像に関する潜在表現を発見することは、困難な課題のままである。特に、機械学習システムを考慮する場合には、このような潜在因子を発見することは、解決されることが望ましいだろう課題である。なぜなら、これを解決することにより、画像にエンコードされた意味論的側面に関して機械学習システムをトレーニングするために既存のデータセットを拡張することが可能となるからである。例えば、画像の潜在因子とは、画像内に現在描写されている天候状況であるものとしてよい。この潜在因子の値を適合させて、適合させられた潜在表現をGANに供給することにより、所与の画像に関する種々異なる天候状況を特徴付ける拡張を作成することができる。次いで、これらの拡張を、機械学習システムをトレーニングするために使用することができる。トレーニングのために使用される画像の潜在因子、例えば意味論的因子に関してより多様なデータを用いて機械学習システムがトレーニングされることとなるので、分類及び/又は回帰分析に関する機械学習システムの性能を向上させることができる。
画像に関する潜在因子を決定するプロセスは、GANに基づいて達成可能である。このような方法は、当分野においては、「GAN反転」とも称される。GAN反転に関する従前の研究では、FFHQのような単純な顔データセットに関して有望な結果が示されている。GAN生成器を使用して、Richardsonらは、所与の画像から特徴を抽出して、これらの特徴を中間潜在変数にマッピングするようにエンコーダをトレーニングすることを提案しており、この場合、潜在変数は、画像を操作するために、例えば、髪の色及びその他の顔の細部を変化させるために使用可能である。しかしながら、例えば、運転シーンのデータセットのような比較的高度な構造的複雑性を有するデータセットのことになると、シーン内の全てのオブジェクトを再構築すること、すなわち、画像内の全ての細部を復元することは、公知の方法では十分に可能ではない。例えば、顔データセットの場合には、人間の顔は、おおよそ中央にある単一のオブジェクトであるが、例えば、運転シーンを描写するデータセットでは、画像内に自動車のような複数のオブジェクトが存在するので、画像レイアウトが格段に多様になる。
Richardsonら著、「"Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation",2021年,https://arxiv.org/pdf/2008.00951.pdf」 Karrasら著、「"A style-based generator architecture for generative adversarial networks",2019年,https://arxiv.org/pdf/1812.04948.pdf」 Karrasら著、「"Analyzing and Improving the Image Quality of StyleGAN",2020年,https://arxiv.org/pdf/1912.04958.pdf」 Zhangら著、「"The Unreasonable Effectiveness of Deep Features as a Perceptual Metric",2018年,https://arxiv.org/pdf/1801.03924.pdf」
有利には、独立請求項1の特徴を有する方法は、画像の潜在因子を正確に分析することができるエンコーダをトレーニングすることを可能にする。このことは、エンコーダが、高度な構造的複雑性を有する画像を拡張するために、かつ、それによって正確な拡張を決定するために適しているという追加的な利点を有する。
発明の開示
第1の態様においては、本発明は、画像の潜在表現を決定するように構成されているエンコーダをトレーニングするためのコンピュータ実装された方法であって、エンコーダをトレーニングすることは、
・トレーニング画像をエンコーダに提供することによって潜在表現とノイズ画像とを決定するステップであって、エンコーダは、提供された画像に対する潜在表現とノイズ画像とを決定するように構成されている、ステップと、
・ノイズ画像の部分をマスキングアウトすることにより、マスキングされたノイズ画像を決定するステップと、
・潜在表現とマスキングされたノイズ画像とを敵対的生成ネットワークの生成器に提供することによって予測画像を決定するステップと、
・エンコーダのパラメータを損失値に基づいて適合させることによってエンコーダをトレーニングするステップであって、損失値は、予測画像とトレーニング画像との間の差を特徴付ける、ステップと
を含む、方法に関する。
エンコーダは、入力として画像を受信するように、かつ、画像のピクセル値に基づいて潜在表現を予測するように構成された機械学習システムであると理解することが可能である。好ましくは、エンコーダは、ニューラルネットワークであり、又は、ニューラルネットワークを含む。本方法においては、エンコーダには、潜在表現を予測するためにトレーニング画像が提供される。潜在表現を決定することは、画像分析の特定の形態の1つとして理解することが可能である。エンコーダは、画像を特徴付ける特定の潜在因子に関して画像を分析するようにトレーニングされ、この場合、潜在因子は、潜在表現に含まれる。
潜在表現に含まれる潜在因子を、当分野においては、「スタイル」と称することもできる。換言すれば、潜在表現は、画像の少なくとも1つの潜在的なスタイルを特徴付けるものとしても理解することが可能である。潜在因子は、画像の外観として一般的に理解することが可能である。例えば、1つの潜在因子は、画像内に描写されている状況の明るさであるものとしてよい。その場合、この潜在因子の具体的な値は、例えば昼間のシーンを描写する画像を特徴付けることができる。この潜在因子の他の値は、画像によって描写される夜間のシーンを特徴付けることができる。
エンコーダは、トレーニング中の第2のコンポーネント、すなわち、ノイズ画像を予測するようにさらに構成されている。このノイズ画像は、好ましくはトレーニング画像と同一のアスペクト比を有する画像として理解することが可能である。ノイズ画像という名称は、StyleGANにおける類似のエンティティの類似のネーミングに関して選択されている。換言すれば、ノイズ画像は、画像内のノイズの予測として理解されるべきではない。ノイズ画像は、生成器によって提供されるような画像の反転の1つの部分を特徴付けるエンティティである(他の部分は、潜在表現である)。換言すれば、生成器によってトレーニング画像が生成された場合に、エンコーダは、そのトレーニング画像を生成するための生成器への入力として使用されたノイズを決定することを学習する。ノイズ画像は、例えばトレーニング画像内のピクセルがどの程度ノイズを受けているかのパーセンテージ値を特徴付ける0から1までの間の値を含み得る。ノイズ画像は、トレーニング画像と同一のサイズであるものとしてよく、この場合、ノイズ画像内のピクセルと、トレーニング画像内のピクセルとの間に一対一の対応関係が存在する。しかしながら、エンコーダが、トレーニング画像と比較してスケールダウンされたサイズを有するノイズ画像を予測することも可能である。
エンコーダは、種々異なる種類のセンサからの画像を処理するように構成可能であると理解することが可能である。この意味において、画像は、カメラ、LIDARセンサ、レーダセンサ、超音波センサ又はサーマルカメラから得られたセンサ測定値として理解することが可能である。
本方法においては、ノイズ画像の部分がマスキングアウトされる。このことは、ノイズ画像内のピクセルを他の値によって置き換えることとして理解することが可能である。例えば、ノイズ画像内のピクセル値を、好ましくはガウス分布からランダムに引き出されたピクセル値によって置き換えることによってマスキングアウトすることができる。どのピクセルをマスキングアウトすべきかを選択するために、画像内のピクセルを、マスキングアウトされるべきもの又はマスキングアウトされるべきでないものにランダムに割り当てることができる。代替的に、マスキングアウトされるべき画像の領域、例えば矩形の領域を、例えばランダムに決定することも可能である。このような矩形の領域は、パッチとも称されることがある。
潜在表現とマスキングされたノイズ画像とは、生成器に提供され、生成器は、潜在表現とノイズ画像とに基づいて画像を決定するように構成されている。生成器は、ニューラルネットワークであるものとしてよく、特に、ニューラルネットワークの種々異なる層において潜在表現とノイズ画像とを受信するように構成されたニューラルネットワークであるものとしてよい。好ましくは、エンコーダは、潜在表現を必要とする生成器の全ての入力に潜在表現を提供することができる。代替的に、複数の異なる潜在表現を予測して、これらの複数の異なる潜在表現を、潜在表現を必要とする入力に提供するように、エンコーダを構成することも可能である。ノイズ画像に関して、エンコーダは、好ましくは単一のノイズ画像を予測することができる。その場合、生成器には、ノイズ画像を必要とする全ての入力においてノイズ画像を提供することができる。代替的に、ノイズ画像を必要とする生成器の単一の入力のみにノイズ画像を提供し、ノイズ画像を必要とする他の全ての入力には、単一のランダムに引き出されたノイズ画像、又は、複数の異なるように引き出されたノイズ画像のコピーを提供するようにしてもよい。
好ましくは、生成器は、StyleGAN又はStyleGAN2アーキテクチャに従って構成された生成器である。このような生成器は、「StyleGAN又はStyleGAN2の生成器」とも称される。StyleGAN又はStyleGAN2の生成器を使用する実施形態においては、潜在表現は、好ましくはStyleGAN又はStyleGAN2の生成器に直接的に提供され、すなわち、マッピングネットワークの使用が省略される。StyleGAN及びStyleGAN2は、StyleGANのそれぞれ異なる部分に対してそれぞれ異なる潜在表現及び/又はノイズ画像を受信するようにも構成可能であるので、エンコーダは、StyleGAN又はStyleGAN2への入力として機能する複数の潜在表現及び/又はノイズ画像を決定するようにも構成可能である。StyleGAN又はStyleGAN2は、生成器を取得するために使用される好ましい敵対的生成ネットワークであるが、少なくとも潜在表現とノイズ画像とに基づいて画像を決定する限り、その他の機械学習システムも同様に可能である。
エンコーダのトレーニング中、生成器のパラメータは、好ましくは、固定されており、すなわち、適合させられない。しかしながら、一般的には、本方法の一部として生成器のパラメータを更新することも可能である。
生成器は、潜在表現とマスキングされたノイズ画像とに基づいて予測画像を決定する。次いで、エンコーダは、トレーニング画像と予測画像との間の差に基づいて、エンコーダのパラメータを適合させることによってトレーニングされる。このことは、損失値を決定し、この損失値に基づいてパラメータを適合させることによって達成される。好ましくは、このことは、損失に関するパラメータの勾配を逆伝播アルゴリズムによって決定し、負の勾配に従ってパラメータを適合させることによって達成される。代替的に、他の最適化法、例えば進化的最適化法も同様に使用することができる。
本方法は、生成器を反転させるための方法、すなわち、GAN反転のための方法としても理解することが可能である。これにより、生成器のトレーニング中に決定される潜在空間からの潜在因子を、エンコーダによって復元することができる。本発明者らは、ノイズ画像の部分をマスキングすることが、提供された画像に関する潜在因子を正確に決定する際におけるエンコーダの性能の改善をもたらすこと、すなわち、エンコーダが、画像をより良好に分析可能となることを発見した。このことは、自然のシーンからの画像、又は、種々異なる可能性のある複数のオブジェクトが含まれる画像のような高度な構造的複雑性を描写する画像に対して特に当てはまる。
損失値は、特に損失関数に基づいて決定可能であり、損失関数の第1の項は、予測画像とトレーニング画像との間の差を特徴付ける。
好ましくは、第1の項は、差のマスキングをさらに特徴付け、マスキングは、差から、マスキングアウトされた部分内に収まるピクセルを除去する。
この差は、例えば、トレーニング画像及び予測画像からの対応するピクセルの平均Lノルムであるものとしてよい。本発明者らは、この差における、マスキングアウトされる対象となったピクセルを考慮しないことが、エンコーダの性能にとって有益であることを発見した。
好ましくは、損失関数は、エンコーダによって予測されるノイズ画像のノルムを特徴付ける第2の項を含む。
このことは、大きい分散を有するノイズ画像を予測することをエンコーダが学習することを、第2の項が抑制し、それによりノイズ画像によって提供される情報の量が制限されるので、有利である。それにより、画像の潜在因子がより忠実に潜在表現にエンコードされ、ノイズ画像に漏れ出ることがなくなる。
好ましくは、損失関数は、弁別器の出力信号の負の対数尤度を特徴付ける第3の項を含み、出力信号は、予測画像
Figure 2024059100000002
を弁別器に提供することによって弁別器によって決定される。
本発明者らは、弁別器を使用することによって、提供された画像に関する正確な潜在表現を決定するためのエンコーダの精度がさらに向上することを発見した。弁別器のパラメータも、エンコーダのトレーニング中、好ましくは固定されている。デコーダを使用することにより、エンコーダは、それぞれの潜在因子に対する正確な値を特徴付ける潜在表現を決定するようにさらに促される。生成器及び弁別器は、固定されているものとしてよいので、エンコーダは、好ましくはトレーニング中に適合させることができる唯一のエンティティであり、すなわち、予測画像を変化させることができる唯一のエンティティである。本発明者らが発見したように、この項は、最適化中、現実のように見える画像を生成器によって生成させるための有利なインセンティブを提供する。換言すれば、エンコーダは、生成器によって現実のように見える画像にマッピングされる潜在表現を決定するように動機付けられる。
好ましくは、トレーニング画像は、ランダムにサンプリングされた潜在表現又はユーザ定義された潜在表現を生成器に提供することによって決定可能であり、損失関数は、ランダムにサンプリングされた潜在表現又はユーザ定義された潜在表現と、エンコーダから決定された潜在表現との間の差を特徴付ける第4の項を含む。
このことは、潜在表現と予測画像との間で前後にマッピングする際における周期的な一貫性を提供するものとして理解することが可能である。したがって、開始点は、ランダムに選択された潜在表現、又は、ユーザの裁量で選択された潜在表現であるものとしてよく、この潜在表現は、次いで、トレーニング画像を決定するために生成器に提供される。トレーニング画像は、次いで、エンコーダによって予測されるような潜在表現を決定するためにエンコーダに提供される。この潜在表現は、以前に選択された潜在表現に近いものであるべきであり、すなわち、潜在表現と画像との間での前後のマッピングは、同様の結果をもたらすべきである。第4の項は、有利にはそのような周期的な一貫性を保証するようにエンコーダを動機付ける。したがって、本発明者らは、第4の項が、有利にはエンコーダの精度をさらに向上させることを発見した。
第4の項が含まれる実施形態においては、生成器から予測画像を生成するために必要とされるノイズ画像は、ランダムにサンプリングされるものとしてもよいし、又は、所定のノイズ画像であるものとしてもよい。
好ましくは、損失関数は、トレーニング画像を特徴抽出器に提供することによって決定された第1の特徴表現と、予測画像を特徴抽出器に提供することによって決定された第2の特徴表現との差を特徴付ける第5の項を含み、差は、好ましくはマスキングアウトされた部分内にあるピクセルを特徴付ける特徴を特徴付けない。
このことは、LPIPS指標を特徴付ける損失関数に項を追加することとして理解することが可能である。特徴抽出器は、供給されたトレーニング画像及び予測画像からそれぞれ機械学習の意味において特徴を決定するように構成された機械学習システムとして理解することが可能である。例えば、特徴抽出器は、VGGnetの畳み込み部分のようなニューラルネットワークであるものとしてよい。本発明者らは、第5の項を追加することによってエンコーダの精度がさらに向上することを発見した。
損失関数において第1の項から第5の項を任意に組み合わせることが可能である。換言すれば、これらの項のうちのいくつかを用いて、又は、これらの項のうちのいくつかを除外してトレーニングすることが可能である。
他の態様においては、本発明は、画像の拡張を決定するためのコンピュータ実装された方法であって、
・上記のような方法によってエンコーダをトレーニングすることに基づいて、エンコーダを取得するステップと、
・画像をエンコーダに提供することによって、第1の潜在表現とノイズ画像とを決定するステップと、
・第1の潜在表現を変更することにより、第2の潜在表現を決定するステップと、
・エンコーダをトレーニングする際に使用された生成器への入力として第2の潜在表現とノイズ画像とを提供することにより、拡張を決定するステップと、
を含む方法に関する。
トレーニングすることに基づいてエンコーダを取得することは、トレーニングのための方法を、拡張を決定するための方法の一部として実施することとして理解することが可能である。代替的に、トレーニングすることに基づいてエンコーダを取得することを、既にトレーニング済みのエンコーダを取得することとして理解することも可能であり、この場合、エンコーダは、上記で提示したようなトレーニングのための方法によってトレーニング済みである。
拡張を決定するための方法においては、エンコーダを使用して画像から潜在表現とノイズ画像とを抽出し、潜在表現における潜在因子を変更し、エンコーダをトレーニングする際に使用された生成器に、変更された潜在表現とノイズ画像とを提供することにより拡張を決定することによって、拡張が決定される。
有利には、本方法は、機械学習システムをトレーニングするために使用することができる画像を作成することを可能にする。潜在因子の変化に起因して、拡張は、少なくともその内容の一部を保持しながら画像の種々異なるスタイルを特徴付ける。このようにして、機械学習システムをトレーニングするために拡張を使用すると、この拡張によって種々異なるスタイルが特徴付けられるので、より多様な画像の集合が機械学習システムに提供されることとなる。本発明者らは、このことにより、機械学習システムの性能が改善されることを発見した。
したがって、他の態様においては、本発明は、機械学習システムをトレーニングするためのコンピュータ実装された方法であって、機械学習システムは、画像の分類及び/又は回帰分析を特徴付ける出力信号を決定するように構成されており、本方法は、
・請求項9に記載のトレーニング画像の拡張を決定するステップと、
・拡張に基づいて機械学習システムをトレーニングするステップと、
を含む、方法に関する。
本発明の実施形態を、以下の図面を参照しながらより詳細に説明する。
エンコーダをトレーニングするためのトレーニング方法の一部を概略的に示す図である。 ノイズ画像をマスキングするための例を概略的に示す図である。 画像を拡張するための拡張装置を示す図である。 機械学習システムをトレーニングするためのトレーニングシステムを示す図である。 アクチュエータの環境におけるアクチュエータを制御するための機械学習システムを含む制御システムを示す図である。 少なくとも半自律的なロボットを制御する制御システムを示す図である。 製造機械を制御する制御システムを示す図である。 自動化されたパーソナルアシスタントを制御する制御システムを示す図である。 アクセス制御システムを制御する制御システムを示す図である。 監視システムを制御する制御システムを示す図である。 イメージングシステムを制御する制御システムを示す図である。 医用分析システムを制御する制御システムを示す図である。
実施形態の説明
図1は、エンコーダ(70)をトレーニングするための方法の実施形態の一部を示している。本方法の間、エンコーダ(70)は、画像の(スタイルとしても知られる)潜在因子を特徴付ける潜在表現(w)とノイズ画像(ε)とを決定するようにトレーニングされ、ノイズ画像(ε)は、画像内のノイズの領域を予測するものとして理解することが可能である。
エンコーダ(70)は、単一のトレーニング画像(x)に基づいてトレーニング可能である。しかしながら、好ましくは、本方法は、エンコーダ(70)をトレーニングするために複数のトレーニング画像(x)を使用する。1つのトレーニング画像(x)又は複数のトレーニング画像(x)は、好ましくは高度な構造的複雑性を有するシーン、例えば自動車を運転している際に遭遇するシーン及び/又は街中のシーンのような自然環境のシーンを描写する。
本実施形態においては、エンコーダ(70)は、潜在表現(w)及び/又はノイズ画像(ε)を予測するニューラルネットワークによって特徴付けられる。他の実施形態においては、潜在表現(w)及び/又はノイズ画像(ε)を予測するために他の機械学習モデルを使用するものとしてよい。エンコーダ(70)は、好ましくはエンコーダ(70)に供給されたトレーニング画像(x)から特徴(f)を抽出するための特徴抽出器(71)を含む。特徴(f)は、好ましくは潜在表現(w)を決定するように構成されたスタイルユニット(72)に転送可能であり、かつ、ノイズ画像(ε)を決定するように構成されたノイズユニット(73)に転送可能である。スタイルユニット(72)及び/又はノイズユニット(73)は、好ましくはニューラルネットワークであるものとしてもよい。しかしながら、一般的に、スタイルユニット(72)及び/又はノイズユニット(73)のために他の機械学習モデルを使用することもできる。他の実施形態においては、エンコーダ(70)は、潜在表現(w)とノイズ画像(ε)とを予測するための単一のニューラルネットワークを含むこともあり得る。
本実施形態においては、潜在表現(w)は、行列又はテンソルであるように構成されており、ノイズ画像(ε)は、行列であるように構成されている。エンコーダ(70)は、潜在表現(w)及びノイズ画像(ε)の幅寸法及び高さ寸法が、トレーニング画像(x)の幅寸法及び高さ寸法と同一の比率を有することとなるように構成されている。このことは、好ましくは特徴抽出器(71)と、スタイルユニット(72)と、ノイズユニット(73)とにおいてアスペクト保存演算を使用することによって、例えば幅及び高さに沿って等しいストライドを用いた畳み込み演算を使用することによって達成可能である。
ノイズ画像(ε)は、ノイズ画像(ε)をマスキングするように構成されたマスキングユニット(74)に提供される。本実施形態においては、ノイズ画像(ε)の要素をランダムに選択し、それぞれの選択された要素を、ガウス分布からランダムに引き出された値によって置き換え、それによりマスキングされたノイズ画像(ε)を決定することによって、マスキングが実施される。さらなる実施形態においては、ランダムに引き出された値を、他の確率分布から引き出すこともできる。
次いで、潜在表現(w)とマスキングされたノイズ画像(ε)とが、敵対的生成ネットワークの生成器(80)への入力として提供される。敵対的生成ネットワークは、好ましくはエンコーダ(70)をトレーニングするための方法を実施する前にトレーニング済みである。しかしながら、エンコーダ(70)をトレーニングする際における追加的なステップとして、敵対的生成ネットワークをトレーニングすることも可能である。敵対的生成ネットワークは、提供された潜在表現とノイズ画像とに基づいて画像を決定するように構成されている。好ましくは、敵対的生成ネットワークは、StyleGAN又はStyleGAN2である。
潜在表現は、好ましくはStyleGAN又はStyleGAN2のマッピングネットワークを使用することなく生成器(80)に提供される。このことは、エンコーダがStyleGAN又はStyleGAN2の中間潜在空間から潜在表現を決定することを学習するので、有利である。この中間潜在空間は、StyleGAN又はStyleGAN2の元の潜在空間よりも良好な解きほぐし(disentanglement)を有するので、このことにより、画像に関する潜在因子を決定する際におけるエンコーダの性能が、有利にはさらに向上する。
生成器(80)は、潜在表現(w)とノイズ画像(ε)とに基づいて予測画像
Figure 2024059100000003
を決定する。次いで、トレーニング画像(x)と予測画像
Figure 2024059100000004
との間の差を特徴付ける損失値を決定することができる。次いで、損失値を最小化するようにトレーニングを実施することができる。例えば、損失値は、損失関数に基づいて決定可能である。損失関数は、特に、差を特徴付ける第1の項、すなわち、
Figure 2024059100000005
を特徴付けることができ、ここで、x及び
Figure 2024059100000006
は、それぞれトレーニング画像及び予測画像であり、
Figure 2024059100000007
は、アダマール積である。1-Mの項は、差におけるピクセルの好ましい重み付けを示し、すなわち、マスキングされたノイズ画像(ε)においてマスキングアウトされたピクセルは、第1の項Lrecを決定する際には考慮されない。1は、トレーニング画像(x)及び予測画像
Figure 2024059100000008
と同一の形状の全て1の行列として理解されるべきであり、ノイズ画像(ε)がトレーニング画像(x)とは異なる形状を有する場合には、ノイズ画像(ε)をマスキングするために使用されるマスクが、トレーニング画像(x)のサイズにスケーリングされる。差
Figure 2024059100000009
に対するL-ノルムを決定することは、特にx及び
Figure 2024059100000010
からの対応するピクセルのユークリッド距離の平均を求めることとして理解される。
好ましくは、損失関数は、ノイズ画像(ε)のノルムを特徴付ける第2の項を含む。好ましくは、これは、ノイズ画像εにおける値の和であり、これにより、ノイズ画像を予測する際におけるスパース性を促進する。第2の項は、以下の式:
noise_reg=|ε|
によって表現可能である。
好ましくは、損失関数は、弁別器の出力信号の負の対数尤度を特徴付ける第3の項を含み、この出力信号は、予測画像
Figure 2024059100000011
を弁別器に提供することによって弁別器によって決定される。換言すれば、敵対的生成ネットワークをトレーニングする際に使用される弁別器は、エンコーダ(70)をトレーニングする際における追加的なガイドとして使用可能である。デコーダを介して、エンコーダは、予測画像
Figure 2024059100000012
がどの程度「現実的に」見えるかに関する追加的な情報を取得し、それにより、「現実的に」見える画像を予測するための潜在表現の有用性に関する情報を取得する。第3の項は、以下の式:
Figure 2024059100000013
によって表現可能であり、ここで、Dは、弁別器であり、
Figure 2024059100000014
は、期待値関数である。
好ましくは、損失関数は、ランダムにサンプリングされた潜在表現又はユーザ定義された潜在表現と、エンコーダ(70)から決定された潜在表現との間の差を特徴付ける第4の項を含み、ランダムにサンプリングされた潜在表現又はユーザ定義された潜在表現は、生成器(80)に提供され、それによりトレーニング画像(x)が決定される。換言すれば、トレーニング画像(x)は、ランダムにサンプリングされた潜在表現又はユーザ定義された潜在表現に基づいて決定される。第4の項は、以下の式:
Figure 2024059100000015
によって表現可能であり、ここで、wgtは、ランダムにサンプリングされた潜在表現又はユーザ定義された潜在表現である。
好ましくは、損失関数は、トレーニング画像(x)を特徴抽出器に提供することによって決定される第1の特徴表現と、予測画像
Figure 2024059100000016
を特徴抽出器に提供することによって決定される第2の特徴表現との差を特徴付ける第5の項を含み、この差は、好ましくはマスキングアウトされた部分内にあるピクセルを特徴付ける特徴を特徴付けない。このことは、エンコーダ(70)をトレーニングする際における追加的なガイドとしてLPIPS指標を使用することとして理解することが可能である。第5の項は、以下の式:
Figure 2024059100000017
によって表現可能であり、ここで、Vは、特徴抽出器であり、マスクMは、第1の項Lrecに関して行われるのと同様に、特徴の幅及び高さにスケーリングされている。
損失関数Lを決定するために、これらの項の任意の組合せを使用することができる。好ましくは、それぞれ異なる項に1つの重みが割り当てられており、それぞれの重みは、その他の項に関するそれぞれの項の重要性を制御する。したがって、損失関数は、以下の式:
Figure 2024059100000018
によって表現可能であり、ここで、α乃至αは、それぞれの項の重みである。これらの重みは、トレーニング方法のハイパーパラメータとして理解することが可能である。
次いで、エンコーダ(70)を勾配降下法によってトレーニングすることができる。このことは、特に、パラメータに関する損失の負の勾配に従ってパラメータを適合させることとして理解することが可能である。
図2は、マスキングされたノイズ画像(ε)を決定するために、どのようにしてノイズ画像(ε)をマスキングすることができるかを示している。ノイズ画像(ε)は、行列によって特徴付けられ、この行列の要素は、ノイズ値である。複数の要素が、マスキングアウトされるように選択される。これらの複数の要素は、ノイズ画像(ε)のマスキングアウトされた部分(p)とも称される。これらの複数の要素を、二値行列Mによって特徴付けることができ、この二値行列Mは、マスキングアウトされた部分(p)に対しては1の値を含み、全ての他の要素に対しては0の値を含む。次いで、マスキングアウトされた部分を、ランダムにサンプリングされた値によって、例えばガウス分布からサンプリングされた値によって置き換えることができる。
図3は、提供された画像(b)を拡張するように構成された拡張ユニット(90)の実施形態を示している。拡張ユニット(90)は、上記で提示したトレーニング方法によってトレーニング済みであるエンコーダ(70)を含む。エンコーダ(70)は、提供された画像(b)を受信し、ノイズ画像(ε)と潜在表現(w)とを決定する。潜在表現(w)は、変化ユニット(91)に提供される。変化ユニット(91)は、潜在表現の1つ又は複数の潜在因子を変化させるように構成されている。好ましくは、変化ユニット(91)は、1つ又は複数の因子をランダムに決定して変化させる。変化の量も、変化ユニット(91)のハイパーパラメータとして理解される間隔で、ランダムに選択可能である。変化ユニット(91)は、潜在表現(w)の潜在因子を変化させることによって第2の潜在表現
Figure 2024059100000019
を決定する。第2の潜在表現
Figure 2024059100000020
とノイズ画像(ε)とは、エンコーダ(70)をトレーニングする際に使用された生成器(80)に提供される。次いで、生成器(80)は、拡張
Figure 2024059100000021
として提供される画像を決定する。
図4は、機械学習システム(60)をトレーニングデータセット(T)によってトレーニングするための拡張ユニット(90)を使用する、トレーニングシステム(140)の実施形態を示している。トレーニングデータセット(T)は、機械学習システム(60)をトレーニングするために使用される複数の画像(b)を含み、トレーニングデータセット(T)は、それぞれの画像(b)ごとに所望の出力信号(t)をさらに含み、この所望の出力信号(t)は、画像(b)に対応し、画像(b)の所望の分類及び/又は所望の回帰分析結果を特徴付ける。
トレーニングのために、トレーニングデータユニット(150)は、コンピュータ実装されるデータベース(St)にアクセスし、このデータベース(St)は、トレーニングデータセット(T)を提供する。トレーニングデータユニット(150)は、トレーニングデータセット(T)から少なくとも1つの画像(b)と、この画像(b)に対応する所望の出力信号(t)とを、好ましくはランダムに決定して、この画像(b)を機械学習システム(60)に送信する。機械学習システム(60)は、画像(b)に基づいて出力信号(y)を決定する。
所望の出力信号(t)と決定された出力信号(y)とが、修正ユニット(180)に送信される。
次いで、修正ユニット(180)は、所望の出力信号(t)と決定された出力信号(y)とに基づいて、機械学習システム(60)に対する新たなパラメータ(Φ’)を決定する。この目的で、修正ユニット(180)は、所望の出力信号(t)と決定された出力信号(y)とを、損失関数を使用して比較する。損失関数は、決定された出力信号(y)が所望の出力信号(t)からどの程度ずれているかを特徴付ける第1の損失値を決定する。所与の実施形態においては、損失関数として負の対数尤度関数が使用される。代替的な実施形態においては、その他の損失関数も考えられる。
さらに、決定された出力信号(y)と所望の出力信号(t)とが、例えばテンソル形式の複数のサブ信号をそれぞれ含むことも考えられ、この場合、所望の出力信号(t)のサブ信号は、決定された出力信号(y)のサブ信号に対応する。例えば、機械学習システム(60)が、オブジェクト検出のために構成されており、第1のサブ信号が、画像(b)の一部に関してオブジェクトの発生確率を特徴付け、第2のサブ信号が、そのオブジェクトの正確な位置を特徴付けることが考えられる。決定された出力信号(y)と所望の出力信号(t)とが、複数の対応するサブ信号を含む場合には、好ましくはそれぞれの対応するサブ信号ごとに適当な損失関数によって第2の損失値が決定され、これらの決定された第2の損失値が適当に組み合わせられて、例えば重み付き和によって第1の損失値が形成される。
修正ユニット(180)は、第1の損失値に基づいて新たなパラメータ(Φ’)を決定する。所与の実施形態においては、このことは、勾配降下法、好ましくは確率的勾配降下法、Adam又はAdamWを使用して実施される。さらなる実施形態においては、トレーニングは、ニューラルネットワークをトレーニングするための進化的アルゴリズム又は二次法に基づくこともできる。
他の好ましい実施形態においては、上記のトレーニングは、所定の反復ステップ回数にわたって反復的に繰り返され、又は、第1の損失値が所定の閾値を下回るまで反復的に繰り返される。代替的又は追加的に、テストデータセット又は検証データセットに対する第1の平均損失値が所定の閾値を下回ると、トレーニングを終了させることも考えられる。複数回の反復のうちの少なくとも1回の反復において、以前の反復において決定された新たなパラメータ(Φ’)が、機械学習システム(60)のパラメータ(Φ)として使用される。
さらに、トレーニングシステム(140)は、少なくとも1つのプロセッサ(145)と、少なくとも1つの機械可読記憶媒体(146)とを含み得るものであり、少なくとも1つの機械可読記憶媒体(146)は、プロセッサ(145)によって実行された場合に本発明の態様のうちの1つによるトレーニング方法をトレーニングシステム(140)に実行させる命令を含む。
図5は、アクチュエータ(10)の環境(20)におけるアクチュエータ(10)の実施形態を示している。アクチュエータ(10)は、制御システム(40)と相互作用し、制御システム(40)は、アクチュエータ(10)を制御するために機械学習システム(60)を使用する。アクチュエータ(10)とアクチュエータ(10)の環境(20)とを、合わせてアクチュエータシステムと称することとする。好ましくは等間隔の時点に、センサ(30)がアクチュエータシステムの状態を感知する。センサ(30)は、複数のセンサを含み得る。好ましくは、センサ(30)は、環境(20)の画像を撮影する光学センサである。感知された状況を符号化する、センサ(30)の出力信号(S)(又はセンサ(30)が複数のセンサを含む場合には、これらのセンサの各々ごとの出力信号(S))が、制御システム(40)に送信される。
それにより、制御システム(40)は、センサ信号(S)のストリームを受信する。次いで、制御システム(40)は、センサ信号(S)のストリームに依存して一連の制御信号(A)を計算し、これらの制御信号(A)は、次いで、アクチュエータ(10)に送信される。
制御システム(40)は、センサ(30)のセンサ信号(S)のストリームを、任意選択肢の受信ユニット(50)において受信する。受信ユニット(50)は、センサ信号(S)を画像(x)に変換する。代替的に、受信ユニット(50)が設けられていない場合には、それぞれのセンサ信号(S)を直接的に画像(x)として取得するものとしてもよい。画像(x)を、例えばセンサ信号(S)の抜粋として提供することができる。代替的に、センサ信号(S)を処理して画像(x)を生成するものとしてもよい。換言すれば、画像(x)は、センサ信号(S)に従って提供される。
次いで、画像(x)は、機械学習システム(60)に伝送される。
機械学習システム(60)は、パラメータ(Φ)によってパラメータ化されており、このパラメータ(Φ)は、パラメータ記憶装置(St)に格納されており、パラメータ記憶装置(St)によって提供される。
機械学習システム(60)は、画像(x)から出力信号(y)を決定する。出力信号(y)は、画像(x)に1つ又は複数のラベルを割り当てる情報を含む。出力信号(y)は、任意選択肢の変換ユニット(80)に送信され、変換ユニット(80)は、出力信号(y)を制御信号(A)に変換する。次いで、制御信号(A)は、アクチュエータ(10)を相応に制御するためにアクチュエータ(10)に送信される。代替的に、出力信号(y)を直接的に制御信号(A)として取得するものとしてもよい。
アクチュエータ(10)は、制御信号(A)を受信し、相応に制御され、制御信号(A)に対応する行動を実施する。アクチュエータ(10)は、制御信号(A)をさらなる制御信号に変換する制御ロジックを含み得るものであり、その場合、このさらなる制御信号を使用してアクチュエータ(10)が制御される。
さらなる実施形態においては、制御システム(40)は、センサ(30)を含み得る。さらに他の実施形態においては、制御システム(40)は、代替的又は追加的にアクチュエータ(10)を含み得る。
さらに他の実施形態においては、制御システム(40)が、アクチュエータ(10)に代えて又はこれに加えて、ディスプレイ(10a)を制御することを想定することができる。
さらに、制御システム(40)は、少なくとも1つのプロセッサ(45)と、少なくとも1つの機械可読記憶媒体(46)とを含み得るものであり、少なくとも1つの機械可読記憶媒体(46)上には、実行された場合に本発明の態様による方法を制御システム(40)に実行させる命令が格納されている。
図6は、少なくとも半自律的なロボット、例えば少なくとも半自律的な車両(100)を制御するために制御システム(40)が使用される実施形態を示している。
センサ(30)は、1つ又は複数のビデオセンサ、及び/又は、1つ又は複数のレーダセンサ、及び/又は、1つ又は複数の超音波センサ、及び/又は、1つ又は複数のLiDARセンサを含み得る。これらのセンサの一部又は全部は、必須ではないが、好ましくは車両(100)に搭載されている。
機械学習システム(60)は、画像(x)に基づいて、少なくとも半自律的なロボットの近傍にあるオブジェクトを検出するように構成可能である。出力信号(y)は、少なくとも半自律的なロボットの近傍におけるどこにオブジェクトが位置しているかを特徴付ける情報を含み得る。次いで、例えば検出されたオブジェクトとの衝突を回避するために、この情報に従って制御信号(A)を決定することができる。
好ましくは車両(100)に搭載されているアクチュエータ(10)は、車両(100)のブレーキ、推進システム、エンジン、ドライブトレイン又はステアリングによって提供可能である。検出されたオブジェクトとの衝突を車両(100)が回避するように、アクチュエータ(10)が制御されるように、制御信号(A)を決定することができる。検出されたオブジェクトを、機械学習システム(60)が最も尤もらしいと見なした、それらのオブジェクトの正体、例えば歩行者や樹木に従って分類し、その分類に依存して、制御信号(A)を決定することもできる。
代替的又は追加的に、制御信号(A)は、例えば機械学習システム(60)によって検出されたオブジェクトが表示されるように、ディスプレイ(10a)を制御するためにも使用可能である。車両(100)が、検出されたオブジェクトのうちの少なくとも1つと衝突しそうになった場合に、警告信号が生成されるように、制御信号(A)がディスプレイ(10a)を制御することができるようにすることも想像することができる。警告信号は、警告音及び/又は触覚信号、例えば車両のステアリングホイールの振動であるものとしてよい。
さらなる実施形態においては、少なくとも半自律的なロボットは、例えば、飛行、水泳、潜水又は歩行によって移動することができる他の移動型ロボット(図示せず)によって提供可能である。移動型ロボットは、特に、少なくとも半自律的な芝刈り機、又は、少なくとも半自律的な掃除ロボットであるものとしてよい。上記の全ての実施形態において、移動型ロボットが前述の識別されたオブジェクトとの衝突を回避することができるように、移動型ロボットの推進ユニット及び/又はステアリング及び/又はブレーキが制御されるように、制御信号(A)を決定することができる。
さらなる実施形態においては、少なくとも半自律的なロボットは、園芸用ロボット(図示せず)によって提供可能であり、園芸用ロボットは、センサ(30)、好ましくは光学センサを使用して、環境(20)における植物の状態を特定する。アクチュエータ(10)は、液体を噴霧するためのノズル、及び/又は、切断装置、例えば、ブレードを制御することができる。植物の識別された種及び/又は識別された状態に依存して、アクチュエータ(10)に、適当な液体の適当な量を植物に噴霧させるように、及び/又は、植物を切断させるように、制御信号(A)を決定することができる。
さらに他の実施形態においては、少なくとも半自律的なロボットは、例えば、洗濯機、ストーブ、オーブン、電子レンジ又は食器洗浄機のような家電装置(図示せず)によって提供可能である。センサ(30)、例えば光学センサは、家電装置によって処理が施されるべきオブジェクトの状態を検出することができる。例えば、家電装置が洗濯機である場合には、センサ(30)は、洗濯機内の洗濯物の状態を検出することができる。次いで、検出された洗濯物の素材に依存して、制御信号(A)を決定することができる。
図7は、例えば生産ラインの一部としての、製造システム(200)の製造機械(11)(例えば、パンチカッタ、カッタ、ガンドリル、又は、グリッパ)を制御するために制御システム(40)が使用される実施形態を示している。製造機械は、製造された製品(12)を移動させる搬送装置、例えば、コンベヤベルト又は組み立てラインを含み得る。制御システム(40)は、アクチュエータ(10)を制御し、アクチュエータ(10)が、今度は製造機械(11)を制御する。
センサ(30)は、例えば製造された製品(12)の特性を捕捉する光学センサによって提供可能である。したがって、機械学習システム(60)は、画像分類器として理解することが可能である。
機械学習システム(60)は、搬送装置に対する製造された製品(12)の位置を特定することができる。次いで、製造された製品(12)の後続の製造工程のために、製造された製品(12)の特定された位置に依存してアクチュエータ(10)を制御することができる。例えば、製造された製品をこの製造された製品自体の特定の箇所において切断するように、アクチュエータ(10)を制御することができる。代替的に、製造された製品が破損しているかどうか、及び/又は、欠陥を示しているかどうかを、機械学習システム(60)が分類することを想定することができる。その場合、その製造された製品を搬送装置から除去するように、アクチュエータ(10)を制御することができる。
図8は、自動化されたパーソナルアシスタント(250)を制御するために制御システム(40)が使用される実施形態を示している。センサ(30)は、例えば、ユーザ(249)のジェスチャのビデオ画像を受信するための光学センサであるものとしてよい。代替的に、センサ(30)は、例えば、ユーザ(249)の音声コマンドを受信するための音響センサであるものとしてもよい。
次いで、制御システム(40)は、自動化されたパーソナルアシスタント(250)を制御するための制御信号(A)を決定する。制御信号(A)は、センサ(30)のセンサ信号(S)に従って決定される。センサ信号(S)は、制御システム(40)に送信される。例えば、機械学習システム(60)は、例えばユーザ(249)によって実施されたジェスチャを識別するためのジェスチャ認識アルゴリズムを実行するように構成可能である。次いで、制御システム(40)は、自動化されたパーソナルアシスタント(250)に送信するための制御信号(A)を決定することができる。次いで、制御システム(40)は、制御信号(A)を自動化されたパーソナルアシスタント(250)に送信する。
例えば、機械学習システム(60)によって認識された識別されたユーザジェスチャに従って、制御信号(A)を決定することができる。制御信号(A)は、自動化されたパーソナルアシスタント(250)にデータベースから情報を検索させ、この検索された情報を、ユーザ(249)による受信のために適した形態で出力させるための情報を含み得る。
さらなる実施形態においては、自動化されたパーソナルアシスタント(250)に代えて、制御システム(40)が、識別されたユーザジェスチャに従って制御される家電装置(図示せず)を制御することを想定することができる。家電装置は、洗濯機、ストーブ、オーブン、電子レンジ、又は、食器洗浄機であるものとしてよい。
図9は、制御システム(40)がアクセス制御システム(300)を制御する実施形態を示している。アクセス制御システム(300)は、アクセスを物理的に制御するように設計可能である。アクセス制御システム(300)は、例えば、ドア(401)を含み得る。センサ(30)は、アクセスが許可されるべきかどうかを判定するために関連するシーンを検出するように構成可能である。例えば、センサ(30)は、画像又はビデオデータを提供するための、例えば、人物の顔を検出するための光学センサであるものとしてよい。したがって、機械学習システム(60)は、画像分類器として理解することが可能である。
機械学習システム(60)は、例えば、検出された人物の顔を、データベースに格納されている他の既知の人物の顔と照合し、それにより、その人物の識別情報を特定することによって、人物の識別情報を分類するように構成可能である。次いで、機械学習システム(60)の分類に依存して、例えば特定された識別情報に従って、制御信号(A)を決定することができる。アクチュエータ(10)は、制御信号(A)に依存してドアを開放又は閉鎖するロックであるものとしてよい。代替的に、アクセス制御システム(300)は、非物理的かつ論理的なアクセス制御システムであるものとしてよい。この場合には、制御信号は、人物の識別情報に関する情報、及び/又は、その人物にアクセスが許可されるべきかどうかに関する情報を表示するように、ディスプレイ(10a)を制御するために使用可能である。
図10は、制御システム(40)が監視システム(400)を制御する実施形態を示している。この実施形態は、図9に示されている実施形態と大部分で同一である。したがって、異なっている態様についてのみ詳細に説明する。センサ(30)は、監視下にあるシーンを検出するように構成されている。制御システム(40)は、必ずしもアクチュエータ(10)を制御する必要はないが、代替的に、ディスプレイ(10a)を制御することができる。例えば、機械学習システム(60)は、シーンの分類を決定することができ、例えば、光学センサ(30)によって検出されたシーンが正常であるかどうか、又は、シーンが異常を示しているかどうかを判定することができる。次いで、ディスプレイ(10a)に送信された制御信号(A)は、例えばディスプレイ(10a)に、決定された分類に依存して表示する内容を調整させるように、例えば、機械学習システム(60)によって異常であると判定されたオブジェクトを強調表示させるように構成可能である。
図11は、制御システム(40)によって制御される医用イメージングシステム(500)の実施形態を示している。イメージングシステムは、例えば、MRI装置、X線イメージング装置、又は、超音波イメージング装置であるものとしてよい。センサ(30)は、例えば患者の少なくとも1つの画像を撮影する、例えば患者の種々異なる種類の身体組織を表示する、イメージングセンサであるものとしてよい。
次いで、機械学習システム(60)は、感知された画像の少なくとも一部の分類を決定することができる。したがって、画像の少なくとも一部は、機械学習システム(60)への入力画像(x)として使用される。
次いで、この分類に従って制御信号(A)を選択することができ、それにより、ディスプレイ(10a)を制御することができる。例えば、機械学習システム(60)は、例えば画像内に表示された組織を悪性組織又は良性組織のいずれかに分類することによって、感知された画像内の種々異なる種類の組織を検出するように構成可能である。このことは、機械学習システム(60)による入力画像(x)のセマンティックセグメンテーションによって実施可能である。次いで、ディスプレイ(10a)に、例えば入力画像(x)を表示して、同一の組織種類の複数の異なる領域を同一の色で着色することによって複数の異なる組織を表示させるように、制御信号(A)を決定することができる。
さらなる実施形態(図示せず)においては、イメージングシステム(500)を、非医用目的で、例えばワークピースの材料特性を特定するために使用することができる。これらの実施形態においては、機械学習システム(60)は、ワークピースの少なくとも一部の入力画像(x)を受信し、入力画像(x)のセマンティックセグメンテーションを実施し、それにより、ワークピースの材料特性を分類するように構成可能である。次いで、ディスプレイ(10a)に、入力画像(x)と、検出された材料特性に関する情報とを表示させるように、制御信号(A)を決定することができる。
図12は、制御システム(40)によって制御される医用分析システム(600)の実施形態を示している。医用分析システム(600)にはマイクロアレイ(601)が供給され、マイクロアレイは、医用試料に曝露された複数のスポット(602、特徴としても知られる)を含む。医用試料は、例えば、ヒト試料であるものとしてもよいし、又は、例えばスワブから得られた動物試料であるものとしてもよい。
マイクロアレイ(601)は、DNAマイクロアレイ又はタンパク質マイクロアレイであるものとしてよい。
センサ(30)は、マイクロアレイ(601)を感知するように構成されている。センサ(30)は、好ましくはビデオセンサのような光学センサである。
機械学習システム(60)は、センサ(30)によって供給されたマイクロアレイの入力画像(x)に基づいて試料の結果を分類するように構成されている。特に、機械学習システム(60)は、マイクロアレイ(601)が試料中にウイルスの存在を示しているかどうかを判定するように構成可能である。
次いで、ディスプレイ(10a)が分類の結果を表示するように、制御信号(A)を選択することができる。
「コンピュータ」という用語は、所定の計算規則を処理するための任意の装置を包含するものとして理解することが可能である。これらの計算規則は、ソフトウェアの形態、ハードウェアの形態、又は、ソフトウェアとハードウェアとの混合形態であるものとしてよい。
一般的に、複数形には添え字が付されているものと理解することが可能であり、すなわち、好ましくは複数形に含まれる複数の要素に連続した整数を割り当てることにより、複数形のそれぞれの要素に一意の添え字が割り当てられる。好ましくは、ある複数形にN個の要素が含まれ、かつ、Nがその複数形における要素の個数である場合、これらの要素には、1乃至Nの整数が割り当てられる。複数形に含まれるそれぞれの要素には、これらの要素の添え字を介してアクセス可能であることも理解することが可能である。

Claims (15)

  1. 画像(x)の潜在表現を決定するように構成されているエンコーダ(70)をトレーニングするためのコンピュータ実装された方法であって、
    前記エンコーダをトレーニングすることは、
    ・トレーニング画像(x)を前記エンコーダ(70)に提供することによって潜在表現(w)とノイズ画像(ε)とを決定するステップであって、前記エンコーダ(70)は、提供された画像に対する潜在表現とノイズ画像とを決定するように構成されている、ステップと、
    ・前記ノイズ画像(ε)の部分(p)をマスキングアウトすることにより、マスキングされたノイズ画像(ε)を決定するステップと、
    ・前記潜在表現(w)と前記マスキングされたノイズ画像(ε)とを敵対的生成ネットワークの生成器(80)に提供することによって予測画像
    Figure 2024059100000022
    を決定するステップと、
    ・前記エンコーダ(70)のパラメータを損失値に基づいて適合させることによって前記エンコーダ(70)をトレーニングするステップであって、前記損失値は、前記予測画像
    Figure 2024059100000023
    と前記トレーニング画像(x)との間の差を特徴付ける、ステップと、
    を含む、方法。
  2. 前記ノイズ画像(ε)の部分(p)をマスキングアウトすることは、前記部分(p)内の値を、ランダムに引き出された値によって置き換えることを含む、
    請求項1に記載の方法。
  3. 前記損失値は、損失関数に基づいて決定され、
    前記損失関数の第1の項は、前記予測画像
    Figure 2024059100000024
    と前記トレーニング画像(x)との間の差を特徴付ける、
    請求項1又は2に記載の方法。
  4. 前記第1の項は、前記差のマスキングをさらに特徴付け、
    前記マスキングは、前記差から、前記マスキングアウトされた部分(p)内に収まるピクセルを除去する、
    請求項3に記載の方法。
  5. 前記損失関数は、前記エンコーダ(70)によって予測される前記ノイズ画像(ε)のノルムを特徴付ける第2の項を含む、
    請求項3又は4に記載の方法。
  6. 前記損失関数は、弁別器の出力信号の負の対数尤度を特徴付ける第3の項を含み、
    前記出力信号は、前記予測画像
    Figure 2024059100000025
    を前記弁別器に提供することによって前記弁別器によって決定される、
    請求項3乃至5のいずれか一項に記載の方法。
  7. 前記トレーニング画像(x)は、ランダムにサンプリングされた潜在表現、又は、ユーザ定義された潜在表現を前記生成器に提供することによって決定され、
    前記損失関数は、前記ランダムにサンプリングされた潜在表現、又は、前記ユーザ定義された潜在表現と、前記エンコーダ(70)から決定された前記潜在表現との間の差を特徴付ける第4の項を含む、
    請求項3乃至6のいずれか一項に記載の方法。
  8. 前記損失関数は、前記トレーニング画像(x)を特徴抽出器に提供することによって決定された第1の特徴表現と、前記予測画像
    Figure 2024059100000026
    を前記特徴抽出器に提供することによって決定された第2の特徴表現との差を特徴付ける第5の項を含み、
    前記差は、好ましくは前記マスキングアウトされた部分(p)内にあるピクセルを特徴付ける特徴を特徴付けない、
    請求項3乃至7のいずれか一項に記載の方法。
  9. 画像(b)の拡張
    Figure 2024059100000027
    を決定するためのコンピュータ実装された方法であって、
    ・請求項1乃至8のいずれか一項に記載の方法によってエンコーダ(70)をトレーニングすることに基づいて、エンコーダ(70)を取得するステップと、
    ・前記画像(b)を前記エンコーダ(70)に提供することによって、第1の潜在表現(w)とノイズ画像(ε)とを決定するステップと、
    ・前記第1の潜在表現(w)を変更することにより、第2の潜在表現
    Figure 2024059100000028
    を決定するステップと、
    ・前記エンコーダ(70)をトレーニングする際に使用された生成器(80)への入力として前記第2の潜在表現
    Figure 2024059100000029
    と前記ノイズ画像(ε)とを提供することにより、前記拡張
    Figure 2024059100000030
    を決定するステップと、
    を含む方法。
  10. 機械学習システム(60)をトレーニングするためのコンピュータ実装された方法であって、
    前記機械学習システムは、画像(x)の分類及び/又は回帰分析を特徴付ける出力信号(y)を決定するように構成されており、
    前記方法は、
    ・請求項9に記載のトレーニング画像(b)の拡張
    Figure 2024059100000031
    を決定するステップと、
    ・前記拡張
    Figure 2024059100000032
    に基づいて前記機械学習システム(60)をトレーニングするステップと、
    を含む、方法。
  11. アクチュエータ(10)の制御信号(A)を決定するためのコンピュータ実装された方法であって、
    前記制御信号(A)は、請求項10に従ってトレーニングされた機械学習システム(60)の出力信号(y)に基づいて決定され、
    前記出力信号(y)は、画像(x)に基づいて決定される、
    方法。
  12. 請求項1乃至8のいずれか一項に記載のトレーニング方法を実施するように構成されているトレーニングシステム(140)。
  13. 請求項11に記載の方法を実施するように構成されている制御システム(40)。
  14. プロセッサ(45,145)によって実行された場合に、請求項1乃至11のいずれか一項に記載の方法の全てのステップをコンピュータに実施させるために構成されているコンピュータプログラム。
  15. 請求項14に記載のコンピュータプログラムが格納されている機械可読記憶媒体(46,146)。
JP2023178260A 2022-10-17 2023-10-16 エンコーダによって構成された画像の分析を決定するための装置及び方法 Pending JP2024059100A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP22201998 2022-10-17
EP22201998.6A EP4357977A1 (en) 2022-10-17 2022-10-17 Device and method for determining an encoder configured image analysis

Publications (1)

Publication Number Publication Date
JP2024059100A true JP2024059100A (ja) 2024-04-30

Family

ID=83898409

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023178260A Pending JP2024059100A (ja) 2022-10-17 2023-10-16 エンコーダによって構成された画像の分析を決定するための装置及び方法

Country Status (5)

Country Link
US (1) US20240135699A1 (ja)
EP (1) EP4357977A1 (ja)
JP (1) JP2024059100A (ja)
KR (1) KR20240053554A (ja)
CN (1) CN117911806A (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11048980B2 (en) * 2019-04-30 2021-06-29 Agora Lab, Inc. Optimizing supervised generative adversarial networks via latent space regularizations

Also Published As

Publication number Publication date
CN117911806A (zh) 2024-04-19
US20240135699A1 (en) 2024-04-25
KR20240053554A (ko) 2024-04-24
EP4357977A1 (en) 2024-04-24

Similar Documents

Publication Publication Date Title
US9111375B2 (en) Evaluation of three-dimensional scenes using two-dimensional representations
US20210326661A1 (en) Determining an explanation of a classification
JP2005202932A (ja) データを複数のクラスに分類する方法
CN111160459A (zh) 超参数的优化装置和方法
US20230259658A1 (en) Device and method for determining adversarial patches for a machine learning system
CN116611500A (zh) 用于训练神经网络的方法及装置
JP2024059100A (ja) エンコーダによって構成された画像の分析を決定するための装置及び方法
JP2021197184A (ja) 分類器を訓練及びテストするためのデバイス及び方法
US20220101128A1 (en) Device and method for training a classifier using an invertible factorization model
US20220284289A1 (en) Method for determining an output signal by means of a neural network
EP4156097A1 (en) Device and method for determining a semantic segmentation and/or an instance segmentation of an image
EP4343619A1 (en) Method for regularizing a neural network
US20230418246A1 (en) Device and method for determining adversarial perturbations of a machine learning system
Balakrishnan et al. Computing WHERE-WHAT classification through FLIKM and deep learning algorithms
US20230351741A1 (en) Method and device for training a neural network
Qaffou et al. A reinforcement learning method to adjust parameter of a texture segmentation
EP4258177A1 (en) Method for initializing a neural network
JP7264410B2 (ja) 「敵対的サンプル」に対するロバスト性を改善する装置及び方法
US20230022777A1 (en) Method and device for creating a machine learning system including a plurality of outputs
US20220101129A1 (en) Device and method for classifying an input signal using an invertible factorization model
CN117422146A (zh) 用于经由共轭伪标签的测试时适配的系统和方法
Prasad Online feature selection for classifying emphysema in hrct images
KR20220031525A (ko) 정규화 흐름을 트레이닝하기 위한 디바이스 및 방법
CN117593790A (zh) 一种基于膨胀注意力机制的段级多尺度动作分割方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231225