CN117911236A - 用于处理数字图像数据的方法和装置 - Google Patents

用于处理数字图像数据的方法和装置 Download PDF

Info

Publication number
CN117911236A
CN117911236A CN202311345048.1A CN202311345048A CN117911236A CN 117911236 A CN117911236 A CN 117911236A CN 202311345048 A CN202311345048 A CN 202311345048A CN 117911236 A CN117911236 A CN 117911236A
Authority
CN
China
Prior art keywords
digital image
style
image
noise
dat
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311345048.1A
Other languages
English (en)
Inventor
李雨蒙
A·霍列娃
张丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of CN117911236A publication Critical patent/CN117911236A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/89Lidar systems specially adapted for specific applications for mapping or imaging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Electromagnetism (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Remote Sensing (AREA)
  • Quality & Reliability (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

一种处理数字图像数据的方法,例如计算机实现的方法,包括:由编码器确定与第一数字图像相关联的噪声预测,该编码器被配置成将第一数字图像映射到与生成式对抗网络GAN系统的生成器相关联的扩展潜在空间;由GAN系统的生成器基于与第一数字图像相关联的噪声预测和与扩展潜在空间相关联的多个潜在变量来确定至少一个另外的数字图像。

Description

用于处理数字图像数据的方法和装置
技术领域
本公开涉及处理数字图像数据的方法。
本公开还涉及用于处理数字图像数据的装置。
生成式对抗网络GAN是已知的,并且表征生成式建模的方法,其例如可以用于生成图像数据。
发明内容
示例性实施例涉及一种处理数字图像数据的方法(例如计算机实现的方法),该方法包括:由编码器确定与第一数字图像相关联的噪声预测,该编码器被配置成将第一数字图像映射到与生成式对抗网络GAN系统的生成器相关联的扩展潜在空间;由GAN系统的生成器基于与第一数字图像相关联的噪声预测和与扩展潜在空间相关联的多个潜在变量来确定至少一个另外的数字图像。在一些示例性实施例中,这可以使得能够确定(例如,生成)包括与第一数字图像类似或相同的内容但可选地具有例如由多个潜在变量中的至少一些表征的修改的风格的另外的数字图像。
在一些示例性实施例中,数字图像数据和/或(第一)数字图像可以包括但不限于以下中的至少一个:a)至少一个数字图像,b)视频流的图像或帧,c)与RADAR系统(例如成像RADAR系统)相关联的数据,例如RADAR图像,c)与LIDAR系统相关联的数据,例如LIDAR图像,d)超声图像,e)运动图像,f)例如从热成像系统获得的热图像。
在一些示例性实施例中,与扩展潜在空间相关联的多个潜在变量中的至少一些表征第一数字图像的以下方面中的至少一个:a)风格,例如非语义外观,b)纹理,c)颜色。在一些示例性实施例中,数字图像的风格可以由数字图像的至少一些部分的纹理和数字图像的至少一些部分的颜色的组合来表征。
在一些示例性实施例中,该方法包括基于以下中的至少一个来确定多个潜在变量:a)第二数字图像,其不同于第一数字图像,例如使用编码器,b)多个概率分布,如在一些示例性实施例中例如可以基于数据集合获得的。
在一些示例性实施例中,该方法包括以下中的至少一个:a)基于第一数字图像来确定多个例如分层特征映射,b)基于多个例如分层特征映射来确定与第一数字图像的扩展潜在空间相关联的多个潜在变量,c)基于多个例如分层特征映射中的至少一个来确定例如加性噪声映射。
在一些示例性实施例中,该方法包括:随机和/或伪随机地掩蔽与第一数字图像相关联的噪声预测的至少一部分。注意,根据其他示例性实施例,按照根据实施例的原理,不需要掩蔽来修改风格,例如用于风格扩充。
在一些示例性实施例中,该方法包括:例如以随机和/或伪随机的方式来掩蔽噪声映射。
在一些示例性实施例中,该方法包括:将噪声映射划分(例如,在空间上划分)成多个(例如,P×P许多)例如非重叠的补片;以随机和/或伪随机的方式选择补片的子集;用例如相同大小的例如单位高斯随机变量的补片替换补片的子集。
在一些示例性实施例中,该方法包括:将与第一数字图像相关联的噪声预测与第二数字图像的风格预测进行组合;基于组合的与第一数字图像相关联的噪声预测和第二数字图像的风格预测使用生成器生成另外的数字图像。在一些示例性实施例中,这使得能够向另外的数字图像提供第二数字图像的风格或例如风格的至少一些方面以及例如第一数字图像的内容。
在一些示例性实施例中,该方法包括:提供与第一数字图像相关联的噪声预测;提供表征要应用于第一数字图像的例如语义内容的不同风格的不同潜在变量集合;基于与第一数字图像相关联的噪声预测和表征不同风格的不同潜在变量集合使用生成器生成具有不同风格的多个数字图像。
在一些示例性实施例中,该方法包括:提供与第一域相关联的例如包括一个或多个数字图像的图像数据;提供与第二域相关联的例如包括一个或多个数字图像的图像数据;将第二域的风格应用于与第一域相关联的图像数据。
在一些示例性实施例中,与第一域相关联的图像数据包括标签,其中,例如将第二域的风格应用于与第一域相关联的图像数据包括保留标签。这样,可以修改第一域的数字图像的风格而同时保留标签,因而提供具有(一个或多个)不同风格的进一步标记的图像数据。
在一些示例性实施例中,该方法包括:提供具有第一内容信息的第一图像数据;提供第二图像数据,其中例如第二图像数据包括不同于第一内容信息的第二内容信息;提取第二图像数据的风格信息;将第二图像数据的风格信息的至少一部分应用于第一图像数据。
在一些示例性实施例中,该方法包括:生成例如用于训练至少一个神经网络和/或机器学习系统的训练数据,其中该生成例如基于源域的图像数据并且基于源域的修改的图像数据,其中例如修改的图像数据例如根据实施例的原理关于图像风格例如基于另外的图像数据的风格被修改和/或已经被修改,并且可选地,基于训练数据来训练至少一个神经网络系统。
其他示例性实施例涉及一种用于执行根据实施例的方法的装置。
其他示例性实施例涉及一种包括指令的计算机程序,当该程序由计算机执行时,该指令使得计算机执行根据实施例的方法。
其他示例性实施例涉及一种包括指令的计算机可读存储介质,所述指令在被计算机执行时使得计算机执行根据实施例的方法。
其他示例性实施例涉及一种承载和/或表征根据实施例的计算机程序的数据载体信号。
其他示例性实施例涉及针对以下中的至少一个来使用根据实施例的方法和/或根据实施例的装置和/或根据实施例的计算机程序和/或根据实施例的计算机可读存储介质和/或根据实施例的数据载体信号:a)基于与第一数字图像相关联的噪声预测和与扩展潜在空间相关联的多个潜在变量来确定至少一个另外的数字图像,多个潜在变量中的至少一些与第一数字图像之外的另一图像和/或其他数据相关联,b)例如在保留第一数字图像的内容的同时将来自第二数字图像的风格传递到第一数字图像,c)解开至少一个数字图像的风格和内容,d)例如基于第一数字图像和至少一个另外的例如第二数字图像的风格来创建具有未改变内容的不同风格化数字图像,e)针对风格化图像使用(例如重新使用)标记注释,f)当改变至少一个数字图像的风格时避免注释工作,g)生成例如具有不同风格的例如感觉上逼真的数字图像,h)提供代理验证集合,例如用于测试例如神经网络系统的分布外泛化,i)训练机器学习系统,j)测试机器学习系统,k)校验机器学习系统,l)验证机器学习系统,m)生成例如用于机器学习系统的训练数据,n)例如现有图像数据的数据扩充,o)提高机器学习系统的泛化性能,p)例如在没有与多个数据集合相关联的训练的情况下操纵(例如灵活操纵)图像风格,q)利用编码器GAN流水线来操纵图像风格,r)由编码器将与图像风格相关联的信息嵌入到例如中间潜在变量中,s)混合数字图像的风格,例如用于生成包括基于混合的风格的至少一个另外的数字图像。
附图说明
现在将参考附图描述一些示例性实施例,其中:
图1示意性地描绘了根据示例性实施例的简化流程图,
图2示意性地描绘了根据示例性实施例的简化框图,
图3示意性地描绘了根据示例性实施例的简化流程图,
图4示意性地描绘了根据示例性实施例的简化流程图,
图5示意性地描绘了根据示例性实施例的简化框图,
图6A示意性地描绘了根据示例性实施例的简化框图,
图6B示意性地描绘了根据示例性实施例的简化框图,
图7示意性地描绘了根据示例性实施例的简化流程图,
图8示意性地描绘了根据示例性实施例的简化流程图,
图9示意性地描绘了根据示例性实施例的简化流程图,
图10示意性地描绘了根据示例性实施例的简化流程图,
图11示意性地描绘了根据示例性实施例的简化框图,
图12示意性地描绘了根据示例性实施例的简化框图,
图13示意性地描绘了根据示例性实施例的简化流程图,
图14示意性地描绘了根据示例性实施例的简化框图,
图15示意性地描绘了根据示例性实施例的简化流程图,
图16示意性地描绘了根据示例性实施例的简化流程图,
图17A示意性地描绘了根据示例性实施例的图像数据,
图17B示意性地描绘了根据示例性实施例的图17A的可选的示例性颜色版本,
图18示意性地描绘了根据示例性实施例的图像数据,
图19示意性地描绘了根据示例性实施例的简化框图,以及
图20示意性地描绘了根据示例性实施例的使用方面。
具体实施方式
参见例如图1、2,示例性实施例涉及一种处理例如与至少一个数字图像相关联的数字图像数据的方法(例如计算机实现的方法),该方法包括:由编码器12(图2)确定100(图1)与第一数字图像x1相关联的噪声预测PRED-NOISE-x1,该编码器被配置成将第一数字图像x1映射到与生成式对抗网络GAN系统10的生成器14相关联的扩展潜在空间SP-W+;由GAN系统10的生成器14基于与第一数字图像x1相关联的噪声预测PRED-NOISE-x1和与扩展潜在空间SP-W+相关联的多个潜在变量LAT-VAR来确定102(图1)至少一个另外的数字图像x’。在一些示例性实施例中,这可以使得能够确定(例如,生成)包括与第一数字图像x1类似或相同的内容但可选地具有例如由多个潜在变量中的至少一些表征的修改的风格的另外的数字图像x’。
在一些示例性实施例中,数字图像数据和/或(第一)数字图像x1可以包括但不限于以下中的至少一个:a)至少一个数字图像,b)视频流的图像或帧,c)与RADAR系统(例如成像RADAR系统)相关联的数据,例如RADAR图像,c)与LIDAR系统相关联的数据,例如LIDAR图像,d)超声图像,e)运动图像,f)例如从热成像系统获得的热图像。
在一些示例性实施例中,与扩展潜在空间SP-W+相关联的多个潜在变量LAT-VAR中的至少一些表征第一数字图像的以下方面中的至少一个:a)风格,例如非语义外观,b)纹理,c)颜色。在一些示例性实施例中,数字图像的风格可以由数字图像的至少一些部分的纹理和数字图像的至少一些部分的颜色的组合来表征。
在图3的一些示例性实施例中,该方法包括:基于以下中的至少一个来确定110多个潜在变量LAT-VAR(例如多个潜在变量LAT-VAR的特定值):a)第二数字图像x2(图2),其不同于第一数字图像x1,例如使用GAN系统10的编码器12,b)多个概率分布DISTR,如在一些示例性实施例中例如可以基于数据集合(未示出)获得的。图3的可选块112表示使用多个潜在变量LAT-VAR(例如多个潜在变量LAT-VAR的特定值),例如用于例如使用生成器14生成另外的数字图像x’。
在一些示例性实施例中,GAN系统10可以包括可选的鉴别器16,在一些其他示例性实施例中,如本领域已知的,鉴别器16可以例如用于训练GAN系统的至少一个组件。一些示例性实施例可利用GAN反演的方面,其涉及在例如预先训练的GAN(例如图2的GAN系统10)的潜在空间中发现(例如确定)潜在变量,在一些示例性实施例中,其可例如由GAN系统10用来例如忠实地重建给定图像。
在一些示例性实施例中,GAN系统10的生成器14被配置和/或训练成从潜在变量(诸如例如随机(或伪随机)潜在变量)生成数字图像(例如照片逼真的数字图像)。
在一些示例性实施例中,图2的GAN系统10可以包括映射网络(图2中未示出),并且可以被配置成将例如可以用表示的随机潜在向量映射到例如/>的中间“风格”潜在变量,在一些示例性实施例中,中间“风格”潜在变量可以用于例如以不同分辨率块调制特征。
在一些示例性实施例中,例如,除了“风格”之外,可以添加例如从高斯分布例如随机采样的空间随机噪声,例如在至少一个(例如一些,例如每个)特征调制之后。
在一些示例性实施例中,编码器12(图2)被配置(例如,训练)成预测空间噪声,例如连同扩展潜在空间SP-W+(“空间”)中的“风格”潜在,在一些示例性实施例中,扩展潜在空间可被视为潜在空间/>的扩展。
在一些示例性实施例中,在空间中,不同层处的“风格”例如可以不同。在一些示例性实施例中,例如根据一些示例性实施例通过随机掩蔽掉噪声而训练的例如适当训练的编码器12可以例如以无监督的方式解开纹理和结构信息。更具体地,在一些示例性实施例中,编码器12将纹理信息编码成“风格”潜在(潜在变量),并将内容信息编码成(一个或多个)噪声。然而,请注意,根据其他示例性实施例,按照根据实施例的原理,不(必)需要掩蔽来修改风格,例如用于风格扩充。换句话说,在一些示例性实施例中,风格混合(例如风格扩充)可以例如在没有掩蔽的情况下执行。
在一些示例性实施例中,例如给定一个GAN模型(例如GAN系统10)的预先训练的生成器G(诸如例如图2的生成器12),其例如学习映射:GAN反演旨在将给定的例如数字图像x映射回到其潜在表示z。形式上,其可以描述为如下:
其中d(·)是距离度量,例如以测量原始图像x和重建图像G(z)之间的相似度。
在一些示例性实施例中,L2和LPIPS(例如由arXiv:1801.03924v2[cs.CV]2018年4月10日定义的)可联合用作距离度量d(·)。
在一些示例性实施例中,扩展(中间)潜在空间促进了相对良好的重建质量。在一些示例性实施例中,例如,除了中间潜在预测之外,也可以预测空间噪声,在一些示例性实施例中,其可以例如更好地保留给定图像中的细节信息。在一些示例性实施例中,形式上,编码器E和生成器G可以描述如下:
{w,ε}=E(x),
x*=G(w,ε),
其中x和x*分别是给定的原始图像和重建图像,其中w表征预测的中间潜在变量,并且其中ε表征预测噪声。在一些示例性实施例中,编码器可以例如被训练成例如忠实地重建给定图像x。
在图4的一些示例性实施例中,该方法包括以下中的至少一个:a)基于第一数字图像x1来确定120多个例如分层特征映射FM,b)基于多个例如分层特征映射FM来确定122(图4)与第一数字图像x1的扩展潜在空间SP-W+(图2)相关联的多个潜在变量LAT-VAR-x1(例如,多个潜在变量LAT-VAR-x1的值),c)基于多个例如分层特征映射FM中的至少一个来确定124例如加性噪声映射NOISE-MAP。
图5示意性地描绘了根据一些示例性实施例的GAN系统10(图2)的方面。元素12a表示编码器,例如类似于图2的编码器12。在一些示例性实施例中,图2的编码器12可以包括图5的编码器12a的配置。元素14a表示生成器,例如类似于图2的生成器14。在一些示例性实施例中,图2的生成器14可以包括图5的生成器14a的配置。元素14a表示生成器,例如类似于图2的生成器14。
根据一些示例性实施例,元素E1表示特征金字塔,其例如被配置成执行基于第一数字图像x1来确定120多个例如分层特征映射FM的步骤,参见图4的块120。换句话说,在一些示例性实施例中,特征金字塔E1被配置成作为特征提取器来操作。
在一些示例性实施例中,特征金字塔E1可以例如包括多个卷积层,用于提供多个例如分层特征映射FM。
在一些示例性实施例中,特征金字塔E1可以例如基于(例如类似于或相同于)ARXiv:1612.03144v2[cs.CV]2017年4月19日(“用于对象检测的特征金字塔网络”)的图3所描绘的结构。
在一些示例性实施例中,特征金字塔E1的其他拓扑也是可能的。
图5的元素E2-1,…,E2-n,…表示被配置成(例如与图4的块122类似或相同)确定多个(当前为k个许多)潜在变量w1,…,wk的块。在一些示例性实施例中,各个块E2-1,…,E2-n,…接收不同层级的特征映射FM,并基于此提供潜在变量w1,…,wk(例如潜在变量w1,…,wk的值),例如用于输出到生成器14a。换句话说,在一些示例性实施例中,特征金字塔E1的多尺度特征分别由块E2-1,…,E2-n映射到潜在向量或代码{wk},例如在生成器14a的对应尺度处。
图5的元素E3表示噪声映射器,其被配置成从特征金字塔E1接收至少一个特征映射,并基于至少一个特征映射提供噪声映射ε,例如根据图4的块124。在一些示例性实施例中,噪声映射器E3被配置成在特征金字塔E1的层级的中间(例如,除了最高或最低之外)尺度处预测噪声映射ε。
在一些示例性实施例中,噪声映射器E3可以例如包括例如1×1卷积层的堆叠,其被配置成将h×w×c特征映射作为输入并且输出h×w×c’特征映射。
在图7的一些示例性实施例中,该方法包括:随机和/或伪随机地掩蔽130与第一数字图像x1相关联的噪声预测NOISE-PRED的至少一部分,由此获得掩蔽噪声预测NOISE-PRED-M。
在图7的一些示例性实施例中,该方法包括:例如以随机和/或伪随机的方式掩蔽132噪声映射ε(图5),由此获得掩蔽噪声映射NOISE-MAP-M,其在掩蔽块M的输出处由图5的元素εm表示,其例如被配置成根据图7的块130、132中的至少一个来执行掩蔽。
在图5的一些示例性实施例中,掩蔽噪声映射εm被输出到生成器14a,例如类似于潜在变量w1,…,wk,其中生成器14a被配置(例如训练)成基于潜在变量w1,…,wk和掩蔽噪声映射εm输出至少一个数字图像。
在一些示例性实施例中,图5的生成器14a可以包括一个或多个合成块E4-1,…,E4-k和组合器(例如加法器(在图5中未单独标记)),以基于潜在变量w1,…,wk和掩蔽噪声映射εm生成输出数字图像。
在一些示例性实施例中,生成器14a可以例如是StyleGAN型或StyleGAN2型,如例如在以下出版物的至少一个中所公开的:
a)arXiv:2008.00951v2[cs.CV]2021年4月21日,
b)Tero Karras、Samuli Laine、Miika Aittala、Janne Hellsten、JaakkoLehtinen和Timo Aila,分析并提高stylegan的图像质量,在CVPR,2020年(另见arXiv:1912.04958v2)。
作为示例,在一些示例性实施例中,生成器14a可以包括由上述出版物b)的图2(d)示例性表示的架构(另见arXiv:1912.04958v2)。
图6A示意性地描绘了图5的块E2-1,,...,E2-n中的至少一个的示例性结构。元素E10表示由特征金字塔E1在某一层级处示例性获得的特征映射,元素E11、E12表示神经网络的一个或多个元素(例如,层),所述神经网络例如为卷积神经网络CNN(例如全连接CNN)类型的,其被配置(例如,训练)成基于特征映射E10来提供潜在向量E13(在一些情况下,例如,也表示为wi,i=1,…,k)。在一些示例性实施例中,潜在向量是1×1×512类型,例如包括512个分量的一维向量。
图6B示意性地描绘了例如由块E3获得的图5的噪声映射ε的描绘(掩蔽块M被配置成执行图7的块130、132的掩蔽技术中的至少一个)以及掩蔽噪声映射εm的示例性描绘。
在图8的一些示例性实施例中,该方法包括:将噪声映射ε划分132a(例如在空间上划分)成多个(例如P×P许多)例如非重叠的补片PATCH;以随机和/或伪随机的方式选择132b补片PATCH的子集PATCH-SUB;用例如相同大小的例如单位高斯随机变量的补片PATCH-RND替换132c补片PATCH的子集PATCH-SUB。换句话说,在一些示例性实施例中,噪声映射ε的一些内容被例如单位高斯随机变量的补片替换。
在一些示例性实施例中,例如使用GAN系统10的编码器12、12a,可以修改数字图像x1的风格,例如通过改变中间潜在w,其表征数字图像x1的风格的方面。
在这方面,图11示意性地描绘了根据其他示例性实施例的框图。元素x1表示第一数字图像,其被提供给编码器的第一实例12b-1,例如类似于或相同于图5的编码器12a。元素x2表示第二数字图像,其被提供给编码器的第二实例12b-2,例如类似于或相同于图5的编码器12a。两个实例12b-1、12b-2可以基于相同的编码器来提供,并且可以同时和/或以时间上部分重叠或非重叠(例如,顺序)的方式被评估。
图11的元素E21表示被配置成执行特征提取的编码器的块,例如以图5的特征金字塔E1的形式。
元素E22表示被配置成确定表征相应输入图像x1、x2的风格的信息的编码器的块,其例如由潜在变量w表征(如上所述),参见例如图5的元素w1,…,wk。在一些示例性实施例中,图11的块E22可以例如共同表示图5的块E2-1,…,E2-k。作为示例,编码器实例12b-2的块E22提供表征第二数字图像x2的风格的潜在变量w2
图11的元素E23表示被配置成确定噪声映射的编码器的块,例如与图5的块E3类似或相同。作为示例,编码器实例12b-1的块E23基于第一数字图像x1提供噪声映射ε1
图11的元素14b表示GAN系统的生成器,例如类似于或相同于图2或图5的生成器14、14a。目前,图11的生成器14b确定(例如生成)数字输出图像xmix,其包括第一数字图像x1的内容(例如语义内容)(例如由噪声映射ε1表征)和第二数字图像x2的风格(例如纹理和/或颜色和/或其他非语义内容)(例如由潜在变量w1,…,wk表征),从而例如混合相应输入图像x1、x2的内容相关和风格相关的方面。
换句话说,一些示例性实施例使得能够保持(例如,保留)第一数字图像x1的内容,并且例如通过组合来自第一数字图像x1的噪声预测ε1和第二数字图像x2的(例如,中间)潜在变量w2而将第二数字图像x2的风格信息传递到第一数字图像x1。在一些示例性实施例中,例如StyleGAN型或StyleGAN2型的例如固定的生成器14b将分量ε1、w2作为输入,并产生混合图像xmix
回到图6B,在一些示例性实施例中,提出例如通过噪声映射的随机掩蔽来正则化编码器12、12a的噪声预测。
在一些示例性实施例中,并如以上至少部分地已经描述的,噪声映射在空间上被划分成不重叠的P×P补片PATCH(另见图8的块132a),例如由图6B的块M实现的。
在一些示例性实施例中,例如,基于预定义的比率ρ,例如随机地选择补片的子集PATCH-SUB,并用相同大小的单位高斯随机变量∈~N(0,1)的补片替换,其中,例如N(0,1)是例如在生成器14、14a(其可以是例如StyleGAN2型)的训练处的噪声映射的先验分布。
在一些示例性实施例中,编码器12、12a可以被表示为“掩蔽噪声编码器”,因为在一些示例性实施例中,其用随机掩蔽被训练,例如以预测噪声映射。
在一些示例性实施例中,所提出的随机掩蔽可以降低噪声映射的编码容量,因此鼓励编码器12、12a联合利用潜在代码{wk}进行重建。因此,在一些示例性实施例中,编码器12、12a分别从内容和风格图像中获取噪声映射和潜在代码。然后,在一些示例性实施例中,它们可以被馈送到生成器14、14a(例如,StyleGAN2型),例如以合成新图像。
在一些示例性实施例中,如果编码器12、12a未用随机掩蔽训练,则新图像可能与内容图像没有例如任何可感知的(一个或多个)差异。在一些示例性实施例中,这意味着潜在代码{wk}编码了图像的可忽略不计的信息。相比之下,在一些示例性实施例中,当用掩蔽被训练时,编码器创建从两个不同图像获取内容和风格的新颖图像。在一些示例性实施例中,该观察结果确认了根据一些示例性实施例的对内容和风格解开的掩蔽的重要作用,以及因此例如改进的风格混合能力。
在一些示例性实施例中,噪声映射不编码(例如不再编码)图像的所有可感知信息,包括风格和内容。在一些示例性实施例中,实际上,潜在代码{wk}在控制风格方面发挥了更积极的作用。
在下文中,提供了根据一些示例性实施例的与编码器训练损失相关的方面和信息。
在一些示例性实施例中,具有掩蔽噪声编码器EM的根据与GAN反演(例如根据一些示例性实施例的StyleGAN2反演)相关的实施例的原理可以被公式化为{w1,...,wK,ε}=EM(x);
在一些示例性实施例中,掩蔽噪声编码器EM将给定图像x映射到潜在代码{wk}和噪声映射ε上。
在一些示例性实施例中,生成器G(另见图2、图5的元素14、14a)(例如Style-GAN2型生成器)将{wk}和噪声映射ε两者作为输入并生成图像x*。在一些示例性实施例中,例如,理想地,x*可以相同于x,即完美的重建。
在一些示例性实施例中,编码器12、12(例如,掩蔽噪声编码器EM)被训练以例如重建原始图像x。
在一些示例性实施例中,当训练编码器12、12(例如,掩蔽噪声编码器EM)以重建原始图像x时,例如,原始噪声映射ε在被馈送到例如预先训练的生成器G中之前被掩蔽,其中掩蔽可例如通过以下来表征:
εM=(1-Mnoise)⊙ε+Mnoise⊙∈,
其中Mnoise例如是随机二进制掩蔽,其中⊙指示哈达玛积,并且其中表示具有掩蔽噪声εM的重建图像。
在一些示例性实施例中,编码器的训练损失可以表征为
其中{λi}是加权因子。前三项是按像素MSE损失、学习感知图像补片相似度(LPIPS)损失(例如,根据Richard Zhang、Phillip Isola、Alexei A Efros、Eli Shechtman和Oliver Wang:深度特征作为感知度量的不合理有效性,在CVPR,2018年)和对抗式损失(例如,根据Ian Goodfellow、Jean Pouget-Abadie、Mehdi Mirza、Bing Xu、DavidWarde-Farley、Sherjil Ozair、Aaron Courville和Yoshua Bengio,生成式对抗网,在NeurlPS,2014年):
注意,在一些示例性实施例中,掩蔽去除了特定空间位置处的给定图像x的信息,然后应当放宽对这些位置的重建要求。在一些示例性实施例中,可以例如通过将噪声掩蔽Mnoise上采样和下采样到例如基于VGG的特征提取器的图像大小和特征大小来获得Mimg和Mfeat
在一些示例性实施例中,通过将编码器训练公式化为具有鉴别器D(另见图2的可选元素16)的对抗式游戏来获得对抗式损失,所述鉴别器被训练成区分重构图像和真实图像之间。
在一些示例性实施例中,最后的正则化项被定义为
在一些示例性实施例中,L1范数有助于导致稀疏噪声预测。在一些示例性实施例中,它与随机掩蔽互补,从而减少了噪声映射的容量。在一些示例性实施例中,第二项通过使用合成图像Gwgt,∈)的基准真值潜在代码wgt来训练潜在代码预测而获得(例如,根据Xu Yao、Alasdair Newson、Yann Gousseau和Pierre Hellier,用于基于风格的GAN反演的特征风格编码器,arXiv预印本,2022年)。在一些示例性实施例中,它引导编码器保持接近生成器的原始潜在空间,从而加速收敛。
在图9的一些示例性实施例中,该方法包括:将与第一数字图像x1(图2)相关联的噪声预测PRED-NOISE-x1与第二数字图像x2的风格预测PRED-STYLE-x2(例如,由与第二数字图像x2相关联的潜在变量表征的)进行组合140;基于组合的与第一数字图像x1相关联的噪声预测和第二数字图像x2的风格预测PRED-STYLE-x2,使用生成器14a(图5)生成142另外的数字图像x12。在一些示例性实施例中,这使得能够向(一个或多个)另外的数字图像x12提供第二数字图像x2的风格或例如风格的至少一些方面、以及例如第一数字图像x1的内容。
在图10的一些示例性实施例中,该方法包括:提供150与第一数字图像x1相关联的噪声预测PRED-NOISE-x1;提供152表征要应用于第一数字图像x1的例如语义内容的不同风格的不同潜在变量集合SET-LAT-VAR;基于与第一数字图像x1相关联的噪声预测PRED-NOISE-x1和表征不同风格的不同潜在变量集合SET-LAT-VAR使用生成器14b(图5)生成154具有不同风格的多个数字图像PLUR-x。
在一些示例性实施例中,存在从一个或多个数字图像和/或数据集合获得风格信息的多种方式。例如,如图17A、17B中示例性示出的,考虑晴天场景作为源域SD,可以使用根据实施例的原理从源域SD的训练集合提取风格。在示例性实施例中,有利地,这不需要例如来自其他数据集合的额外信息,因为它可以被解释为最大化现有数据(集合)中的信息的使用。图17A、17B的括弧BR1表示风格,图17A、17B的括弧BR2表示内容,并且括弧TD表示各种目标域。
在一些示例性实施例中,可以使用来自目标域TD(图17A、17B)(例如“夜晚”、“雾天”或“雪天”场景)的一个(例如单个)例如未标记的图像,其风格可以例如被传递到源域SD,分别由图17A、17B的第二至第四列(用附图标记TD表示)来描绘。
在一些示例性实施例中,例如基于根据实施例的原理从一个或多个数字图像中提取的风格也可以被插值。如图18中示例性示出的,原始数字图像x-a在(水平)中间,这将例如提供内容信息。在图18的左侧和右侧分别提供了两个另外的数字图像x-b、x-c。括弧x-ab表示基于图像x-a、x-b具有插值风格的三个数字图像,并且括弧x-ac表示基于图像x-a、x-c具有插值风格的三个数字图像。可以看出,插值图像x-ab、x-ac的内容信息由数字图像x-a提供,而插值图像x-ab、x-ac的相应风格信息由另外的图像x-b、x-c提供。
在一些示例性实施例中,如图12所示,可以学习给定数据集合的分布DISTR。在一些示例性实施例中,可以基于给定源数据集合的潜在w预测分别在空间中例如在每个尺度wi;i=1,…,k处拟合一个高斯分布。在一些示例性实施例中,随后,例如给定一个特定的数字图像x,可以确定噪声预测,例如噪声映射ε,并且可以例如与从回归的(或以其他方式确定的)例如高斯分布DISTR中采样的风格相组合。这样,在一些示例性实施例中,可以例如用来自给定图像x的良好保留的语义内容,生成许多类似源(例如,关于语义内容)的采样图像Xsampled。在一些示例性实施例中,源数据集合不一定是编码器12、12a、12b在其上被训练的源数据集合。
在图13的一些示例性实施例中,该方法包括:提供160与第一域DOM-1(图14)相关联的例如包括一个或多个数字图像的图像数据IMG-DAT-DOM-1;提供162(图13)与第二域DOM-2相关联的例如包括一个或多个数字图像的图像数据IMG-DAT-DOM-2;将第二域DOM-2的风格STYLE-2应用164到与第一域DOM-1相关联的图像数据IMG-DAT-DOM-1,其中,获得例如以一个或多个数字“风格混合”图像x-CONT-1-STYLE-2形式的图像数据。
在图13的一些示例性实施例中,与第一域DOM-1相关联的图像数据IMG-DAT-DOM-1包括标签LAB,其中,例如,将第二域的风格应用164到与第一域相关联的图像数据包括保留164a标签LAB。这样,可以修改第一域的数字图像的风格,而同时保留标签LAB,因而提供具有(一个或多个)不同风格的进一步标记的图像数据x-CONT-1-STYLE-2。
在一些示例性实施例中,例如根据图11、图12、图13中的至少一个(或根据上述示例性实施例中的任何其他实施例)获得的风格混合图像x可以例如在例如包括一个或多个神经网络的机器学习系统的训练期间例如被用于数据扩充。
例如,图14示出了根据示例性实施例的用于训练语义分割网络E30的示例性用例。元素E31表示训练损失。
在图15的一些示例性实施例中,该方法包括:提供170具有第一内容信息I-CONT-1(其可以例如由图14的编码器实例12b-1确定)的第一图像数据IMG-DAT-1;提供172第二图像数据IMG-DAT-2,其中例如第二图像数据IMG-DAT-2包括不同于第一内容信息I-CONT-1的第二内容信息I-CONT-2;提取174第二图像数据IMG-DAT-2的风格信息I-STYLE-2;将第二图像数据IMG-DAT-2的风格信息I-STYLE-2的至少一部分应用176到第一图像数据IMG-DAT-1,例如通过使用图14的编码器14b。
因为根据示例性实施例,内容信息I-CONT-1例如在使用生成器14b的处理期间保持不变,所以可以使用第一域或源域DOM-1的标签LAB,并且它们遍及风格混合图像x-CONT-1-STYLE-2的生成被保留。在一些示例性实施例中,数字图像的风格信息可以例如在没有标签的情况下例如从(一个或多个)任何目标域翻译(translate)。根据示例性实施例的这种数据扩充可以例如有助于提高泛化性能。
例如,在一些示例性实施例中,仅在白天场景(即,一个单一特定域或风格)上训练的(机器学习)模型可能在其他场景(诸如例如夜晚场景)上表现欠佳。利用根据示例性实施例的所提出的风格混合数据扩充,可以极大地减小白天场景和夜晚场景之间的性能差距。
有趣的是,在一些示例性实施例中,可以观察到,源域内的风格混合可以例如在无需访问更多的数据集合的情况下改进(例如,提升)域外(“ood”)泛化。在一些示例性实施例中,假设根据一些示例性实施例的内部混合风格化可以有助于例如找到例如平坦最优的近似解,这可以例如导致更好的泛化能力。
此外,在一些示例性实施例中,可以应用根据实施例的原理而获得的风格混合图像也可以用于验证,其中测试性能可以例如用作选择模型的泛化的代理指示符。在一些常规方法中,可能没有好的或优选的方式来挑选具有最佳泛化能力的先验模型,例如在仅给定源数据集合的情况下。因此,在一些示例性实施例中,通过应用根据实施例的原理而进行的风格混合可能有助于选择最佳模型,例如在不需要目标数据集合的情况下。
在一些示例性实施例中,例如通过使用编码器12、12a,可以使用一个单个例如未标记的图像,例如对于例如风格提取来说是足够的,其中风格可以例如被传递到源数据集合。由于在一些示例性实施例中,源数据集合可以被标记,因此可以在风格混合的数据集合上测试模型。基于如此确定的测试精度,在一些示例性实施例中,可以近似模型在目标数据集合上的泛化性能。
在图16的一些示例性实施例中,该方法包括:生成180例如用于训练至少一个神经网络和/或机器学习系统的训练数据TRAIN-DAT(例如,包括一个或多个训练数据集合),其中生成180例如基于源域的图像数据IMG-DAT-SRC并且基于源域的修改的图像数据IMG-DAT-SRC’,其中,例如,修改的图像数据IMG-DAT-SRC’例如根据实施例的原理例如基于另外的图像数据IMG-DAT’的风格关于图像风格而被修改或已经修改。在一些示例性实施例中,可选地,对至少一个神经网络系统NNS进行训练182可以基于训练数据TRAIN-DAT来执行。
为了概括一些示例性方面,在一些示例性实施例中,参见例如图11和图12,应用根据实施例的原理的风格混合和/或风格采样,例如以生成扩充图像xmix、xsampled。如已经上述的,图14示意性地示出了用于语义分割训练的所提出的数据扩充流水线的示例性用例。风格混合的视觉示例例如呈现在图17A、图17B(图17A的颜色版本)中,其中风格可以例如从源域SD的训练集合和/或从目标域TD的图像(例如单个图像)中提取。同样如已经上述的,图18中示出了可以通过根据一些示例性实施例的示例性风格插值而获得的图像。
图19的其他示例性实施例涉及用于执行根据实施例的方法的装置200。
在一些示例性实施例中,装置200包括至少一个计算单元(例如,处理器202)和与至少一个计算单元202相关联(即,可由至少一个计算单元202使用)的至少一个存储器单元204,其例如用于至少临时存储计算机程序PRG和/或数据DAT,其中计算机程序PRG例如被配置成至少临时控制装置200的操作,例如用于实现GAN系统10(图2)的至少一些方面,例如编码器12和/或生成器14。
在一些示例性实施例中,至少一个计算单元202包括用于执行计算机程序PRG或其至少部分的至少一个核心(未示出),例如用于执行根据实施例的方法或其至少一个或多个步骤和/或其他方面。
根据其他示例性实施例,至少一个计算单元202可以包括以下元素中的至少一个:微处理器、微控制器、数字信号处理器(DSP)、可编程逻辑元件(例如,FPGA现场可编程门阵列)、ASIC(专用集成电路)、硬件电路、张量处理器、图形处理单元(GPU)。根据其他优选实施例,这些元素中的两个或更多个的任何组合也是可能的。
根据其他示例性实施例,存储器单元204包括以下元素中的至少一个:易失性存储器204a,例如随机存取存储器(RAM);非易失性存储器204b,例如闪存EEPROM。
在一些示例性实施例中,计算机程序PRG至少临时存储在非易失性存储器204b中。例如与以下中的至少一个相关联的数据DAT可以至少临时存储在RAM204a中:a)(一个或多个)数字图像,b)GAN系统10的参数和/或超参数,c)潜在变量,d)随机数据,例如用于掩蔽噪声映射,e)(一个或多个)分布DISTR,f)内容信息I-CONT-1,g)风格信息I-STYLE-2等,其可以例如用于执行根据一些示例性实施例的方法。
在一些示例性实施例中,可以提供包括指令的可选计算机可读存储介质SM,例如以另外的计算机程序PRG’的形式,其中,该指令当由计算机(即,由计算单元202)执行时,可以使计算机202执行根据实施例的方法。作为示例,存储介质SM可以包括或表示数字存储介质,例如半导体存储装置(例如固态驱动器SSD)和/或磁存储介质(例如磁盘或硬盘驱动器(HDD))和/或光存储介质(例如压缩盘(CD)或DVD(数字多功能盘))等。
在一些示例性实施例中,装置200可以包括可选的数据接口206,例如用于与外部装置(未示出)进行双向数据交换。作为示例,通过数据接口206,可以例如经由有线或无线数据传输介质,例如通过(虚拟)专用计算机网络和/或诸如例如因特网的公共计算机网络,例如从外部装置接收数据载体信号DCS。
在一些示例性实施例中,数据载体信号DCS可以表示或承载根据实施例的计算机程序PRG、PRG’或其至少一部分。
其他示例性实施例涉及包括指令的计算机程序PRG、PRG’,当该程序由计算机202执行时,该指令使得计算机202执行根据实施例的方法。
图20的其他示例性实施例涉及针对以下中的至少一个来使用30根据实施例的方法和/或根据实施例的装置200和/或根据实施例的计算机程序PRG、PRG’和/或根据实施例的计算机可读存储介质SM和/或根据实施例的数据载体信号DCS:a)基于与第一数字图像相关联的噪声预测和与扩展潜在空间相关联的多个潜在变量来确定301至少一个另外的数字图像,多个潜在变量中的至少一些与第一数字图像之外的另一图像和/或其他数据相关联,b)例如在保留第一数字图像的内容的同时将来自第二数字图像的风格传递302到第一数字图像,c)解开303至少一个数字图像的风格和内容,d)例如基于第一数字图像和至少一个另外的例如第二数字图像的风格来创建304具有未改变内容的不同风格化数字图像(见例如图18),e)针对风格化图像使用305(例如重新使用)标记注释,f)当改变至少一个数字图像的风格时避免306注释工作,g)生成307例如具有不同风格的例如感觉上逼真的数字图像,h)提供308代理验证集合,例如用于测试例如神经网络系统的分布外泛化,i)训练309机器学习系统,j)测试310机器学习系统,k)校验311机器学习系统,l)验证312机器学习系统,m)生成313例如用于机器学习系统的训练数据,n)例如现有图像数据的数据扩充314,o)提高315机器学习系统的泛化性能,p)例如在没有与多个数据集合相关联的训练的情况下操纵316(例如灵活操纵)图像风格,q)利用317编码器GAN流水线12、14来操纵图像风格,r)由编码器12将与图像风格相关联的信息嵌入318到例如中间潜在变量中,s)混合319数字图像的风格,例如用于生成包括基于混合的风格的至少一个另外的数字图像。
在下文中,提供了根据其他示例性实施例的其他方面和优点,在一些示例性实施例中,这些方面和优点可以彼此组合和/或与上述示例性方面中的至少一个组合。
在一些常规方法中,已经为深度学习做出了i.i.d(独立且相同分布)假设,即,诸如例如数字图像之类的训练和测试数据应当从相同的分布中得出。然而,在现实生活中,很容易违反i.i.d假设。例如,不同的天气条件、不同的城市会导致分布偏移。在至少一些常规方法中,这种数据偏移会导致严重的性能下降。在至少一些常规方法中,无监督的域自适应或域泛化旨在缓解这一问题。
在一些常规方法中,提出了诸如例如颜色变换和CutMix(https://arxiv.org/pdf/1912.04958.pdf)之类的数据扩充技术,这些技术可以随机修改数据集合的外观,但不能将另一数据集合的外观/风格传递到源数据集合。在一些常规方法中,用于域自适应的图像到图像翻译可以完成这种目标翻译,但是需要在源域和目标域两者上训练图像到图像翻译模型。
在一些示例性实施例中,根据实施例的原理可以例如被视为和/或用作对编码器-GAN架构的增强,例如风格编码:用于图像到图像翻译(pSp)的StyleGAN编码器(https://arxiv.org/pdf/2008.00951.pdf)。特别地,并且与常规方法相反,根据实施例的原理可以灵活地操纵图像风格,例如在没有多数据集合训练的情况下。在一些示例性实施例中,通过应用根据实施例的原理而获得的图像(例如合成图像)可用于网络训练期间的数据扩充,例如以提高模型泛化性能。
在一些示例性实施例中,例如通过应用根据实施例的原理而获得的风格化图像可用于验证,例如以指示模型的分布外(ood)泛化能力。
在一些示例性实施例中,编码器-GAN流水线用于操纵图像风格。在一些示例性实施例中,可以观察到,例如经适当训练的编码器可以以无监督的方式解开风格和内容信息。更具体地,在一些示例性实施例中,编码器可以将风格信息嵌入到中间潜在变量和内容信息中,其成为噪声。此外,在一些示例性实施例中,该流水线很好地推广到未见过的数据集合。
在一些示例性实施例中,利用与根据实施例的原理相关的编码器GAN流水线的这些吸引人的特性,提出了多个应用,例如以例如在训练和/或验证期间操纵图像风格和/或进一步使用。
在一些示例性实施例中,根据实施例的原理使得能够将其他数据集合的风格传递到源数据集合,并且生成具有原始图像的良好保留的内容信息的风格化图像。
在一些示例性实施例中,根据实施例的原理使得能够插值风格和/或学习风格分布并且从风格分布采样。在一些示例性实施例中,通过应用根据实施例的原理而获得的风格化图像可以例如在例如训练期间用于数据扩充。
在一些示例性实施例中,通过应用根据实施例的原理而获得的风格化图像可以例如用作代理验证集合,例如用于分布外(ood)数据,其中风格化合成图像上的测试精度可以在一定程度上预测ood泛化性能。在一些示例性实施例中,这可用于模型选择。例如,对于在晴天场景(源域)上训练的模型,夜晚、有雾、下雪和其他不同天气条件下的任何场景被视为odd样本。在一些示例性实施例中,可以将ood样本的风格传递到源域,同时保留源图像的内容。在一些示例性实施例中,由于源域图像可以被标记,因此可以在风格化的源图像上测试模型,并且测试精度可以指示模型的odd泛化能力。
在一些示例性实施例中,例如由于编码器12、12a的风格-内容解开,示例性实施例使得能够生成不同的风格化图像,同时图像的内容保持不变,例如与原始图像中的内容相同。因此,在一些示例性实施例中,原始图像的标记注释也可以用于风格化图像。
在一些常规方法中,当从现有数据未覆盖的分布中提取样本时,所收集的样本需要被标记,示例性实施例由于保留标记并非如此。因此,在一些示例性实施例中,例如针对附加的注释工作,可以节省时间和/或成本。
此外,在一些示例性实施例中,可以通过应用实施例的原理而获得的风格混合图像在感知上是逼真的,并且例如接近目标数据集合。因此,在一些示例性实施例中,它们可以用作用于测试分布外泛化的代理验证集合。
在一些示例性实施例中,根据实施例的原理的编码器-GAN流水线不需要例如像一些常规的图像到图像翻译方法一样对目标数据集合进行训练。在一些示例性实施例中,单个数据集合训练的模型很好地推广到未见过的数据集合,这使得能够实现更灵活的风格混合和操纵。
在一些示例性实施例中,实施例的原理可以例如用于以下中的至少一个:训练机器学习(ML)系统;生成用于该训练的训练数据;生成测试数据,例如,以检查经训练的ML系统然后是否可以被安全地操作。
在一些示例性实施例中,实施例的方面涉及和/或表征例如用于生成训练或测试数据的生成式模型、以及涉及训练生成式模型的方法。
在一些示例性实施例中,根据实施例的原理可以例如被用于但不限于以下中的至少一个:a)数据分析,例如数字图像和/或视频数据的分析,b)对数字图像数据进行分类,c)检测数据中的对象的存在,d)对数据执行语义分割,例如关于但不限于以下中的至少一个:d1)交通标志,d2)路面,d3)行人,d4)车辆,d5)可以例如在语义分割任务中示出的对象类别(例如树、天空、……)。

Claims (18)

1.一种处理数字图像数据的方法,例如计算机实现的方法,所述方法包括:
由编码器(12;12a)确定(100)与第一数字图像(x1)相关联的噪声预测(PRED-NOISE-x1),所述编码器被配置成将第一数字图像(x1)映射到与生成式对抗网络GAN系统(10)的生成器(14;14a)相关联的扩展潜在空间(SP-W+);
由GAN系统(10)的生成器(14)基于与第一数字图像(x1)相关联的噪声预测(PRED-NOISE-x1)和与扩展潜在空间(SP-W+)相关联的多个潜在变量(LAT-VAR)来确定(102)至少一个另外的数字图像(x’)。
2.根据权利要求1所述的方法,包括:基于以下中的至少一个来确定(110)多个潜在变量(LAT-VAR):a)不同于第一数字图像(x1)的第二数字图像(x2),例如使用编码器(12),b)多个概率分布(DISTR)。
3.根据前述权利要求中任一项所述的方法,其中,与扩展潜在空间(SP-W+)相关联的多个潜在变量(LAT-VAR)中的至少一些表征第一数字图像(x1)的以下方面中的至少一个:a)风格,例如非语义外观,b)纹理,c)颜色。
4.根据前述权利要求中任一项所述的方法,包括以下中的至少一个:a)基于第一数字图像(x1)来确定(120)多个例如分层特征映射(FM),b)基于多个例如分层特征映射(FM)来确定(122)与第一数字图像(x1)的扩展潜在空间(SP-W+)相关联的多个潜在变量(LAT-VAR-x1),c)基于多个例如分层特征映射(FM)中的至少一个来确定(124)例如加性噪声映射(NOISE-MAP)。
5.根据前述权利要求中至少一项所述的方法,包括:随机和/或伪随机地掩蔽(130)与第一数字图像(x1)相关联的噪声预测(PRED-NOISE-x1)的至少一部分。
6.根据权利要求4至5中至少一项所述的方法,包括:例如以随机和/或伪随机的方式来掩蔽(132)噪声映射(NOISE-MAP)。
7.根据权利要求6所述的方法,包括:
将噪声映射(NOISE-MAP;ε)划分(132a)例如在空间上划分成多个例如P×P许多例如非重叠的补片(PATCH);
以随机和/或伪随机的方式选择(132b)补片(PATCH)的子集(PATCH-SUB);
用例如相同大小的例如单位高斯随机变量的补片(PATCH-RND)替换(132c)补片(PATCH)的子集(PATCH-SUB)。
8.根据前述权利要求中至少一项所述的方法,包括:
将与第一数字图像(x1)相关联的噪声预测(PRED-NOISE-x1)与第二数字图像(x2)的风格预测(PRED-STYLE-x2)进行组合(140);
基于组合的与第一数字图像(x1)相关联的噪声预测(PRED-NOISE-x1)和第二数字图像(x2)的风格预测(PRED-STYLE-x2),使用生成器(14)生成(142)另外的数字图像(x12)。
9.根据前述权利要求中至少一项所述的方法,包括:
提供(150)与第一数字图像(x1)相关联的噪声预测(PRED-NOISE-x1);
提供(152)表征要应用于第一数字图像(x1)的例如语义内容的不同风格的不同潜在变量集合(SET-LAT-VAR);
基于与第一数字图像(x1)相关联的噪声预测(PRED-NOISE-x1)和表征不同风格的不同潜在变量集合(SET-LAT-VAR)使用生成器(14)生成(154)具有不同风格的多个数字图像(PLUR-x)。
10.根据前述权利要求中至少一项所述的方法,包括:
提供(160)与第一域(DOM-1)相关联的例如包括一个或多个数字图像的图像数据(IMG-DAT-DOM-1);
提供(162)与第二域(DOM-2)相关联的例如包括一个或多个数字图像的图像数据(IMG-DAT-DOM-2);
将第二域(DOM-2)的风格(STYLE-2)应用(164)到与第一域(DOM-1)相关联的图像数据(IMG-DAT-DOM-1)。
11.根据权利要求10所述的方法,其中,与第一域(DOM-1)相关联的图像数据(IMG-DAT-DOM-1)包括标签(LAB),其中,例如,将第二域(DOM-2)的风格(STYLE-2)应用(164)到与第一域(DOM-1)相关联的图像数据(IMD-DAT-DOM-1)包括保留(164a)标签(LAB)。
12.根据前述权利要求中至少一项所述的方法,包括:
提供(170)具有第一内容信息(I-CONT-1)的第一图像数据(IMG-DAT-1);
提供(172)第二图像数据(IMG-DAT-2),其中,例如第二图像数据(IMG-DAT-2)包括不同于第一内容信息(I-CONT-1)的第二内容信息(I-CONT-2);
提取(174)第二图像数据(IMG-DAT-2)的风格信息(I-STYLE-2);
将第二图像数据(IMG-DAT-2)的风格信息(I-STYLE-2)的至少一部分应用(176)到第一图像数据(IMG-DAT-1)。
13.根据前述权利要求中至少一项所述的方法,包括:
生成(180)例如用于训练至少一个神经网络系统(NNS)的训练数据(TRAIN-DAT),其中所述生成(180)例如基于源域的图像数据(IMG-DAT-SRC)并且基于源域的经修改的图像数据(IMG-DAT-SRC’),其中例如所述经修改的图像数据(IMG-DAT-SRC’)例如基于另外的图像数据(IMG-DAT’)的风格关于图像风格而被修改和/或已经被修改,并且可选地,基于训练数据(TRAIN-DAT)来训练(182)至少一个神经网络系统(NNS)。
14.一种用于执行根据前述权利要求中至少一项所述的方法的装置(200)。
15.一种包括指令的计算机程序(PRG;PRG’),当所述程序(PRG;PRG’)由计算机(202)执行时,所述指令使所述计算机(202)执行根据权利要求1至13中至少一项所述的方法。
16.一种包括指令(PRG’)的计算机可读存储介质(SM),所述指令当由计算机(202)执行时,使所述计算机(202)执行根据权利要求1至13中至少一项所述的方法。
17.一种承载和/或表征权利要求15的计算机程序(PRG;PRG’)的数据载体信号(DCS)。
18.一种根据权利要求1至13中至少一项所述的方法和/或根据权利要求14所述的装置(200)和/或根据权利要求15所述的计算机程序(PRG;PRG’)和/或根据权利要求16所述的计算机可读存储介质(SM)和/或根据权利要求17所述的数据载体信号(DCS)针对以下中的至少一个的使用(300):
a)基于与第一数字图像(x1)相关联的噪声预测(PRED-NOISE-x1)和与扩展潜在空间(SP-W+)相关联的多个潜在变量(LAT-VAR)来确定(301)至少一个另外的数字图像(x’),所述多个潜在变量(LAT-VAR)中的至少一些与第一数字图像(x1)之外的另一图像和/或其他数据相关联,
b)例如在保留第一数字图像的内容的同时将来自第二数字图像的风格传递(302)到第一数字图像,
c)解开(303)至少一个数字图像的风格和内容,
d)例如基于第一数字图像和至少一个另外的例如第二数字图像的风格来创建(304)具有未改变内容的不同风格化数字图像,
e)针对风格化图像使用(305)例如重新使用标记注释,
f)当改变至少一个数字图像的风格时避免(306)注释工作,
g)生成(307)例如具有不同风格的例如感觉上逼真的数字图像,
h)提供(308)代理验证集合,例如用于测试例如神经网络系统的分布外泛化,
i)训练(309)机器学习系统,
j)测试(310)机器学习系统,
k)校验(311)机器学习系统,
l)验证(312)机器学习系统,
m)生成(313)例如用于机器学习系统的训练数据,
n)例如现有图像数据的数据扩充(314),
o)提高(315)机器学习系统的泛化性能,
p)例如在没有与多个数据集合相关联的训练的情况下操纵(316)例如灵活操纵图像风格,q)利用(317)编码器GAN流水线来操纵图像风格,
r)由编码器(12)将与图像风格相关联的信息嵌入(318)到例如中间潜在变量中,
s)混合(319)数字图像的风格,例如用于生成包括基于混合(319)的风格的至少一个另外的数字图像。
CN202311345048.1A 2022-10-17 2023-10-17 用于处理数字图像数据的方法和装置 Pending CN117911236A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP22201999.4A EP4358015A1 (en) 2022-10-17 2022-10-17 Method of and apparatus for processing digital image data
EP22201999.4 2022-10-17

Publications (1)

Publication Number Publication Date
CN117911236A true CN117911236A (zh) 2024-04-19

Family

ID=83994914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311345048.1A Pending CN117911236A (zh) 2022-10-17 2023-10-17 用于处理数字图像数据的方法和装置

Country Status (5)

Country Link
US (1) US20240135515A1 (zh)
EP (1) EP4358015A1 (zh)
JP (1) JP2024059101A (zh)
KR (1) KR20240053555A (zh)
CN (1) CN117911236A (zh)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11893717B2 (en) * 2021-02-26 2024-02-06 Adobe Inc. Initializing a learned latent vector for neural-network projections of diverse images

Also Published As

Publication number Publication date
KR20240053555A (ko) 2024-04-24
US20240135515A1 (en) 2024-04-25
JP2024059101A (ja) 2024-04-30
EP4358015A1 (en) 2024-04-24

Similar Documents

Publication Publication Date Title
Lang et al. Pointpillars: Fast encoders for object detection from point clouds
Bielski et al. Emergence of object segmentation in perturbed generative models
Zheng et al. Forkgan: Seeing into the rainy night
Yang et al. LFRSNet: A robust light field semantic segmentation network combining contextual and geometric features
CN111860138A (zh) 基于全融合网络的三维点云语义分割方法及系统
Cui et al. Image steganography based on foreground object generation by generative adversarial networks in mobile edge computing with Internet of Things
Chatterjee et al. On building classification from remote sensor imagery using deep neural networks and the relation between classification and reconstruction accuracy using border localization as proxy
Ding et al. Kd-mvs: Knowledge distillation based self-supervised learning for multi-view stereo
Lu et al. Multi-scale feature progressive fusion network for remote sensing image change detection
Hwang et al. Lidar depth completion using color-embedded information via knowledge distillation
JP7282152B2 (ja) イメージで文字部分を変更する方法、コンピュータ装置、およびコンピュータプログラム
CN116092122A (zh) 一种协作多特征聚类无监督行人再识别方法和系统
CN114494387A (zh) 一种生成数据集网络模型及雾图生成方法
Jiang et al. Pixel-wise content attention learning for single-image deraining of autonomous vehicles
Yang et al. A multi-scale feature fusion spatial–channel attention model for background subtraction
Zhong et al. Displacement-invariant cost computation for stereo matching
Gupta et al. A robust and efficient image de-fencing approach using conditional generative adversarial networks
CN117911236A (zh) 用于处理数字图像数据的方法和装置
Gao et al. Layout-guided indoor panorama inpainting with plane-aware normalization
Zhang et al. LanePainter: lane marks enhancement via generative adversarial network
Tran et al. Encoder–decoder network with guided transmission map: Robustness and applicability
Ma et al. Cloud-egan: Rethinking cyclegan from a feature enhancement perspective for cloud removal by combining cnn and transformer
Wang et al. A brief review of image dehazing algorithms based on deep learning
Chinthada et al. Deep Learning Based Dynamic Object Addition to Video Instances for Creating Synthetic Data
Li et al. Hybrid attention cascaded U-net for building extraction from aerial images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication