CN115812206A - 用于高质量图像处理的机器学习 - Google Patents
用于高质量图像处理的机器学习 Download PDFInfo
- Publication number
- CN115812206A CN115812206A CN202080102027.5A CN202080102027A CN115812206A CN 115812206 A CN115812206 A CN 115812206A CN 202080102027 A CN202080102027 A CN 202080102027A CN 115812206 A CN115812206 A CN 115812206A
- Authority
- CN
- China
- Prior art keywords
- image data
- data
- unwanted
- real
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims description 24
- 238000010801 machine learning Methods 0.000 title abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 92
- 238000012549 training Methods 0.000 claims abstract description 75
- 239000013598 vector Substances 0.000 claims description 50
- 230000006870 function Effects 0.000 claims description 48
- 230000008569 process Effects 0.000 claims description 33
- 230000008439 repair process Effects 0.000 abstract description 30
- 238000005067 remediation Methods 0.000 abstract description 7
- 238000013528 artificial neural network Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 238000011156 evaluation Methods 0.000 description 8
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000003042 antagnostic effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
能够通过使用机器学习和真实值数据训练来帮助用于修复的系统或方法。通过使用真实值图像数据来训练机器学习修复模型可以增加图像修复领域的效率和精度。此外,机器学习修复模型能够帮助各种数据类型的非确定性预测,并且能够适用于各种数据类型的移除和/或替换。由于通过训练调整的校准参数,使得经训练的模型能够在没有真实值保证的情况下进行预测。
Description
技术领域
本公开总体上涉及处理图像数据。更具体地,本公开涉及一种用于能够借助于真实值数据来训练的高质量图像修复的机器学习的模型。
背景技术
图像(例如,照片)和其他形式的数据通常包括不想要的数据。作为一个示例,不想要的数据可以与由处理图像以减少图像中的噪声而产生的伪像相对应。作为另一示例,不想要的数据可以与风景前景中的人类或家庭照片背景中的未知人相对应。作为另一示例,不想要的数据可以与另外情况下的原始背景中的难看对象相对应。
因此,不想要的数据能够与遮挡或模糊图像的其他部分——诸如所描绘的场景——的对象相对应。然而,利用替换数据(例如,描绘被不想要的数据遮挡的图像的被遮挡部分的替换图像数据,也被称为“修复”的过程)替换不想要的数据是本质上非确定性的具有挑战性的问题。换句话说,可以从相同图像确定多个可能的解决方案,从而导致困难的问题。
发明内容
本公开的实施例的方面和优点将在以下描述中部分地阐述,或者能够从描述中学习,或者能够通过实施例的实践来学习。
本公开提供了用于基于数据特性和真实值训练技术利用替换数据替换不想要的数据的系统和方法。根据本公开的计算系统能够被配置为接收给定的增强数据集合、掩码和真实值数据集合;对所述增强数据和掩码进行编码;对所述真实值数据进行编码;对从两个编码接收的数据都进行编译;对所述编码进行解码;将输出与真实值数据进行比较;以及修改系统参数。通过使用真实值编码,可以进一步帮助计算系统替换数据。以该方式,本公开的实施方式可以用于创建替换数据来代替不想要的数据。
本公开的一个示例方面针对训练机器学习图像修复模型的计算机实现的方法。所述方法能够包括条件变分自编码器。所述方法能够包括获得训练样本,所述训练样本包括:真实值图像数据、从将不想要的图像数据添加到所述真实值图像数据导出的增强图像数据,以及可以指示所述不想要的图像数据在所述增强图像数据内的一个或多个位置的掩码。所述方法能够进一步包括利用所述条件变分自编码器的第一编码器模型来处理所述增强数据和掩码,以生成用于所述图像数据的嵌入,并且能够包括利用第二编码器模型处理所述真实值图像数据和所述掩码以生成一个或多个分布值。此外,所述方法能够包括利用所述条件变分自编码器的解码器模型来处理所述嵌入和所述一个或多个分布值,以生成预测图像数据,所述预测图像数据可以包括由所述掩码指示的所述一个或多个位置处的替换图像数据,其中,所述替换图像数据可以替换所述不想要的图像数据。附加地,所述方法能够包括基于所述预测图像数据与所述真实值图像数据的比较来评估一个或多个损失函数,然后至少部分地基于所述一个或多个损失函数修改所述条件变分自编码器的一个或多个参数值。
本公开的另一示例方面针对计算系统,所述计算系统包括至少一个处理器、机器学习的图像修复模型以及存储指令的至少一个有形的、非暂时性计算机可读介质,所述指令在由所述至少一个处理器执行时可以使所述至少一个处理器执行操作。所述系统能够包括:编码器,其中,所述编码器能够被配置为对图像数据进行编码;以及解码器,其中,所述解码器能够被配置为对图像数据进行解码。所述机器学习的图像修复模型能够被训练以将图像数据和掩码输入到所述编码器中,其中,所述图像数据能够包括不想要的图像数据,并且其中,所述掩码能够指示所述不想要的图像数据的位置和大小;此外,所述机器学习的图像修复模型能够被训练为从所述编码器接收嵌入,其中,所述嵌入能够包括所述经编码的图像数据。所述机器学习的图像修复模型能够被训练为将所述嵌入和条件向量输入到所述解码器中。所述机器学习的图像修复模型能够进一步被训练为接收预测图像数据作为所述解码器的输出,其中,所述预测图像数据能够至少部分地基于所述图像数据和所述条件向量,利用预测替换数据替换所述不想要的图像数据。
本公开的另一示例方面针对一个或多个非暂时性计算机可读介质,所述介质可以共同存储指令,所述指令使一个或多个计算设备执行操作。所述操作能够包括条件变分自编码器。所述操作能够包括获得训练样本,所述训练样本包括真实值数据、从将不想要的图像数据添加到所述真实值图像数据导出的增强数据以及可以指示所述不想要的数据在所述增强数据内的一个或多个位置的掩码。所述操作能够进一步包括利用所述条件变分自编码器的第一编码器模型来处理所述增强数据和掩码,以生成用于所述数据的嵌入,并且能够包括利用第二编码器模型处理所述真实值数据和所述掩码以生成一个或多个分布值。此外,所述操作能够包括利用所述条件变分自编码器的解码器模型来处理所述嵌入和所述一个或多个分布值,以生成预测数据,所述预测数据可以包括由所述掩码指示的所述一个或多个位置处的替换数据,其中,所述替换图像数据能够替换所述不想要的数据。附加地,所述操作能够进一步包括基于所述预测数据与所述真实值数据的比较来评估一个或多个损失函数,然后至少部分地基于所述一个或多个损失函数修改所述条件变分自编码器的一个或多个参数值。所述操作能够进一步包括基于所述预测图像数据与所述真实值数据的比较来评估一个或多个损失函数。此外,所述操作能够包括至少部分地基于所述一个或多个损失函数来修改所述条件变分自编码器的一个或多个参数值。
本公开的其他方面针对各种系统、装置、非暂时性计算机可读介质、用户界面和电子设备。参考以下描述和所附权利要求,将更好地理解本公开的各种实施例的这些和其他特征、方面和优点。并入本说明书中并构成本说明书的一部分的附图图示了本公开的示例实施例,并且与说明书一起用于解释相关原理。
附图说明
在参考附图的说明书中阐述了针对本领域普通技术人员的实施例的详细讨论,其中:
图1A描绘了根据本公开的示例实施例的示例计算系统的框图。
图1B描绘了根据本公开的示例实施例的示例计算设备的框图。
图1C描绘了根据本公开的示例实施例的示例计算设备的框图。
图2描绘了根据本公开的示例实施例的用于训练机器学习的模型的示例训练过程的框图。
图3描绘了根据本公开的示例实施例的使用机器学习的模型来推断替换数据的示例推断过程的框图。
图4描绘了根据本公开的示例实施例的训练机器学习的模型的示例方法的流程图。
图5描绘了根据本公开的示例实施例的使用机器学习的模型来推断替换数据的示例方法的流程图。
图6描绘了根据本公开的示例实施例的示例双编码判别训练方法的框图。
跨多个附图重复的附图标记旨在标识各种实施方式中的相同特征。
具体实施方式
通常,本公开涉及使用机器学习来执行修复的系统和方法,其能够指代利用替换数据替换不想要的数据。作为一个示例,在图像数据的场境中,修复能够包括从图像中移除人类或其他不期望的对象,以及使用替换数据在移除的数据的位置处填充图像。根据本公开的方面,替换数据能够通过机器学习的模型——诸如,例如条件变分自编码器——来被预测。预测的替换数据能够很大地基于未被遮挡的数据。
特别地,所提出的修复系统可以利用机器学习技术来更好地细化可以被修复到图像中的预测的替换数据。机器学习模型的训练能够涉及真实值图像、增强图像和掩码。真实值图像能够是没有不想要的数据的图像。增强图像能够是真实值图像,其中图像的一部分被不想要的数据遮挡(例如,不想要的数据能够被添加到真实值图像数据以生成增强图像数据)。掩码(例如,二进制像素掩码)能够指示不想要的数据在增强图像数据内的位置和/或大小。
作为一个示例,所提出的修复系统能够利用机器学习的自编码器模型来执行替换图像数据的预测。自编码器模型能够是例如条件变分自编码器。在一些实施方式中,自编码器模型能够包括被配置为对输入图像数据进行编码以生成编码数据的编码器模型和被配置为基于由编码器生成的编码数据来预测替换数据的解码器模型。
在一些实施方式中,机器学习的模型的训练能够通过(例如,通过将不想要的数据添加到真实值图像数据)从真实值图像数据生成增强图像数据开始。掩码(例如,二进制像素掩码)能够指示不想要的数据在增强图像数据内的位置。
接下来,能够将增强图像输入到具有掩码的编码器中,以生成编码数据,其也可以被称为嵌入,作为编码器的输出。在一些实施方式中,在训练期间,还通过使用第二不同编码器来编码真实值图像和掩码。编码的真实值图像能够用于创建分布值或特征向量,以用于帮助解码的预测过程来缩小预测可能性。在一些实施方式中,分布值能够乘以随机值以要求解码器在解码和预测中依赖于嵌入和特征向量两者(例如,以普遍化解码器模型)。
能够将从具有掩码的增强图像数据产生并与特征向量组合的编码数据输入到解码器中。解码器能够解码数据以创建替换图像。换句话说,解码器能够预测替换数据,其替换不想要的数据以尝试匹配真实值数据。
具体地,在图像被解码之后,能够使用任何数量的不同损失函数和/或不同损失函数的组合来针对真实值图像评估替换图像。能够使用的三个示例损失函数包括:L1损失函数、VGG损失函数和对抗损失函数。在评估之后,能够执行修改或更新步骤以基于损失函数更新(例如,编码器和/或解码器模型的)参数。能够在多个真实值和增强图像训练示例上迭代地重复训练。
一旦训练完成,就能够运行系统以生成输入图像的被掩码标识为不想要的部分的替换数据。特别地,在推断时,能够将具有一些不想要的数据的新输入图像连同标识不想要的数据在输入图像内的位置和/或大小的掩码一起提供给经训练的编码器模型。编码器能够基于输入图像和掩码来产生编码数据(例如,其也可以被称为“嵌入”)。
此外,在一些实施方式中,条件向量(例如,其在一些实例中可以是零向量)能够与由编码器从输入数据和掩码生成的嵌入的数据一起被包括(例如,连结)。由于系统是利用随机化特征向量训练的,因此经过良好训练的系统能够产生合理的结果。系统可以使用经训练的参数来创建代替不想要的数据的替换数据。
因此,在推断时,具有不想要的图像数据的图像数据能够与标识不想要的图像数据的掩码一起被输入到编码器中。然后能够将编码的图像数据与条件向量一起输入到解码器中。解码器能够输出替换图像,在该替换图像中不想要的图像数据已经被移除并且利用(例如,描绘先前被不想要的图像数据遮挡的场景的一部分的)替换数据替换。
一种利用预测的替换数据准确地替换不想要的数据的用于利用机器学习进行修复的方法,该方法允许从图片或视频中移除不想要的对象和人。能够在包括音频波形数据的其他形式的媒体中找到相同的需求(例如,可能期望移除不想要的噪声,诸如咔哒声、嘶嘶声等,或者可能期望通过移除与其他扬声器或背景噪声相对应的音频数据来隔离单个扬声器)。能够基于剩余数据中的属性来利用预测数据替换不想要的数据。因此,尽管本文参考诸如场景的视觉图像数据描述了系统和方法,但是它们也能够应用于其他类型或模态的数据(例如,音频数据、音频数据/声音图像、文本数据、文本图像等),其中,替换数据被预测来替换(例如,如经由掩蔽标识的)不想要的数据。此外,图像数据能够包括二维图像数据(例如,照片)或三维图像数据(例如,网格模型或点云,诸如例如LiDAR点云)。例如,对于点云,掩码可以指示点云中的哪些点是不想要的。更一般地,对于各种其他模态,掩码可以指示数据的哪些部分是不想要的。
由于图像修复和数据替换能够是非确定性的,因此创建替换数据所需的预测是困难的。机器学习能够是用于训练系统以更准确地预测正确的替换数据的一个方法。然后能够利用经训练的预测系统来创建最准确的替换数据。使用真实值数据和增强数据的训练能够允许系统评估和修改系统的参数,以更准确地预测什么正在被不想要的数据遮挡。使用真实值数据进行训练意味着训练过程不是非确定性的。
从图像数据中移除不想要的图像数据的过程可以被称为修复。机器学习模型能够被实现为系统或过程,以便为自动修复提供越来越精确和有效的结果。例如,在一些实施方式中,能够通过利用条件变分自编码器来完成修复。
在一些实施方式中,该系统或方法可以利用条件变分自编码器与辨别组件汇接用于密集预测,其中,辨别组件将整个图像数据分成两个区域,现有区域和缺失区域。除了变分自编码器的嵌入的特征向量之外,条件变分自编码器还可以使用真实值信息。条件变分自编码器可以使用不想要的图像数据之外的图像像素来帮助预测。
在一些实施方式中,真实值图像数据可以用于机器学习训练。在一些实施方式中,训练包括:由具有指示不想要的图像数据的大小和位置的掩码的编码器摄取增强图像数据,输出嵌入的数据,由另一编码器摄取具有掩码的真实值图像,输出特征向量,随机化特征向量,将嵌入的数据和随机化特征向量输入到解码器中,输出替换图像数据,相对于真实值图像评估替换图像数据,以及基于替换图像数据相比于真实值图像数据的评估来修改操作的参数。
在一些实施方式中,真实值数据可以是不包括不想要的数据的数据。真实值数据能够是由系统创建的替换数据的理想结果。真实值数据能够是用于确定修复方法或系统的准确性的有用数据集合。
在一些实施方式中,增强数据可以包括不想要的数据。在一些实施方式中,不想要的数据能够是模糊真实值数据的数据。例如,在图像已经经历去噪过程之后留下的不想要的数据,或者图片中的正在被风景遮挡的人。
在一些实施方式中,增强数据可以是创建的数据集合。可以通过将不想要的数据添加到真实值数据集合中来产生增强数据。例如,真实值图像数据集合的若干像素可以通过添加颜色斑点或其他对象而被遮挡。颜色斑点可以被认为是不想要的数据,并且因此,修复系统可以用于移除和替换颜色斑点或其他对象。
在一些实施方式中,掩码可以被包括在修复系统或方法中。掩码可以是不想要的数据的大小和位置的指示符。掩码可以用于分离什么需要被替换以及什么数据是期望的数据集合的一部分。在一些实施方式中,可以创建逆掩码以用于判别训练。
在一些实施方式中,掩码能够由用户手动创建。在一些实施方式中,能够自动地创建掩码。在一些实施方式中,掩码的自动创建可以由被训练为利用机器学习模型(例如,分割模型)创建掩码的系统来完成。
在一些实施方式中,可以利用机器学习模型来训练和提供用于修复系统的规则。能够被训练和实现的机器学习模型的一个示例可以是条件变分自编码器。例如,系统可以具有上变分编码器流水线和下编码器流水线。例如,上流水线可以包括用于对增强数据和掩码进行编码以创建嵌入的数据的编码器,并且下流水线可以包括用于对真实值数据进行编码以创建特征向量的编码器。在一些实施方式中,上和下流水线可以会聚。当具有特征向量的引导的嵌入数据被输入到解码器中时,其可以产生替换数据。
在一些实施方式中,特征向量可以包括分布值。分布值可以是标准偏差值和平均值。在一些实施方式中,分布值能够被随机化以确保解码器不仅仅依赖于特征向量来预测替换数据。
在一些实施方式中,条件向量可以是零向量。在一些实施方式中,由于利用各式各样的特征向量进行训练,所以零向量可以提供合理的预测数据。
在一些实施方式中,可以通过损失函数来量化替换数据相对于真实值数据的评估。损失函数可以单独使用或以任何组合使用。例如,可以组合使用L1损失函数、VGG损失函数和/或对抗损失函数来评估模型的预测。评估也可以单独地利用三个损失函数中的任何一个来完成。在一些实施方式中,KL散度损失函数可以帮助评估训练。例如,KL散度损失函数可以具有趋向于零的第二项。趋向于零可以指示系统的改进,并且系统变得更接近被优化。
在一些实施方式中,判别器方法或系统涉及两个级别:语义级和纹理级。语义级能够与数据作为整体的理解有关。纹理级可以与包括替换数据的锐度的预测数据的较精细部分相关。
在一些实施方式中,修复系统和方法可以应用于三维点云编辑。点云中的一个或多个点可能是不想要的数据,并且可能需要被移除或替换。在一些实施方式中,可以利用真实值三维点云、增强三维点云和掩码来训练用于三维点云的修复系统或方法。增强三维点云可以是添加了不想要的数据的真实值三维点云。不想要的数据可能是不在适当位置的点、不想要的点或一些其他形式的遮挡数据。掩码可以是不想要的数据的位置的指示符。在一些实施方式中,修复系统和方法可以应用于语音辨识,以填充接收到的语音片段中的具有低音频质量的区域。然后可以将填充的语音片段作为输入提供给语音辨识系统。改进提供给语音辨识系统的语音片段的音频质量可能导致语音辨识过程的更高准确性,和/或允许语音辨识与低音频质量语音片段一起使用。
在一些实施方式中,修复系统和方法可以应用于对黑白照片进行着色。例如,在一些实施方式中,可以手动地或利用计算机帮助对黑白照片集合进行着色。例如,为了训练着色系统,可以将手动着色的黑白照片集合作为真实值数据输入到修复系统中,并且可以输入原始黑白照片来代替增强数据。着色系统可以使用该数据样本来训练。一旦训练完成,系统就可以从先前未被着色的旧黑白照片产生着色的图像。
在一些实施方式中,修复系统可以替换去噪变分自编码器或者可以与去噪变分自编码器汇接使用。例如,去噪变分自编码器可以从数据集合中移除噪声,并且修复系统可以移除并替换在去噪过程之后留下的不想要的数据。
在一些实施方式中,图像修复系统可以是web应用。在一些实施方式中,系统可以是离线桌面应用。此外,该系统能够是移动应用。在一些实施方式中,系统可以是另一应用的附加组件或扩展。该系统能够是较大应用的内置特征。在另一示例中,系统能够作为服务(例如,作为服务层和/或由服务器计算设备)提供。在一些实施方式中,自动化掩码创建能够被内置到与修复系统相同的应用中。
在一些实施方式中,条件变分自编码器可以包括两个自编码器。下编码器可以仅通过编码真实值图像数据生成特征向量来在训练中被利用。特征向量可以由KL散度损失函数惩罚,以要求条件变分自编码器不仅仅依赖于特征向量。特征向量的随机化仍然可以为解码器预测提供有用的信息。
上编码器可以对增强图像数据和掩码进行编码。增强图像数据可以是被对象或其他不想要的图像数据遮挡的真实值图像数据。编码的增强图像数据和掩码可以被添加到来自下编码器的特征向量。然后可以对添加的数据进行解码以生成替换图像数据。操作可以被实现为连结。
在一些实施方式中,推断过程可以包括具有上编码器的条件变分自编码器,但不包括下编码器。下编码器可以利用诸如例如零向量的条件向量替换。由于随机化特征向量训练,零向量可以产生合理的图像数据。
在一些实施方式中,所述系统或方法可以包括来自作为预测数据的主要源的上编码器的大信息。在一些实施方式中,上编码器和解码器可以在卷积神经网络内具有跳跃连接。
在训练期间使用对抗损失的一些实施方式中,用于生成对抗损失的判别器模型可以被分成两级:纹理和语义。判别器可以具有分离的两个层。判别器可以帮助将真实图像数据与由解码器生成的替换图像数据区分开。在一些实施方式中,可以改变输入图像分辨率。例如,输入图像分辨率可以从256像素×256像素改变为16像素×16像素。16×16图像可以是感受域以解决替换区域的纹理。可以借助于分段图像掩码来隔离图像。模型的语义组件可以将图像数据视为整体。因此,预测的替换数据可以由判别器的纹理和语义组件两者帮助。
在一些实施方式中,判别器模型可以包括两个纹理级网络和一个语义级网络。第一纹理级网络可以处理由掩码指示的位置处的真实值图像数据的一部分,并且可以输出第一纹理判别器输出。第二纹理级网络可以处理由掩码指示的位置处的预测图像数据的一部分,并且可以输出第二纹理判别器输出。语义级网络可以包括共享网络。在一些实施方式中,共享网络可以处理已从其中移除了不想要的数据的真实值图像数据,以生成语义判别器输出。在一些实施方式中,语义级网络可以将逆掩码用于判别器处理。语义级网络可以基于第一纹理判别器输出、第二纹理判别器输出和语义判别器输出来生成判别器输出。
在一些实施方式中,可以通过使用可变编码器流水线、双编码判别训练和/或人类感知损失来解决图像修复问题。该系统或方法可以单独地或以任何组合实现这些特征。可变编码流水线可以包括被用作训练修复模型的输入的真实值图像数据。模型可以包括噪声改变模型,以解决预测的替换数据中的噪声幅度的潜在问题。双编码判别训练可以首先解决隔离的不想要的图像数据的纹理级别,然后可以解决语义级数据以在训练中判别真实值数据和预测数据。在一些实施方式中,图像修复模型可以进一步包括纹理合成步骤,以解决由预测步骤生成的任何极值。
本公开的系统和方法提供了许多技术效果和益处。作为一个示例,修复机器学习系统能够通过细化为创建替换数据而完成的预测的参数来帮助计算性能。因此,所执行的图像修复可以是比先前技术更高质量的(例如,更准确的),这表示计算系统的性能的改进。此外,所提出的方法可以消除某些现有技术所需求的创建要评估的如此大范围的预测的需要。消除创建大量不同预测的需要能够导致节省计算资源,诸如处理器使用、存储器使用和/或网络带宽使用。真实值数据的使用还从训练中移除了一些混淆,并使训练更有效,从而节省了计算资源。与先前的系统相比,经训练的系统可以减少所利用的计算资源量。
由于机器学习的实现还消除了手动编辑图像中每次出现的不想要的数据的需要,因此可以增加更高的效率。该系统还可以消除编码器编写长的延长代码、运行代码、细化代码以及连续监督性能的需要。
此外,本文描述的系统和方法可以用在图像用作系统的输入的任何过程中,以向系统提供更高质量的输入图像。可能的应用的非限制性示例包括:医学图像,诸如患者的X射线图像或扫描图像;监测机械件的状况,其中定期获取机械件的图像,并用于确定部件何时可能需要修理或更换;以及自主车辆,其基于其获取的其周围环境的图像来对其路线和速度做出决定。
现在参考附图,将更详细地讨论本公开的示例实施例。
示例设备和系统
图1A描绘了根据本公开的示例实施例的执行修复的示例计算系统100的框图。系统100包括通过网络180通信地耦合的用户计算设备102、服务器计算系统130和训练计算系统150。
用户计算设备102能够是任何类型的计算设备,诸如例如个人计算设备(例如,膝上型计算机或台式计算机)、移动计算设备(例如,智能电话或平板计算机)、游戏控制台或控制器、可穿戴计算设备、嵌入式计算设备或任何其他类型的计算设备。
用户计算设备102包括一个或多个处理器112和存储器114。所述一个或多个处理器112能够是任何合适的处理设备(例如,处理器核、微处理器、ASIC、FPGA、控制器、微控制器等),并且能够是一个处理器或可操作地连接的多个处理器。存储器114能够包括一个或多个暂时性或非暂时性计算机可读存储介质,诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等及其组合。存储器114能够存储可由处理器112执行以使用户计算设备102执行操作的数据116和指令118。
在一些实施方式中,用户计算设备102能够存储或包括一个或多个修复模型120。例如,修复模型120能够是或能够以其他方式包括各种机器学习的模型,诸如神经网络(例如,深度神经网络)或其他类型的机器学习的模型,包括非线性模型和/或线性模型。神经网络能够包括前馈神经网络、递归神经网络(例如,长短期记忆递归神经网络)、卷积神经网络或其他形式的神经网络。参考图2和图3讨论了示例修复模型120。
在一些实施方式中,所述一个或多个图像修复模型120能够通过网络180从服务器计算系统130被接收、在用户计算设备存储器114中被存储,并且然后由所述一个或多个处理器112使用或以其他方式实现。在一些实施方式中,用户计算设备102能够实现单个修复模型120的多个并行实例(例如,以跨数据集合中的不想要的数据的多个实例执行预测的替换数据的并行生成)。
更具体地,修复模型可以具有训练模块,该训练模块具有训练数据集合以训练模型的参数来优化预测数据的生成。训练模块可以依赖于真实值数据来增加训练模块的效率和精度。训练可以包括通过将不想要的数据添加到真实值数据来从真实值数据创建增强数据。还可以在训练中使用掩码来为不想要的数据的大小和位置提供标记。
修复模型可以从训练模块获取机器学习数据以帮助推断模块。推断模块可以摄取用户数据,其中,用户数据包括不想要的数据。推断模块然后可以基于用户数据和掩码来生成替换数据,其中,替换数据包括代替不想要的数据的预测数据。服务器可以包含机器学习数据以帮助生成预测数据。
附加地或可替代地,一个或多个图像修复模型140能够被包括在服务器计算系统130中或以其他方式由服务器计算系统130存储和实现,服务器计算系统130根据客户端-服务器关系与用户计算设备102通信。例如,修复模型140能够由服务器计算系统140实现为web服务(例如,图像编辑服务)的一部分。因此,能够在用户计算设备102处存储和实现一个或多个模型120,和/或能够在服务器计算系统130处存储和实现一个或多个模型140。
用户计算设备102还能够包括接收用户输入的一个或多个用户输入组件122。例如,用户输入部件122能够是对用户输入对象(例如,手指或触笔)的触摸敏感的触敏组件(例如,触敏显示屏或触摸板)。触敏组件能够用于实现虚拟键盘。其他示例用户输入组件包括麦克风、传统键盘或用户能够通过其提供用户输入的其他装置。
服务器计算系统130包括一个或多个处理器132和存储器134。所述一个或多个处理器132能够是任何合适的处理设备(例如,处理器核、微处理器、ASIC、FPGA、控制器、微控制器等),并且能够是一个处理器或可操作地连接的多个处理器。存储器134能够包括一个或多个暂时性或非暂时性计算机可读存储介质,诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等及其组合。存储器134能够存储由处理器132执行以使服务器计算系统130执行操作的数据136和指令138。
在一些实施方式中,服务器计算系统130包括一个或多个服务器计算设备或以其他方式由一个或多个服务器计算设备实现。在服务器计算系统130包括多个服务器计算设备的情况下,这样的服务器计算设备能够根据顺序计算架构、并行计算架构或其某个组合来操作。
如上所述,服务器计算系统130能够存储或以其他方式包括一个或多个机器学习的修复模型140。例如,模型140能够是或能够以其他方式包括各种机器学习的模型。示例机器学习的模型包括神经网络或其他多层非线性模型。示例神经网络包括前馈神经网络、深度神经网络、递归神经网络和卷积神经网络。参考图2和图3讨论示例模型140。
用户计算设备102和/或服务器计算系统130能够经由与通过网络180通信地耦合的训练计算系统150的交互来训练模型120和/或140。训练计算系统150能够与服务器计算系统130分离,或者能够是服务器计算系统130的一部分。
训练计算系统150包括一个或多个处理器152和存储器154。所述一个或多个处理器152能够是任何合适的处理设备(例如,处理器核、微处理器、ASIC、FPGA、控制器、微控制器等),并且能够是一个处理器或可操作地连接的多个处理器。存储器154能够包括一个或多个暂时性或非暂时性计算机可读存储介质,诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等及其组合。存储器154能够存储可由处理器152执行以使训练计算系统150执行操作的数据156和指令158。在一些实施方式中,训练计算系统150包括一个或多个服务器计算设备或以其他方式由一个或多个服务器计算设备实现。
训练计算系统150能够包括模型训练器160,模型训练器160使用各种训练或学习技术,诸如,例如误差的后向传播,来训练在用户计算设备102和/或服务器计算系统130处存储的机器学习的模型120和/或140。例如,能够通过模型反向传播损失函数以(例如,基于损失函数的梯度)更新模型的一个或多个参数。能够使用各种损失函数,诸如均方误差、似然损失、交叉熵损失、合页损失和/或各种其他损失函数。梯度下降技术能够用于在多个训练迭代上迭代地更新参数。
在一些实施方式中,执行误差的反向传播能够包括通过时间执行截断的反向传播。模型训练器160能够执行多个泛化技术(例如,权重衰减、暂退等)以改进正被训练的模型的泛化能力。
特别地,模型训练器160能够基于训练数据集合162来训练修复模型120和/或140。训练数据162能够包括例如真实值数据集合、增强数据集合和掩码集合,以指示将不想要的数据添加到相应的真实值数据来创建相应的增强数据的大小和位置。
在一些实施方式中,如果用户已经提供同意,则训练示例能够由用户计算设备102提供。因此,在这样的实施方式中,提供给用户计算设备102的模型120能够由训练计算系统150在从用户计算设备102接收的用户特定的数据上训练。在一些情况下,该过程能够被称为个性化模型。
模型训练器160包括用于提供期望功能的计算机逻辑。模型训练器160能够以控制通用处理器的硬件、固件和/或软件来实现。例如,在一些实施方式中,模型训练器160包括在存储设备上存储、加载到存储器中并由一个或多个处理器执行的程序文件。在其他实施方式中,模型训练器160包括在诸如RAM硬盘或光学或磁性介质的有形计算机可读存储介质中存储的一个或多个计算机可执行指令集合。
网络180能够是任何类型的通信网络,诸如局域网(例如,内联网)、广域网(例如,互联网)或其某个组合,并且能够包括任何数量的有线或无线链路。通常,通过网络180的通信能够使用各种各样的通信协议(例如,TCP/IP、HTTP、SMTP、FTP)、编码或格式(例如,HTML、XML)和/或保护方案(例如,VPN、安全HTTP、SSL)经由任何类型的有线和/或无线连接来承载。
图1A图示了可用于实现本公开的一个示例计算系统。也能够使用其他计算系统。例如,在一些实施方式中,用户计算设备102能够包括模型训练器160和训练数据集合162。在这样的实施方式中,能够在用户计算设备102处本地训练和使用模型120。在一些这样的实施方式中,用户计算设备102能够实现模型训练器160以基于用户特定的数据来个性化模型120。
图1B描绘了根据本公开的示例实施例执行的示例计算设备10的框图。计算设备10能够是用户计算设备或服务器计算设备。
计算设备10包括多个应用(例如,应用1至N)。每个应用包含其自己的机器学习库和机器学习的模型。例如,每个应用能够包括机器学习的模型。示例应用包括文本消息传送应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。
如图1B所示,每个应用能够与计算设备的多个其他组件——诸如例如一个或多个传感器、场境管理器、设备状态组件和/或附加组件——通信。在一些实施方式中,每个应用能够使用API(例如,公共API)与每个设备组件通信。在一些实施方式中,由每个应用使用的API特定于该应用。
图1C描绘了根据本公开的示例实施例执行的示例计算设备50的框图。计算设备50能够是用户计算设备或服务器计算设备。
计算设备50包括多个应用(例如,应用1至N)。每个应用与中央智能层通信。示例应用包括文本消息传送应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。在一些实施方式中,每个应用能够使用API(例如,跨所有应用的公共API)与中央智能层(以及存储在其中的模型)通信。
中央智能层包括多个机器学习的模型。例如,如图1C所示,相应的机器学习的模型(例如,模型)能够为每个应用提供并由中央智能层管理。在其他实施方式中,两个或更多个应用能够共享单个机器学习的模型。例如,在一些实施方式中,中央智能层能够为所有应用提供单个模型(例如,单个模型)。在一些实施方式中,中央智能层被包括在计算设备50的操作系统内或以其他方式由计算设备50的操作系统实现。
中央智能层能够与中央设备数据层通信。中央设备数据层能够是用于计算设备50的集中式数据存储库。如图1C所示,中央设备数据层能够与计算设备的多个其他组件——诸如例如一个或多个传感器、场境管理器、设备状态组件和/或附加组件——通信。在一些实施方式中,中央设备数据层能够使用API(例如,私有API)与每个设备组件通信。
示例模型布置
图2描绘了根据本公开的示例实施例的用于训练示例图像修复模型200的示例技术的框图。在一些实施方式中,训练修复模型200以接收描述增强图像数据的输入数据202的集合,并且作为接收到输入数据202的结果,提供能够是替换图像数据的输出数据216。因此,在一些实施方式中,修复模型200能够是或包括被训练为利用预测的替换数据替换不想要的数据的条件变分自编码器模型。
在一些实施方式中,用于修复模型的训练过程可以具有上流水线和下流水线。上流水线可以接收增强图像数据202和掩码204作为输入。增强图像数据202能够包括(例如,已经被添加到真实值图像206的)不想要的数据。在所示的示例中,使用增强图像数据202中的圆来示出不想要的数据。掩码204指示不想要的数据在增强图像数据202内的位置。上流水线能够包括编码器208以对增强图像数据202和掩码204进行编码来创建嵌入的图像数据。
下流水线可以包括真实值图像数据206、掩码204和编码器208以对真实值图像数据206和掩码204进行编码来创建可以被随机化210的特征向量。
在一些实施方式中,可以编译212(例如,连结)嵌入的图像数据和随机化特征向量210。编译数据可以由解码器214解码以创建预测替换图像数据216。然后可以基于各种损失函数218单独地或组合地相对于真实值图像数据206评估预测的替换图像数据216。能够使用的三个示例损失函数218包括:L1损失函数、VGG损失函数和/或对抗损失函数。图6中示出了能够用于生成对抗损失的一个示例判别器模型。
在一些实施方式中,除了上述损失函数之外,还可以利用KL散度损失函数220来评估随机化特征向量210。例如,KL散度损失函数220可以采取以下形式:
能够基于评估数据(例如,基于损失函数218和/或220)对模型200的一个或多个参数进行修改。例如,能够通过模型反向传播损失函数,并且能够根据损失函数的梯度改变模型的参数。在一些实施方式中,该过程可以被迭代地完成以在多个不同的训练示例上训练该模型。
图3描绘了根据本公开的示例实施例的执行推断的示例修复模型300的框图。除了修复模型300涉及模型的推断过程之外,修复模型300类似于图2的修复模型200。推断过程可以在系统已经使用真实值训练技术经历一轮训练之后发生。
推断过程可以从包括不想要的数据的数据集合302和掩码304开始,并且模型300可以输出替换数据集合316,其中,不想要的数据被替换为预测数据。在一些实施方式中,推断过程可以利用条件向量310替换训练过程的下流水线。条件向量310可以是零向量。
在一些实施方式中,推断过程可以涉及由编码器306编码以创建嵌入的数据的数据302集合和掩码304。数据集合302可以包括不想要的数据,并且掩码304可以指示不想要的数据的大小和位置。此外,可以编译312(例如,连结)条件向量310和嵌入的数据。经编译的数据312可以由解码器314解码。解码器314的解码能够基于系统的预测来创建替换数据316的集合。
图6描绘了根据本公开的示例实施例的示例双编码判别训练方法的框图。更具体地,在一些实施方式中,评估修复模型(例如,图2的模型200)的损失能够包括评估基于由判别器模型基于预测图像数据和真实值图像数据生成的判别器输出而生成的对抗损失。图6中示出了一个示例判别器模型600。
如图6所示,判别器模型600包括纹理级602和语义级604。纹理级602包括第一纹理级网络606,其处理在由掩码614标识的一个或多个位置处的真实值图像数据612的部分610,以生成第一纹理判别器输出616。纹理级602还包括第二纹理级网络608,其处理在由掩码614标识的一个或多个位置处的预测图像数据620的部分618,以生成第二纹理判别器输出622。
语义级604包括共享网络624,其处理(例如,在626处示出并且基于逆掩码628生成的)已从其中移除了不想要的数据的真实值图像数据612以生成语义判别器输出630。判别器模型600基于第一纹理判别器输出616、第二纹理判别器输出622和语义判别器输出630生成判别器输出632。
图6中所示的所提出的判别器模型600充分利用了修复的任务能够被分成两个级别:纹理和语义。判别器600在602和604处具有那两个分离的层。
在一些实施方式中,第一纹理级网络606和第二纹理级网络608能够共享相同的权重。类似地,在级别604中示出为三角形的部分也能够彼此共享权重(这些能够被称为语义级网络)。
在一些实施方式中,第一纹理级网络606和第二纹理级网络608能够将输入图像分辨率从第一分辨率(例如,256×256)改变为较小的第二分辨率(例如,16×16),这意味着像素的大小(例如,16×16)是感受域。
如所设计的,纹理级602能够比语义更多地着眼于纹理,因为大部分图像区域被掩蔽,所以已经存在较少的关于语义的信息。另一方面,共享网络624也能够着眼于纹理信息,但是应该尝试给出语义信息以传递给语义级网络。语义级网络能够接收输出616、622和630,并进行最终判别判断以提供判别器输出632(真实的或生成的)。该架构的一个重要部分是由于其周围的连接而能够集中于语义含义的共享网络624。能够(例如,经由反向传播)使用最终判别器输出632来训练图像修复模型。
示例方法
图4描绘了根据本公开的示例实施例执行的示例方法的流程图。尽管图4出于说明和讨论的目的描绘了以特定次序执行的步骤,但是本公开的方法不限于特定示出的次序或布置。在不偏离本公开的范围的情况下,能够以各种方式省略、重新布置、组合和/或调整方法400的各个步骤。
在402处,计算系统可以包括获得训练示例。可以通过使用一个或多个计算设备来获得训练示例。训练示例可以包括真实值图像数据、增强图像数据和掩码。增强图像数据可以从将不想要的图像数据添加到真实值图像数据导出,并且掩码可以指示不想要的图像数据在增强图像数据内的位置及大小。
在404处,计算系统可以包括处理增强图像数据、真实值图像数据和掩码。在一些实施方式中,处理可以由一个或多个计算设备完成。增强图像数据和掩码可以由条件变分自编码器的第一编码器模型处理以生成嵌入。可以利用条件变分自编码器的第二编码器模型来处理真实值图像数据和掩码以生成特征向量。特征向量可以包括分布值,并且分布值可以是平均值和标准偏差值。特征向量可以在生成之后被随机化。可以利用解码器模型来编译和处理嵌入和随机化特征向量。条件变分自编码器的解码器模型可以生成预测图像数据。预测图像数据可以包括由掩码指示的区域的替换图像数据。不想要的数据可以被替换图像数据替换。
在406处,计算系统可以包括相对于真实值图像数据评估生成的预测图像数据。评估可以由一个或多个计算设备完成。评估可以基于一个或多个损失函数。L1损失函数、VGG损失函数和对抗损失函数可以单独或组合地使用。
在408处,计算系统可以包括修改一个或多个参数。修改可以由一个或多个计算设备完成。可以响应于评估数据进行修改。可以对条件变分自编码器的参数进行修改。
图5描绘了根据本公开的示例实施例执行的示例方法的流程图。尽管图5出于说明和讨论的目的描绘了以特定次序执行的步骤,但是本公开的方法不限于特定示出的次序或布置。在不偏离本公开的范围的情况下,可以以各种方式省略、重新布置、组合和/或调整方法500的各个步骤。
在502处,计算系统可以包括将图像数据和掩码输入到编码器中。在一些实施方式中,编码器可以是用于条件变分自编码器的编码器。图像数据可以包括不想要的图像数据,并且掩码可以提供不想要的图像数据的位置和大小。不想要的图像数据可以是风景照片前景中的人、家庭照片背景中的人或另一遮挡对象。
在504处,计算系统可以包括从编码器接收嵌入。嵌入可以包括编码的图像数据。嵌入可以由条件向量补充。条件向量可以是零向量。
在506处,计算系统可以包括将嵌入和条件向量输入到解码器中。在一些实施方式中,解码器可以是用于条件变分自编码器的解码器。
在508处,计算系统可以包括从解码器接收预测图像数据。预测图像数据可以包括替换图像数据。替换图像数据可以替换不想要的图像数据。替换图像数据可以是由掩码指示的不想要的数据的精确大小和精确位置。
附加公开内容
本文讨论的技术参考服务器、数据库、软件应用和其他基于计算机的系统,以及所采取的动作和发送到这些系统和从这些系统发送的信息。基于计算机的系统的固有灵活性允许组件之间和当中的任务和功能性的各种各样可能的配置、组合和划分。例如,本文讨论的过程可以使用单个设备或组件或组合工作的多个设备或组件来实现。数据库和应用能够在单个系统上实现或跨多个系统分布。分布式组件能够顺序地或并行地操作。
虽然已经参考本主题的各种具体示例实施例详细描述了本主题,但是每个示例是通过解释而不是限制本公开的方式提供的。本领域技术人员在获得对前述内容的理解后,能够容易地产生对这些实施例的改变、变化和等同物。因此,本公开不排除包括对本主题的这样的修改、变化和/或添加,这对于本领域普通技术人员来说是显而易见的。例如,作为一个实施例的一部分示出或描述的特征能够与另一个实施例一起使用以产生又进一步的实施例。因此,本公开旨在覆盖这些改变、变化和等同物。
Claims (22)
1.一种用于训练条件变分自编码器以执行图像处理的计算机实现的方法,所述方法包括:
由一个或多个计算设备获得训练示例,所述训练示例包括真实值图像数据、从将不想要的图像数据添加到所述真实值图像数据导出的增强图像数据以及指示所述不想要的图像数据在所述增强图像数据内的一个或多个位置的掩码;
由所述一个或多个计算设备利用所述条件变分自编码器的第一编码器模型来处理所述增强图像数据和所述掩码,以生成用于所述图像数据的嵌入;
由所述一个或多个计算设备利用第二编码器模型处理所述真实值图像数据和所述掩码以生成一个或多个分布值;
由所述一个或多个计算设备利用所述条件变分自编码器的解码器模型来处理所述嵌入和所述一个或多个分布值,以生成预测图像数据,所述预测图像数据包括由所述掩码指示的所述一个或多个位置处的替换图像数据,其中,所述替换图像数据替换所述不想要的图像数据;
由所述一个或多个计算设备基于所述预测图像数据与所述真实值图像数据的比较来评估一个或多个损失函数;以及
由所述一个或多个计算设备至少部分地基于所述一个或多个损失函数修改所述条件变分自编码器的一个或多个参数值。
2.根据权利要求1所述的计算机实现的方法,其中,所述真实值图像数据包括二维照片。
3.根据前述权利要求中的任一项所述的计算机实现的方法,其中,所述真实值图像数据包括真实值三维点云,所述增强图像数据包括添加到所述真实值三维点云的一个或多个不想要的点,并且所述掩码标识所述一个或多个不想要的点。
4.根据前述权利要求中的任一项所述的计算机实现的方法,其中,评估所述一个或多个损失函数包括评估所述预测图像数据与所述真实值图像数据之间的L1损失。
5.根据前述权利要求中的任一项所述的计算机实现的方法,其中,评估所述一个或多个损失函数包括评估基于判别器输出生成的对抗损失,所述判别器输出由判别器模型基于所述预测图像数据和所述真实值图像数据生成。
6.根据权利要求5所述的计算机实现的方法,其中,所述判别器模型包括:
第一纹理级网络,所述第一纹理级网络处理所述真实值图像数据的在由所述掩码标识的所述一个或多个位置处的部分,以生成第一纹理判别器输出;
第二纹理级网络,所述第二纹理级网络处理所述预测图像数据的在由所述掩码标识的所述一个或多个位置处的部分,以生成第二纹理判别器输出;以及
语义级网络,所述语义级网络包括共享网络,所述共享网络处理已从其中移除了所述不想要的数据的所述真实值图像数据,以生成语义判别器输出;
其中,所述语义级网络基于所述第一纹理判别器输出、所述第二纹理判别器输出和所述语义判别器输出来生成所述判别器输出。
7.根据前述权利要求中的任一项所述的计算机实现的方法,其中,所述分布值包括平均值和标准偏差值。
8.根据权利要求7所述的计算机实现的方法,其中,所述分布值由KL散度损失函数惩罚。
9.根据前述权利要求中的任一项所述的计算机实现的方法,进一步包括:
将所述分布值乘以随机值以生成修改的分布值,其中,所述判别器模型处理所述修改的分布值以生成所述预测图像数据。
10.根据前述权利要求中的任一项所述的计算机实现的方法,其中,获得所述增强图像数据包括:
标识不想要的数据的集合;
确定所述不想要的数据遮挡所述真实值数据的位置;
利用所述不想要的数据的集合替换所述位置处的所述真实值数据的一部分。
11.根据前述权利要求中的任一项所述的计算机实现的方法,其中:
所述真实值图像数据描绘场景;
所述不想要的图像数据包括遮挡对象;以及
所述替换图像数据描绘由被遮挡对象遮挡的场景的一个或多个部分。
12.根据权利要求11所述的计算机实现的方法,其中,所述遮挡对象包括人类。
13.根据权利要求1至10中的任一项所述的计算机实现的方法,其中,所述遮挡对象包括来自被应用于所述图像的去噪过程的伪像。
14.一种计算系统,包括:
一个或多个处理器;
一个或多个非暂时性计算机可读图像,其共同存储:
机器学习的条件变分自编码器模型,包括:
编码器,其中,所述编码器被配置为编码图像数据;
解码器,其中,所述解码器被配置为解码经编码的图像数据;以及
指令,所述指令在由所述一个或多个处理器执行时,使所述计算系统执行操作,所述操作包括:
将图像数据和掩码输入到所述编码器中,其中,所述图像数据包括不想要的图像数据,并且其中,所述掩码指示所述不想要的图像数据的位置和大小;
从所述编码器接收嵌入,其中,所述嵌入包括所述经编码的图像数据;
将所述嵌入和条件向量输入到所述解码器中;以及
接收预测图像数据作为所述解码器的输出,其中,所述预测图像数据至少部分地基于所述图像数据和所述条件向量,利用预测替换数据替换所述不想要的图像数据。
15.根据权利要求13所述的计算系统,其中,所述条件向量包括零向量,所述零向量替换在所述机器学习的条件变分自编码器模型的训练期间使用的随机化特征向量的集合。
16.根据权利要求13或14所述的计算系统,其中,所述机器学习的条件变分自编码器模型已经基于损失函数被训练,所述损失函数将真实值训练图像数据与由所述机器学习的条件变分自编码器模型基于增强的训练图像数据生成的预测训练图像数据进行比较,所述增强的训练图像数据通过将不想要的图像数据插入到所述真实值训练图像数据中而被创建。
17.根据权利要求13至15中的任一项所述的计算系统,其中,所述输入图像数据包括二维照片。
18.根据权利要求13至16中的任一项所述的计算系统,其中,所述输入图像数据包括三维点云。
19.根据权利要求13至17中的任一项所述的计算系统,其中:
所述不想要的图像数据包括遮挡对象;以及
所述预测替换图像数据描绘由所述被遮挡对象遮挡的所述场景的一个或多个部分。
20.根据权利要求18所述的计算系统,其中,所述遮挡对象包括人类。
21.一个或多个非暂时性计算机可读介质,所述一个或多个非暂时性计算机可读介质共同存储指令,所述指令在由一个或多个计算设备执行时,使所述一个或多个计算设备执行操作,所述操作包括:
由一个或多个计算设备获得训练示例,所述训练示例包括真实值数据、从将不想要的数据添加到所述真实值数据而被导出的增强数据以及指示所述不想要的数据在所述增强数据内的一个或多个位置的掩码;
由所述一个或多个计算设备利用所述条件变分自编码器的第一编码器模型来处理所述增强数据和所述掩码,以生成用于所述数据的嵌入;
由所述一个或多个计算设备利用第二编码器模型处理所述真实值数据和所述掩码以生成一个或多个分布值;
由所述一个或多个计算设备利用所述条件变分自编码器的解码器模型来处理所述嵌入和所述一个或多个分布值,以生成预测数据,所述预测数据包括由所述掩码指示的所述一个或多个位置处的替换数据,其中,所述替换数据替换所述不想要的数据;
由所述一个或多个计算设备基于所述预测图像数据与所述真实值数据的比较来评估一个或多个损失函数;以及
由所述一个或多个计算设备至少部分地基于所述一个或多个损失函数修改所述条件变分自编码器的一个或多个参数值。
22.根据权利要求20所述的一个或多个非暂时性计算机可读介质,其中,所述真实值数据包括真实值音频波形数据,所述增强数据包括增强音频波形数据,所述替换数据包括替换音频波形数据,以及所述不想要的数据包括不想要的音频波形数据。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2020/040104 WO2022005448A1 (en) | 2020-06-29 | 2020-06-29 | Machine learning for high quality image processing |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115812206A true CN115812206A (zh) | 2023-03-17 |
Family
ID=71614978
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080102027.5A Pending CN115812206A (zh) | 2020-06-29 | 2020-06-29 | 用于高质量图像处理的机器学习 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230360181A1 (zh) |
EP (1) | EP4147172A1 (zh) |
CN (1) | CN115812206A (zh) |
WO (1) | WO2022005448A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11935214B2 (en) * | 2021-01-27 | 2024-03-19 | Baidu Usa Llc | Video content removal using flow-guided adaptive learning |
CN114820398B (zh) * | 2022-07-01 | 2022-11-04 | 北京汉仪创新科技股份有限公司 | 基于扩散模型的图片字体替换方法、系统、设备和介质 |
-
2020
- 2020-06-29 CN CN202080102027.5A patent/CN115812206A/zh active Pending
- 2020-06-29 US US18/013,802 patent/US20230360181A1/en active Pending
- 2020-06-29 WO PCT/US2020/040104 patent/WO2022005448A1/en unknown
- 2020-06-29 EP EP20740477.3A patent/EP4147172A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230360181A1 (en) | 2023-11-09 |
WO2022005448A1 (en) | 2022-01-06 |
EP4147172A1 (en) | 2023-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11792553B2 (en) | End to end network model for high resolution image segmentation | |
JP7417640B2 (ja) | リアルタイム映像超高解像度 | |
US20190228587A1 (en) | Image Style Transfer for Three-Dimensional Models | |
CN115735230A (zh) | 对无约束图像数据具有鲁棒性的视图合成 | |
CA3137297C (en) | Adaptive convolutions in neural networks | |
CN114511576B (zh) | 尺度自适应特征增强深度神经网络的图像分割方法与系统 | |
US20200104711A1 (en) | Method and apparatus for training a neural network used for denoising | |
CN114868401A (zh) | 使用下采样/上采样和深度图非线性滤波对视频数据的编码方案 | |
CN115812206A (zh) | 用于高质量图像处理的机器学习 | |
Hepburn et al. | Enforcing perceptual consistency on generative adversarial networks by using the normalised laplacian pyramid distance | |
WO2023086198A1 (en) | Robustifying nerf model novel view synthesis to sparse data | |
CN115358952A (zh) | 一种基于元学习的图像增强方法、系统、设备和存储介质 | |
Huang et al. | Anti-forensics for double JPEG compression based on generative adversarial network | |
US20230342890A1 (en) | High Resolution Inpainting with a Machine-learned Augmentation Model and Texture Transfer | |
EP4356342A1 (en) | Guided contextual attention map for inpainting tasks | |
CN116912345B (zh) | 一种人像动漫化处理方法、装置、设备和存储介质 | |
US20220383573A1 (en) | Frame interpolation for rendered content | |
CN116704588B (zh) | 面部图像的替换方法、装置、设备及存储介质 | |
CN116580269B (zh) | 训练模型的方法、处理图像的方法、电子设备及存储介质 | |
WO2023055390A1 (en) | Cascaded multi-resolution machine learning based image regions processing with improved computational efficiency | |
US20240135672A1 (en) | Generative model for multi-modality outputs from a single input | |
EP4288939A1 (en) | Systems and methods for machine-learned models having convolution and attention | |
CN118097158A (zh) | 基于编解码器的服装语义分割方法 | |
CN115769226A (zh) | 机器学习离散化级别缩减 | |
WO2023219630A1 (en) | Machine learning for computation of visual attention center |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |