CN117350928A - 将对象感知风格转移应用于数字图像 - Google Patents
将对象感知风格转移应用于数字图像 Download PDFInfo
- Publication number
- CN117350928A CN117350928A CN202310173359.8A CN202310173359A CN117350928A CN 117350928 A CN117350928 A CN 117350928A CN 202310173359 A CN202310173359 A CN 202310173359A CN 117350928 A CN117350928 A CN 117350928A
- Authority
- CN
- China
- Prior art keywords
- digital image
- target
- source
- neural network
- style
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012546 transfer Methods 0.000 title claims abstract description 301
- 238000013528 artificial neural network Methods 0.000 claims abstract description 160
- 238000010801 machine learning Methods 0.000 claims abstract description 88
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000001514 detection method Methods 0.000 claims description 66
- 230000011218 segmentation Effects 0.000 claims description 56
- 230000004044 response Effects 0.000 claims description 21
- 239000011800 void material Substances 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 description 25
- 230000000873 masking effect Effects 0.000 description 22
- 230000015654 memory Effects 0.000 description 17
- 238000013527 convolutional neural network Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 13
- 239000000284 extract Substances 0.000 description 13
- 238000010606 normalization Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 230000004048 modification Effects 0.000 description 10
- 238000012986 modification Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000008439 repair process Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 229920001690 polydopamine Polymers 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000013403 standard screening design Methods 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000002715 modification method Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000037303 wrinkles Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/40—Filling a planar surface by adding surface attributes, e.g. colour or texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G06T5/77—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Abstract
本公开涉及用于利用一个或多个机器学习模型或神经网络在数字图像之间转移全局风格特征的系统、非暂态计算机可读介质和方法。特别地,在一个或多个实施例中,所公开的系统接收将全局风格从源数字图像转移到目标数字图像的请求,标识目标数字图像内的至少一个目标对象,并将全局风格从源数字图像转移到目标数字图像,同时保持至少一个目标对象的对象风格。
Description
背景技术
近年来已经看到用于创建或修改数字内容的数字图形工具的显著改进。特别地,个人和企业越来越多地利用数字图形工具来编辑图像。事实上,随着具有内置相机的移动设备的可用性增加,许多个人和企业制作数字图像并利用数字图形工具来编辑这些数字图像。例如,数字图形工具常常被用于通过将诸如纹理和风格的全局特征从一个数字图像转移到另一数字图像来编辑数字图像。不幸的是,在数字图像之间转移全局特征的许多传统纹理转移系统在准确性、效率和灵活性方面存在许多缺点。
发明内容
本公开的实施例通过用于执行对象感知纹理转移的系统、非暂态计算机可读介质和方法解决了本领域中的一个或多个前述或其他问题。特别地,所公开的系统通过以对象感知方式将源数字图像的全局特征转移到目标数字图像来修改数字图像。例如,本公开的实施例将全局风格应用于数字图像,同时保持数字图像中的一个或多个对象的风格。
在一个或多个实现中,所公开的系统和方法利用各种方法和/或机器学习模型来执行对象感知纹理转移。例如,所公开的系统和方法利用机器学习模型来执行对象检测和/或分割、背景修复、纹理转移和前景协调以生成鲁棒的、逼真的经修改的数字图像。以这种方式,所公开的系统允许在数字图像之间准确、高效和灵活地转移全局风格特征,并且通过智能地避免将全局风格特征转移到输入数字图像内的某些对象来消除对后处理编辑的需要。
本公开的一个或多个实施例的附加特征和优点在下面的描述中被概述,并且部分将从描述中显而易见,或者可以通过这些示例实施例的实践来获知。
附图说明
详细描述通过使用附图提供了具有附加特性和细节的一个或多个实施例,如下面简要描述的。
图1图示了根据一个或多个实施例的在其中操作对象感知纹理转移系统的环境的图。
图2图示了根据一个或多个实施例的生成经修改的数字图像的对象感知纹理转移系统的概览。
图3图示了根据一个或多个实施例的用于利用一系列图像修改方法和/或机器学习模型来执行对象感知纹理转移的纹理转移流水线。
图4图示了根据一个或多个实施例的利用一个或多个机器学习模型来标识和分割数字图像中的一个或多个对象的对象感知纹理转移系统。
图5图示了根据一个或多个实施例的利用一个或多个机器学习模型来修复由提取的对象所创建的背景空洞的对象感知纹理转移系统。
图6图示了根据一个或多个实施例的利用一个或多个机器学习模型来在数字图像之间转移全局风格特征的对象感知纹理转移系统。
图7图示了根据一个或多个实施例的利用一个或多个机器学习模型来协调插入到数字图像中的对象的对象感知纹理转移系统。
图8图示了根据一个或多个实施例的使用协调神经网络的双神经网络分支将提取的对象插入到数字图像中并使对象与数字图像的背景协调的对象感知纹理转移系统。
图9图示了根据一个或多个实施例的对象感知纹理转移系统的实验结果。
图10图示了根据一个或多个实施例的对象感知纹理转移系统的示意图。
图11图示了根据一个或多个实施例的用于执行对象感知纹理转移的一系列动作的流程图。
图12图示了用于实现本公开的一个或多个实施例的示例计算设备的框图。
具体实施方式
本公开描述了对象感知纹理转移系统的一个或多个实施例,该系统利用一系列方法和/或机器学习模型来将全局风格特征从源数字图像转移到目标数字图像。更特定地,在一个或多个实现中,对象感知纹理转移系统实现了在源和目标数字图像之间的全局风格特征的转移,而不会无意中改变全局风格特征不对其应用的描绘对象,诸如汽车、动物、人物等等。例如,在一个或多个实施例中,对象感知纹理转移系统利用包括对象检测和/或分割、背景修复、纹理转移和合成图像协调的程序和/或模型流水线来生成经修改的数字图像,该经修改的数字图像合并了来自源数字图像的全局风格特征,同时在目标数字图像内保持空间特征和适用对象纹理。
为了进一步说明,在一个或多个实施例中,对象感知纹理转移系统标识目标数字图像内的在从源数字图像进行纹理转移之后其风格或纹理应该被保留的一个或多个对象。在一个或多个实施例中,对象感知纹理转移系统利用对象检测模型(诸如机器学习模型或神经网络)标识一个或多个对象,如下文进一步详细描述的。响应于标识一个或多个对象,对象感知纹理转移系统将全局风格从源数字图像转移到目标数字图像,同时保持一个或多个对象的风格或纹理(即,不将全局风格转移到该一个或多个对象)。
例如,在一些实施例中,对象感知纹理转移系统通过在从源数字图像转移全局风格之前提取(多个)对象来保持一个或多个对象的外观。在一个或多个实施例中,对象感知纹理转移系统利用对象分割模型(诸如机器学习模型或神经网络)来提取一个或多个对象,如下文进一步详细描述的。响应于提取(多个)对象然后转移全局风格,对象感知纹理转移系统将一个或多个对象重新插入到具有转移的全局风格的图像中,并且在一些实施例中,协调一个或多个对象与靠近该一个或多个对象的背景。在一个或多个实施例中,对象感知纹理转移系统利用协调模型(诸如机器学习模型或神经网络)来协调一个或多个对象,如下文进一步详细描述的。
此外,在一些实施例中,响应于从目标数字图像中提取一个或多个对象,对象感知纹理转移系统利用诸如机器学习模型或神经网络的修复模型来填充由一个或多个对象所留下的一个或多个空洞,如下文进一步详细描述的。此外,在一个或多个实施例中,对象感知纹理转移系统标识源数字图像中的一个或多个附加对象,提取一个或多个附加对象,填充由提取的(多个)对象所留下的一个或多个空洞,然后转移全局风格。通过从源数字图像中提取对象,对象感知纹理转移系统提高了纹理转移的准确性和鲁棒性,特别是当主题数字图像描绘复杂场景或风景时。
在一个或多个实现中,所公开的对象感知纹理转移系统提供了优于用于在数字图像之间转移纹理的传统系统和方法的多种优点和益处。例如,如上面所提及,对象感知纹理转移系统通过保留目标数字图像内描绘的对象的空间和风格特征来提高经修改的数字图像的准确性和保真度。此外,通过在从源数字图像转移全局风格特征之前从源数字图像中移除对象,对象感知纹理转移系统提高了生成经修改的数字图像的准确性和效率,使得需要更少的计算资源来从源数字图像提取和转移全局风格特征到目标数字图像。
此外,对象感知纹理转移系统通过控制纹理在纹理转移过程期间在图像之间转移或不转移的程度来提供比传统系统更高的灵活性。例如,在一个或多个实现中,对象感知纹理转移系统标识目标数字图像内的一个或多个对象,并将全局风格(例如,风景纹理)从源数字图像转移到目标数字图像,而不改变一个或多个被标识的对象的风格或纹理。特别地,对象感知纹理转移系统利用对象分割和/或本文所公开的其他方法来确保纹理不被转移到目标数字图像内的一个或多个对象。通过在源和目标数字图像之间实现对象感知风格转移,对象感知纹理转移系统从任意源和目标数字图像生成鲁棒的、逼真的经修改的数字图像。
现在转向附图,图1图示了系统100(或环境)的一个实施例的示意图,其中对象感知纹理转移系统106根据一个或多个实施例进行操作。如所图示的,系统100包括(多个)服务器设备102、网络108、客户端设备110和图像存储库116。如进一步所图示,(多个)服务器设备102、客户端设备110和图像存储库116经由网络108彼此通信。
如图1中所示,(多个)服务器设备102包括图像修改系统104,图像修改系统104还包括对象感知纹理转移系统106。例如,(多个)服务器设备102包括但不限于计算设备(诸如下面参考图12所解释的)。在一些实施例中,对象感知纹理转移系统106结合风格转移神经网络120来利用分割模型118生成具有内容感知纹理转移的经修改的数字图像,如下文进一步公开的。
在一些实例中,对象感知纹理转移系统106从客户端设备110接收将源数字图像的全局风格特征转移到目标数字图像的请求。作为响应,对象感知纹理转移系统106使用分割模型118从源和/或目标数字图像中提取至少一个对象,并通过使用风格转移神经网络120在潜在空间中执行全局风格转移来生成包括目标数字图像的空间特征与源数字图像的全局风格特征的经修改的数字图像,同时保持提取的(多个)对象的空间和风格特征。
如所提及的,对象感知纹理转移系统106将全局风格(例如,一般纹理)从源图像转移到目标图像。图像(有时称为数字图像)是指描绘一个或多个对象的数字符号、图片、图标和/或其他视觉插图。例如,图像包括数字文件,该数字文件包括具有发型(例如,肖像图像)或皱纹的人的视觉图示和/或描绘。实际上,在一些实施例中,图像包括但不限于具有以下扩展名的数字文件:JPEG、TIFF、BMP、PNG、RAW或PDF。此外,在某些实例中,图像包括数字视频的数字帧。特别地,在一个或多个实施例中,图像包括但不限于具有以下扩展名的数字文件内的数字帧:MP4、MOV、WMV或AVI。
此外,特征是指描述数字图像的全部或部分的数字信息。特征被表示为对象感知纹理转移系统106通过利用全局和空间自动编码器来提取特征而生成的向量、张量或代码(例如,潜在代码)。特征可选地包括关于数字图像的可观察特性或可观察信息,诸如颜色或几何布局。附加地(或备选地),特征包括潜在特征(例如,神经网络的各个层内的特征,并且可随着它们从一层传递到另一层而改变)和/或由全局和空间自动编码器所生成的不可观察的深层特征。
相关地,空间特征是指对应于数字图像的几何布局的特征。对象感知纹理转移系统106从数字图像中提取空间特征以表示数字图像的几何布局——即数字图像的各种对象或部分的空间结构、相对定位和/或布置。实际上,对象感知纹理转移系统106提取“空间代码”,其包括多个空间特征并且将数字图像的几何布局描述为一个整体。空间代码包括潜在特征的向量或张量,虽然人类观察者不一定能辨别出这些特征,但是它们可以由全局和空间自动编码器解释以描述数字图像的几何布局。
类似地,全局特征和风格特征是指对应于数字图像的整体图像属性或整体外观的特征。详细地说,全局特征表示数字图像的美感,其包括数字图像的纹理、风格、照明、颜色方案、阴影和/或透视。实际上,对象感知纹理转移系统106提取“全局代码”,其包括多个全局特征并且将数字图像的整体图像属性或整体外观描述为一个整体。全局代码包括潜在特征的向量或张量,这些特征不一定能被人类观察者标识,但是它们可以被全局和空间自动编码器解释以描述数字图像的整体外观。
此外,如图1中所示,系统100包括客户端设备110。在一些实施例中,客户端设备110包括但不限于移动设备(例如,智能手机、平板计算机)、膝上型计算机、台式机或任何其他类型的计算设备,包括下面参考图12解释的那些。虽然未在图12中示出,但是客户端设备110的一些实施例由用户操作以经由图像修改应用112执行各种功能。例如,客户端设备110(通过图像修改应用112和对象感知纹理转移应用122)执行诸如但不限于在数字图像之间转移全局风格的功能。此外,在一些实施例中,客户端设备110还从对象感知纹理转移系统106接收数字图像的修改版本(例如,通过向其转移源数字图像的全局风格特征而修改的目标数字图像)。
为了访问对象感知纹理转移系统106的功能性(如上所述且如下面更详细描述的),在一个或多个实施例中,用户与客户端设备110上的图像修改应用112交互。例如,图像修改应用112包括安装在客户端设备110上的一个或多个软件应用(例如,根据本文的一个或多个实施例来与图像交互和/或修改图像),诸如对象感知纹理转移应用122。在某些实例中,图像修改应用112被托管在(多个)服务器设备102上。此外,当被托管在(多个)服务器设备102上时,图像修改应用112由客户端设备110通过Web浏览器和/或其他在线接口平台和/或工具来访问。
虽然图1图示了由系统100内的特定组件和/或设备(例如,(多个)服务器设备102)实现的对象感知纹理转移系统106,但是在一些实施例中,对象感知纹理转移系统106整体上或部分地由系统100中的其他计算设备和/或组件来实现。例如,在一些实施例中,对象感知纹理转移系统106被实现在对象感知纹理转移应用122内的客户端设备110上。更特定地,在一个或多个实施例中,在客户端设备110实现对象感知纹理转移系统106时,对象感知纹理转移系统106的描述(以及由其执行的动作)由对象感知纹理转移应用122实现(或执行)。特别地,在一些实施例中,客户端设备110(经由对象感知纹理转移应用122的实现)利用分割模型118和风格转移神经网络120来生成具有从源数字图像转移到目标数字图像的全局风格特征的经修改的数字图像,同时保持目标数字图像内的至少一个对象的对象风格。
在一些实施例中,(多个)服务器设备102训练本文所描述的一个或多个机器学习模型。例如,(多个)服务器设备102上的对象感知纹理转移系统106向客户端设备110上的对象感知纹理转移应用122提供一个或多个经训练的机器学习模型以供实现。换句话说,客户端设备110从(多个)服务器设备102获得(例如,下载)机器学习模型。在此时,客户端设备110可以利用机器学习模型来与(多个)服务器设备102无关地生成经修改的数字图像。
在一些实施例中,对象感知纹理转移应用122包括web托管应用,其允许客户端设备110与(多个)服务器设备102上托管的内容和服务交互。为了说明,在一个或多个实现中,客户端设备110访问由(多个)服务器设备102支持的网页或计算应用。客户端设备110向(多个)服务器设备102提供输入(例如,数字图像)。作为响应,(多个)服务器设备102上的对象感知纹理转移系统106执行本文所描述的操作以生成经修改的数字图像。(多个)服务器设备102然后向客户端设备110提供操作的输出或结果(例如,经修改的数字图像)。
还如图1所示,系统100包括图像储存库116。在一个或多个实施例中,图像储存库116包括但不限于服务器设备、云服务计算设备或任何其他类型的计算设备(包括在下面参考图12解释的那些),其存储一个或多个数字图像。在一些实施例中,对象感知纹理转移系统106访问图像储存库116以检索一个或多个数字图像。例如,对象感知纹理转移系统106利用来自图像储存库116的图像来使用风格转移神经网络120在数字图像之间转移全局风格特征,同时使用分割网络118来保持数字图像内的至少一个对象的对象风格。在一些实例中,对象感知纹理转移系统106在从客户端设备110接收到使用来自图像存储库116的数字图像的请求时执行上述任务。
另外,如图1中所示,系统100包括网络108。如上面所提及,在一些实例中,网络108实现系统100的组件之间的通信。在某些实施例中,网络108包括合适的网络并且可以使用适合于转移数据和/或通信信号的任何通信平台和技术进行通信,其示例参考图12进行了描述。此外,虽然图1图示了经由网络108进行通信的(多个)服务器设备102、客户端设备110和图像储存库116,但是在某些实施例中,系统100的各种组件经由其他方法来通信和/或交互(例如,(多个)服务器设备102和客户端设备110直接通信)。
如上面所讨论的,在一个或多个实施例中,对象感知纹理转移系统106组合数字图像的潜在代码以在源数字图像和目标数字图像之间转移全局风格特征。特别地,对象感知纹理转移系统106使用风格转移神经网络120来生成组合的潜在编码,以用于生成具有源数字图像的全局风格和目标数字图像的空间特征的数字图像。
神经网络指的是基于输入可调谐(例如,训练)以逼近未知函数的机器学习模型。特别地,神经网络包括互连神经元的模型,这些互连神经元相互通信并学习以逼近复杂函数并基于提供给模型的多个输入来生成输出。例如,神经网络包括实现深度学习技术的算法(或一组算法),该深度学习技术利用一组算法来使用监督数据对数据中的高级抽象进行建模,从而调整神经网络的参数。神经网络的示例包括卷积神经网络(CNN)、递归神经网络(例如,长短期记忆神经网络)、生成对抗神经网络(GAN)或其他多层神经网络。在一些实施例中,神经网络包括神经网络或神经网络组件的组合。
如图2中所示,对象感知纹理转移系统106标识(或接收)描绘具有全局风格的风景(在所示的示例中为植被茂密的山地风景)的源数字图像202,并且标识(或接收)描绘风景和对象(在所示的示例中为汽车)的目标数字图像204。作为响应,根据本文公开的一个或多个实施例,对象感知纹理转移系统106从源数字图像202和目标数字图像204生成经修改的数字图像210。事实上,如图2中所图示,对象感知纹理转移系统106生成经修改的数字图像210,该经修改的数字图像210用源数字图像202的全局风格描绘目标数字图像204的风景,同时保持来自目标数字图像204的对象(即,汽车)的对象风格。
还如图2中所图示,对象感知纹理转移系统106允许用户选择描绘特定全局风格(例如,风景纹理)的源数字图像202。根据本文所公开的一个或多个实施例,所图示的对象感知纹理转移系统106在使用风格转移神经网络208将源数字图像202的全局风格转移到目标数字图像204之前利用分割模型206从目标数字图像204中提取对象(即,汽车)。在一些实施例中,例如,对象感知纹理转换系统106利用分割模型206通过从目标数字图像204中提取对象(即,汽车)来生成第一中间数字图像。作为响应,对象感知纹理转移系统106利用风格转移神经网络208将全局风格(即风景纹理)从源数字图像202转移到第一中间数字图像以生成第二中间数字图像。最终,对象感知纹理转移系统106通过将对象(即汽车)重新插入到第二中间数字图像中来生成经修改的数字图像210。
如上面所提及,在一个或多个实施例中,对象感知纹理转移系统106利用各种方法和/或模型来在源数字图像和目标数字图像之间转移全局风格特征,同时保持目标数字图像内的至少一个对象的对象风格。例如,图3图示了对象感知纹理转移系统106通过利用包括分割306、修复314、纹理转移320和协调324的技术将全局风格特征从源数字图像304转移到目标数字图像302来生成经修改的数字图像326。此外,在一些实施例中,对象感知纹理转移系统106利用对象检测(例如,通过用户选择和/或通过对象检测机器学习模型,如下面关于图4所描述的)来标识在全局风格特征的转移期间其对象风格将被保持的对象。实际上,对象感知纹理转移系统106可以包括比所图示的实施例更少或更多的特征。
如图3中所示,对象感知纹理转移系统106执行分割306以从目标数字图像302和源数字图像304中提取对象以生成第一中间目标数字图像308和第一中间源数字图像310。在一个或多个实施例中,对象感知纹理转移系统106利用分割机器学习模型或神经网络,诸如但不限于下面关于图4描述的对象分割机器学习模型。通过在纹理转移320之前利用分割306从目标数字图像302和/或源数字图像304中提取对象,对象感知纹理转移系统106提高了目标数字图像302和源数字图像304之间的全局风格转移的效率和准确性。
此外,在一些实施例中,对象感知纹理转移系统106利用修复314来填充与由分割306提取的对象相对应的空洞。例如,如图3中所示,对象感知纹理转移系统106利用修复314来填充第一中间目标数字图像308中的空洞以生成第二中间目标数字图像316。还如所示,在一些实现中,对象感知纹理转移系统106利用修复314来填充第一中间源数字图像310中的空洞以生成第二中间源数字图像318。在一个或多个实施例中,对象感知纹理转移系统106利用诸如但不限于下面关于图5描述的内容感知填充机器学习模型的修复机器学习模型或神经网络。通过在纹理转移320之前进行修复314,对象感知纹理转移系统106进一步提高了目标数字图像302和源数字图像304之间的全局风格转移的效率和准确性。
还如图3中所图示,对象感知纹理转移系统106通过将全局风格特征从第二中间源数字图像318转移到第二中间目标数字图像316来生成中间修改数字图像322。例如,如下面关于图6更详细描述的,在一个或多个实施例中,对象感知纹理转移系统106通过将对应于第二中间源数字图像318的全局代码与对应于第二中间目标数字图像316的空间代码进行组合来生成中间修改数字图像322。在一个或多个实施例中,对象感知纹理转换系统106利用风格转移机器学习模型或神经网络,诸如但不限于下面关于图6描述的风格转移神经网络。
此外,如图3中所示,对象感知纹理转移系统106通过将从目标数字图像302中提取的对象重新插入到中间修改数字图像322中来生成经修改的数字图像326。此外,如所图示,对象感知纹理转移系统106执行协调324以协调提取的对象与中间修改数字图像322的背景部分。例如,在一些实施例中,对象感知纹理转移系统106利用在分割306期间生成的对象掩模312来协调所提取的对象与底层图像的背景部分。在一些实施例中,对象感知纹理转移系统106利用协调机器学习模型或神经网络,诸如但不限于下文关于图7至图8描述的协调神经网络。事实上,如图3中所示,最终经修改的数字图像326在展现出对原始图像的高保真度的逼真图像中包括包含提取的对象(即,奔跑的人)在内的目标数字图像302的空间特征以及源数字图像304的全局风格特征。
如上面所提及,在一个或多个实施例中,对象感知纹理转移系统106使用对象检测机器学习模型来检测目标和/或源数字图像内的对象。具体地,图4图示了对象检测机器学习模型的一个示例,对象感知纹理转移系统106在一个或多个实现中利用该模型来检测数字图像416内的对象。特定地,图4图示了检测掩蔽神经网络400,其包括对象检测机器学习模型408(以对象检测神经网络的形式)和对象分割机器学习模型410(以对象分割神经网络的形式)。特定地,检测掩蔽神经网络400是于2022年1月31日提交的美国专利申请号17/589,114“DETECTING DIGITAL OBJECTS AND GENERATING OBJECT MASKS ON DEVICE”中描述的设备上掩蔽系统的实现,其全部内容通过引用并入本文。
虽然图4图示了利用检测掩蔽神经网络400的对象感知纹理转移系统106,但是在一个或多个实现中,对象感知纹理转移系统106利用不同的机器学习模型来检测对象、为对象生成对象掩模,和/或提取对象。例如,在一个或多个实现中,对象感知纹理转移系统106利用如下文献中描述的机器学习模型或神经网络之一作为对象检测机器学习模型:于2021年1月26日提交的题为“Segmenting Objects In Digital Images Utilizing A Multi-Object Segmentation Model Framework”的美国专利申请号17/158,527;或于2019年4月8日提交的题为“Robust Training of Large-Scale Object Detectors with Noisy Data”的美国专利申请号16/388,115;或于2019年7月22日提交的题为“Utilizing MultipleObject Segmentation Models To Automatically Select User-Requested Objects InImages”的美国专利申请号16/518,880;或于2020年3月20日提交的题为“Utilizing ALarge-Scale Object Detector To Automatically Select Objects In DigitalImages”的美国专利申请号16/817,418;或Ren等人,Faster r-cnn:Towards real-timeobject detection with region proposal networks,NIPS,2015年;或Redmon等人,YouOnly Look Once:Unified,Real-Time Object Detection,CVPR 2016,上述每个申请和论文的全部内容通过引用并入本文。
类似地,在一个或多个实现中,对象感知纹理转移系统106利用如下文献中描述的机器学习模型或神经网络之一作为对象分割机器学习模型:于2017年7月14日发布的NingXu等人的“Deep GrabCut for Object Selection”;或于2017年10月31日提交的题为“Deep Salient Content Neural Networks for Efficient Digital ObjectSegmentation”的美国专利申请公开号2019/0130229;或于2018年7月13日提交的题为“Automatic Trimap Generation and Image Segmentation”的美国专利申请号16/035,410;或于2015年11月18日提交的题为“Utilizing Interactive Deep Learning ToSelect Objects In Digital Visual Media”的美国专利号10,192,129,其每一个的全部内容通过引用并入本文。
现在回到图4,在一个或多个实现中,对象感知纹理转移系统106利用检测掩蔽神经网络400,其包括具有主干网络的神经网络编码器402、检测头404(或神经网络解码器头)和掩蔽头406(或神经网络解码器头)。如图4中所示,编码器402对数字图像416进行编码并将编码提供给检测头404和掩蔽头406。检测头404利用编码来检测数字图像416内描绘的一个或多个数字对象。掩蔽头406为检测到的对象生成至少一个对象掩模。
如刚刚提及的,检测掩蔽神经网络400利用对象检测机器学习模型408和对象分割机器学习模型410。在一个或多个实现中,对象检测机器学习模型408包括图4中所示的编码器402和检测头404。虽然对象分割机器学习模型410包括编码器402和掩蔽头406。此外,对象检测机器学习模型408和对象分割机器学习模型410是用于处理目标和/或源数字图像内的对象的独立机器学习模型。图4将编码器402、检测头404和掩蔽头406图示为用于检测和分割图像流内的帧的对象的单个模型。为了效率的目的,在一些实施例中,对象感知纹理转移系统106利用图4中所图示的网络作为单个网络。集体网络(即,对象检测机器学习模型408和对象分割机器学习模型410)被称为检测掩蔽神经网络400。以下段落描述了与网络的对象检测机器学习模型408相关的组件(诸如检测头404)并过渡到讨论与对象分割机器学习模型410有关的组件。
如刚刚提及的,在一个或多个实施例中,对象感知纹理转移系统106利用对象检测机器学习模型408来检测和标识数字图像416内的对象(例如,目标或源数字图像)。图4图示了根据至少一个实施例的对象感知纹理转移系统106利用的对象检测机器学习模型408的一种实现。特别地,图4图示了由对象感知纹理转移系统106用来检测对象的对象检测机器学习模型408。在一个或多个实施例中,对象检测机器学习模型408包括深度学习卷积神经网络(CNN)。例如,在一些实施例中,对象检测机器学习模型408包括基于区域的(R-CNN)。
如图4中所示,对象检测机器学习模型408包括较低的神经网络层和较高的神经网络层。一般来说,较低的神经网络层共同形成编码器402并且较高的神经网络层共同形成检测头404(例如,解码器)。在一个或多个实施例中,编码器402包括将图像流的帧编码成特征向量的卷积层,特征向量从编码器402被输出并作为输入被提供给检测头404。在各种实现中,检测头404包括分析特征向量并输出检测到的对象的全连接层(可能在对象周围具有近似边界)。
特别地,在一个或多个实现中,编码器402包括生成特征图形式的特征向量的卷积层。为了检测数字图像416内的对象,对象检测机器学习模型408利用小型网络形式的卷积层来处理特征图,该小型网络滑过特征图的小型窗口。然后对象检测机器学习模型408将每个滑动窗口映射到较低维度特征。对象检测机器学习模型408然后使用全连接层的两个单独的检测头来处理该特征。特别地,第一头包括生成检测到的对象的框回归层和生成对象标签的对象分类层。
如图4所示,来自检测头404的输出在每个检测到的对象上方显示对象标签。例如,检测掩蔽神经网络400响应于检测到对象,将对象标签指派给每个检测到的对象。特别地,如先前所讨论的,检测掩蔽神经网络400利用基于对象分类的对象标签。为了说明,图4示出了女人的标签418、男人的标签420和鸟的标签422。
如所提及,对象检测机器学习模型408检测数字图像316内的对象。在一些实施例中,并且如图4中所图示,检测掩蔽神经网络400利用近似边界(例如,边界框419、421和423)指示检测到的对象。例如,边界框中的每一个包括包围对象的区域。在一些实施例中,检测掩蔽神经网络400用前面提及的对象标签(诸如检测到的对象的名称)、边界框的坐标和/或边界框的尺寸来注释边界框。
如图4中所图示,对象检测机器学习模型408检测数字图像416的多个对象。在一些实例中,检测掩蔽神经网络400标识边界框内的所有对象。例如,边界框包括指示检测到的对象的近似边界区域。近似边界指的是包括比对象掩模更大和/或更不准确的对象的区域的指示。在一个或多个实施例中,近似边界包括检测到的对象的至少一部分和不包括检测到的对象的数字图像416的部分。近似边界包括任何形状,诸如正方形、矩形、圆形、椭圆形或围绕对象的其他轮廓。在一个或多个实施例中,近似边界包括边界框。
在检测到数字图像416中的对象后,检测掩蔽神经网络400为检测到的对象生成对象掩模。通常,检测掩蔽神经网络400不是在对象定位期间利用粗略边界框,而是生成更好地限定对象边界的分割掩模。以下段落根据一个或多个实施例提供关于为检测到的对象生成对象掩模的附加细节。特别地,图4图示了根据一些实施例的利用对象分割机器学习模型410来生成分割对象的对象感知纹理转移系统106。
如图4中所图示,对象感知纹理转移系统106利用对象分割机器学习模型410处理边界框中检测到的对象以生成对象掩模,诸如对象掩模424和对象掩模426。在备选实施例中,对象感知纹理转移系统106利用对象检测机器学习模型408本身来生成检测到的对象的对象掩模(例如,对对象进行分割以供选择)。
在一个或多个实现中,在生成检测到的对象的对象掩模之前,对象感知纹理转移系统106接收用户输入412以确定为其生成对象掩模的对象。例如,对象感知纹理转移系统106从用户接收输入,该输入指示选择检测到的对象之一。为了说明,在所示的实现中,对象感知纹理转移系统106接收用户选择边界框421和423的用户输入412。
如所提及,对象感知纹理转移系统106利用对象分割机器学习模型410处理数字图像416中检测到的对象的边界框。在一些实施例中,边界框包括来自对象检测的输出机器学习模型408的输出。例如,如图4中所图示,边界框包括关于对象的矩形边界。特定地,图4示出了包围在数字图像416中检测到的女人、鸟和男人的边界框419、421和423。
在一些实施例中,对象感知纹理转移系统106利用对象分割机器学习模型410来为边界框内的上述检测到的对象生成对象掩模。例如,对象分割机器学习模型410对应于一个或多个深度神经网络或模型,其基于对应于数字图像416内的对象的边界框参数来选择对象。特别地,对象分割机器学习模型410为检测到的人和鸟生成对象掩模424和426。
在一些实施例中,对象感知纹理转移系统106基于由对象检测机器学习模型408所标识的对象的对象标签来选择对象分割机器学习模型410。通常,基于标识与输入边界框相关联的对象的一个或多个类别,对象感知纹理转移系统106选择对象分割机器学习模型,该模型被调谐以便为所标识的一个或多个类别的对象生成对象掩模。为了说明,在一些实施例中,基于确定一个或多个所标识对象的类别包括人类或人物,对象感知纹理转移系统106利用特殊的人类对象掩模神经网络来生成对象掩模,诸如图4中所示的对象掩模424。
还如图4中所图示,对象感知纹理转移系统106接收对象掩模424和426作为来自对象分割机器学习模型410的输出。通常,对象掩模包括对应于源或目标数字图像中的对象的像素方式掩模。在一个示例中,对象掩模包括指示一个或多个对象的预测边缘以及包括在预测边缘内的像素的分割边界。
在一些实施例中,对象感知纹理转移系统106还以与上面概述相同的方式经由集合网络(即,检测掩蔽神经网络400)检测数字图像416中所示的对象。例如,图像捕获系统经由检测掩蔽神经网络400检测数字图像416的数字图像416内的女人、男人和鸟。特别地,对象感知纹理转移系统106经由检测头404利用特征金字塔和特征图来标识数字图像416内的对象,并基于用户输入412经由掩蔽头406生成对象掩模。
此外,在一个或多个实现中,尽管图4图示了基于用户输入生成对象掩模412,但是对象感知纹理转移系统106可以在没有用户输入412的情况下生成对象掩模。特别地,对象感知纹理转移系统106为数字图像内的所有检测到的对象生成对象掩模416。为了说明,尽管没有接收到用户输入412,但是对象感知纹理转移系统106为女人、男人和鸟生成对象掩模。
已经为检测到的和选择的对象生成了对象掩模,对象感知纹理转移系统106删除对象掩模的像素,从而生成空洞。对象感知纹理转移系统106利用内容感知填充机器学习模型或神经网络来生成内容以填充空洞,并用所生成的内容填充空洞。例如,图5图示了根据一个或多个实施例的对象感知纹理转移系统106生成中间修改数字图像的一系列动作500。特别地,一系列动作500包括移除与被选择移除的对象掩模相对应的区域中的像素的动作502、生成内容以经由内容感知填充机器学习模型516替换被移除对象的动作504、以及用背景像素填充区域/空洞以生成中间修改数字图像514的动作506。
如图5中所图示,对象感知纹理转移系统106执行移除与对象掩模相对应的区域中的像素的动作502。特别地,对象感知纹理转移系统106标识要在数字图像中操纵的对象。例如,如所图示,对象感知纹理转移系统106确定(例如,基于用户选择)要被提取的对象510。对象感知纹理转移系统106访问对应于对象510的对象掩模。对象感知纹理转移系统106确定图像中对应于对象掩模的区域512。对象感知纹理转移系统106通过移除或删除区域512中与对象510的对象掩模相对应的像素来提取对象510。
还如图5中所图示,对象感知纹理转移系统106执行生成内容以替换对象的动作504。特别地,对象感知纹理转移系统106生成区域512内与对象510的对象掩模相对应的像素。在一些实施例中,对象感知纹理转移系统106利用内容感知填充机器学习模型516来生成区域512内的像素。
在一个或多个实现中,对象感知纹理转移系统106利用深度修复模型形式的内容感知填充机器学习模型516来生成内容(并且可选地填充)与被移除对象相对应的空洞。例如,对象感知纹理转移系统106利用被训练来填充空洞的深度修复模型。在一些实施例中,对象感知纹理转移系统106使用如Y.Zeng、Z.Lin、J.Yang、J.Zhang、E.Shechtman和H.Lu的High-Resolution Image Inpainting with Iterative Confidence Feedback andGuided Upsampling(关于计算机视觉的欧洲会议,1-17(2020))所述的ProFill;或者如J.Yu、Z.Lin、J.Yang、X.Shen、X.Lu和T.S.Huang的Free-Form Image Inpainting withGated Convolution(关于计算机视觉的IEEE国际会议论文集,4471-80(2019))所述的DeepFillv2,其全部内容通过引用并入本文。
备选地,对象感知纹理转移系统106利用CoModGAN模型形式的深度修复模型,该模型如S.Zhao、J.Cui、Y.Sheng、Y.Dong、X.Liang、E.I.Chang、和Y.Xu在Large Scale ImageCompletion via Co-Modulated Generative Adversarial Networks(arXiv:2103.10428,国际学习表征会议(2021))中所述,其全部内容通过引用并入本文。在其他实施例中,对象感知纹理转移系统106利用不同的深度修复模型,诸如基于变换器的模型,诸如TFill(C.Zheng、T.-J.Cham、和J.Cai的TFill:Image Completion via a Transformer-BasedArchitecture,arXiv:2104:00845(2021))或ICT(Z.Wan、J.Zhang、D.Chen和J.Liao的High-Fidelity Pluralistic Image Completion with Transformers,arXiv:2103:14031(2021)),其全部内容通过引用并入本文。
一系列动作500包括用生成的像素填充区域512的动作506。特别地,对象感知纹理转移系统106通过用在先前步骤中生成的像素填充区域512来生成图像流的中间修改数字图像514。如上文关于图3所描述的,在一个或多个实施例中,对象感知纹理转移系统106利用具有提取的对象510和填充的空洞(即,区域)512的中间修改数字图像514进行风格转移,无论该数字图像是源数字图像或目标数字图像。
如上面所提及,在一个或多个实施例中,对象感知纹理转移系统106利用风格转移神经网络在数字图像之间转移全局风格特征。例如,图6图示了对象感知纹理转移系统106利用包括编码器神经网络606和生成器神经网络616的风格转移神经网络将全局风格特征从源数字图像604转移到目标数字图像602。
如图6中所示,对象感知纹理转移系统106利用包括编码器神经网络606和生成器神经网络616的全局和空间自动编码器来从数字图像602、604中提取空间特征和全局特征。编码器神经网络是指从数字图像中提取特征的神经网络。特别地,编码器神经网络从数字图像中提取潜在代码,包括空间代码和全局代码。在一些实施例中,编码器神经网络包括残差块,这些残差块是编码器神经网络的各层的主要分支内的块并且被用于生成全局代码。在这些或其他实施例中,编码器神经网络包括布局块,这些块是不在编码器神经网络的主要分支内的块并且被用于分析中间(例如,非输出)特征以生成空间代码。关于编码器神经网络的架构的附加细节在下文参考图6来提供。
此外,生成器神经网络是指通过组合空间代码和全局代码来生成经修改的数字图像的神经网络。特别地,生成器神经网络通过将来自一个数字图像的空间代码与来自另一个数字图像的全局代码进行组合来生成经修改的数字图像。关于生成器神经网络的架构的附加细节在下面参考图6来提供。
如图6中所图示,对象感知纹理转移系统106利用包括编码器神经网络606和生成器神经网络616的全局和空间自动编码器(即,风格转移神经网络)从目标数字图像602和源数字图像604中生成经修改的数字图像618。特别地,对象感知纹理转移系统106利用编码器神经网络606从目标数字图像602中提取空间代码608和全局代码610。实际上,对象感知纹理转移系统106将编码器神经网络606应用于目标数字图像602以生成空间代码608的空间特征和全局代码610的全局特征。
以类似的方式,对象感知纹理转移系统106利用编码器神经网络606从源数字图像204中提取空间代码612和全局代码614。更特定地,对象感知纹理转移系统106从源数字图像604中提取空间代码612的空间特征。此外,对象感知纹理转移系统106从源数字图像604中提取全局代码614的全局特征。
如图6中所示,对象感知纹理转移系统106利用相同的编码器神经网络606从目标和源数字图像602、604中的每一个中提取全局代码和空间代码。在一些实施例中,对象感知纹理转移系统106利用两个分离的编码器:用于提取空间代码608(和空间代码612)的空间编码器神经网络和用于提取全局代码610(和全局代码614)的全局编码器神经网络。
除了提取空间代码和全局代码之外,对象感知纹理转移系统106通过组合或以其他方式修改潜在代码(例如,空间和/或全局代码)来生成经修改的数字图像618。例如,对象感知纹理转移系统106选择从一个数字图像(例如,目标数字图像602)中提取的空间代码和从另一个数字图像(例如,源数字图像604)中提取的全局代码以组合在一起。实际上,对象感知纹理转移系统106利用生成器神经网络616将第一空间代码608(例如,来自目标数字图像602的空间代码608)与第二全局代码614(例如,来自源数字图像604的全局代码614)结合来生成经修改的数字图像618。
作为利用第一空间代码608和第二全局代码614的结果,经修改的数字图像618包括目标数字图像602的几何布局与源数字图像604的整体外观(即,全局风格或纹理)。事实上,如图6中所示,经修改的数字图像618用源数字图像604(来自全局代码614)的阴影和配色方案(具有大量棕褐色和棕色)描绘了沙漠悬崖场景,源数字图像604也用大阴影面积图示了沙漠悬崖。此外,经修改的数字图像618具有目标数字图像602(来自空间代码608)的形状或布局,其描绘了右侧的大圆形树和左侧的较小灌木,朝向图像的中间逐渐变细。事实上,如所示,经修改的数字图像618具有与目标数字图像602相同的布局,并具有右侧悬崖的圆形形状和左侧较小的锥形悬崖。
除了通过交换代码(例如,在目标数字图像202和源数字图像604之间交换空间代码和全局代码)来生成经修改的数字图像618之外,对象感知纹理转移系统106通过修改潜在代码来编辑属性或混合风格从而生成经修改的数字图像。
为了实现从提取的空间代码和提取的全局代码生成经修改的数字图像(例如,经修改的数字图像618)的准确性,对象感知纹理转移系统106学习风格转移神经网络的参数。特别地,对象感知纹理转移系统106基于至少两个不同的目标来学习编码器神经网络606和生成器神经网络616的参数:1)准确地重建输入数字图像和2)交换组件(例如,空间代码和/或全局代码)以生成新的混合数字图像(有时称为“代码交换”)。
如上面所提及,对象感知纹理转移系统106基于从多个数字图像中提取全局代码来生成属性代码。如本文中所使用的,术语属性代码是指描述或表示数字图像的属性的特征向量或张量。通过将属性代码与空间代码进行组合,对象感知纹理转移系统106生成具有经修改的属性的经修改的数字图像。如本文中所使用的,术语属性是指数字图像的视觉的、可观察的特征或特性。例如,属性包括数字图像内的面部上的笑容的程度或大小。属性还可选地包括数字图像内的雪量。其他属性包括数字图像内的对象的大小(例如,高度和/或宽度)、数字图像内的对象的颜色以及数字图像内的特定颜色或纹理的数量(例如,覆盖面积)。
如上面所讨论的,在一些实施例中,对象感知纹理转移系统106在纹理转移之后将一个或多个提取的对象重新插入到经修改的数字图像中并且对经修改的数字图像的靠近重新插入的对象的背景区域进行协调。例如,图7图示了利用具有双分支神经网络架构的协调神经网络706生成经协调的数字图像的对象感知纹理转移系统106。事实上,如图7中所示,对象感知纹理转移系统106向协调神经网络706提供经修改的数字图像702,其具有重新插入的对象(即,在前景中描绘的人)和与重新插入的对象相对应的分割掩模704(例如,如上文关于图4-图5所述而生成的对象掩模)。
经修改的数字图像702包括组合在一起的背景图像和前景对象。在前景对象与背景图像协调之前,经修改的数字图像702由于在重新插入的前景对象(例如,描绘的人物)和经修改的背景图像之间的视觉不协调而显得不逼真。在这种情况下,视觉不协调对应于重新插入的前景对象和背景图像之间在照明、对比度或颜色方面的明显差异。分割掩模704包括对应于经修改的数字图像702的二进制像素映射。特别地,根据本文所描述的实施例,分割掩模704包括从其中导出经修改的数字图像702的原始目标数字图像的背景和前景区域的二进制像素映射。
基于经修改的数字图像702和分割掩模704,对象感知纹理转移系统106使用协调神经网络706来生成经协调的数字图像716。在一些实施例中,对象感知纹理转移系统106使用协调神经网络706从经修改的数字图像702中提取局部信息和全局信息。为此,对象感知纹理转移系统106利用包括第一神经网络分支708和第二神经网络分支712的协调神经网络706。
在一个或多个实施例中,第一神经网络分支708包括卷积神经网络710。利用卷积神经网络710,对象感知纹理转移系统106从经修改的数字图像702中提取局部信息。例如,对象感知纹理转移系统106使用卷积神经网络710来提取前景对象周围的局部颜色信息。
此外,在一个或多个实施例中,第二神经网络分支712包括变换器神经网络714。利用变换器神经网络714,对象感知纹理转移系统106从经修改的数字图像202中提取全局信息。为了说明,对象感知纹理转移系统106使用变换器神经网络714跨经修改的数字图像702的背景(包括前景对象周围的局部区域之外的区域)而从区域到区域提取颜色信息。
根据局部信息和全局信息,对象感知纹理转移系统106生成经协调的数字图像716。实际上,如图7中所示,经协调的合成数字图像716包括具有匹配的逼真的图像特性(例如,颜色质量、对比度、照明条件等)的背景和前景。以这种方式,对象感知纹理转移系统106生成准确的经协调的数字图像。
此外,在一个或多个实施例中,对象感知纹理转移系统106使用迭代方法(如从经协调的数字图像716回到模型输入的虚线箭头所指示)。事实上,在一个或多个实施例中,对象感知纹理转移系统106通过使用一次迭代的输出(例如,经协调的数字图像716)作为下一次迭代的输入来迭代前述方法。以这种方式,对象感知纹理转移系统106灵活地控制协调前景对象和背景图像的温和程度或积极程度。
如上面所讨论的,在一些实施例中,对象感知纹理转移系统106使用双分支神经网络架构来智能地协调经修改的数字图像中的图像前景与插入的对象。根据一个或多个实施例,图8图示了使用神经网络分支的特定架构来生成经协调的数字图像的对象感知纹理转移系统106。特别地,图8图示了上面关于图7讨论的协调神经网络的附加细节。
还如图8中所示,对象感知纹理转移系统106向第一神经网络分支708提供经修改的数字图像702和分割掩模704(例如,用于局部信息提取)。特别地,对象感知纹理转移系统106使用第一神经网络分支708的卷积神经网络层807、804来提取与插入的前景对象相邻的背景的局部信息。例如,对象感知纹理转移系统106使用卷积神经网络层807、804来生成局部背景特征向量,其表示与插入的前景对象相邻的背景的局部化区域处的背景信息。在某些实现中,局部背景特征向量包括经编码的值(例如,代表颜色信息,诸如像素颜色值)。
此外,在某些实施例中,对象感知纹理转移系统106使用卷积神经网络层807、804来生成包括与背景相对应的风格信息在内的局部背景特征向量。例如,局部背景特征向量表示某些图像特性的像素级统计。为了说明,局部背景特征向量表示位于合成前景对象周围(或经修改的数字图像702中的其他地方)的像素的像素颜色值的平均与标准偏差。
在一个或多个实施例中,第一神经网络分支708还包括风格归一化层806。对象感知纹理转移系统106使用风格归一化层806将风格信息从背景注入到插入的前景对象中。为此,对象感知纹理转移系统106将局部背景特征向量和分割掩模704作为输入提供给风格归一化层806。
如果先前未使用卷积神经网络层807、804来确定,则对象感知纹理转移系统106使用风格归一化层806从背景中提取风格信息。例如,对象感知纹理转移系统106使用分割掩模704来标识要被协调的区域(即,插入的前景对象)。进而,对象感知纹理转移系统106使用风格归一化层806来确定背景、插入的前景对象或两者的某些图像特性的像素级统计。为了说明,对象感知纹理转移系统106使用风格归一化层806来确定位于插入的前景对象周围的像素的像素颜色值的平均与标准偏差。附加地或备选地,对象感知纹理转移系统106使用风格归一化层806来确定位于背景中的像素和位于前景中的像素的像素颜色值的平均与标准偏差。
基于提取的风格信息,对象感知纹理转移系统106使用风格归一化层806(例如,实例协调层)来为插入的前景对象生成风格归一化的前景特征向量。例如,对象感知纹理转移系统106提供像素级统计(例如,像素颜色值的平均与标准偏差)作为风格归一化层806的风格参数。对象感知纹理转移系统106使风格归一化层806使用这些参数进行前景调整操作。为了说明,对象感知纹理转移系统106使风格归一化层806基于风格参数来修改(例如,归一化)表示插入的前景对象的图像特性的前景特征向量。Ling等人的Region-aware AdaptiveInstance Normalization for Image Harmonization(《IEEE/CVF计算机视觉和模式标识会议论文集》(2021),第9361-9370页)进一步解释了生成此类风格归一化前景特征向量的示例操作,其全部内容通过引用并入本文。
另外如图8中所示,对象感知纹理转移系统106向第二神经网络分支712提供经修改的数字图像702和分割掩模704。在第二神经网络分支712中,对象感知纹理转移系统106利用变换器神经网络从数字图像中提取全局信息。
为变换器神经网络做准备,对象感知纹理转移系统106执行一个或多个不同的操作。例如,对象感知纹理转移系统106将经修改的数字图像702划分成图像补丁(例如,大小为4像素×4像素,但是可以利用不同大小的补丁)。附加地或备选地,在某些实施例中,对象感知纹理转移系统106与图像补丁中的一个或多个重叠。基于图像补丁,对象感知纹理转移系统106生成(多个)补丁嵌入808。例如,对象感知纹理转移系统106通过对与图像块相关联的图像特征或特性(例如,像素颜色值)进行编码来生成(多个)补丁嵌入808。应当了解,对象感知纹理转移系统106利用一个或多个不同的编码器来生成(多个)补丁嵌入808。
对象感知纹理转移系统106向包括变换器神经网络层810-816的变换器神经网络提供(多个)补丁嵌入808。在一些实施例中,对象感知纹理转移系统106使用变换器神经网络层810-816来以多个图像分辨率(例如,基于(多个)补丁嵌入(808))生成与经修改的数字图像702相对应的多级特征向量。例如,对象感知纹理转移系统106使用变换器神经网络层810-816来生成多级特征向量,多级特征向量包括来自(多个)补丁嵌入808的高分辨率粗略特征和低分辨率精细特征。为了说明,对象感知纹理转移系统106使用变换器神经网络层810-816来以经修改的数字图像702的原始图像分辨率的分数图像分辨率(例如,1/4、1/8、1/16、1/32等)生成捕获补丁特定的颜色信息、对比度信息、照明条件信息等等的多级特征向量。
为了生成刚刚描述的多级特征向量,对象感知纹理转移系统106为变换器神经网络层810-816实现一种或多种不同的架构。如图8中所示,变换器神经网络层810-816包括自注意神经网络层818、混合FFN(前馈网络)820和重叠补丁合并操作822。
在一个或多个实施例中,对象感知纹理转移系统106使用自注意神经网络层818来智能地加权图像特性。例如,对象感知纹理转移系统106使用自注意神经网络层818来加权(例如,强调或减少)经修改的数字图像702的某些区域或补丁处的图像特性。作为另一个示例,对象感知纹理转移系统106使用自注意神经网络层818来基于它们的值来加权图像特性。例如,对象感知纹理转移系统106使用自注意神经网络层818来根据预先确定的或学习的加权方案来对最高像素颜色值(例如,高亮值)和最低像素颜色值(例如,阴影值)进行加权。
此外,对象感知纹理转移系统106使用混合FFN 820来考虑零填充对泄漏位置信息的影响。例如,在一些实施例中,混合FFN 820包括3×3卷积神经网络层以考虑零填充对泄漏位置信息的影响。
此外,对象感知纹理转移系统106使变换器神经网络层810-816执行重叠补丁合并操作822。重叠补丁合并操作822包括一个或多个操作以合并来自(多个)补丁嵌入808的特征。例如,重叠补丁合并操作822包括将来自(多个)补丁嵌入808的编码值与自注意神经网络层818和/或混合FFN 820生成的经修改的编码值进行组合。在本文中也设想了附加或备选操作。
对象感知纹理转移系统106使用解码器824基于来自第一神经网络分支708的局部信息和来自第二神经网络分支712的全局信息来生成经协调的数字图像716。例如,对象感知纹理转移系统106使用解码器824基于来自第二神经网络分支712的多级特征向量和来自第一神经网络分支708的风格归一化前景特征向量来生成经协调的数字图像716。在一些实施例中,解码器824包括一个或多个转置卷积神经网络层以合并来自第二神经网络分支712的多级特征向量和来自第一神经网络分支708的风格归一化前景特征向量。在附加或备选实施例中,解码器824包括不同的架构来解码刚刚描述的局部信息和全局信息。
基于解码,经协调的数字图像716包括相对于输入的经修改的数字图像702的一个或多个修改。例如,在一个或多个实施例中,经协调的数字图像716包括具有基于局部信息和全局信息解码的经修改的像素颜色值的插入的前景对象。
为了进一步说明,图9图示了根据本公开的实施例的生成经修改的数字图像908的对象感知纹理转移系统106的实验结果。特定地,图9示出了对象感知纹理转移系统106将全局风格特征从源数字图像902转移到目标数字图像904同时保持在目标数字图像904内描绘的对象(即,白色汽车)的对象风格的结果。还如图9中所示,经修改的数字图像906是在不保持被描绘对象的对象风格的情况下在源数字图像902和目标数字图像904之间转移全局风格特征的结果。事实上,如图9中所示,经修改的数字图像908在将源数字图像802的全局风格转移到其上之后在图像内展现了对象(即,汽车)明显更逼真的描绘。
现在转向图10,将提供关于对象感知纹理转移系统106的一个或多个实施例的组件和能力的附加细节。特别地,图10图示了由计算设备1000(例如,(多个)服务器设备102或客户端设备110执行的示例对象感知纹理转移系统106。如图10的实施例所示,计算设备1000包括或托管图像修改系统104和对象感知纹理转移系统106。此外,如图10中所示,对象感知纹理转移系统106包括数字图像管理器1002、对象检测管理器1004、对象选择管理器1006、对象移除管理器1008、内容生成器1010和内容感知填充管理器1012。另外,所图示的对象感知纹理转移系统106包括对象检测机器学习模型1014、分割机器学习模型1016、内容感知填充机器学习模型1018、风格转移机器学习模型1020和协调机器学习模型1022。下面依次描述上面提及的每个组件。
正如刚刚提及的,并且如图10中的实施例所示,对象感知纹理转移系统106包括数字图像管理器1002。例如,数字图像管理器1002(例如,关于图1-图9)如上所述标识、存储、传输和/或显示数字图像(和/或数字视频)。在一些实例中,数字图像管理器1002使用(例如,关于图4-图8)如上所述的编码器存储具有预先嵌入在潜在空间中的对应潜在代码/向量的数字图像。
此外,对象感知纹理转移系统106执行各种对象检测、选择、移除和内容生成任务,如上文更详细描述的(例如,关于图4-图5)。例如,对象检测管理器1004经由对象检测机器学习模型1014在提供给计算设备1000的数字图像内检测对象。此外,对象感知纹理转移系统106经由分割机器学习模型1016分割检测到的对象并且生成对象掩模。对象选择管理器1006监督检测到的对象的选择,而对象移除管理器1008监督移除所选对象。此外,对象感知纹理转移系统106移除所选对象,然后用内容生成器1010、内容感知填充管理器1012和内容感知填充机器学习模型1018填充由被移除对象所留下的空洞。
在目标和/或源数字图像中移除对象并填充所得空洞的情况下,根据本文所描述的一个或多个实施例(例如,关于图1-图3和图6),对象感知纹理转移系统106然后利用风格转移机器学习模型1020在图像之间转移全局风格特征。此外,响应于在结果图像中重新插入对象,对象感知纹理转移系统106利用协调机器学习模型1022来协调经修改的数字图像的背景和重新插入的对象,以生成具有被转移的全局风格和被保持的对象风格的逼真的经修改的数字图像,如上文更详细描述的(例如,关于图7-图9)。
对象感知纹理转移系统106的组件1002-1022中的每一个包括软件、硬件或两者。例如,组件1002-1022包括存储在计算机可读存储介质上并可由诸如客户端设备或服务器设备的一个或多个计算设备的处理器执行的一个或多个指令。当由一个或多个处理器执行时,对象感知纹理转移系统106的计算机可执行指令使(多个)计算设备1000执行本文所描述的方法。备选地,组件1002-1022包括硬件,诸如用于执行特定功能或功能组的专用处理设备。备选地,对象感知纹理转移系统106的组件1002-1022包括计算机可执行指令和硬件的组合。
此外,对象感知纹理转移系统106的组件1002-1022例如可以被实现为一个或多个操作系统、一个或多个独立应用、一个或多个应用模块,一个或多个插件,一个或多个库函数或可以被其他应用调用的函数和/或云计算模型。因此,组件1002-1022可以被实现为独立应用,诸如桌面或移动应用。此外,组件1002-1022可以被实现为托管在远程服务器上的一个或多个基于web的应用。组件1002-1022也可以在一套移动设备应用或“app”中被实现。为了说明,组件1002-1022可以被实现在应用中,包括但不限于ADOBE PHOTOSHOP、ADOBEPREMIERE、ADOBE LIGHTROOM、ADOBE ILLUSTRATOR、ADOBE CREATIVE CLOUD或ADOBE STOCK。“ADOBE”、“ADOBE PHOTOSHOP”、“ADOBE PREMIERE”、“ADOBE LIGHTROOM”、“ADOBEILLUSTRATOR”、“ADOBE CREATIVE CLOUD”和“ADOBE STOCK”是奥多比系统公司在美国和/或其他国家的注册商标或商标。
图1至图10、对应的文本和示例提供了对象感知纹理转移系统106的多种不同方法、系统、设备和非暂态计算机可读介质。除了前述之外,一个或多个实施例还根据包括用于实现特定结果的动作的流程图来进行描述,如图11中所示。如图11中所示的动作可以结合更多或更少的动作来执行。此外,动作可以以不同的顺序来执行。另外,本文所描述的动作可以彼此并行地重复或执行,或者与相同或相似动作的不同实例并行地执行。非暂态计算机可读介质可以包括指令,当由一个或多个处理器执行时,这些指令使计算设备执行图11的动作。在一些实施例中,系统可以被配置为执行图11的动作。备选地,图11的动作可以作为计算机实现方法的一部分而被执行。
如上面所提及,图11图示了根据一个或多个实施例的用于生成经修改的数字图像的一系列动作1100的流程图。而图11图示了根据一个实施例的动作,替代实施例可以省略、添加、重新排序和/或修改图11中所示的任何动作。
如图11中所示,一系列动作1100包括接收将全局风格从源数字图像转移到目标数字图像的请求的动作1102。特别地,在一个或多个实施例中,动作1102包括接收将全局风格从源数字图像转移到目标数字图像的请求。在一些实施例中,动作1102包括接收请求,该请求包括选择目标数字图像内的至少一个目标对象以在从源数字图像转移全局风格期间保持外观。此外,在一些实施例中,动作1102包括接收转移请求,该转移请求包括选择用于从目标数字图像内提取的至少一个目标对象。
如图11中所示,一系列动作1100包括标识目标数字图像内的至少一个对象的动作1104。也如图11中所示,动作1104还可以包括用于利用对象检测模型来标识至少一个对象的动作1108和用于利用分割模型来提取至少一个对象的动作1110。特别地,在一个或多个实施例中,动作1104包括响应于接收到转移请求来标识目标数字图像内的至少一个目标对象。此外,在一些实施例中,动作1104包括标识目标数字图像内的至少一个目标对象包括通过利用对象检测机器学习模型来标识目标数字图像内的至少一个前景对象。此外,在一些实施例中,动作1104包括利用分割模型从目标数字图像内提取至少一个目标对象。此外,在一些实施例中,动作1104包括响应于从目标数字图像内提取至少一个目标对象来生成用于与至少一个目标对象相对应的空洞的内容填充并且用内容填充来填充与至少一个目标对象相对应的空洞。
此外,在一个或多个实施例中,动作1104包括响应于接收到转移请求,标识源数字图像内的至少一个源对象,从源数字图像内提取至少一个源对象以生成中间源数字图像,并通过将全局风格从中间源数字图像转移到目标数字图像来生成经修改的数字图像。
此外,在一些实施例中,动作1104包括响应于接收到转移请求,从目标数字图像内提取至少一个目标对象以生成第一中间数字图像。在一些实施例中,动作1104还包括利用分割模型从目标数字图像内提取至少一个目标对象。另外,在一个或多个实施例中,动作1104包括通过利用内容感知填充机器学习模型为与至少一个目标对象相对应的空洞生成内容填充来生成第一中间数字图像。在一些实施例中,动作1104包括利用对象检测机器学习模型来标识要从目标数字图像中提取的至少一个目标对象。
此外,在一些实施例中,动作1104包括标识源数字图像中的至少一个源对象,该至少一个源对象包括与源数字图像的全局风格不同的风格,以及通过利用分割模型从源数字图像内提取至少一个源对象并为与至少一个源对象相对应的空洞生成内容填充来修改源数字图像。
如图11中所示,一系列动作1100包括将全局风格从源数字图像转移到目标数字图像的动作1106。也如图11中所示,动作1106可以包括用于利用风格转移网络来转移全局风格的动作1112和用于重新插入所提取的至少一个对象的动作1114。特别地,在一个或多个实施例中,动作1106包括利用风格转移神经网络将全局风格从源数字图像转移到目标数字图像,同时保持源数字图像中的至少一个目标对象的对象风格以生成经修改的数字图像。另外,在一些实施例中,动作1106包括响应于转移全局风格,将至少一个先前提取的目标对象重新插入到目标数字图像中以生成经修改的数字图像。此外,在一些实施例中,动作1106包括使重新插入的至少一个目标对象和与该至少一个目标对象相邻的目标数字图像的背景部分相协调。
此外,在一个或多个实施例中,动作1106包括利用编码器神经网络从源数字图像中提取全局代码,该全局代码包括与源数字图像的整体外观相对应的特征,利用编码器神经网络网络从与目标数字图像的几何布局相对应的目标数字图像中提取空间代码,并利用生成器神经网络,通过将源数字图像的全局代码与目标数字图像的空间代码进行组合来生成经修改的数字图像。
此外,在一些实施例中,动作1106包括利用风格转移神经网络将全局风格从源数字图像转移到第一中间数字图像以生成第二中间数字图像,并且将至少一个目标对象插入到第二中间数字图像中以生成经修改的数字图像。在一些实施例中,全局风格包括源数字图像内的风景纹理。另外,在一些实施例中,动作1106包括使插入的至少一个目标对象和与该至少一个目标对象相邻的第二中间数字图像的背景部分相协调。
此外,在一些实施例中,动作1106包括响应于修改源数字图像,将全局风格从源数字图像转移到第一中间数字图像以生成经修改的数字图像。此外,在一些实施例中,动作1106包括利用编码器神经网络从源数字图像中提取全局代码,该全局代码包括与源数字图像的整体外观相对应的特征,利用编码器神经网络从对应于目标数字图像的几何布局的目标数字图像中提取空间代码,并利用生成器神经网络,通过将源数字图像的全局代码与目标数字图像的空间代码进行组合来生成经修改的数字图像。另外,在一些实施例中,动作1106包括通过利用协调神经网络将插入的至少一个目标对象和与至少一个目标对象相邻的第二中间数字图像的背景相协调来生成经修改的数字图像。
本公开的实施例可以包括或利用专用或通用计算机,其包括计算机硬件,诸如例如一个或多个处理器和系统存储器,如下面更详细地讨论的。本公开范围内的实施例还包括用于携带或存储计算机可执行指令和/或数据结构的物理和其他计算机可读介质。特别地,本文所描述的一个或多个过程可以至少部分被地实现为非暂态计算机可读介质中体现并且可由一个或多个计算设备(例如,本文所描述的任何介质内容访问设备)执行的指令。一般来说,处理器(例如,微处理器)从非暂态计算机可读介质(例如,存储器)接收指令,并执行那些指令,从而执行一个或多个过程,包括本文所描述的一个或多个过程。
计算机可读介质可以是通用或专用计算机系统可以访问的任何可用介质。存储计算机可执行指令的计算机可读介质是非暂态计算机可读存储介质(设备)。携带计算机可执行指令的计算机可读介质是传输介质。因此,作为示例而非限制,本公开的实施例可以包括至少两种截然不同的计算机可读介质:非暂态计算机可读存储介质(设备)和传输介质。
非暂态计算机可读存储介质(设备)包括RAM、ROM、EEPROM、CD-ROM、固态驱动器(“SSD”)(例如,基于RAM)、闪存、相变存储器(“PCM”)、其他类型的存储器、其他光盘存储、磁盘存储或其他磁存储设备或者任何其他可以被用来以计算机可执行指令或数据结构的形式存储所需程序代码并且可以通过通用或专用计算机访问的介质。
“网络”被定义为能够在计算机系统和/或模块和/或其他电子设备之间转移电子数据的一个或多个数据链路。当信息通过网络或其他通信连接(有线、无线或者有线或无线的组合)而被传送或提供给计算机时,计算机正确地将连接视为传输介质。传输介质可以包括网络和/或数据链路,其可以被用于携带计算机可执行指令或数据结构形式的所需程序代码装置,并且可由通用或专用计算机访问。以上的组合也应被包括在计算机可读介质的范围内。
此外,在到达各种计算机系统组件后,计算机可执行指令或数据结构形式的程序代码装置可以自动地从传输介质被传送到非暂态计算机可读存储介质(设备)(或反之亦然)。例如,通过网络或数据链路接收的计算机可执行指令或数据结构可以被缓冲在网络接口模块(例如,“NIC”)内的RAM中,然后最终被传送到计算机系统RAM和/或计算机系统中不太易失的计算机存储介质(设备)。因此,应当理解,非暂态计算机可读存储介质(设备)可以被包括在也(或者甚至主要)利用传输介质的计算机系统组件中。
计算机可执行指令包括例如指令和数据,当由处理器执行时,这些指令和数据使通用计算机、专用计算机或专用处理设备执行特定功能或功能组。在一些实施例中,计算机可执行指令由通用计算机执行以将通用计算机变成实现本公开的元件的专用计算机。计算机可执行指令例如可以是二进制文件、诸如汇编语言的中间格式指令,或者甚至是源代码。尽管已经用特定于结构特征和/或方法动作的语言描述了主题,但是应当理解,所附权利要求中定义的主题不一定限于上述描述的特征或动作。相反,所描述的特征和动作作为实现权利要求的示例形式而被公开。
本领域的技术人员将了解,本公开可以被实践在具有许多类型的计算机系统配置的网络计算环境中,包括个人计算机、台式计算机、膝上型计算机、消息处理器、手持设备、多处理器系统、基于微处理器或可编程的消费电子产品、网络PC、小型计算机、大型计算机、移动电话、PDA、平板计算机、寻呼机、路由器、交换机等。本公开还可以被实践在分布式系统环境中,其中(通过硬连线数据链路、无线数据链路,或者通过硬连线和无线数据链路的组合)通过网络链接的本地和远程计算机系统都执行任务。在分布式系统环境中,程序模块可以位于本地和远程存储器存储设备中。
本公开的实施例也可以被实现在云计算环境中。如本文中所使用的,术语“云计算”指的是用于实现对可配置计算资源共享池的按需网络访问的模型。例如,可以在市场中采用云计算来提供对可配置计算资源共享池的无处不在的且方便的按需访问。可配置计算资源共享池可以经由虚拟化而被快速配置并以低管理工作或服务提供商交互来释放,然后相应地进行扩展。
云计算模型可以由各种特性组成,诸如例如按需自助服务、广泛的网络访问、资源池化、快速弹性、测量服务等等。云计算模型还可以公开各种服务模型,诸如例如软件即服务(“SaaS”)、平台即服务(“PaaS”)和基础设施即服务(“IaaS”)。还可以使用不同的部署模型来部署云计算模型,诸如私有云、社区云、公共云、混合云等。此外,如本文中所使用的,术语“云计算环境”是指在其中采用云计算的环境。
图12图示了可以被配置为执行上述过程中的一个或多个的示例计算设备1000的框图。人们将了解,一个或多个计算设备,诸如计算设备1200可以表示上述计算设备(例如,计算设备1000、(多个)服务器设备102和客户端设备110)。在一个或多个实施例中,计算设备1200可以是移动设备(例如,移动电话、智能手机、PDA、平板计算机、膝上型计算机、相机、跟踪器、手表、可穿戴设备等)。在一些实施例中,计算设备1200可以是非移动设备(例如,台式计算机或其他类型的客户端设备)。此外,计算设备1200可以是包括基于云的处理和存储能力的服务器设备。
如图12中所示,计算设备1200可以包括一个或多个处理器1202、存储器1204、存储设备1206、输入/输出接口1208(或“I/O接口1208”)和通信接口1210,其可以通过通信基础设施(例如,总线1212)来通信耦合。虽然图12中示出了计算设备1200,但是图12中所图示的组件不旨在限制。在其他实施例中可以使用附加的或替代的组件。此外,在某些实施例中,计算设备1200包括比图12中所示的组件更少的组件。现在将更详细地描述图12中所示的计算设备1200的组件。
在特定实施例中,(多个)处理器1202包括用于执行指令的硬件,诸如构成计算机程序的指令。作为示例而非限制,为了执行指令,(多个)处理器1202可以从内部寄存器、内部高速缓存、存储器1204或存储设备1206检索(或获取)指令并解码和执行它们。
计算设备1200包括耦合到(多个)处理器1202的存储器1204。存储器1204可以被用于存储数据、元数据和由(多个)处理器执行的程序。存储器1204可以包括易失性和非易失性存储器中的一个或多个,诸如随机存取存储器(“RAM”)、只读存储器(“ROM”)、固态盘(“SSD”)、闪存、相变存储器(“PCM”)或其他类型的数据存储装置。存储器1204可以是内部或分布式存储器。
计算设备1200包括存储设备1206,包括用于存储数据或指令的存储器。作为示例而非限制,存储设备1206可以包括上述非暂态存储介质。存储设备1206可以包括硬盘驱动器(HDD)、闪存、通用串行总线(USB)驱动器或者这些或其他存储设备的组合。
如所示,计算设备1200包括一个或多个I/O接口1208,提供这些I/O接口以允许用户向计算设备1200提供输入(诸如用户笔划)、从计算设备1200接收输出以及以其他方式向计算设备1200和从计算设备1200传送数据。这些I/O接口1208可以包括鼠标、小键盘或键盘、触摸屏、相机、光学扫描仪、网络接口、调制解调器、其他已知的I/O设备或此类I/O接口1208的组合。可以用手写笔或手指激活触摸屏。
I/O接口1208可以包括用于向用户呈现输出的一个或多个设备,包括但不限于图形引擎、显示器(例如,显示屏)、一个或多个输出驱动器(例如,显示驱动器)、一个或多个音频扬声器、以及一个或多个音频驱动器。在某些实施例中,I/O接口1208被配置为向显示器提供图形数据以呈现给用户。图形数据可以表示一个或多个图形用户界面和/或可以服务于具体实现的任何其他图形内容。
计算设备1200还可以包括通信接口1210。通信接口1210可以包括硬件、软件或两者。通信接口1210提供用于在计算设备与一个或多个其他计算设备或一个或多个网络之间的通信(诸如例如,基于分组的通信)的一个或多个接口。作为示例而非限制,通信接口1210可以包括用于与以太网或其他基于有线的网络进行通信的网络接口控制器(NIC)或网络适配器,或者用于与诸如WI-FI的无线网络进行通信的无线NIC(WNIC)或无线适配器。计算设备1200还可以包括总线1212。总线1212可以包括将计算设备1200的组件彼此连接的硬件、软件或两者。
在前面的说明书中,本发明已经参考其特定示例实施例进行了描述。参考本文所讨论的细节描述了本发明的各种实施例和方面,并且附图图示了各种实施例。上面的描述和附图是对本发明的说明,而不应被解释为对本发明的限制。描述了许多具体细节以提供对本发明的各种实施例的透彻理解。
本发明可以在不脱离其精神或本质特性的情况下以其他具体形式来体现。所描述的实施例在所有方面都应被视为说明性的而非限制性的。例如,可以用更少或更多的步骤/动作来执行本文所描述的方法,或者可以以不同的顺序来执行这些步骤/动作。另外,本文上描述的步骤/动作可以彼此并行地或与相同或相似的步骤/动作的不同实例并行地重复或执行。因此,本发明的范围由所附权利要求而不是前述描述来指示。落入权利要求的等同物的含义和范围内的所有变化都应被包含在其范围内。
Claims (20)
1.一种存储可执行指令的非暂态计算机可读介质,所述可执行指令在由至少一个处理器执行时使所述至少一个处理器执行操作,所述操作包括:
接收将全局风格从源数字图像向目标数字图像转移的请求;
响应于接收到转移的所述请求,标识所述目标数字图像内的至少一个目标对象;以及
利用风格转移神经网络,将所述全局风格从所述源数字图像向所述目标数字图像转移,同时保持所述源数字图像中的所述至少一个目标对象的对象风格,以生成经修改的数字图像。
2.根据权利要求1所述的非暂态计算机可读介质,其中标识所述目标数字图像内的所述至少一个目标对象包括利用对象检测机器学习模型来标识所述目标数字图像内的至少一个前景对象。
3.根据权利要求1所述的非暂态计算机可读介质,还包括在由所述至少一个处理器执行时使所述至少一个处理器执行包括如下操作的指令:利用分割模型来从所述目标数字图像内提取所述至少一个目标对象。
4.根据权利要求3所述的非暂态计算机可读介质,还包括在由所述至少一个处理器执行时使所述至少一个处理器执行包括如下操作的指令:
响应于从所述目标数字图像内提取所述至少一个目标对象,生成针对与所述至少一个目标对象相对应的空洞的内容填充;以及
利用所述内容填充来填充与所述至少一个目标对象相对应的所述空洞。
5.根据权利要求1所述的非暂态计算机可读介质,还包括在由所述至少一个处理器执行时使所述至少一个处理器执行包括如下操作的指令:
响应于接收到转移的所述请求,标识所述源数字图像内的至少一个源对象;
从所述源数字图像内提取所述至少一个源对象以生成中间源数字图像;以及
通过将所述全局风格从所述中间源数字图像向所述目标数字图像转移来生成所述经修改的数字图像。
6.根据权利要求3所述的非暂态计算机可读介质,其中生成所述经修改的数字图像还包括响应于转移所述全局风格,将所述至少一个目标对象重新插入到所述目标数字图像中。
7.根据权利要求6所述的非暂态计算机可读介质,还包括在由所述至少一个处理器执行时使所述至少一个处理器执行包括如下操作的指令:将重新插入的所述至少一个目标对象与所述目标数字图像的背景部分进行协调,所述目标数字图像的所述背景部分与所述至少一个目标对象相邻。
8.根据权利要求1所述的非暂态计算机可读介质,其中将所述全局风格从所述源数字图像向所述目标数字图像转移还包括:
利用编码器神经网络来从所述源数字图像提取全局代码,所述全局代码包括与所述源数字图像的整体外观相对应的特征;
利用所述编码器神经网络来从所述目标数字图像提取与所述目标数字图像的几何布局相对应的空间代码;以及
利用生成器神经网络,通过将所述源数字图像的所述全局代码与所述目标数字图像的所述空间代码进行组合来生成所述经修改的数字图像。
9.一种计算机实现的方法,包括:
接收将全局风格从源数字图像向目标数字图像转移的请求;
响应于接收到转移的所述请求,从所述目标数字图像内提取至少一个目标对象以生成第一中间数字图像;
利用风格转移神经网络,将所述全局风格从所述源数字图像向所述第一中间数字图像转移以生成第二中间数字图像;以及
将所述至少一个目标对象插入到所述第二中间数字图像中以生成经修改的数字图像。
10.根据权利要求9所述的计算机实现的方法,其中所述全局风格包括所述源数字图像内的风景纹理。
11.根据权利要求9所述的计算机实现的方法,其中转移的所述请求包括对用于从所述目标数字图像内提取的所述至少一个目标对象的选择。
12.根据权利要求9所述的计算机实现的方法,还包括利用分割模型来从所述目标数字图像内提取所述至少一个目标对象。
13.根据权利要求9所述的计算机实现的方法,其中生成所述第一中间数字图像还包括利用内容感知填充机器学习模型来生成针对与所述至少一个目标对象相对应的空洞的内容填充。
14.根据权利要求9所述的计算机实现的方法,其中将所述全局风格从所述源数字图像向所述目标数字图像转移还包括:
利用编码器神经网络来从所述源数字图像提取全局代码,所述全局代码包括与所述源数字图像的整体外观相对应的特征;
利用所述编码器神经网络来从所述第一中间数字图像提取与所述第一中间数字图像的几何布局相对应的空间代码;以及
利用生成器神经网络来将所述全局代码与所述空间代码进行组合以生成所述第二中间数字图像。
15.根据权利要求9所述的计算机实现的方法,其中生成所述经修改的数字图像还包括将插入的所述至少一个目标对象与所述第二中间数字图像的背景部分进行协调,所述第二中间数字图像的所述背景部分与所述至少一个目标对象相邻。
16.一种系统,包括:
一个或多个存储器设备,所述一个或多个存储器设备包括源数字图像、目标数字图像、分割模型和风格转移神经网络;以及
一个或多个处理器,所述一个或多个处理器被配置为使所述系统:
利用所述分割模型来从所述目标数字图像提取至少一个目标对象以生成第一中间数字图像;
利用所述风格转移神经网络来将全局风格从所述源数字图像向所述第一中间数字图像转移以生成第二中间数字图像;以及
将所述至少一个目标对象插入到所述第二中间数字图像中以生成经修改的数字图像。
17.根据权利要求16所述的系统,其中所述一个或多个处理器还被配置为使所述系统利用对象检测机器学习模型来标识要从所述目标数字图像被提取的所述至少一个目标对象。
18.根据权利要求16所述的系统,其中所述一个或多个处理器还被配置为使所述系统:
标识所述源数字图像中的至少一个源对象,所述至少一个源对象包括与所述源数字图像的所述全局风格不同的风格;
通过利用所述分割模型从所述源数字图像内提取所述至少一个源对象以及生成针对与所述至少一个源对象相对应的空洞的内容填充来修改所述源数字图像;以及
响应于修改所述源数字图像,将所述全局风格从所述源数字图像向所述第一中间数字图像转移,以生成所述经修改的数字图像。
19.根据权利要求16所述的系统,其中将所述全局风格从所述源数字图像向所述目标数字图像转移还包括:
利用编码器神经网络来从所述源数字图像提取全局代码,所述全局代码包括与所述源数字图像的整体外观相对应的特征;
利用所述编码器神经网络来从所述目标数字图像提取与所述目标数字图像的几何布局相对应的空间代码;以及
利用生成器神经网络,通过将所述源数字图像的所述全局代码与所述目标数字图像的所述空间代码进行组合来生成所述经修改的数字图像。
20.根据权利要求16所述的系统,其中所述一个或多个处理器还被配置为使所述系统通过利用协调神经网络将插入的所述至少一个目标对象与所述第二中间数字图像的背景进行协调来生成所述经修改的数字图像,所述第二中间数字图像的所述背景与所述至少一个目标对象相邻。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/810,392 US20240005574A1 (en) | 2022-07-01 | 2022-07-01 | Applying object-aware style transfer to digital images |
US17/810,392 | 2022-07-01 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117350928A true CN117350928A (zh) | 2024-01-05 |
Family
ID=86316457
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310173359.8A Pending CN117350928A (zh) | 2022-07-01 | 2023-02-28 | 将对象感知风格转移应用于数字图像 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20240005574A1 (zh) |
CN (1) | CN117350928A (zh) |
AU (1) | AU2023202477A1 (zh) |
DE (1) | DE102023110001A1 (zh) |
GB (1) | GB2620467A (zh) |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10192129B2 (en) | 2015-11-18 | 2019-01-29 | Adobe Systems Incorporated | Utilizing interactive deep learning to select objects in digital visual media |
US11202017B2 (en) * | 2016-10-06 | 2021-12-14 | Fyusion, Inc. | Live style transfer on a mobile device |
US10460214B2 (en) | 2017-10-31 | 2019-10-29 | Adobe Inc. | Deep salient content neural networks for efficient digital object segmentation |
CN112424834A (zh) * | 2018-08-01 | 2021-02-26 | Oppo广东移动通信有限公司 | 用于图像处理的方法和设备 |
US11636639B2 (en) * | 2019-10-11 | 2023-04-25 | Robert G. Adamson, III | Mobile application for object recognition, style transfer and image synthesis, and related systems, methods, and apparatuses |
US11790950B2 (en) * | 2020-01-14 | 2023-10-17 | Robert Salem Abraham | Film-making using style transfer |
CN112329752B (zh) * | 2021-01-06 | 2021-04-06 | 腾讯科技(深圳)有限公司 | 人眼图像处理模型的训练方法、图像处理方法及装置 |
US20220108431A1 (en) * | 2021-12-17 | 2022-04-07 | Intel Corporation | Systems and methods for applying style transfer functions in multi-camera systems and multi-microphone systems |
US11908072B2 (en) * | 2022-03-31 | 2024-02-20 | Tooliqa Inc. | System and method for generating and interacting with a virtual model of a physical entity |
-
2022
- 2022-07-01 US US17/810,392 patent/US20240005574A1/en active Pending
-
2023
- 2023-02-28 CN CN202310173359.8A patent/CN117350928A/zh active Pending
- 2023-04-04 GB GB2305010.7A patent/GB2620467A/en active Pending
- 2023-04-20 DE DE102023110001.7A patent/DE102023110001A1/de active Pending
- 2023-04-24 AU AU2023202477A patent/AU2023202477A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20240005574A1 (en) | 2024-01-04 |
GB202305010D0 (en) | 2023-05-17 |
GB2620467A (en) | 2024-01-10 |
DE102023110001A1 (de) | 2024-01-04 |
AU2023202477A1 (en) | 2024-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11790581B2 (en) | Transferring hairstyles between portrait images utilizing deep latent representations | |
US11651477B2 (en) | Generating an image mask for a digital image by utilizing a multi-branch masking pipeline with neural networks | |
US11393100B2 (en) | Automatically generating a trimap segmentation for a digital image by utilizing a trimap generation neural network | |
Zhang et al. | Personal photograph enhancement using internet photo collections | |
US20210272253A1 (en) | Automatically merging people and objects from multiple digital images to generate a composite digital image | |
US20230123820A1 (en) | Generating animated digital videos utilizing a character animation neural network informed by pose and motion embeddings | |
US11308628B2 (en) | Patch-based image matting using deep learning | |
US20230274400A1 (en) | Automatically removing moving objects from video streams | |
Yu et al. | Artificial intelligence for Dunhuang cultural heritage protection: the project and the dataset | |
US20230086807A1 (en) | Segmented differentiable optimization with multiple generators | |
US11861762B2 (en) | Generating synthesized digital images utilizing class-specific machine-learning models | |
Tous | Pictonaut: movie cartoonization using 3D human pose estimation and GANs | |
US20230298148A1 (en) | Harmonizing composite images utilizing a transformer neural network | |
US20230353701A1 (en) | Removing objects at image capture time | |
US20230145498A1 (en) | Image reprojection and multi-image inpainting based on geometric depth parameters | |
US20230135978A1 (en) | Generating alpha mattes for digital images utilizing a transformer-based encoder-decoder | |
US20240005574A1 (en) | Applying object-aware style transfer to digital images | |
US20240144520A1 (en) | Generating three-dimensional human models representing two-dimensional humans in two-dimensional images | |
US20240144586A1 (en) | Generating shadows for objects in two-dimensional images utilizing a plurality of shadow maps | |
US20240144623A1 (en) | Modifying poses of two-dimensional humans in two-dimensional images by reposing three-dimensional human models representing the two-dimensional humans | |
US20240127509A1 (en) | Generating scale fields indicating pixel-to-metric distances relationships in digital images via neural networks | |
US20230342893A1 (en) | Transferring faces between digital images by combining latent codes utilizing a blending network | |
US20240135612A1 (en) | Generating shadows for placed objects in depth estimated scenes of two-dimensional images | |
US20230132180A1 (en) | Upsampling and refining segmentation masks | |
US20240135561A1 (en) | Modifying digital images via depth-aware object move |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |