CN117689772A - 一种基于潜空间特征融合的物体背景合成方法和系统 - Google Patents
一种基于潜空间特征融合的物体背景合成方法和系统 Download PDFInfo
- Publication number
- CN117689772A CN117689772A CN202311804871.4A CN202311804871A CN117689772A CN 117689772 A CN117689772 A CN 117689772A CN 202311804871 A CN202311804871 A CN 202311804871A CN 117689772 A CN117689772 A CN 117689772A
- Authority
- CN
- China
- Prior art keywords
- feature vector
- image
- feature
- initial
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 43
- 238000001308 synthesis method Methods 0.000 title claims abstract description 18
- 239000013598 vector Substances 0.000 claims abstract description 241
- 238000009792 diffusion process Methods 0.000 claims abstract description 65
- 238000000605 extraction Methods 0.000 claims abstract description 65
- 238000012545 processing Methods 0.000 claims abstract description 44
- 238000000034 method Methods 0.000 claims description 35
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 230000015572 biosynthetic process Effects 0.000 claims description 11
- 238000003708 edge detection Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 11
- 238000003786 synthesis reaction Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 6
- 230000002194 synthesizing effect Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 12
- 238000012549 training Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000007500 overflow downdraw method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及图像融合技术领域。本发明提供了一种基于潜空间特征融合的物体背景合成方法包括获取第一图像和第一文本特征向量;利用初始特征提取网络对第一图像进行处理,得到第一图像边缘特征;对第一图像边缘特征进行处理,得到第一特征向量和第二特征向量;将第一特征向量与随机噪声融合,得到第三特征向量;将第一文本特征向量、第二特征向量和第三特征向量输入初始一致性模型或初始扩散模型的U‑Net网络中,得到目标图像;将目标图像和第一图像进行比对,根据比对结果更新初始特征提取网络、以及初始一致性模型或初始扩散模型,得到目标特征提取网络、以及目标一致性模型或目标扩散模型。
Description
技术领域
本发明涉及图像融合技术领域,尤其是涉及一种基于潜空间特征融合的物体背景合成方法和系统。
背景技术
基于文本进行图像生成、基于文本进行图像修改、基于图像进行图像生成、基于图像进行局部修改等技术已被广泛采用。这类技术方案具有泛化性强、生成质量高的特性,因此受到了广泛关注和研究。
这类技术虽然能够实现图像内容的合成和编辑,但在处理图像细节方面仍存在局限性。特别是在物体背景合成领域,现有技术方案存在两个显著缺点:一是在大范围的图像内容补全的过程中难以感知原有内容,二是补全之后往往存在边缘模糊的问题。
发明内容
本发明提供一种基于潜空间特征融合的物体背景合成方法,能够解决现有物体背景合成边缘模糊的问题。
本发明第一方面,提供一种基于潜空间特征融合的物体背景合成方法,包括:
S100,获取第一图像和第一文本特征向量,其中,所述第一图像表示在数据库中随机获取的图像,所述第一文本特征向量表示用户输入的第一文本转换的向量;
S200,利用初始特征提取网络对所述第一图像进行处理,得到第一图像边缘特征;
S300,对所述第一图像边缘特征进行处理,得到第一特征向量和第二特征向量,其中,所述第一特征向量和所述第二特征向量均表示第一图像边缘特征的特征向量;
S400,将所述第一特征向量与随机噪声融合,得到第三特征向量;
S500,将所述第一文本特征向量、所述第二特征向量和所述第三特征向量输入初始一致性模型或初始扩散模型的U-Net网络中,得到目标图像;
S600,将所述目标图像和所述第一图像进行比对,根据比对结果更新所述初始特征提取网络、以及所述初始一致性模型或所述初始扩散模型,得到目标特征提取网络、以及目标一致性模型或目标扩散模型。
可实施的一些方式中,所述获取第一图像和第一文本特征向量的步骤包括:
S101,在数据库中随机获取图像,得到所述第一图像;
S102,获取所述用户输入的所述第一文本;
S103,利用CLIP模型,对所述第一文本进行处理,得到所述第一文本特征向量。
可实施的一些方式中,所述对所述第一图像进行边缘特征提取,得到第一图像边缘特征的步骤包括:
S201,利用边缘检测算法对所述第一图像进行边缘处理,得到所述第一图像的边缘图像;
S202,利用所述初始特征提取网络对所述边缘图像进行特征提取,得到所述第一图像边缘特征。
可实施的一些方式中,所述对所述第一图像边缘特征进行处理,得到第一特征向量和第二特征向量的步骤包括:
获取潜空间,将所述第一图像边缘特征映射到潜空间,得到与所述潜空间大小一致的所述第一特征向量;
根据第一文本特征向量,对所述第一图像边缘特征进行处理,得到与所述第一文本特征向量大小一致的第二特征向量。
可实施的一些方式中,所述将所述第一特征向量与随机噪声融合,得到第三特征向量的步骤包括:
S401,获取所述随机噪声;
S402,将所述第一特征向量与所述随机噪声进行融合,得到所述第三特征向量,其中,所述第三特征向量表示与所述第一文本特征向量大小一致的特征向量。
可实施的一些方式中,所述将所述第一文本特征向量、所述第二特征向量和所述第三特征向量输入初始一致性模型或初始扩散模型的U-Net网络中,得到目标图像的步骤包括:
S501,将所述第一文本特征向量、所述第二特征向量和所述第三特征向量输入所述初始一致性模型或所述初始扩散模型的U-Net网络中,赋予所述第一文本特征向量、所述第二特征向量和所述第三特征向量权重值;
S502,根据赋予所述第一文本特征向量、所述第二特征向量和所述第三特征向量权重值进行处理,得到目标特征向量;
S503,利用所述目标特征向量,得到所述目标图像。
可实施的一些方式中,所述将所述目标图像和所述第一图像进行比对,根据比对结果更新所述初始特征提取网络、以及所述初始一致性模型或所述初始扩散模型,得到目标特征提取网络、以及目标一致性模型或目标扩散模型的步骤包括:
S601,利用所述目标图像和所述第一图像,计算损失函数,得到差异值;
S602,根据预设的梯度下降优化算法,更新所述初始特征提取网络、以及所述初始一致性模型或所述初始扩散模型的U-Net网络的参数权重,并循环执行步骤S100至S500,直至达到预设的最大迭代次数或所述损失函数收敛,得到所述目标特征提取网络、以及所述目标一致性模型或所述目标扩散模型。
本申请第二方面,提供一种基于潜空间特征融合的物体背景合成系统,应用于前述的基于潜空间特征融合的物体背景合成方法,所述系统包括:
获取模块,用于获取第一图像和第一文本特征向量,其中,所述第一图像表示在数据库中随机获取的图像,所述第一文本特征向量表示用户输入的第一文本转换的向量;
特征提取模块,用于利用初始特征提取网络对所述第一图像进行处理,得到第一图像边缘特征;
特征提取模块,还用于对所述第一图像边缘特征进行处理,得到第一特征向量和第二特征向量,其中,所述第一特征向量和所述第二特征向量均表示第一图像边缘特征的特征向量;
融合模块,用于将所述第一特征向量与随机噪声融合,得到第三特征向量;
输入模块,用于将所述第一文本特征向量、所述第二特征向量和所述第三特征向量输入初始一致性模型或初始扩散模型的U-Net网络中,得到目标图像;
结果模块,用于将所述目标图像和所述第一图像进行比对,根据比对结果更新所述初始特征提取网络、以及所述初始一致性模型或所述初始扩散模型,得到目标特征提取网络、以及目标一致性模型或目标扩散模型。
本申请第三方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行前述的基于潜空间特征融合的物体背景合成方法。
本申请第四方面,提供一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器执行前述的基于潜空间特征融合的物体背景合成方法。
本发明有益效果:
本申请一种基于潜空间特征融合的物体背景合成方法,首先,获取第一图像和第一文本特征向量,其中,第一图像表示在数据库中随机获取的图像,第一文本特征向量表示用户输入的第一文本转换的向量;其次,利用初始特征提取网络对第一图像进行处理,得到第一图像边缘特征;然后,对第一图像边缘特征进行处理,得到第一特征向量和第二特征向量,其中,第一特征向量和第二特征向量均表示第一图像边缘特征的特征向量;接下来,将第一特征向量与随机噪声融合,得到第三特征向量;将第一文本特征向量、第二特征向量和第三特征向量输入初始一致性模型或初始扩散模型的U-Net网络中,得到目标图像;最后,将目标图像和第一图像进行比对,根据比对结果更新初始特征提取网络、以及初始一致性模型或初始扩散模型,得到目标特征提取网络、以及目标一致性模型或目标扩散模型。利用边缘特征与随机噪声形成特征向量,并将这一特征向量与文本特征向量和边缘特征向量进行融合,在保证一致性模型或扩散模型感知全局内容的同时,增强了对局部细节的处理能力。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于潜空间特征融合的物体背景合成方法的流程图;
图2为本发明一种基于潜空间特征融合的物体背景合成方法的总体流程图;
图3为本发明一种基于潜空间特征融合的物体背景合成方法的用户使用步骤流程图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面对本申请所涉及的一些名称进行解释,以便了解本申请:
扩散模型,是指一类生成模型,模拟物质从高浓度区域向低浓度区域扩散的过程。
一致性模型,是指一类生成模型,在常微分方程的指导下通过一步计算完成整个扩散模型的过程。
CLIP模型,Contrastive Language-Image Pretraining模型,是指用于跨模态的图像和文本理解任务,通过将图像和文本编码到共享的向量空间中,实现了图像和文本之间的语义对齐。
U-Net模型,U-Net:Convolutional Networks for Biomedical ImageSegmentation模型,是指用于图像分割的神经网络模型,利用“跳跃连接”的方式连接着编码器和解码器之间相同层级,使得网络可以同时利用低层次和高层次的特征信息。这种“跳跃连接”使得解码器可以利用编码器中更高级别的特征,从而更好地恢复原始图像的细节信息。
边缘检测算法,是指在数字图像处理中,通过对图像进行分析和处理,识别出图像中物体边缘的技术。其中,边缘指的是图像中灰度值或颜色发生剧烈变化的地方,代表了物体的轮廓和纹理信息。而边缘检测算法的目标是提取出图像中的边缘,并将其表示为一组离散的像素点或曲线。
特征提取网络,是指深度学习中的一类神经网络,主要用于抽取输入图像或数据中的重要特征,以便进行后续的分类、检测、分割等任务。特征提取网络通常由多个卷积层和池化层组成,通过对输入进行多次卷积和池化操作,逐渐减小空间尺寸,并提取出越来越抽象、高级别的特征。特征提取网络中包含有若干参数,这些参数通常包括卷积层的权重参数和偏置项参数。
随着基于一致性模型和扩散模型的深度生成模型发展,通过文本进行图像生成、文本进行图像修改、图像进行图像生成、图像进行局部修改等技术已被广泛采用。这类技术方案具有泛化性强、生成质量高的特性,但是也存在缺点,尤其在处理图像细节方面,特别是在物体背景合成领域。具体体现在,大范围的图像内容补全过程中难以感知原有内容,二是补全之后往往存在边缘模糊的问题。
例如,电商商品图生成、照片背景替换等场景,将商品拍成图后,需要对这一商品进行背景生成,或者背景替换时,往往会因为商品的边缘模糊,导致生成的图片效果差。
有鉴于此,本申请提出一种基于潜空间特征融合的物体背景合成方法,在现有一致性模型和扩散模型的框架下,将图像内容特征和图像边缘特征对齐到潜空间中,使一致性模型和扩散模型既感知图像整体内容,也精确保留关键边缘信息,从而生成质量更高的物体背景图像。
如图1和图2所示,本申请第一方面提供一种基于潜空间特征融合的物体背景合成方法,包括:
S100,获取第一图像和第一文本特征向量。
其中,第一图像表示在数据库中随机获取的图像,第一文本特征向量表示用户输入的第一文本转换的向量。
具体地,获取第一图像和第一文本特征向量包括步骤S101至S103。
S101,在数据库中随机获取图像,得到第一图像。
S102,获取用户输入的第一文本。
S103,利用CLIP模型,对第一文本进行处理,得到第一文本特征向量。
其中,可以预先建立数据库,或者建立数据库,数据库中存储若干图像。当需要使用图像时,在数据库中随机选取一张图像。为了最终生成的图片符合用户的预期,或者说与用户对齐,需要用户输入文本,以便根据用户输入的文本生成图像。
得到图像和第一文本后,利用CLIP模型,对第一文本进行处理,这样,能够得到第一文本对应的第一文本特征向量。
S200,利用初始特征提取网络对第一图像进行处理,得到第一图像边缘特征。
其中,在前述步骤中得到第一图像,这一图像为随机的图像,用于对基于潜空间特征融合的物体背景合成方法。在训练前,首先对第一图像进行特征提取,以便得到第一图像边缘特征。
具体地,得到第一图像边缘特征包括步骤S201和S202。
S201,利用边缘检测算法对第一图像进行边缘处理,得到第一图像的边缘图像。
S202,利用初始特征提取网络对边缘图像进行特征提取,得到第一图像边缘特征。
其中,若想得到第一图像边缘特征,首先要对第一图像的边缘进行处理,具体地处理方法,可以利用边缘检测算法,对第一图像的边缘进行处理,从而得到第一图像的边缘图像。接下来,再对边缘图像进行特征提取,特征提取可使用特征提取网络来实现,也就是说,将边缘图像作为RGB的图像,输入初始特征提取网络,待初始特征提取网络处理后,得到第一图像边缘特征。
需要说明地是,边缘检测算法可以根据需要选用其他的边缘检测算法,例如,Canny算子提取图像边缘。本申请对此并不加以限定,能够对图像进行处理,得到图像的边缘图像即可。
S300,对第一图像边缘特征进行处理,得到第一特征向量和第二特征向量。
其中,第一特征向量和第二特征向量均表示第一图像边缘特征的特征向量。
具体地,得到第一特征向量和第二特征向量包括步骤S301和S302。
S301,获取潜空间,将第一图像边缘特征映射到潜空间,得到与潜空间大小一致的第一特征向量。
S302,根据第一文本特征向量,对第一图像边缘特征进行处理,得到与第一文本特征向量大小一致的第二特征向量。
其中,第一特征向量表示与潜空间大小一致的特征向量,即根据潜空间的大小形成第一特征向量,且映射到潜空间的第一图像边缘特征与第一图像的特征对齐;第二特征向量表示与第一文本特征向量大小一致的特征向量,即根据第一文本特征向量形成第二特征向量。
第一特征向量和第二特征向量的大小进行如此设置,能够方便边缘特征更好地融合到生成图像的过程中,提高处理速度。也就是说,利用初始特征提取网络提取到第一图像边缘特征后,对第一图像边缘特征进行转换,分别得到均能够表示第一图像边缘特征的第一特征向量和第二特征向量。
S400,将第一特征向量与随机噪声融合,得到第三特征向量。
其中,在第一特征向量中加入随机噪声融合后,得到的结果具有多样性,避免一致性模型或扩散模型的U-Net网络过渡拟合,输出的结果单一,同时,也能够获得更多样化的输出结果。
具体地,得到第三特征向量包括步骤S401和S402。
S401,获取随机噪声。
S402,将第一特征向量与随机噪声进行融合,得到第三特征向量。
其中,第三特征向量表示与第一文本特征向量大小一致的特征向量。随机噪声可以利用高斯分布来实现。本申请对于如何形成随机噪声并不加以限定。
具体地,第一特征向量和随机噪声进行融合所采用的方法,可以根据需要进行设定,本申请对融合的方法并不加以限定。例如,第一特征向量和随机噪声采用加权融合,也就是说,将第一特征向量和随机噪声按照一定的权重进行线性组合,得到一个融合后的向量,即第三特征向量。其中,权重可以根据需求来确定。
S500,将第一文本特征向量、第二特征向量和第三特征向量输入初始一致性模型或初始扩散模型的U-Net网络中,得到目标图像。
其中,在得到第一文本特征向量、第二特征向量和第三特征向量后,将第一文本特征向量、第二特征向量和第三特征向量分别输入初始一致性模型或初始扩散模型的U-Net网络中,利用初始一致性模型或初始扩散模型U-Net网络中进行处理,从而得到目标图像。
具体地,得到目标图像包括步骤S501至S503。
S501,将第一文本特征向量、第二特征向量和第三特征向量输入初始一致性模型或初始扩散模型的U-Net网络中,赋予第一文本特征向量、第二特征向量和第三特征向量权重值。
S502,根据赋予第一文本特征向量、第二特征向量和第三特征向量权重值进行处理,得到目标特征向量。
S503,利用目标特征向量,得到目标图像。
其中,第一文本特征向量、第二特征向量和第三特征向量三个特征向量,可以输入初始一致性模型或初始扩散模型的U-Net网络之后,也可以在输入初始一致性模型或初始扩散模型的U-Net网络之前,分别赋予第一文本特征向量、第二特征向量和第三特征向量权重值。对于第一文本特征向量、第二特征向量和第三特征向量的权重值,可以根据需要进行设定本申请对此并不加以限定。
赋予第一文本特征向量、第二特征向量和第三特征向量权重值后,根据向量融合的方法,对第一文本特征向量、第二特征向量和第三特征向量进行融合,融合的方法本申请并不加以限定,例如,采用加权融合。将多个向量按照一定的权重进行线性组合,得到一个融合后的新的向量。再将这一新的向量在初始一致性模型或初始扩散模型的U-Net网络中进行处理,得到目标图像。
S600,将目标图像和第一图像进行比对,根据比对结果更新初始特征提取网络、以及初始一致性模型或初始扩散模型,得到目标特征提取网络、以及目标一致性模型或目标扩散模型。
其中,得到目标特征提取网络、以及目标一致性模型或目标扩散模型包括步骤S601和S602。
S601,利用目标图像和第一图像,计算损失函数,得到差异值。
S602,根据预设的梯度下降优化算法,更新初始特征提取网络、以及初始一致性模型或初始扩散模型的参数权重,并循环执行步骤S100至S500,直至达到预设的最大迭代次数或损失函数收敛,得到目标特征提取网络、以及目标一致性模型或目标扩散模型。
其中,在前述步骤中得到的目标图像,是根据第一图像和第一文本特征向量通过扩散模型的U-Net网络生成的图像,接下来,需要将目标图像与第一图像进行差异比对,示例性地,差异比对可以使用平方损失误差方法,来衡量两者间的差异,平方损失误差方法是将差异值都映射到正数范围内,使得较大的差异值在计算中被放大,以更加敏感地反映目标图像与第一图像之间的差异程度。
接下来,根据差异程度,以预设的梯度下降优化算法对初始特征提取网络、以及初始一致性模型或初始扩散模型的U-Net网络的参数权重进行调整。也就是说,在得到差异程度后,根据预设的梯度下降优化算法的梯度步长,来对初始特征提取网络、以及初始一致性模型或初始扩散模型的U-Net网络的参数权重进行调整,当调整完成后,即为完成训练过程中的一步,接下来,再次重复步骤S100至S500,这样,再根据调整步长后,初始特征提取网络、以及初始一致性模型或初始扩散模型的U-Net网络中得到的下一差异程度,然后,再根据下一差异程度,以预设的步长对初始特征提取网络、以及初始一致性模型或初始扩散模型的U-Net网络进行调整,调整结束可以根据预设的最大迭代次数结束,也可以根据损失函数值收敛的情况来训练结束,即重复上述过程若干步后,即可完成一次训练过程。最终,得到目标特征提取网络、以及目标一致性模型或目标扩散模型。
如图3所示,示例性地,完成上述训练过程后,用户即可进行图像合成。具体如下:
步骤1、用户输入第二文本和商品图,其中,商品图为没有背景的商品图,也可称作物体图像。
步骤2、在CLIP模型中提取第二文本,生成第二文本特征向量,以及利用图像编码器对商品图进行图像特征提取,并将图像特征映射到潜空间中;边缘检测算法对商品图的边缘进行处理,得到第二图像的边缘图像,并利用图像编码器对第二图像的边缘图像进行特征提取,得到第二图像边缘特征,其中,图像编码器表示目标特征提取网络。
步骤3、对应得到第二图像边缘特征的第一特征向量和第二特征向量。
步骤4、将第一特征向量和映射到潜空间中的图像特征进行融合,得到特征融合。
步骤5、根据特征融合,在非物体部分添加随机噪声,其中,这一随机噪声是在第二文本特征向量控制下生成的噪声。
步骤6、将第二文本特征向量、在非物体部分添加随机噪声和第二特征向量输入目标一致性模型或目标扩散模型。
步骤7、得到生成图像。
需要说明地是,利用第二文本控制随机噪声,生成的为第二图像的背景,这样,将背景与第二图像结合,即可得到具有背景的商品图。另外,此处的第一特征向量和第二特征向量是根据商品图的图像边缘生成的第一特征向量和第二特征向量,并非根据第一图像的图像边缘生成的第一特征向量和第二特征向量,此处为了方便理解,使用了相同的名称。经过这样的优化,目标一致性模型或目标扩散模型能够感知物体的内容,并确保物体边缘能够被正确的保留。
综上所述,本申请提供的一种基于潜空间特征融合的物体背景合成方法,适用于电商商品图生成、照片背景替换等场景,通过一个额外的特征提取网络的训练,让一致性模型或扩散模型能够感知物体内容和边缘,保证生成结果的质量和合理性,同时也避免了大规模预训练模型的重复训练。
本申请提供的一种基于潜空间特征融合的物体背景合成方法,通过边缘检测算法的设计与融合,在保证一致性模型感知全局内容的同时,增强了对局部细节的处理能力。应用于商品图生成、图片编辑等效果更好,具有以下创新点:
1.提出图像特征和边缘特征共同增强一致性模型或扩散模型框架的方法。利用图像特征、边缘特征和特征融合来提升一致性模型或扩散模型处理图像细节的能力。
2.设计边缘特征网络(边缘检测和特征提取网络),使边缘特征成为可用于图像重建的有效特征,为后续特征融合提供支撑。
3.商品图内容特征与边缘特征多源融合。在潜空间中实现内容特征和边缘特征的对齐和融合,相互补充,增强一致性模型或扩散模型的表达能力,是实现细节生成的关键。
4.基于边缘特征,一致性模型或扩散模型在保证全局内容一致性的同时,局部细节还原更加精细准确,细节生成质量显著提高,生成图像效果显著提升。
本申请第二方面,提供一种基于潜空间特征融合的物体背景合成系统,应用于前述的基于潜空间特征融合的物体背景合成方法,系统包括:
获取模块,用于获取第一图像和第一文本特征向量,其中,第一图像表示在数据库中随机获取的图像,第一文本特征向量表示用户输入的第一文本转换的向量;
特征提取模块,用于利用初始特征提取网络对第一图像进行处理,得到第一图像边缘特征;
特征提取模块,还用于对第一图像边缘特征进行处理,得到第一特征向量和第二特征向量,其中,第一特征向量和第二特征向量均表示第一图像边缘特征的特征向量;
融合模块,用于将第一特征向量与随机噪声融合,得到第三特征向量;
输入模块,用于将第一文本特征向量、第二特征向量和第三特征向量输入初始一致性模型或初始扩散模型的U-Net网络中,得到目标图像;
结果模块,用于将目标图像和第一图像进行比对,根据比对结果更新初始特征提取网络、以及初始一致性模型或初始扩散模型,得到目标特征提取网络、以及目标一致性模型或目标扩散模型。
本申请第三方面,提供一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使计算机执行前述的基于潜空间特征融合的物体背景合成方法。
本申请第四方面,提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器执行前述的基于潜空间特征融合的物体背景合成方法。
在本发明实施例的描述中,所属技术领域的技术人员应当知道,本发明实施例可以实现为方法、装置、电子设备及计算机可读存储介质。因此,本发明实施例可以具体实现为以下形式:完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、硬件和软件结合的形式。此外,在一些实施例中,本发明实施例还可以实现为在一个或多个计算机可读存储介质中的计算机程序产品的形式,该计算机可读存储介质中包含计算机程序代码。
上述计算机可读存储介质可以采用一个或多个计算机可读存储介质的任意组合。计算机可读存储介质包括:电、磁、光、电磁、红外或半导体的系统、装置或器件,或者以上任意的组合。计算机可读存储介质更具体的例子包括:便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、闪存(Flash Memory)、光纤、光盘只读存储器(CD-ROM)、光存储器件、磁存储器件或以上任意组合。在本发明实施例中,计算机可读存储介质可以是任意包含或存储程序的有形介质,该程序可以被指令执行系统、装置、器件使用或与其结合使用。
上述计算机可读存储介质包含的计算机程序代码可以用任意适当的介质传输,包括:无线、电线、光缆、射频(Radio Frequency,RF)或者以上任意合适的组合。
可以以汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言,例如:Java、Smalltalk、C++,还包括常规的过程式程序设计语言,例如:C语言或类似的程序设计语言。计算机程序代码可以完全的在用户计算机上执行、部分的在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行以及完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括:局域网(LAN)或广域网(WAN),可以连接到用户计算机,也可以连接到外部计算机。
本发明实施例通过流程图和/或方框图描述所提供的方法、装置、电子设备。
应当理解,流程图和/或方框图的每个方框以及流程图和/或方框图中各方框的组合,都可以由计算机可读程序指令实现。这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而生产出一种机器,这些计算机可读程序指令通过计算机或其他可编程数据处理装置执行,产生了实现流程图和/或方框图中的方框规定的功能/操作的装置。
也可以将这些计算机可读程序指令存储在能使得计算机或其他可编程数据处理装置以特定方式工作的计算机可读存储介质中。这样,存储在计算机可读存储介质中的指令就产生出一个包括实现流程图和/或方框图中的方框规定的功能/操作的指令装置产品。
也可以将计算机可读程序指令加载到计算机、其他可编程数据处理装置或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其他可编程数据处理装置上执行的指令能够提供实现流程图和/或方框图中的方框规定的功能/操作的过程。
本发明实施例的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述对象的特定顺序。例如,第一目标对象和第二目标对象等是用于区别不同的目标对象,而不是用于描述目标对象的特定顺序。
在本发明实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
在本发明实施例的描述中,除非另有说明,“多个”的含义是指两个或两个以上。例如,多个处理单元是指两个或两个以上的处理单元;多个系统是指两个或两个以上的系统。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种基于潜空间特征融合的物体背景合成方法,其特征在于,方法包括:
S100,获取第一图像和第一文本特征向量,其中,所述第一图像表示在数据库中随机获取的图像,所述第一文本特征向量表示用户输入的第一文本转换的向量;
S200,利用初始特征提取网络对所述第一图像进行处理,得到第一图像边缘特征;
S300,对所述第一图像边缘特征进行处理,得到第一特征向量和第二特征向量,其中,所述第一特征向量和所述第二特征向量均表示第一图像边缘特征的特征向量;
S400,将所述第一特征向量与随机噪声融合,得到第三特征向量;
S500,将所述第一文本特征向量、所述第二特征向量和所述第三特征向量输入初始一致性模型或初始扩散模型的U-Net网络中,得到目标图像;
S600,将所述目标图像和所述第一图像进行比对,根据比对结果更新所述初始特征提取网络、以及所述初始一致性模型或所述初始扩散模型,得到目标特征提取网络、以及目标一致性模型或目标扩散模型。
2.根据权利要求1所述的基于潜空间特征融合的物体背景合成方法,其特征在于,所述获取第一图像和第一文本特征向量的步骤包括:
S101,在数据库中随机获取图像,得到所述第一图像;
S102,获取所述用户输入的所述第一文本;
S103,利用CLIP模型,对所述第一文本进行处理,得到所述第一文本特征向量。
3.根据权利要求1所述的基于潜空间特征融合的物体背景合成方法,其特征在于,所述对所述第一图像进行边缘特征提取,得到第一图像边缘特征的步骤包括:
S201,利用边缘检测算法对所述第一图像进行边缘处理,得到所述第一图像的边缘图像;
S202,利用所述初始特征提取网络对所述边缘图像进行特征提取,得到所述第一图像边缘特征。
4.根据权利要求1所述的基于潜空间特征融合的物体背景合成方法,其特征在于,所述对所述第一图像边缘特征进行处理,得到第一特征向量和第二特征向量的步骤包括:
获取潜空间,将所述第一图像边缘特征映射到潜空间,得到与所述潜空间大小一致的所述第一特征向量;
根据第一文本特征向量,对所述第一图像边缘特征进行处理,得到与所述第一文本特征向量大小一致的第二特征向量。
5.根据权利要求1所述的基于潜空间特征融合的物体背景合成方法,其特征在于,所述将所述第一特征向量与随机噪声融合,得到第三特征向量的步骤包括:
S401,获取所述随机噪声;
S402,将所述第一特征向量与所述随机噪声进行融合,得到所述第三特征向量,其中,所述第三特征向量表示与所述第一文本特征向量大小一致的特征向量。
6.根据权利要求5所述的基于潜空间特征融合的物体背景合成方法,其特征在于,所述将所述第一文本特征向量、所述第二特征向量和所述第三特征向量输入初始一致性模型或初始扩散模型的U-Net网络中,得到目标图像的步骤包括:
S501,将所述第一文本特征向量、所述第二特征向量和所述第三特征向量输入所述初始一致性模型或所述初始扩散模型的U-Net网络中,赋予所述第一文本特征向量、所述第二特征向量和所述第三特征向量权重值;
S502,根据赋予所述第一文本特征向量、所述第二特征向量和所述第三特征向量权重值进行处理,得到目标特征向量;
S503,利用所述目标特征向量,得到所述目标图像。
7.根据权利要求1所述的基于潜空间特征融合的物体背景合成方法,其特征在于,所述将所述目标图像和所述第一图像进行比对,根据比对结果更新所述初始特征提取网络、以及所述初始一致性模型或所述初始扩散模型,得到目标特征提取网络、以及目标一致性模型或目标扩散模型的步骤包括:
S601,利用所述目标图像和所述第一图像,计算损失函数,得到差异值;
S602,根据预设的梯度下降优化算法,更新所述初始特征提取网络、以及所述初始一致性模型或所述初始扩散模型的U-Net网络的参数权重,并循环执行步骤S100至S500,直至达到预设的最大迭代次数或所述损失函数收敛,得到所述目标特征提取网络、以及所述目标一致性模型或所述目标扩散模型。
8.一种基于潜空间特征融合的物体背景合成系统,其特征在于,应用于权利要求1-7中任一项所述的基于潜空间特征融合的物体背景合成方法,所述系统包括:
获取模块,用于获取第一图像和第一文本特征向量,其中,所述第一图像表示在数据库中随机获取的图像,所述第一文本特征向量表示用户输入的第一文本转换的向量;
特征提取模块,用于利用初始特征提取网络对所述第一图像进行处理,得到第一图像边缘特征;
特征提取模块,还用于对所述第一图像边缘特征进行处理,得到第一特征向量和第二特征向量,其中,所述第一特征向量和所述第二特征向量均表示第一图像边缘特征的特征向量;
融合模块,用于将所述第一特征向量与随机噪声融合,得到第三特征向量;
输入模块,用于将所述第一文本特征向量、所述第二特征向量和所述第三特征向量输入初始一致性模型或初始扩散模型的U-Net网络中,得到目标图像;
结果模块,用于将所述目标图像和所述第一图像进行比对,根据比对结果更新所述初始特征提取网络、以及所述初始一致性模型或所述初始扩散模型,得到目标特征提取网络、以及目标一致性模型或目标扩散模型。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-7任意一项所述的基于潜空间特征融合的物体背景合成方法。
10.一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-7任意一项所述的基于潜空间特征融合的物体背景合成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311804871.4A CN117689772A (zh) | 2023-12-25 | 2023-12-25 | 一种基于潜空间特征融合的物体背景合成方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311804871.4A CN117689772A (zh) | 2023-12-25 | 2023-12-25 | 一种基于潜空间特征融合的物体背景合成方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117689772A true CN117689772A (zh) | 2024-03-12 |
Family
ID=90135177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311804871.4A Pending CN117689772A (zh) | 2023-12-25 | 2023-12-25 | 一种基于潜空间特征融合的物体背景合成方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117689772A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118379401A (zh) * | 2024-06-25 | 2024-07-23 | 中国科学技术大学 | 说话人视频合成方法、系统、设备及存储介质 |
-
2023
- 2023-12-25 CN CN202311804871.4A patent/CN117689772A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118379401A (zh) * | 2024-06-25 | 2024-07-23 | 中国科学技术大学 | 说话人视频合成方法、系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109215080B (zh) | 基于深度学习迭代匹配的6d姿态估计网络训练方法及装置 | |
CN109816589B (zh) | 用于生成漫画风格转换模型的方法和装置 | |
WO2021027759A1 (en) | Facial image processing | |
CN113850916A (zh) | 模型训练、点云缺失补全方法、装置、设备及介质 | |
CN108389172B (zh) | 用于生成信息的方法和装置 | |
CN110570426A (zh) | 使用深度学习的图像联合配准和分割 | |
CN117689772A (zh) | 一种基于潜空间特征融合的物体背景合成方法和系统 | |
CN112686830B (zh) | 基于图像分解的单一深度图的超分辨率方法 | |
CN114187624A (zh) | 图像生成方法、装置、电子设备及存储介质 | |
AU2021377685A9 (en) | Systems and methods for artificial facial image generation conditioned on demographic information | |
CN114004766A (zh) | 一种水下图像增强方法、系统和设备 | |
CN117011156A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN111626379A (zh) | 肺炎x光图像检测方法 | |
CN117372604B (zh) | 一种3d人脸模型生成方法、装置、设备及可读存储介质 | |
CN113240699B (zh) | 图像处理方法及装置,模型的训练方法及装置,电子设备 | |
CN117935259A (zh) | 一种多模态遥感图像分割装置及方法 | |
CN116958766B (zh) | 图像处理方法及计算机可读存储介质 | |
CN117094895B (zh) | 图像全景拼接方法及其系统 | |
CN111311722B (zh) | 信息处理方法及装置、电子设备和存储介质 | |
CN116524070A (zh) | 一种基于文本的场景图片编辑方法及系统 | |
CN114565953A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN111932466A (zh) | 一种图像去雾方法、电子设备及存储介质 | |
CN116403142A (zh) | 视频处理方法、装置、电子设备及介质 | |
CN116051813A (zh) | 全自动智能腰椎定位与识别方法及应用 | |
CN116977195A (zh) | 复原模型的调整方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |