CN117557708A - 图像生成方法、装置、存储介质及计算机设备 - Google Patents
图像生成方法、装置、存储介质及计算机设备 Download PDFInfo
- Publication number
- CN117557708A CN117557708A CN202311528881.XA CN202311528881A CN117557708A CN 117557708 A CN117557708 A CN 117557708A CN 202311528881 A CN202311528881 A CN 202311528881A CN 117557708 A CN117557708 A CN 117557708A
- Authority
- CN
- China
- Prior art keywords
- map
- sample
- noise
- target
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 238000003860 storage Methods 0.000 title claims description 22
- 238000012549 training Methods 0.000 claims description 78
- 238000012545 processing Methods 0.000 claims description 61
- 238000010586 diagram Methods 0.000 claims description 39
- 238000000605 extraction Methods 0.000 claims description 33
- 238000004590 computer program Methods 0.000 claims description 26
- 238000009826 distribution Methods 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 21
- 238000013461 design Methods 0.000 abstract description 17
- 238000013473 artificial intelligence Methods 0.000 abstract description 16
- 238000005516 engineering process Methods 0.000 description 25
- 230000006870 function Effects 0.000 description 17
- 230000000694 effects Effects 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000013500 data storage Methods 0.000 description 5
- 238000009792 diffusion process Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 5
- 230000003190 augmentative effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000033228 biological regulation Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/04—Texture mapping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Graphics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Processing Or Creating Images (AREA)
Abstract
本申请公开了一种图像生成方法,应用于人工智能、计算机视觉以及虚拟现实等场景,该方法包括:从原始纹理图中提取轮廓图和灰度图;对风格描述语句进行编码处理,得到风格描述语句的描述语句特征;由目标生成网络基于描述语句特征、轮廓图和灰度图进行图像生成,得到符合风格描述语句所指示风格的目标纹理图。本申请在生成目标纹理图的过程中,引入灰度图和风格描述语句作为生成网络输入数据的一部分,使得目标生成网络能够从原始纹理图中捕获丰富的图像信息,从而将原始纹理图上细致的纹理结构信息和颜色渐变信息保留下来。并且风格描述语句可以指导目标生成网络生成不同设计需求下的多样化的生成图像,从而提高服饰纹理图的生成质量。
Description
技术领域
本申请涉及人工智能技术领域,更具体地,涉及一种图像生成方法、装置、存储介质及计算机设备。
背景技术
人工智能生成内容(Artificial Intelligence Generated Content,AIGC)的技术在图像生成领域有着广泛的应用。其中,图像生成是指通过计算机算法和模型生成新的图像,这些图像可能是完全虚构的、艺术创作的、或者是根据现有图像进行修改和增强的。例如,基于三维服饰模型生成不同纹理的服饰图像。
服饰设计借助人工智能技术能够实现诸如虚拟试衣、服装检索等下游任务。目前,现有技术主要基于生成算法进行服饰设计,例如,基于生成对抗网络进行服装纹理的迁移与设计。然而,这类生成方法生成的服饰纹理图比较单一,生成效果较差。
发明内容
本申请实施例提供一种图像生成方法、装置、存储介质以及计算机设备。以解决相关技术中服饰纹理图的生成效果较差的问题。
一方面,本申请实施例提供一种图像生成方法,该方法包括:从原始纹理图中提取轮廓图和灰度图;对风格描述语句进行编码处理,得到风格描述语句的描述语句特征;由目标生成网络基于描述语句特征、轮廓图和灰度图进行图像生成,得到符合风格描述语句所指示风格的目标纹理图;其中,目标生成网络为基于第一噪声和第二噪声确定的目标损失对预设生成网络进行迭代训练得到;第二噪声为预设生成网络将样本图像对应的样本风格描述语句分别与样本轮廓图、样本灰度图、噪声特征图进行联合编码,并根据联合编码结果进行噪声预测得到的;样本轮廓图和样本灰度图为从样本图像中提取的;噪声特征图为对样本图像的样本特征图添加第一噪声得到的,第一噪声为基于随机分布生成的噪声。
另一方面,本申请实施例还提供一种图像生成装置,该装置包括:图像提取模块,用于从原始纹理图中提取轮廓图和灰度图;语句编码模块,用于对风格描述语句进行编码处理,得到风格描述语句的描述语句特征;图像生成模块,用于由目标生成网络基于描述语句特征、轮廓图和灰度图进行图像生成,得到符合风格描述语句所指示风格的目标纹理图,其中,目标生成网络为基于第一噪声和第二噪声确定的目标损失对预设生成网络进行迭代训练得到;第二噪声为预设生成网络将样本图像对应的样本风格描述语句分别与样本轮廓图、样本灰度图、噪声特征图进行联合编码,并根据联合编码结果进行噪声预测得到的;样本轮廓图和样本灰度图为从样本图像中提取的;噪声特征图为对样本图像的样本特征图添加第一噪声得到的,第一噪声为基于随机分布生成的噪声。
可选地,图像生成模块可以包括噪声获取单元、图像确定单元、图像生成单元、纹理确定单元以及图像迭代单元。噪声获取单元,用于获取初始噪声图;图像确定单元,用于以初始噪声图作为目标噪声图;图像生成单元,用于由目标生成网络基于描述语句特征、目标噪声图、轮廓图和灰度图进行图像生成,得到去噪纹理图;纹理确定单元,用于若去噪纹理图满足预设噪声要求,将去噪纹理图作为目标纹理图;图像迭代单元,用于若去噪纹理图不满足预设噪声要求,将去噪纹理图作为新的目标噪声图,并返回执行由目标生成网络基于描述语句特征、目标噪声图、轮廓图和灰度图进行图像生成,得到去噪纹理图的步骤。
可选地,目标生成网络包括第一编码器、第二编码器、第三编码器和解码器;图像生成单元可以具体用于:由第一编码器基于时间向量、描述语句特征和轮廓图进行编码处理,得到第一编码特征;由第二编码器基于时间向量、描述语句特征和灰度图进行编码处理,得到第二编码特征;由第三编码器基于时间向量、描述语句特征和目标噪声图进行编码处理,得到第三编码特征;基于解码器对第一编码特征、第二编码特征和第三编码特征的融合特征进行解码处理,得到去噪纹理图。
可选地,图像生成装置还可以包括样本获取模块、语句处理模块、图像获取模块、纹理提取模块、噪声添加模块、噪声预测模块、损失确定模块以及网络训练模块。样本获取模块,用于获取样本图像以及样本风格描述语句;语句处理模块,用于对样本风格描述语句进行编码处理,得到样本语句特征;图像获取模块,用于从样本图像的样本纹理图中提取样本轮廓图和样本灰度图;纹理提取模块,用于对样本图像进行特征提取,得到样本特征图;噪声添加模块,用于对样本特征图添加第一噪声,得到噪声特征图;噪声预测模块,用于由预设生成网络基于噪声特征图、样本轮廓图、样本灰度图和样本语句特征进行噪声预测,得到第二噪声;损失确定模块,用于基于第一噪声和第二噪声确定目标损失;网络训练模块,用于根据目标损失迭代更新预设生成网络的权重参数,直至达到训练结束条件,得到目标生成网络。
可选地,预设生成网络包括第一编码器、第二编码器、第三编码器以及解码器;噪声预测模块可以具体用于:由第一编码器基于样本时间向量、样本语句特征和样本轮廓图进行编码处理,得到第一编码结果;由第二编码器基于样本时间向量、样本语句特征和样本灰度图进行编码处理,得到第二编码结果;由第三编码器基于样本时间向量、样本语句特征和噪声特征图进行编码处理,得到第三编码结果;由解码器对第一编码结果、第二编码结果和第三编码结果进行解码,得到第二噪声。
可选地,网络训练模块可以具体用于基于目标损失,迭代更新预设生成网络中的第一编码器的权重参数、第二编码器的权重参数以及第三编码器的权重参数,直至达到训练结束条件,得到目标生成网络。
可选地,图像提取模块可以包括轮廓提取单元以及灰度提取单元。轮廓提取单元,用于对原始纹理图进行边缘提取,得到轮廓图;灰度提取单元,用于对原始纹理图进行灰度转换,得到灰度图。
可选地,灰度提取单元可以具体用于:从原始纹理图中获取各像素点在每个颜色通道下的颜色参数;确定各像素点在每个颜色通道对应的权重,同一像素点在多个颜色通道对应的权重之和为1;针对各像素点,基于该像素点在每个颜色通过对应的权重,将该像素点在多个颜色通道下的颜色参数进行加权,得到各像素点的目标颜色参数;根据各像素点的目标颜色参数,生成灰度图。
可选地,原始纹理图是对虚拟服饰进行纹理展开获得的;图像生成装置还可以包括纹理饭贴模块,用于根据目标纹理图进行纹理反贴,获得新的虚拟服饰。
另一方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,其中,在该计算机程序被处理器运行时执行上述的图像生成方法。
另一方面,本申请实施例还提供一种计算机设备,该计算机设备包括处理器以及存储器,存储器存储有计算机程序,该计算机程序被处理器调用时执行上述的图像生成方法。
另一方面,本申请实施例还提供一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在存储介质中;计算机设备的处理器从存储介质读取该计算机程序,处理器执行该计算机程序,使得计算机设备执行上述图像生成方法中的步骤。
本申请提供的图像生成方法,可以从原始纹理图中提取轮廓图和灰度图,并对风格描述语句进行编码处理,得到风格描述语句的描述语句特征,进而由目标生成网络基于描述语句特征、轮廓图和灰度图进行图像生成,得到符合风格描述语句所指示风格的目标纹理图。如此,通过灰度图能够表达原始纹理图的纹理信息,灰度图能够表达原始纹理图的颜色渐变信息,基于描述语句特征、轮廓图和灰度图进行图像生成,不仅能够保证所得到的目标纹理图的风格符合风格描述语句所指示风格,而且,能够使得原始纹理图上的纹理结构信息和颜色渐变信息保留在目标纹理图上,即目标纹理图和原始纹理图上的纹理信息相同,且颜色渐变信息相同。并且通过不同的风格描述语句可以指导目标生成网络生成风格多样化的纹理图像,由此可以有效解决相关技术中生成的图像比较单一的问题,提高图像生成效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请实施例提供的一种系统架构示意图。
图2示出了本申请实施例提供的一种图像生成方法的应用场景图。
图3示出了本申请实施例提供的一种图像生成方法的流程示意图。
图4示出了本申请实施例提供的一种目标生成网络的架构图。
图5示出了本申请实施例提供的一种服饰生成的流程图。
图6示出了本申请实施例提供的另一种图像生成方法的流程示意图。
图7示出了本申请实施例提供的一种预设生成网络的架构图。
图8示出了本申请实施例提供的一种图像生成的流程图。
图9示出了本申请实施例提供的一种服饰生成效果示意图。
图10是本申请实施例提供的一种图像生成装置的模块框图。
图11是本申请实施例提供的一种计算机设备的模块框图。
图12是本申请实施例提供的一种计算机可读存储介质的模块框图。
具体实施方式
下面详细描述本申请的实施方式,实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性地,仅用于解释本申请,而不能理解为对本申请的限制。
在说明书、权利要求书和上述附图所描述的一些流程中,包含了按照特定顺序出现的多个步骤,但应该清楚了解,这些步骤可以不按照其在本文中出现的顺序来执行或并行执行,步骤序号仅仅是用于区分开各个不同的步骤,序号本身不代表任何的执行顺序。此外,本文中的“第一”和“第二”等描述,是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
说明书涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
为了使本技术领域的人员更好地理解本申请的方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在本申请的具体实施方式中,涉及到的原始纹理图等相关数据,当运用到本申请实施例的具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规及标准,并且在法律法规及个人信息主体的授权范围内,开展后续数据使用及处理行为。
本申请提出的图像生成方法涉及人工智能(Artificial Intelligence,AI)技术,人工智能技术是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,深度学习(Deep Learning,DL)是机器学习的一个子问题,其主要目的是从数据中自动学习到有效的特征表示。通过多层的特征转换,把原始数据变成为更高层次、更抽象的表示。这些学习到的表示可以替代人工设计的特征,从而避免“特征工程”。进一步将抽象的表示输入到预测函数得到最终结果。例如,在本申请实施例中,对风格描述语句进行编码处理,得到风格描述语句的描述语句特征,该描述语句特征为嵌入向量表示。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。大模型技术为计算机视觉技术发展带来重要变革,Swin-Transformer,ViT,V-MOE,MAE等视觉领域的预训练模型经过微调(Fine Tune)可以快速、广泛适用于下游具体任务。
计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术,还包括常见的人脸识别、指纹识别、掌纹识别等生物特征识别技术。例如,在本申请实施例中,由目标生成网络基于描述语句特征、轮廓图和灰度图进行的图像生成。
服饰设计是智能生成领域的一个重要研究方向,其借助人工智能技术得到极大的生产效率提升,同时也推动了诸如虚拟试衣、服装检索等下游任务的快速应用与发展。目前,上述服饰设计领域得到变分自编码器(Variational Auto-Encoder,VAE)、生成对抗网络(Generative Adversarial Network,GAN)、扩散模型(Diffusion Model)等生成算法的技术支持。
在现有技术中,基于二维或三维设计工具的服装设计方法步骤繁杂、效率低下,对于低成本、高效率的提升原有服饰多样性具有较高的局限性。众多通过生成对抗网络进行服饰设计和纹理迁移的方法,其生成结果受限于指定的纹理引导图,使得生成的纹理图较单一。
此外,这些图像生成方法,只能通过边缘图、姿态图等进行相对简单的结果控制,而无法保留原服饰的纹理细节和色彩渐变,使得生成结果中的服饰纹理脱离原服饰纹理的设计概念,总言之,现有的图像生成算法对服饰纹理图的生成效果较差。为了解决上述问题,发明人经过研究,提出了本申请实施例提供的图像生成方法。
下面先对本申请所涉及到的图像生成方法的系统架构和应用场景进行介绍。
如图1所示,本申请实施例提供的图像生成方法可以应用在系统100中,数据获取设备110用于获取训练数据。针对本申请实施例的图像生成方法来说,训练数据可以为用于模型训练时使用的训练样本,该训练样本包括样本纹理图以及样本风格描述语句。其中,训练样本可以是基于采集的原始的纹理图像和风格描述语句进行数据预处理(如,数据清洗、归一化处理等)之后得到的。数据获取设备110在获取到训练数据之后,可将该训练数据存入数据库120,训练设备130可基于数据库120中维护的训练数据训练得到目标模型101。
具体地,训练设备130可以基于输入的训练数据对预设的神经网络进行训练,直至该预设的神经网络满足预设条件,得到训练后的目标模型101。其中,预设条件可以为:目标损失的总损失值小于预设值、目标损失的总损失值处于阈值范围、或者训练次数达到预设次数等。该目标模型101能够用于实现本申请实施例中的图像生成方法。本申请实施例中的目标模型101可以为深度神经网络模型,例如,由编码器(Encoder)和解码器(Decoder)组成的扩散网络等,在此不做限定。
在实际的应用场景中,数据库120中维护的训练数据不一定都来自于数据获取设备110,也可以从其他设备接收得到,例如,客户端设备160也可以作为数据获取端,将获取的数据作为新的训练数据,并存入数据库120。此外,训练设备130也不一定完全基于数据库120维护的训练数据对预设的神经网络进行训练,也有可能基于从云端或其他设备获取的训练数据对预设的神经网络进行训练,上述描述不应该作为对本申请实施例的限定。
在执行设备140的处理模块141执行计算等相关的处理过程中,执行设备140可以调用数据存储系统150中的数据、程序等以用于相应的计算处理,并将计算处理得到的处理结果等数据和指令存入数据存储系统150中。执行设备340可以将处理结果,也即,基于目标模型101生成的目标纹理图返回给客户端设备160,从而,用户可以在客户端设备160上查询处理结果。
上述根据训练设备130训练得到的目标模型101可以应用于不同的系统或设备,如应用于图1所示的训练设备130可以为服务器等,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、区块链以及大数据和人工智能平台等基础云计算服务的云服务器。执行设备140可以为服务器或者终端设备,终端设备可以包括:智能手机、平板电脑、笔记本电脑、增强现实(Augmented Reality,AR)或者虚拟现实(Virtual Reality,VR)设备等,在此不做限定。
需要说明的是,图1仅是本申请实施例提供的一种系统的架构示意图,本申请实施例描述的系统的架构以及应用场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定。例如,图1中的数据存储系统150相对执行设备140是外部存储器,在其它情况下,也可以将数据存储系统150置于执行设备140中。
请参阅图2,图2示出一种图像生成方法的应用场景图。如图2所示,本申请实施例提供的图像生成方法还可以应用在Client-Server(C/S)架构系统中。如图2所示的应用场景中,图像生成服务供应商提供服务端,该服务端可以包括云端的训练服务器210和客户服务器230。服务端可以通过网络分别与第一终端220、第二终端240以及第三终端260进行网络通信,以便为各终端的用户提供图像生成服务。其中,第一终端220可以通过网络无线路由器250与服务端进行网络通信。
训练服务器210可以基于训练数据对预设生成网络进行网络训练,得到目标生成网络。客户服务器230可以部署目标生成网络,以便响应于终端发送的原始图像和风格描述语句,利用基于目标生成网络基于原始图像和风格描述语句生成目标纹理图。可选地,客户服务器230可以对目标纹理图进行纹理反贴,得到新的虚拟服饰图像,进而将该新的虚拟服饰发送至对应的终端。
例如,第二终端240安装有图像生成客户端241,该图像生成客户端241可以为用户提供图像生成服务的用户界面。用户可以通过图像生成客户端241向客户服务器230上传原始图像以及风格描述语句,并点击生成图像。进而,图像生成客户端241可以接收由客户服务器230发送的新的虚拟服饰图像,并为用户展示该新的虚拟服饰图像。
其中,客户服务器230可以包括至少一个处理器231、存储器232、至少一个通信接口234。客户服务器230中的各个组件通过总线系统233耦合在一起。可理解的是,总线系统233用于实现这些组件之间的连接通信。存储器232能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集。存储器232中的操作系统2321,包括用于处理各种基本系统服务以及执行硬件相关任务的系统程序。
例如,框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。本申请实施例提供的图像生成装置可以采用软件方式实现,图2示出了存储在存储器232中的图像生成装置2322,其可以是程序和插件等形式的软件,包括以下模块:图像提取模块310、语句编码模块320、图像生成模块330,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
需要说明的是,图2仅是本申请实施例提供的一种应用场景示意图。本申请实施例描述的应用场景和系统框架仅是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定。例如,第一终端220、第二终端240或第三终端260可以泛指多个终端中的一个,本实施例仅以第一终端220、第二终端240或第三终端260来举例说明。
此外,总线系统233除包括数据总线之外,还包括电源总线、控制总线和状态信号总线等,在此不做限定。目标生成网络也可以直接部署在终端。本领域普通技术人员可知,随着应用场景或系统架构的演变,本发明实施例提供的技术方案对于类似的技术问题,同样适用。
请参阅图3,图3示出了本申请一个实施例提供的图像生成方法的流程示意图。在本实施例中,该图像生成方法可以由计算机设备(计算机设备可以是服务器、边缘计算设备或者其他具备一定处理能力的设备)执行,该计算机设备至少具有存储、计算和通信的功能。并将针对图3所示的流程结合图4所示网络训练示意图进行详细地阐述,如图3所示,所述图像生成方法具体可以包括以下步骤:
步骤S110:从原始纹理图中提取轮廓图和灰度图。
通常纹理图是指表示物体表面细节的一幅或几幅二维图形,也称纹理贴图(Texture Mapping),当把纹理按照特定的方式映射到物体表面上的时候能使物体看上去更加真实。例如,在三维虚拟对象的表面映射一副服饰纹理图,这样,三维虚拟对象能够展示出穿着有该服饰纹理图的三维效果。在本申请中,原始纹理图可以是表示虚拟对象表面细节的一幅或几幅二维的服饰图形。该原始纹理图可以是对虚拟服饰进行纹理展开获得的。本申请所指的服饰包括服装、配饰单品(背包、眼镜、鞋子、帽子等),或者服装与配饰单品的组合。在其他实施例中,该原始纹理图还可以是风景图、面向实际环境中的物品(例如服饰、家居用品、建筑物等)拍摄到的图像,在此不进行具体限定。
考虑到现有技术只能通过边缘图、姿态图等进行相对简单的图像生成,而生成的图像无法保留原服饰的纹理细节和色彩渐变,使得生成结果中的服饰纹理脱离原服饰纹理的设计概念。为此,本申请提出联合轮廓图和灰度图来进行服饰图像的生成。通常,图像边缘是指图像性区域和另一个属性区域的交接处,是区域属性发生突变的地方,轮廓图是指对原始纹理图进行边缘提取后得到的图像。把白色与黑色之间按对数关系分为若干等级,称为灰度,灰度图(Gray Scale Image)是指用灰度表示原始纹理图的图像。
作为一种实施方式,计算机设备可以对原始纹理图进行边缘提取,得到轮廓图,并对原始纹理图进行灰度转换,得到灰度图。具体地,计算机设备可以从原始纹理图中获取各像素点在每个颜色通道下的颜色参数。该颜色参数可以为不同色彩模式下的颜色值,色彩模式可以包括RGB色彩模式或者CMYK色彩模式等。进一步地,计算机设备可以确定各像素点在每个颜色通道对应的权重,其中,每个颜色通道对应的权重可以随机选取,同一像素点在多个颜色通道对应的权重之和为1。进一步地,计算机设备可以针对各像素点,基于该像素点在每个颜色通过对应的权重,将该像素点在多个颜色通道下的颜色参数进行加权,得到各像素点的目标颜色参数,并根据各像素点的目标颜色参数,生成灰度图。
例如,计算机设备可以使用边缘图提取算法提取原始纹理图的轮廓图,该边缘图提取算法可以为Canny算法等,在此不做限定。计算机设备可以提取原始纹理图在RGB色彩模式下的灰度图,具体计算公式如下:
Gray=α·R+β·G+γ·B (1)
其中,Gray表示灰度图,R表示原始纹理图在红色通道的颜色值,G表示原始纹理图在绿色通道的颜色值,B表示原始纹理图在蓝色通道的颜色值。α、β、γ分别为红色通道、绿色通道、蓝色通道对应的权重,α+β+γ=1。
由于灰度图能够从原始纹理图中捕获丰富的颜色变化信息,所以联合轮廓图和灰度图生成的服饰纹理图能够将原始纹理图上的纹理结构信息和颜色渐变信息很大程度保留下来。此外,本申请在依据不同颜色通道提取灰度图时,各个颜色通道的权重是随机生成的,使得基于该随机权重提取的灰度图的图像信息具有多样性,从而,避免在服饰纹理生成的过程中出现颜色变化不明显或倾向于某种颜色,提高了图像生成的多样性。
步骤S120:对风格描述语句进行编码处理,得到风格描述语句的描述语句特征。
为了使得图像生成效可以呈现出满足用户设计需求的多样化的生成图像的,本申请可以生成符合风格描述语句所指示风格的目标纹理图。其中,风格描述语句用于表示指定生成具有特定风格的纹理图的描述语句,风格描述语句包括单词、句子、简短段落等文本内容。例如,单词:蓝色、黄色。
作为一种实施方式,可以将文本格式的风格描述语句编码为嵌入空间中低维的特征表示,也即描述语句特征。该描述语句特征的数据形式可以为向量(Embedding)。例如,计算机设备可以基于表征学习(Representation Learning)对风格描述语句机进行编码处理,得到用于输入目标生成网络的描述语句特征。
步骤S130:由目标生成网络基于描述语句特征、轮廓图和灰度图进行图像生成,得到符合风格描述语句所指示风格的目标纹理图。
本申请考虑到现有的图像生成方法无法保留原服饰纹理的小细节和色彩渐变,且生成图像单一,提出使用目标生成网络基于原始纹理图的轮廓图和灰度图、风格描述语句为原始纹理图生成新的纹理图。这样,由于轮廓图体现了原始纹理图的中的纹理,灰度图体现了原始纹理图的颜色变化信息,由此,结合描述语句特征、轮廓图和灰度图进行图像生成,可以保证所得到的目标纹理图不仅符合风格描述语句所指示风格,而且纹理与原始纹理图的纹理基本相同,以及颜色渐变情况与原始纹理中的颜色渐变情况基本相同。
其中,目标生成网络为基于第一噪声和第二噪声确定的目标损失对预设生成网络进行迭代训练得到;第二噪声为预设生成网络将样本图像对应的样本风格描述语句分别与样本轮廓图、样本灰度图、噪声特征图进行联合编码,并根据联合编码结果进行噪声预测得到的;样本轮廓图和样本灰度图为从样本图像中提取的;噪声特征图为对样本图像的样本特征图添加第一噪声得到的,第一噪声为基于随机分布生成的噪声。
请参阅图4,图4示出一种目标生成网络的架构图。如图4所示,目标生成网络可以包括第一编码器、第二编码器、第三编码器和解码器。其中,各编码器和解码器可以由卷积层作为基本的结构单元,编码器和解码器的网络结构可以为扩散网络等,例如,UNet,在此不做限定。可选性,编码器生成的中间特征图可以与解码器所生成的相同分辨率的中间特征图经跳跃连接进行拼接,以便编码器和解码器能够捕捉到更多的不同网络层之间的信息。
在一些实施例中,计算机设备可以基于目标生成网络进行预测噪声,对随机的初始噪声图进行一步一步地去噪,生成目标纹理图。具体地,包括如下步骤(1)至步骤(5)的内容。
(1)获取初始噪声图。
目标生成网络的图像生成原理是通过神经网络学习从纯噪声数据逐渐对数据进行去噪的过程。通过给定噪声图,也即初始噪声图,目标生成网络可以对初始噪声图进行多轮的图像去噪还原,最终生成目标纹理图。
作为一种实施方式,计算机设备可以基于随机分布生成初始噪声图,例如,基于随机高斯噪声生成初始噪声图。其中,高斯噪声是指其概率密度函数服从高斯分布(也即,随机分布)的噪声。例如,通过生成具有正态分布的随机值并将它们添加到表示图像的二维矩阵的像素值中。
(2)以初始噪声图作为目标噪声图。
由于目标生成网络生成目标纹理图是一个对噪声图不断进行去噪的过程,所以需要将上一轮去噪后得到的噪声图作为下一轮的输入,也即目标噪声图。为此,在第一轮去噪时,可以将初始噪声图作为目标噪声图。
(3)由目标生成网络基于描述语句特征、目标噪声图、轮廓图和灰度图进行图像生成,得到去噪纹理图。
在目标生成网络基于一个完全的随机噪声生成一个有意义的图像的过程中,可以先生成对象的大体轮廓,再生成细致纹理等信息。随着图像生成的进度不断推进,在逐渐生成逼真图像时,需要其学习到一些高频的特征信息,以便提高目标纹理图的生成质量。为此,目标生成网络需要知道图像生成的进度,通过输入时间向量即可提示生成进度,从而,目标生成网络可以知道当前生成的图像是需要粗糙一点的,还是细致一点的。
其中,时间向量为时间戳的嵌入表示(Time Embedding)。时间戳可以用于模拟一个随时间变化而变化的扰动过程,每个时间戳可代表一个扰动过程,从初始状态开始,通过多次应用噪声来逐渐改变图像的分布。所以,较小的时间戳代表较弱的噪声扰动,而较大时间戳的代表更强的噪声扰动。可选地,随着每轮去噪的推进时间戳的大小可以逐渐递减。
作为一种实施方式,计算机设备可以由第一编码器基于时间向量、描述语句特征和轮廓图进行编码处理,得到第一编码特征,并由第二编码器基于时间向量、描述语句特征和灰度图进行编码处理,得到第二编码特征,并由第三编码器基于时间向量、描述语句特征和目标噪声图进行编码处理,得到第三编码特征。
进一步地,计算机设备可以基于解码器对第一编码特征、第二编码特征和第三编码特征的融合特征进行解码处理,计算出去噪纹理图。具体地,计算机设备可以将第一编码特征、第二编码特征和第三编码特征通过相加得到融合特征,并将融合特征输入至解码器,解码器对该融合特征进行解码得到预测噪声,进而可以从目标噪声图中去除该预测噪声,得到去噪纹理图。
(4)若去噪纹理图满足预设噪声要求,将去噪纹理图作为目标纹理图。
(5)若去噪纹理图不满足预设噪声要求,将去噪纹理图作为新的目标噪声图,并返回执行由目标生成网络基于描述语句特征、目标噪声图、轮廓图和灰度图进行图像生成,得到去噪纹理图的步骤,也即步骤(3)。
作为一种实施方式,预设噪声要求可以包括去噪纹理图中的噪声值小于预设值、去噪纹理图中的噪声值处于预设阈值范围内、或者去噪次数达到预设次数等。计算机设备可以判断去噪纹理图是否满足预设噪声要求,并执行对应的步骤,直至最终得到满足预设噪声要求的目标纹理图。
在一些实施例中,若原始纹理图是对虚拟服饰进行纹理展开获得的,在步骤S130之后,该方法还包括:根据目标纹理图进行纹理反贴,获得新的虚拟服饰。当然,为生成风格更多样化的目标纹理图,可以提供不同的风格描述语句,并按照本申请的方法,生成风格多样且纹理、以及颜色渐变与原始纹理图基本相同的目标纹理图。
请参阅图5,图5示出一种服饰生成的流程图。如图5所示,原始图像可以为服饰三维图像,通过对原始图像进行纹理展开可以得到对应的二维的原始纹理图。对原始纹理图进行边缘提取,得到轮廓图,对原始纹理图进行灰度转换,得到灰度图。获取风格描述语句,例如,风格描述语句可以为用户想要指定生成的颜色词语“蓝色”或“粉色”。由目标生成网络基于风格描述语句的描述语句特征、轮廓图和灰度图进行图像生成,得到符合风格描述语句所指示风格的纹理图。进一步地,基于纹理图A对原始图像中的虚拟对象进行纹理反贴,得到三维图像。
本实施例可以从原始纹理图中提取轮廓图和灰度图,并对风格描述语句进行编码处理,得到风格描述语句的描述语句特征,进而由目标生成网络基于描述语句特征、轮廓图和灰度图进行图像生成,得到符合风格描述语句所指示风格的目标纹理图。由于灰度图能够从原始纹理图中捕获丰富的颜色变化信息,使得原始纹理图上的纹理结构信息和颜色渐变信息很大程度保留在目标纹理图中。并且通过风格描述语句可以指导目标生成网络生成不同设计需求下的多样化的生成图像,从而提升了生成的目标纹理图的风格多样性。
请参阅图6,图6示出了本申请一个实施例提供的图像生成方法的流程示意图。在本实施例中,在步骤S130之前,该方法还可以包括图6中所示出的步骤。该图像生成方法可以由计算机设备执行,该计算机设备至少具有存储、计算和通信的功能。并将针对图6所示的流程结合图7所示网络训练示意图进行详细地阐述,如图6所示,所述图像生成方法具体可以包括以下步骤:
步骤S210:获取样本图像以及样本风格描述语句。
考虑到针对深度神经网络的训练,随着数据规模的增长,网络能力表现通常会按照幂定律持续提升。为此,在本申请实施例中,可以采集大量的彩色服饰图像进行数据预处理,以便构建大规模的训练集。可选地,训练集中训练样本的样本数量可以通过假设检验进行确定,例如,针对网络训练的可容忍误差、标准差值和置信区间来估算样本数量,进而从服饰图像数据库中随机选取估算的数量的服饰图像。
作为一种实施方式,可以采集多个服饰图像,通过对所有服饰图像进行数据预处理,得到相同数据格式的服饰图像作为样本图像。也可以采集多个风格描述语句,对每个风格描述语句进行数据预处理,得到相同数据格式的样本风格描述语句。进一步地,由样本图像和样本风格描述语句构建训练集S={(I1,E1),(I2,E2),…,(In,En)}。
训练集S中包括采样的n个训练样本,每个训练样本包括对应的样本图像和样本风格描述语句,例如,第i个训练样本包括对应的样本图像Ii和样本风格描述语句Ei,其中,n>0&n∈N*。
步骤S220:对样本风格描述语句进行编码处理,得到样本语句特征。
作为一种实施方式,计算机设备可以将样本风格描述语句编码为嵌入空间中低维的特征表示,也即样本语句特征。例如,计算机设备可以将样本风格描述语句E输入至预训练模型BERT,得到样本语句特征Ce。
步骤S230:从样本图像的样本纹理图中提取样本轮廓图和样本灰度图。
作为一种实施方式,计算机设备可以对样本图像的样本纹理图进行下采样(UnderSampling)得到样本轮廓图和样本灰度图。可选地,计算机设备也可以对样本纹理图进行边缘提取,得到样本轮廓图Cp,并对样本纹理图进行灰度转换,得到样本灰度图Cq。
步骤S240:对样本图像进行特征提取,得到样本特征图。
作为一种实施方式,计算机设备可以将样本图像输入特征提取网络,进而该特征提取网络将原始图像空间的图像映射到低维的特征空间,得到样本特征图。其中,特征提取网络可以是用于降维的神经网络。例如,将样本图像I输入至变分自编码器(VariationalAuto-Encoder,VAE)的编码器,该编码器对样本图像I进行特征提提取,得到对应的样本特征图z0。其中,I∈RH×W×3,z0∈Rh×w×u,H、W、3分别为样本图像I的表示矩阵的行数、列数、通道数。h、w、u分别为样本特征图Z0的表示矩阵的行数、列数、通道数。
步骤S250:对样本特征图添加第一噪声,得到噪声特征图。
在本申请中,网络训练的关键是训练预设生成网络估计估计真实的噪声,也即,第一噪声,该第一噪声可以是随机生成的高斯噪声。在每一轮噪声估计时,可以将该第一噪声ε添加至样本特征图z0,得到添加噪声后的噪声特征图zt。
步骤S260:由预设生成网络基于噪声特征图、样本轮廓图、样本灰度图和样本语句特征进行噪声预测,得到第二噪声。
请参阅图7,图7示出一种预设生成网络的架构图。如图7所示预设生成网络可以包括第一编码器、第二编码器、第三编码器以及解码器。其中,各编码器和解码器可以由卷积层作为基本的结构单元,编码器和解码器的网络结构可以为扩散网络等,在此不做限定。可选性,编码器的中间特征图可以与解码器的相同分辨率的中间特征图经跳跃连接进行拼接。
作为一种实施方式,计算机设备可以选择一个随机时间戳,并将随机时间戳转化为对应嵌入表示,也即样本时间向量t。由于随着训练过程的推进,目标损失会逐渐降低,目标损失的变化幅度逐渐变小越小。如果时间戳是递增的,那么必然会使得预设生成网络过多的关注较早的时间戳(因为早期目标损失相对较大),而忽略了较晚的时间戳的信息。为此,需要使用随机生成的时间戳,也即随机时间戳。
进一步地,计算机设备可以由第一编码器基于样本时间向量t、样本语句特征Ce和样本轮廓图Cp进行编码处理,得到第一编码结果y1。由第二编码器基于样本时间向量t、样本语句特征Ce和样本灰度图Ca进行编码处理,得到第二编码结果y2。由第三编码器基于样本时间向量t、样本语句特征Ce和噪声特征图zt进行编码处理,得到第三编码结果y3。
进一步地,由解码器对第一编码结果y1、第二编码结果y2和第三编码结果y3进行解码,得到第二噪声εθ。具体地,计算机设备可以将第一编码结果y1、第二编码结果y2和第三编码结果y3进行相加得到融合编码结果y=y1+y2+y3,进而将融合编码结果y输入至解码器,由解码器输出第二噪声εθ。
步骤S270:基于第一噪声和第二噪声确定目标损失。
作为一种实施方式,计算机设备可以基于第一噪声和第二噪声之间的差异程度来训练预设生成网络。例如,基于第一噪声和第二噪声之间的均方误差(Mean Square Error,MSE)确定目标损失,具体计算公式如下:
其中,Loss表示目标损失,θ表示预设生成网络中需要训练的权重参数。
步骤S280:根据目标损失迭代更新预设生成网络的权重参数,直至达到训练结束条件,得到目标生成网络。
在一些实施例中,由于预设生成网络生成图像主要依靠第一编码器、第二编码器和第三编码器。为此,可以仅对第一编码器、第二编码器和第三编码器对应的权重参数进行训练,解码器可以通过预训练提前得到,也即,解码器为的权重参数在网络训练过程中是固定的,从而,减少网络训练的计算量,提高网络训练的效率。
作为一种实施方式,计算机设备可以基于目标损失,迭代更新预设生成网络中的第一编码器的权重参数、第二编码器的权重参数以及第三编码器的权重参数,直至达到训练结束条件,得到目标生成网络。进而,由目标生成网络基于获取的描述语句特征、轮廓图和灰度图进行图像生成,得到符合风格描述语句所指示风格的目标纹理图。其中,训练结束条件可以包括:目标损失小于预设值、目标损失处于预设阈值范围内或者训练次数达到预设次数等。可选的,可以采用优化器去优化目标损失,基于实验经验设置学习率(LearningRate)、训练时的批量大小(Batch Size)训练的训练次数(Epoch)。
示例性地,请参阅图8,图8示出一种图像生成的流程图。如图8所示,可以获取大量的彩色图像数据,该彩色图像数据可以为各种服饰图像。通过对服饰图像进行裁减等图像预处理,得到统一数据存储格式的彩色图。进一步地,从彩色图中提取对应的轮廓图和灰度图,对彩色图进行边缘提取,得到轮廓图,对彩色图进行灰度转换,得到灰度图。并获取不同的风格描述语句,进而由轮廓图、灰度图和风格描述语句构成训练集,并基于该训练集对预设服饰生成网络进行网络训练,得到服饰生成网络。
进一步地,获取已有的服饰纹理图,该服务纹理图可以是对虚拟对象进行纹理展开得到的。对服饰纹理图进行边缘提取,得到服饰轮廓图,并对服饰纹理图进行灰度转换,得到服饰灰度图。获取风格描述语句,对风格描述语句进行编码处理,得到风格描述语句的描述语句特征。由目标生成网络基于不同的描述语句特征、轮廓图和灰度图进行图像生成,得到符合不同风格描述语句所指示风格的多样的目标服饰纹理图。
请参阅图9,图9示出一种服饰生成效果示意图。如图9所示,原始服饰图A经过目标生成网络进行图像生成后,可以得到不同风格的目标服饰图。例如,目标生成网络根据第一风格描述语句所描述的颜色1生成的目标服饰图B1中,虚拟对象的衣服颜色由原始颜色,转化为颜色1,同样方式,可以转化为目标服饰图B2中的颜色2和目标服饰图B3中的颜色3。但是,原始服饰图A的上细致的纹理结构信息和颜色渐变信息保留了下来。
本实施例可以获取样本图像以及样本风格描述语句,并对所述样本风格描述语句进行编码处理,得到样本语句特征,进而,从所述样本图像的样本纹理图中提取样本轮廓图和样本灰度图,进一步地,对所述样本图像进行特征提取,得到样本特征图,并对所述样本特征图添加第一噪声,得到噪声特征图,进而由预设生成网络基于所述噪声特征图、所述样本轮廓图、所述样本灰度图和所述样本语句特征进行噪声预测,得到第二噪声。
进一步地,基于所述第一噪声和所述第二噪声确定目标损失,根据所述目标损失迭代更新所述预设生成网络的权重参数,直至达到训练结束条件,得到目标生成网络。通过在网络训练过程中引入灰度图,能够从原始纹理图中捕获丰富的图像信息,使得原始纹理图上的纹理结构信息和颜色渐变信息很大程度保留下来。并且通过风格描述语句可以生成不同设计需求下的多样化的生成图像,从而达到训练得到的目标生成网络具有生成高质量的服饰纹理图的效果。
请参阅图10,其示出了本申请实施例提供的一种图像生成装置300的结构框图。该图像生成装置300可以包括图像提取模块310、语句编码模块320以及图像生成模块330。图像提取模块310,用于从原始纹理图中提取轮廓图和灰度图;语句编码模块320,用于对风格描述语句进行编码处理,得到所述风格描述语句的描述语句特征;图像生成模块330,用于由目标生成网络基于所述描述语句特征、所述轮廓图和所述灰度图进行图像生成,得到符合所述风格描述语句所指示风格的目标纹理图,其中,目标生成网络为基于第一噪声和第二噪声确定的目标损失对预设生成网络进行迭代训练得到;第二噪声为预设生成网络将样本图像对应的样本风格描述语句分别与样本轮廓图、样本灰度图、噪声特征图进行联合编码,并根据联合编码结果进行噪声预测得到的;样本轮廓图和样本灰度图为从样本图像中提取的;噪声特征图为对样本图像的样本特征图添加第一噪声得到的,第一噪声为基于随机分布生成的噪声。
在一些实施例中,图像生成模块330可以包括噪声获取单元、图像确定单元、图像生成单元、纹理确定单元以及图像迭代单元。噪声获取单元,用于获取初始噪声图;图像确定单元,用于以所述初始噪声图作为目标噪声图;图像生成单元,用于由目标生成网络基于所述描述语句特征、所述目标噪声图、所述轮廓图和所述灰度图进行图像生成,得到去噪纹理图;纹理确定单元,用于若所述去噪纹理图满足预设噪声要求,将所述去噪纹理图作为目标纹理图;图像迭代单元,用于若所述去噪纹理图不满足预设噪声要求,将所述去噪纹理图作为新的目标噪声图,并返回执行所述由目标生成网络基于所述描述语句特征、所述目标噪声图、所述轮廓图和所述灰度图进行图像生成,得到去噪纹理图的步骤。
在一些实施例中,目标生成网络包括第一编码器、第二编码器、第三编码器和解码器;图像生成单元可以具体用于:由所述第一编码器基于时间向量、所述描述语句特征和所述轮廓图进行编码处理,得到第一编码特征;由所述第二编码器基于时间向量、所述描述语句特征和所述灰度图进行编码处理,得到第二编码特征;由所述第三编码器基于时间向量、所述描述语句特征和所述目标噪声图进行编码处理,得到第三编码特征;基于所述解码器对所述第一编码特征、所述第二编码特征和所述第三编码特征的融合特征进行解码处理,得到去噪纹理图。
在一些实施例中,图像生成装置300还可以包括样本获取模块、语句处理模块、图像获取模块、纹理提取模块、噪声添加模块、噪声预测模块、损失确定模块以及网络训练模块。样本获取模块,用于获取样本图像以及样本风格描述语句;语句处理模块,用于对所述样本风格描述语句进行编码处理,得到样本语句特征;图像获取模块,用于从所述样本图像的样本纹理图中提取样本轮廓图和样本灰度图;纹理提取模块,用于对样本图像进行特征提取,得到样本特征图;噪声添加模块,用于对所述样本特征图添加第一噪声,得到噪声特征图;噪声预测模块,用于由预设生成网络基于所述噪声特征图、所述样本轮廓图、所述样本灰度图和所述样本语句特征进行噪声预测,得到第二噪声;损失确定模块,用于基于所述第一噪声和所述第二噪声确定目标损失;网络训练模块,用于根据所述目标损失迭代更新所述预设生成网络的权重参数,直至达到训练结束条件,得到目标生成网络。
在一些实施例中,预设生成网络包括第一编码器、第二编码器、第三编码器以及解码器;噪声预测模块可以具体用于:由所述第一编码器基于样本时间向量、所述样本语句特征和所述样本轮廓图进行编码处理,得到第一编码结果;由所述第二编码器基于样本时间向量、所述样本语句特征和所述样本灰度图进行编码处理,得到第二编码结果;由所述第三编码器基于样本时间向量、所述样本语句特征和所述噪声特征图进行编码处理,得到第三编码结果;由所述解码器对所述第一编码结果、所述第二编码结果和所述第三编码结果进行解码,得到第二噪声。
在一些实施例中,网络训练模块可以具体用于基于所述目标损失,迭代更新所述预设生成网络中的所述第一编码器的权重参数、第二编码器的权重参数以及第三编码器的权重参数,直至达到训练结束条件,得到目标生成网络。
在一些实施例中,图像提取模块310可以包括轮廓提取单元以及灰度提取单元。轮廓提取单元,用于对所述原始纹理图进行边缘提取,得到所述轮廓图;灰度提取单元,用于对所述原始纹理图进行灰度转换,得到所述灰度图。
在一些实施例中,灰度提取单元可以具体用于:从所述原始纹理图中获取各像素点在每个颜色通道下的颜色参数;确定各像素点在每个颜色通道对应的权重,同一像素点在多个颜色通道对应的权重之和为1;针对各像素点,基于该像素点在每个颜色通过对应的权重,将该像素点在多个颜色通道下的颜色参数进行加权,得到各像素点的目标颜色参数;根据各像素点的目标颜色参数,生成所述灰度图。
在一些实施例中,原始纹理图是对虚拟服饰进行纹理展开获得的;图像生成装置300还可以包括纹理饭贴模块,用于根据所述目标纹理图进行纹理反贴,获得新的虚拟服饰。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,模块相互之间的耦合可以是电性,机械或其它形式的耦合。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
本申请提供的方案,可以从原始纹理图中提取轮廓图和灰度图,并对风格描述语句进行编码处理,得到风格描述语句的描述语句特征,进而由目标生成网络基于描述语句特征、轮廓图和灰度图进行图像生成,得到符合风格描述语句所指示风格的目标纹理图。通过灰度图能够从原始纹理图中捕获丰富的图像信息,使得原始纹理图上细致的纹理结构信息和颜色渐变信息很大程度保留下来。并且通过风格描述语句目标图像可以生成不同设计需求下的多样化的生成图像,从而提高了服饰纹理图的生成质量。
如图11所示,本申请实施例还提供一种计算机设备400,该计算机设备400包括处理器410、存储器420、电源430和输入单元440,存储器420存储有计算机程序,计算机程序被处理器410调用时,可实执行上述实施例提供的各种方法步骤。本领域技术人员可以理解,图中示出的计算机设备的结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器410可以包括一个或多个处理核。处理器410利用各种接口和线路连接整个电池管理系统内的各种部分,通过运行或执行存储在存储器420内的指令、程序、指令集或程序集,调用存储在存储器420内的数据,执行电池管理系统的各种功能和处理数据,以及执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体控制。可选地,处理器410可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器410可集成中央处理器410(CentralProcessing Unit,CPU)、图像处理器410(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器410中,单独通过一块通信芯片进行实现。
存储器420可以包括随机存储器420(Random Access Memory,RAM),也可以包括只读存储器420(Read-Only Memory)。存储器420可用于存储指令、程序、指令集或程序集。存储器420可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各种方法实施例的指令等。存储数据区还可以存储计算机设备在使用中所创建的数据(比如电话本和音视频数据)等。相应地,存储器420还可以包括存储器控制器,以提供处理器410对存储器420的访问。
电源430可以通过电源管理系统与处理器410逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源430还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
输入单元440,该输入单元440可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备400还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器410会按照如下的指令,将一个或一个以上的计算机程序的进程对应的可执行文件加载到存储器420中,并由处理器410来运行存储在存储器420中的比如电话本和音视频数据,从而实现前述实施例提供的各种方法步骤。
如图12所示,本申请实施例还提供一种计算机可读存储介质500,该计算机可读存储介质500中存储有计算机程序510,计算机程序510可被处理器调用于执行本申请实施例提供的各种方法步骤。
计算机可读存储介质可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质包括非易失性计算机可读存储介质(Non-Transitory Computer-Readable Storage Medium)。计算机可读存储介质500具有执行上述实施例中任何方法步骤的计算机程序的存储空间。这些计算机程序可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。计算机程序能够以适当形式进行压缩。
根据本申请的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序被存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述实施例提供的各种方法步骤。
以上,仅是本申请的较佳实施例而已,并非对本申请作任何形式上的限制,虽然本申请已以较佳实施例揭示如上,然而并非用以限定本申请,任何本领域技术人员,在不脱离本申请技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本申请技术方案内容,依据本申请的技术实质对以上实施例所作的任何简介修改、等同变化与修饰,均仍属于本申请技术方案的范围内。
Claims (13)
1.一种图像生成方法,其特征在于,所述方法包括:
从原始纹理图中提取轮廓图和灰度图;
对风格描述语句进行编码处理,得到所述风格描述语句的描述语句特征;
由目标生成网络基于所述描述语句特征、所述轮廓图和所述灰度图进行图像生成,得到符合所述风格描述语句所指示风格的目标纹理图;
其中,所述目标生成网络为基于第一噪声和第二噪声确定的目标损失对预设生成网络进行迭代训练得到;所述第二噪声为预设生成网络将样本图像对应的样本风格描述语句分别与样本轮廓图、样本灰度图、噪声特征图进行联合编码,并根据联合编码结果进行噪声预测得到的;所述样本轮廓图和样本灰度图为从所述样本图像中提取的;所述噪声特征图为对所述样本图像的样本特征图添加所述第一噪声得到的,所述第一噪声为基于随机分布生成的噪声。
2.根据权利要求1所述的方法,其特征在于,所述由目标生成网络基于所述描述语句特征、所述轮廓图和所述灰度图进行图像生成,得到符合所述风格描述语句所指示风格的目标纹理图,包括:
获取初始噪声图;
以所述初始噪声图作为目标噪声图;
由目标生成网络基于所述描述语句特征、所述目标噪声图、所述轮廓图和所述灰度图进行图像生成,得到去噪纹理图;
若所述去噪纹理图满足预设噪声要求,将所述去噪纹理图作为目标纹理图;
若所述去噪纹理图不满足预设噪声要求,将所述去噪纹理图作为新的目标噪声图,并返回执行所述由目标生成网络基于所述描述语句特征、所述目标噪声图、所述轮廓图和所述灰度图进行图像生成,得到去噪纹理图的步骤。
3.根据权利要求2所述的方法,其特征在于,所述目标生成网络包括第一编码器、第二编码器、第三编码器和解码器;所述由目标生成网络基于所述描述语句特征、所述目标噪声图、所述轮廓图和所述灰度图进行图像生成,得到去噪纹理图,包括:
由所述第一编码器基于时间向量、所述描述语句特征和所述轮廓图进行编码处理,得到第一编码特征;
由所述第二编码器基于时间向量、所述描述语句特征和所述灰度图进行编码处理,得到第二编码特征;
由所述第三编码器基于时间向量、所述描述语句特征和所述目标噪声图进行编码处理,得到第三编码特征;
基于所述解码器对所述第一编码特征、所述第二编码特征和所述第三编码特征的融合特征进行解码处理,得到去噪纹理图。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述目标生成网络通过如下步骤训练得到:
获取样本图像以及样本风格描述语句;
对所述样本风格描述语句进行编码处理,得到样本语句特征;
从所述样本图像的样本纹理图中提取样本轮廓图和样本灰度图;
对所述样本图像进行特征提取,得到样本特征图;
对所述样本特征图添加第一噪声,得到噪声特征图;
由预设生成网络基于所述噪声特征图、所述样本轮廓图、所述样本灰度图和所述样本语句特征进行噪声预测,得到第二噪声;
基于所述第一噪声和所述第二噪声确定目标损失;
根据所述目标损失迭代更新所述预设生成网络的权重参数,直至达到训练结束条件,得到目标生成网络。
5.根据权利要求4所述的方法,其特征在于,所述预设生成网络包括第一编码器、第二编码器、第三编码器以及解码器;所述由预设生成网络基于所述噪声特征图、所述样本轮廓图、所述样本灰度图和所述样本语句特征进行噪声预测,得到第二噪声,包括:
由所述第一编码器基于样本时间向量、所述样本语句特征和所述样本轮廓图进行编码处理,得到第一编码结果;
由所述第二编码器基于样本时间向量、所述样本语句特征和所述样本灰度图进行编码处理,得到第二编码结果;
由所述第三编码器基于样本时间向量、所述样本语句特征和所述噪声特征图进行编码处理,得到第三编码结果;
由所述解码器对所述第一编码结果、所述第二编码结果和所述第三编码结果进行解码,得到第二噪声。
6.根据权利要求4所述的方法,其特征在于,基于根据所述目标损失迭代更新所述预设生成网络的权重参数,直至达到训练结束条件,得到目标生成网络,包括:
基于所述目标损失,迭代更新所述预设生成网络中的所述第一编码器的权重参数、第二编码器的权重参数以及第三编码器的权重参数,直至达到训练结束条件,得到目标生成网络。
7.根据权利要求1所述的方法,其特征在于,所述从原始纹理图中提取轮廓图和灰度图,包括:
对所述原始纹理图进行边缘提取,得到所述轮廓图;
对所述原始纹理图进行灰度转换,得到所述灰度图。
8.根据权利要求7所述的方法,其特征在于,所述对所述原始纹理图进行灰度转换,得到所述灰度图,包括:
从所述原始纹理图中获取各像素点在每个颜色通道下的颜色参数;
确定各像素点在每个颜色通道对应的权重,同一像素点在多个颜色通道对应的权重之和为1;
针对各像素点,基于该像素点在每个颜色通过对应的权重,将该像素点在多个颜色通道下的颜色参数进行加权,得到各像素点的目标颜色参数;
根据各像素点的目标颜色参数,生成所述灰度图。
9.根据权利要求1-8中任一项所述的方法,其特征在于,所述原始纹理图是对虚拟服饰进行纹理展开获得的;
所述由目标生成网络根据所述描述语句特征、所述轮廓图和所述灰度图进行图像生成,得到符合所述风格描述语句所指示风格的目标纹理图之后,所述方法还包括:
根据所述目标纹理图进行纹理反贴,获得新的虚拟服饰。
10.一种图像生成装置,其特征在于,所述装置包括:
图像提取模块,用于从原始纹理图中提取轮廓图和灰度图;
语句编码模块,用于对风格描述语句进行编码处理,得到所述风格描述语句的描述语句特征;
图像生成模块,用于由目标生成网络基于所述描述语句特征、所述轮廓图和所述灰度图进行图像生成,得到符合所述风格描述语句所指示风格的目标纹理图;
其中,所述目标生成网络为基于第一噪声和第二噪声确定的目标损失对预设生成网络进行迭代训练得到;所述第二噪声为预设生成网络将样本图像对应的样本风格描述语句分别与样本轮廓图、样本灰度图、噪声特征图进行联合编码,并根据联合编码结果进行噪声预测得到的;所述样本轮廓图和样本灰度图为从所述样本图像中提取的;所述噪声特征图为对所述样本图像的样本特征图添加所述第一噪声得到的,所述第一噪声为基于随机分布生成的噪声。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机可读指令,当所述计算机可读指令被处理器执行时,实现如权利要求1至9任一项所述的方法。
12.一种计算机设备,其特征在于,包括:
存储器;
处理器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如权利要求1至9任一项所述的方法。
13.一种计算机程序产品或计算机程序,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令被处理器执行时,实现如权利要求1至9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311528881.XA CN117557708A (zh) | 2023-11-15 | 2023-11-15 | 图像生成方法、装置、存储介质及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311528881.XA CN117557708A (zh) | 2023-11-15 | 2023-11-15 | 图像生成方法、装置、存储介质及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117557708A true CN117557708A (zh) | 2024-02-13 |
Family
ID=89821439
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311528881.XA Pending CN117557708A (zh) | 2023-11-15 | 2023-11-15 | 图像生成方法、装置、存储介质及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117557708A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117953108A (zh) * | 2024-03-20 | 2024-04-30 | 腾讯科技(深圳)有限公司 | 图像生成方法、装置、电子设备和存储介质 |
-
2023
- 2023-11-15 CN CN202311528881.XA patent/CN117557708A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117953108A (zh) * | 2024-03-20 | 2024-04-30 | 腾讯科技(深圳)有限公司 | 图像生成方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107025457B (zh) | 一种图像处理方法和装置 | |
JP7373554B2 (ja) | クロスドメイン画像変換 | |
JP2022504292A (ja) | 画像処理方法、装置、デバイスおよびコンピュータプログラム | |
CN110555896B (zh) | 一种图像生成方法、装置以及存储介质 | |
CN112418292B (zh) | 一种图像质量评价的方法、装置、计算机设备及存储介质 | |
CN110288513B (zh) | 用于改变人脸属性的方法、装置、设备和存储介质 | |
CN107845072A (zh) | 图像生成方法、装置、存储介质及终端设备 | |
Li et al. | Globally and locally semantic colorization via exemplar-based broad-GAN | |
CN117557708A (zh) | 图像生成方法、装置、存储介质及计算机设备 | |
CN114820871A (zh) | 字体生成方法、模型的训练方法、装置、设备和介质 | |
CN113792851A (zh) | 字体生成模型训练方法、字库建立方法、装置及设备 | |
CN112884758A (zh) | 一种基于风格迁移方法的缺陷绝缘子样本生成方法及系统 | |
CN114241558A (zh) | 模型的训练方法、视频生成方法和装置、设备、介质 | |
CN114529785A (zh) | 模型的训练方法、视频生成方法和装置、设备、介质 | |
CN112052759A (zh) | 一种活体检测方法和装置 | |
CN112836755B (zh) | 基于深度学习的样本图像生成方法及其系统 | |
CN110533020A (zh) | 一种文字信息的识别方法、装置及存储介质 | |
CN111445545B (zh) | 一种文本转贴图方法、装置、存储介质及电子设备 | |
CN117094362A (zh) | 一种任务处理方法及相关装置 | |
CN116959058A (zh) | 一种三维人脸驱动方法及相关装置 | |
CN115082624A (zh) | 一种人体模型构建方法、装置、电子设备及存储介质 | |
CN106469437B (zh) | 图像处理方法和图像处理装置 | |
CN113052242A (zh) | 图像处理网络的训练方法及装置、图像处理方法及装置 | |
CN114943799A (zh) | 一种面部图像处理方法、装置和计算机可读存储介质 | |
CN114565773A (zh) | 语义分割图像的方法、装置、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |