CN115880506A - 图像生成方法、模型的训练方法、装置及电子设备 - Google Patents
图像生成方法、模型的训练方法、装置及电子设备 Download PDFInfo
- Publication number
- CN115880506A CN115880506A CN202211688830.9A CN202211688830A CN115880506A CN 115880506 A CN115880506 A CN 115880506A CN 202211688830 A CN202211688830 A CN 202211688830A CN 115880506 A CN115880506 A CN 115880506A
- Authority
- CN
- China
- Prior art keywords
- image
- sample
- text
- color
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 96
- 238000012549 training Methods 0.000 title claims abstract description 52
- 239000013598 vector Substances 0.000 claims abstract description 130
- 238000013136 deep learning model Methods 0.000 claims abstract description 75
- 239000013604 expression vector Substances 0.000 claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 20
- 238000005070 sampling Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 11
- 238000012216 screening Methods 0.000 claims description 8
- 238000009877 rendering Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 5
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 240000005373 Panax quinquefolius Species 0.000 claims 1
- 239000000126 substance Substances 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 239000003086 colorant Substances 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011282 treatment Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Image Analysis (AREA)
Abstract
本公开提供了图像生成方法、深度学习模型的训练方法、装置、电子设备、存储介质以及程序产品,涉及人工智能技术领域,尤其涉及图像处理技术领域、深度学习技术领域以及自然语言处理技术领域等。具体实现方案为:对颜色信息进行编码,得到颜色表示向量;对文本信息进行编码,得到文本表示向量;以及基于颜色表示向量和文本表示向量,生成与颜色信息和文本信息均匹配的目标图像。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及图像处理技术领域、深度学习技术领域以及自然语言处理技术领域等。具体涉及图像生成方法、深度学习模型的训练方法、装置、电子设备、存储介质以及程序产品。
背景技术
随着人工智能在各个领域上取得的进步,计算机视觉和自然语言处理结合的领域也受到了广泛的关注。例如,基于文本信息生成图像的图像生成方法,以其形象性、生动性以及流畅性等优势成为一个研究热点。
发明内容
本公开提供了一种图像生成方法、深度学习模型的训练方法、装置、电子设备、存储介质以及程序产品。
根据本公开的一方面,提供了一种图像生成方法,包括:对颜色信息进行编码,得到颜色表示向量;对文本信息进行编码,得到文本表示向量;以及基于上述颜色表示向量和上述文本表示向量,生成与上述颜色信息和上述文本信息均匹配的目标图像。
根据本公开的另一方面,提供了一种深度学习模型的训练方法,包括:将样本颜色信息输入至深度学习模型的颜色编码器中,得到样本颜色表示向量;将样本文本信息输入至上述深度学习模型的文本编码器中,得到样本文本表示向量;将上述样本颜色表示向量和上述样本文本表示向量输入至上述深度学习模型的文生图模块中,得到样本目标图像;以及基于上述样本目标图像和与上述样本文本信息相匹配的样本图像,训练上述深度学习模型,得到经训练的深度学习模型。
根据本公开的另一方面,提供了一种图像生成装置,包括:第一编码模块,用于对颜色信息进行编码,得到颜色表示向量;第二编码模块,用于对文本信息进行编码,得到文本表示向量;以及生成模块,用于基于上述颜色表示向量和上述文本表示向量,生成与上述颜色信息和上述文本信息均匹配的目标图像。
根据本公开的另一方面,提供了一种深度学习模型的训练装置,包括:第一输入模块,用于将样本颜色信息输入至深度学习模型的颜色编码器中,得到样本颜色表示向量;第二输入模块,用于将样本文本信息输入至上述深度学习模型的文本编码器中,得到样本文本表示向量;第三输入模块,用于将上述样本颜色表示向量和上述样本文本表示向量输入至上述深度学习模型的文生图模块中,得到样本目标图像;以及训练模块,用于基于上述样本目标图像和与上述样本文本信息相匹配的样本图像,训练上述深度学习模型,得到经训练的深度学习模型。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与上述至少一个处理器通信连接的存储器;其中,上述存储器存储有可被上述至少一个处理器执行的指令,上述指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行如本公开的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,上述计算机指令用于使上述计算机执行如本公开的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,上述计算机程序在被处理器执行时实现如本公开的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1示意性示出了根据本公开实施例的可以应用图像生成方法及装置的示例性系统架构;
图2示意性示出了根据本公开实施例的图像生成方法的流程图;
图3示意性示出了根据本公开实施例的图像生成方法的流程示意图;
图4示意性示出了根据本公开另一实施例的图像生成方法的流程示意图;
图5示意性示出了根据本公开实施例的深度学习模型的训练方法的流程图;
图6示意性示出了根据本公开另一实施例的深度学习模型的训练方法的流程示意图;
图7示意性示出了根据本公开实施例的图像生成装置的框图;
图8示意性示出了根据本公开实施例的深度学习模型的训练装置的框图;以及
图9示意性示出了根据本公开实施例的适于实现图像生成方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开提供了一种图像生成方法、深度学习模型的训练方法、装置、电子设备、存储介质以及程序产品。
根据本公开的实施例,提供了一种图像生成方法,包括:对颜色信息进行编码,得到颜色表示向量;对文本信息进行编码,得到文本表示向量;以及基于颜色表示向量和文本表示向量,生成与颜色信息和文本信息均匹配的目标图像。
在本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
图1示意性示出了根据本公开实施例的可以应用图像生成方法及装置的示例性系统架构。
需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如,在另一实施例中,可以应用图像生成方法及装置的示例性系统架构可以包括终端设备,但终端设备可以无需与服务器进行交互,即可实现本公开实施例提供的图像生成方法及装置。
如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的内容提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本公开实施例所提供的图像生成方法一般可以由终端设备101、102、或103执行。相应地,本公开实施例所提供的图像生成装置也可以设置于终端设备101、102、或103中。
或者,本公开实施例所提供的图像生成方法一般也可以由服务器105执行。相应地,本公开实施例所提供的图像生成装置一般可以设置于服务器105中。本公开实施例所提供的图像生成方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的图像生成装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
应注意,以下方法中各个操作的序号仅作为该操作的表示以便描述,而不应被看作表示该各个操作的执行顺序。除非明确指出,否则该方法不需要完全按照所示顺序来执行。
图2示意性示出了根据本公开实施例的图像生成方法的流程图。
如图2所示,该方法包括操作S210~S230。
在操作S210,对颜色信息进行编码,得到颜色表示向量。
在操作S220,对文本信息进行编码,得到文本表示向量。
在操作S230,基于颜色表示向量和文本表示向量,生成与颜色信息和文本信息均匹配的目标图像。
根据本公开的实施例,对颜色信息进行编码,得到颜色表示向量,可以包括:将颜色信息输入至颜色编码器中,利用颜色编码器对颜色信息进行编码,得到颜色表示向量。
根据本公开的实施例,颜色编码器的作用可以理解为对颜色信息进行编码,但是并不局限于此,还可以理解为从颜色信息中提取特征,得到颜色表示向量。颜色编码器可以包括超分辨率测试序列(visual geometry group,VGG)或者残差网络(residual network,ResNet)。但是并不局限于此。还可以包括Vision Transformer(视觉编码解码器,ViT)中的编码器(Encoder)。
根据本公开的实施例,对文本信息进行编码,得到文本表示向量,可以包括:将文本信息输入至文本编码器中,利用文本编码器对文本信息进行编码,得到文本表示向量。
根据本公开的实施例,文本编码器的作用可以理解为对文本信息进行编码,但是并不局限于此,还可以理解为从文本信息提取特征,得到文本表示向量。文本编码器可以包括循环神经网络(recurrent neural network,RNN),例如长短期记忆网络(1ong shor-term memory,LSTM)、门控循环神经网络(gated recurrent neural network,GRU)。但是并不局限于此。还可以包括Transformer(编码解码器)中的编码器(Encoder)。
根据本公开的实施例,基于颜色表示向量和文本表示向量,生成与颜色信息和文本信息均匹配的目标图像,可以包括:将颜色表示向量和文本表示向量输入至文生图模块中,得到与颜色信息和文本信息均匹配的目标图像。
根据本公开的实施例,文生图模块可以包括:基于Transformer(编码解码器)的网络结构,但是并不局限于此,还可以包括:基于CNN(Convolutional Neural Networks,卷积神经网络)的网络结构。
例如,文生图模块可以包括基于Transformer(编码解码器)的网络结构的DALL.E模型。具体地,DALL.E模型使用dVAE(discrete variational autoencoder,离散化变分自编码器)。
根据本公开的优选实施例,文生图模块还可以包括扩散模型(diffusion model),也可以理解为去噪模型,例如U-net模型。
根据本公开的实施例,利用本公开实施例提供的图像生成方法,可以在描述信息包括文本信息的基础上,结合颜色信息,以颜色信息和文本信息共同作为引导条件,实现了对生成的目标图像的颜色控制。此外,将颜色信息进行编码,得到颜色表示向量,基于颜色表示向量即可生成与颜色信息相匹配的目标图像,调控方式简单、有效。
根据相关示例,可以在文本信息中添加例如“暖色调”、“冷色调”、“黄色”、“灰色”等与色调或者单一颜色相关的颜色关键词,基于文本信息,生成与文本信息中的颜色关键词相匹配的目标图像。
与基于文本信息生成与文本信息中的颜色关键词相匹配的目标图像相比,利用本公开实施例提供的图像生成方法,能够使得颜色信息粒度细到像素级别,在提高对目标图像颜色调控的同时,颜色配置精细。
根据本公开的实施例,颜色信息可以包括引导图像。针对如图2所示的操作S210对颜色信息进行编码,得到颜色表示向量,可以包括:利用颜色编码器提取引导图像中的与颜色相关的特征,得到颜色表示向量。基于引导图像作为颜色信息,可以使得生成的目标图像的像素颜色与引导图像的像素颜色相匹配。
根据本公开的实施例,可以对RGB(Red、Green、Blue)颜色空间进行离散化处理,得到256个颜色种类。使得引导图像中的每个颜色对应一个颜色种类。使用颜色编码器对颜色信息进行编码,得到颜色表示向量。
根据本公开的可选实施例,颜色信息还可以包括对引导图像进行颜色聚类处理后得到的信息。在此情况下,在执行如图2所示的操作S210对颜色信息进行编码,得到颜色表示向量之前,图像生成方法还可以包括如下操作。
例如,对引导图像进行颜色聚类,得到颜色信息。
根据本公开的实施例,可以利用K-means(硬聚类)算法对引导图像进行颜色聚类,得到颜色信息。但是并不局限于此。还可以利用混合高斯模型(Gaussian Mixture Models,GMM)或者Mean Shift(均值偏移)算法。只要是能够起到颜色聚类效果的算法均可,在此不再赘述。
根据本公开的实施例,对引导图像进行颜色聚类,得到的颜色信息,相较于直接将引导图像作为颜色信息,可以缩小颜色空间的范围,增大相邻区域颜色之间的距离,以便于后续提取颜色表示向量。
根据本公开的实施例,针对如图2所示的操作S230,基于颜色表示向量和文本表示向量,生成与颜色信息和文本信息相匹配的目标图像,可以包括如下操作。
例如,拼接颜色表示向量和文本表示向量,得到文生图表示向量。基于文生图表示向量,生成目标图像。
根据本公开的实施例,拼接颜色表示向量和文本表示向量,得到文生图表示向量,可以包括:将颜色表示向量和文本表示向量进行拼接(Add),得到文生图表示向量。但是并不局限于此。还可以包括:将颜色表示向量和文本表示向量进行融合(Concat),得到文生图表示向量。只要是能够基于颜色表示向量和文本表示向量,得到文生图表示向量的结合方法即可。
根据相关示例,可以直接基于颜色表示向量和文本表示向量,生成目标图像。例如,将颜色表示向量和文本表示向量同时作为输入数据,输入至文生图模块中,得到目标图像。
与直接基于颜色表示向量和文本表示向量,生成目标图像的方法相比,利用本公开实施例提供的基于文生图表示向量,生成目标图像,能够将颜色表示向量和文本表示向量结合,使得输入数据的综合性和结合性高,进而使得用于引导的作用明显。
图3示意性示出了根据本公开实施例的图像生成方法的流程示意图。
如图3所示,文本信息310可以包括“一辆车”,颜色信息320可以包括车的颜色、背景颜色等,例如每种纹理代表一种颜色,颜色信息还可以包括对应颜色的像素点的位置信息。可以将文本信息310输入至文本编码器M310中,得到文本表示向量330。将颜色信息320输入至颜色编码器M320中,得到颜色表示向量340。拼接颜色表示向量340和文本表示向量330,得到文生图表示向量350。将文生图表示向量350输入至文生图模块M330中,得到以车为目标对象的目标图像360。目标图像360中的车的颜色和背景颜色分别与颜色信息相匹配。
根据本公开的实施例,可以直接基于文生图表示向量,生成目标图像。例如,将文生图表示向量作为输入数据,输入至文生图模块中,得到目标图像。但是并不局限于此。还可以基于文生图表示向量和基准图像,生成目标图像。例如,将文生图表示向量和基准图像作为输入数据,输入至文生图模块中,得到目标图像。
根据本公开的实施例,基准图像可以包括随机高斯噪声图像,但是并不局限于此,还可以包括任意具有像素信息的图像。只要是基准图像能够在文本信息和颜色信息的引导下,生成与文本信息描述的内容相匹配,且与颜色信息调控的颜色相匹配的目标图像即可。
根据本公开的实施例,在基准图像包括随机高斯噪声图像的情况下,可以基于描述信息例如文本信息和颜色信息对随机高斯噪声图像进行去噪处理,生成目标图像。
根据本公开的实施例,可以利用描述信息例如文本信息和颜色信息作为引导条件。利用引导条件对随机高斯噪声图的每个像素点进行引导调控,从而生成与引导条件相匹配的目标图像。
根据本公开的示例性实施例,基于文生图表示向量,生成目标图像,可以包括如下操作。
例如,基于文生图表示向量和基准图像,生成多个中间文生图图像。基于多个中间文生图图像各自的图像语义信息与文生图表示向量,从多个中间文生图图像中确定目标中间文生图图像。基于目标中间文生图图像和文生图表示向量,生成目标图像。
根据本公开的实施例,基于文生图表示向量和基准图像,生成多个中间文生图图像,可以包括:基于文生图表示向量和基准图像,生成第一轮次文生图图像。对第一轮次文生图图像分别进行多次采样处理,例如随机采样或者添加随机向量的处理,生成多个第一轮次中间图像。可以针对每个第一轮次中间图像,基于第一轮次中间图像和文生图表示向量,生成第二轮次文生图图像。得到与多个第一轮次中间图像一一对应的多个第二轮次文生图图像。可以将多个第二轮次文生图图像作为多个中间文生图图像。但是并不局限于此。还可以将多个第t轮次文生图图像作为多个中间文生图图像。t可以包括大于或者等于1的整数。
根据本公开的实施例,基于多个中间文生图图像各自的图像语义信息与文生图表示向量,从多个中间文生图图像中确定目标中间文生图图像,可以包括:确定多个中间文生图图像各自的图像语义信息和文生图表示向量之间的语义相似度,得到与多个中间文生图图像一一对应的多个语义相似度。按照由高到低的顺序,对多个语义相似度例如n1个语义相似度进行排序,将语义相似度最高的n2个中间文生图图像作为目标中间文生图图像。n1和n2分别为正整数,且n1大于n2。
根据本公开的实施例,中间文生图图像的图像语义信息的确定方式不做限定,例如,可以利用特征提取模块对中间文生图图像进行特征提取,得到中间文生图图像的图像语义信息。特征提取模块的网络结构不做限定,例如卷积神经网络、循环神经网络或者残差网络。
根据本公开的实施例,语义相似度的确定方式不做限定,只要是能够表征图像语义信息与文生图表示向量之间的语义相关性的确定方式即可。例如,欧式距离、马氏距离等。
根据本公开的实施例,基于目标中间文生图图像和文生图表示向量,生成目标图像,可以包括:对目标中间文生图图像分别进行多次采样处理,例如添加随机向量的处理或者随机采样处理,得到多个第t轮次中间图像。基于多个第t轮次中间图像和文生图表示向量,生成多个第t轮次文生图图像。基于多个第t轮次文生图图像各自的图像语义信息和文生图表示向量,从多个第t轮次文生图图像中确定目标图像。
根据本公开的实施例,基于多个第t轮次文生图图像各自的图像语义信息和文生图表示向量,从多个第t轮次文生图图像中确定目标图像,可以包括:确定多个第t轮次文生图图像各自的图像语义信息和文生图表示向量之间的语义相似度,得到与多个第t轮次文生图图像一一对应的多个语义相似度。按照由高到低的顺序,对多个语义相似度进行排序,将语义相似度最高的第t轮次文生图图像作为目标图像。
利用本公开实施例提供的图像生成方法,可以利用多个中间文生图图像各自的图像语义信息与文生图表示向量,从多个中间文生图图像中筛选出与引导条件文生图表示向量相接近的目标中间文生图图像。由此,通过中间的筛选过程,以提高后续目标图像与引导条件的匹配度的同时,降低处理量,提高处理效率。
根据本公开的实施例,基于多个中间文生图图像各自的图像语义信息与文生图表示向量,从多个中间文生图图像中确定目标中间文生图图像,可以仅执行一轮。但是并不局限于此。还可以执行多轮,或者是在循环迭代的过程中,每一轮均执行一次筛选操作。
根据本公开的实施例,筛选操作的执行轮数越多,生成的目标图像与引导条件越相符。
例如,循环地执行下述操作,直至第t轮次文生图图像满足预定条件:
基于文生图表示向量和n个第t轮次中间图像,确定与n个第t轮次中间图像一一对应的n个第t轮次文生图图像以及n个第t轮次语义相似度。语义相似度用于表征文生图表示向量与第t轮次文生图图像之间的语义相似性,t大于或者等于1的整数,n为大于1的整数。
在n个第t轮次文生图图像不满足预定条件的情况下,基于n个第t轮次语义相似度,从n个第t轮次文生图图像中确定n/k个第t轮次目标文生图图像。k大于1且k与n呈倍数关系。
对每个第t轮次目标文生图图像分别进行k次采样处理,得到n个第t+1轮次中间图像。
在n个第t轮次文生图图像满足预定条件的情况下,基于n个第t轮次语义相似度,从n个第t轮次文生图图像中确定目标图像。
根据本公开的示例性实施例,预定条件可以包括以下至少一项:t等于预定整数T、n个第t轮次语义相似度中存在大于预定语义相似度阈值的至少一个第t轮次语义相似度。对T不做限定,例如1000或者800,可根据实际情况自行确定。
图4示意性示出了根据本公开另一实施例的图像生成方法的流程示意图。
如图4所示,可以循环地执行下述操作,直至第t轮次文生图图像满足预定条件,例如t为T。
如图4所示,可以将文生图表示向量y和n个第t轮次中间图像x_t_1、x_t_2、…、x_t_n,输入至文生图模块中,得到n个第t轮次文生图图像U(x_t_1|y)、U(x_t_2|y)、…、U(x_t_n|y),以及n个第t轮次语义相似度S(x_t_1,y)、S(x_t_2,y)、…、S(x_t_n,y)。在确定t小于T的情况下,从n个第t轮次语义相似度中确定语义相似度最大的n/2个第t轮次语义相似度。对与语义相似度最大的n/2个第t轮次语义相似度一一对应的n/2个第t轮次文生图图像分别进行2次采样处理,例如采样处理P1和采样处理P2,得到n个第t+1轮次中间图像。
如图4所示,将n个第t+1轮次中间图像作为n个第t轮次中间图像,循环上述操作,直至t=T。在t=T的情况下,基于n个第t轮次语义相似度S(x_t_1,y)、S(x_t_2,y)、…、S(x_t_n,y),从n个第t轮次语义相似度中确定语义相似度最大的1个第t轮次语义相似度。将与语义相似度最大的第t轮次语义相似度相对应的第t轮次文生图图像作为目标图像U(x_T|y)。
如图4所示,在t=1的情况下,可以将n个基准图像x_1_1和文生图表示向量y输入至文生图模块中,得到n个第一轮次文生图图像。
根据本公开的实施例,在本公开实施例提供的图像生成方法中,循环过程中的采样处理影响着目标图像的成像质量。在每次迭代的过程中,均从n个第t轮次文生图图像中将相似度最高的n/k个第t轮次文生图图像筛选出来,进行后续的迭代操作。由此实现了在生成过程中对随机采样的结果的干预,进而提高了目标图像的成像质量。
根据本公开的可选实施例,可以利用如图5所示的深度学习模型的训练方法训练深度学习模型,得到经训练的深度学习模型。将经训练的深度学习模型作为执行上述图像生成方法的文生图模型。
图5示意性示出了根据本公开实施例的深度学习模型的训练方法的流程图。
如图5所示,该方法包括操作S510~S540。
在操作S510,将样本颜色信息输入至深度学习模型的颜色编码器中,得到样本颜色表示向量。
在操作S520,将样本文本信息输入至深度学习模型的文本编码器中,得到样本文本表示向量。
在操作S530,将样本颜色表示向量和样本文本表示向量输入至深度学习模型的文生图模块中,得到样本目标图像。
在操作S540,基于样本目标图像和与样本文本信息相匹配的样本图像,训练深度学习模型,得到经训练的深度学习模型。
根据本公开的实施例,利用本公开实施例提供的深度学习模型的训练方法,能够将经训练的深度学习模型应用到图像生成方法中,在描述信息包括文本信息的基础上,结合颜色信息,以颜色信息和文本信息共同作为引导条件,实现了对生成的目标图像的颜色控制。
根据本公开的实施例,与样本文本信息相匹配的样本图像,可以理解为:样本图像中的内容与样本文本信息所描述的内容语义相同。例如,样本图像中的图像对象为“小狗”,样本文本信息为“一只小狗”。
根据本公开的实施例,可以直接以样本图像作为样本颜色信息。但是并不局限于此。还可以对样本图像进行颜色聚类,得到样本颜色信息。
根据本公开的实施例,对样本图像进行颜色聚类,得到的样本颜色信息,相较于直接将样本图像作为颜色信息,可以缩小颜色空间的范围,增大各个颜色之间的距离,以便于提高训练效率。
根据本公开的实施例,针对如图5所示的操作S540,基于样本目标图像和与样本文本信息相匹配的样本图像,训练深度学习模型,得到经训练的深度学习模型,可以包括如下操作。
例如,将样本目标图像和样本图像输入至损失函数中,得到损失值。基于损失值调整深度学习模型的参数,直至满足训练条件,将满足训练条件的模型作为经训练的深度学习模型。
根据本公开的实施例,损失函数可以是二范数损失函数,但是并不局限于此,只要是能够基于损失值调整深度学习模型的参数,使得样本目标图像越来越趋近于样本图像的损失函数即可。
根据本公开的实施例,训练条件可以指调参的轮次达到预定轮次阈值,但是并不局限于此,还可以指损失值收敛。只要是能够使得深度学习模型的预测精度达到精度阈值的训练条件即可。
根据本公开的实施例,利用上述调参方式,能够使得深度学习模型的训练精度高的同时,提高训练速度。
根据本公开的实施例,在执行如图5所示的操作S510之前,深度学习模型的训练方法还可以包括从多个初始样本图像中确定样本图像的操作。
例如,对多个初始样本图像分别进行颜色聚类,得到多个样本颜色信息。基于多个样本颜色信息,从多个初始样本图像中确定样本图像。
根据本公开的实施例,对多个初始样本图像分别进行颜色聚类,得到多个样本颜色信息。每个样本颜色信息与一个初始样本图像相对应。每个样本颜色信息可以包括至少一个样本颜色聚类中心。
根据本公开的实施例,基于多个样本颜色信息,从多个初始样本图像中确定样本图像,可以包括:确定每个初始样本图像的样本颜色聚类中心的数量。将样本颜色聚类中心的数量最小的初始样本图像作为样本图像。但是并不局限于此。还可以将样本颜色聚类中心的数量小于预定数量阈值的初始样本图像作为样本图像。
根据本公开的实施例,将样本颜色聚类中心的数量最小的初始样本图像作为样本图像,可以使得样本图像中的颜色种类少、颜色简单,进而将该种初始样本图像作为样本图像,能够加快深度学习模型从样本图像中学习到与样本颜色信息相关的特征,提高深度学习模型学习到以颜色信息作为引导的生成目标图像的能力。
根据本公开的实施例,利用对初始样本图像进行颜色聚类,并基于样本颜色信息确定初始样本图像是否为样本图像,可以通过该筛选方式,使得样本图像应用于深度学习模型的训练方法中,提高训练精度的同时提高训练速度。
根据本公开的其他实施例,基于多个样本颜色信息,从多个初始样本图像中确定样本图像,还可以包括:针对每个初始样本图像,从与初始样本图像相匹配的样本颜色信息中确定样本颜色聚类中心。将样本颜色聚类中心与初始样本图像的多个像素点各自的像素值进行比对,得到平均匹配度。在确定平均匹配度大于预定匹配度阈值的情况下,确定初始样本图像为样本图像。
例如,样本颜色聚类中心包括两个。将第一样本颜色聚类中心分别与多个像素点各自的像素值进行比对,得到与多个像素点一一对应的多个第一匹配度。计算多个第一匹配度的平均值,得到第一匹配度平均值。将第二样本颜色聚类中心分别与多个像素点各自的像素值进行比对,得到与多个像素点一一对应的多个第二匹配度。计算多个第二匹配度的平均值,得到第二匹配度平均值。基于第一匹配度平均值和第二匹配度平均值,确定平均匹配度。
根据本公开的实施例,该匹配度可以理解为欧式距离、马氏距离等。
根据本公开的实施例,在平均匹配度大于预定匹配度阈值的情况下,说明初始样本图像的颜色较集中,可以作为样本图像。
例如,白背景红色图标(logo)的初始样本图像,样本颜色聚类中心可以为两个,用于表征背景白色的样本颜色聚类中心和用于表征图标红色的样本颜色聚类中心。图标中各个像素点的像素值与用于表征图标红色的样本颜色聚类中心匹配度高,且匹配度高的像素点的数量多。则说明该初始样本图像的颜色集中,可以作为样本图像应用于深度学习模型的训练中。
根据本公开的实施例,利用样本颜色聚类中心与像素点的像素值进行相似度比较,能够对初始样本图像进行筛选,保留颜色集中的初始样本图像作为样本图像,由此来提高深度学习模型学习通过颜色信息进行颜色调控的能力。
图6示意性示出了根据本公开另一实施例的深度学习模型的训练方法的流程示意图。
如图6所示,可以从样本图像L660中提取语义信息,得到“一辆车”的样本文本信息610。对样本图像L660进行颜色聚类,得到样本颜色信息620。将样本文本信息610输入至文本编码器M610中,得到样本文本表示向量630。将样本颜色信息620输入至颜色编码器M620中,得到样本颜色表示向量640。拼接样本文本表示向量630和样本颜色表示向量640,得到样本文生图表示向量650。将样本文生图表示向量650输入至文生图模块M630中,得到样本目标图像P660。将样本目标图像P660和样本图像L660输入至损失函数中,得到损失值。基于损失值调整文本编码器M610、颜色编码器M620和文生图模块M630中的参数,得到经训练的深度学习模型。
图7示意性示出了根据本公开实施例的图像生成装置的框图。
如图7所示,图像生成装置700包括:第一编码模块710、第二编码模块720以及生成模块730。
第一编码模块710,用于对颜色信息进行编码,得到颜色表示向量。
第二编码模块720,用于对文本信息进行编码,得到文本表示向量。
生成模块730,用于基于颜色表示向量和文本表示向量,生成与颜色信息和文本信息均匹配的目标图像。
根据本公开的实施例,图像生成装置还包括:聚类模块。
聚类模块,用于对引导图像进行颜色聚类,得到颜色信息。
根据本公开的实施例,生成模块包括:拼接子模块以及生成子模块。
拼接子模块,用于拼接颜色表示向量和文本表示向量,得到文生图表示向量。
生成子模块,用于基于文生图表示向量,生成目标图像。
根据本公开的实施例,生成子模块包括:第一生成单元、第一确定单元以及第二生成单元。
第一生成单元,用于基于文本表示向量和基准图像,生成多个中间文生图图像。
第一确定单元,用于基于多个中间文生图图像各自的图像语义信息与文生图表示向量,从中间文生图图像中确定目标中间文生图图像。
第二生成单元,用于基于目标中间文生图图像和文生图表示向量,生成目标图像。
根据本公开的实施例,生成子模块包括:第二确定单元、第三确定单元、采样单元以及第四确定单元。
循环地执行下述操作,直至第t轮次文生图图像满足预定条件:
第二确定单元,用于基于文生图表示向量和n个第t轮次中间图像,确定与n个第t轮次中间图像一一对应的n个第t轮次文生图图像以及n个第t轮次语义相似度,其中,语义相似度用于表征文生图表示向量与第t轮次文生图图像之间的语义相似性,t大于或者等于1的整数,n为大于1的整数。
第三确定单元,用于在n个第t轮次文生图图像不满足预定条件的情况下,基于n个第t轮次语义相似度,从n个第t轮次文生图图像中确定n/k个第t轮次目标文生图图像,其中,k大于1且k与n呈倍数关系。
采样单元,用于对每个第t轮次目标文生图图像分别进行k次采样处理,得到n个第t+1轮次中间图像。
第四确定单元,用于在n个第t轮次文生图图像满足预定条件的情况下,基于n个第t轮次语义相似度,从n个第t轮次文生图图像中确定目标图像。
根据本公开的实施例,预定条件包括以下至少一项:t等于预定整数T、n个第t轮次语义相似度中存在大于预定语义相似度阈值的至少一个第t轮次语义相似度。
图8示意性示出了根据本公开实施例的深度学习模型的训练装置的框图。
如图8所示,深度学习模型的训练装置800包括:第一输入模块810、第二输入模块820、第三输入模块830以及训练模块840。
第一输入模块810,用于将样本颜色信息输入至深度学习模型的颜色编码器中,得到样本颜色表示向量。
第二输入模块820,用于将样本文本信息输入至深度学习模型的文本编码器中,得到样本文本表示向量。
第三输入模块830,用于将样本颜色表示向量和样本文本表示向量输入至深度学习模型的文生图模块中,得到样本目标图像。
训练模块840,用于基于样本目标图像和与样本文本信息相匹配的样本图像,训练深度学习模型,得到经训练的深度学习模型。
根据本公开的实施例,深度学习模型的训练装置还包括:第一样本聚类模块。
第一样本聚类模块,用于对样本图像进行颜色聚类,得到样本颜色信息。
根据本公开的实施例,深度学习模型的训练装置还包括:第二样本聚类模块以及筛选模块。
第二样本聚类模块,用于对多个初始样本图像分别进行颜色聚类,得到多个样本颜色信息。
筛选模块,用于基于多个样本颜色信息,从多个初始样本图像中确定样本图像。
根据本公开的实施例,筛选模块包括:第一确定子模块、第二确定子模块、第三确定子模块以及第四确定子模块。
第一确定子模块,用于针对每个初始样本图像,从与初始样本图像相匹配的样本颜色信息中确定样本颜色聚类中心。
第二确定子模块,用于将样本颜色聚类中心与初始样本图像的多个像素点各自的像素值进行比对,得到平均匹配度。
第三确定子模块,用于在确定平均匹配度大于预定匹配度阈值的情况下,确定初始样本图像为样本图像。
根据本公开的实施例,训练模块包括:第一输入子模块以及调参子模块。
第一输入子模块,用于将样本目标图像和样本图像输入至损失函数中,得到损失值。
调参子模块,用于基于损失值调整深度学习模型的参数,直至满足训练条件,将满足训练条件的模型作为经训练的深度学习模型。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
根据本公开的实施例,一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如本公开实施例的方法。
根据本公开的实施例,一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行如本公开实施例的方法。
根据本公开的实施例,一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如本公开实施例的方法。
图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图9所示,设备900包括计算单元901,其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序,来执行各种适当的动作和处理。在RAM 903中,还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
设备900中的多个部件连接至I/O接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如图像生成方法。例如,在一些实施例中,图像生成方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时,可以执行上文描述的图像生成方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行图像生成方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以是分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (25)
1.一种图像生成方法,包括:
对颜色信息进行编码,得到颜色表示向量;
对文本信息进行编码,得到文本表示向量;以及
基于所述颜色表示向量和所述文本表示向量,生成与所述颜色信息和所述文本信息均匹配的目标图像。
2.根据权利要求1所述的方法,还包括:
对引导图像进行颜色聚类,得到所述颜色信息。
3.根据权利要求1所述的方法,其中,所述基于所述颜色表示向量和所述文本表示向量,生成与所述颜色信息和所述文本信息相匹配的目标图像,包括:
拼接所述颜色表示向量和所述文本表示向量,得到文生图表示向量;以及
基于所述文生图表示向量,生成所述目标图像。
4.根据权利要求1所述的方法,其中,所述基于所述文生图表示向量,生成所述目标图像,包括:
基于所述文本表示向量和基准图像,生成多个中间文生图图像;
基于所述多个中间文生图图像各自的图像语义信息与所述文生图表示向量,从所述中间文生图图像中确定目标中间文生图图像;以及
基于所述目标中间文生图图像和所述文生图表示向量,生成目标图像。
5.根据权利要求4所述的方法,其中,所述基于所述文生图表示向量,生成所述目标图像,包括:
循环地执行下述操作,直至第t轮次文生图图像满足预定条件:
基于所述文生图表示向量和n个第t轮次中间图像,确定与n个第t轮次中间图像一一对应的n个第t轮次文生图图像以及n个第t轮次语义相似度,其中,所述语义相似度用于表征文生图表示向量与所述第t轮次文生图图像之间的语义相似性,t大于或者等于1的整数,n为大于1的整数;
在所述n个第t轮次文生图图像不满足预定条件的情况下,基于所述n个第t轮次语义相似度,从所述n个第t轮次文生图图像中确定n/k个第t轮次目标文生图图像,其中,k大于1且k与n呈倍数关系;
对每个所述第t轮次目标文生图图像分别进行k次采样处理,得到n个第t+1轮次中间图像;
在所述n个第t轮次文生图图像满足所述预定条件的情况下,基于所述n个第t轮次语义相似度,从所述n个第t轮次文生图图像中确定所述目标图像。
6.根据权利要求5所述的方法,其中,所述预定条件包括以下至少一项:t等于预定整数T、所述n个第t轮次语义相似度中存在大于预定语义相似度阈值的至少一个第t轮次语义相似度。
7.一种深度学习模型的训练方法,包括:
将样本颜色信息输入至深度学习模型的颜色编码器中,得到样本颜色表示向量;
将样本文本信息输入至所述深度学习模型的文本编码器中,得到样本文本表示向量;
将所述样本颜色表示向量和所述样本文本表示向量输入至所述深度学习模型的文生图模块中,得到样本目标图像;以及
基于所述样本目标图像和与所述样本文本信息相匹配的样本图像,训练所述深度学习模型,得到经训练的深度学习模型。
8.根据权利要求7所述的方法,还包括:
对所述样本图像进行颜色聚类,得到所述样本颜色信息。
9.根据权利要求7或8所述的方法,还包括:
对多个初始样本图像分别进行颜色聚类,得到多个样本颜色信息;以及
基于所述多个样本颜色信息,从所述多个初始样本图像中确定所述样本图像。
10.根据权利要求9所述的方法,其中,所述基于所述多个样本颜色信息,从所述多个初始样本图像中确定所述样本图像,包括:
针对每个所述初始样本图像,从与所述初始样本图像相匹配的样本颜色信息中确定样本颜色聚类中心;
将所述样本颜色聚类中心与所述初始样本图像的多个像素点各自的像素值进行比对,得到平均匹配度;以及
在确定所述平均匹配度大于预定匹配度阈值的情况下,确定所述初始样本图像为所述样本图像。
11.根据权利要求7所述的方法,其中,所述基于所述样本目标图像和与所述样本文本信息相匹配的样本图像,训练所述深度学习模型,得到经训练的深度学习模型,包括:
将所述样本目标图像和所述样本图像输入至损失函数中,得到损失值;以及
基于所述损失值调整所述深度学习模型的参数,直至满足训练条件,将满足所述训练条件的模型作为所述经训练的深度学习模型。
12.一种图像生成装置,包括:
第一编码模块,用于对颜色信息进行编码,得到颜色表示向量;
第二编码模块,用于对文本信息进行编码,得到文本表示向量;以及
生成模块,用于基于所述颜色表示向量和所述文本表示向量,生成与所述颜色信息和所述文本信息均匹配的目标图像。
13.根据权利要求12所述的装置,还包括:
聚类模块,用于对引导图像进行颜色聚类,得到所述颜色信息。
14.根据权利要求12所述的装置,其中,所述生成模块包括:
拼接子模块,用于拼接所述颜色表示向量和所述文本表示向量,得到文生图表示向量;以及
生成子模块,用于基于所述文生图表示向量,生成所述目标图像。
15.根据权利要求12所述的装置,其中,所述生成子模块包括:
第一生成单元,用于基于所述文本表示向量和基准图像,生成多个中间文生图图像;
第一确定单元,用于基于所述多个中间文生图图像各自的图像语义信息与所述文生图表示向量,从所述中间文生图图像中确定目标中间文生图图像;以及
第二生成单元,用于基于所述目标中间文生图图像和所述文生图表示向量,生成目标图像。
16.根据权利要求15所述的装置,其中,所述生成子模块包括:
循环地执行下述操作,直至第t轮次文生图图像满足预定条件:
第二确定单元,用于基于所述文生图表示向量和n个第t轮次中间图像,确定与n个第t轮次中间图像一一对应的n个第t轮次文生图图像以及n个第t轮次语义相似度,其中,所述语义相似度用于表征文生图表示向量与所述第t轮次文生图图像之间的语义相似性,t大于或者等于1的整数,n为大于1的整数;
第三确定单元,用于在所述n个第t轮次文生图图像不满足预定条件的情况下,基于所述n个第t轮次语义相似度,从所述n个第t轮次文生图图像中确定n/k个第t轮次目标文生图图像,其中,k大于1且k与n呈倍数关系;
采样单元,用于对每个所述第t轮次目标文生图图像分别进行k次采样处理,得到n个第t+1轮次中间图像;
第四确定单元,用于在所述n个第t轮次文生图图像满足所述预定条件的情况下,基于所述n个第t轮次语义相似度,从所述n个第t轮次文生图图像中确定所述目标图像。
17.根据权利要求16所述的装置,其中,所述预定条件包括以下至少一项:t等于预定整数T、所述n个第t轮次语义相似度中存在大于预定语义相似度阈值的至少一个第t轮次语义相似度。
18.一种深度学习模型的训练装置,包括:
第一输入模块,用于将样本颜色信息输入至深度学习模型的颜色编码器中,得到样本颜色表示向量;
第二输入模块,用于将样本文本信息输入至所述深度学习模型的文本编码器中,得到样本文本表示向量;
第三输入模块,用于将所述样本颜色表示向量和所述样本文本表示向量输入至所述深度学习模型的文生图模块中,得到样本目标图像;以及
训练模块,用于基于所述样本目标图像和与所述样本文本信息相匹配的样本图像,训练所述深度学习模型,得到经训练的深度学习模型。
19.根据权利要求18所述的装置,还包括:
第一样本聚类模块,用于对所述样本图像进行颜色聚类,得到所述样本颜色信息。
20.根据权利要求18或19所述的装置,还包括:
第二样本聚类模块,用于对多个初始样本图像分别进行颜色聚类,得到多个样本颜色信息;以及
筛选模块,用于基于所述多个样本颜色信息,从所述多个初始样本图像中确定所述样本图像。
21.根据权利要求20所述的装置,其中,所述筛选模块包括:
第一确定子模块,用于针对每个所述初始样本图像,从与所述初始样本图像相匹配的样本颜色信息中确定样本颜色聚类中心;
第二确定子模块,用于将所述样本颜色聚类中心与所述初始样本图像的多个像素点各自的像素值进行比对,得到平均匹配度;
第三确定子模块,用于在确定所述平均匹配度大于预定匹配度阈值的情况下,确定所述初始样本图像为所述样本图像。
22.根据权利要求18所述的装置,其中,所述训练模块包括:
第一输入子模块,用于将所述样本目标图像和所述样本图像输入至损失函数中,得到损失值;以及
调参子模块,用于基于所述损失值调整所述深度学习模型的参数,直至满足训练条件,将满足所述训练条件的模型作为所述经训练的深度学习模型。
23.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至11中任一项所述的方法。
24.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1至11中任一项所述的方法。
25.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1至11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211688830.9A CN115880506B (zh) | 2022-12-27 | 2022-12-27 | 图像生成方法、模型的训练方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211688830.9A CN115880506B (zh) | 2022-12-27 | 2022-12-27 | 图像生成方法、模型的训练方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115880506A true CN115880506A (zh) | 2023-03-31 |
CN115880506B CN115880506B (zh) | 2024-03-08 |
Family
ID=85755702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211688830.9A Active CN115880506B (zh) | 2022-12-27 | 2022-12-27 | 图像生成方法、模型的训练方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115880506B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116883528A (zh) * | 2023-06-12 | 2023-10-13 | 阿里巴巴(中国)有限公司 | 图像生成方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109902166A (zh) * | 2019-03-12 | 2019-06-18 | 北京百度网讯科技有限公司 | 视觉问答模型、电子设备及存储介质 |
US20200372899A1 (en) * | 2019-05-23 | 2020-11-26 | International Business Machines Corporation | Systems and methods for automated generation of subtitles |
CN113590858A (zh) * | 2021-06-30 | 2021-11-02 | 北京百度网讯科技有限公司 | 目标对象的生成方法、装置、电子设备以及存储介质 |
CN114549935A (zh) * | 2022-02-25 | 2022-05-27 | 北京百度网讯科技有限公司 | 信息生成方法和装置 |
-
2022
- 2022-12-27 CN CN202211688830.9A patent/CN115880506B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109902166A (zh) * | 2019-03-12 | 2019-06-18 | 北京百度网讯科技有限公司 | 视觉问答模型、电子设备及存储介质 |
US20200372899A1 (en) * | 2019-05-23 | 2020-11-26 | International Business Machines Corporation | Systems and methods for automated generation of subtitles |
CN113590858A (zh) * | 2021-06-30 | 2021-11-02 | 北京百度网讯科技有限公司 | 目标对象的生成方法、装置、电子设备以及存储介质 |
CN114549935A (zh) * | 2022-02-25 | 2022-05-27 | 北京百度网讯科技有限公司 | 信息生成方法和装置 |
Non-Patent Citations (1)
Title |
---|
周作为 等: "利用自然语言文本描述进行图像编辑", 电子技术与软件工程, 16 January 2020 (2020-01-16), pages 119 - 121 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116883528A (zh) * | 2023-06-12 | 2023-10-13 | 阿里巴巴(中国)有限公司 | 图像生成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115880506B (zh) | 2024-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113590858B (zh) | 目标对象的生成方法、装置、电子设备以及存储介质 | |
EP4044127A2 (en) | Model training method and apparatus, font library establishment method and apparatus, device and storage medium | |
CN113379627A (zh) | 图像增强模型的训练方法和对图像进行增强的方法 | |
CN113792851B (zh) | 字体生成模型训练方法、字库建立方法、装置及设备 | |
CN113792526B (zh) | 字符生成模型的训练方法、字符生成方法、装置和设备和介质 | |
CN114861889B (zh) | 深度学习模型的训练方法、目标对象检测方法和装置 | |
CN114820871B (zh) | 字体生成方法、模型的训练方法、装置、设备和介质 | |
CN114863437B (zh) | 文本识别方法、装置、电子设备和存储介质 | |
CN114792355B (zh) | 虚拟形象生成方法、装置、电子设备和存储介质 | |
CN113657249B (zh) | 训练方法、预测方法、装置、电子设备以及存储介质 | |
CN115880506B (zh) | 图像生成方法、模型的训练方法、装置及电子设备 | |
CN114445826A (zh) | 视觉问答方法、装置、电子设备以及存储介质 | |
CN114495101A (zh) | 文本检测方法、文本检测网络的训练方法及装置 | |
CN116579407B (zh) | 神经网络模型的压缩方法、训练方法、处理方法和装置 | |
CN114926322B (zh) | 图像生成方法、装置、电子设备和存储介质 | |
CN115457365B (zh) | 一种模型的解释方法、装置、电子设备及存储介质 | |
CN113963358B (zh) | 文本识别模型训练方法、文本识别方法、装置及电子设备 | |
CN113408304B (zh) | 文本翻译方法、装置、电子设备及存储介质 | |
CN115376137A (zh) | 一种光学字符识别处理、文本识别模型训练方法及装置 | |
CN114078274A (zh) | 人脸图像检测方法、装置、电子设备以及存储介质 | |
CN113903071A (zh) | 人脸识别方法、装置、电子设备和存储介质 | |
CN116257611B (zh) | 问答模型的训练方法、问答处理方法、装置及存储介质 | |
CN116229214B (zh) | 模型训练方法、装置及电子设备 | |
CN115131709B (zh) | 视频类别预测方法、视频类别预测模型的训练方法及装置 | |
CN116486420B (zh) | 文档图像的实体抽取方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |