CN117575894B - 图像生成方法、装置、电子设备和计算机可读存储介质 - Google Patents
图像生成方法、装置、电子设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN117575894B CN117575894B CN202410058278.8A CN202410058278A CN117575894B CN 117575894 B CN117575894 B CN 117575894B CN 202410058278 A CN202410058278 A CN 202410058278A CN 117575894 B CN117575894 B CN 117575894B
- Authority
- CN
- China
- Prior art keywords
- noise
- image
- content
- target
- interaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 125
- 230000003993 interaction Effects 0.000 claims abstract description 427
- 230000002452 interceptive effect Effects 0.000 claims description 98
- 238000013145 classification model Methods 0.000 claims description 91
- 238000006243 chemical reaction Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 abstract description 23
- 238000013473 artificial intelligence Methods 0.000 abstract description 13
- 230000008569 process Effects 0.000 description 33
- 239000013598 vector Substances 0.000 description 27
- 238000012549 training Methods 0.000 description 21
- 238000009792 diffusion process Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- QVFWZNCVPCJQOP-UHFFFAOYSA-N chloralodol Chemical compound CC(O)(C)CC(C)OC(O)C(Cl)(Cl)Cl QVFWZNCVPCJQOP-UHFFFAOYSA-N 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 239000000463 material Substances 0.000 description 7
- 230000004927 fusion Effects 0.000 description 6
- 230000006978 adaptation Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0242—Determining effectiveness of advertisements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/16—Image acquisition using multiple overlapping images; Image stitching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Abstract
本申请实施例公开了一种图像生成方法、装置、电子设备和计算机可读存储介质;本申请实施例在获取图像生成内容,并在图像生成内容中提取出隐空间的特征,得到所述图像生成内容的内容特征后,对内容特征添加至少一次噪声,得到噪声内容特征,对噪声内容特征进行分类,得到预测交互类别,根据预测交互类别,确定噪声内容特征的目标噪声,并基于目标噪声对噪声内容特征进行调整,得到目标噪声内容特征,对目标噪声内容特征进行去噪,以得到目标图像内容特征,并根据目标图像内容特征,生成图像生成内容对应的目标交互图像;该方案可以提升图像生成的准确性。本发明实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。
Description
技术领域
本发明涉及图像处理技术领域,具体涉及一种图像生成方法、装置、电子设备和计算机可读存储介质。
背景技术
近年来,随着互联网技术的飞速发展,通过各类扩散模型生成图像的方式也越来越便捷。为了提升生成图像的质量,当前的图像生成方法可以在使用扩散模型的基础上学习不同的分类信息,通过分类信息来引导条件生成图像。
在对当前技术的研究和实践过程中,本申请的发明人发现在学习分类信息过程中,对于中间过程的隐空间的特征,需要解码成图像并使用分类器进行分类,这个过程会十分耗时,而且,图像级别的梯度下降还会造成对抗攻击,因此,导致图像生成的准确性的较低。
发明内容
本申请实施例提供一种图像生成方法、装置、电子设备和计算机可读存储介质,可以提高图像生成的准确性。
一种图像生成方法,包括:
获取图像生成内容,并在所述图像生成内容中提取出隐空间的特征,得到所述图像生成内容的内容特征;
对所述内容特征添加至少一次噪声,得到所述图像生成内容对应的噪声内容特征;
对所述噪声内容特征进行分类,得到预测交互类别,所述预测交互类别指示基于所述噪声内容特征生成的图像在交互时的反馈程度;
根据所述预测交互类别,确定所述噪声内容特征的目标噪声,并基于所述目标噪声对所述噪声内容特征进行调整,得到目标噪声内容特征;
对所述目标噪声内容特征进行去噪,以得到目标图像内容特征,并根据所述目标图像内容特征,生成所述图像生成内容对应的目标交互图像。
相应的,本申请实施例提供一种图像生成装置,包括:
获取单元,用于获取图像生成内容,并在所述图像生成内容中提取出隐空间的特征,得到所述图像生成内容的内容特征;
添加单元,用于对所述内容特征添加至少一次噪声,得到所述图像生成内容对应的噪声内容特征;
分类单元,用于对所述噪声内容特征进行分类,得到预测交互类别,所述预测交互类别指示基于所述噪声内容特征生成的图像在交互时的反馈程度;
调整单元,用于根据所述预测交互类别,确定所述噪声内容特征的目标噪声,并基于所述目标噪声对所述噪声内容特征进行调整,得到目标噪声内容特征;
生成单元,用于对所述目标噪声内容特征进行去噪,以得到目标图像内容特征,并根据所述目标图像内容特征,生成所述图像生成内容对应的目标交互图像。
在一些实施例中,所述调整单元,具体可以用于在所述图像生成内容中提取出图像条件特征,所述图像条件特征表征基于所述图像生成内容生成图像的条件信息;基于所述图像条件特征,在所述噪声内容特征中识别出目标条件噪声;根据所述预测交互类别,对所述目标条件噪声进行调整,以得到所述噪声内容特征的目标噪声。
在一些实施例中,所述调整单元,具体可以用于在所述噪声内容特征中识别出原始噪声;根据所述图像条件特征,在所述噪声内容特征中识别出条件噪声;将所述原始噪声和条件噪声进行融合,得到目标条件噪声。
在一些实施例中,所述调整单元,具体可以用于获取所述噪声内容特征对应的引导权重;基于所述引导权重分别对所述原始噪声和条件噪声进行加权;计算加权后条件噪声与加权后原始噪声的差值,得到目标条件噪声。
在一些实施例中,所述调整单元,具体可以用于基于所述预测交互类别和条件噪声,确定所述噪声内容特征对应的分类噪声;将所述分类噪声和目标条件噪声进行融合,得到所述噪声内容特征的目标噪声。
在一些实施例中,所述调整单元,具体可以用于获取所述预测交互类别对应的概率分布信息,所述概率分布信息包括不同预设交互类别的概率信息,所述预设交互类别包括所述预测交互类别;基于所述概率分布信息和条件噪声,确定不同预设交互类别对应的当前分类噪声;将所述当前分类噪声进行融合,得到所述噪声内容特征对应的分类噪声。
在一些实施例中,所述调整单元,具体可以用于基于所述概率分布信息,计算所述预测交互类别对应的预测梯度,所述预测梯度包括以所述预测交互类别作为交互类别标签时对应的梯度;根据所述概率分布信息,计算所述候选交互类别对应的候选梯度,所述候选梯度包括以所述候选交互类别作为所述交互类别标签时对应的梯度;基于所述预测梯度和条件噪声,确定所述预测交互类别对应的预测当前分类噪声;根据所述候选梯度和条件噪声,确定所述候选交互类别对应的候选当前分类噪声,并将所述预测当前分类噪声和候选当前分类噪声作为当前分类噪声。
在一些实施例中,所述调整单元,具体可以用于将所述预测交互类别作为交互类别标签,并基于所述概率分布信息和所述交互类别标签,确定所述预测交互类别对应的目标预测损失;基于所述目标预测损失,计算所述预测交互类别对应的预测梯度。
在一些实施例中,所述调整单元,具体可以用于对所述预测梯度进行噪声转换,得到所述预测交互类别对应的初始分类噪声;计算所述初始分类噪声与所述条件噪声的差值,得到所述预测交互类别对应的预测当前分类噪声。
在一些实施例中,所述调整单元,具体可以用于计算所述预测当前分类噪声与候选当前分类噪声之间的差值,得到候选分类噪声;基于引导权重,对所述候选分类噪声进行加权,得到所述噪声内容特征对应的分类噪声。
在一些实施例中,所述调整单元,具体可以用于获取交互图像,并在所述交互图像中提取出隐空间的特征,得到图像特征;对所述图像特征添加至少一次噪声,得到所述交互图像对应的噪声图像特征;将所述噪声图像特征与所述噪声内容特征进行融合,得到融合后特征,并将所述融合后特征作为所述噪声内容特征。
在一些实施例中,所述调整单元,具体可以用于将所述目标噪声转换为所述噪声内容特征对应的目标梯度;基于所述目标梯度,确定所述噪声内容特征对应的分类噪声特征;将所述分类噪声特征和所述噪声内容特征进行融合,得到目标噪声内容特征。
在一些实施例中,所述生成单元,具体可以用于对所述目标噪声内容特征进行去噪,得到初始图像内容特征,并将所述初始图像内容特征作为所述噪声内容特征;返回执行所述对所述噪声内容特征进行分类的步骤,直至去噪次数达到预设去噪次数时为止,得到目标图像内容特征。
在一些实施例中,所述分类单元,具体可以用于采用分类模型在所述噪声内容特征中提取出交互反馈特征,所述交互反馈特征表征基于所述噪声内容特征生成的图像在交互时的反馈信息;基于所述交互反馈特征,预测所述噪声内容特征对应的交互类别,得到预测交互类别。
在一些实施例中,所述图像生成装置还可以包括训练单元,所述训练单元,具体可以用于获取交互图像样本,并在所述交互图像样本中提取出隐空间的特征,得到样本图像特征;对所述样本图像特征添加至少一次噪声,并基于添加噪声的噪声图像特征,采用预设分类模型预测所述交互图像样本的交互类别,得到样本交互类别;基于所述样本交互类别,确定所述交互图像样本的分类损失,并基于所述分类损失,对所述预设分类模型进行收敛,得到分类模型。
在一些实施例中,所述图像生成装置还可以包括更新单元,所述更新单元,具体可以用于将所述目标交互图像发送至至少一个交互对象进行交互,并获取所述交互对象针对所述目标交互图像的交互反馈信息;基于所述交互反馈信息,确定所述目标交互图像的目标交互类别,并基于所述目标交互类别,对所述目标交互图像进行标注,得到目标交互图像样本;根据所述目标交互图像样本,对分类模型进行更新,并将更新后分类模型作为所述分类模型。
此外,本申请实施例还提供一种电子设备,包括处理器和存储器,所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序,以执行本申请实施例提供的图像生成方法。
此外,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本申请实施例所提供的任一种图像生成方法中的步骤。
此外,本申请实施例还提供一种计算机程序产品,包括计算机程序或指令,该计算机程序或指令被处理器执行时实现本申请实施例提供的图像生成方法中的步骤。
本申请实施例在获取图像生成内容,并在图像生成内容中提取出隐空间的特征,得到所述图像生成内容的内容特征后,对内容特征添加至少一次噪声,得到图像生成内容对应的噪声内容特征,对噪声内容特征进行分类,得到预测交互类别,该预测交互类别指示基于所述噪声内容特征生成的图像在交互时的反馈程度,根据预测交互类别,确定噪声内容特征的目标噪声,并基于目标噪声对噪声内容特征进行调整,得到目标噪声内容特征,对目标噪声内容特征进行去噪,以得到目标图像内容特征,并根据目标图像内容特征,生成图像生成内容对应的目标交互图像;由于该方案可以直接对隐空间的噪声内容特征进行分类,无需将噪声内容特征转换为图像来分类,从而避免图像级的梯度更新造成的对抗攻击,而且,还可以基于分类后的预测交互类别,确定噪声内容特征在学习到分类信息之后的目标噪声,学习到的分类信息可以为表征交互反馈的分类信息,从而可以将分类信号作为条件引导图像的生成,在图像交互场景下,还可以使得生成的图像具有可控的交互反馈程度,因此,可以提升图像生成的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的图像生成方法的场景示意图;
图2是本申请实施例提供的图像生成方法的流程示意图;
图3是本申请实施例提供的图像生成网络的整体网络结构示意图;
图4是本申请实施例提供的分类器损失的示意图;
图5是本申请实施例提供的生成的目标交互图像之间的对比示意图;
图6是本申请实施例提供的图像生成方法的另一流程示意图;
图7是本申请实施例提供的图像生成装置的结构示意图;
图8是本申请实施例提供的图像生成装置的另一结构示意图;
图9是本申请实施例提供的图像生成装置的另一结构示意图;
图10是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例提供一种图像生成方法、装置、电子设备和计算机可读存储介质。其中,该图像生成装置可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备。
其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
例如,参见图1,以图像生成装置集成在电子设备中为例,电子设备在获取图像生成内容,并在图像生成内容中提取出隐空间的特征,得到所述图像生成内容的内容特征后,对内容特征添加至少一次噪声,得到图像生成内容对应的噪声内容特征,对噪声内容特征进行分类,得到预测交互类别,该预测交互类别指示基于所述噪声内容特征生成的图像在交互时的反馈程度,根据预测交互类别,确定噪声内容特征的目标噪声,并基于目标噪声对噪声内容特征进行调整,得到目标噪声内容特征,对目标噪声内容特征进行去噪,以得到目标图像内容特征,并根据目标图像内容特征,生成图像生成内容对应的目标交互图像,进而提升图像生成的准确性。
其中,本申请实施例提供的图像生成方法涉及到人工智能中的计算机视觉和机器学习(Machine Learning, ML)。本申请实施例可以在图像生成内容中提取出隐空间的内容特征,并对内容特征添加至少一次噪声,并对噪声内容特征进行分类,基于分类后的预测交互类别,确定噪声内容特征的目标噪声,基于该目标噪声,对噪声内容特征进行去噪,并根据去噪后的目标图像内容特征生成目标交互图像,进而提升图像生成的准确性。
其中,人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等技术。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,计算机视觉技术(Computer Vision, CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、检测和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。大模型技术为计算机视觉技术发展带来重要变革,swin-transformer,ViT,V-MOE,MAE等视觉领域的预训练模型经过微调(fine tune)可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
其中,机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果,融合了以上技术。
其中,可以理解的是,在本申请的具体实施方式中,涉及到对象的图像生成内容、交互图像、目标交互图像、交互图像样本等相关数据,当本申请以下实施例运用到具体产品或技术中时,需要获得许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
以下分别进行详细说明。需要说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从图像生成装置的角度进行描述,该图像生成装置具体可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备;其中,该终端可以包括平板电脑、笔记本电脑、以及个人计算机(PC,Personal Computer)、可穿戴设备、虚拟现实设备或其他可以生成图像的智能设备等设备。
一种图像生成方法,包括:
获取图像生成内容,并在图像生成内容中提取出隐空间的特征,得到图像生成内容的内容特征,对内容特征添加至少一次噪声,得到图像生成内容对应的噪声内容特征,对噪声内容特征进行分类,得到预测交互类别,该预测交互类别指示基于噪声内容特征生成的图像在交互时的反馈程度,根据预测交互类别,确定噪声内容特征的目标噪声,并基于目标噪声对噪声内容特征进行调整,得到目标噪声内容特征,对目标噪声内容特征进行去噪,以得到目标图像内容特征,并根据目标图像内容特征,生成图像生成内容对应的目标交互图像。
如图2所示,该图像生成生成方法的具体流程如下:
101、获取图像生成内容,并在图像生成内容中提取出隐空间的特征,得到图像生成内容的内容特征。
其中,图像生成内容可以理解为指导用于生成图像的相关内容,可以包括生成图像的条件信息的内容。图像生成内容的类型可以为多种,比如,可以为文本内容、图像内容、音频内容、视频内容或者其他模态的内容,等等。以图像生成内容为文本内容为例,该文本内容就可以包括指导生成图像的条件文本(prompt),比如,可以包括“生成一个蓝天白云下一辆车在行驶”或者其他可以指示或者指导生成图像的内容的相关文本,等等。
其中,隐空间可以为理解为潜在空间,即原始数据压缩(编码)后的表示(即特征向量)所在空间。隐空间的特征就可以为对数据压缩后的特征向量,即隐向量。
其中,获取图像生成内容的方式可以有多种,具体可以如下:
例如,可以接收终端或客户端上传的图像生成内容,或者,可以在网络或数据库中获取图像生成内容,或者,可以获取图像样本,在图像样本中识别出图像内容,并基于图像内容生成图像内容文本,将图像内容文本作为图像生成内容,或者,在图像生成内容集合中筛选出至少一个初始图像生成内容,将初始图像生成内容进行组合,得到图像生成内容,或者,获取初始图像生成内容,当初始图像生成内容为文本内容时,将初始图像生成内容作为图像生成内容,当初始图像生成内为其他内容时,将初始图像生成内容抓换为文本内容,并将文本内容作为图像生成内容,等等。
在获取图像生成内容之后,便可以在图像生成内容中提取出隐空间的特征,得到图像生成内容的内容特征。内容特征可以理解为图像生成内容在隐空间的特征。在图像生成内容中提取出隐空间的特征的方式可以有多种,比如,可以采用VAE编码器(变分自编码器)将图像生成内容编码成隐空间向量,从而得到图像生成内容的内容特征,或者,当图像生成内容为非文本内容时,将图像生成内容转换为文本内容,并采用VAE编码器将文本内容编码成隐空间向量,从而得到图像生成内容的内容特征,或者,还可以采用其他类型的隐空间编码器对图像生成内容编码成隐空间向量,从而得到图像生成内容的内容特征,等等。
102、对内容特征添加至少一次噪声,得到图像生成内容对应的噪声内容特征。
其中,噪声内容特征可以理解为对在内容特征中添加噪声后的特征。
其中,对内容特征添加至少一次噪声的方式可以有多种,具体可以如下:
例如,可以采用噪声采样器对内容特征多次添加噪声,得到图像生成内容对应的噪声内容特征,或者,还可以在预设噪声集合中筛选出目标噪声,将目标噪声添加至内容特征,得到初始噪声内容特征,将初始噪声内容特征作为内容特征,返回执行在预设噪声集合中目标噪声的过程,直至达到预设加噪次数时为止,得到图像生成内容对应的噪声内容特征,等等。
103、对噪声内容特征进行分类,得到预测交互类别。
其中,预测交互类别指示基于噪声内容特征生成的图像在交互时的反馈程度。以交互的图像为在线广告为例,预测交互类别就可以指示为该广告的点击率(CTR)的类别。所谓CTR可以为一种衡量在线广告效果的指标,通常以以百分比表示,它是广告的点击次数除以广告的展示次数,反映了广告在被展示给用户后被点击的概率。较高的CTR通常意味着广告更能吸引用户的注意力和兴趣,从而提升广告的效果和投资回报率。CTR的类别可以包括高CTR、低CTR或者,其他类别。以交互类别包括高CTR和低CTR为例,就可以将超过预设CTR阈值的作为高CTR,将未超过预设CTR阈值的作为低CTR,等等。
其中,对噪声内容特征进行分类的方式可以有多种,具体可以如下:
例如,可以采用分类模型在噪声内容特征中提取出交互反馈特征,基于交互反馈特征,预测噪声内容特征对应的交互类别,得到预测交互类别。
其中,交互反馈特征表征基于噪声内容特征生成的图像在交互时的反馈信息。
其中,分类模型可以为分类器Classifier。需要说明的是,这里的分类器Classifier可以为针对隐空间的特征进行分类的分类器,即为隐式分类器。隐式分类器的网络结构可以有多种,比如,可以包括Resnet、DNN、CNN或者其他可以对隐空间的特征进行分类的分类网络,等等。
可选的,采用分类模型在噪声内容特征中提取出交互反馈特征之前,还可以对预设分类模型进行训练,从而得到训练后的分类模型。对预设分类模型进行训练的方式可以有多种,比如,可以获取交互图像样本,并在交互图像样本中提取出隐空间的特征,得到样本图像特征,对样本图像特征添加至少一次噪声,并基于添加噪声的噪声图像特征,采用预设分类模型预测交互图像样本的交互类别,得到样本交互类别,基于样本交互类别,确定交互图像样本的分类损失,并基于分类损失,对预设分类模型进行收敛,得到分类模型。
其中,获取交互图像样本的方式可以有多种,比如,可以在内容交互平台获取至少一个当前交互图像和该当前交互图像的当前交互反馈信息,基于所述当前交互反馈信息,确定当前交互图像的当前交互类别,将当前交互类别作为交互类别标签,对当前交互图像进行标注,得到交互图像样本。
其中,在交互图像样本中提取出隐空间的特征的方式可以与在图像生成内容中提取出隐空间的特征的方式类似,详见上文所述,在此就不再一一赘述。
在交互图像样本中提取出隐空间的特征之后,便可以对提取出的样本图像特征添加至少一次噪声,从而得到噪声图像特征。对样本图像特征添加至少一个噪声的方式可以与对内容特征添加至少一次噪声的方式类似,详见上文所述,在此就不再一一赘述。
在对提取出的样本图像特征添加至少一次噪声之后,便可以基于噪声图像特征,采用预设分类模型预测交互图像样本的交互类别。采用预设分类模型预测交互图像样本的交互类别的方式可以有多种,比如,可以获取样本图像特征在加噪过程中的迭代次数张量,并将迭代次数张量与噪声图像特征进行融合,得到目标噪声图像特征,采用预设分类模型在目标噪声图像特征中提取出交互反馈特征,得到样本交互反馈特征,并基于样本交互反馈特征,预测交互图像样本的交互类别,得到样本交互类别。
在采用预设分类模型预测交互图像样本的交互类别之后,便可以基于预测出的样本交互类别,确定交互图像样本的分类损失。确定分类损失的方式可以有多种,比如,可以获取交互图像样本的标注交互类别,将标注交互类别与样本交互类别进行对比,以得到交互图像样本的分类损失。
在确定出交互图像样本的分类损失之后,便可以基于分类损失,对预设分类模型进行收敛,从而得到训练后的分类模型。基于分类损失,对预设分类模型进行收敛的方式可以有多种,比如,可以基于分类损失,采用梯度下降算法对预设分类模型的网络参数进行更新,得到更新后的预设分类模型,将更新后的预设分类模型作为预设分类模型,返回执行获取交互图像样本的步骤,直至预设分类模型收敛时为止,得到训练后的分类模型,或者,还可以基于分类损失,采用其他网络参数更新算法对预设分类模型的网络参数进行更新,得到更新后的预设分类模型,将更新后的预设分类模型作为预设分类模型,返回执行获取交互图像样本的步骤,直至预设分类模型收敛时为止,得到训练后的分类模型,等等。
104、根据预测交互类别,确定噪声内容特征的目标噪声,并基于目标噪声对噪声内容特征进行调整,得到目标噪声内容特征。
其中,根据预测交互类别,确定噪声内容特征的目标噪声,并基于目标噪声内容特征进行调整的方式可以有多种,具体可以如下:
S1、根据预测交互类别,确定噪声内容特征的目标噪声。
例如,可以在图像生成内容中提取出图像条件特征,基于图像条件特征,在噪声内容特征中识别出目标条件噪声,根据预测交互类别,对目标条件噪声进行调整,以得到噪声内容特征的目标噪声。
其中,图像条件特征表征基于图像生成内容生成图像的条件信息。基于图像条件特征,在噪声内容特征中识别出目标条件噪声的方式可以有多种,比如,在噪声内容特征中识别出原始噪声,根据图像条件特征,在噪声内容特征中识别出条件噪声,将原始噪声和条件噪声进行融合,得到目标条件噪声。
其中,原始噪声可以理解为没有引入图像条件特征时在噪声内容特征中预测出的噪声。与之对应的就是条件噪声,所谓条件噪声就是在引入图像条件特征之后在噪声内容特征中预测出的噪声。
其中,在噪声内容特征中预测噪声的方式可以有多种,比如,可以采用噪声预测网络预测出噪声内容特征中的噪声,从而得到原始噪声或条件噪声。噪声预测网络的网络结构可以有多种,比如,可以为U-net(一种网络结构)或者其他可以进行噪声预测的网络,等等。
在噪声内容特征中识别出原始噪声和条件噪声之后,便可以将原始噪声和条件噪声进行融合,融合的方式可以有多种,比如,可以获取噪声内容特征对应的引导权重,基于引导权重分别对原始噪声和条件噪声进行加权,计算加权后条件噪声与加权后原始噪声的差值,得到目标条件噪声,可以如公式(1)所示,具体可以如下:
其中,为目标条件噪声,ω为引导权重(guidance权重),/>为噪声内容特征(即去噪过程中的隐空间向量),c为图像条件特征(即prompt条件信息),/>为采用U-net预估噪声的过程。
其中,需要说明的是,在去噪过程中,可以采用classifier free guidancediffusion(CFG,即一种在生成模型中使用无监督方法指导模型训练的技术)对U-net预估的噪声做处理,CFG的核心是通过一个隐式分类器来替代显示分类器,而无需计算显示分类器及其梯度,即可以用大模型和条件信息当做分类器,从而在噪声内容特征中识别出目标条件噪声。
其中,CFG方法不需要使用外部的分类器或监督信号,而是利用生成模型自身的结构和特性来进行训练。这种方法通常基于对生成样本的相似性度量来优化生成模型,以生成更高质量的样本。这种技术在许多生成模型中都有应用,比如, VAE(一种生成模型)、GAN(一种生成模型) 和Autoregressive models(一种生成模型),等等。
在噪声内容特征中识别出目标条件噪声之后,便可以根据预测交互类别,对目标条件噪声进行调整,从而得到噪声内容特征的目标噪声。根据预测交互类别,对目标条件噪声进行调整的方式可以有多种,比如,可以基于预测交互类别和条件噪声,确定噪声内容特征对应的分类噪声,将分类噪声和目标条件噪声进行融合,得到噪声内容特征的目标噪声。
其中,分类噪声可以理解为带有分类业务方向的噪声,即对噪声内容特征进行分类过程中预测出的噪声。基于预测交互类别和条件噪声,确定噪声内容特征对应的分类噪声的方式可以有多种,比如,获取预测交互类别对应的概率分布信息,基于概率分布信息和条件噪声,确定不同预测交互类别对应的当前分类噪声,将当前分类噪声进行融合,得到噪声内容特征对应的分类噪声。
其中,概率分布信息可以包括不同预设交互类别的概率信息,预设交互类别可以包括预测交互类别。预设交互类别还可以包括候选交互类别,候选交互类别可以为预设交互类别中出预测交互类别以外的至少一个交互类别,候选交互类别的数量可以为一个或多个,比如,以预设交互类别包括高点击率(CTR)类别和低点击率(CTR)类别,当预测交互类别为高点击率类别时,候选交互类别就可以为低点击率类别,等等。基于概率分布信息和条件噪声,确定不同预设交互类别对应的当前分类噪声的方式可以有多种,比如,可以基于概率分布信息,计算预测交互类别对应的预测梯度,根据概率分布信息,计算候选交互类别对应的候选梯度,基于预测梯度和条件噪声,确定预测交互类别对应的预测当前分类噪声,根据候选梯度和条件噪声,确定候选交互类类别对应的候选当前分类噪声,并将预测当前分类噪声和候选当前分类噪声作为当前分类噪声。
其中,预测梯度包括以预测交互类别作为交互类别标签时对应的梯度。基于概率分布信息,计算预测交互类别对应的预测梯度的方式可以有多种,比如,可以将预测交互类别作为交互类别标签,并基于概率分布信息和交互类别标签,确定预测交互类别对应的目标预测损失,基于目标预测损失,计算预测交互类别对应的预测梯度。
其中,候选梯度包括以候选交互类别作为交互类别标签时对应的梯度。根据概率分布信息,计算候选交互类别对应的候选梯度的方式与计算预测交互类别对应的预测梯度的方式类似,详见上文所述,在此就不再一一赘述。
在计算出预测梯度之后,便可以基于预测梯度和条件噪声,确定预测交互类别对应的预测当前分类噪声。确定预测交互类别对应的预测当前分类噪声的方式可以有多种,比如,可以对预测梯度进行噪声转换,得到预测交互类别对应的初始分类噪声,计算分类噪声与条件噪声的差值,得到预测交互类别对应的预测当前分类噪声。
其中,对预测梯度进行噪声转换的方式可以有多种,比如,可以获取噪声转换参数,将噪声转换参数与预测梯度相乘,从而得到预测交互类别对应的初始分类噪声。
其中,根据候选梯度和条件噪声,确定候选交互类别对应的候选当前分类噪声的方式可以与确定预测交互类别对应的预测当前分类噪声的方式类似,详见上文所述,在此就不再一一赘述。
在确定出预测当前分类噪声和候选当前分类噪声之后,便可以将预测当前分类噪声和候选当前分类噪声作为当前分类噪声。然后,就可以将不同预设交互类别的当前分类噪声进行融合,融合的方式可以有多种,比如,可以计算预测当前分类噪声与候选当前分类噪声之间的差值,得到候选分类噪声,基于引导权重,对候选分类噪声进行加权,得到噪声内容特征对应的分类噪声。以预设交互类别包括高CTR类别(交互类别标签为1)和低CTR类别(交互类别标签为0),预测交互类别和候选交互类别为这两个交互类别中的一个,以预测交互类别为为高CTR类别,且标注交互类别为高CTR类别为例,将当前分类噪声进行融合的过程可以如公式(2)所示,具体可以如下:
其中,为分类噪声,/>为条件噪声,/>为噪声转换参数,/>为分类器梯度,/>为预测梯度,/>为CTR分类器的极大似然函数,为候选梯度,y为交互类别标签(0或1),/>为噪声内容特征(即去噪过程中的隐空间向量),c为图像条件特征(即prompt条件信息),/>为采用U-net预估噪声的过程,ω为引导权重(guidance权重)。
其中,本方案中为了将对交互类别进行分类的业务信号(分类噪声)融入到图像生成业务的去噪过程中,更大程度的保存业务信号信息,可以在prompt条件噪声基础上,分别求向量在分类器标签为1和0梯度,而后使用传统的 classifier guidance(分类器指导)方案求出条件噪声预估的带有classifier(分类器)信号的业务噪声,并使用两个业务噪声相减得到业务的方向信息(即分类噪声)。
在确定出噪声内容特征对应的分类噪声之后,便可以将分类噪声和目标条件噪声进行融合,从而得到噪声内容特征的目标噪声。将分类噪声和目标条件噪声进行融合的方式可以有多种,比如,可以直接将分类噪声和目标条件噪声相加,从而得到噪声内容特征的目标噪声,可以如公式(3)所示,具体可以如下:
其中,为目标噪声,/>为目标条件噪声,/>为分类噪声。
可选的,在一些实施例中,还可以获取融合权重,并基于融合权重,分别对分类噪声和目标条件噪声进行加权,将加权后的分类噪声和加权后的目标条件噪声相加,从而得到噪声内容特征的目标噪声。
可选的,在一些实施例中,基于图像条件特征,在噪声内容特征中识别出目标条件噪声之前,还可以对噪声内容特征进行调整。对噪声内容特征进行调整的方式可以有多种,比如,可以获取交互图像,并在交互图像中提取出隐空间的特征,得到图像特征,对图像特征添加至少一次噪声,得到交互图像对应的噪声图像特征,将噪声图像特征与噪声内容特征进行融合,得到融合后特征,并将融合后特征作为噪声内容特征。
其中,交互图像可以在内容交互平台或者内容推送平台进行交互后的图像。获取交互图像可以与获取交互图像样本的方式类似,详见上文所述,在此就不再一一赘述。
在获取交互图像之后,便可以在交互图像中提取出隐空间的特征,从而得到图像特征。在交互图像中提取出隐空间的特征的方式可以与在图像生成内容中提取出隐空间的特征的方式类似,详见上文所述,在此就不再一一赘述。
在交互图像中提取发出隐空间的特征之后,便可以对提取出的图像特征添加至少一次噪声,从而得到交互图像对应的噪声图像特征。对图像特征添加至少一次噪声的方式可以与对内容特征添加至少一次噪声的方式类似,详见上文所述,在此就不再一一赘述。
在对图像特征添加至少一次噪声之后,便可以将加噪后的噪声图像特征与噪声内容特征进行融合,得到融合后特征。将噪声图像特征与噪声内容特征进行融合的方式可以有多种,比如,可以直接将噪声图像特征与噪声内容特征进行拼接,从而得到融合后特征,或者,还可以获取融合权重,并基于融合权重,分别对噪声图像特征和噪声内容特征进行加权,并将加权后的噪声图像特征和加权后的噪声内容特征进行拼接,从而得到融合后特征。
将噪声图像特征与噪声内容特征进行融合之后,便可以将融合后特征作为噪声内容特征。
其中,在噪声内容特征中添加噪声图像特征,就可以使得生成的图像中与交互图像相关,也就说是交互图像也可以作为部分引导条件,来引导目标交互图像的生成。
S2、基于目标噪声对噪声内容特征进行调整,得到目标噪声内容特征。
例如,可以将目标噪声转换为噪声内容特征对应的目标梯度,基于目标梯度,确定噪声内容特征对应的分类噪声特征,将分类噪声特征和噪声内容特征进行融合,得到目标噪声内容特征。
其中,将目标噪声转换为噪声内容特征的方式可以有多种,比如,可以获取梯度转换参数,将梯度转换参数与目标噪声进行融合,从而得到噪声内容特征对应的目标梯度。
在将目标噪声转换为噪声内容特征对应的目标梯度之后,便可以基于目标梯度,确定噪声内容特征对应的分类噪声特征。确定噪声内容特征对应的分类噪声特征的方式可以有多种,比如,可以获取特征转换参数,并将特征转换参数与目标梯度进行融合,得到噪声内容特征对应的分类噪声特征。
在基于目标梯度确定出噪声内容特征对应的分类噪声特征之后,便可以将分类噪声特征和噪声内容特征进行融合,从而得到目标噪声内容特征。将分类噪声特征和噪声内容特征进行融合的方式可以有多种,比如,可以直接将分类噪声特征和噪声内容特征相加,从而得到目标噪声内容特征,可以如公式(4)所示,具体可以如下:
其中,为目标噪声内容特征,/>为噪声内容特征,a为特征转换参数,为目标梯度,/>为分类噪声特征。
105、对目标噪声内容特征进行去噪,以得到目标图像内容特征,并根据目标图像内容特征,生成图像生成内容对应的目标交互图像。
其中,对目标噪声内容特征进行去噪的方式可以有多种,具体可以如下:
例如,对目标噪声内容特征进行去噪,得到初始图像内容特征,并将初始图像内容特征作为噪声内容特征,返回执行对噪声内容特征进行分类的步骤,直至去噪次数达到预设次数时为止,得到目标图像内容特征。
其中,对目标噪声内容特征进行去噪的方式可以有多种,比如,可以采用U-net网络预测出目标噪声内容的当前噪声,并基于当前噪声,对目标噪声内容特征进行去噪,从而得到初始图像内容特征。
在对目标噪声内容特征进行去噪之后,便可以将初始图像内容特征作为噪声内容特征,并返回执行对噪声内容特征进行分类的步骤,从而实现对目标噪声内容特征进行迭代去噪的过程,直至去噪次数达到预设次数时为止,从而得到目标图像内容特征。
其中,预设次数可以为对内容特征加噪的次数,也可以为预设设定的次数,去噪的步长可以为1,以预设次数t=20为例,第一次去噪后,t=19,依次进行去噪,直至t=0时,此时,就可以将输出的初始图像内容特征作为图像内容特征。需要说明的是,此时的图像内容特征依然为隐空间的特征。
在对目标噪声内容特征进行去噪之后,便可以根据去噪后的目标图像内容特征生成图像生成内容对应的目标交互图像。根据目标图像内容特征生成图像生成内容对应的目标交互图像的方式可以有多种,比如,可以采用图像解码网络对目标图像内容特征进行解码,以得到图像生成内容对应的目标交互图像,或者,还可以将目标图像内容特征转换为目标图像特征,并采用图像解码网络对目标图像特征进行解码,以得到图像生成内容对应的目标交互图像,等等。
其中,图像解码网络的网络结构可以有多种,比如,可以包括Stable diffusion的VAE解码器或者其他可以生成图像的解码网络,等等。
可选的,在一些实施例中,根据目标图像内容特征,生成图像生成内容对应的目标交互图像之后,还可以基于目标交互图像对分类模型进行更新。对分类模型进行更新的方式可以有多种,比如,可以将目标交互图像发送至至少一个交互对象进行交互,并获取交互对象针对目标交互图像的交互反馈信息,基于交互反馈信息,确定目标交互图像的目标交互类别,并基于目标交互类别,对目标交互图像进行标注,得到目标交互图像样本,根据目标交互图像样本,对分类模型进行更新,并将更新后分类模型作为分类模型。
其中,将目标交互图像发送至至少一个交互对象进行交互的方式可以有多种,比如,可以直接将目标交互图像发送至至少一个交互对象的交互终端,以便交互对象通过交互终端对该目标交互图像进行交互,或者,还可以将目标交互图像发送至交互平台、内容分发或内容推广平台的交互服务器,以便交互服务器将目标交互图像发送至至少一个交互对象的交互终端,使得交互对象可以通过交互终端对目标交互图像进行交互。
其中,交互的类型可以有多种,比如,可以包括点击、触发、点赞、收藏、评论或跳转,等等。
在将目标交互图像发送至至少一个交互对象进行交互之后,便可以获取交互对象针对目标交互图像的交互反馈信息。所谓交互反馈信息可以理解为交互对象对目标交互图像进行交互后的反馈信息,以交互为点击为例,交互反馈信息就可以为指示交互对象针对目标交互对象是否点击的反馈信息。
在获取交互对象针对目标交互图像的交互反馈信息之后,便可以基于交互反馈信息,确定目标交互图像的目标交互类别。确定目标交互图像的目标交互类别的方式可以有多种,比如,以交互为点击为例,就可以在交互反馈信息中识别出点击次数,并基于点击次数与交互对象的数量之间的比值,得到目标交互图像的点击率(CTR),将点击率与预设点击率阈值进行对比,当点击率大于预设点击率阈值时,就可以确定目标交互图像的目标交互类别为高CTR类别,当点击率小于预设点击率阈值时,就可以确定目标交互图像的目标交互类别为低CTR类别。
在确定出目标交互图像的目标交互类别之后,便可以基于目标交互类别,对目标交互图像进行标注,得到目标交互图像样本。基于目标交互类别,对目标交互图像进行标注的方式可以有多种,比如,可以基于目标交互类别,确定目标交互图像的交互类别标签(譬如,高CTR类别为1,低CTR类别为0,等等),将交互类别标签添加至目标交互图像,从而得到目标交互图像样本。
在对目标交互图像进行标注之后,便可以基于标注后的目标交互图像样本,对分类模型进行更新,从而得到更新后分类模型。对分类模型进行更新的方式可以与对预设分类模型进行训练的方式类似,详见上文所述,在此就不再一一赘述。
其中,以交互类别为高CTR类别和低CTR类别为例,需要说明的是,通过生成的目标交互图像对分类模型进行更新,从而实现整个图像生成过程的数据闭环,进而进一步提升生成的目标交互图像符合高CTR分布。
其中,以交互类别高CTR类别和低CTR类别,本方案的应用场景为广告投放场景,采用Stable diffusion(潜在扩散模型)生成目标交互图像为例,本方案中在图像生成过程中引入了CTR信息,为了加快批量生成的速度以及消除图像梯度的对抗攻击,训练一个隐空间层次的分类模型(隐分类器Classifier)用于分类信息引导,而且,在图像生成的去噪过程中,为了去除去噪过程中对CTR信号(分类信号)引入的影响,通过计算不同交互类别的梯度,实现将业务噪声(分类噪声)融入到去噪过程中的隐向量(噪声内容特征)中,较好了提升生成图像的质量。本方案的图像生成网络的整体网络结构可以如图3所示,具体可以如下:
(1)在图3中,图示下半部分是训练CTR Classifier(分类模型,即隐分类器),在训练过程中,采用广告投放平台的反馈数据来训练分类模型,每个输入样本x都带有线上投放直播CTR,对CTR按照阈值范围处理,获得对应二分类标签用于分类器训练,用于计算训练时候的损失。在训练分类器过程中,样本x会通过Stable diffusion(一种图像生成模型)的VAE编码器,编码成低分辨率的高维隐空间向量z(噪声图像特征);而后,如同 Stablediffusion的加噪过程,隐空间向量(噪声图像特征)也会被加上不同迭代次数的噪声,最后,将带有噪声的隐向量Zi和迭代次数张量融合,一起输入到分类器做分类,分类模型可以为Resnet18模型;
(2)图3的上半部分为stable diffusion生成图像的过程,首先,样本x会被 VAE编码器编码成隐空间向量z(内容特征), 并且使用噪声采样器不断给隐空间向量z添加噪声,获得不同迭代次数的带噪声隐空间向量(噪声内容特征)而后,在去噪过程中,可以采用classifier free guidance diffusion(CFG)对U-net预估的噪声做处理,即用大模型和条件信息当做分类器,从而识别出噪声内容特征的目标条件噪声。为了更好的将Classifierguidance融入到上述流程中,更大程度保存业务信号信息,在prompt条件噪声(目标条件噪声)的基础上,分别求向量(噪声内容特征)在分类器标签为1和0的梯度,然后,采用classifier guidance 方案求出条件噪声预估的带有classifier信号的业务噪声,并使用两个业务噪声相减得到业务的方向信息(即分类噪声),将目标条件噪声和分类噪声相加,从而得到噪声内容特征的目标噪声,得到相应的噪声之后,就可以基于目标噪声对噪声内容特征进行调整,然后,不断迭代去噪过程,获取t=0时刻的隐空间向量(目标图像内容特征),然后,将目标图像内容特征z通过Stable diffusion的VAE解码器,解码得到最后的图像或广告素材(即目标交互图像)。在生成目标交互图像之后,还可以将目标交互图像投放至广告投放平台,通过获取目标交互图像的反馈数据,对分类模型进行更新,从先实现图像生成过程中的数据闭环,进而提升生成的图像或广告素材具有高CTR。
其中,在广告投放场景下,以分类模型为resnet18为例,本方案可以获取目标应用的投放素材图像5000张,打上CTR标签,并按照CTR排序,头部40%为分类1,尾部40%为分类0,并且按照4:1划分训练集和验证集。使用该训练集 resnet18分类模型,分类模型的分类准确率是76.13%。离线实验的结果可以如表1所示,具体可以如下:
表1结果对比表
其中,SD为Stable diffusion(潜在扩散模型),LORA为Low-Rank Adaptation(低秩适应)的缩写,LORA是一种在消耗更少内存的情况下加速大型模型训练的训练方法,在stable diffusion中它允许使用低秩适应技术来快速微调扩散模型。简而言之,LORA训练模型可以更轻松地针对不同概念(例如角色或特定风格)进行模型训练。然后,这些经过训练的模型可以被导出并供其他人使用。LORA模型是小型的stable diffusion模型,对checkpoint模型应用较小的更改,但是它的体积只有checkpoint的1/100到1/10,文件大小一般在2-500MB之间。CCC可以理解为本方案中的噪声融合,即将Classifier Guidance方法和classifier free guidance Diffusion方法结合起来,从而得到噪声内容特征的目标噪声。
其中,在获取到具有CTR信号的分类器(分类模型)之后,可以使用该分类器引导图像生成模型(stable diffusion)生成具有高CTR方向的目标交互图像。其中stablediffusion配置了相应的游戏LORA模型参数。如表 1 所示,通过对比实验,可以发现仅使用stable diffusion和 LORA方法生成 100 张图像中,仅有70 张图像被分类器预估为高CTR图像。而加入了本方案的CCG方法后,生成的图像全部都被分类器识别为高CTR图像。
其中,在图像生成过程中,隐空间向量(噪声内容特征/噪声图像特征)对应的分类器损失图可以如图4所示,在图4中可以发现,隐空间向量的分类器损失越来越小,这说明隐空间向量(目标噪声内容特征)分布已经完全向高CTR方向靠拢,因此,最后解码出来的图像也是符合高CTR分布。
其中,通过当前方法和本方案生成的目标交互图像之间的对比可以如图5所示,在图5中可以发现,本方案生成的目标交互图像细节更加丰富,更有吸引力。
另外,为了验证当前数据反馈方式是否对线上投放实验具有正向效果,在某广告推送平台做了大量的AB实验,为了确保对照组实验组的曝光量是保持一致的,实验模式设置为程序化创意轮播模式,实验版位为AMS联盟流量,测试预算为1000元/日,实验周期一周。其中对照组是SD + LORA 在使命召唤场景生成图像200张,实验组是SD + LORA + CCG在使命召唤场景生成图像200张。AB实验结果可以如表2所示,在表2中可以发现实验组素材相比对照组素材在拿量能力上有明显的优势,CVR实验组高12.36%,CTR实验组高7.6%。
其中,还需要说明的是,本方案可以应用在众多广告投放场景、网游场景和小说场景中,能够较好的生成细节更加丰富的广告素材,帮助产品提升广告消耗、CTR等线上指标。所谓广告投放可以理解为广告主针对特定的受众群体,通过各种媒介途径(比如,互联网、电视、报纸或杂志等)将广告内容展示给潜在客户,以期提高产品或服务的知名度、销售量或品牌忠诚度等商业目标。广告投放通常需要进行广告策略的制定和媒介资源的选择,以达到最佳的广告效果和最高的投资回报率。
由以上可知,本申请实施例在获取图像生成内容,并在图像生成内容中提取出隐空间的特征,得到所述图像生成内容的内容特征后,对内容特征添加至少一次噪声,得到图像生成内容对应的噪声内容特征,对噪声内容特征进行分类,得到预测交互类别,该预测交互类别指示基于所述噪声内容特征生成的图像在交互时的反馈程度,根据预测交互类别,确定噪声内容特征的目标噪声,并基于目标噪声对噪声内容特征进行调整,得到目标噪声内容特征,对目标噪声内容特征进行去噪,以得到目标图像内容特征,并根据目标图像内容特征,生成图像生成内容对应的目标交互图像;由于该方案可以直接对隐空间的噪声内容特征进行分类,无需将噪声内容特征转换为图像来分类,从而避免图像级的梯度更新造成的对抗攻击,而且,还可以基于分类后的预测交互类别,确定噪声内容特征在学习到分类信息之后的目标噪声,学习到的分类信息可以为表征交互反馈的分类信息,从而可以将分类信号作为条件引导图像的生成,在图像交互场景下,还可以使得生成的图像具有可控的交互反馈程度,因此,可以提升图像生成的准确性。
根据上面实施例所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该图像生成装置具体集成在电子设备,电子设备为服务器,交互类别为CTR类别为例进行说明。
如图6所示,一种图像生成生成方法,具体流程如下:
201、服务器获取图像生成内容。
例如,服务器可以接收终端或客户端上传的图像生成内容,或者,可以在网络或数据库中获取图像生成内容,或者,可以获取图像样本,在图像样本中识别出图像内容,并基于图像内容生成图像内容文本,将图像内容文本作为图像生成内容,或者,在图像生成内容集合中筛选出至少一个初始图像生成内容,将初始图像生成内容进行组合,得到图像生成内容,或者,获取初始图像生成内容,当初始图像生成内容为文本内容时,将初始图像生成内容作为图像生成内容,当初始图像生成内为其他内容时,将初始图像生成内容抓换为文本内容,并将文本内容作为图像生成内容,等等。
202、服务器在图像生成内容中提取出隐空间的特征,得到图像生成内容的内容特征。
例如,服务器采用VAE编码器将图像生成内容编码成隐空间向量,从而得到图像生成内容的内容特征,或者,当图像生成内容为非文本内容时,将图像生成内容转换为文本内容,并采用VAE编码器将文本内容编码成隐空间向量,从而得到图像生成内容的内容特征,或者,还可以采用其他类型的隐空间编码器对图像生成内容编码成隐空间向量,从而得到图像生成内容的内容特征,等等。
203、服务器对内容特征添加至少一次噪声,得到图像生成内容对应的噪声内容特征。
例如,服务器可以采用噪声采样器对内容特征多次添加噪声,得到图像生成内容对应的噪声内容特征,或者,还可以在预设噪声集合中筛选出目标噪声,将目标噪声添加至内容特征,得到初始噪声内容特征,将初始噪声内容特征作为内容特征,返回执行在预设噪声集合中目标噪声的过程,直至达到预设加噪次数时为止,得到图像生成内容对应的噪声内容特征,等等。
204、服务器对噪声内容特征进行分类,得到预测CTR类别。
例如,服务器可以采用分类模型在噪声内容特征中提取出交互反馈特征,基于交互反馈特征,预测噪声内容特征对应的CTR类别,得到预测CTR类别。
可选的,在一些实施例中,服务器还可以在内容交互平台获取至少一个当前交互图像和该当前交互图像的当前交互反馈信息,基于所述当前交互反馈信息,确定当前交互图像的当前CTR类别,将当前CTR类别作为CTR类别标签,对当前交互图像进行标注,得到交互图像样本。
服务器交互图像样本中提取出隐空间的特征,得到样本图像特征,对样本图像特征添加至少一次噪声,得到噪声图像特征。获取样本图像特征在加噪过程中的迭代次数张量,并将迭代次数张量与噪声图像特征进行融合,得到目标噪声图像特征,采用预设分类模型在目标噪声图像特征中提取出交互反馈特征,得到样本交互反馈特征,并基于样本交互反馈特征,预测交互图像样本的CTR类别,得到样本CTR类别。
服务器获取交互图像样本的标注CTR类别,将标注CTR类别与样本CTR类别进行对比,以得到交互图像样本的分类损失。
服务器基于分类损失,采用梯度下降算法对预设分类模型的网络参数进行更新,得到更新后的预设分类模型,将更新后的预设分类模型作为预设分类模型,返回执行获取交互图像样本的步骤,直至预设分类模型收敛时为止,得到训练后的分类模型,或者,还可以基于分类损失,采用其他网络参数更新算法对预设分类模型的网络参数进行更新,得到更新后的预设分类模型,将更新后的预设分类模型作为预设分类模型,返回执行获取交互图像样本的步骤,直至预设分类模型收敛时为止,得到训练后的分类模型,等等。
205、服务器根据预测CTR类别,确定噪声内容特征的目标噪声。
例如,服务器可以在图像生成内容中提取出图像条件特征,在噪声内容特征中识别出原始噪声,根据图像条件特征,在噪声内容特征中识别出条件噪声,将原始噪声和条件噪声进行融合,得到目标条件噪声。
服务器获取噪声内容特征对应的引导权重,基于引导权重分别对原始噪声和条件噪声进行加权,计算加权后条件噪声与加权后原始噪声的差值,得到目标条件噪声,可以如公式(1)所示。
服务器可以获取预测CTR类别对应的概率分布信息。将预测CTR类别作为CTR类别标签,并基于概率分布信息和CTR类别标签,确定预测CTR类别对应的目标预测损失,基于目标预测损失,计算预测CTR类别对应的预测梯度。获取噪声转换参数,将噪声转换参数与预测梯度相乘,从而得到预测CTR类别对应的初始分类噪声。计算分类噪声与条件噪声的差值,得到预测CTR类别对应的预测当前分类噪声。
服务器根据概率分布信息,计算候选CTR类别对应的候选梯度,根据候选梯度和条件噪声,确定候选交互类类别对应的候选当前分类噪声,并将预测当前分类噪声和候选当前分类噪声作为当前分类噪声。
服务器可以计算预测当前分类噪声与候选当前分类噪声之间的差值,得到候选分类噪声,基于引导权重,对候选分类噪声进行加权,得到噪声内容特征对应的分类噪声,可以如公式(2)所示。
服务器将分类噪声和目标条件噪声相加,从而得到噪声内容特征的目标噪声,可以如公式(3)所示。
206、服务器基于目标噪声对噪声内容特征进行调整,得到目标噪声内容特征。
例如,服务器可以获取梯度转换参数,将梯度转换参数与目标噪声进行融合,从而得到噪声内容特征对应的目标梯度。获取特征转换参数,并将特征转换参数与目标梯度进行融合,得到噪声内容特征对应的分类噪声特征。将分类噪声特征和噪声内容特征相加,从而得到目标噪声内容特征,可以如公式(3)所示。
207、服务器对目标噪声内容特征进行去噪,以得到目标图像内容特征。
例如,服务器可以采用U-net网络预测出目标噪声内容的当前噪声,并基于当前噪声,对目标噪声内容特征进行去噪,从而得到初始图像内容特征。将初始图像内容特征作为噪声内容特征,并返回执行对噪声内容特征进行分类的步骤,从而实现对目标噪声内容特征进行迭代去噪的过程,直至去噪次数达到预设次数时为止,从而得到目标图像内容特征。
208、服务器根据目标图像内容特征,生成图像生成内容对应的目标交互图像。
例如,服务器可以采用图像解码网络对目标图像内容特征进行解码,以得到图像生成内容对应的目标交互图像,或者,还可以将目标图像内容特征转换为目标图像特征,并采用图像解码网络对目标图像特征进行解码,以得到图像生成内容对应的目标交互图像,等等。
可选的,在一些实施例中,服务器将目标交互图像发送至至少一个交互对象的交互终端,以便交互对象通过交互终端对该目标交互图像进行交互,或者,还可以将目标交互图像发送至交互平台、内容分发或内容推广平台的交互服务器,以便交互服务器将目标交互图像发送至至少一个交互对象的交互终端,使得交互对象可以通过交互终端对目标交互图像进行交互。
服务器获取交互对象针对目标交互图像的交互反馈信息,在交互反馈信息中识别出点击次数,并基于点击次数与交互对象的数量之间的比值,得到目标交互图像的点击率(CTR),将点击率与预设点击率阈值进行对比,当点击率大于预设点击率阈值时,就可以确定目标交互图像的目标CTR类别为高CTR类别,当点击率小于预设点击率阈值时,就可以确定目标交互图像的目标CTR类别为低CTR类别。
服务器可以基于目标CTR类别,确定目标交互图像的CTR类别标签(譬如,高CTR类别为1,低CTR类别为0,等等),将CTR类别标签添加至目标交互图像,从而得到目标交互图像样本。基于标注后的目标交互图像样本,对分类模型进行更新,从而得到更新后分类模型。
由以上可知,本实施例服务器在获取图像生成内容,并在图像生成内容中提取出隐空间的特征,得到所述图像生成内容的内容特征后,对内容特征添加至少一次噪声,得到图像生成内容对应的噪声内容特征,对噪声内容特征进行分类,得到预测CTR类别,该预测CTR类别指示基于所述噪声内容特征生成的图像在交互时的反馈程度,根据预测CTR类别,确定噪声内容特征的目标噪声,并基于目标噪声对噪声内容特征进行调整,得到目标噪声内容特征,对目标噪声内容特征进行去噪,以得到目标图像内容特征,并根据目标图像内容特征,生成图像生成内容对应的目标交互图像;由于该方案可以直接对隐空间的噪声内容特征进行分类,无需将噪声内容特征转换为图像来分类,从而避免图像级的梯度更新造成的对抗攻击,而且,还可以基于分类后的预测CTR类别,确定噪声内容特征在学习到分类信息之后的目标噪声,学习到的分类信息可以为表征交互反馈的分类信息,从而可以将分类信号作为条件引导图像的生成,在图像交互场景下,还可以使得生成的图像具有可控的交互反馈程度,因此,可以提升图像生成的准确性。
为了更好地实施以上方法,本申请实施例还提供一种图像生成装置,该图像生成装置可以集成在电子设备,比如服务器或终端等设备中,该终端可以包括平板电脑、笔记本电脑和/或个人计算机等。
例如,如图7所示,该图像生成装置可以包括获取单元301、添加单元302、分类单元303、调整单元304和生成单元305,如下:
(1)获取单元301;
获取单元301,用于获取图像生成内容,并在图像生成内容中提取出隐空间的特征,得到图像生成内容的内容特征。
例如,获取单元301,具体可以用于获取图像生成内容,用VAE编码器将图像生成内容编码成隐空间向量,从而得到图像生成内容的内容特征。
(2)添加单元302;
添加单元302,用于对内容特征添加至少一次噪声,得到图像生成内容对应的噪声内容特征。
例如,添加单元302,具体可以用于采用噪声采样器对内容特征多次添加噪声,得到图像生成内容对应的噪声内容特征。
(3)分类单元303;
分类单元303,用于对噪声内容特征进行分类,得到预测交互类别,该预测交互类别指示基于噪声内容特征生成的图像在交互时的反馈程度。
例如,分类单元303,具体可以用于采用分类模型在噪声内容特征中提取出交互反馈特征,基于交互反馈特征,预测噪声内容特征对应的交互类别,得到预测交互类别。
(4)调整单元304;
调整单元304,用于根据预测交互类别,确定噪声内容特征的目标噪声,并基于目标噪声对噪声内容特征进行调整,得到目标噪声内容特征。
例如,调整单元304,具体可以用于在图像生成内容中提取出图像条件特征,基于图像条件特征,在噪声内容特征中识别出目标条件噪声,根据预测交互类别,对目标条件噪声进行调整,以得到噪声内容特征的目标噪声,将目标噪声转换为噪声内容特征对应的目标梯度,基于目标梯度,确定噪声内容特征对应的分类噪声特征,将分类噪声特征和噪声内容特征进行融合,得到目标噪声内容特征。
(5)生成单元305;
生成单元305,用于对目标噪声内容特征进行去噪,以得到目标图像内容特征,并根据目标图像内容特征,生成图像生成内容对应的目标交互图像。
例如,生成单元305,具体可以用于对目标噪声内容特征进行去噪,得到初始图像内容特征,并将初始图像内容特征作为噪声内容特征,返回执行对噪声内容特征进行分类的步骤,直至去噪次数达到预设次数时为止,得到目标图像内容特征,根据目标图像内容特征,生成图像生成内容对应的目标交互图像。
可选的,在一些实施例中,图像生成装置还可以包括训练单元306,如图8所示,具体可以如下:
训练单元306,用于对预设分类模型进行训练,得到分类模型。
例如,训练单元306,具体可以用于获取交互图像样本,并在交互图像样本中提取出隐空间的特征,得到样本图像特征,对样本图像特征添加至少一次噪声,并基于添加噪声的噪声图像特征,采用预设分类模型预测交互图像样本的交互类别,得到样本交互类别,基于样本交互类别,确定交互图像样本的分类损失,并基于分类损失,对预设分类模型进行收敛,得到分类模型。
可选的,在一些实施例中,图像生成装置还可以包括更新单元307,如图9所示,具体可以如下:
更新单元307,用于基于目标交互图像对分类模型进行更新,并将更新后的分类模型作为分类模型。
例如,更新单元307,具体可以用于将目标交互图像发送至至少一个交互对象进行交互,并获取交互对象针对所述目标交互图像的交互反馈信息,基于交互反馈信息,确定目标交互图像的目标交互类别,并基于目标交互类别,对目标交互图像进行标注,得到目标交互图像样本,根据目标交互图像样本,对分类模型进行更新,并将更新后分类模型作为分类模型。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由以上可知,本申请实施例在获取图像生成内容,并在图像生成内容中提取出隐空间的特征,得到所述图像生成内容的内容特征后,对内容特征添加至少一次噪声,得到图像生成内容对应的噪声内容特征,对噪声内容特征进行分类,得到预测交互类别,该预测交互类别指示基于所述噪声内容特征生成的图像在交互时的反馈程度,根据预测交互类别,确定噪声内容特征的目标噪声,并基于目标噪声对噪声内容特征进行调整,得到目标噪声内容特征,对目标噪声内容特征进行去噪,以得到目标图像内容特征,并根据目标图像内容特征,生成图像生成内容对应的目标交互图像;由于该方案可以直接对隐空间的噪声内容特征进行分类,无需将噪声内容特征转换为图像来分类,从而避免图像级的梯度更新造成的对抗攻击,而且,还可以基于分类后的预测交互类别,确定噪声内容特征在学习到分类信息之后的目标噪声,学习到的分类信息可以为表征交互反馈的分类信息,从而可以将分类信号作为条件引导图像的生成,在图像交互场景下,还可以使得生成的图像具有可控的交互反馈程度,因此,可以提升图像生成的准确性。
本申请实施例还提供一种电子设备,如图10所示,其示出了本申请实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图10中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
电子设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取图像生成内容,并在图像生成内容中提取出隐空间的特征,得到图像生成内容的内容特征,对内容特征添加至少一次噪声,得到图像生成内容对应的噪声内容特征,对噪声内容特征进行分类,得到预测交互类别,该预测交互类别指示基于噪声内容特征生成的图像在交互时的反馈程度,根据预测交互类别,确定噪声内容特征的目标噪声,并基于目标噪声对噪声内容特征进行调整,得到目标噪声内容特征,对目标噪声内容特征进行去噪,以得到目标图像内容特征,并根据目标图像内容特征,生成图像生成内容对应的目标交互图像。
例如,电子设备可以获取图像生成内容,用VAE编码器将图像生成内容编码成隐空间向量,从而得到图像生成内容的内容特征。采用噪声采样器对内容特征多次添加噪声,得到图像生成内容对应的噪声内容特征。采用分类模型在噪声内容特征中提取出交互反馈特征,基于交互反馈特征,预测噪声内容特征对应的交互类别,得到预测交互类别。在图像生成内容中提取出图像条件特征,基于图像条件特征,在噪声内容特征中识别出目标条件噪声,根据预测交互类别,对目标条件噪声进行调整,以得到噪声内容特征的目标噪声,将目标噪声转换为噪声内容特征对应的目标梯度,基于目标梯度,确定噪声内容特征对应的分类噪声特征,将分类噪声特征和噪声内容特征进行融合,得到目标噪声内容特征。对目标噪声内容特征进行去噪,得到初始图像内容特征,并将初始图像内容特征作为噪声内容特征,返回执行对噪声内容特征进行分类的步骤,直至去噪次数达到预设次数时为止,得到目标图像内容特征,根据目标图像内容特征,生成图像生成内容对应的目标交互图像。
以上各个操作的具体实施可参见前面的实施例,在此不作赘述。
由以上可知,本申请实施例在获取图像生成内容,并在图像生成内容中提取出隐空间的特征,得到所述图像生成内容的内容特征后,对内容特征添加至少一次噪声,得到图像生成内容对应的噪声内容特征,对噪声内容特征进行分类,得到预测交互类别,该预测交互类别指示基于所述噪声内容特征生成的图像在交互时的反馈程度,根据预测交互类别,确定噪声内容特征的目标噪声,并基于目标噪声对噪声内容特征进行调整,得到目标噪声内容特征,对目标噪声内容特征进行去噪,以得到目标图像内容特征,并根据目标图像内容特征,生成图像生成内容对应的目标交互图像;由于该方案可以直接对隐空间的噪声内容特征进行分类,无需将噪声内容特征转换为图像来分类,从而避免图像级的梯度更新造成的对抗攻击,而且,还可以基于分类后的预测交互类别,确定噪声内容特征在学习到分类信息之后的目标噪声,学习到的分类信息可以为表征交互反馈的分类信息,从而可以将分类信号作为条件引导图像的生成,在图像交互场景下,还可以使得生成的图像具有可控的交互反馈程度,因此,可以提升图像生成的准确性。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种图像生成方法中的步骤。例如,该指令可以执行如下步骤:
获取图像生成内容,并在图像生成内容中提取出隐空间的特征,得到图像生成内容的内容特征,对内容特征添加至少一次噪声,得到图像生成内容对应的噪声内容特征,对噪声内容特征进行分类,得到预测交互类别,该预测交互类别指示基于噪声内容特征生成的图像在交互时的反馈程度,根据预测交互类别,确定噪声内容特征的目标噪声,并基于目标噪声对噪声内容特征进行调整,得到目标噪声内容特征,对目标噪声内容特征进行去噪,以得到目标图像内容特征,并根据目标图像内容特征,生成图像生成内容对应的目标交互图像。
例如,获取图像生成内容,用VAE编码器将图像生成内容编码成隐空间向量,从而得到图像生成内容的内容特征。采用噪声采样器对内容特征多次添加噪声,得到图像生成内容对应的噪声内容特征。采用分类模型在噪声内容特征中提取出交互反馈特征,基于交互反馈特征,预测噪声内容特征对应的交互类别,得到预测交互类别。在图像生成内容中提取出图像条件特征,基于图像条件特征,在噪声内容特征中识别出目标条件噪声,根据预测交互类别,对目标条件噪声进行调整,以得到噪声内容特征的目标噪声,将目标噪声转换为噪声内容特征对应的目标梯度,基于目标梯度,确定噪声内容特征对应的分类噪声特征,将分类噪声特征和噪声内容特征进行融合,得到目标噪声内容特征。对目标噪声内容特征进行去噪,得到初始图像内容特征,并将初始图像内容特征作为噪声内容特征,返回执行对噪声内容特征进行分类的步骤,直至去噪次数达到预设次数时为止,得到目标图像内容特征,根据目标图像内容特征,生成图像生成内容对应的目标交互图像。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种图像生成方法中的步骤,因此,可以实现本申请实施例所提供的任一种图像生成方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
其中,根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述图像生成方面或者广告素材生成方面的各种可选实现方式中提供的方法。
以上对本申请实施例所提供的一种图像生成方法、装置、电子设备和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (19)
1.一种图像生成方法,其特征在于,包括:
获取图像生成内容,并在所述图像生成内容中提取出隐空间的特征,得到所述图像生成内容的内容特征;
对所述内容特征添加至少一次噪声,得到所述图像生成内容对应的噪声内容特征;
对所述噪声内容特征进行分类,得到预测交互类别,所述预测交互类别指示基于所述噪声内容特征生成的图像在交互时的反馈程度;
根据所述预测交互类别,确定所述噪声内容特征的目标噪声,并将所述目标噪声转换为所述噪声内容特征对应的目标梯度;
基于所述目标梯度,确定所述噪声内容特征对应的分类噪声特征;
将所述分类噪声特征和所述噪声内容特征进行融合,得到目标噪声内容特征;
对所述目标噪声内容特征进行去噪,以得到目标图像内容特征,并根据所述目标图像内容特征,生成所述图像生成内容对应的目标交互图像。
2.根据权利要求1所述的图像生成方法,其特征在于,所述根据所述预测交互类别,确定所述噪声内容特征的目标噪声,包括:
在所述图像生成内容中提取出图像条件特征,所述图像条件特征表征基于所述图像生成内容生成图像的条件信息;
基于所述图像条件特征,在所述噪声内容特征中识别出目标条件噪声;
根据所述预测交互类别,对所述目标条件噪声进行调整,以得到所述噪声内容特征的目标噪声。
3.根据权利要求2所述的图像生成方法,其特征在于,所述基于所述图像条件特征,在所述噪声内容特征中识别出目标条件噪声,包括:
在所述噪声内容特征中识别出原始噪声;
根据所述图像条件特征,在所述噪声内容特征中识别出条件噪声;
将所述原始噪声和条件噪声进行融合,得到目标条件噪声。
4.根据权利要求3所述的图像生成方法,其特征在于,所述将所述原始噪声和条件噪声进行融合,得到目标条件噪声,包括:
获取所述噪声内容特征对应的引导权重;
基于所述引导权重分别对所述原始噪声和条件噪声进行加权;
计算加权后条件噪声与加权后原始噪声的差值,得到目标条件噪声。
5.根据权利要求3所述的图像生成方法,其特征在于,所述根据所述预测交互类别,对所述目标条件噪声进行调整,以得到所述噪声内容特征的目标噪声,包括:
基于所述预测交互类别和条件噪声,确定所述噪声内容特征对应的分类噪声;
将所述分类噪声和目标条件噪声进行融合,得到所述噪声内容特征的目标噪声。
6.根据权利要求5所述的图像生成方法,其特征在于,所述基于所述预测交互类别和条件噪声,确定所述噪声内容特征对应的分类噪声,包括:
获取所述预测交互类别对应的概率分布信息,所述概率分布信息包括不同预设交互类别的概率信息,所述预设交互类别包括所述预测交互类别;
基于所述概率分布信息和条件噪声,确定不同预设交互类别对应的当前分类噪声;
将所述当前分类噪声进行融合,得到所述噪声内容特征对应的分类噪声。
7.根据权利要求6所述的图像生成方法,其特征在于,所述预设交互类别还包括候选交互类别,所述基于所述概率分布信息和条件噪声,确定不同预设交互类别对应的当前分类噪声,包括:
基于所述概率分布信息,计算所述预测交互类别对应的预测梯度,所述预测梯度包括以所述预测交互类别作为交互类别标签时对应的梯度;
根据所述概率分布信息,计算所述候选交互类别对应的候选梯度,所述候选梯度包括以所述候选交互类别作为所述交互类别标签时对应的梯度;
基于所述预测梯度和条件噪声,确定所述预测交互类别对应的预测当前分类噪声;
根据所述候选梯度和条件噪声,确定所述候选交互类别对应的候选当前分类噪声,并将所述预测当前分类噪声和候选当前分类噪声作为当前分类噪声。
8.根据权利要求7所述的图像生成方法,其特征在于,所述基于所述概率分布信息,计算所述预测交互类别对应的预测梯度,包括:
将所述预测交互类别作为交互类别标签,并基于所述概率分布信息和所述交互类别标签,确定所述预测交互类别对应的目标预测损失;
基于所述目标预测损失,计算所述预测交互类别对应的预测梯度。
9.根据权利要求7所述的图像生成方法,其特征在于,所述基于所述预测梯度和条件噪声,确定所述预测交互类别对应的预测当前分类噪声,包括:
对所述预测梯度进行噪声转换,得到所述预测交互类别对应的初始分类噪声;
计算所述初始分类噪声与所述条件噪声的差值,得到所述预测交互类别对应的预测当前分类噪声。
10.根据权利要求7所述的图像生成方法,其特征在于,所述将所述当前分类噪声进行融合,得到所述噪声内容特征对应的分类噪声,包括:
计算所述预测当前分类噪声与候选当前分类噪声之间的差值,得到候选分类噪声;
基于引导权重,对所述候选分类噪声进行加权,得到所述噪声内容特征对应的分类噪声。
11.根据权利要求2所述的图像生成方法,其特征在于,所述基于所述图像条件特征,在所述噪声内容特征中识别出目标条件噪声之前,还包括:
获取交互图像,并在所述交互图像中提取出隐空间的特征,得到图像特征;
对所述图像特征添加至少一次噪声,得到所述交互图像对应的噪声图像特征;
将所述噪声图像特征与所述噪声内容特征进行融合,得到融合后特征,并将所述融合后特征作为所述噪声内容特征。
12.根据权利要求1至11任一项所述的图像生成方法,其特征在于,所述对所述目标噪声内容特征进行去噪,以得到目标图像内容特征,包括:
对所述目标噪声内容特征进行去噪,得到初始图像内容特征,并将所述初始图像内容特征作为所述噪声内容特征;
返回执行所述对所述噪声内容特征进行分类的步骤,直至去噪次数达到预设去噪次数时为止,得到目标图像内容特征。
13.根据权利要求1至11任一项所述的图像生成方法,其特征在于,所述对所述噪声内容特征进行分类,得到预测交互类别,包括:
采用分类模型在所述噪声内容特征中提取出交互反馈特征,所述交互反馈特征表征基于所述噪声内容特征生成的图像在交互时的反馈信息;
基于所述交互反馈特征,预测所述噪声内容特征对应的交互类别,得到预测交互类别。
14.根据权利要求13所述的图像生成方法,其特征在于,所述采用分类模型在所述噪声内容特征中提取出交互反馈特征之前,还包括:
获取交互图像样本,并在所述交互图像样本中提取出隐空间的特征,得到样本图像特征;
对所述样本图像特征添加至少一次噪声,并基于添加噪声的噪声图像特征,采用预设分类模型预测所述交互图像样本的交互类别,得到样本交互类别;
基于所述样本交互类别,确定所述交互图像样本的分类损失,并基于所述分类损失,对所述预设分类模型进行收敛,得到分类模型。
15.根据权利要求13所述的图像生成方法,其特征在于,所述根据所述目标图像内容特征,生成所述图像生成内容对应的目标交互图像之后,还包括:
将所述目标交互图像发送至至少一个交互对象进行交互,并获取所述交互对象针对所述目标交互图像的交互反馈信息;
基于所述交互反馈信息,确定所述目标交互图像的目标交互类别,并基于所述目标交互类别,对所述目标交互图像进行标注,得到目标交互图像样本;
根据所述目标交互图像样本,对分类模型进行更新,并将更新后分类模型作为所述分类模型。
16.一种图像生成装置,其特征在于,包括:
获取单元,用于获取图像生成内容,并在所述图像生成内容中提取出隐空间的特征,得到所述图像生成内容的内容特征;
添加单元,用于对所述内容特征添加至少一次噪声,得到所述图像生成内容对应的噪声内容特征;
分类单元,用于对所述噪声内容特征进行分类,得到预测交互类别,所述预测交互类别指示基于所述噪声内容特征生成的图像在交互时的反馈程度;
调整单元,用于根据所述预测交互类别,确定所述噪声内容特征的目标噪声,并将所述目标噪声转换为所述噪声内容特征对应的目标梯度;
基于所述目标梯度,确定所述噪声内容特征对应的分类噪声特征;将所述分类噪声特征和所述噪声内容特征进行融合,得到目标噪声内容特征;
生成单元,用于对所述目标噪声内容特征进行去噪,以得到目标图像内容特征,并根据所述目标图像内容特征,生成所述图像生成内容对应的目标交互图像。
17.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序,以执行权利要求1至15任一项所述的图像生成方法中的步骤。
18.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至15任一项所述的图像生成方法中的步骤。
19.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至15任一项所述的图像生成方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410058278.8A CN117575894B (zh) | 2024-01-16 | 2024-01-16 | 图像生成方法、装置、电子设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410058278.8A CN117575894B (zh) | 2024-01-16 | 2024-01-16 | 图像生成方法、装置、电子设备和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117575894A CN117575894A (zh) | 2024-02-20 |
CN117575894B true CN117575894B (zh) | 2024-04-30 |
Family
ID=89890439
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410058278.8A Active CN117575894B (zh) | 2024-01-16 | 2024-01-16 | 图像生成方法、装置、电子设备和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117575894B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021126268A1 (en) * | 2019-12-20 | 2021-06-24 | Hewlett-Packard Development Company, L.P. | Neural networks to provide images to recognition engines |
CN116306588A (zh) * | 2023-03-28 | 2023-06-23 | 阿里巴巴(中国)有限公司 | 一种基于交互的图像生成方法、装置、电子设备及存储介质 |
CN116704079A (zh) * | 2023-08-03 | 2023-09-05 | 腾讯科技(深圳)有限公司 | 图像生成方法、装置、设备及存储介质 |
CN116777732A (zh) * | 2023-02-03 | 2023-09-19 | 华工未来通信(江苏)有限公司 | 基于随机噪声的图像生成方法、装置、设备及存储介质 |
CN116824020A (zh) * | 2023-08-25 | 2023-09-29 | 北京生数科技有限公司 | 图像生成方法和装置、设备、介质和程序 |
CN116863015A (zh) * | 2023-05-30 | 2023-10-10 | 阿里云计算有限公司 | 一种文图生成方法、装置、计算机设备及存储介质 |
CN116957921A (zh) * | 2023-07-25 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 图像渲染方法、装置、设备及存储介质 |
CN116958325A (zh) * | 2023-07-24 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 图像处理模型的训练方法、装置、电子设备及存储介质 |
CN116977457A (zh) * | 2023-02-08 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、设备以及计算机可读存储介质 |
-
2024
- 2024-01-16 CN CN202410058278.8A patent/CN117575894B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021126268A1 (en) * | 2019-12-20 | 2021-06-24 | Hewlett-Packard Development Company, L.P. | Neural networks to provide images to recognition engines |
CN116777732A (zh) * | 2023-02-03 | 2023-09-19 | 华工未来通信(江苏)有限公司 | 基于随机噪声的图像生成方法、装置、设备及存储介质 |
CN116977457A (zh) * | 2023-02-08 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、设备以及计算机可读存储介质 |
CN116306588A (zh) * | 2023-03-28 | 2023-06-23 | 阿里巴巴(中国)有限公司 | 一种基于交互的图像生成方法、装置、电子设备及存储介质 |
CN116863015A (zh) * | 2023-05-30 | 2023-10-10 | 阿里云计算有限公司 | 一种文图生成方法、装置、计算机设备及存储介质 |
CN116958325A (zh) * | 2023-07-24 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 图像处理模型的训练方法、装置、电子设备及存储介质 |
CN116957921A (zh) * | 2023-07-25 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 图像渲染方法、装置、设备及存储介质 |
CN116704079A (zh) * | 2023-08-03 | 2023-09-05 | 腾讯科技(深圳)有限公司 | 图像生成方法、装置、设备及存储介质 |
CN116824020A (zh) * | 2023-08-25 | 2023-09-29 | 北京生数科技有限公司 | 图像生成方法和装置、设备、介质和程序 |
Also Published As
Publication number | Publication date |
---|---|
CN117575894A (zh) | 2024-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110533097B (zh) | 一种图像清晰度识别方法、装置、电子设备及存储介质 | |
CN111741330B (zh) | 一种视频内容评估方法、装置、存储介质及计算机设备 | |
CN112131978B (zh) | 一种视频分类方法、装置、电子设备和存储介质 | |
CN111444357B (zh) | 内容信息确定方法、装置、计算机设备及存储介质 | |
CN111966914B (zh) | 基于人工智能的内容推荐方法、装置和计算机设备 | |
CN111973996A (zh) | 一种游戏资源投放方法和装置 | |
CN112463968B (zh) | 文本分类方法、装置和电子设备 | |
CN112131430A (zh) | 视频聚类方法、装置、存储介质和电子设备 | |
CN116226785A (zh) | 目标对象识别方法、多模态识别模型的训练方法和装置 | |
CN112989212A (zh) | 媒体内容推荐方法、装置和设备及计算机存储介质 | |
CN116977457A (zh) | 一种数据处理方法、设备以及计算机可读存储介质 | |
CN115062709A (zh) | 模型优化方法、装置、设备、存储介质及程序产品 | |
CN113128526B (zh) | 图像识别方法、装置、电子设备和计算机可读存储介质 | |
CN117635275A (zh) | 基于大数据的智能电商运营商品管理平台及方法 | |
CN116955591A (zh) | 用于内容推荐的推荐语生成方法、相关装置和介质 | |
CN117575894B (zh) | 图像生成方法、装置、电子设备和计算机可读存储介质 | |
CN116980665A (zh) | 一种视频处理方法、装置、计算机设备、介质及产品 | |
CN115905613A (zh) | 音视频多任务学习、评估方法、计算机设备及介质 | |
CN115391589A (zh) | 内容召回模型的训练方法、装置、电子设备及存储介质 | |
CN117009577A (zh) | 一种视频数据处理方法、装置、设备及可读存储介质 | |
CN113704544A (zh) | 一种视频分类方法、装置、电子设备和存储介质 | |
CN115482021A (zh) | 多媒体信息推荐方法、装置、电子设备及存储介质 | |
CN113569091A (zh) | 视频数据的处理方法、装置 | |
CN113762324A (zh) | 虚拟对象检测方法、装置、设备及计算机可读存储介质 | |
CN114996435A (zh) | 基于人工智能的信息推荐方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |