CN117576265B - 风格图像的生成方法、装置、计算机设备和存储介质 - Google Patents
风格图像的生成方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN117576265B CN117576265B CN202410053935.XA CN202410053935A CN117576265B CN 117576265 B CN117576265 B CN 117576265B CN 202410053935 A CN202410053935 A CN 202410053935A CN 117576265 B CN117576265 B CN 117576265B
- Authority
- CN
- China
- Prior art keywords
- image
- target
- style
- layer
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 133
- 238000012545 processing Methods 0.000 claims abstract description 113
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 72
- 238000004590 computer program Methods 0.000 claims abstract description 26
- 238000000605 extraction Methods 0.000 claims description 63
- 230000008569 process Effects 0.000 claims description 59
- 238000012549 training Methods 0.000 claims description 56
- 238000009792 diffusion process Methods 0.000 claims description 37
- 238000013473 artificial intelligence Methods 0.000 abstract description 12
- 239000011159 matrix material Substances 0.000 description 31
- 238000010586 diagram Methods 0.000 description 15
- 238000006243 chemical reaction Methods 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 13
- 239000013598 vector Substances 0.000 description 11
- 238000013145 classification model Methods 0.000 description 8
- 238000010428 oil painting Methods 0.000 description 8
- 230000011218 segmentation Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 239000003086 colorant Substances 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 108010001267 Protein Subunits Proteins 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000010422 painting Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
Abstract
本申请涉及一种风格图像的生成方法、装置、计算机设备、存储介质和计算机程序产品。该方法可以应用于人工智能领域,该方法包括:对图像生成模型中的目标网络层的参数进行奇异值分解,得到目标网络层的影响图像风格的参数特征值;通过图像生成模型对原生风格和目标风格的图文数据进行图像生成处理,得到对应的预测图像;基于预测图像和图文数据包括的风格图像,对目标网络层的参数特征值进行调整,得到目标图像生成模型;响应于图像生成请求,通过目标图像生成模型对噪声图像和图像生成请求携带的用于指示生成目标风格的描述信息进行图像生成处理,得到目标风格的图像。采用本方法能够提升生成的目标风格的图像的质量。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种风格图像的生成方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着计算机技术的发展,相关技术可以利用人工智能对输入的文本进行处理,生成指定内容的图像。
在相关技术中,通常需要对具有原生风格的图像生成模型的参数进行调整,得到生成目标风格的图像生成模型,由于风格图像是风格信息和图像内容信息的融合,而传统的模型训练方式,在学习图像内容信息上的效果较好,但是在学习风格信息上的效果较差,导致对风格信息的欠拟合,进而训练得到的图像生成模型,在生成目标风格的图像上的表现较差。
发明内容
基于此,有必要针对上述技术问题,提供一种风格图像的生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,能够有效提升模型学习目标风格的信息的能力,提升生成的目标风格的图像的质量。
第一方面,本申请提供了一种风格图像的生成方法。所述方法包括:对图像生成模型中的目标网络层的参数进行奇异值分解,得到目标网络层的影响图像风格的参数特征值;通过图像生成模型对至少两种不同图像风格的图文数据进行图像生成处理,得到对应的预测图像;至少两种不同图像风格包括目标风格和图像生成模型所具有的至少一种原生风格;基于预测图像和图文数据包括的风格图像,对目标网络层的参数特征值进行调整,得到目标图像生成模型;响应于图像生成请求,通过目标图像生成模型对噪声图像和图像生成请求携带的用于指示生成目标风格的描述信息进行图像生成处理,得到目标风格的图像。
第二方面,本申请还提供了一种风格图像的生成装置。所述装置包括:
奇异值分解模块,用于对图像生成模型中的目标网络层的参数进行奇异值分解,得到目标网络层的影响图像风格的参数特征值;
预测图像生成模块,用于通过图像生成模型对至少两种不同图像风格的图文数据进行图像生成处理,得到对应的预测图像;至少两种不同图像风格包括目标风格和图像生成模型所具有的至少一种原生风格;
参数特征值调整模块,用于基于预测图像和图文数据包括的风格图像,对目标网络层的参数特征值进行调整,得到目标图像生成模型;
图像生成模块,用于响应于图像生成请求,通过目标图像生成模型对噪声图像和图像生成请求携带的用于指示生成目标风格的描述信息进行图像生成处理,得到目标风格的图像。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
对图像生成模型中的目标网络层的参数进行奇异值分解,得到目标网络层的影响图像风格的参数特征值;通过图像生成模型对至少两种不同图像风格的图文数据进行图像生成处理,得到对应的预测图像;至少两种不同图像风格包括目标风格和图像生成模型所具有的至少一种原生风格;基于预测图像和图文数据包括的风格图像,对目标网络层的参数特征值进行调整,得到目标图像生成模型;响应于图像生成请求,通过目标图像生成模型对噪声图像和图像生成请求携带的用于指示生成目标风格的描述信息进行图像生成处理,得到目标风格的图像。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
对图像生成模型中的目标网络层的参数进行奇异值分解,得到目标网络层的影响图像风格的参数特征值;通过图像生成模型对至少两种不同图像风格的图文数据进行图像生成处理,得到对应的预测图像;至少两种不同图像风格包括目标风格和图像生成模型所具有的至少一种原生风格;基于预测图像和图文数据包括的风格图像,对目标网络层的参数特征值进行调整,得到目标图像生成模型;响应于图像生成请求,通过目标图像生成模型对噪声图像和图像生成请求携带的用于指示生成目标风格的描述信息进行图像生成处理,得到目标风格的图像。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
对图像生成模型中的目标网络层的参数进行奇异值分解,得到目标网络层的影响图像风格的参数特征值;通过图像生成模型对至少两种不同图像风格的图文数据进行图像生成处理,得到对应的预测图像;至少两种不同图像风格包括目标风格和图像生成模型所具有的至少一种原生风格;基于预测图像和图文数据包括的风格图像,对目标网络层的参数特征值进行调整,得到目标图像生成模型;响应于图像生成请求,通过目标图像生成模型对噪声图像和图像生成请求携带的用于指示生成目标风格的描述信息进行图像生成处理,得到目标风格的图像。
上述风格图像的生成方法、装置、计算机设备、存储介质和计算机程序产品,对图像生成模型中的目标网络层的参数进行奇异值分解,得到目标网络层的参数特征值,通过图像生成模型对至少两种不同图像风格的图文数据进行图像生成处理,得到对应的预测图像,根据图文数据包括的风格图像和对应的预测图像调整参数特征值,得到目标图像生成模型;通过对目标网络层的参数进行奇异值分解,得到的参数特征值是目标网络层的、与风格相关的核心参数,通过核心参数学习图像风格的信息,可以有效提升模型学习目标风格的信息的能力,解决了传统的模型训练方式,对参数进行调整导致风格信息的欠拟合的问题,进而提升了训练得到的目标图像生成模型,生成目标风格的图像的质量;此外,联合目标风格的图文数据和原生风格的图文数据,对参数特征值进行调整,可以保留图像生成模型具备的原生风格的图像生成能力,进而训练得到的目标图像生成模型可以处理目标风格的图像生成任务,还可以处理原生风格的图像生成任务,提升了目标图像生成模型的适用率。
附图说明
图1为一实施例中风格图像的生成方法的应用环境图;
图2为一实施例中风格图像的生成方法的流程示意图;
图3为一实施例中图像生成模型的结构示意图;
图4为一实施例中漫画风格的风格图像的示意图;
图5为一实施例中图像生成模型生成的原生风格的图像的示意图;
图6为一实施例中图像生成模型的结构示意图;
图7为一实施例中图像去噪子模型的结构示意图;
图8为一实施例中残差子单元的结构示意图;
图9为一实施例中转换子单元的结构示意图;
图10为一实施例中,对图像生成模型中目标网络层的参数特征值进行调整的示意图;
图11为一实施例中卷积处理的过程示意图;
图12为一实施例中对旁路模型的参数进行调整的示意图;
图13为一实施例中风格图像的生成方法应用于生成动漫的应用场景的示意图;
图14为一实施例中生成画家张三特定风格的动漫图像风格图像的示意图;
图15为另一实施例中风格图像的生成方法的流程示意图;
图16为一实施例中风格图像的生成装置的结构框图;
图17为一实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的风格图像的生成方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以单独设置,可以集成在服务器104上,也可以放在云上或其他网络服务器上;风格图像的生成方法可以通过终端102或服务器104执行,也可以通过终端102和服务器104协同执行。
以风格图像的生成方法通过服务器104执行为例,服务器104对图像生成模型中的目标网络层的参数进行奇异值分解,得到目标网络层的影响图像风格的参数特征值;服务器104通过图像生成模型对至少两种不同图像风格的图文数据进行图像生成处理,得到对应的预测图像;至少两种不同图像风格包括目标风格和图像生成模型所具有的至少一种原生风格;服务器104基于预测图像和图文数据包括的风格图像,对目标网络层的参数特征值进行调整,得到目标图像生成模型;服务器104响应于图像生成请求,通过目标图像生成模型对噪声图像和图像生成请求携带的用于指示生成目标风格的描述信息进行图像生成处理,得到目标风格的图像。
其中,终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调和智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。
服务器104可以是独立的物理服务器,也可以是区块链系统中的服务节点,该区块链系统中的各服务节点之间形成组成点对点网络。
此外,服务器104还可以是多个物理服务器构成的服务器集群,可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
终端102与服务器104之间可以通过蓝牙、USB(Universal Serial Bus,通用串行总线)或者网络等通讯连接方式进行连接,本申请在此不做限制。
在一些实施例中,如图2所示,提供了一种风格图像的生成方法,该方法由图1中的服务器或终端执行,也可以由图1中的服务器和终端协同执行,以该方法由计算机设备执行为例进行说明,计算机设备可以是图1中的服务器或终端,包括以下步骤:
步骤202,对图像生成模型中的目标网络层的参数进行奇异值分解,得到目标网络层的影响图像风格的参数特征值。
其中,图像生成模型用于生成图像,在实际应用中,图像生成模型可以通过稳定扩散模型(Stable Diffusion,SD)实现,稳定扩散模型可以在限制条件的引导下生成图像,限制条件可以表示图像的训练描述信息,使得稳定扩散模型可以生成与训练描述信息相符的图像;与训练描述信息相符的图像,可以是图像内容或图像风格中的至少一种与训练描述文本相符。
训练描述信息可以通过描述文本、描述图像或描述视频中至少一种表示;比如训练描述信息可以是描述图像,即稳定扩展模型可以在描述图像的引导下,生成与描述文本相符的图像;再如,训练描述信息也可以是描述文本和描述图像的组合,即稳定扩散模型可以在描述文本和描述图像的引导下,生成与描述文本和描述图像相符的图像;又如,训练描述信息可以是描述视频,稳定扩展模型可以在描述视频的引导下,生成与描述视频相符的图像。
图像生成模型包括多个网络层,比如卷积层、线性层、全连接层等;目标网络层可以是图像生成模型包括的多个网络层中的全部网络层。
目标网络层也可以是图像生成模型中的部分网络层;如图3所示,图3是图像生成模型的结构,图像生成模型包括:扩散子模型、特征提取子模型和图像去噪子模型,目标网络层可以是特征提取子模型和图像去噪子模型中的全部网络层。
由于图像去噪子模型是图像生成模型中生成图像所需的核心部分,因此目标网络层可以是图像去噪子模型中的全部网络层,如此,可以在不影响图像生成模型的图像生成效果的情况下,减少训练过程中调整的参数量,提升模型训练效率。
图像去噪子模型中的卷积层和线性层是影响图像生成效果和主要网络层,因此目标网络层也可以是图像去噪子模型中的全部或部分卷积层和线性层,如此,可以在不影响图像生成模型的图像生成效果的情况下,进一步减少训练过程中调整的参数量,提升模型训练效率。
奇异值分解是一种对任意尺寸的矩阵进行分解的方法,对网络参数进行奇异值分解,可以通过数据量较小的三个子矩阵的乘积表示复杂的网络参数;参数特征值是分解得到的三个子矩阵中的对角矩阵,也是网络参数中的主要参数。
示例性地,对矩阵M进行奇异值分解,得到矩阵A、矩阵∑和矩阵B,可以表示为:M=A∑B,在一个具体的示例中:
;;
;;
其中,矩阵∑中对角线上的元素为奇异值,可以理解为矩阵∑是(4,0,0,0)、(0,3,0,0,0)、(0,0,,0,0)和(0,0,0,0,0)4个向量作为基向量张成的空间,通过矩阵A和矩阵B对矩阵∑对应的空间进行拉伸变换,得到矩阵M对应的空间;对于目标网络层,目标网络层的参数特征值对应奇异值分解所得的对角矩阵,目标网络层的参数空间,是通过奇异值分解所得的非对角矩阵,对参数特征值对应空间进行拉伸变换所得,因此参数特征值对应空间是目标网络层的基础空间,参数特征值是目标网络层的核心参数。
以目标网络层是图像去噪子模型中的全部卷积层和全部线性层为例进行说明。计算机设备获取图像生成模型中的图像去噪子模型,将图像去噪子模型中的所有卷积层和线性层作为目标网络层;对于每个卷积层,计算机设备获取卷积层的参数,并对卷积层的参数进行奇异值分解,得到卷积层的参数特征值;对于每个线性层,计算机设备获取线性层的参数,并对线性层的参数进行奇异值分解,得到线性层的参数特征值。
卷积层的参数包括卷积权重参数和卷积偏置参数,卷积层的参数特征值包括卷积权重参数特征值和卷积偏置参数特征值;计算机设备对卷积权重参数进行奇异值分解,得到第一特征矩阵、卷积权重对角矩阵和第二特征矩阵,将卷积权重对角矩阵作为卷积权重参数特征值;计算机设备对卷积偏置参数进行奇异值分解,得到第三特征矩阵、卷积偏置对角矩阵和第四特征矩阵,将卷积偏置对角矩阵作为卷积偏置参数特征值。
线性层的参数包括线性权重参数和线性偏置参数,线性层的参数特征值包括线性权重参数特征值和线性偏置参数特征值;计算机设备对线性权重参数进行奇异值分解,得到第五特征矩阵、线性权重对角矩阵的第六特征矩阵,将线性权重对角矩阵作为线性权重参数特征值;计算机设备对线性偏置参数进行奇异值分解,得到第七特征矩阵、线性偏置对角矩阵和第八特征矩阵,将卷积偏置对角矩阵作为卷积偏置参数特征值。
示例性地,以确定卷积层的卷积参数特征值为例进行说明,如公式(1)所示。
(1)
其中,是卷积层的权重参数,是卷积层的卷积参数特征值,和是对卷积层的权重参数进行奇异值分解所得的特征矩阵。
需要说明的是,图像生成模型可以用于生成至少一种图像风格的图像,图像风格可以用于反映图像的色彩和内容的特点,属于一种风格的图像的色彩和内容具有相同的特点,比如,水墨画风格的图像,色彩以黑色和白色为主,内容多为通过线条的粗细和颜色浓淡来表示的景物和动物;画家Y特定风格的图像,色彩丰富且柔和,内容多为漫画人物和景物;油画风格的图像,色彩丰富且鲜艳,内容多为具有细节刻画的景物和人物。
图像生成模型的目标网络层的参数空间,既包含图像内容的信息,也包含图像风格的信息,相关技术中,直接对目标网络层的参数进行调整,会导致对图像内容的学习较强,而对图像风格的学习较弱,可能会改变图像生成模型原本的图像内容生成能力,且无法学习到目标风格的图像特征,导致生成目标风格的图像的表现较差。
本申请实施例中,通过奇异值分解,从目标网络层的参数空间中提取出核心空间,即分解得到的参数特征值对应的空间,在该核心空间对图像风格的信息进行学习,因此将参数特征值作为影响图像风格的参数,而图像内容的信息可以看作是在分解得到的其他两个特征矩阵(和)下的表示;对参数特征值进行调整,可以提升模型学习不同图像风格的特征的能力。
步骤204,通过图像生成模型对至少两种不同图像风格的图文数据进行图像生成处理,得到对应的预测图像;至少两种不同图像风格包括目标风格和图像生成模型所具有的至少一种原生风格。
其中,图像风格可以反映图像的色彩和内容的特点,在实际应用中,存在一些公知且易于区分的图像风格,比如,水墨画风格、油画风格、漫画风格、巴洛克风格、印象派风格、画家Y特定风格等。
原生风格是图像生成模型本身可以实现的图像风格,也就是说,图像生成模型可以生成原生风格的图像,本申请实施例对原生风格不进行限定。需要说明的是,原生风格的种类可以是多种,也就是说,图像生成模型可以生成多种原生风格的图像。
目标风格是图像生成模型还未实现的图像风格,即图像生成模型不能生成目标风格的图像。
其中,图像风格的图文数据,包括该图像风格下的风格图像和训练描述信息,训练描述信息包括图像的风格信息和内容训练描述信息,风格信息用于表示该图像风格,内容训练描述信息用于表示该风格图像中的图像内容。
示例性地,油画风格的图文数据,包括油画风格的风格图像P1和训练描述信息S1,训练描述信息S1包括:油画风格(风格信息)和风格图像P1中的内容。其中,目标风格的图文数据所包括的风格图像,可以是从已有的图像库中获取,相应地,目标风格的图文数据包括的训练描述信息可以是风格图像的标签信息。
目标风格的图文数据所包括的风格图像,也可以是绘图人员绘制的,目标风格的图文数据包括的训练描述信息,可以是绘图人员根据绘制的风格图像所确定的。
示例性地,目标风格为漫画风格,绘图人员绘制了漫画风格的风格图像,如图4所示,绘图人员根据漫画风格和绘制的风格图像的内容,确定的训练描述信息包括:漫画风格;人物X1抱着躺着的人物X2,近处有一簇灌木丛,远方的房子亮着灯。
其中,原生风格的图文数据所包括的训练描述信息可以是绘图人员确定的,原生风格的图文数据所包括的图像数据,可以是通过图像生成模型生成的。
示例性地,原生风格是画家Y特定风格,获取多个内容训练描述信息,根据画家Y特定风格和多个内容训练描述信息,得到多个训练描述信息。
比如,训练描述信息1包括:画家Y特定风格;内容训练描述信息1。训练描述信息2包括画家Y特定风格;内容训练描述信息2。分别将画家Y特定风格的多个训练描述信息和噪声图像输入至图像生成模型,得到画家Y特定风格、与多个内容描述各自对应的多张风格图像;根据画家Y特定风格、多个内容训练描述信息和多张风格图像,得到画家Y特定风格的多个图文数据。
示例性地,训练描述信息1包括:画家Y特定风格;清晨、云海、雾、农村瓦房、山上的房子、金色的树叶、黄色的树叶。通过图像生成模型处理该训练描述信息1,得到的原生风格(画家Y特定风格)的图像如图5所示。
当原生风格存在多种时,可以按照上述生成画家Y特定风格的多个图文数据的方式,得到其他原生风格的多个图文数据,比如原生风格还包括油画风格和巴洛克风格,可以按照上述方式,得到油画风格的多个图文数据,以及巴洛克风格的多个图文数据。
计算机设备获取目标风格的图文数据,将目标风格的图文数据输入到图像生成模型,得到目标风格对应的预测图像;计算机设备获取原生风格的图文数据,将原生风格的图文数据输入到图像生成模型,得到原生风格对应的预测图像。
步骤206,基于预测图像和图文数据包括的风格图像,对目标网络层的参数特征值进行调整,得到目标图像生成模型。
其中,目标图像生成模型,是对图像生成模型中目标网络层参数进行循环迭代调整后,得到的图像生成模型;目标图像生成模型的模型结构与图像生成模型的模型结构相同,目标图像生成模型中目标网络层的参数,与图像生成模型中目标网络层的参数不同。
需要说明的是,预测图像和图文数据,指的是至少两种不同图像风格的预测图像,和至少不同两种图像风格的图文数据。
计算机设备获取目标风格的图文数据包括的目标风格图像,获取目标风格的图文数据对应的预测图像,根据该目标风格图像和对应的预测图像确定目标风格对应的损失值;计算机设备获取原生风格的图文数据包括的原生风格图像,获取原生风格的图文数据对应的预测图像,根据原生风格图像和对应的预测图像,确定原生风格对应的损失值;根据目标风格对应的损失值和原生风格对应的损失值,对目标网络层的参数特征值进行调整。
当原生风格的数量为多个时,该多个原生风格的图文数据均参与每次对参数特征值进行调整的过程;对于每个原生风格,计算机设备获取该原生风格的图文数据包括的原生风格图像,获取该原生风格的图文数据对应的预测图像,根据该原生风格图像和对应的预测图像,确定该原生风格对应的损失值;根据目标风格对应的损失值和多个原生风格各自对应的多个损失值,对目标网络层的参数特征值进行调整。
对目标网络层的参数特征值进行调整包括多次循环迭代的过程;对目标网络层的参数特征值进行调整,得到调整后的图像生成模型,在调整后的图像生成模型未收敛的情况下,继续执行上述过程,以对目标网络层的参数特征值进行调整,直至图像生成模型收敛,将收敛的图像生成模型作为目标图像生成模型。
需要说明的是,由于参数特征值是对目标网络层的参数进行奇异值分解得到的,在调整后的图像生成模型收敛的情况下,可以对收敛的图像生成模型中,目标网络层的调整后的参数特征值进行还原,得到目标网络层的调整后的参数,进而得到目标图像生成模型。
步骤208,响应于图像生成请求,通过目标图像生成模型对噪声图像和图像生成请求携带的用于指示生成目标风格的描述信息进行图像生成处理,得到目标风格的图像。
其中,图像生成请求可以是用户发出的请求;当计算机设备是服务器时,用户通过终端向服务器发送图像生成请求,服务器响应该图像生成请求;当计算机设备是终端时,用户通过与终端的交互,发起图像生成请求,终端响应该图像生成请求。
图像生成请求携带有噪声图像和描述信息,描述信息包括目标风格信息和目标内容描述信息,描述信息作为图像生成的限制条件,用于引导目标生成模型生成目标风格,且图像内容与目标内容描述信息相符的图像。
噪声图像是随机噪声图像,比如可以是高斯噪声图像,也可以是脉冲噪声图像。
在一些实施例中,计算机设备响应于图像生成请求,获取图像生成请求携带的噪声图像和描述信息,将噪声图像和描述信息输入至目标图像生成模型,得到目标风格的图像。
具体地,将噪声图像和描述信息输入至目标图像生成模型,目标图像生成模型提取描述信息的特征,对噪声图像进行编码和噪声添加处理,得到噪声特征,在提取的描述信息的特征的引导下,对噪声特征进行去噪处理,得到目标风格的图像。
在一些实施例中,图像生成请求可以包括噪声特征和描述信息,该噪声特征可以是随机高斯噪声对应的特征,目标图像生成模型提取描述信息的特征,在提取的描述信息的特征的引导下,对噪声特征进行去噪处理,得到目标风格的图像。
在上述风格图像的生成方法,对图像生成模型中的目标网络层的参数进行奇异值分解,得到目标网络层的参数特征值,通过图像生成模型对至少两种不同图像风格的图文数据进行图像生成处理,得到对应的预测图像,根据图文数据包括的风格图像和对应的预测图像调整参数特征值,得到目标图像生成模型;通过对目标网络层的参数进行奇异值分解,得到的参数特征值是目标网络层的、与风格相关的核心参数,通过核心参数学习图像风格的信息,可以有效提升模型学习目标风格的信息的能力,解决了传统的模型训练方式,对参数进行调整导致风格信息的欠拟合的问题,进而提升了训练得到的目标图像生成模型,生成目标风格的图像的质量;此外,联合目标风格的图文数据和原生风格的图文数据,对参数特征值进行调整,可以保留图像生成模型具备的原生风格的图像生成能力,进而训练得到的目标图像生成模型可以处理目标风格的图像生成任务,还可以处理原生风格的图像生成任务,提升了目标图像生成模型的适用率。
在一些实施例中,图文数据包括风格图像、风格信息和内容描述信息;图像生成模型包括扩散子模型、特征提取子模型和图像去噪子模型;通过图像生成模型对至少两种不同图像风格的图文数据进行图像生成处理,得到对应的预测图像,包括:通过特征提取子模型,对至少两种不同图像风格的风格信息和内容描述信息进行特征提取,得到对应的信息特征;通过扩散子模型,对至少两种不同图像风格的风格图像进行噪声添加处理,得到对应的噪声图像特征;通过图像去噪子模型,对至少两种不同图像风格对应的信息特征和噪声图像特征进行去噪处理,得到对应的预测图像。
其中,扩散子模型用于添加噪声,可以为了扩展子模型设置T个扩散步数,每一扩散步数添加一部分噪声,在扩散步数足够大时,可以将扩散子模型的输入项转换为随机的噪声图像特征。
特征提取子模型,用于提取训练描述信息的特征,示例性地,训练描述信息为文本信息,通过特征提取子模型提取训练描述信息的文本特征,得到信息特征。
图像去噪子模型,用于预测噪声图像特征中的噪声部分,并去除预测的噪声部分,得到预测图像。
由于在对图像生成模型的过程中,图像生成模型对目标风格的图文数据进行图像生成的过程,与对原生风格的图文数据进行图像生成的过程相同,本实施例以对目标风格的图文数据进行图像生成处理为例进行说明,对原生风格的图文数据进行图像生成处理过程,可以参考对目标风格的图文数据进行图像生成处理的说明。
目标风格的图文数据包括:目标风格图像和目标描述信息,目标描述信息包括目标风格的风格信息和内容描述信息;计算机设备将目标风格图像输入至扩散子模型,得到目标风格对应的噪声图像特征;将目标风格的风格信息和目标内容描述信息输入到特征提取子模型,得到目标风格对应的信息特征;将目标风格对应的噪声图像特征和信息特征输入到图像去噪子模型,得到目标风格对应的预测图像。
在一些实施例中,图像生成模型还包括:编码器和解码器;通过图像生成模型对至少两种不同图像风格的图文数据进行图像生成处理,得到对应的预测图像,包括:通过编码器对至少两种不同图像风格的风格图像进行编码,得到对应的图像特征,通过扩散子模型,对至少两种不同图像风格对应的图像特征进行噪声添加处理,得到对应的噪声图像特征;通过特征提取子模型,对至少两种不同图像风格的风格信息和内容描述信息进行特征提取,得到对应的信息特征;通过图像去噪子模型,对至少两种不同图像风格对应的信息特征和噪声图像特征进行去噪处理,得到对应的去噪图像特征;通过解码器对至少两种不同图像风格对应的去噪图像特征进行解码,得到对应的预测图像。
示例性地,如图6所示,图像生成模型通过Stable Diffusion实现,StableDiffusion包括编码器、扩散子模型、特征提取子模型、图像去噪子模型和解码器,在实际应用中,扩散子模型也被称为Diffusion Process(扩散过程模型);由于特征提取子模型提取的信息特征作为图像生成过程中的限制条件,因此特征提取子模型也被称为conditioning(条件模型),其中,特征提取子模型可以通过CLIP(Contrastive Language-Image Pre-training)模型实现;图像去噪子模型是基于U-net结构实现,图像去噪子模型也被称为Denoising U-net(表示通过U-net结构实现的去噪模型),通过U-net结构实现的图像去噪子模型,包括下采样单元和上采样单元。
在上述实施例中,通过特征提取子模型提取风格信息和内容描述信息的信息特征,通过信息特征引导图像去噪子模型对噪声图像特征进行去噪处理,可以得到符合风格信息和内容描述信息的预测图像,提升了预测图像的质量,后续通过预测图像对目标网络层的参数特征值进行调整,可以提升模型训练效率。
在一些实施例中,基于预测图像和图文数据包括的风格图像,对目标网络层的参数特征值进行调整,包括:基于目标风格的图文数据对应的预测图像和目标风格的图文数据包括的风格图像,确定目标风格对应的第一损失值;基于原生风格的图文数据对应的预测图像和原生风格的图文数据包括的风格图像,确定原生风格对应的第二损失值;根据第一损失值和第二损失值,对目标网络层的参数特征值进行调整。
其中,第一损失值用于反映目标风格的图文数据中的风格图像,与目标风格对应的预测图像之间的差异,第二损失值用于反映目标风格的图文数据中的风儿图像,与原生风格对应的预测图像之间的差异。
具体地,计算机设备确定目标风格的图文数据中风格图像与目标风格对应的预测图像之间的均方差损失,得到第一损失值,确定原生风格的图文数据中风格图像与原生风格对应的预测图像之间的均方差损失,得到第二损失值,将第一损失值和第二损失值的和值,作为总损失值,调整目标网络层的参数特征值。
示例性地,以确定第一损失值为例进行说明,通过公式(2)确定第一损失值。
(2)
其中,是第一损失值,是目标风格的图文数据中的风格图像,是风格图像中第i个像素点的像素值,是目标风格对应的预测图像,是预测图像中第i个像素值,风格图像和预测图像中均包括n个像素点。
在一些实施例中,原生风格的图文数据的数量为多个,进而可以得到多个原生风格的图文数据对应的预测图像,根据多个原生风格的图文数据和多个原生图像各自对应的预测图像,确定多个第二损失值;将第一损失值和多个第二损失值的和值作为总损失值,调整目标网络层的参数特征值。
在上述实施例中,联合目标风格的图文数据和原生风格的图文数据,对参数特征值进行调整,可以保留图像生成模型具备的原生风格的图像生成能力,进而训练得到的目标图像生成模型可以处理目标风格的图像生成任务,还可以处理原生风格的图像生成任务,提升了目标图像生成模型的适用率。
在一些实施例中,图像生成模型包括图像去噪子模型;目标网络层包括图像去噪子模型中的卷积层和线性层;根据第一损失值和第二损失值,对目标网络层的参数特征值进行调整,包括:根据第一损失值和第二损失值,分别对卷积层的目标参数和线性层的目标参数进行调整,得到卷积层的调整后的目标参数和线性层的调整后的目标参数;依据卷积层的调整后的目标参数对卷积层的参数特征值进行调整;依据线性层的调整后的目标参数对线性层的参数特征值进行调整。
其中,图像去噪子模型可以通过Unet结构实现,如图7所示,图像去噪子模型包括输入卷积层、下采样子模型、中间处理单元、上采样子模型和输出卷积层,其中,下采样子模型包括各交叉注意力单元和各下采样单元,上采样子模型包括各交叉注意力单元、各上采样单元和各拼接单元。其中,交叉注意力单元包括残差子单元和转换子单元,中间处理单元包括残差子单元和转换子单元。
目标网络层可以包括输入卷积层、输出卷积层、残差子单元中的卷积层和线性层,以及转换子单元中的卷积层和线性层。
转换子单元包括多头注意力层,多头注意力层中包括卷积层和线性层,由于多头注意力层对图像内容的信息影响较大,为了不影响图像生成模型对图像内容的学习能力,可以不对多头注意力层的参数进行调整,因此,目标网络层可以不包括转换子单元中,多头注意力层中的卷积层和线性层,也就是说,目标网络层可以包括残差子单元中的卷积层和线性层,以及包括转换子单元中不处于多头注意力层中的线性层。
残差子单元的结构如图8所示,残差子单元包括第一前向处理单元、第一线性层L1和第二前向处理单元,其中,第一前向处理单元包括第一归一化层、第一激活层和第一卷积层C1,第二前向处理单元包括第二归一化层、第二激活层和第二卷积层C2;因此,目标网络层包括残差子单元中的:第一线性层L1、第一卷积层C1和第二卷积层C2。
转换子单元的结构如图9所示,转换子单元包括第二线性层L2、第三线性层L3、第四线性层L4、第一多头注意力模块、第二多头注意力模块、激活层和输出线性层,目标网络层包括转换子单元中的第二线性层L2、第三线性层L3和第四线性层L4。
示例性地,图像去噪子模型包括如表1示出的单元,表1还示出了图像去噪子模型中单元的实现结构以及包括的待调整的参数特征值。
表1
其中,Conv2d指的是二维卷积层,输入卷积层(输出卷积层)的参数特征值,包括卷积权重参数w的特征值和卷积偏置参数b的特征值;CrossAttnDownBlock2D是下采样子模型中,交叉注意力单元的结构,CrossAttnDownBlock2D是二维的交叉注意力网络结构,包括残差子单元(参考图8)和转换子单元(参考图9);CrossAttnUpBlock2D是上采样子模型中交叉注意力单元的结构,CrossAttnUpBlock2D是二维的交叉注意力网络结构,包括残差子单元(参考图8)和转换子单元(参考图9);UNetMidBlock2DCrossAttn是中间处理单元的结构,是Unet结构中的中间处理网络结构;UNetMidBlock2DCrossAttn包括两个残差子单元和一个转换子单元。
在实际应用中,下采样子模型中最后一个CrossAttnDownBlock2D结构,可以替换为down_blocks结构,down_blocks结构包括残差子单元;上采样子模型中第一个CrossAttnUpBlock2D可以替换为UpBlock2D结构,UpBlock2D结构包括残差子单元。
CrossAttnUpBlock2D的实现结构如表2所示。
表2
其中,ResnetBlock2D是二维的残差块结构,Transformer2DModel是转换器二维模型结构。
ResnetBlock2D包括的网络层和待调整的参数特征值如表3所示。
表3
其中,第一线性层L1的参数特征值包括线性权重参数w的特征值和线性偏置参数b的特征值。
需要说明的是,卷积层和线性层各自对应的目标参数,不是卷积层和线性层的网络参数,即卷积层的目标参数,不参与卷积层对特征进行卷积处理的过程,线性层的目标参数,也不参与线性层对特征进行线性处理的过程。卷积层和线性层各自对应的目标参数,用于调整卷积层和线性层的特征参数值,以卷积层为例进行说明,对卷积层的目标参数进行调整,可以实现对卷积层的特征参数值进行调整,进而得到卷积层的调整后的特征参数值。
计算机设备根据第一损失值和第二损失值计算总损失值,对于目标网络层包括的每个卷积层,获取该卷积层的目标参数,根据总损失值对该卷积层的目标参数进行调整,根据调整后的目标参数调整卷积层的参数特征值,得到卷积层的调整后的参数特征值。
对于目标网络层包括的每个线性层,获取该线性层的目标参数,根据总损失值对该线性层的目标参数进行调整,根据调整后的目标参数调整线性层的参数特征值,得到线性层的调整后的参数特征值。
在一些实施例中,依据卷积层的调整后的目标参数对卷积层的参数特征值进行调整,可以是计算卷积层的调整后的目标参数和卷积层的参数特征值之间的第一乘积,计算该第一乘积和卷积层的参数特征值之间的和值,得到卷积层的调整后的参数特征值。
同样地,依据线性层的调整后的目标参数对线性层的参数特征值进行调整,可以是计算线性层的调整后的目标参数和线性层的参数特征值之间的第二乘积,计算该第二乘积和卷积层的参数特征值之间的和值,得到线性层的调整后的参数特征值。
示例性地,如公式(3)所示。
(3)
其中,是卷积层的调整后的参数特征值,是卷积层的(调整前的)参数特征值,是卷积层的调整后的目标参数。
示例性地,如图10所示,对图像生成模型中的目标网络层的参数进行奇异值分解;通过图像生成模型中的编码器,对至少两种不同图像风格的风格图像进行编码,得到对应的图像特征,通过扩散子模型,对至少两种不同图像风格对应的图像特征进行噪声添加处理,得到对应的噪声图像特征;通过特征提取子模型,对至少两种不同图像风格的风格信息和内容描述信息进行特征提取,得到对应的信息特征;通过图像去噪子模型,对至少两种不同图像风格对应的信息特征和噪声图像特征进行去噪处理,得到对应的去噪图像特征;通过解码器对至少两种不同图像风格对应的去噪图像特征进行解码,得到对应的预测图像。
通过目标风格的图文数据对应的预测图像和目标风格的图文数据包括的风格图像,确定目标风格对应的第一损失值;基于原生风格的图文数据对应的预测图像和原生风格的图文数据包括的风格图像,确定原生风格对应的第二损失值,根据第一损失值和第二损失值,对目标网络层的目标参数进行调整,通过调整后的目标参数对目标网络层的参数特征值进行调整。
在上述实施例中,目标网络层包括图像去噪子模型中的卷积层和线性层,减少了训练过程中调整的参数量,减少了训练过程中调整的参数量,提升模型训练效率;并且通过第一损失值和第二损失值分别调整卷积层和线性层的参数特征值,可以直接对影响图像风格的参数特征值进行调整,可以有效提升模型学习目标风格的信息的能力,进而提升了训练得到的目标图像生成模型生成的目标风格的图像的质量。
在一些实施例中,对图像生成模型中的目标网络层的参数进行奇异值分解之前,还包括:通过图像生成模型分别对至少两种不同图像风格的初始图文数据进行图像生成处理,并在进行图像生成处理的过程中,获取线性层的各输入特征和卷积层的各输出特征;依据线性层的各输入特征确定线性层的初始化线性层参数;以及,依据卷积层的各输出特征确定卷积层的初始化卷积层参数;根据线性层的初始化线性层参数对线性层的目标参数初始化,得到线性层的初始化后的目标参数;以及,根据卷积层的初始化线性层参数对卷积层的目标参数初始化,得到卷积层的初始化后的目标参数。
其中,至少两种不同图像风格的初始图文数据,可以是至少两种原生风格的初始图文数据。
在图像生成模型对图文数据进行处理的过程中,图像去噪子模型中的线性层和卷积层,均会对输入特征进行处理,得到输出特征;本申请实施例,通过线性层的输入特征对线性层参数和线性层的目标参数进行初始化,通过卷积层的输出特征对卷积层参数和卷积层的目标参数进行初始化。
如图7-9所示,图像去噪子模型中的线性层包括:每一残差子单元中的第一线性层L1、每一转换子单元中的第二线性层L2、第三线性层L3和第四线性层L4。图像去噪子模型中的卷积层包括:输入卷积层、输出卷积层和每一残差子单元中的第一卷积层C1和第二卷积层C2。
输入卷积层的输出特征是扩散子模型输出的隐空间特征;根据输入卷积层对各图文数据进行处理时,分别输出的各隐空间特征,对输入卷积层的卷积层参数和目标参数进行初始化;输出卷积层的输出特征是图像去噪子模型输出的隐空间特征;根据输出卷积层对各图文数据进行处理时,分别输出的各隐空间特征,对输出卷积层的卷积层参数和目标参数进行初始化。
参考图8,残差子单元的输入项包括时间步特征和风格图像的第一隐空间特征,其中,第一隐空间特征,是图像去噪子模型中,与残差子单元连接的上级单元输出的隐空间特征,比如,可以是输入卷积单元输出的隐空间特征,也可以是某一下采样单元输出的隐空间特征,也可以是某一拼接单元输出的隐空间特征;上述情况进作为示例,存在的其他情况可以根据图像去噪子模型的具体结构确定。
通过第一前向处理单元对第一隐空间特征进行处理,得到第二隐空间特征,通过第一线性层L1对时间步特征进行线性处理,得到处理后时间步特征;将第二隐空间特征与处理后时间步特征进行特征融合处理,得到第三隐空间特征,通过第二前向处理单元对第三隐空间特征进行处理,得到第四隐空间特征,通过残差连接将第一隐空间特征和第四隐空间特征进行特征融合处理,得到第五隐空间特征;第一前向处理单元包括第一卷积层C1,第二前向处理单元包括第二卷积层C2。
因此,残差子单元中,第一线性层L1的输入特征是时间步特征,第一卷积层C1的输出特征是第二隐空间特征,第二卷积层C2的输出特征是第四隐空间特征。根据第一线性层L1对各图文数据进行处理时,处理的时间步特征,对第一线性层L1的线性层参数和目标参数进行初始化;根据第一卷积层C1对各图文数据进行处理时,分别输出的各第二隐空间特征,对第一卷积层C1的卷积层参数和目标参数进行初始化。根据第二卷积层C2对各图文数据进行处理时,分别输出的各第四隐空间特征,对第二卷积层C2的卷积层参数和目标参数进行初始化。
示例性地,第一卷积层C1对第一隐空间特征进行卷积处理得到第二隐空间特征的过程,如图11所示。
参考图9,转换子单元的输入项包括信息特征和风格图像的第四隐空间特征(即与转换子单元连接的残差子单元的输出项),信息特征经过第二线性层L2和第三线性层L3处理后,得到键值参数,键值参数包括键(K)参数和值(V)参数,第四隐空间特征经过第四线性层L4处理后,得到查询(Q)参数,通过第一多头注意力单元对查询(Q)参数和键(K)参数进行融合处理,得到第五隐空间特征,通过第二多头注意力单元再将第五隐空间特征和值(V)参数进行融合处理,得到第六隐空间特征。
因此,第二线性层L2和第三线性层L3的输入特征是信息特征,第四线性层L4的输入特征是第四隐空间特征。根据第二线性层对各图文数据进行处理时,处理的信息特征,对第二线性层的线性层参数和目标参数进行初始化;根据第三线性层对各图文数据进行处理时,处理的信息特征,对第三线性层的线性层参数和目标参数进行初始化;根据第四线性层对各图文数据进行处理时,处理的第四隐空间特征,对第四线性层的线性层参数和目标参数进行初始化。
计算机设备获取至少两种不同图像风格的初始图文数据,对于每一初始图文数据,通过图像生成模型对该初始图文数据进行处理,记录目标网络层中的线性层在处理该初始图文数据的过程时的输入特征,并记录目标网络层中的卷积层在处理该初始图文数据的过程时的输出特征。
对于目标网络层中的每一线性层,对该线性层处理各初始图文数据时的输入特征求均值,将该均值作为该线性层的初始化线性层参数,通过该线性层原始参数和初始化线性层参数,确定线性层的初始化后的目标参数。
需要说明的是,此过程是对线性层的线性层参数和目标参数,以及对卷积层的卷积层参数和目标参数进行初始化,即在对图像生成模型的参数进行第一次调整时,包括:调整线性层的目标参数,以对线性层的初始化线性层参数进行调整,以及调整卷积层的目标参数,以对卷积层的初始化卷积层参数进行调整。
对于目标网络层中的每一卷积层,对该卷积层处理各初始图文数据时的输出特征求均值,将该均值作为该卷积层的初始化卷积层参数,通过该卷积层原始参数和初始化卷积层参数,确定卷积层的初始化后的目标参数。需要说明的是,此过程中计算的初始化卷积层参数,用于计算卷积层的初始化后的目标参数,并不用于对卷积层的参数进行初始化,即在对图像生成模型的参数进行第一调整时,包括对卷积层原始参数进行调整,此外,在对卷积层原始参数进行第一调整时,是对卷积层的初始化后的目标参数进行调整,以实现调整卷积层原始参数。
在上述实施例中,根据目标网络层处理不同图像风格的初始图文数据时的输入特征或输出特征,对目标网络层的参数进行初始化,即通过存在风格差异的初始图文数据,对目标网络层的参数进行初始化,使得目标网络层的初始化后的参数具有通用的风格信息,相较于随机初始化,可以提升模型学习风格信息的效率,此外,通过目标网络层的初始化后的参数,对目标网络层的目标参数进行初始化,也可以使得目标参数具有通用的风格信息,也可以提升模型学习风格信息的效率。
在一些实施例中,根据线性层的初始化线性层参数对线性层的目标参数初始化,得到线性层的初始化后的目标参数,包括:对线性层的初始化线性层参数进行奇异值分解,得到线性层的第一参数特征值;对线性层的原始线性层参数进行奇异值分解,得到线性层的第二参数特征值;根据第一参数特征值和第二参数特征值,确定线性层的初始化后的目标参数。
其中,原始线性层参数,是还未进行参数调整的图像生成模型中线性层的参数;在对图像生成模型的参数进行第一次调整时,包括对线性层的第一参数特征值进行调整。
示例性地,计算机设备对线性层的初始化线性层参数进行奇异值分解,得到,其中,是线性层的第一参数特征值;对线性层的原始线性层参数进行奇异值分解,得到,其中,是线性层的第二参数特征值,计算第一参数特征值和第二参数特征值之间的差值,并将该差值和第二参数特征值之间的比值,作为线性层的初始化后的目标参数,如公式(4)所示。
(4)
其中,是线性层的初始化后的目标参数,是线性层的第一参数特征值,是线性层的第二参数特征值。
在上述实施例中,通过线性层处理不同图像风格的初始图文数据时的输入特征,确定第一参数特征值,使得第一参数特征值可以体现通用的风格信息,通过第一参数特征值和线性层的原始线性层参数对其目标参数进行初始化,使得初始化后的目标参数也具有通用的风格信息,可以提升线性层学习风格信息的效率,此外,通过第一参数特征值和第二参数特征值确定线性层的初始化后的目标参数,使得后续基于目标参数调整参数特征值时,可以直接进行调整,不需要再进行奇异值分解,提升了参数特征值的调整效率。
在一些实施例中,根据卷积层的初始化线性层参数对卷积层的目标参数初始化,得到卷积层的初始化后的目标参数,包括:对卷积层的初始化卷积层参数进行奇异值分解,得到卷积层的第三参数特征值;对卷积层的原始线性层参数进行奇异值分解,得到卷积层的第四参数特征值;根据第三参数特征值和第四参数特征值,确定卷积层的初始化后的目标参数。
其中,原始卷积层参数,是还未进行参数调整的图像生成模型中卷积层的参数,在对图像生成模型的参数进行第一次调整时,包括对卷积层的第三参数特征值进行调整。
示例性地,计算机设备对卷积层的初始化卷积层参数进行奇异值分解,得到,其中,是卷积层的第三参数特征值;对卷积层的原始卷积层参数进行奇异值分解,得到,其中,是卷积层的第四参数特征值,计算第三参数特征值和第四参数特征值之间的差值,并将该差值和第二参数特征值之间的比值,作为卷积层的初始化后的目标参数,如公式(5)所示。
(5)
其中,是卷积层的初始化后的目标参数,是卷积层的第三参数特征值,是卷积层的第四参数特征值。
在上述实施例中,通过卷积层处理不同图像风格的初始图文数据时的输出特征,确定第三参数特征值,使得第三参数特征值可以体现通用的风格信息,通过第三参数特征值和卷积层的原始线性层参数对其目标参数进行初始化,使得初始化后的目标参数也具有通用的风格信息,可以提升卷积层学习风格信息的效率,此外,通过第三参数特征值和第四参数特征值确定卷积层的初始化后的目标参数,使得后续基于目标参数调整参数特征值时,可以直接进行调整,不需要再进行奇异值分解,提升了参数特征值的调整效率。
在一些实施例中,图像生成模型包括特征提取子模型;目标风格的图文数据包括目标风格信息;基于预测图像和图文数据包括的风格图像,对目标网络层的参数特征值进行调整,得到目标图像生成模型,包括:获取特征提取子模型的词嵌入层中与目标风格信息对应的目标词嵌入参数;基于预测图像和图文数据包括的风格图像,对目标网络层的参数特征值和目标词嵌入参数进行调整,得到目标图像生成模型。
其中,特征提取子模型用于提取描述信息的信息特征,词嵌入层用于确定分词的特征向量。
在实际应用中,以描述信息为文本进行举例,特征提取子模型对描述信息进行特征提取,包括:对描述信息进行分词处理,将分词处理后的描述信息转换为token序列,token可以理解为分词或单字,是文本处理的最小语义单元,进而token序列包括分词处理得到所有分词和单字,通过词嵌入层将token序列中的各token分别映射为词嵌入向量,在对各token各自对应的词嵌入向量进行编码处理,得到信息特征;因此,对词嵌入层的参数进行调整,可以提升信息特征的质量,由于信息特征用于引导图像生成,进而也可以提升生成的图像的质量。
词嵌入层包括大量词嵌入参数,词嵌入参数可以是自然语言中的各分词分别对应的参数,比如:词嵌入层包括“漫画”(一个分词)的词嵌入参数,用于将“漫画”映射为词嵌入向量,包括“水墨画”的词嵌入参数,用于将“水墨画”映射为词嵌入向量。
在确定目标风格信息后,可以在词嵌入层中获取目标风格信息的词嵌入参数;在一种可能的情况下,目标风格信息是自造词,或者是新生的词,因此词嵌入层可能还未学习到目标风格信息的语义,进而无法直接得到可以反映目标风格的信息特征;为了使得信息特征可以反映目标风格的语义,以有效引导图像生成,可以对目标风格信息对应的词嵌入参数进行调整,使得通过调整后的词嵌入参数提取到的信息特征可以表示目标风格的语义。
在一些实施例中,计算机设备在词嵌入层中获取目标风格信息对应的目标词嵌入参数;基于目标风格的图文数据对应的预测图像和目标风格的图文数据包括的风格图像,确定目标风格对应的第一损失值;基于原生风格的图文数据对应的预测图像和原生风格的图文数据包括的风格图像,确定原生风格对应的第二损失值;将第一损失值和第二损失值的和值,作为总损失值,通过总损失值调整目标网络层的参数特征值以及目标词嵌入参数。
示例性地,目标风格信息为“雾山五行”,由于“雾山五行”是新出现的词,因此词嵌入层还未学习到“雾山五行”的语义,计算机设备在词嵌入层中获取“雾山五行”对应的目标词嵌入参数,通过第一损失值和第二损失值对目标词嵌入参数进行调整。
在一些实施例中,可以对词嵌入层中目标词嵌入参数进行初始化,在通过第一损失值和第二损失值对目标词嵌入参数进行调整时,可以是对初始化后的目标词嵌入参数进行调整。
对词嵌入层中目标词嵌入参数进行初始化,可以是对词嵌入参数进行随机初始化;对词嵌入层中目标词嵌入参数进行初始化,还可以是通过目标词嵌入参数的原始参数确定目标风格信息的词嵌入向量,获取各预设风格信息的词嵌入向量,根据目标风格信息的词嵌入向量和各预设风格信息的词嵌入向量之间的相似度,在各预设风格信息中获取与目标风格信息相似的预设风格信息,将预设风格信息在词嵌入层中对应的词嵌入参数初始化目标词嵌入参数,即将目标词嵌入参数设置为该预设风格信息对应的词嵌入参数。
其中,各预设风格信息可以是预先设置的,示例性地,预设风格信息可以是常见图像风格的信息,比如各预设风格信息可以包括:漫画风格的信息、油画风格的信息、现代风格的信息、抽象风格的信息等,如此可以在各预设风格信息中获取与目标风格信息相似的预设风格信息,采用该相似的预设风格信息对应的词嵌入参数初始化目标词嵌入信息,可以提升词嵌入层对目标风格信息的语义进行学习的效率。
在上述实施例中,图像生成子模型包括特征提取子模型,通过预测图像和图文数据包括风格图像,对特征提取子模型中的目标词嵌入参数进行调整,使得特征提取子模型可以学习目标风格信息的语义,提取的信息特征可以表示目标风格的语义,提升了信息特征的质量,由于信息特征用于引导图像生成,进而也可以提升生成的目标风格的图像的质量。
在一些实施例中,风格图像的生成方法包括:从目标风格的第一图像中提取出第一图像特征,并从属于不同原生风格的各第二图像中分别提取出第二图像特征;依据第一图像特征和各第二图像特征,在各第二图像中获取与第一图像相似的目标图像;在不同原生风格中确定目标图像所属的目标原生风格;目标原生风格与目标风格相似;根据词嵌入层中与目标原生风格的风格信息对应的原始词嵌入参数,对目标词嵌入参数初始化。
其中,第一图像特征用于表征第一图像的目标风格和内容的语义,第二图像用于表征第二图像的原生风格和内容的语义。
在实际应用中,可以通过图像风格分类模型从第一图像中提取出第一图像特征,以及从第二图像中提取出第二图像特征;图像风格分类模型包括图像特征提取子模型和分类子模型,图像特征提取子模型用于提取图像特征,分类子模型用于对提取的特征进行风格分类;也就是说,具体可以通过图像风格分类模型中的图像特征提取子模型,从第一图像中提取出第一图像特征,以及从第二图像中提取出第二图像特征。
图像风格分类模型,可以是通过图像风格不同的多组风格图像对初始分类模型进行训练得到,本申请实施例对图像风格分类模型的获取过程不进行限定。
在一些实施例中,第一图像的数量可以是一张,第二图像的数量为多张;计算机设备通过图像风格分类模型对第一图像进行特征提取,得到第一图像特征,对于每张第二图像,通过图像风格分类模型对该第二图像进行特征提取,得到第二图像特征。
计算第一图像特征分别与第二图像特征之间的相似度,依据相似度在各第二图像中选取与第一图像相似的第一预设数量张目标图像,其中,目标图像对应的第二图像特征与第一图像特征之间的相似度,大于未被选取的第二图像对应的第二图像特征与第一图像特征之间的相似度;第一预设数量可以根据实际需求设定,本申请实施例对第一预设数量的具体取值不进行限定。
需要说明的是,由于第一图像特征表征第一图像的目标风格和内容的语义,第二图像用于表征第二图像的原生风格和内容语义,因此目标图像是综合原生风格和内容两个方面,与第一图像相似;各目标图像可能属于不同的原生风格,也可能属于同样的原生风格。
计算机设备获取每一原生风格下存在的目标图像的数量,将目标图像的数量最多原生风格作为目标原生风格;示例性地,第一预设数量为10,即获取到10张目标图像,其中,存在5张目标图像属于漫画风格,存在3张目标图像属于水墨画风格,存在2张目标图像属于抽象画风格,由于属于漫画风格的目标图像的数量最多,则将漫画风格作为目标原生风格。
计算机设备获取词嵌入层中,与目标原生风格的风格信息对应的原始词嵌入参数,通过获取的原始词嵌入参数初始化目标词嵌入参数,即将原始词嵌入参数作为初始化的目标词嵌入参数,在第一次目标词嵌入参数进行调整时,对初始化的目标词嵌入参数(原始词嵌入参数)进行调整。
在一些实施例中,第一图像的数量可以是多张,对于每张第一图像,按照与上一实施例相同的方式,确定与该第一图像相似的第一预设数量张目标图像,如此可以得到多张第一图像各自对应的第一预设数量张目标图像,示例性地,第一预设数量为2,第一图像的数量是k,可以得到2k张目标图像。
计算机设备各目标图像各自对应的原生风格,再统计每一原生风格下存在的目标数量的数量,将目标图像的数量最多的原生风格作为目标原生风格;按照与上一实施例相同的方式,依据目标原生风格的风格信息对应的原始词嵌入参数,对目标词嵌入参数初始化。
在上述实施例中,根据目标风格的第一图像和原生风格的第二图像之间的相似度,在原生风格中确定与目标风格相似的目标原生风格,根据目标原生风格在词嵌入层中对应的原始词嵌入参数,对目标词嵌入参数初始化,对初始化后的目标词嵌入参数进行调整,可以提升词嵌入层学习目标风格信息的语义的效率。
在一些实施例中,图像生成模型包括图像去噪子模型,目标网络层包括图像去噪子模型中待调整的线性层和待调整的卷积层;对图像生成模型中的目标网络层的参数进行奇异值分解之前,还包括:通过图像生成模型分别对至少两种不同图像风格的初始图文数据进行图像生成处理,并在进行图像生成处理的过程中,获取线性层的各输入特征和卷积层的各输出特征;依据线性层的各输入特征确定线性层的输入特征均值,依据线性层的输入特征均值确定线性层的特征方差;以及,依据卷积层的各输出特征确定卷积层的输出特征均值,依据卷积层的输出特征均值确定卷积层的特征方差;依据线性层的特征方差和原始线性层参数,在线性层中选取待调整的线性层;以及,依据卷积层的特征方差和原始卷积层参数,在卷积层中选取待调整的卷积层。
其中,待调整的线性层,可以是图像去噪子模型中的部分或全部线性层,带调整的卷积层,可以是图像去噪子模型中的部分或全部卷积层;关于图像去噪子模型中的卷积层和线性层的具体结构,可以参考上文确定线性层的初始化后的目标参数,和确定卷积层的初始化后的目标参数的实施例中的介绍。
至少两种不同图像风格的初始图文数据,可以是至少两种原生风格的初始图文数据。
在一些实施例中,计算机设备获取至少两种不同图像风格的初始图文数据,对于每一初始图文数据,通过图像生成模型对该初始图文数据进行处理,记录目标网络层中的线性层在处理该初始图文数据的过程时的输入特征,并记录目标网络层中的卷积层在处理该初始图文数据的过程时的输出特征。
对于目标网络层中的每一线性层,对该线性层处理各初始图文数据时的输入特征求均值,得到该线性层的输入特征均值;根据各线性层的输入特征均值,计算每一线性层的特征方差。
对于目标网络层中的每一卷积层,对该线性层处理各初始图文数据时的输出特征求均值,得到该卷积层的输入特征均值;根据各线性层的输出特征均值,计算每一卷积层的特征方差。
根据各线性层的特征方差和各卷积层的特征方差,在各线性层和各卷积层中选取待调整的线性层和待调整的卷积层,其中,待调整的线性层和待调整的卷积层的特征方差,大于未被选取的其他线性层和其他卷积层的特征方差。
待调整的线性层和待调整的卷积层的总数量,可以占据各线性层和各卷积层的总数量的预设百分比;其中,预设百分比可以根据实际需求设定,本申请实施例对预设百分比的取值不进行限定。
示例性地,预设百分比为50%,可以在各线性层和各卷积层中,选取特征方差较大的50%的线性层和卷积层,作为待调整的线性层和待调整的卷积层。
需要说明的是,在确定待调整的线性层和待调整的卷积层后,可以根据待调整的线性层的输入特征均值,确定待调整的线性层的初始化线性层参数,以及根据待调整的线性层的初始化线性层参数,对待调整的线性层的目标参数初始化;以及根据待调整的卷积层的输出特征均值,确定待调整的卷积层的初始化卷积层参数,以及根据待调整的卷积层的初始化卷积层参数,对待调整的卷积层的目标参数初始化。
确定待调整的线性层的初始化线性层参数、对待调整的线性层的目标参数初始化、确定待调整的卷积层的初始化卷积层参数、对待调整的卷积层的目标参数初始化的具体过程,可以参考上述实施例中,对确定线性层的初始化线性层参数、对线性层的目标参数初始化、确定卷积层的初始化卷积层参数、对卷积层的目标参数初始化的具体过程。
在上述实施例中,当网络层(线性层或卷积层)对应的特征方差较大时,表示该网络层线性层在不同图像风格下处理的特征的差异较大,即该网络层可以有效识别到不同图像风格之间的差异,进而对不同图像风格的数据进行处理时,对生成的图像的影响较大,因此将特征方差较大的网络层作为待调整的网络层,通过待调整的网络层学习目标风格的语义,可以提升模型学习风格信息的效率;此外,图像生成模型中存在部分不需要调整参数的线性层和卷积层,这些线性层和卷积层可以保留图像生成模型生成原生风格的图像的能力,进而使得训练得到的目标图像生成模型可以生成目标风格的图像,在生成原生风格的图像方面,也有较好的表现。
在一些实施例中,根据图像去噪子模型中的各键值单元,构建旁路模型;旁路模型包括模型结构和模型参数与键值单元的模型结构和键值参数相同的旁路单元;根据旁路模型和目标图像生成模型构建待处理图像生成模型;待处理图像生成模型包括并联的旁路单元和键值单元;通过待处理图像生成模型对至少两种不同图像风格的图文数据进行图像生成处理,得到对应的生成图像;依据生成图像和图文数据包括的风格图像,调整旁路模型的参数,得到训练后的旁路模型;将训练后的旁路模型的参数,与目标图像生成模型中各键值单元的参数融合,得到更新后的目标图像生成模型。
其中,图像去噪子模型包括多个交叉注意力单元,每个交叉注意力单元均包括键值(Key-Vaule,KV)单元;旁路模型包括多个旁路单元,多个旁路单元与多个KV单元一一对应;至少两种不同图像风格包括目标风格和至少一种原生风格。
如图12所示,对于图像去噪子模型中的每个KV单元,计算机设备复制KV单元,得到该KV单元对应的旁路单元,即旁路单元的参数是其对应的KV单元的KV参数,将多个旁路单元与各自对应的KV单元并联,得到待处理图像生成模型;旁路模型包括待处理图像生成模型中,分别与多个KV单元并联的旁路单元。
对于至少两种不同图像风格的图文数据中每一图文数据,将该图文数据和随机数种子输入至待处理图像生成模型,通过待处理图像生成模型得到图文数据对应的信息特征和噪声图像特征,通过图像去噪子模型和旁路模型对信息特征和噪声图像特征进行处理,得到该图文数据对应的生成图像;如此,可以得到每一图文数据对应的生成图像。
根据目标风格的图文数据对应的生成图像和目标风格的图文数据包括的风格图像,计算第三损失值;对于每一原生风格的图文数据,根据该原生风格的图文数据对应的生成图像和该原生风格的图文数据包括的风格图像,计算该原生风格的图文数据对应的第四损失值;根据第三损失值和每一原生风格的图文数据对应的第四损失值,对旁路模型的参数进行调整,得到调整后的待处理图像生成模型,在调整后的待处理图像生成模型未收敛的情况下,重复执行上述对旁路模型的参数进行调整的过程,直至调整后的待处理图像生成模型收敛,将收敛的调整后的待处理图像生成模型所包括的旁路模型,作为训练后的旁路模型。
训练后的旁路模型包括训练后的各旁路单元,对于每一旁路单元,在目标图像生成模型中确定与该训练后的旁路单元对应的KV单元,将确定的KV单元的KV参数与该训练后的旁路单元的参数进行参数融合,以对该KV单元的参数进行更新,在完成对目标图像生成模型中各KV单元的参数进行更新之后,得到更新后的目标图像生成模型。
将KV单元的KV参数与训练后的旁路单元进行参数融合,可以是获取KV参数的融合系数和训练后的旁路单元的融合系数,根据KV参数的融合系数和训练后的旁路单元的融合系数,对KV单元的KV参数与训练后的旁路单元的旁路参数进行融合,以对该KV单元的参数进行更新。示例性地,如公式(6)所示。
(6)
其中,是更新后的目标图像生成模型中KV单元的KV参数,是KV参数的融合系数,是(更新前的)目标图像生成模型中KV单元的KV参数,是训练后的旁路单元的参数,是训练后的旁路单元的融合系数。
在上述实施例中,调整旁路模型的参数时,是直接对旁路模型的参数进行调整,而不需要对旁路模型的参数进行奇异值分解,再对分解得到的参数特征值进行调整;直接对旁路模型的外层参数进行调整,使得旁路模型可以主要学习到不同风格的图文数据中图像内容的特征,进而可以提升目标图像生成模型对风格予以之外的图像内容的生成能力,提升在目标风格下生成多样化的图像内容的质量。
在一些实施例中,目标图像生成模型包括扩散子模型、特征提取子模型和图像去噪子模型;描述信息包括目标风格信息和目标内容描述信息;通过目标图像生成模型对噪声图像和图像生成请求携带的用于指示生成目标风格的描述信息进行图像生成处理,得到目标风格的图像,包括:通过特征提取子模型对目标风格信息和目标内容描述信息进行特征提取,得到目标信息特征;通过扩散子模型,对噪声图像进行噪声添加处理,得到对应的目标噪声图像特征;通过图像去噪子模型对目标信息特征和目标噪声图像特征进行图像生成处理,得到目标风格的图像。
在一些实施例中,目标图像生成模型还包括解码器和编码器,计算机设备将描述信息包括的目标风格信息和目标内容描述信息输入至目标图像生成模型包括的特征提取子模型,得到目标信息特征,将噪声图像输入编码器,得到初始噪声图像特征,将初始噪声图像特征输入至目标图像生成模型包括的扩散子模型,得到目标噪声图像特征;通过目标图像生成模型包括的图像去噪子模型对目标信息特征和目标噪声图像特征进行图像生成处理,得到目标去噪图像特征,通过解码器对目标去噪图像特征进行解码处理,得到目标风格的图像。
在上述实施例中,通过目标图像生成模型提取描述信息的特征,得到目标信息特征,在目标信息特征的引导下对目标噪声图像特征进行去噪处理,得到目标风格的图像,提升了生成目标风格的图像的质量。
在一些实施例中,风格图像的生成方法可以用于生成动漫的应用场景中。如图13所示,获取绘图人员绘制的目标风格的多张动漫图像,比如目标风格为画家张三特定风格,根据画家张三特定风格(目标风格)、多张动漫图像和多张动漫图像的内容描述信息,确定目标风格的多个图文数据;获取图像生成模型,对图像生成模型中的目标网络层的参数进行奇异值分解,得到目标网络层的参数特征值;通过图像生成模型,分别对不同原生风格的多个图文数据和目标风格的多个图文数据进行图像生成处理,得到原生风格对应的预测图像和目标风格对应的预测图像,通过各预测图像、不同原生风格的多个图文数据包括的风格图像和目标风格的多个图文数据包括的动漫图像,对目标网络层的参数特征值进行调整,得到目标图像生成模型。
获取用户输入的目标内容描述信息,目标内容描述信息可以是按照动漫的故事情节确定的,比如目标内容描述信息可以是:人物X1抱着躺着的人物X2,近处有一簇灌木丛,远方的房子亮着灯;目标内容描述信息:一只鸟站在树上,正面看向镜头。
根据目标内容描述信息和画家张三特定风格确定目标描述信息,通过目标图像生成模型对目标描述信息和噪声图像进行图像生成处理,得到画家张三特定风格的动漫图像;示例性地,目标描述信息为:画家张三特定风格;一只鸟站在树上,正面看向镜头,通过目标图像生成模型对该目标描述信息和噪声图像进行图像生成处理,生成图14所示的画家张三特定风格的动漫图像。
按照上述过程,可以针对不同的目标内容描述信息,生成不同图像内容的多张画家张三特定风格的图像,根据不同图像内容的多张画家张三特定风格的图像,组成画家张三特定风格的漫画。
在一些实施例中,如图15所示,应用于计算机设备,风格图像的生成方法包括:
步骤1501,计算机设备通过图像生成模型分别对至少两种不同图像风格的初始图文数据进行图像生成处理,并在进行图像生成处理的过程中,获取线性层的各输入特征和卷积层的各输出特征;图像生成模型包括图像去噪子模型;图像去噪子模型包括卷积层和线性层;
步骤1502,计算机设备依据线性层的各输入特征确定线性层的输入特征均值,依据线性层的输入特征均值确定线性层的特征方差;以及,依据卷积层的各输出特征确定卷积层的输出特征均值,依据卷积层的输出特征均值确定卷积层的特征方差;依据线性层的特征方差和原始线性层参数,在线性层中选取待调整的线性层;以及,依据卷积层的特征方差和原始卷积层参数,在卷积层中选取待调整的卷积层;目标网络层包括待调整的线性层和待调整的卷积层;
步骤1503,计算机设备依据待调整的线性层的各输入特征确定待调整的线性层的初始化线性层参数;以及,依据待调整的卷积层的各输出特征确定待调整的卷积层的初始化卷积层参数;
步骤1504,计算机设备对待调整的线性层的初始化线性层参数进行奇异值分解,得到待调整的线性层的第一参数特征值;对待调整的线性层的原始线性层参数进行奇异值分解,得到待调整的线性层的第二参数特征值;根据第一参数特征值和第二参数特征值,确定待调整的线性层的初始化后的目标参数;
步骤1505,计算机设备对待调整的卷积层的初始化卷积层参数进行奇异值分解,得到待调整的卷积层的第三参数特征值;对待调整的卷积层的原始线性层参数进行奇异值分解,得到待调整的卷积层的第四参数特征值;根据第三参数特征值和第四参数特征值,确定待调整的卷积层的初始化后的目标参数;
步骤1506,计算机设备从目标风格的第一图像中提取出第一图像特征,并从属于不同原生风格的各第二图像中分别提取出第二图像特征;依据第一图像特征和各第二图像特征,在各第二图像中获取与第一图像相似的目标图像;在不同原生风格中确定目标图像所属的目标原生风格;目标原生风格与目标风格相似;根据词嵌入层中与目标原生风格的风格信息对应的原始词嵌入参数,对目标词嵌入参数初始化;
步骤1507,计算机设备对图像生成模型中的目标网络层的参数进行奇异值分解,得到目标网络层的影响图像风格的参数特征值;图像生成模型包括扩散子模型、特征提取子模型和图像去噪子模型;
步骤1508,计算机设备通过特征提取子模型,对至少两种不同图像风格的风格信息和内容描述信息进行特征提取,得到对应的信息特征;通过扩散子模型,对至少两种不同图像风格的风格图像进行噪声添加处理,得到对应的噪声图像特征;通过图像去噪子模型,对至少两种不同图像风格对应的信息特征和噪声图像特征进行去噪处理,得到对应的预测图像;
步骤1509,计算机设备基于目标风格的图文数据对应的预测图像和目标风格的图文数据包括的风格图像,确定目标风格对应的第一损失值;基于原生风格的图文数据对应的预测图像和原生风格的图文数据包括的风格图像,确定原生风格对应的第二损失值;
步骤1510,计算机设备获取特征提取子模型的词嵌入层中与目标风格信息对应的目标词嵌入参数;根据第一损失值和第二损失值对目标词嵌入参数进行调整;根据第一损失值和第二损失值,分别对待调整的卷积层的目标参数和待调整的线性层的目标参数进行调整,得到待调整的卷积层的调整后的目标参数和待调整的线性层的调整后的目标参数;依据待调整的卷积层的调整后的目标参数对待调整的卷积层的参数特征值进行调整;依据待调整的线性层的调整后的目标参数对待调整的线性层的参数特征值进行调整;得到目标图像生成模型;
步骤1511,计算机设备根据图像去噪子模型中的各键值单元,构建旁路模型;旁路模型包括与各键值单元的模型结构和键值参数相同的旁路单元;根据旁路模型和目标图像生成模型构建待处理图像生成模型;待处理图像生成模型包括并联的旁路单元和键值单元;通过待处理图像生成模型对至少两种不同图像风格的图文数据进行图像生成处理,得到对应的生成图像;依据生成图像和图文数据包括的风格图像,调整旁路模型的参数,得到训练后的旁路模型;将训练后的旁路模型的参数,与目标图像生成模型中各键值单元的参数融合,得到更新后的目标图像生成模型;
步骤1512,计算机设备通过特征提取子模型对目标风格信息和目标内容描述信息进行特征提取,得到目标信息特征;通过扩散子模型,对噪声图像进行噪声添加处理,得到对应的目标噪声图像特征;通过图像去噪子模型对目标信息特征和目标噪声图像特征进行图像生成处理,得到目标风格的图像。
在上述风格图像的生成方法,对图像生成模型中的目标网络层的参数进行奇异值分解,得到目标网络层的参数特征值,通过图像生成模型对至少两种不同图像风格的图文数据进行图像生成处理,得到对应的预测图像,根据图文数据包括的风格图像和对应的预测图像调整参数特征值,得到目标图像生成模型;通过对目标网络层的参数进行奇异值分解,得到的参数特征值是目标网络层的、与风格相关的核心参数,通过核心参数学习图像风格的信息,可以有效提升模型学习目标风格的信息的能力,解决了传统的模型训练方式,对参数进行调整导致风格信息的欠拟合的问题,进而提升了训练得到的目标图像生成模型,生成目标风格的图像的质量;此外,联合目标风格的图文数据和原生风格的图文数据,对参数特征值进行调整,可以保留图像生成模型具备的原生风格的图像生成能力,进而训练得到的目标图像生成模型可以处理目标风格的图像生成任务,还可以处理原生风格的图像生成任务,提升了目标图像生成模型的适用率。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的风格图像的生成方法的风格图像的生成装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个风格图像的生成装置实施例中的具体限定可以参见上文中对于风格图像的生成方法的限定,在此不再赘述。
在一些实施例中,如图16所示,提供了一种风格图像的生成装置,包括:奇异值分解模块1601、预测图像生成模块1602、参数特征值调整模块1603和图像生成模块1604,其中:
奇异值分解模块1601,用于对图像生成模型中的目标网络层的参数进行奇异值分解,得到目标网络层的影响图像风格的参数特征值;
预测图像生成模块1602,用于通过图像生成模型对至少两种不同图像风格的图文数据进行图像生成处理,得到对应的预测图像;至少两种不同图像风格包括目标风格和图像生成模型所具有的至少一种原生风格;
参数特征值调整模块1603,用于基于预测图像和图文数据包括的风格图像,对目标网络层的参数特征值进行调整,得到目标图像生成模型;
图像生成模块1604,用于响应于图像生成请求,通过目标图像生成模型对噪声图像和图像生成请求携带的用于指示生成目标风格的描述信息进行图像生成处理,得到目标风格的图像。
在一些实施例中,图文数据包括风格图像、风格信息和内容描述信息;图像生成模型包括扩散子模型、特征提取子模型和图像去噪子模型;
预测图像生成模块1602,还用于通过特征提取子模型,对至少两种不同图像风格的风格信息和内容描述信息进行特征提取,得到对应的信息特征;通过扩散子模型,对至少两种不同图像风格的风格图像进行噪声添加处理,得到对应的噪声图像特征;通过图像去噪子模型,对至少两种不同图像风格对应的信息特征和噪声图像特征进行去噪处理,得到对应的预测图像。
在一些实施例中,参数特征值调整模块1603,还用于基于目标风格的图文数据对应的预测图像和目标风格的图文数据包括的风格图像,确定目标风格对应的第一损失值;基于原生风格的图文数据对应的预测图像和原生风格的图文数据包括的风格图像,确定原生风格对应的第二损失值;根据第一损失值和第二损失值,对目标网络层的参数特征值进行调整。
在一些实施例中,图像生成模型包括图像去噪子模型;目标网络层包括图像去噪子模型中的卷积层和线性层;参数特征值调整模块1603,还用于根据第一损失值和第二损失值,分别对卷积层的目标参数和线性层的目标参数进行调整,得到卷积层的调整后的目标参数和线性层的调整后的目标参数;依据卷积层的调整后的目标参数对卷积层的参数特征值进行调整;依据线性层的调整后的目标参数对线性层的参数特征值进行调整。
在一些实施例中,风格图像的生成装置还包括:第一初始化模块,用于通过图像生成模型分别对至少两种不同图像风格的初始图文数据进行图像生成处理,并在进行图像生成处理的过程中,获取线性层的各输入特征和卷积层的各输出特征;依据线性层的各输入特征确定线性层的初始化线性层参数;以及,依据卷积层的各输出特征确定卷积层的初始化卷积层参数;根据线性层的初始化线性层参数对线性层的目标参数初始化,得到线性层的初始化后的目标参数;以及,根据卷积层的初始化线性层参数对卷积层的目标参数初始化,得到卷积层的初始化后的目标参数。
在一些实施例中,第一初始化模块,还用于对线性层的初始化线性层参数进行奇异值分解,得到线性层的第一参数特征值;对线性层的原始线性层参数进行奇异值分解,得到线性层的第二参数特征值;根据第一参数特征值和第二参数特征值,确定线性层的初始化后的目标参数。
在一些实施例中,第一初始化模块,还用于对卷积层的初始化卷积层参数进行奇异值分解,得到卷积层的第三参数特征值;对卷积层的原始线性层参数进行奇异值分解,得到卷积层的第四参数特征值;根据第三参数特征值和第四参数特征值,确定卷积层的初始化后的目标参数。
在一些实施例中,图像生成模型包括特征提取子模型;目标风格的图文数据包括目标风格信息;
参数特征值调整模块1603,还用于获取特征提取子模型的词嵌入层中与目标风格信息对应的目标词嵌入参数;基于预测图像和图文数据包括的风格图像,对目标网络层的参数特征值和目标词嵌入参数进行调整,得到目标图像生成模型。
在一些实施例中,风格图像的生成装置还包括:第二初始化模块,用于从目标风格的第一图像中提取出第一图像特征,并从属于不同原生风格的各第二图像中分别提取出第二图像特征;依据第一图像特征和各第二图像特征,在各第二图像中获取与第一图像相似的目标图像;在不同原生风格中确定目标图像所属的目标原生风格;目标原生风格与目标风格相似;根据词嵌入层中与目标原生风格的风格信息对应的原始词嵌入参数,对目标词嵌入参数初始化。
在一些实施例中,图像生成模型包括图像去噪子模型,目标网络层包括图像去噪子模型中待调整的线性层和待调整的卷积层;
风格图像的生成装置还包括:目标网络层确定模块,用于通过图像生成模型分别对至少两种不同图像风格的初始图文数据进行图像生成处理,并在进行图像生成处理的过程中,获取线性层的各输入特征和卷积层的各输出特征;依据线性层的各输入特征确定线性层的输入特征均值,依据线性层的输入特征均值确定线性层的特征方差;以及,依据卷积层的各输出特征确定卷积层的输出特征均值,依据卷积层的输出特征均值确定卷积层的特征方差;依据线性层的特征方差和原始线性层参数,在线性层中选取待调整的线性层;以及,依据卷积层的特征方差和原始卷积层参数,在卷积层中选取待调整的卷积层。
在一些实施例中,风格图像的生成装置还包括:旁路模型训练模块,用于根据图像去噪子模型中的各键值单元,构建旁路模型;旁路模型包括与各键值单元的模型结构和键值参数相同的旁路单元;根据旁路模型和目标图像生成模型构建待处理图像生成模型;待处理图像生成模型包括并联的旁路单元和键值单元;通过待处理图像生成模型对至少两种不同图像风格的图文数据进行图像生成处理,得到对应的生成图像;依据生成图像和图文数据包括的风格图像,调整旁路模型的参数,得到训练后的旁路模型;将训练后的旁路模型的参数,与目标图像生成模型中各键值单元的参数融合,得到更新后的目标图像生成模型。
在一些实施例中,目标图像生成模型包括扩散子模型、特征提取子模型和图像去噪子模型;描述信息包括目标风格信息和目标内容描述信息;图像生成模块1604,还用于通过特征提取子模型对目标风格信息和目标内容描述信息进行特征提取,得到目标信息特征;通过扩散子模型,对噪声图像进行噪声添加处理,得到对应的噪声图像特征;通过图像去噪子模型对目标信息特征和噪声图像特征进行图像生成处理,得到目标风格的图像。
上述风格图像的生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一些实施例中,提供了一种计算机设备,该计算机设备可以是服务器或终端,以计算机设备为服务器为例,其内部结构图可以如图17所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储风格图像的生成方法相关的数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种风格图像的生成方法。
本领域技术人员可以理解,图17中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一些实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述一种风格图像的生成方法。
在一些实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述一种风格图像的生成方法。
在一些实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述一种风格图像的生成方法。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要符合相关规定。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (27)
1.一种风格图像的生成方法,其特征在于,所述方法包括:
对图像生成模型中的目标网络层的参数进行奇异值分解,得到所述目标网络层的影响图像风格的参数特征值;
通过所述图像生成模型对至少两种不同图像风格的图文数据进行图像生成处理,得到对应的预测图像;所述至少两种不同图像风格包括目标风格和所述图像生成模型所具有的至少一种原生风格;
基于所述预测图像和所述图文数据包括的风格图像,对所述目标网络层的所述参数特征值进行调整,得到目标图像生成模型;
响应于图像生成请求,通过所述目标图像生成模型对噪声图像和所述图像生成请求携带的用于指示生成所述目标风格的描述信息进行图像生成处理,得到所述目标风格的图像。
2.根据权利要求1所述的方法,其特征在于,所述图文数据包括风格图像、风格信息和内容描述信息;所述图像生成模型包括扩散子模型、特征提取子模型和图像去噪子模型;
所述通过所述图像生成模型对至少两种不同图像风格的图文数据进行图像生成处理,得到对应的预测图像,包括:
通过所述特征提取子模型,对所述至少两种不同图像风格的所述风格信息和所述内容描述信息进行特征提取,得到对应的信息特征;
通过所述扩散子模型,对所述至少两种不同图像风格的所述风格图像进行噪声添加处理,得到对应的噪声图像特征;
通过所述图像去噪子模型,对所述至少两种不同图像风格对应的所述信息特征和所述噪声图像特征进行去噪处理,得到对应的预测图像。
3.根据权利要求1所述的方法,其特征在于,所述基于所述预测图像和所述图文数据包括的风格图像,对所述目标网络层的所述参数特征值进行调整,包括:
基于所述目标风格的图文数据对应的预测图像和所述目标风格的图文数据包括的风格图像,确定所述目标风格对应的第一损失值;
基于所述原生风格的图文数据对应的预测图像和所述原生风格的图文数据包括的风格图像,确定所述原生风格对应的第二损失值;
根据所述第一损失值和所述第二损失值,对所述目标网络层的所述参数特征值进行调整。
4.根据权利要求3所述的方法,其特征在于,所述图像生成模型包括图像去噪子模型;所述目标网络层包括所述图像去噪子模型中的卷积层和线性层;
所述根据所述第一损失值和所述第二损失值,对所述目标网络层的所述参数特征值进行调整,包括:
根据所述第一损失值和所述第二损失值,分别对所述卷积层的目标参数和所述线性层的目标参数进行调整,得到所述卷积层的调整后的目标参数和所述线性层的调整后的目标参数;
依据所述卷积层的调整后的目标参数对所述卷积层的参数特征值进行调整;
依据所述线性层的调整后的目标参数对所述线性层的参数特征值进行调整。
5.根据权利要求4所述的方法,其特征在于,所述对图像生成模型中的目标网络层的参数进行奇异值分解之前,还包括:
通过图像生成模型分别对至少两种不同图像风格的初始图文数据进行图像生成处理,并在进行图像生成处理的过程中,获取所述线性层的各输入特征和所述卷积层的各输出特征;
依据所述线性层的各输入特征确定所述线性层的初始化线性层参数;以及,依据所述卷积层的各输出特征确定所述卷积层的初始化卷积层参数;
根据所述线性层的初始化线性层参数对所述线性层的目标参数初始化,得到所述线性层的初始化后的目标参数;以及,根据所述卷积层的初始化线性层参数对所述卷积层的目标参数初始化,得到所述卷积层的初始化后的目标参数。
6.根据权利要求5所述的方法,其特征在于,所述根据所述线性层的初始化线性层参数对所述线性层的目标参数初始化,得到所述线性层的初始化后的目标参数,包括:
对所述线性层的初始化线性层参数进行奇异值分解,得到所述线性层的第一参数特征值;
对所述线性层的原始线性层参数进行奇异值分解,得到所述线性层的第二参数特征值;
根据所述第一参数特征值和所述第二参数特征值,确定所述线性层的初始化后的目标参数。
7.根据权利要求5所述的方法,其特征在于,所述根据所述卷积层的初始化线性层参数对所述卷积层的目标参数初始化,得到所述卷积层的初始化后的目标参数,包括:
对所述卷积层的初始化卷积层参数进行奇异值分解,得到所述卷积层的第三参数特征值;
对所述卷积层的原始线性层参数进行奇异值分解,得到所述卷积层的第四参数特征值;
根据所述第三参数特征值和所述第四参数特征值,确定所述卷积层的初始化后的目标参数。
8.根据权利要求1所述的方法,其特征在于,所述图像生成模型包括特征提取子模型;所述目标风格的图文数据包括目标风格信息;
所述基于所述预测图像和所述图文数据包括的风格图像,对所述目标网络层的所述参数特征值进行调整,得到目标图像生成模型,包括:
获取所述特征提取子模型的词嵌入层中与所述目标风格信息对应的目标词嵌入参数;
基于所述预测图像和所述图文数据包括的风格图像,对所述目标网络层的所述参数特征值和所述目标词嵌入参数进行调整,得到目标图像生成模型。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
从所述目标风格的第一图像中提取出第一图像特征,并从属于不同所述原生风格的各第二图像中分别提取出第二图像特征;
依据所述第一图像特征和各所述第二图像特征,在各所述第二图像中获取与所述第一图像相似的目标图像;
在不同所述原生风格中确定所述目标图像所属的目标原生风格;所述目标原生风格与所述目标风格相似;
根据所述词嵌入层中与所述目标原生风格的风格信息对应的原始词嵌入参数,对所述目标词嵌入参数初始化。
10.根据权利要求1所述的方法,其特征在于,所述图像生成模型包括图像去噪子模型,所述目标网络层包括所述图像去噪子模型中待调整的线性层和待调整的卷积层;
所述对图像生成模型中的目标网络层的参数进行奇异值分解之前,还包括:
通过图像生成模型分别对所述至少两种不同图像风格的初始图文数据进行图像生成处理,并在进行图像生成处理的过程中,获取线性层的各输入特征和卷积层的各输出特征;
依据所述线性层的各输入特征确定所述线性层的输入特征均值,依据所述线性层的输入特征均值确定所述线性层的特征方差;以及,依据所述卷积层的各输出特征确定所述卷积层的输出特征均值,依据所述卷积层的输出特征均值确定所述卷积层的特征方差;
依据所述线性层的特征方差和原始线性层参数,在所述线性层中选取待调整的线性层;以及,依据所述卷积层的特征方差和原始卷积层参数,在所述卷积层中选取待调整的卷积层。
11.根据权利要求1所述的方法,其特征在于,所述目标图像生成模型包括图像去噪子模型;所述得到目标图像生成模型之后,还包括:
根据所述图像去噪子模型中的各键值单元,构建旁路模型;所述旁路模型包括与各所述键值单元的模型结构和键值参数相同的旁路单元;
根据所述旁路模型和所述目标图像生成模型构建待处理图像生成模型;所述待处理图像生成模型包括并联的所述旁路单元和所述键值单元;
通过所述待处理图像生成模型对至少两种不同图像风格的图文数据进行图像生成处理,得到对应的生成图像;
依据所述生成图像和所述图文数据包括的风格图像,调整所述旁路模型的参数,得到训练后的旁路模型;
将所述训练后的旁路模型的参数,与所述目标图像生成模型中各所述键值单元的参数融合,得到更新后的目标图像生成模型。
12.根据权利要求1所述的方法,其特征在于,所述目标图像生成模型包括扩散子模型、特征提取子模型和图像去噪子模型;所述描述信息包括目标风格信息和目标内容描述信息;
所述通过所述目标图像生成模型对噪声图像和所述图像生成请求携带的用于指示生成所述目标风格的描述信息进行图像生成处理,得到所述目标风格的图像,包括:
通过所述特征提取子模型对所述目标风格信息和所述目标内容描述信息进行特征提取,得到目标信息特征;
通过所述扩散子模型,对噪声图像进行噪声添加处理,得到对应的目标噪声图像特征;
通过所述图像去噪子模型对所述目标信息特征和所述目标噪声图像特征进行图像生成处理,得到所述目标风格的图像。
13.一种风格图像的生成装置,其特征在于,所述装置包括:
奇异值分解模块,用于对图像生成模型中的目标网络层的参数进行奇异值分解,得到所述目标网络层的影响图像风格的参数特征值;
预测图像生成模块,用于通过所述图像生成模型对至少两种不同图像风格的图文数据进行图像生成处理,得到对应的预测图像;所述至少两种不同图像风格包括目标风格和所述图像生成模型所具有的至少一种原生风格;
参数特征值调整模块,用于基于所述预测图像和所述图文数据包括的风格图像,对所述目标网络层的所述参数特征值进行调整,得到目标图像生成模型;
图像生成模块,用于响应于图像生成请求,通过所述目标图像生成模型对噪声图像和所述图像生成请求携带的用于指示生成所述目标风格的描述信息进行图像生成处理,得到所述目标风格的图像。
14.根据权利要求13所述的装置,其特征在于,所述图文数据包括风格图像、风格信息和内容描述信息;所述图像生成模型包括扩散子模型、特征提取子模型和图像去噪子模型;
所述预测图像生成模块,还用于通过所述特征提取子模型,对所述至少两种不同图像风格的所述风格信息和所述内容描述信息进行特征提取,得到对应的信息特征;通过所述扩散子模型,对所述至少两种不同图像风格的所述风格图像进行噪声添加处理,得到对应的噪声图像特征;通过所述图像去噪子模型,对所述至少两种不同图像风格对应的所述信息特征和所述噪声图像特征进行去噪处理,得到对应的预测图像。
15.根据权利要求13所述的装置,其特征在于,所述参数特征值调整模块,还用于基于所述目标风格的图文数据对应的预测图像和所述目标风格的图文数据包括的风格图像,确定所述目标风格对应的第一损失值;基于所述原生风格的图文数据对应的预测图像和所述原生风格的图文数据包括的风格图像,确定所述原生风格对应的第二损失值;根据所述第一损失值和所述第二损失值,对所述目标网络层的所述参数特征值进行调整。
16.根据权利要求15所述的装置,其特征在于,所述图像生成模型包括图像去噪子模型;所述目标网络层包括所述图像去噪子模型中的卷积层和线性层;
所述参数特征值调整模块,还用于根据所述第一损失值和所述第二损失值,分别对所述卷积层的目标参数和所述线性层的目标参数进行调整,得到所述卷积层的调整后的目标参数和所述线性层的调整后的目标参数;依据所述卷积层的调整后的目标参数对所述卷积层的参数特征值进行调整;依据所述线性层的调整后的目标参数对所述线性层的参数特征值进行调整。
17.根据权利要求16所述的装置,其特征在于,所述风格图像的生成装置还包括:
第一初始化模块,用于通过图像生成模型分别对至少两种不同图像风格的初始图文数据进行图像生成处理,并在进行图像生成处理的过程中,获取所述线性层的各输入特征和所述卷积层的各输出特征;依据所述线性层的各输入特征确定所述线性层的初始化线性层参数;以及,依据所述卷积层的各输出特征确定所述卷积层的初始化卷积层参数;根据所述线性层的初始化线性层参数对所述线性层的目标参数初始化,得到所述线性层的初始化后的目标参数;以及,根据所述卷积层的初始化线性层参数对所述卷积层的目标参数初始化,得到所述卷积层的初始化后的目标参数。
18.根据权利要求17所述的装置,其特征在于,所述第一初始化模块,还用于对所述线性层的初始化线性层参数进行奇异值分解,得到所述线性层的第一参数特征值;对所述线性层的原始线性层参数进行奇异值分解,得到所述线性层的第二参数特征值;根据所述第一参数特征值和所述第二参数特征值,确定所述线性层的初始化后的目标参数。
19.根据权利要求17所述的装置,其特征在于,所述第一初始化模块,还用于对所述卷积层的初始化卷积层参数进行奇异值分解,得到所述卷积层的第三参数特征值;对所述卷积层的原始线性层参数进行奇异值分解,得到所述卷积层的第四参数特征值;根据所述第三参数特征值和所述第四参数特征值,确定所述卷积层的初始化后的目标参数。
20.根据权利要求13所述的装置,其特征在于,所述图像生成模型包括特征提取子模型;所述目标风格的图文数据包括目标风格信息;
所述参数特征值调整模块,还用于获取所述特征提取子模型的词嵌入层中与所述目标风格信息对应的目标词嵌入参数;基于所述预测图像和所述图文数据包括的风格图像,对所述目标网络层的所述参数特征值和所述目标词嵌入参数进行调整,得到目标图像生成模型。
21.根据权利要求20所述的装置,其特征在于,所述风格图像的生成装置还包括:第二初始化模块,用于从所述目标风格的第一图像中提取出第一图像特征,并从属于不同所述原生风格的各第二图像中分别提取出第二图像特征;依据所述第一图像特征和各所述第二图像特征,在各所述第二图像中获取与所述第一图像相似的目标图像;在不同所述原生风格中确定所述目标图像所属的目标原生风格;所述目标原生风格与所述目标风格相似;根据所述词嵌入层中与所述目标原生风格的风格信息对应的原始词嵌入参数,对所述目标词嵌入参数初始化。
22.根据权利要求13所述的装置,其特征在于,所述图像生成模型包括图像去噪子模型,所述目标网络层包括所述图像去噪子模型中待调整的线性层和待调整的卷积层;
所述风格图像的生成装置还包括:目标网络层确定模块,用于通过图像生成模型分别对所述至少两种不同图像风格的初始图文数据进行图像生成处理,并在进行图像生成处理的过程中,获取线性层的各输入特征和卷积层的各输出特征;依据所述线性层的各输入特征确定所述线性层的输入特征均值,依据所述线性层的输入特征均值确定所述线性层的特征方差;以及,依据所述卷积层的各输出特征确定所述卷积层的输出特征均值,依据所述卷积层的输出特征均值确定所述卷积层的特征方差;依据所述线性层的特征方差和原始线性层参数,在所述线性层中选取待调整的线性层;以及,依据所述卷积层的特征方差和原始卷积层参数,在所述卷积层中选取待调整的卷积层。
23.根据权利要求13所述的装置,其特征在于,所述风格图像的生成装置还包括:旁路模型训练模块,用于根据所述图像去噪子模型中的各键值单元,构建旁路模型;所述旁路模型包括与各所述键值单元的模型结构和键值参数相同的旁路单元;根据所述旁路模型和所述目标图像生成模型构建待处理图像生成模型;所述待处理图像生成模型包括并联的所述旁路单元和所述键值单元;通过所述待处理图像生成模型对至少两种不同图像风格的图文数据进行图像生成处理,得到对应的生成图像;依据所述生成图像和所述图文数据包括的风格图像,调整所述旁路模型的参数,得到训练后的旁路模型;将所述训练后的旁路模型的参数,与所述目标图像生成模型中各所述键值单元的参数融合,得到更新后的目标图像生成模型。
24.根据权利要求13所述的装置,其特征在于,所述目标图像生成模型包括扩散子模型、特征提取子模型和图像去噪子模型;所述描述信息包括目标风格信息和目标内容描述信息;
所述图像生成模块,还用于通过所述特征提取子模型对所述目标风格信息和所述目标内容描述信息进行特征提取,得到目标信息特征;通过所述扩散子模型,对噪声图像进行噪声添加处理,得到对应的目标噪声图像特征;通过所述图像去噪子模型对所述目标信息特征和所述目标噪声图像特征进行图像生成处理,得到所述目标风格的图像。
25.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。
26.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
27.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410053935.XA CN117576265B (zh) | 2024-01-15 | 2024-01-15 | 风格图像的生成方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410053935.XA CN117576265B (zh) | 2024-01-15 | 2024-01-15 | 风格图像的生成方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117576265A CN117576265A (zh) | 2024-02-20 |
CN117576265B true CN117576265B (zh) | 2024-05-28 |
Family
ID=89864697
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410053935.XA Active CN117576265B (zh) | 2024-01-15 | 2024-01-15 | 风格图像的生成方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117576265B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112035649A (zh) * | 2020-09-02 | 2020-12-04 | 腾讯科技(深圳)有限公司 | 问答模型处理方法、装置、计算机设备及存储介质 |
CN114283050A (zh) * | 2021-09-23 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及存储介质 |
CN114419300A (zh) * | 2022-01-24 | 2022-04-29 | 北京字跳网络技术有限公司 | 风格化图像生成方法、装置、电子设备及存储介质 |
CN116012488A (zh) * | 2023-01-05 | 2023-04-25 | 网易(杭州)网络有限公司 | 风格化图像生成方法、装置、计算机设备和存储介质 |
CN116704079A (zh) * | 2023-08-03 | 2023-09-05 | 腾讯科技(深圳)有限公司 | 图像生成方法、装置、设备及存储介质 |
CN116758379A (zh) * | 2023-08-14 | 2023-09-15 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置、设备及存储介质 |
CN116958323A (zh) * | 2023-07-05 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 图像生成方法、装置、电子设备、存储介质及程序产品 |
CN116977457A (zh) * | 2023-02-08 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、设备以及计算机可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10839493B2 (en) * | 2019-01-11 | 2020-11-17 | Adobe Inc. | Transferring image style to content of a digital image |
-
2024
- 2024-01-15 CN CN202410053935.XA patent/CN117576265B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112035649A (zh) * | 2020-09-02 | 2020-12-04 | 腾讯科技(深圳)有限公司 | 问答模型处理方法、装置、计算机设备及存储介质 |
CN114283050A (zh) * | 2021-09-23 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及存储介质 |
CN114419300A (zh) * | 2022-01-24 | 2022-04-29 | 北京字跳网络技术有限公司 | 风格化图像生成方法、装置、电子设备及存储介质 |
CN116012488A (zh) * | 2023-01-05 | 2023-04-25 | 网易(杭州)网络有限公司 | 风格化图像生成方法、装置、计算机设备和存储介质 |
CN116977457A (zh) * | 2023-02-08 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、设备以及计算机可读存储介质 |
CN116958323A (zh) * | 2023-07-05 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 图像生成方法、装置、电子设备、存储介质及程序产品 |
CN116704079A (zh) * | 2023-08-03 | 2023-09-05 | 腾讯科技(深圳)有限公司 | 图像生成方法、装置、设备及存储介质 |
CN116758379A (zh) * | 2023-08-14 | 2023-09-15 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于深度学习的图像风格转换算法研究;梁志旭;《中国优秀硕士学位论文全文数据库》;20200815;第1-79页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117576265A (zh) | 2024-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111489287B (zh) | 图像转换方法、装置、计算机设备和存储介质 | |
JP7373554B2 (ja) | クロスドメイン画像変換 | |
WO2021254499A1 (zh) | 编辑模型生成、人脸图像编辑方法、装置、设备及介质 | |
CN110795858B (zh) | 家装设计图纸的生成方法和装置 | |
CN110415184B (zh) | 一种基于正交元空间的多模态图像增强方法 | |
CN111292262B (zh) | 图像处理方法、装置、电子设备以及存储介质 | |
CN111833360B (zh) | 一种图像处理方法、装置、设备以及计算机可读存储介质 | |
CN111862294A (zh) | 基于ArcGAN网络的手绘3D建筑自动上色网络结构及方法 | |
WO2023151529A1 (zh) | 人脸图像的处理方法及相关设备 | |
CN112132208B (zh) | 图像转换模型的生成方法、装置、电子设备及存储介质 | |
CN118230081B (zh) | 图像处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品 | |
CN118096961B (zh) | 图像处理方法和装置 | |
CN114299304B (zh) | 一种图像处理方法及相关设备 | |
CN117252791A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN117974890A (zh) | 人脸图像的处理方法、装置、直播系统、电子设备及介质 | |
CN117576265B (zh) | 风格图像的生成方法、装置、计算机设备和存储介质 | |
CN116977714A (zh) | 图像分类方法、装置、设备、存储介质和程序产品 | |
CN116563795A (zh) | 一种玩偶的生产管理方法及其系统 | |
CN114037644B (zh) | 一种基于生成对抗网络的艺术字图像合成系统及方法 | |
CN110826726B (zh) | 目标处理方法、目标处理装置、目标处理设备及介质 | |
CN115861605A (zh) | 一种图像数据处理方法、计算机设备以及可读存储介质 | |
CN112884679A (zh) | 一种图像转换方法、装置、存储介质和电子设备 | |
US20240070884A1 (en) | Generation using depth-conditioned autoencoder | |
CN116740540B (zh) | 一种数据处理方法、装置、设备以及计算机可读存储介质 | |
CN113792862B (zh) | 基于级联注意力机制的改正单图生成对抗网络的设计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |