CN111476708A - 模型生成方法、模型获取方法、装置、设备及存储介质 - Google Patents
模型生成方法、模型获取方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111476708A CN111476708A CN202010260992.7A CN202010260992A CN111476708A CN 111476708 A CN111476708 A CN 111476708A CN 202010260992 A CN202010260992 A CN 202010260992A CN 111476708 A CN111476708 A CN 111476708A
- Authority
- CN
- China
- Prior art keywords
- style
- model
- image
- target
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 238000013508 migration Methods 0.000 claims abstract description 142
- 230000005012 migration Effects 0.000 claims abstract description 142
- 238000012549 training Methods 0.000 claims description 60
- 230000006870 function Effects 0.000 claims description 39
- 239000013598 vector Substances 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 9
- 238000003062 neural network model Methods 0.000 claims description 8
- 238000013145 classification model Methods 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 description 16
- 230000008901 benefit Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010428 oil painting Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例公开了模型生成方法、模型获取方法、装置、设备及存储介质。其中,模型生成方法包括:获取目标风格图像,将目标风格图像输入至预先训练的元网络模型中,得到元网络模型输出的目标参数值,将目标参数值赋值至预先训练的风格网络模型,以生成目标风格迁移模型。本发明实施例提供的技术方案,在需要建立一张新的风格图像对应的风格迁移模型时,不需要重新训练整个风格迁移模型,而是将该新的风格图像输入至预先训练的元网络模型中,得到风格迁移模型中所需要的参数值,再将参数值赋值给预先训练的风格网络模型即可得到风格迁移模型,可有效提升新风格的风格迁移模型的生成效率。
Description
技术领域
本发明实施例涉及图像处理领域,尤其涉及模型生成方法、模型获取方法、装置、设备及存储介质。
背景技术
随着图像处理技术以及神经网络等相关人工智能技术的快速发展,图像风格迁移成为一种研究及应用的热点技术。图像风格迁移,可理解为将一张图像A(可称为风格图像)的风格迁移到另外一张图像B(可称为内容图像)上,从而得到风格化图像C,使得图像C具有图像A类似的风格,同时保持图像B的内容不会出现本质上的变化。
目前,图像风格迁移基本都采用神经网络技术来实现,根据所采用的神经网络的具体结构,大致可以分为单一风格单一内容、单一风格任意内容、以及任意风格任意内容这三大类。然而,目前上述三类的具体图像风格迁移方案仍不够理想,需要改进。
发明内容
本发明实施例提供了模型生成方法、模型获取方法、装置、设备及存储介质,可以优化现有的图像风格迁移方案。
第一方面,本发明实施例提供了一种模型生成方法,该方法包括:
获取目标风格图像;
将所述目标风格图像输入至预先训练的元网络模型中,得到所述元网络模型输出的目标参数值;
将所述目标参数值赋值至预先训练的风格网络模型,以生成目标风格迁移模型。
第二方面,本发明实施例提供了一种模型获取方法,该方法包括:
根据用户操作确定目标风格图像;
将所述目标风格图像上传至服务端,用于指示所述服务端基于如本发明实施例第一方面提供的模型生成方法生成目标风格迁移模型,并接收所述服务端返回的所述目标风格迁移模型;或者,将所述目标风格图像上传至服务端,用于指示所述服务端将所述目标风格图像输入至预先训练的元网络模型中并将得到的所述元网络模型输出的目标参数值返回,将所述目标参数值赋值至预先训练的风格网络模型,以生成目标风格迁移模型。
第三方面,本发明实施例提供了一种模型生成装置,该装置包括:
目标风格图像获取模块,用于获取目标风格图像;
目标参数值获取模块,用于将所述目标风格图像输入至预先训练的元网络模型中,得到所述元网络模型输出的目标参数值;
目标迁移模型生成模块,用于将所述目标参数值赋值至预先训练的风格网络模型,以生成目标风格迁移模型。
第四方面,本发明实施例提供了一种模型获取装置,该装置包括:
目标风格图像确定模块,用于根据用户操作确定目标风格图像;
目标风格图像上传模块,用于将所述目标风格图像上传至服务端,用以指示所述服务端基于如本发明实施例第一方面提供的模型生成方法生成目标风格迁移模型,并接收所述服务端返回的所述目标风格迁移模型;或者,用于将所述目标风格图像上传至服务端,用以指示所述服务端将所述目标风格图像输入至预先训练的元网络模型中并将得到的所述元网络模型输出的目标参数值返回,将所述目标参数值赋值至预先训练的风格网络模型,以生成目标风格迁移模型。
第五方面,本发明实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本发明实施例提供的方法。
第六方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例提供的模型生成方法。
本发明实施例中提供的模型生成方案,获取目标风格图像,将目标风格图像输入至预先训练的元网络模型中,得到元网络模型输出的目标参数值,将目标参数值赋值至预先训练的风格网络模型,以生成目标风格迁移模型。通过采用上述技术方案,在需要建立一张新的风格图像对应的风格迁移模型时,不需要重新训练整个风格迁移模型,而是将该新的风格图像输入至预先训练的元网络模型中,得到风格迁移模型中所需要的参数值,再将参数值赋值给预先训练的风格网络模型即可得到风格迁移模型,可有效提升新风格的风格迁移模型的生成效率。
附图说明
图1为本发明实施例提供的一种模型生成方法的流程示意图;
图2为本发明实施例提供的又一种模型生成方法的流程示意图;
图3为本发明实施例提供的一种网络模型结构示意图;
图4为本发明实施例提供的一种损失函数确定过程示意图;
图5为本发明实施例提供的一种模型获取方法的流程示意图;
图6为本发明实施例提供的一种图像风格迁移处理流程示意图;
图7为本发明实施例提供的一种模型生成装置的结构框图;
图8为本发明实施例提供的一种模型获取装置的结构框图;
图9为本发明实施例提供的一种计算机设备的结构框图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。此外,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
为了便于理解本发明实施例,下面对相关技术进行介绍。目前,根据所采用的神经网络的具体结构,图像风格迁移方案大致可以分为单一风格单一内容、单一风格任意内容、以及任意风格任意内容这三大类。其中,单一风格单一内容所采用的算法计算量非常大,即使在图像处理器上处理一张图像都需要几十秒钟,因此比较耗时,迁移效率很低;单一风格任意内容的方案针对每一种风格训练一个模型,该模型可以处理任意的内容图像,由于在训练过程中只有一种风格,所以风格迁移模型的大小能够有效控制,风格迁移的速度都得到较大提升,但是该方案的缺点包括对于每一个新的风格图像都需要从头训练一遍对应的风格迁移模型,因此模型适应性差,生成效率低,应用范围有限。任意风格任意内容方案可以实现将任意的风格图像上的风格迁移到任意的内容图像上,风格迁移模型只需要训练一次,但该方案的缺点包括风格迁移的效果较差,且为了适用于任意的风格,网络模型计算复杂度较大,很难在计算资源受限制的设备上运行。本发明实施例提出了全新的图像迁移方案,可应用于针对照片、图像以及视频等需要进行图像迁移处理的场景,下面结合附图和实施例对本发明作进一步的详细说明。
图1为本发明实施例提供的一种模型生成方法的流程示意图,该方法可以由模型生成装置执行,其中该装置可由软件和/或硬件实现,一般可集成在计算机设备中。示例性的,计算机设备可以包括服务器、个人电脑、手机、平板电脑以及笔记本电脑等各种设备,本发明实施例不做具体限定。
如图1所示,该方法包括:
步骤101、获取目标风格图像。
示例性的,目标风格图像可以理解为一张新的需要生成对应的风格迁移模型的图像。目标风格图像的具体来源不做限定,例如可以从设备本地选取、通过摄像头等图像采集装置采集、从互联网上获取、以及由其他设备发送过来等等。可选的,本发明实施例中的计算机设备可以是服务端设备,可以接收对应的客户端设备发送过来的目标风格图像,以实现获取目标风格图像。目标风格图像可以是任意风格的图像,本发明实施例不做限定。
步骤102、将所述目标风格图像输入至预先训练的元网络模型中,得到所述元网络模型输出的目标参数值。
示例性的,本发明实施例中可以通过预先训练的方式先确定元网络模型和风格网络模型。其中,风格网络模型可理解为一种缺失部分或全部参数值的风格迁移模型,也即风格网络模型与风格迁移模型的结构相同,但存在一些参数的参数值需要确定,参数值例如可以是权重参数的参数值;元网络模型可理解为用于生成另外一类神经网络模型参数的神经网络,具体可理解为一种用于输出上述缺失的部分或全部参数值的模型。元网络模型和风格网络模型均可以是神经网络模型,具体的模型结构可根据实际需求设置,本发明实施例不做限定。可选的,所述风格网络模型可包括基于编码-解码(encoder-decoder)结构的模型,该模型中具体的层数、每一层的参数数目以及排列规则等可根据实际需求设置,具体不做限定。可选的,所述元网络模型中可包括预设神经网络模型,该预设神经网络模型可以是深度学习图像分类模型,例如视觉几何群(Visual Geometry Group,VGG)网络模型,如在ImageNet上预训练的VGG16或VGG19等,其中,ImageNet是一个包含上千类物体的大型图像数据库,可以使得VGG模型得到全面的训练。可选的,所述元网络模型中还可包括分组全连接层,具体的,分组全连接层可基于所述风格网络模型中的层数以及每层的参数数目等因素确定。
示例性的,将目标风格图像输入至预先训练的元网络模型后,元网络模型会输出目标参数值,用于赋值给预先训练的风格网络模型。
步骤103、将所述目标参数值赋值至预先训练的风格网络模型,以生成目标风格迁移模型。
示例性的,将所得到的目标参数值赋值到预先训练的风格网络模型中的相应参数,即可快速生成与目标风格图像相对应的目标风格迁移模型。后续若需要对某个内容图像进行风格迁移处理,则可利用该目标风格迁移模型将目标风格图像的风格迁移到该内容图像中,得到对应的风格化图像。
本发明实施例中提供的模型生成方法,获取目标风格图像,将目标风格图像输入至预先训练的元网络模型中,得到元网络模型输出的目标参数值,将目标参数值赋值至预先训练的风格网络模型,以生成目标风格迁移模型。通过采用上述技术方案,在需要建立一张新的风格图像对应的风格迁移模型时,不需要重新训练整个风格迁移模型,而是将该新的风格图像输入至预先训练的元网络模型中,得到风格迁移模型中所需要的参数值,再将参数值赋值给预先训练的风格网络模型即可得到风格迁移模型,可有效提升新风格的风格迁移模型的生成效率。
在一些实施例中,所述元网络模型和所述风格网络模型通过如下方式进行预先训练:将样本风格图像输入至训练元网络模型中,得到所述训练元网络模型输出的训练参数值;将所述训练参数值赋值至训练风格网络模型,以生成训练风格迁移模型;将样本内容图像输入至所述训练风格迁移模型中,得到样本风格化图像;基于预设损失函数对所述训练元网络模型和所述训练风格迁移模型进行训练,得到元网络模型和风格迁移模型;去除所述风格迁移模型中的部分参数值,得到风格网络模型,其中,所述部分参数值与所述训练参数值对应。这样设置的好处在于,通过一次完整的训练过程,可以确定元网络模型中的各参数值以及确定风格迁移模型中的需要保持的参数值,也即风格迁移模型中并非所有参数值都需要采用元网络模型来确定,这样有助于训练过程的收敛并保证风格迁移效果,保证模型的鲁棒性。其中,样本风格图像可以是训练风格图像样本集合中的部分或全部图像,样本内容图像可以是训练内容图像样本集合中的部分或全部图像,训练风格图像样本集合、样本风格图像、训练内容图像样本集合以及样本内容图像的选取可根据实际需求确定。训练元网络模型可理解为训练过程中的中间元网络模型,初始的元网络模型的结构可通过实验以及设计人员经验等来确定。训练风格网络模型可理解为训练过程中的中间风格网络模型,初始的风格网络模型也可通过实验以及设计人员经验等来确定,而训练风格迁移模型可理解为训练过程中的风格迁移模型,当首次将训练参数值赋值至初始的风格网络模型后,便可得到初始的风格迁移模型。在得到训练风格迁移模型后,将样本内容图像输入至所述训练风格迁移模型中,得到样本风格化图像,以预设损失函数的取值最优化为目的,对训练元网络模型和训练风格迁移模型进行训练,得到元网络模型和风格迁移模型,也即得到元网络模型中的参数值以及风格迁移模型中的参数值,再去除风格迁移模型中的部分参数值,便可得到风格网络模型,其中,所去除的部分参数值与所述训练参数值对应。
在一些实施例中,所述预设损失函数包括以下至少一项:基于样本风格化图像和样本内容图像确定的第一损失函数、基于样本风格化图像和样本风格图像确定的第二损失函数、以及基于样本风格化图像确定的第三损失函数;其中,所述第一损失函数用于评估内容损失,所述第二损失函数用于评估风格损失,所述第三损失函数用于评估图像噪音。这样设置的好处在于,合理地设置损失函数,优化训练过程以及训练效果。
在一些实施例中,所述风格网络模型包括基于编码-解码结构的模型;所述元网络模型中包括预设神经网络模型以及分组全连接层。这样设置的好处在于,能够合理确定风格网络模型以及元网络模型的结构,有利于控制模型大小、模型的训练效率以及模型的鲁棒性。
在一些实施例中,所述风格网络模型中包括重复预设次数的残差网络模块和多个预设卷积核大小的卷积层。这样设置的好处在于,进一步合理确定风格网络模型的结构,有利于控制模型大小、模型的训练效率以及模型的鲁棒性。其中,预设次数和预设卷积核大小可根据实际需求设置。
在一些实施例中,所述部分参数值包括除第一个卷积层和最后一个卷积层之外的卷积层对应的参数值。这样设置的好处在于,合理确定需要保持的参数值,网络的浅层提取到的特征一般为图像的低层次特征(low-level),而从图像中提取这类特征所需的卷积核对不同的图像差异不大,且保持第一层和最后一层卷积对不同风格的不变性,可以进一步提高模型的鲁棒性。
在一些实施例中,所述元网络模型中包括两个分组全连接层;其中,第一个分组全连接层基于所述风格网络模型中的卷积层数目确定,第二个分组全连接层基于所对应的卷积层的参数数目确定。这样设置的好处在于,若采用一个分组全连接层直接从较多维特征到各个卷积层会带来大量的参数和计算,采用两个可以控制参数数量以及计算量,并且更容易区分不同卷积层的特征。若采用更多个分组全连接层会增加模型的复杂度。
在一些实施例中,所述预设神经网络模型包括深度学习图像分类模型。所述将样本风格图像输入至训练元网络模型中,得到所述训练元网络模型输出的训练参数值,包括:将样本风格图像输入至训练元网络模型中,经过所述深度学习图像分类模型在第一预设数量的尺度上输出第一特征向量;所述第一特征向量经过所述第一个分组全连接层得到第二预设数量的第二特征向量组,其中,第二特征向量组与所述风格网络模型中的卷积层的顺序对应;所述第二特征向量组经过所述第二个分组全连接层得到输出的训练参数值。其中,深度学习图像分类模型可以是在ImageNet上预训练的VGG模型,如VGG16。这样设置的好处在于,VGG模型是开源的成熟模型,可以使得元网络模型更加合理,第一预设数量可以根据具体的模型来确定。以VGG16模型为例,第一预设数量例如可以是4,可以保证模型能够提取到足够多尺度上的特征信息。
在一些实施例中,所述获取目标风格图像,包括:接收客户端在用户操作下上传的目标风格图像。在所述将所述目标参数值赋值至预先训练的风格网络模型,以生成目标风格迁移模型之后,还包括:将所述目标风格迁移模型返回至所述客户端。这样设置的好处在于,可以允许用户自主选择需要建立风格迁移模型的风格图像,利用服务端更为强大的资源来快速得到风格迁移模型,实现风格迁移模型的快速定制。
图2为本发明实施例提供的又一种模型生成方法的流程示意图,该方法可适用于短视频应用以及直播应用等需要定制图像风格的应用场景。如图2所示,该方法可包括:
步骤201、接收客户端在用户操作下上传的目标风格图像。
示例性的,客户端可理解为具体应用场景中,用户在终端设备上使用的短视频或直播等应用程序。这些应用程序中,一般为了丰富应用功能,提升用户体验,会提供风格特效功能,可内置一些如素描风格、卡通风格、油画风格等风格供用户选择,但内置的风格数量有限,本发明实施例中,可以允许用户自己选择风格图像用于定制个性化的风格迁移模型。例如,用户可以从相册或图库中选择自己喜欢的风格图像,也可以从网络上下载风格图像,还可以有其他方式确定风格图像,然后通过客户端将用户选择的风格图像作为目标风格图像发送给对应的服务端。
步骤202、将目标风格图像输入至预先训练的元网络模型中,得到元网络模型输出的目标参数值。
下面对本发明实施例采用的网络模型进行进一步的介绍。图3为本发明实施例提供的一种网络模型结构示意图。如图所示,风格网络模型(简称风格网络)与风格迁移模型结构相同,是采用包含残差卷积模块的全卷积网络。模型的权重参数分成两部分:一部分可称为全局权重参数,为风格网络中第一个和最后一个卷积层对应的权重参数,分别记为G0和G-1;另外一部分权重参数由元网络模型(简称元网络)生成,可记为G1、G2、……、Gk,在图3中从元网络到风格网络的箭头表示将元网络生成的权重参数传递到风格网络。
可选的,元网络包括一个在ImageNet上预训练的VGG16模型以及两个分组全连接层。对任意输入的风格图像(图片),VGG16模型在不同尺度的特征层上输出特征,并且不同尺度上的特征变形成向量后拼接成一个新的特征向量。在本发明实施例中,可以在四个不同的尺度上输出特征,最后得到一个1920维的特征向量,即图3中的风格元特征。其中,四个不同的尺度可以是VGG16模型中对应前4个最大池化层之前的特征,这四个不同的维度可以保证模型提取到了不同尺度上的特征信息。随后,将风格元特征输入第一个分组全连接层,根据风格网络中的卷积层的数目将全链接层分组,每一组为一个从1920维的特征向量到128维的隐特征向量的全连接层,并且与风格网络里的卷积层顺序对应。根据对应的卷积层的参数数目,进行第二个分组全连接层。假设对应的卷积层的参数数目为d,则该组全连接层为一个从128维的隐特征向量到d维参数的全连接层。
可选的,在风格网络中,可以将一个卷积层以及其后紧跟的归一化层的参数划分为一组。风格网络的所有卷积层均采用3x3卷积,除了最后一个卷积层外,每个卷积后可紧跟一个实列正则化(Instance Normalization)层,除了最后一个卷积层使用tanh激活函数外,其他的层均使用ReLU作为激活函数。也就是说,图3中的G-1层只包含一个3x3的卷积层。
图3中的其他组成部分如下:3x3卷积C12表示该层为卷积层使用3x3卷积核,输出特征channel数目为12;Stride=2表示卷积或者池化的步长为2;残差模块为包含两个3x3卷积的残差模型,其中x3表示该模块重复3次;3x3上采样2倍卷积C48表示该层先对特征使用双线性差值上采样2倍,然后使用3x3卷积,输出的特征channel数目为48。其中,残差模块还可以采用图3所示的其他残差网络的变形来代替,如加上short-cut连接,重复次数也可是3以外的次数。
进一步的,为了提高模型的计算速度,本发明实施例还可对网络模型进行了进一步的精简,例如可以将风格模型中除G0和G-1以外的所有3x3卷积替换成3x1卷积+1x3卷积,并且将所有的归一化层由Instance Nomalization层改成批标准化(BatchNormalization)层。
示例性的,预设损失函数包括以下三项:基于样本风格化图像和样本内容图像确定的第一损失函数、基于样本风格化图像和样本风格图像确定的第二损失函数、以及基于样本风格化图像确定的第三损失函数。其中,所述第一损失函数用于评估内容损失,所述第二损失函数用于评估风格损失,所述第三损失函数用于评估图像噪音。通过采用组合多个损失函数的策略,可以快速准确地对模型进行训练,得到相应的权重参数值。
具体的,图4为本发明实施例提供的一种损失函数确定过程示意图,如图4所示,可先用预训练好的VGG16分别对风格图像、内容图像以及风格网络的输出图像(即图4中的风格化图像)进行特征提取,再在这些特征上计算损失。
示例性的,风格化图像和内容图像之间的内容损失(content loss),也即第一损失函数,可以通过如下表达式确定:
其中,I表示风格化图像,Ic表示内容图像,Φl(I)是图像在VGG16第l层的特征,|Φl(I)|是该特征的维度。这个损失函目的是为了保证生成的风格化图像的内容与内容图像一致。
示例性的,风格化图像风格图像之间的风格损失(style loss),也即第二损失函数,可以通过如下表达式确定:
其中,I表示风格化图像,Is表示风格图像,μ是均值,σ是方差算子。这个损失函目的是为了保证生成的风格化图像的风格与风格图像一致。
示例性的,风格化图像上直接计算的损失(Total variation loss),也即第三损失函数,可以通过如下表达式确定:
其中,i和j分别表示图像宽和高两个维度上的下标。这个损失函目的是为了降低生成的风格化图像的噪音。
完成训练后,本发明实施例保持元网络的所有权重参数以及风格网络的全局权重参数。在实际应用中,对任意风格图像可以先调用元网络生成风格网络的权重参数,并与全局权重参数构成整个风格迁移模型。该模型经过一次训练后便可以一直使用,对任意图像进行风格迁移。元网络可布置在云端服务器,在客户端只需布置风格迁移模型,提供接口供用户上传新的风格图像到云端服务器,生成对应的风格模型后再下发到客户端。
步骤203、将目标参数值赋值至预先训练的风格网络模型,以生成目标风格迁移模型。
步骤204、将目标风格迁移模型返回至客户端。
在生成目标风格迁移模型后,将目标风格迁移模型下发至客户端,客户端可以进行保存以备后续对内容图像进行风格迁移处理。
需要说明的是,本发明实施例也可以在客户端保存预先训练的风格网络模型,由服务端下发目标参数值,由客户端将目标参数值赋值至预先训练的风格网络模型,以生成目标风格迁移模型。
本发明实施例提供的模型生成方法,接收客户端在用户操作下上传的目标风格图像,将目标风格图像输入至预先训练的元网络模型中,得到目标参数值并赋值至预先训练的风格网络模型,以生成目标风格迁移模型,再将目标风格迁移模型返回至客户端。通过采用上述技术方案,可以实现基于风格迁移的互动以及风格迁移模块的快速定制,丰富客户端应用程序的功能,增加应用程序的娱乐性和可玩性。另外,本发明实施例采用的风格迁移模型的结构相比现有方案更加合理,不需要重复训练且计算复杂度小,可以在手机等终端设备上达到接近实时的处理速度,并能够处理任意内容图像,应用范围更加广泛。
图5为本发明实施例提供的一种模型获取方法的流程示意图,该方法可以由模型生成装置执行,其中该装置可由软件和/或硬件实现,一般可集成在计算机设备中。如图5所示,该方法包括:
步骤501、根据用户操作确定目标风格图像。
示例性的,用户可以从相册或图库中选择自己喜欢的风格图像,也可以从网络上下载风格图像,还可以有其他方式确定风格图像,然后将用户选择的风格图像作为目标风格图像发送给对应的服务端。
步骤502、将所述目标风格图像上传至服务端,用于指示所述服务端根据所述目标风格图像生成对应的目标风格迁移模型。
具体的模型生成过程可参照上述实施例中的相关说明。
步骤503、接收所述服务端返回的所述目标风格迁移模型。
示例性的,接收服务端返回的目标风格迁移模型后,客户端可以进行保存以备后续对内容图像进行风格迁移处理。
本发明实施例提供的模型获取方法,根据用户操作确定目标风格图像,将目标风格图像上传至服务端,用于指示服务端生成目标风格迁移模型,接收服务端返回的目标风格迁移模型,由于目标风格迁移模型采用本发明实施例提供的模型生成方法生成,可以实现基于风格迁移的互动以及风格迁移模块的快速定制,丰富客户端应用程序的功能。
在一些实施例中,在根据用户操作确定目标风格图像之后,也可将所述目标风格图像上传至服务端,用于指示所述服务端将所述目标风格图像输入至预先训练的元网络模型中并将得到的所述元网络模型输出的目标参数值返回,将所述目标参数值赋值至预先训练的风格网络模型,以生成目标风格迁移模型。这样设置的好处在于,减少数据传输量,进一步提升模型生成效率。
在一些实施例中,在接收所述服务端返回的所述目标风格迁移模型或生成目标风格迁移模型之后,还包括:获取第一内容图像;将所述第一内容图像输入至所述目标风格迁移模型中,得到第一风格化图像,以实现对所述第一内容图像进行图像迁移处理。这样设置的好处在于,可以允许客户端采用定制的目标风格迁移模型对任意的内容图像进行风格迁移处理,满足用户的风格迁移需求。
图6为本发明实施例提供的一种图像风格迁移处理流程示意图,可适用于针对视频图像进行迁移处理的情况。如图6所示,用户在使用应用程序时,可以打开摄像头采集视频,然后进行风格选择,若用户选择设备的内置风格,则可以直接采用对应的风格迁移模型对视频进行风格迁移处理,然后输出风格迁移处理后的视频至显示设备(如手机屏幕)进行显示。若用户选择自己定制风格迁移模型,则用户可以上传自己喜欢的风格图像到云端服务器或云端处理器,由云端处理器调用元网络处理风格图像并生成风格网络模型参数值,也即目标参数值,将目标参数值下发至用户设备(如手机)进行保存,然后调用新生成的风格迁移模型对视频进行风格迁移处理,输出风格迁移处理后的视频至显示设备进行显示。
图7为本发明实施例提供的一种模型生成装置的结构框图,该装置可由软件和/或硬件实现,一般可集成在计算机设备中,可通过执行模型生成方法来生成图像风格迁移模型。如图7所示,该装置包括:
目标风格图像获取模块701,用于获取目标风格图像;
目标参数值获取模块702,用于将所述目标风格图像输入至预先训练的元网络模型中,得到所述元网络模型输出的目标参数值;
目标迁移模型生成模块703,用于将所述目标参数值赋值至预先训练的风格网络模型,以生成目标风格迁移模型。
本发明实施例中提供的模型生成装置,在需要建立一张新的风格图像对应的风格迁移模型时,不需要重新训练整个风格迁移模型,而是将该新的风格图像输入至预先训练的元网络模型中,得到风格迁移模型中所需要的参数值,再将参数值赋值给预先训练的风格网络模型即可得到风格迁移模型,可有效提升新风格的风格迁移模型的生成效率。
图8为本发明实施例提供的一种模型获取装置的结构框图,该装置可由软件和/或硬件实现,一般可集成在计算机设备中,可通过执行模型获取方法来获取图像风格迁移模型。如图8所示,该装置包括:
目标风格图像确定模块801,用于根据用户操作确定目标风格图像;
目标风格图像上传模块802,用于将所述目标风格图像上传至服务端,用以指示所述服务端基于本发明实施例提供的模型生成方法生成目标风格迁移模型,并接收所述服务端返回的所述目标风格迁移模型;或者,用于将所述目标风格图像上传至服务端,用以指示所述服务端将所述目标风格图像输入至预先训练的元网络模型中并将得到的所述元网络模型输出的目标参数值返回,将所述目标参数值赋值至预先训练的风格网络模型,以生成目标风格迁移模型。
本发明实施例提供的模型获取装置,根据用户操作确定目标风格图像,将目标风格图像上传至服务端,用于指示服务端返回生成好的风格迁移模型或者指示服务器返回目标参数值并在本地生成对应的风格迁移模型,可以实现基于风格迁移的互动以及风格迁移模块的快速定制,丰富客户端应用程序的功能。
本发明实施例提供了一种计算机设备,该计算机设备中可集成本发明实施例提供的模型生成装置。图9为本发明实施例提供的一种计算机设备的结构框图。计算机设备900包括存储器901、处理器902及存储在存储器901上并可在处理器902上运行的计算机程序,所述处理器902执行所述计算机程序时实现本发明实施例提供的模型生成方法和/或模型获取方法。
本发明实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行本发明实施例提供的模型生成方法和/或模型获取方法。
上述实施例中提供的模型生成装置、模型获取装置、设备以及存储介质可执行本发明相应实施例所提供的方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的方法。
注意,上述仅为本发明的较佳实施例。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由权利要求范围决定。
Claims (15)
1.一种模型生成方法,其特征在于,包括:
获取目标风格图像;
将所述目标风格图像输入至预先训练的元网络模型中,得到所述元网络模型输出的目标参数值;
将所述目标参数值赋值至预先训练的风格网络模型,以生成目标风格迁移模型。
2.根据权利要求1所述的方法,其特征在于,所述元网络模型和所述风格网络模型通过如下方式进行预先训练:
将样本风格图像输入至训练元网络模型中,得到所述训练元网络模型输出的训练参数值;
将所述训练参数值赋值至训练风格网络模型,以生成训练风格迁移模型;
将样本内容图像输入至所述训练风格迁移模型中,得到样本风格化图像;
基于预设损失函数对所述训练元网络模型和所述训练风格迁移模型进行训练,得到元网络模型和风格迁移模型;
去除所述风格迁移模型中的部分参数值,得到风格网络模型,其中,所述部分参数值与所述训练参数值对应。
3.根据权利要求2所述的方法,其特征在于,所述预设损失函数包括以下至少一项:
基于样本风格化图像和样本内容图像确定的第一损失函数、基于样本风格化图像和样本风格图像确定的第二损失函数、以及基于样本风格化图像确定的第三损失函数;其中,所述第一损失函数用于评估内容损失,所述第二损失函数用于评估风格损失,所述第三损失函数用于评估图像噪音。
4.根据权利要求2所述的方法,其特征在于,所述风格网络模型包括基于编码-解码结构的模型;所述元网络模型中包括预设神经网络模型以及分组全连接层。
5.根据权利要求4所述的方法,其特征在于,所述风格网络模型中包括重复预设次数的残差网络模块和多个预设卷积核大小的卷积层。
6.根据权利要求4所述的方法,其特征在于,所述部分参数值包括除第一个卷积层和最后一个卷积层之外的卷积层对应的参数值。
7.根据权利要求4所述的方法,其特征在于,所述元网络模型中包括两个分组全连接层;其中,第一个分组全连接层基于所述风格网络模型中的卷积层数目确定,第二个分组全连接层基于所对应的卷积层的参数数目确定。
8.根据权利要求7所述的方法,其特征在于,所述预设神经网络模型包括深度学习图像分类模型;
所述将样本风格图像输入至训练元网络模型中,得到所述训练元网络模型输出的训练参数值,包括:
将样本风格图像输入至训练元网络模型中,经过所述深度学习图像分类模型在第一预设数量的尺度上输出第一特征向量;
所述第一特征向量经过所述第一个分组全连接层得到第二预设数量的第二特征向量组,其中,第二特征向量组与所述风格网络模型中的卷积层的顺序对应;
所述第二特征向量组经过所述第二个分组全连接层得到输出的训练参数值。
9.根据权利要求1所述的方法,其特征在于,所述获取目标风格图像,包括:
接收客户端在用户操作下上传的目标风格图像;
在所述将所述目标参数值赋值至预先训练的风格网络模型,以生成目标风格迁移模型之后,还包括:
将所述目标风格迁移模型返回至所述客户端。
10.一种模型获取方法,其特征在于,包括:
根据用户操作确定目标风格图像;
将所述目标风格图像上传至服务端,用于指示所述服务端基于如权利要求1-8任一所述的方法生成目标风格迁移模型,并接收所述服务端返回的所述目标风格迁移模型;或者,将所述目标风格图像上传至服务端,用于指示所述服务端将所述目标风格图像输入至预先训练的元网络模型中并将得到的所述元网络模型输出的目标参数值返回,将所述目标参数值赋值至预先训练的风格网络模型,以生成目标风格迁移模型。
11.根据权利要求10所述的方法,其特征在于,在接收所述服务端返回的所述目标风格迁移模型或生成目标风格迁移模型之后,还包括:
获取第一内容图像;
将所述第一内容图像输入至所述目标风格迁移模型中,得到第一风格化图像,以实现对所述第一内容图像进行风格迁移处理。
12.一种模型生成装置,其特征在于,包括:
目标风格图像获取模块,用于获取目标风格图像;
目标参数值获取模块,用于将所述目标风格图像输入至预先训练的元网络模型中,得到所述元网络模型输出的目标参数值;
目标迁移模型生成模块,用于将所述目标参数值赋值至预先训练的风格网络模型,以生成目标风格迁移模型。
13.一种模型获取装置,其特征在于,包括:
目标风格图像确定模块,用于根据用户操作确定目标风格图像;
目标风格图像上传模块,用于将所述目标风格图像上传至服务端,用以指示所述服务端基于如权利要求1-8任一所述的方法生成目标风格迁移模型,并接收所述服务端返回的所述目标风格迁移模型;或者,用于将所述目标风格图像上传至服务端,用以指示所述服务端将所述目标风格图像输入至预先训练的元网络模型中并将得到的所述元网络模型输出的目标参数值返回,将所述目标参数值赋值至预先训练的风格网络模型,以生成目标风格迁移模型。
14.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-11任一项所述的方法。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-11中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010260992.7A CN111476708B (zh) | 2020-04-03 | 2020-04-03 | 模型生成方法、模型获取方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010260992.7A CN111476708B (zh) | 2020-04-03 | 2020-04-03 | 模型生成方法、模型获取方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111476708A true CN111476708A (zh) | 2020-07-31 |
CN111476708B CN111476708B (zh) | 2023-07-14 |
Family
ID=71750587
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010260992.7A Active CN111476708B (zh) | 2020-04-03 | 2020-04-03 | 模型生成方法、模型获取方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111476708B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111985544A (zh) * | 2020-08-07 | 2020-11-24 | 中移(杭州)信息技术有限公司 | 分形图形风格融合方法、装置、电子设备及存储介质 |
CN112348739A (zh) * | 2020-11-27 | 2021-02-09 | 广州博冠信息科技有限公司 | 图像处理方法、装置、设备及存储介质 |
CN112581361A (zh) * | 2020-12-30 | 2021-03-30 | 北京达佳互联信息技术有限公司 | 图像风格迁移模型的训练方法、图像风格迁移方法及装置 |
CN112633113A (zh) * | 2020-12-17 | 2021-04-09 | 厦门大学 | 跨摄像头的人脸活体检测方法及系统 |
CN112734627A (zh) * | 2020-12-24 | 2021-04-30 | 北京达佳互联信息技术有限公司 | 图像风格迁移模型的训练方法、图像风格迁移方法及装置 |
CN112862669A (zh) * | 2021-02-02 | 2021-05-28 | 百果园技术(新加坡)有限公司 | 图像生成模型的训练方法、生成方法、装置及设备 |
CN112967174A (zh) * | 2021-01-21 | 2021-06-15 | 北京达佳互联信息技术有限公司 | 图像生成模型训练、图像生成方法、装置及存储介质 |
CN114266943A (zh) * | 2021-12-28 | 2022-04-01 | 中移(杭州)信息技术有限公司 | 图像风格迁移方法、装置、设备及存储介质 |
CN115396831A (zh) * | 2021-05-08 | 2022-11-25 | 中国移动通信集团浙江有限公司 | 交互模型生成方法、装置、设备及存储介质 |
WO2023061169A1 (zh) * | 2021-10-11 | 2023-04-20 | 北京字节跳动网络技术有限公司 | 图像风格迁移和模型训练方法、装置、设备和介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107705242A (zh) * | 2017-07-20 | 2018-02-16 | 广东工业大学 | 一种结合深度学习与深度感知的图像风格化迁移方法 |
CN108537776A (zh) * | 2018-03-12 | 2018-09-14 | 维沃移动通信有限公司 | 一种图像风格迁移模型生成方法及移动终端 |
CN109697690A (zh) * | 2018-11-01 | 2019-04-30 | 北京达佳互联信息技术有限公司 | 图像风格迁移方法和系统 |
CN110598781A (zh) * | 2019-09-05 | 2019-12-20 | Oppo广东移动通信有限公司 | 图像处理方法、装置、电子设备及存储介质 |
-
2020
- 2020-04-03 CN CN202010260992.7A patent/CN111476708B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107705242A (zh) * | 2017-07-20 | 2018-02-16 | 广东工业大学 | 一种结合深度学习与深度感知的图像风格化迁移方法 |
CN108537776A (zh) * | 2018-03-12 | 2018-09-14 | 维沃移动通信有限公司 | 一种图像风格迁移模型生成方法及移动终端 |
CN109697690A (zh) * | 2018-11-01 | 2019-04-30 | 北京达佳互联信息技术有限公司 | 图像风格迁移方法和系统 |
CN110598781A (zh) * | 2019-09-05 | 2019-12-20 | Oppo广东移动通信有限公司 | 图像处理方法、装置、电子设备及存储介质 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111985544B (zh) * | 2020-08-07 | 2024-07-26 | 中移(杭州)信息技术有限公司 | 分形图形风格融合方法、装置、电子设备及存储介质 |
CN111985544A (zh) * | 2020-08-07 | 2020-11-24 | 中移(杭州)信息技术有限公司 | 分形图形风格融合方法、装置、电子设备及存储介质 |
CN112348739A (zh) * | 2020-11-27 | 2021-02-09 | 广州博冠信息科技有限公司 | 图像处理方法、装置、设备及存储介质 |
CN112633113A (zh) * | 2020-12-17 | 2021-04-09 | 厦门大学 | 跨摄像头的人脸活体检测方法及系统 |
CN112734627A (zh) * | 2020-12-24 | 2021-04-30 | 北京达佳互联信息技术有限公司 | 图像风格迁移模型的训练方法、图像风格迁移方法及装置 |
CN112734627B (zh) * | 2020-12-24 | 2023-07-11 | 北京达佳互联信息技术有限公司 | 图像风格迁移模型的训练方法、图像风格迁移方法及装置 |
CN112581361B (zh) * | 2020-12-30 | 2023-07-11 | 北京达佳互联信息技术有限公司 | 图像风格迁移模型的训练方法、图像风格迁移方法及装置 |
CN112581361A (zh) * | 2020-12-30 | 2021-03-30 | 北京达佳互联信息技术有限公司 | 图像风格迁移模型的训练方法、图像风格迁移方法及装置 |
CN112967174A (zh) * | 2021-01-21 | 2021-06-15 | 北京达佳互联信息技术有限公司 | 图像生成模型训练、图像生成方法、装置及存储介质 |
CN112967174B (zh) * | 2021-01-21 | 2024-02-09 | 北京达佳互联信息技术有限公司 | 图像生成模型训练、图像生成方法、装置及存储介质 |
CN112862669B (zh) * | 2021-02-02 | 2024-02-09 | 百果园技术(新加坡)有限公司 | 图像生成模型的训练方法、生成方法、装置及设备 |
CN112862669A (zh) * | 2021-02-02 | 2021-05-28 | 百果园技术(新加坡)有限公司 | 图像生成模型的训练方法、生成方法、装置及设备 |
CN115396831A (zh) * | 2021-05-08 | 2022-11-25 | 中国移动通信集团浙江有限公司 | 交互模型生成方法、装置、设备及存储介质 |
WO2023061169A1 (zh) * | 2021-10-11 | 2023-04-20 | 北京字节跳动网络技术有限公司 | 图像风格迁移和模型训练方法、装置、设备和介质 |
CN114266943A (zh) * | 2021-12-28 | 2022-04-01 | 中移(杭州)信息技术有限公司 | 图像风格迁移方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111476708B (zh) | 2023-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111476708B (zh) | 模型生成方法、模型获取方法、装置、设备及存储介质 | |
CN109670558B (zh) | 使用深度学习的数字图像完成 | |
US9741137B2 (en) | Image-based color palette generation | |
US9177391B1 (en) | Image-based color palette generation | |
CN110085244B (zh) | 直播互动方法、装置、电子设备及可读存储介质 | |
CN110598781A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN107277391B (zh) | 图像转换网络处理方法、服务器、计算设备及存储介质 | |
CN110909790A (zh) | 图像的风格迁移方法、装置、终端及存储介质 | |
CN111583100B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN110009059B (zh) | 用于生成模型的方法和装置 | |
CN107277615B (zh) | 直播风格化处理方法、装置、计算设备及存储介质 | |
CN114360018B (zh) | 三维人脸表情的渲染方法及装置、存储介质及电子装置 | |
CN111222557A (zh) | 图像分类方法、装置、存储介质及电子设备 | |
CN115965840A (zh) | 图像风格迁移和模型训练方法、装置、设备和介质 | |
CN111199540A (zh) | 图像质量评价方法、装置、电子设备及存储介质 | |
CN115238806A (zh) | 样本类别不平衡的联邦学习方法以及相关设备 | |
CN117726511B (zh) | 用于旅游景观展示的全景成像装置及方法 | |
US11250542B2 (en) | Mosaic generation apparatus and method | |
CN114170472A (zh) | 图像处理方法、可读存储介质及计算机终端 | |
CN112906554A (zh) | 基于视觉图像的模型训练优化方法、装置及相关设备 | |
CN110866866A (zh) | 图像仿色处理方法、装置、电子设备及存储介质 | |
CN112991501B (zh) | 一种数据处理方法、装置及计算机可读存储介质 | |
CN113938751B (zh) | 视频转场类型确定方法、设备及存储介质 | |
Benamira et al. | Interpretable Disentangled Parametrization of Measured BRDF with $\beta $-VAE | |
CN111553961A (zh) | 线稿对应色图的获取方法和装置、存储介质和电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |