CN112101546A

CN112101546A - 生成多样化结果的风格迁移方法、装置、计算机设备和存储介质

Info

Publication number: CN112101546A
Application number: CN202010904686.2A
Authority: CN
Inventors: 赵磊; 王志忠; 仇礼鸿; 张惠铭; 莫启航; 林思寰; 陈海博; 李艾琳; 左智文; 邢卫; 鲁东明
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-09-01
Filing date: 2020-09-01
Publication date: 2020-12-18
Anticipated expiration: 2040-09-01
Also published as: CN112101546B

Abstract

本申请涉及生成多样化结果的风格迁移方法、装置、计算机设备和存储介质。所述方法包括：对内容图像和风格图像进行处理，得到内容图像语义特征和风格图像语义特征；将风格图像语义特征划分为多个小块，得到原始风格特征集合；原始风格特征集合进行归一化操作，得到第一归一化集合；将内容图像语义特征与随机噪声进行混合，得到随机噪声内容特征集合；将随机噪声内容特征集合与第一归一化集合进行处理并从中随机选取一块作为最匹配小块；使用最匹配小块的特征重建第一风格特征；根据第一风格特征进行特征随机重组，得到多个第二风格特征并经过计算得到多个风格迁移结果图像。采用本方法能够生成多种风格迁移结果，提高用户体验满意度。

Description

生成多样化结果的风格迁移方法、装置、计算机设备和存储介质

技术领域

本申请涉及图像生成技术领域，特别是涉及生成多样化结果的风格迁移方法、装置、计算机设备和存储介质。

背景技术

2015年，Gatys等人首次提出结合预训练的深度学习模型来进行风格迁移和纹理合成任务，开启了使用深度学习技术来提升包括风格迁移和纹理合成在内的图像生成领域的性能表现的热潮。他们利用预训练的深度学习模型提取出的多层激活特征，通过计算特征维度之间的互相关性矩阵来表达一副图像的风格。这种从全局特征统计相关性的视角来理解和表示图像风格的算法，对于没有明显语义相关性的艺术图像的风格迁移和合成任务尤为合适。

另一方面，Li和Wand在2016年提出了对图像风格的另一种理解和表达，他们认为，一副图像的风格应该取决于局部的模式而不是全局的统计相关性。为此，他们结合了深度卷积神经网络和马尔科夫随机场(Markov Random Fields,MRFs)，通过将高层语义特征图划分为若干个局部的特征区域小块，然后用近邻匹配的方式对每个内容图像的局部特征区域小块找到与其最相似的风格图像的局部特征区域小块，最后用相应的最相似的风格图像的局部特征区域小块替换原来的内容图像的局部特征区域小块，最后对替换后的特征重建出风格迁移后的结果图像。这种从局部模式的角度出发来进行风格迁移的方法对对应语义区域上的风格迁移有更好的表现，因此更加适合两幅在语义上有对应关系(如天空到天空，地面到地面)的图像之间的风格迁移。

后来，在上述两种方法的基础上，大量的方法变体被提出，并获得了越来越高的风格迁移质量和越来越低的内存和时间消耗。然而，目前的绝大多数风格迁移方法针对固定输入的内容图像和风格图像，产生的风格迁移结果如果用户不满意的话，只能尝试其他的方法或者寻找其他可替代的内容图像或风格图像，从而为用户带来了麻烦，降低了用户体验满意度。

发明内容

基于此，本申请提供生成多样化结果的风格迁移方法、装置、计算机设备和存储介质，通过输入固定的内容图像和风格图像，可以生成多种风格迁移结果，解决只能产生单一的风格迁移结果图像的技术问题，为用户提供更多可选择的风格迁移结果图像。

本申请的生成多样化结果的风格迁移方法，包括：

根据深度神经网络分别对内容图像和风格图像进行高层语义特征处理，得到内容图像语义特征F_c和风格图像语义特征F_s；

将所述风格图像语义特征划分为若干个局部的特征区域小块，得到原始风格特征集合

对所述原始风格特征集合进行归一化操作，得到第一归一化集合

将所述内容图像语义特征与随机噪声进行混合并划分为若干个局部的特征区域小块，得到随机噪声内容特征集合

将所述随机噪声内容特征集合与所述第一归一化集合进行处理，得到两个集合中最相近的第二归一化集合，从所述第二归一化集合中随机选取一块作为所述随机噪声内容特征集合的最匹配小块φ_i(F_cs)；

根据随机噪声内容特征集合与所述最匹配小块之间的匹配结果，使用所述最匹配小块所对应的所述原始风格特征集合重建第一风格特征T；

根据所述第一风格特征进行特征随机重组，得到多个第二风格特征

根据所述第二风格特征计算得到多个风格迁移结果图像。

可选的，对所述原始风格特征集合进行随机偏移的归一化操作。

可选的，所述随机噪声的尺寸与所述内容图像语义特征的尺寸相同。

可选的，根据如下公式将所述原始风格特征集合进行随机偏移的归一化操作：

式中：F_s表示深度神经网络提取出的风格图像语义特征；

φ_j(F_s)表示原始风格特征集合中的特征区域小块，j∈{1，...，n_s}，n_s为特征区域小块的数量；

||φ_j(F_s)||表示求φ_j(F_s)的L2范数；

b是一个随机的噪声偏移值；

表示随机归一化后的第一归一化集合中的特征区域小块。

可选的，根据如下公式将所述内容图像语义特征和所述随机噪声进行混合，并划分为若干个局部的特征区域小块：

式中：F_c表示深度神经网络提取出的内容图像语义特征；

表示与F_c尺寸相同的随机噪声张量；

表示混合了随机噪声后的随机噪声内容特征；

表示得到的随机噪声内容特征集合。

可选的，根据如下公式将所述随机噪声内容特征集合与所述第一归一化集合进行处理，得到两者中最相近的第二归一化集合，从所述第二归一化集合中随机选取一块作为所述随机噪声内容特征集合的最匹配小块：

式中：

表示随机噪声内容特征；

F_s表示深度神经网络提取出的风格图像语义特征；

表示随机噪声内容特征集合中的特征区域小块；

表示第一归一化集合中的特征区域小块；

Top_k表示对

集合中的每一个

在

集合中找到使內积

最大的前k个最匹配的

其中，n_c为随机噪声内容特征集合中的区域小块数量，n_s为第一归一化集合中的区域小块数量；

⊙表示从找到的k个第二归一化风格特征区域小块集合并从中随机选取一个作为最匹配小块；

φ_i(F_cs)表示匹配结果。

可选的，根据如下公式将所述第一风格特征进行特征随机重组，得到多个第二风格特征；

式中：T表示第一风格特征；

表示对特征T进行随机行打乱的重组操作；

表示对特征T进行随机列打乱的重组操作；

λ用于控制随机重组后的特征与第一风格特征之间的混合比例。

本申请还提供一种生成多样化结果的风格迁移装置，包括：

第一模块，用于根据深度神经网络分别对内容图像和风格图像进行高层语义特征处理，得到内容图像语义特征F_c和风格图像语义特征F_s；

第二模块，用于将所述风格图像语义特征划分为若干个局部的特征区域小块，得到原始风格特征集合

第三模块，用于对所述原始风格特征区域小块集合进行带随机偏移的归一化操作，得到第一归一化风格特征集合

第四模块，用于将所述内容图像语义特征与尺寸相同的随机噪声张量进行混合并划分为若干个局部的特征区域小块，得到随机噪声内容特征集合

第五模块，用于将所述随机噪声内容特征集合与所述第一归一化风格特征集合进行处理，得到两者中最相近的第二归一化风格特征集合，从所述第二归一化风格特征集合中随机选取一块作为所述随机噪声内容特征集合的最匹配小块φ_i(F_cs)；

第六模块，用于根据随机噪声内容特征集合与所述最匹配小块之间的匹配结果，使用所述最匹配小块所对应的所述原始风格特征集合重建第一风格特征T；

第七模块，用于根据所述第一风格特征进行特征随机重组，得到多个第二风格特征

第八模块，用于根据所述第二风格特征计算得到多个风格迁移结果图像。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现本申请中任一项所述风格迁移方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请中任一项所述风格迁移方法的步骤。

本申请生成多样化结果的风格迁移方法、装置、计算机设备和存储介质，通过对第一风格特征进行特征随机重组，可以得到多个第二风格特征，最终通过对第二风格迁移特征计算得到多个风格迁移结果图像，从而实现在输入固定的内容图像和风格图像时，能够生成既满足同一内容约束和风格约束，又生成具有明显变化的多样化的风格迁移结果图像，可以为用户提供更多可选择的风格迁移结果图像，提高用户的体验满意度。

附图说明

图1为一个实施例中生成多样化结果的风格迁移方法的第一流程示意图；

图2为一个实施例中生成多样化结果的风格迁移方法的逻辑原理示意图；

图3为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量、次序。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个、三个等，除非另有明确具体的限定。

在一个实施例中，如图1、图2所示，提供了一种生成多样化结果的风格迁移方法，包括以下步骤：

步骤S1，根据深度神经网络分别对内容图像和风格图像进行高层语义特征处理，得到内容图像语义特征F_c和风格图像语义特征F_s。

其中，深度神经网络是机器学习领域中的一种技术，深度神经网络分多层进行计算，使用多层可以用较少的参数表示复杂的函数，其中的高层语义特征处理是类似于对人脸轮廓，人的肢体等进行特征处理的方式。

具体的，用户通过终端将内容图像和风格图像利用网络上传到服务器，服务器设置有在ImageNet上预训练好的VGG19深度神经网络对内容图像和风格图像进行高层语义特征处理，即在Relu_4_1层(Relu_i_1表示第i个卷积块的第一个激活层)的激活特征，得到内容图像语义特征F_c和风格图像语义特征F_s。

步骤S2，将所述风格图像语义特征划分为若干个局部的特征区域小块，得到原始风格特征集合

服务器将风格图像语义特征按照步长为1划分为3×3大小的局部特征区域小块，就可以得到原始风格特征集合

其中n_s为小块的数量。

步骤S3，对所述原始风格特征集合进行归一化操作，得到第一归一化集合

归一化操作是将要处理的数据经过算法处理后，可以解决数据处理时量纲和量纲单位不统一的问题，将不同来源的数据统一到同一数量级中，方便后续的数据处理。

其中，在对所述原始风格特征集合进行归一化操作的同时进行随机偏移操作，得到第一归一化集合。根据如下公式对所述原始风格特征集合进行带随机偏移的归一化操作：

式中：F_s表示深度神经网络提取出的风格图像语义特征；

φ_j(F_s)表示从风格图像语义特征划分而来的原始风格特征集合，j∈{1，...，n_s}，n_s为小块的数量；

||φ_j(F_s)||表示求φ_j(F_s)的L2范数；

b是一个随机的噪声偏移值；

表示随机归一化后的第一归一化集合。

所述归一化操作可以提高对数据计算的精确度，随机偏移操作可以帮助提高最终生成结果的多样性。

步骤S4，将所述内容图像语义特征与随机噪声进行混合并划分为若干个局部的特征区域小块，得到随机噪声内容特征集合

随机噪声表示将图像噪音随机添加到内容图像语义特征的随机位置上，在对所述内容图像语义特征进行随机噪声混合前，应选取与所述内容图像语义特征尺寸相同的随机噪声进行一定比例的混合，并且对混合后的特征划分成为若干个局部的特征区域小块集合即获得随机噪声内容特征集合。

根据如下公式将所述内容图像语义特征和所述随机噪声进行混合：

式中：F_c表示深度神经网络提取出的内容图像语义特征；

表示与F_c尺寸相同的随机噪声张量；

表示混合了随机噪声后的随机噪声内容特征；

表示得到的随机噪声内容特征集合。

将混合了随机噪声后的随机噪声内容特征按步长为1划分为若干个3×3大小的局部特征区域小块，用

表示混合后的随机噪声内容特征集合，其中n_c为划分后的局部特征区域小块的数量。

步骤S5，将所述随机噪声内容特征集合与所述第一归一化集合进行处理，得到两个集合中最相近的第二归一化集合，从所述第二归一化集合中随机选取一块作为所述随机噪声内容特征集合的最匹配小块φ_i(F_cs)。

首先，在所述第一归一化集合中找到与所述随机噪声内容特征集合与所述第一归一化集合的内积中最大的前k个最匹配的所述第二归一化集合其中所述第二归一化集合是所述第一归一化集合的子集。然后在k个最匹配的所述第二归一化集合中随机选取一个作为所述随机噪声内容特征集合的最匹配小块。

根据如下公式将所述随机噪声内容特征集合与所述第一归一化集合进行处理，得到两者中最相近的第二归一化集合，从所述第二归一化集合中随机选取一块作为所述随机噪声内容特征集合的最匹配小块：

式中：

表示随机噪声内容特征；

F_s表示深度神经网络提取出的风格图像语义特征；

表示随机噪声内容特征集合中的特征区域小块；

表示第一归一化集合中的特征区域小块；

Top_k表示对

集合中的每一个

在

集合中找到使內积

最大的前k个最匹配的

φ_i(F_cs)表示匹配结果。

本方法可以对随机噪声内容特征集合与第一归一化风格特征集合中的局部特征区域小块进行可控的随机匹配，在保证最终风格迁移质量的前提下提高风格迁移结果的多样性。

步骤S6，根据随机噪声内容特征集合与所述最匹配小块之间的匹配结果，使用所述最匹配小块所对应的所述原始风格特征集合重建第一风格特征T。

本申请中，所述原始风格特征集合通过归一化操作得到第一归一化集合，所述第一归一化集合通过与所述随机噪声内容特征集合进行匹配随机选取其中一个小块得到最匹配小块。所以最匹配小块是所述原始风格特征集合的一个子集，因此使用所述最匹配小块所对应的所述原始风格特征集合重建第一风格特征。

重建过程可直接用所述最匹配小块所对应的所述原始风格特征集合中的小块替换所述随机噪声内容特征集合中对应的小块，最终得到的替换后的随机噪声内容特征即为重建的第一风格特征。

步骤S7，根据所述第一风格特征进行特征随机重组，得到多个第二风格特征

通过对第一风格特征进行行列打乱操作与控制打乱后的特征与原第一风格特征之间的混合比例，可以将所述第一风格特征进行特征随机重组，得到多个第二风格特征。

根据如下公式将所述第一风格特征进行特征随机重组，得到多个第二风格特征；

式中：T表示第一风格特征；

表示对特征T进行随机行打乱的重组操作；

表示对特征T进行随机列打乱的重组操作；

其中λ的值可选的0.5，通过随机重组将输入的单一的内容图像和风格图像重建得到多个第二风格特征，在满足相同的内容约束和风格约束的同时产生明显变化的多样化的风格迁移结果特征。

现有技术中，输入固定的内容图片和风格图片时，只能得到固定的单一的风格迁移结果特征，最终也只能生成一个风格迁移结果图像，这样在用户对产生的风格迁移结果图像不满意时，无法进行相应的筛选，只能更换不同的内容图片和风格图片，或寻找其他的风格迁移方法。

本实施例中，在只输入一组内容图片和风格图片时，通过特征随机重组可以产生多个第二风格特征，经过转换便可以得到多个风格迁移结果图像，可供用户筛选出最满意的一副或几副风格迁移结果图像。

步骤S8，根据所述第二风格特征计算得到多个风格迁移结果图像。

将第二风格特征通过服务器输入到一个预训练好的针对VGG19的Relu_4_1层特征直接生成原始图像的转置VGG19模型，将产生的多个第二风格特征转换成为多个风格迁移结果图像，并通过服务器发送到终端，供用户进行相应的筛选。

上述生成多样化结果的风格迁移方法中，通过特征随机重组得到多个第二风格特征，这样转换得到的多个满足相同的内容约束和风格约束的风格迁移结果图像，可以供用户进行相应的挑选，提升用户体验满意度。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，提供了一种生成多样化结果的风格迁移装置，包括：

关于生成多样化结果的风格迁移装置的具体限定可以参见上文中对于生成多样化结果的风格迁移方法的限定，在此不再赘述。上述生成多样化结果的风格迁移装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现生成多样化结果的风格迁移方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

根据所述第二风格特征计算得到多个风格迁移结果图像。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

根据所述第二风格特征计算得到多个风格迁移结果图像。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率步骤SDRAM(DDR SDRAM)、增强型步骤SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambu S)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。不同实施例中的技术特征体现在同一附图中时，可视为该附图也同时披露了所涉及的各个实施例的组合例。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。