CN113994364A

CN113994364A - 单或多模态风格转移系统及方法与用其的随机风格化系统

Info

Publication number: CN113994364A
Application number: CN201980096740.0A
Authority: CN
Inventors: 萧人豪; 杨博勋
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-05-30
Filing date: 2019-12-02
Publication date: 2022-01-28
Anticipated expiration: 2039-12-02
Also published as: WO2020238120A1; EP3970112A4; CN113994364B; EP3970112A1; US20220084165A1

Abstract

一种风格转移系统，由至少一个内容编码器分支接收及处理从一第一内容图像中获得的至少一个第二内容图像，以生成至少一个第一特征图，使得所述至少一个第二内容的具体信息图像被反映在所述至少一个第一特征图中；由至少一个风格编码器分支接收及处理至少一个风格图像，以生成至少一个第二特征图，使得所述至少一个风格图像的抽象信息被反映在所述至少一个第二特征图中；以及由至少一个融合块中的每一个进行融合所述至少一个第一特征图中的每一个及所述至少一个第二特征图中的每一个，以生成至少一个融合特征图，所述至少一个融合特征图对应于所述至少一个第二特征图。

Description

单或多模态风格转移系统及方法与用其的随机风格化系统

技术领域

本公开涉及风格转移领域，更具体地，涉及一种单模态或多模态风格转移的系统及方法与一种使用其的随机风格化系统。

背景技术

风格转移是一种将原始图像重新组合成其他图像风格的技术，所述原始图像的变化不仅仅是色调或颜色分布等传统的变化。例如，可以使用风格转移将捕捉一场景的一照片重新合成为所述场景的一毕加索风格绘画。

发明内容

本公开的一个目的是提出一种单模态或多模态风格转移的系统及方法以及一种使用其的随机风格化系统。

在本公开的一第一方面中，一种风格转移的系统包括至少一个存储器及至少一个处理器。所述至少一内存被配置为储存多个程序指令。所述至少一个处理器被配置为执行所述多个程序指令，所述多个程序指令致使所述至少一个处理器进行多个步骤，包括：由至少一个内容编码器分支接收及处理从一第一内容图像中获得的至少一个第二内容图像，以生成至少一个第一特征图，使得所述至少一个第二内容图像的具体信息被反映在所述至少一个第一特征图中；由至少一风格编码器分支接收及处理至少一个风格图像，以生成至少一个第二特征图，使得所述至少一风格图像的抽象信息被反映在所述至少一第二特征图中；及由至少一个融合块中的每一个进行融合所述至少一个第一特征图中的每一个及所述至少一个第二特征图中的每一个，以生成至少一个融合特征图，所述至少一个融合特征图对应于所述至少一个第二特征图。

在本公开的一第二方面中，一种随机风格化系统包括至少一个内存及至少一个处理器。所述至少一个内存被配置为储存多个程序指令。所述至少一个处理器被配置为执行所述多个程序指令，所述多个程序指令致使所述至少一个处理器进行多个步骤，包括：对一内容图像进行语义分割，以生成一分割内容图像，所述分割内容图像包括多个分割区域；随机选择多个风格图像，其中所述多个风格图像的一数量等于所述多个分割区域的一数量；使用所述内容图像及所述多个风格图像进行风格转移，以对应地生成多个风格化图像；及合成所述多个风格化图像，以生成一随机风格化图像，所述随机风格化图像包括多个区域，所述多个区域对应于所述多个分割区域及所述多个风格化图像。

在本公开的一第三方面，一种计算机实现的方法，包括：由至少一个内容编码器分支接收及处理从一第一内容图像中获得的至少一个第二内容图像，以生成至少一个第一特征图，使得所述至少一个第二内容图像的具体信息被反映在所述至少一个第一特征图中；由至少一个风格编码器分支接收及处理至少一风格图像，以生成至少一第二特征图，使得所述至少一个风格图像的抽象信息被反映在所述至少一个第二特征图中；及由至少一个融合块中的每一个进行融合所述至少一个第一特征图的每一个及所述至少一个第二特征图的每一个，以生成至少一个融合特征图，所述至少一个融合特征图对应于所述至少一个第二特征图。

附图说明

为了更清楚地说明本公开或相关技术的实施例，下面的附图将在实施例中进行简要介绍。显然，附图只是本公开的一些实施例，本领域普通技术人员可以在无需付出的前提下，根据这些附图获得其他附图。

图1是以图解说明根据本公开的一实施例的一终端中的输入、处理及输出硬件模块的一框图。

图2是以图解说明根据本公开的一实施例的就至少一个模块而言的单模态风格转移的一系统的软件部分的一框图。

图3是以图解说明根据本公开的一实施例的单模态风格转移的所述系统中的一自动编码器网络的一图。

图4是以图解说明根据本公开的一实施例的所述自动编码器网络的一内容编码器分支、一风格编码器分支或一解码器中的一级的一图。

图5是以图解说明根据本公开的一实施例的所述自动编码器网络的所述解码器中的一卷积级的一图。

图6是以图解说明根据本公开的一实施例的多模态风格转移的一系统中的所述自动编码器网络的一顺序采用的风格编码器分支的一图。

图7是以图解说明根据本公开的一实施例的与多模态风格转移的一系统中的所述自动编码器网络的一风格编码器分支相同的多个并行风格编码器分支的一图。

图8是以图解说明根据本公开的一实施例就多个步骤而言的单模态或多模态风格转移的一系统的所述软件部分的一流程图。

图9是以图解说明根据本公开的一实施例的随机风格化的一系统的一软件部分的一流程图。

图10是以图解说明根据本公开的一实施例的一内容图像的一图。

图11是以图解说明根据本公开的一实施例的一分割内容图像的一图。

图12是以图解说明根据本公开的一实施例的多个风格化图像的一图。

图13是以图解说明根据本公开的一实施例的一随机风格化图像的一图。

具体实施方式

下面将结合附图对本公开的诸多实施例的诸多技术事项、诸多结构特征、诸多实现目的及诸多效果进行详细说明。具体地，本公开实施例中的术语仅用于说明某个实施例的目的，并不用于限制所述发明。

如在此所使用的，术语“使用(using)”意指一对象被直接使用以进行一步骤的一情况，或者所述对象通过至少一个中间步骤被修改并且所述被修改的对象被直接使用以进行所述步骤的一情况。

图1是以图解说明根据本公开的一实施例的一终端(terminal)100中的输入、处理及输出硬件模块的一框图。参考图1，所述终端100包括一数码相机模块(digital cameramodule)102、一处理器模块(processor module)104、一内存模块(memory module)106、一显示模块(display module)108、一存储模块(storage module)110、一有线或无线通信模块(wired or wireless communication module)112及多个总线(buses)114。所述终端100可以是诸多手机、诸多智能手机、诸多平板电脑、诸多笔记本电脑、诸多台式电脑或具有足够计算能力进行风格转移的任何电子设备。

所述数码相机模块102为一输入硬件模块，被配置为撷取一内容图像204(如图2所示)，所述内容图像204通过所述多个总线114以被传送到所述处理器模块104。在一实施例中，所述数码相机模块102包括一RGB相机。替代地，所述数码相机模块102包括一灰度相机。替代地，所述内容图像204可使用另一输入硬件模块被获得，诸如所述存储模块110，或所述有线或无线通信模块112。所述存储模块110被配置为存储通过所述多个总线114以被传送到所述处理器模块104的所述内容图像204。所述有线或无线通信模块112被配置为通过所述有线或无线通信从一网络接收所述内容图像204，其中所述内容图像204通过所述多个总线114以被传送到所述处理器模块104。参考图7被描述的多个内容图像可以从所述内容图像204被获得。即是，所述多个内容图像中的一者可以是所述内容图像204，并且所述多个内容图像中的另一部分可以与所述内容图像204相同。

所述存储模块110还被配置为存储一风格图像206(如图2所示)，所述风格图像206通过所述多个总线114以被传送到所述处理器模块104。替代地，所述有线或无线通信模块112还被配置为通过所述有线或无线通信从一网络接收一风格图像206，其中所述风格图像206通过所述多个总线114以被传送到所述处理器模块104。参考图6及图7被描述的多个风格图像可以用所述风格图像206的方式被获得。

所述内存模块106可以是一暂时性或非暂时性计算机可读介质，所述暂时性或非暂时性计算机可读介质包括存储多个程序指令的至少一个内存。在一实施例中，当所述内存模块106存储多个程序指令，并且所述多个程序指令是由所述处理器模块104执行时，所述处理器模块104被配置为一风格网(StyleNet)202(如图2所示)，所述风格网202使用所述风格图像206对所述内容图像204进行单模态风格转移，以生成一风格化图像(stylizedimage)208。在另一实施例中，当所述内存模块106存储多个程序指令并且所述多个程序指令是由所述处理器模块104执行时，所述处理器模块104被配置为参考图6及图7描述的一多风格网(multi-StyleNet)。所述多风格网使用多个风格图像对一内容图像进行多模态风格转移，以生成多个风格化图像。在又一实施例中，当所述内存模块106存储多个程序指令并且所述多个程序指令是由处理器模块104执行时，所述处理器模块104被配置为使用多个风格图像1222、1224及1226(如图12所示)对一内容图像1002(如图10所示)进行随机风格化，以生成一随机风格化图像1302(如图13所示)。所述处理器模块104包括至少一个处理器，所述处理器经由所述多个总线114直接或间接地向所述数码相机模块102、所述内存模块106、所述显示模块108、所述存储模块110及所述有线或无线通信模块112发送多个信号及/或直接或间接地从所述数码相机模块102、所述内存模块106、所述显示模块108、所述存储模块110及所述有线或无线通信模块112接收多个信号。所述至少一个处理器可以是(多个)中央处理单元(CPU(s))、(多个)图形处理单元(GPU(s))及/或(多个)数字信号处理器(DSP(s))。所述(多个)CPU可以经由所述多个总线114向所述(多个)GPU及/或(多个)DSP发送所述内容图像204、所述多个程序指令中的一些及其他数据或指令。

所述显示模块108是一输出硬件模块，所述输出硬件模块通过显示进行输出。替代地，所述存储模块110为一输出硬件模块，所述输出硬件模块通过存储进行输出。又替代地，所述有线或无线通信模块112是一输出模块，所述输出模块通过传送到所述网络进行输出。在一实施例中，所述输出硬件模块被配置为输出所述风格化图像208，所述风格化图像208通过所述多个总线114从所述处理器模块104被接收。在另一实施例中，所述输出硬件模块被配置为输出所述多个风格化图像，所述多个风格化图像通过所述多个总线114从所述处理器模块104被接收。在又一实施例中，所述输出硬件模块被配置为输出一随机风格化图像1402，所述随机风格化图像1402通过所述多个总线114从所述处理器模块104被接收。

所述终端100是一种计算系统，其所有构件通过所述多个总线114被集成在一起。其他类型的计算系统，例如具有远程数码相机模块而不是数码相机模块102的计算系统，也在本公开的预期范围内。

图2是以图解说明根据本公开的一实施例的就至少一个模块而言的单模态风格转移的一系统的软件部分的一框图。参考图2，就至少一个模块而言，单模态风格转移的一系统的软件部分包括一风格网202，所述风格网202将所述内容图像204映射到所述风格化图像208受到通过使用所述风格图像206作为用于参考图3被描述的一风格编码器分支304的一模态所阐述的一限制。

图3是以图解说明根据本公开的一实施例的单模态风格转移的所述系统中的一自动编码器网络300的一图。参考图3，在一实施例中，所述风格网202(图2所示)是所述自动编码器网络300。所述自动编码器网络300接收所述内容图像204及所述风格图像206，对整个内容图像204应用风格转移，并且输出一风格化图像208。所述自动编码器网络300包括内容编码器分支302、风格编码器分支304及解码器306。所述内容编码器分支302被配置为接收及处理所述内容图像204，以生成一特征图336，使得所述内容图像204的具体信息被反映在所述特征图336中。在一实施例中，所述内容编码器分支302被配置为接收及处理所述内容图像204，以生成所述特征图336，使得所述内容图像204的具体信息仅被反映在所述特征图336中。所述具体信息是用于保留所述内容图像204中的一整体空间结构的诸多低阶特征诸如线条及边缘。所述风格编码器分支304被配置为接收及处理所述风格图像206，以生成一特征图322，使得所述风格图像206的抽象信息被反映在所述特征图322中。在一实施例中，所述风格编码器分支304被配置为接收及处理所述风格图像206，以生成所述特征图322，使得所述风格图像206的所述抽象信息仅被反映在所述特征图322中。所述抽象信息是用于保留所述风格图像206中的诸多风格特征的诸多高阶特征，诸如颜色、纹理及图案。所述内容编码器分支302还被配置为融合所述特征图336及所述特征图322，以生成一融合特征图(fused feature map)318。所述解码器306被配置为接收及处理所述融合特征图318，以生成所述风格化图像208。

所述内容编码器分支302包括多个卷积级(convolutional stages)A、B及C，以及多个残差块(residual blocks)308至310。在一实施例中，所述内容编码器分支302中有9个残差块。所述风格编码器分支304包括多个卷积级F、G及H，多个残差块312至314，以及一全局池化及复制级(global pooling and duplicating stage)I。在一实施例中，在所述风格编码器分支304中有9个残差块。所述卷积级A接收所述内容图像204，所述卷积级A、B及C以及残差块308至310逐层(layer-by-layer)处理，所述残差块310输出所述融合特征图318。所述卷积级F接收所述风格图像206，所述卷积级F、G及H、所述残差块312至314及所述全局池化及复制级I逐层处理，所述全局池化及复制级I输出所述特征图322。在一实施例中，所述残差块308包括一卷积级D及一加总块(summing block)324。所述卷积级D从先前的卷积级C接收一特征图326，及输出一特征图328。所述加总块324将来自所述先前的卷积级C的所述特征图326及所述特征图328进行加总，以生成一特征图330。在一实施例中，所述残差块310包括一卷积级E及一加总块332。所述卷积级E从所述先前的残差块(未示出)接收一特征图334，及输出所述特征图336。所述加总块332是一融合块(fusing block)，所述融合块通过加总以融合在所述内容图像204与所述残差块310、所述特征图336及所述特征图322之间被生成的一特征图，以生成所述融合特征图322。在一实施例中，在所述内容图像204与所述残差块310之间被生成的所述特征图是来自所述残差块310之前的所述残差块的所述特征图334。替代地，所述融合块可以与所述加总块332分离并且跟随在所述加总块332之后。所述融合块可以通过例如串接以融合所述加总块332的一输出与所述特征图322。所述多个残差块312及314类似于所述残差块308。所述全局池化及复制级I被配置为全局池化从所述最终残差块314输出的一特征图338，以生成所述风格图像206的一全局表征(globalrepresentation)，然后复制所述全局表征，以生成所述特征图322，所述特征图322具有一尺寸与所述特征图336相同。在一实施例中，所述风格图像206的所述全局表征是通过全局最大池化生成的。替代地，所述风格图像206的所述全局表征是通过全局平均池化(globalaverage pooling)被生成。

所述解码器306包括多个反卷积级(deconvolutional stages)J及K，以及一卷积级L。所述反卷积级J接收所述融合特征图318，所述多个反卷积级J及K、所述卷积级L逐层处理，并且所述卷积级L输出所述风格化图像208。

图4是图示根据本公开的一实施例的所述自动编码器网络300的所述内容编码器分支302、所述风格编码器分支304或所述解码器306中的一级X的一图。所述级X可以是任何所述卷积级A、B、C、D、E、F、G及H，以及所述多个反卷积级J及K。对于所述多个卷积级A、B、C、D、E、F、G及H，所述级X包括一卷积层X1、一实例归一化层X2及一非线性激活函数层X3。所述卷积层X1接收一特征图402，所述卷积层X1、所述实例归一化层X2及所述非线性激活函数层X3逐层处理，并且所述非线性激活函数层X3输出一特征图404。在一实施例中，所述非线性激活函数层X3是一ReLU层。在一实施例中，对于所述多个卷积级A及F，所述卷积层X1具有的一深度为64、一核大小为7x7、一步长为1x1，及一填充使得所述特征图404具有的一高度及一宽度与所述特征图402的高度及宽度相同。在一实施例中，对于所述卷积级B及G，所述卷积层X1具有的一深度为128、一核大小为4x4、一步长为2x2，及一填充使得所述特征图404被下采样为具有所述特征图402的一半高度及一半宽度。在一实施例中，对于所述卷积级C及H，所述卷积层X1具有的一深度为256、一核大小为4x4、一步长为2x2，及一填充使得所述特征图404被下采样为具有所述特征图402的一半高度及一半宽度。在一实施例中，对于所述卷积级D及E，所述卷积层X1的一深度为256、一核大小为3x3、一步长为1x1，填充使得特征图404具有的一高度及一宽度与所述特征图402的高度及宽度相同。在一实施例中，对于所述反卷积级J及K，所述级X包括一反卷积层X1、一实例归一化层X2及一非线性激活函数层X3。所述反卷积层X1接收一特征图402，所述反卷积层X1、所述实例归一化层X2及所述非线性激活函数层X3逐层处理，并且所述非线性激活函数层X3输出一特征图404。在一实施例中，所述非线性激活函数层X3是一ReLU层。在一实施例中，对于所述反卷积级J，所述反卷积层X1具有的一深度为128、一核大小为4x4、一步长为2x2，及一填充使得所述特征图404被上采样为具有所述特征图402的两倍高度及两倍宽度。在一实施例中，对于所述反卷积级K，所述反卷积层X1具有的一深度为64、一核大小为4x4、一步长为2x2，及一填充使得所述特征图404被上采样为具有所述特征图402的两倍高度及两倍宽度。

所述自动编码器网络300是示例性的。其他自动编码器网络，例如诸多自动编码器网络具有不同级数、不同残差块数量、具有不同超参数的卷积层及/或具有不同超参数的反卷积层，都在本公开的预期范围内。

图5是以图解说明根据本公开的一实施例的所述自动编码器网络300的所述解码器306中的所述卷积级L的一图。所述卷积级L包括一卷积层L1及一非线性激活函数层L2。所述卷积层L1接收一特征图502，所述卷积层L1及所述非线性激活函数层L2逐层处理，并且所述非线性激活函数层L2输出所述风格化图像208。在一实施例中，所述卷积层L1具有所述内容图像204的一深度、一核大小为7x7、一步长为1x1，及一填充使得所述风格化图像208具有的一高度及一宽度与所述特征图502的高度及宽度相同。在一实施例中，所述非线性激活函数层L2是一双曲正切层(hyperbolic tangent layer)。

参考图2至图5描述的单模态风格转移的所述系统的所述软件部分可以被扩展到多模态风格转移的一系统的一软件部分，通过对多个不同风格图像顺序地采用所述自动编码器网络300的所述风格编码器分支304，或创建多个并行风格编码器分支，所述多个并行风格编码器分支与用于多个不同风格图像的所述自动编码器网络300的所述风格编码器分支304相同。

图6是以图解说明根据本公开的一实施例的多模态风格转移的一系统中的所述自动编码器网络300的所述顺序采用的风格编码器分支304的一图。多模态风格转移的所述系统中的所述自动编码器网络300是一个多风格网(multi-StyleNet)。参照图3及图6，与参照图3描述的单模态风格转移的所述系统中的自动编码器网络300相比较，多模态风格转移的所述系统中的所述自动编码器网络300顺序地采用所述风格编码器分支304、所述加总块332及所述解码器306。所述风格编码器分支304被配置为顺序地接收及处理多个不同风格图像3202、3204及3206，以生成多个特征图3222、3224及3226，所述多个特征图3222、3224及3226对应于不同风格图像3202、3204及3206。所述加总块332被配置为顺序地融合所述特征图336及所述多个特征图3222、3224及3226中的每一个，以生成多个融合特征图3182、3184及3186，所述多个融合特征图3182、3184及3186对应于所述多个特征图3222、3224及3226.所述解码器306被配置为顺序地接收及处理所述融合特征图3182、3184及3186，以生成多个不同风格化图像2802、2804及2806，所述多个不同风格化图像2802、2804及2806对应于所述融合特征图3182、3184及3186。在一实施例中，由所述内容编码器分支302生成的所述特征图336被重新使用于所述多个风格图像3204及3206。替代地，所述内容编码器分支302接收及处理所述内容图像204，以生成所述特征图336，用于所述多个风格图像3202、3204及3206中的每一个。

图7是以图解说明根据本公开的一实施例的与多模态风格转移的一系统中的所述自动编码器网络300的所述风格编码器分支304相同的多个并行风格编码器分支的一图。多模态风格转移的所述系统中的所述自动编码器网络是一个多风格网。参考图3及图7，与参照图3描述的单模态风格转移的所述系统中的所述自动编码器网络300相比较，多模态风格转移的所述系统中的一自动编码器网络包括没有所述加总块332的所述内容编码器分支302、与所述风格编码器分支304相同的多个并行风格编码器分支3042、3044及3046，与所述加总块332相同的多个并行加总块3322、3324及3326，与所述解码器306相同的多个并行解码器3062、3064及3066。与所述多个不同风格图像3202、3204及3206对应的所述多个风格编码器分支3042、3044及3046被配置为接收及处理所述多个风格图像3202、3204及3206，以生成多个特征图3222、3224及3224，所述多个特征图3222、3224及3224对应于所述多个不同风格的图像3202、3204及3206。所述加总块3322、3324及3326各自被配置为融合所述特征图336以及所述多个特征图3222、3224及3226中的每一个，以生成多个融合特征图3182、3184及3186，所述多个融合特征图3182、3184及3186对应于所述多个特征图3222、3224及3226。所述多个解码器3062、3064及3066被配置为接收及处理所述多个融合特征图3182、3184及3186，以生成多个不同风格化图像2802、2804及2806，所述多个不同风格化图像2802、2804及2806对应于所述多个融合特征图3182、3184及3186。在一实施例中，由所述内容编码器分支302生成的所述特征图336被重新使用于所述风格图像3204及3206。替代地，与所述内容编码器分支302相同的多个内容编码器分支对于所述多个风格图像3202、3204及3206生成与所述特征图336相同的多个特征图。

在一实施例中，参考图2到图7描述的单模态及多模态风格转移的所述系统中的所述多个自动编码器网络中的任何一个使用多个损失函数诸如一内容损失(content loss)及一风格损失(style loss)被训练。所述内容损失是在多个特征表征(featurerepresentations)之间的一(平方的、归一化的)欧几里德距离。所述风格损失是在输出图像与目标图像的革兰矩阵(Gram matrices)之间的一差异的一平方的弗罗贝尼乌斯范数(Frobenius norm)。在一实施例中，所述多个损失函数还包括一总变化损失。单模态及多模态风格转移的所述多个系统中的所述多个自动编码器网络被训练用于许多不同风格的图像。在进行训练后，单模态及多模态风格转移的所述系统中的任何自动编码器网络的参数被冻结(frozen)，单模态及多模态风格转移的所述系统中的任何所述自动编码器网络被部署到所述终端100(如图1所示)。

图8是以图解说明根据本公开的一实施例就多个步骤而言的单模态或多模态风格转移的所述系统的所述软件部分800的一流程图。参考图2至图8，单模态或多模态风格转移的所述系统的所述软件部分800就多个步骤而言包括以下步骤。

在步骤802中，从一第一内容图像中被获得的至少一个第二内容图像被至少一个内容编码器分支接收及处理，以生成至少一个第一特征图，使得所述至少一个第二内容图像的具体信息被反映在所述至少一个第一特征图中。对于参考图3描述的单模态风格转移的所述系统，存在从所述第一内容图像204获得的一个第二内容图像204、一个内容编码器分支302及一个第一特征图336。对于参考图6描述的多模态风格转移的所述系统，存在从所述第一内容图像204获得的一个第二内容图像204及被使用一次的一个内容编码器分支302，以及被重新使用的一个第一特征图336。替代地，存在从所述第一内容图像204获得的一个第二内容图像204、一个内容编码器分支302及顺序地使用的一个第一特征图336。对于参考图7描述的多模态风格转移的所述系统，存在从所述第一内容图像204获得的一个第二内容图像204及被使用一次的一个内容编码器分支302，以及被重新使用的一个第一特征图336。替代地，存在从所述第一内容图像204获得的多个第二内容图像、与所述内容编码器分支302相同的多个内容编码器分支、以及与所述特征图336相同的多个特征图。

在步骤804中，所述至少一个风格图像被至少一个风格编码器分支接收及处理，以生成至少一个第二特征图，使得所述至少一个风格图像的抽象信息被反映在所述至少一个第二特征图中。对于参照图3描述的单模态风格转移的所述系统，存在一个风格图像206、一个风格编码器分支304及一个第二特征图322。对于参考图6描述的多模态风格转移的所述系统，存在多个不同风格的图像3202、3204及3206、一个风格编码器分支304及多个第二特征图3222、3224及3226。对于参考图7描述的多模态风格转移的所述系统，存在多个不同的风格图像3202、3204及3206、与所述风格编码器分支304相同的多个风格编码器分支3042、3044及3046，以及多个第二特征图3222、3224及3226。

在步骤806中，所述至少一个第一特征图中的每一个及所述至少一个第二特征图中的每一个被至少一个融合块中的每一个融合，以生成至少一个融合特征图，所述至少一个融合特征图对应于所述至少一个第二特征图。对于参照图3描述的单模态风格转移的所述系统，存在所述一个第一特征图336、所述一个第二特征图322、作为一加总块332的一个融合块，以及一个融合特征图318。对于参考图6描述的多模态风格转移的所述系统，存在所述一个第一特征图336、所述多个第二个特征图3222、3224及3226、作为一加总块332的所述一个融合块，以及多个融合特征图3182、3184及3186。对于参考图7描述的多模态风格转移的所述系统，存在所述一个第一特征图336或与所述特征图336相同的所述多个特征图、所述多个第二特征图3222、3224及3226，以及多个融合块，所述多个融合块为多个加总块3322、3324及3226。

在步骤808中，所述至少一个融合特征图被至少一个解码器接收及处理，以生成至少一个风格化图像。对于参照图3描述的单模态风格转移的所述系统，存在所述一个融合特征图318、一个解码器306及一个风格化图像208。对于参考图6描述的多模态风格转移的所述系统，存在所述多个融合特征图3182、3184及3186、一个解码器306，以及多个风格化图像2082、2084及2086。对于参考图7描述的多模态风格转移的所述系统，存在所述多个融合特征图3182、3184及3186、与所述解码器306相同的多个解码器3062、3064及3066，以及多个风格化图像2082、2084及2086。

参照图1至图8描述的所述多个实施例，具有以下优点。通过所述内容编码器分支302及所述解码器306经受通过使用一风格图像作为所述风格编码器分支304的一模态而提出的一限制，所述风格图像可以被修改，而所述内容编码器分支302、所述风格编码器304及所述解码器306的所述多个参数是固定的。例如，当有10个不同风格的图像时，传统的风格转移系统，诸如“一艺术风格的神经算法”，利昂·A·盖蒂(Leon A.Gatys)、亚历山大·S·埃克(Alexander S.Ecker)、马提亚斯·贝奇(Matthias Bethge),arXiv预印本arXiv:1508.06576[cs.CV]，2015年；以及，“实时风格转移及超分辨率的感知损失”，贾斯汀·约翰逊(Justin Johnson)、亚历山大·阿拉希(Alexandre Alahi)、李飞飞(Li Fei-Fei)，arXiv预印本arXiv:1603.08155[cs.CV]，2016年，需要被训练才能拥有用于所述10个不同风格图像的10组不同的参数。与传统的风格转移系统相比，参考图1到图8描述的所述多个实施例对所述10个不同风格的图像拥有一组固定的参数。因此，参考图1到图8描述的所述多个实施例是更方便且占用更少的内存空间。

图9是以图解说明根据本公开的一实施例的随机风格化的一系统的一软件部分900的一流程图。在步骤902中，对一内容图像进行语义分割，以生成一分割内容图像，所述分割内容图像包括多个分割区域。在步骤904中，随机选择多个风格图像。所述多个风格图像的一数量等于所述多个分割区域的一数量。在步骤906中，使用所述内容图像及所述风格图像进行风格转移，以对应生成多个风格化图像。在步骤908中，合成所述多个风格化图像，以生成一随机风格化图像，所述随机风格化图像包括多个区域，所述多个区域对应于所述多个分割区域及所述多个风格化图像。

图10是以图解说明根据本公开的一实施例的所述内容图像1002的一图。图11是以图解说明根据本公开的一实施例的所述分割内容图像1102的一图。参照图9至图11，在步骤902中，对所述内容图像1002进行语义分割，以生成所述分割内容图像1102，所述分割内容图像1102包括多个分割区域1104、1106及1108。在一实施例中，语义分割由一卷积神经网络进行，所述卷积神经网络以多个网格尺度进行空间金字塔形池化(spatial pyramidpooling)，应用几个具备不同比率的并行多孔卷积(several parallel atrousconvolutions with different rates)。所述卷积神经网络被训练以识别日常生活中最常见的物体。诸如使用一编码器-解码器结构以进行语义分割的一神经网络之类的其他神经网络是在本公开的预期范围内。

参照图9及图11，在步骤904中，多个风格图像被随机选择。在一实施例中，所述风格图像的一数量等于所述多个分割区域1104、1106及1108的一数量。在一实施例中，当有足够数量的不同风格图像时，非重复随机选择(non-repeat random selection)被用以选择所述多个风格图像，所述多个风格图像对应于所述多个分割区域1104、1106及1108。在一实施例中，当不同风格图像的数量不足时，对于与所述多个被分割的区域1104、1106及1108对应的所述多个风格图像选择所述多个不同风格图像，并且一部分不同风格图像被随机选择以重复在所述多个风格图像中。

图12是以图解说明根据本公开的一实施例的所述多个风格化图像1222、1224及1226的一图。参照图2至图9及图12，在步骤906中，在图6及图7中的任一实施例中描述的多模态风格转移的所述系统使用所述内容图像204及所述风格图像进行风格转移以相应生成多个风格化图像。参照图6及图7，在一实施例中，所述多个风格图像的所有不同风格图像3202、3204及3206都由所述系统处理以进行多模态风格转移，以生成所述多个风格化图像2082、2084及2086。所述多个风格化图像1222、1224及1226是所述多个风格化图像2082、2084及2086的一示例。上述任一实施例中的所述风格转移系统包括所述自动编码器网络，所述自动编码器网络具有用于不同风格图像的一固定参数集。诸如包括拥有用于不同风格图像的不同参数集的一卷积神经网络的一风格传输系统之类的其他风格传输系统是在本公开的预期范围内。

图13是以图解说明根据本公开的一实施例的所述随机风格化图像1302的一图。在步骤908中，所述多个风格化图像1222、1224及1226被合成，以生成一随机风格化图像1302，包括与所述分割区域1104、1106及1108对应的多个区域1304、1306及1308，以及所述多个风格化图像1222、1224及1226。在一实施例中，所述步骤908包括以下步骤。在步骤9082，所述多个风格化图像被随机分配到所述多个分割区域1104、1106及1108。在步骤9084中，所述多个随机分配的风格化图像被合成，使得所述随机的风格化图像的所述多个区域对应于所述多个随机分配的风格化图像。在一实施例中，对于所述多个分割区域1104、1106及1108中的每一个，仅排除分割区域1104、1106或1108的一对应掩模(corresponding mask)被创建。所述多个随机分配的风格化图像使用所述多个掩模被合成。

参照图9至图13描述的实施例具有以下优点。通过对所述内容图像的多个语义分割区域进行随机风格化，所述内容图像可以使用多个风格图像，所述多个风格图像通过组合及排列被安排，并且风格化(stylization)是实例感知的(instance-aware)。例如，当有10个不同风格图像时，对于使用传统风格化的一内容图像，只有10个风格化图像可被生成。与传统的风格化相比，参考图9至图13描述的所述多个实施例可以对于一内容图像生成720个不同风格化图像，所述内容图像被语义分割为具有3个分割区域。因此，一用户可以扩展他/她定制他/她的照片(即诸多内容图像)的能力，超出了对照片进行风格化的基本方式，允许他/她获得不同照片在不同风格排列下的外观的灵感。通常，考虑到照片本身的内容(光照、颜色、照片中的对象等)以及要被应用的选定风格，将风格转移应用于一照片可能会生成大不相同的结果。在某些情况下，这可能会使所述用户很难在不经过长时间试错的情况下决定他们认为哪种风格最适合所述照片。随机风格化有助于引导所述用户，让他或她能够快速实验多种风格的安排，并且获得灵感，瞭解哪些风格比其他风格运作的更好。此外，因为风格化是实例感知的，随机艺术既可以强调某些对象，也可以让所述用户看到不同的风格在不同的对象上是如何被表达的。

一些实施例具有以下特征及/或优点中的一个或组合。在一第一实施例中，用于风格转移的一系统通过一风格编码器分支进行接收及处理一风格图像。因此，在一内容编码器分支、所述风格编码器分支及所述解码器的参数为固定的同时，所述风格图像可以被修改。与传统的风格转移系统相比，如上所述的第一实施例更方便且占用更少的存储空间。在一第二实施例中，随机风格化的一系统进行多个风格化图像的合成，以生成一随机风格化图像，所述随机风格化图像包括多个区域及所述多个风格化图像，所述多个区域对应于多个分割区域。所述多个风格化图像是使用多个随机选择的风格图像被生成的。所述多个分割区域是通过对一内容图像进行语义分割而被生成的。与传统风格化相比，如上所述的第二实施例扩展一用户自定义他/她的照片(即诸多内容图像)的能力，超出对照片进行风格化的基本方式，允许他/她获得不同照片在不同风格的排列下的外观的灵感。

本领域普通技术人员可以理解，本公开的所述诸多实施例所描述及公开的所述系统或所述计算机实现的方法的所述多个单元、所述模块、所述层、所述块、算法及多个步骤中的每一个是使用硬件、固件、软件或其组合被实现的。所述诸多功能是否以硬件、固件或软件方式运行，取决于一技术方案的应用条件及设计要求。本领域普通技术人员可以针对每个具体的应用使用不同的方式以实现所述功能，而这种实现方式不应超出本公开的范围。

应被理解的是，本公开的诸多实施例中所公开的系统及计算机实现的方法可以通过其他方式被实现。如上所述的实施例仅是示例性的。所述诸多模块的划分仅仅是基于逻辑功能，而其他的划分在实现上是存在的。所述诸多模块可以是也可以不是诸多物理模块。多个模块被组合或被集成为一个物理模块是可能的。任何所述多个模块被分成多个物理模块是可能的。某些特征被省略或跳过也是有可能的。另一方面，所述被显示或被讨论的相互耦合、直接耦合或通信耦合通过一些端口、装置或模块以电气、机械或其他形式的方式间接或通信地进行操作。

作为用于说明的诸多分离组件的所述多个模块在物理上是分开的，也可以是不分开的。所述多个模块是位于一处或分布在多个网络模块上。根据所述多个实施例的目的使用一些或所有模块。

如果将所述软件功能模块作为产品被实现、使用及销售，则可以被存储在一计算机可读存储介质中。基于这种理解，本公开提出的技术方案可以实质上或部分以软件产品的形式被实现。或者，可以将有利于现有技术的技术方案的一部分以软件产品的形式被实现。所述软件产品被存储在一计算机可读存储介质中，包括用于一系统的至少一个处理器运行本公开的多个实施例所公开的全部或部分步骤的多个命令。所述存储介质包括一U盘、一移动硬盘、一只读存储器(ROM)、一随机存取存储器(RAM)、一软盘或其他能够存储诸多程序指令的介质。

虽然本公开已经结合被认为是最实用及优选的实施例被描述，但是应当理解，本公开不限于所公开的实施例，而是旨在覆盖在不脱离所附权利要求的最广泛解释范围的情况下做出的各种安排。

Claims

1.一种风格转移系统，其特征在于：包括：

至少一个内存，被配置为存储多个程序指令；及

至少一个处理器被配置为执行所述多个程序指令，所述多个程序指令致使所述至少一个处理器进行多个步骤，包括：

由至少一个内容编码器分支接收及处理从一第一内容图像中获得的至少一个第二内容图像，以生成至少一个第一特征图，使得所述至少一个第二内容图像的具体信息被反映在所述至少一个第一特征图中；

由至少一个风格编码器分支接收及处理至少一个风格图像，以生成至少一个第二特征图，使得所述至少一个风格图像的抽象信息被反映在所述至少一个第二特征图中；及

由至少一个融合块中的每一个进行融合所述至少一个第一特征图中的每一个及所述至少一个第二特征图中的每一个，以生成至少一个融合特征图，所述至少一个融合特征图对应于所述至少一个第二特征图。

2.如权利要求1所述的风格转移系统，其特征在于：

有多个不同风格图像；

只有一个风格编码器分支或有多个风格编码器分支相同且对应于所述多个风格图像；

有多个第二特征图对应于所述多个风格图像；

只有一个融合块或有多个融合块对应于所述多个第二特征图；及

有多个融合特征图。

3.如权利要求2所述的风格转移系统，其特征在于：

只有一个第二内容图像；

只有一个内容编码器分支；及

只有一个第一特征图。

4.如权利要求1所述的风格转移系统，其特征在于：所述由至少一个融合块中的每一个进行融合所述至少一个第一特征图中的每一个及所述至少一个第二特征图中的每一个，以生成至少一个融合特征图，所述至少一个融合特征图对应于所述至少一个第二特征图的步骤包括：

由至少一个加总块中的每一个将所述至少一个第一特征图中的每一个及所述至少一个第二特征图中的每一个进行加总，以生成至少一个加总特征图，所述至少一个加总特征图对应于所述至少一个第二特征图。

5.如权利要求4所述的风格转移系统，其特征在于：

至少一个内容编码器分支中的一个包括一残差块，所述残差块包括所述至少一个加总块中的一个；及

所述由至少一个加总块中的每一个将所述至少一个第一特征图中的每一个及所述至少一个第二特征图中的每一个进行加总，以生成至少一个加总特征图，所述至少一个加总特征图对应于所述至少一个第二特征图的步骤包括：

由至少一个加总块中的每一个将所述至少一个第一特征图中的每一个、所述至少一个第二特征图中的每一个及所述至少一个第三特征图中的每一个进行加总，以生成至少一个加总特征图，所述至少一个加总特征图对应于所述至少一个第二特征图，其中所述至少一个第三特征图中的一个是在所述至少一个内容图像中的一个与所述残差块之间被生成。

6.如权利要求1所述的风格转移系统，其特征在于：所述至少一个风格编码器分支中的一个包括一全局池化及复制级，所述全局池化及复制级输出所述至少一个第二特征图中的一个。

7.如权利要求1所述的风格转移系统，其特征在于：还包括：

由至少一个解码器接收及处理所述至少一个融合特征图，以生成至少一个风格化图像。

8.一种随机风格化系统，其特征在于：包括：

至少一个内存，被配置为存储多个程序指令；及

对一内容图像进行语义分割，以生成一分割内容图像，所述分割内容图像包括多个分割区域；

随机选择多个风格图像，其中所述多个风格图像的一数量等于所述多个分割区域的一数量；

使用所述内容图像及所述多个风格图像进行风格转移，以对应地生成多个风格化图像；及

合成所述多个风格化图像，以生成一随机风格化图像，所述随机风格化图像包括多个区域，所述多个区域对应于所述多个分割区域及所述多个风格化图像。

9.如权利要求8所述的随机风格化系统，其特征在于：所述使用所述内容图像及所述多个风格图像进行风格转移，以对应地生成所述多个风格化图像的步骤包括：

由至少一个内容编码器分支接收及处理从一第一内容图像获得的至少一个第二内容图像，以生成至少一个第一特征图，使得所述至少一个第二内容图像的具体信息被反映在所述至少一个第一特征图中；

仅由一个风格编码器分支或多个风格编码器分支接收及处理所述多个风格图像中的所有不同风格图像，以生成与所述多个不同风格图像对应的多个第二特征图，使得所述多个不同风格图像的抽象信息被反映在所述多个第二特征图中，其中所述多个风格编码器分支是相同且对应于所述多个不同风格图像；

仅由与所述多个第二特征图对应的一个融合块或多个融合块中的每一个进行融合所述至少一个第一特征图中的每一个及所述多个第二特征图中的每一个，以生成与所述多个第二特征图对应的多个融合特征图；及

仅由与所述多个融合特征图相同或对应的一个解码器或多个解码器将所述多个融合特征图进行接收及处理，以生成所述多个风格化图像中与所述多个融合特征图对应的多个不同风格化图像。

10.如权利要求9所述的随机风格化系统，其特征在于：

只有一个第二内容图像；

只有一个内容编码器分支；及

只有一个第一特征图。

11.如权利要求9所述的随机风格化系统，其特征在于：所述由至少一个融合块中的每一个进行融合所述至少一个第一特征图中的每一个及所述多个第二特征图中的每一个，以生成与所述多个第二特征图相应的多个融合特征图的步骤包括：

由至少一个加总块中的每一个将所述至少一个第一特征图中的每一个及所述多个第二特征图中的每一个进行加总，以生成与所述多个第二特征图对应的多个加总特征图。

12.如权利要求11所述的随机风格化系统，其特征在于：

所述至少一个内容编码器分支中的一个包括一残差块，所述残差块包括所述至少一个加总块中的一个；及

由至少一个加总块中的每一个将所述至少一个第一特征图中的每一个及所述多个第二特征图中的每一个进行加总，以生成与所述多个第二特征图对应的多个加总特征图的步骤包括：

由至少一个加总块中的每一个将所述至少一个第一特征图中的每一个、所述多个第二特征图中的每一个及多个第三特征图中的每一个进行加总，以生成与所述多个第二特征图对应的多个加总特征图，其中所述多个第三特征图中的一个是在所述至少一个内容图像中的一个与所述残差块之间被生成。

13.如权利要求8所述的随机风格化系统，其特征在于：所述至少一个风格编码器分支中的一个包括一全局池化及复制级，所述全局池化及复制级输出所述至少一个第二特征图中的一个。

14.如权利要求8所述的随机风格化系统，其特征在于，所述合成所述多个风格化图像，以生成所述随机风格化图像，所述随机风格化图像包括与所述多个分割区域及所述多个风格化图像对应的所述多个区域的步骤包括：

将所述多个风格化图像随机分配到所述多个分割区域；及

合成所述多个随机分配的风格化图像，使得所述随机的风格化图像的所述多个区域与所述多个随机分配的风格化图像对应。

15.一种计算机实现的方法，其特征在于：包括：

由至少一个融合块中的每一个进行融合所述至少一个第一特征图的每一个及所述至少一个第二特征图的每一个，以生成至少一个融合特征图，所述至少一个融合特征图对应于所述至少一个第二特征图。

16.如权利要求15所述的计算机实现的方法，其特征在于：

有多个不同风格图像；

有多个第二特征图对应于所述多个风格图像；

有多个融合特征图。

17.如权利要求16所述的计算机实现的方法，其特征在于：

只有一个第二内容图像；

只有一个内容编码器分支；及

只有一个第一特征图。

18.如权利要求15所述的计算机实现的方法，其特征在于：所述由至少一个融合块中的每一个进行融合所述至少一个第一特征图中的每一个及所述至少一个第二特征图中的每一个，以生成至少一个融合特征图，所述至少一个融合特征图对应于所述至少一个第二特征图的步骤包括：

19.如权利要求18所述的计算机实现的方法，其特征在于：

20.如权利要求15所述的计算机实现的方法，其特征在于：所述至少一个风格编码器分支中的一个包括一全局池化及复制级，所述全局池化及复制级输出所述至少一个第二特征图中的一个。