CN111754389A

CN111754389A - 保留语义的风格转移

Info

Publication number: CN111754389A
Application number: CN202010229859.5A
Authority: CN
Inventors: 佟维; C.卞; 彭法睿; 曾树青
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2019-03-27
Filing date: 2020-03-27
Publication date: 2020-10-09
Anticipated expiration: 2040-03-27
Also published as: US10832450B2; DE102020103761A1; US20200311986A1; CN111754389B

Abstract

本发明涉及保留语义的风格转移。一种用于使用保留语义的生成性对抗网络（SPGAN）进行图像风格转移的方法包括：接收源图像；将源图像输入到SPGAN中；从源图像提取源语义特征数据；由第一译码器使用由第一生成器网络的第一编码器提取的源语义特征数据来生成第一合成图像，该第一合成图像包括处于目标图像的目标风格中的源图像的源语义内容，其中，第一合成图像包括第一合成特征数据；使用源语义特征数据和第一合成特征数据来确定第一编码器损耗；对照目标图像鉴别第一合成图像以确定GAN损耗；根据第一编码器损耗和第一GAN损耗来确定总损耗；以及训练第一生成器网络和第一鉴别器网络。

Description

保留语义的风格转移

技术领域

本公开涉及用于保留语义的风格转移的方法和系统，并且更具体地涉及用于使用保留语义的生成性对抗网络（SPGAN）的图像风格转移的方法和系统。

背景技术

风格转移的关键挑战中的一个是识别源中的内容以及目标域中的风格。例如，在源域中的内容可能是汽车、建筑物、树木等等，而在目标域中的风格是白平衡、色彩饱和度、图像亮度等等。在风格转移期间，如果在风格转移之后良好地保留了内容，则在风格转移之前和之后提取的特征应该是相同的。因此，需要基于SPGAN的架构的多阶段生成器的内容感知编码器损耗，其在图像风格转移期间保留语义内容。

发明内容

本公开大体上涉及用于使用保留语义的生成性对抗网络（SPGAN）或任何其它合适网络（诸如生成性对抗网络（GAN））来进行保留语义的风格转移的方法和系统。当前公开的方法能够在最小化图像失真的同时为风格转移保留语义内容。当与其它现有方法相比较时，当前公开的方法（即，机器学习方法）还加速了训练过程。

这种方法在生成器阶段引入新内容感知编码器损耗以从转换之前和之后的图像两者提取内容感知特征，并且可以采用多阶段生成器来增强表示的复杂性。内容感知编码器损耗提供了对解决方案域的更多约束，这稳定并加速了总训练过程。系统提供了使用新内容感知编码器损耗的新SPGAN架构。当前公开的SPGAN架构将新编码器损耗与生成器损耗、身份损耗和循环一致性损耗集成在一起来使训练加速。系统可以采用多阶段生成器架构来增强编码器的复杂性并提高细粒度内容细节的性能。

在本公开的一方面中，用于使用SPGAN进行图像风格转移的方法包括：由处理器接收源图像，其中，源图像由摄像机捕获，源图像包括源语义内容，并且源语义内容是源图像中的对象和源图像中的对象的布置；将源图像输入到SPGAN中，其中，SPGAN包括第一生成器网络和第一鉴别器网络，该第一生成器网络包括第一编码器和第一译码器，其中，SPGAN在处理器上运行；由第一生成器网络的第一编码器从源图像的源语义内容提取源语义特征数据；由第一生成器网络的第一译码器使用由第一生成器网络的第一编码器提取的源语义特征数据来生成第一合成图像，该第一合成图像包括处于目标图像的目标风格中的源图像的源语义内容，其中，目标风格是目标图像的空间上平均的色彩和纹理，并且第一合成图像包括第一合成特征数据；由处理器使用源语义特征数据和第一合成特征数据来确定第一编码器损耗；使用第一鉴别器网络对照目标图像来鉴别由第一生成器网络生成的第一合成图像以确定GAN损耗；根据第一编码器损耗和第一GAN损耗来确定总损耗；以及由处理器使用第一编码器损耗和第一GAN损耗来训练第一生成器网络和第一鉴别器网络，直到总损耗等于或者小于预定损耗阈值以便最小化在图像风格转移期间的图像失真。在所描绘的实施例中，SPGAN是保留语义的生成性对抗网络（SPGAN）。

所述方法还可以包括由处理器接收目标图像。所述方法还可以包括将第一合成图像输入到第二生成器网络中。第二生成器网络包括第二编码器和第二译码器。第一合成图像具有第一合成语义内容，并且第一合成语义内容是在第一合成图像中的对象和在第一合成图像中的对象的布置。

所述方法还可以包括由第二生成器网络的第二编码器从第一合成图像的第一合成语义内容提取第一合成特征数据。所述方法还可以包括由第二生成器网络的第二译码器使用由第二生成器网络的第二编码器提取的第一合成特征数据来生成第二合成图像，该第二合成图像包括处于源图像的源风格中的第一合成图像的第一合成语义内容。源风格是源图像的空间上平均的色彩和纹理，其中，第二合成图像具有第二合成特征数据。

所述方法还可以包括由处理器使用第一合成特征数据和第二合成特征数据来确定第二编码器损耗。总损耗是第一编码器损耗、第二编码器损耗、第一GAN损耗等等的函数。

所述方法还可以包括使用第二合成特征数据和源图像合成数据来确定周期损耗。总损耗是第一编码器损耗、第二编码器损耗、第一GAN损耗、第二GAN损耗、周期损耗等等的函数。

所述方法还可以包括将第二合成图像输入到第二生成器网络中。被用于捕获源图像的摄像机可以是车辆的一部分。

在本公开的另一方面中，用于使用SPGAN进行图像风格转移的系统包括多个传感器和与多个传感器通信的处理器。传感器中的至少一个是摄像机。处理器被编程为执行上述方法。

本发明还提供了以下方案：

方案1. 一种用于使用保留语义的生成性对抗网络（SPGAN）进行图像风格转移的方法，包括：

由处理器接收源图像，其中，所述源图像由摄像机捕获，所述源图像包括源语义内容，并且所述源语义内容包括所述源图像中的对象和所述源图像中的所述对象的布置；

将所述源图像输入到所述SPGAN中，其中，所述SPGAN包括第一生成器网络和第一鉴别器网络，所述第一生成器网络包括第一编码器和第一译码器，其中，所述SPGAN在所述处理器上运行；

由所述第一生成器网络的所述第一编码器从所述源图像的所述源语义内容提取源语义特征数据；

由所述第一生成器网络的所述第一译码器使用由所述第一生成器网络的所述第一编码器提取的所述源语义特征数据来生成第一合成图像，所述第一合成图像包括处于目标图像的目标风格中的所述源图像的所述源语义内容，其中，所述目标风格是所述目标图像的空间上平均的色彩和纹理，并且所述第一合成图像包括第一合成特征数据；

由所述处理器使用所述源语义特征数据和所述第一合成特征数据来确定第一编码器损耗；

使用所述第一鉴别器网络对照所述目标图像来鉴别由所述第一生成器网络生成的所述第一合成图像以确定GAN损耗；

根据所述第一编码器损耗和所述第一GAN损耗来确定总损耗；以及

由所述处理器使用所述第一编码器损耗和所述第一GAN损耗来训练所述第一生成器网络和所述第一鉴别器网络，直到所述总损耗等于或者小于预定损耗阈值或到达训练迭代的最大次数以便最小化在所述图像风格转移期间的图像失真。

方案2. 根据方案1所述的方法，还包括由所述处理器接收所述目标图像。

方案3. 根据方案2所述的方法，还包括将所述第一合成图像输入到第二生成器网络中，其中，所述第二生成器网络包括第二编码器和第二译码器，并且所述第一合成图像具有第一合成语义内容，并且所述第一合成语义内容是在所述第一合成图像中的对象和在所述第一合成图像中的所述对象的布置。

方案4. 根据方案3所述的方法，还包括由所述第二生成器网络的所述第二编码器从所述第一合成图像的第一合成语义内容提取第一合成特征数据。

方案5. 根据方案4所述的方法，还包括：由所述第二生成器网络的所述第二译码器使用所述第二生成器网络的所述第二编码器提取的所述第一合成特征数据来生成第二合成图像，所述第二合成图像包括处于所述源图像的源风格中的所述第一合成图像的所述第一合成语义内容，其中，所述源风格是所述源图像的空间上平均的色彩和纹理，其中，所述第二合成图像具有第二合成特征数据。

方案6. 根据方案5所述的方法，还包括由所述处理器使用所述第一合成特征数据和所述第二合成特征数据来确定第二编码器损耗。

方案7. 根据方案6所述的方法，其中，所述总损耗是所述第一编码器损耗、所述第二编码器损耗以及所述第一GAN损耗和所述第二GAN损耗的函数。

方案8. 根据方案7所述的方法，还包括使用所述第二合成特征数据和源图像合成数据来确定周期损耗。

方案9. 根据方案8所述的方法，其中，所述总损耗是所述第一编码器损耗、所述第二编码器损耗、所述第一GAN损耗、所述第二GAN损耗和所述周期损耗的函数。

方案10. 根据方案9所述的方法，还包括将所述第二合成图像输入到所述第二生成器网络中。

方案11. 根据方案9所述的方法，其中，所述摄像机是车辆的一部分。

方案12. 一种用于使用保留语义的生成性对抗网络（SPGAN）进行图像风格转移的系统，包括：

多个传感器，其中，所述传感器中的至少一个是摄像机；

与所述多个传感器通信的处理器；

其中，所述处理器被编程为：

接收源图像，其中，所述源图像由摄像机捕获，所述源图像包括源语义内容，并且所述源语义内容是所述源图像中的对象和所述源图像中的所述对象的布置；

使用所述源语义特征数据和所述第一合成特征数据来确定第一编码器损耗；

使用所述第一编码器损耗和所述第一GAN损耗来训练所述第一生成器网络和所述第一鉴别器网络直到所述总损耗等于或者小于预定损耗阈值或到达训练迭代的最大次数以便最小化在所述图像风格转移期间的图像失真。

方案13. 根据方案12所述的系统，其中，所述处理器被编程为接收所述目标图像。

方案14. 根据方案13所述的系统，其中，所述处理器被编程为将所述第一合成图像输入到第二生成器网络中，其中，所述第二生成器网络包括第二编码器和第二译码器，并且所述第一合成图像具有第一合成语义内容，并且所述第一合成语义内容是在所述第一合成图像中的对象和在所述第一合成图像中的所述对象的布置。

方案15. 根据方案14所述的系统，其中，所述处理器被编程为由所述第二生成器网络的所述第二编码器从所述第一合成图像的第一合成语义内容提取第一合成特征数据。

方案16. 根据方案15所述的系统，其中，所述处理器被编程为由所述第二生成器网络的所述第二译码器使用由所述第二生成器网络的所述第二编码器提取的所述第一合成特征数据来生成第二合成图像，所述第二合成图像包括处于所述源图像的源风格中的所述第一合成图像的所述第一合成语义内容，其中，所述源风格是所述源图像的空间上平均的色彩和纹理，其中，所述第二合成图像具有第二合成特征数据。

方案17. 根据方案16所述的系统，其中，所述处理器被编程为使用所述第一合成特征数据和所述第二合成特征数据来确定第二编码器损耗。

方案18. 根据方案17所述的系统，其中，所述总损耗是所述第一编码器损耗、所述第二编码器损耗以及所述第一GAN损耗和所述第二GAN损耗的函数。

方案19. 根据方案18所述的系统，其中，所述处理器被编程为使用所述第二合成特征数据和所述源语义特征数据来确定周期损耗。

方案20. 根据方案19所述的系统，其中，所述总损耗是所述第一编码器损耗、所述第二编码器损耗、所述第一GAN损耗、所述第二GAN损耗和所述周期损耗的函数，所述处理器被编程为将所述第二合成图像输入到所述第二生成器网络中，并且所述摄像机是车辆的一部分。

当结合附图获得时，根据用于执行如所附权利要求中所限定的本教导的最佳模式中的一些和其它实施例的以下详细描述，本教导的上述特征和优点以及其它特征和优点容易明白。

附图说明

图1是车辆的示意性框图。

图2是图示了用于使用SPGAN进行图像风格转移的方法的SPGAN架构。

具体实施方式

以下详细描述实质上仅仅是示例性的并且不试图限制本应用和使用。此外，不试图通过前述技术领域、背景技术、发明内容或以下具体实施方式中存在的明确或暗含的理论来界定。如这里所用，术语“模块”指的是硬件、软件、固件、电子控制部件、处理逻辑和/或处理器装置（单独地或以其组合的方式），包括但不限于：专用集成电路（ASIC）、电子电路、执行一个或更多个软件或固件程序的处理器（共享、专用或成组）和存储器、组合逻辑电路和/或提供上述功能的其它合适部件。

在此可以根据功能和/或逻辑块部件和各种处理步骤来描述本公开的实施例。应当意识到，此类块部件可以由被配置为实现指定功能的多个硬件、软件和/或固件部件来实现。例如，本公开的实施例可以使用各种集成电路部件，例如存储器元件、数字信号处理元件、逻辑元件、查找表等，其可以在一个或更多个微处理器的控制下或其它控制装置的控制下执行各种功能。此外，本领域的技术人员将意识到，本公开的实施例可以结合多个系统被实践，并且这里描述的系统仅仅是本公开的示例性实施例。

为了简明起见，在此可以不详细描述与系统（和系统的单独操作部件）的信号处理、数据融合、信令、控制和其它功能方面有关的技术。此外，这里包含的各种附图中所示的连接线试图代表各种元件之间的示例功能关系和/或物理联接。应该注意，替代性或者附加的功能关系或物理连接可以存在于本公开的实施例中。

如图1中所描绘，车辆10大体上包括底盘12、主体14、前车轮和后车轮17并且可以被称为主车辆。主体14被布置在底盘12上并且基本上包围车辆10的部件。主体14和底盘12可以共同地形成车架。车轮17均在主体14的相应角附近旋转地联接到底盘12。

在各种实施例中，车辆10可以是自主车辆并且控制系统98被并入到车辆10中。控制系统98可以被简单地称为系统。车辆10例如是被自动控制以将乘客从一个位置运送到另一位置的车辆。车辆10在图示的实施例中被描绘为客车，但是应该意识到也能够使用另一车辆，包括摩托车、卡车、运动型多用途车（SUV）、休闲车（RV）、船舶、飞机等等。在示例性实施例中，车辆10是所谓的四级或五级自动化系统。四级系统表示“高度自动化”，指的是自动驾驶系统对动态驾驶任务的方面的特定驾驶模式性能，即使人类驾驶员没有对干预请求作出适当响应。五级系统表示“完全自动化”，指的是自动驾驶系统在可由人类驾驶员管理的多个道路和环境条件下对动态驾驶任务的方面的全时性能。

如所示，车辆10大体上包括推进系统20、变速器系统22、转向系统24、制动系统26、传感器系统28、致动器系统30、至少一个数据存储装置32、至少一个控制器34和通信系统36。推进系统20在各种实施例中可以包括诸如牵引马达的电机和/或燃料电池推进系统。车辆10还包括与推进系统20电连接的电池（或者电池组）21。因此，电池21被配置成存储电能并且向推进系统20提供电能。附加地，推进系统20可以包括内燃发动机。变速器系统22被配置成根据可选速度比将动力从推进系统20传输到车辆车轮17。根据各种实施例，变速器系统22可以包括有级比自动变速器、无级变速器或者其它适当的变速器。制动系统26被配置成提供制动转矩至车辆车轮17。制动系统26在各种实施例中可以包括摩擦制动器、线控制动器、诸如电机的再生制动系统和/或其它适当的制动系统。转向系统24影响车辆车轮17的位置。虽然为了示意性目的被描绘为包括方向盘，不过在本公开范围内想到的一些实施例中，转向系统24可以不包括方向盘。

传感器系统28包括一个或更多个传感器40（即感测装置），该传感器可以感测车辆10的外部环境和/或内部环境的可观察条件。传感器40可以包括但不限于雷达、激光雷达、全球定位系统、一个或更多个摄像机（例如光学摄像机和/或热像仪）、超声波传感器和/或其它传感器。致动器系统30包括一个或更多个致动器装置42，该致动器装置控制一个或更多个车辆特征，诸如但不限于推进系统20、变速器系统22、转向系统24和制动系统26。在各种实施例中，车辆特征还能够包括内部和/或外部车辆特征，诸如但不限于车门、行李箱和诸如空气、音乐、照明等等的车舱特征（未编号）。感测系统28包括一个或更多个全球定位系统（GPS）收发器40g，该收发器被配置成探测和监控路线数据（即，路线信息）。GPS收发器40g被配置成与GPS通信以定位车辆10在地球上的位置。GPS收发器40g与控制器34电子通信。因为传感器系统28向控制器34提供目标数据，所以感觉系统28及其传感器40被看作信息源（或者简单地看作源）。

数据存储装置32存储数据以便用于自动地控制车辆10。在各种实施例中，数据存储装置32存储可导航环境的被定义映射。在各种实施例中，被定义映射可以由远程系统预定义并从远程系统获得（关于图2进一步详细地描述）。例如，被定义映射可以被远程系统收集并（无线地和/或以有线方式）传达给车辆10并存储在数据存储装置32中。如能够意识到的，数据存储装置32可以是控制器34的一部分、与控制器34分开或者是控制器34的一部分和单独的系统的一部分。

控制器34包括至少一个处理器44和非暂时性计算机可读存储装置或介质46。处理器44能够是定制或可商购的处理器、中央处理单元（CPU）、图形处理单元（GPU）、与控制器34相关联的多个处理器中的辅助处理器、基于半导体的微处理器（形式为微芯片或芯片组）、宏处理器、其组合或者通常用于执行指令的装置。例如，计算机可读存储装置或介质46可以包括在只读存储器（ROM）、随机存取存储器（RAM）和保活存储器（KAM）中的易失性和非易失性存储装置。KAM是可以被用于在处理器44断电时存储各种操作变量的持久性或非易失性存储器。计算机可读存储装置或介质46可以使用多个已知存储器装置来实现，所述存储器装置诸如为PROM（可编程只读存储器）、EPROM（电PROM）、EEPROM（电可擦除PROM）、闪存或者能够存储数据的其它电、磁性、光学或组合存储器装置，其中一些代表可执行指令，其被控制器34用来控制车辆10。

指令可以包括一个或更多个单独的程序，其中每一个均包括可执行指令的有序列表以用于实现逻辑功能。当被处理器44执行时，指令接收并处理来自传感器系统28的信号、执行逻辑、计算、方法和/或算法以用于自动控制车辆10的部件，并且基于逻辑、计算、方法和/或算法生成至致动器系统30的控制信号以自动控制车辆10的部件。虽然图1中示出单个控制器34，不过车辆10的实施例可以包括多个控制器40，该控制器在合适的通信介质或者通信介质的组合上通信，并且协作以处理传感器信号、执行逻辑、计算、方法和/或算法，并且产生控制信号以自动控制车辆10的特征。

在各种实施例中，控制器34的一个或更多个指令被体现在控制系统98中。车辆10包括用户界面23，其可以是仪表盘中的触摸屏。用户界面23与控制器34电子通信并且被配置成接收用户（例如，车辆操作者）的输入。因此，控制器34被配置成经由用户界面23从用户接收输入。用户界面23包括显示器，该显示器被配置成向用户（例如，车辆操作者或者乘客）显示信息。

通信系统36被配置成无线地传达信息至其它实体48和从其它实体48无线地传达信息，其它实体48诸如为但不限于其它车辆（“V2V”通信）、基础设施（“V2I”通信）、远程系统和/或个人装置（关于图2更具体地描述）。在示例性实施例中，通信系统36是无线通信系统，其被配置成经由无线局域网（WLAN）使用IEEE 802.11标准或者通过使用蜂窝数据通信来通信。然而，附加的或者替代性的通信方法，诸如专用短程通信（DSRC）信道，也被认为在本公开的范围内。DSRC信道指的是专门被设计成用于汽车使用的单向或双向短程至中程无线通信信道和对应一组协议和标准。因此，通信系统36可以包括一个或更多个天线和/或收发器以用于接收和/或发射信号，诸如协作感测消息（CSM）。

图1是被配置成控制车辆10的控制系统98的示意性框图。控制系统98的控制器34与制动系统26、推进系统20和传感器系统28电子通信。制动系统26包括被联接到一个或更多个车轮17的一个或更多个制动致动器（例如，制动卡钳）。一旦致动，则制动致动器将制动压力施加在一个或更多个车轮17上以使车辆10减速。推进系统20包括一个或更多个推进致动器以用于控制车辆10的推进。例如，如上文讨论的，推进系统20可以包括内燃发动机，并且在那种情况下推进致动器可以是被专门配置成控制内燃发动机中的气流的节流阀。传感器系统28可以包括被联接到一个或更多个车轮17的一个或更多个加速度计（或者一个或更多个陀螺仪）。加速度计与控制器34电子通信并且被配置成测量和监控车辆10的纵向和侧向加速度。传感器系统28可以包括被配置成测量车辆10的速度（或者速率）的一个或更多个速度传感器。速度传感器被联接到控制器34并且与一个或更多个车轮17电子通信。

参考图2，用于图像风格转移的方法100，SPGAN（例如，周期生成性对抗网络（CycleGAN））。处理器44被编程为执行被存储在非暂时性计算机可读存储介质46上的方法100的指令。换言之，处理器33被编程为执行方法100。方法100在框102处开始。在框102处，处理器33接收源图像。源图像由摄像机（即，传感器40中的一个）捕获。源图像包括源图像数据。源图像包括源语义内容。术语“语义内容”意味着在源图像中的对象（例如，汽车、建筑物、树木等等）和在图像中的对象的布置。因此，术语“源语义内容”意味着在源图像中的对象（例如，汽车、建筑物、树木等等）和在源图像中的对象的布置。语义内容包括源语义特征数据。术语“源语义数据”意味着关于源图像的源语义内容的数据。在框102之后，方法100行进到框104。

在框104处，处理器44将源图像输入到SPGAN中。SPGAN在处理器44上运行。SPGAN包括第一生成器网络G_A。第一生成器网络G_A包括第一编码器G_E1和第一译码器G_D1。第一编码器G_E1编码输入图像的内容并且生成源图像的特征。第一编码器G_E1解码源图像的特征并且应用目标图像的风格来产生风格化合成图像。第一编码器G_E1具有多个第一编码器层202，并且第一译码器G_D1具有多个第一译码器层204。每个第一编码器层202与滤波器组执行卷积以产生一组特征映射。第一译码器G_D1从第一编码器G_E1接收特征映射并且产生风格化合成图像。在框104处，处理器44将源图像输入到第一生成器网络G_A的第一编码器G_E1中。此时，第一编码器G_E1编码输入图像的内容并且生成源图像的特征。

SPGAN也包括第二生成器网络G_B。第二生成器网络G_B包括第二编码器G_E2和第二译码器G_D2。第二编码器G_E2编码第一合成图像的内容并且生成第一合成图像的特征。第二编码器G_E2具有多个第二编码器层304，并且第二译码器G_D2具有多个第二译码器层302。每个第二编码器层302与滤波器组执行卷积以产生一组特征映射。第二译码器G_D2从第二编码器G_E2接收特征映射并且产生重构的源图像。第一生成器网络G_A和第二生成器网络G_B中的每一个是卷积神经网络。

SPGAN也包括第一鉴别器网络D1。进一步地，第一鉴别器网络D1比较由第一生成器网络G_A生成的第一合成图像与目标图像以确定第一合成图像是真实的还是假的。因此，SPGAN试图通过产生似乎来自于目标图像域（即，由摄像机捕获的图像）的真实数据分布的合成图像来“愚弄”第一鉴别器网络D1。在SPGAN的训练期间，第一鉴别器网络D1学习区分由第一生成器网络G_A生成的合成图像与目标域中的真实图像。在训练期间，第一生成器网络G_A学习从源图像到目标风格的映射，并且训练成产生愚弄对抗性鉴别器（即，第一鉴别器网络D1）的目标样本。SPGAN也包括第二鉴别器网络D2。进一步地，第二鉴别器网络D2比较由第二生成器网络G_B生成的第二合成图像与源图像以确定第二合成图像是真实的还是假的。因此，SPGAN试图通过产生似乎来自于源图像域（即，由摄像机捕获的图像）的真实数据分布的合成图像来“愚弄”第二鉴别器网络D2处。在SPGAN的训练期间，第二鉴别器网络D2学习区分第二合成图像与源域中的真实图像。在训练期间，第二生成器网络G_B学习从目标图像到源风格的映射，并且训练成产生愚弄对抗性鉴别器（即，第二鉴别器网络D2）的合成源样本。

在框104之后，方法100行进到框106。在框106处，第一生成器网络G_A的第一编码器G_E1从源图像的源语义内容提取源语义特征数据。然后，方法100行进到框108。在框108处，源语义特征数据被输入到第一译码器G_D1。然后，方法100行进到框110。在框110处，第一译码器G_D1生成（即输出）第一合成图像。第一合成图像包括合成图像数据。使用由第一生成器网络的第一编码器提取的源语义特征数据，第一合成图像包括处于目标风格中的源图像的源语义内容中的一些或全部。术语“风格”意味着图像的空间上平均的色彩和纹理，诸如白平衡、色彩饱和度、图像亮度等等。因此，术语“目标风格”意味着目标图像的空间上平均的色彩和纹理，诸如白平衡、色彩饱和度、图像亮度等等。目标图像包括目标图像数据。第一合成图像包括第一合成特征数据。术语“第一合成特征数据”意味着关于第一合成图像的第一合成语义内容的数据。术语“第一合成语义内容”意味着在第一合成图像中的对象（例如，汽车、建筑物、树木等等）和在第一合成图像中的对象的布置。因此，第一合成语义内容包括第一合成特征数据。然后，方法100行进到框112。

在框112处，第一合成图像被输入到第一生成器网络G_A的第一编码器G_E1。然后，方法100行进到框114。在框114处，第一编码器G_E1从第一合成图像提取第一合成特征数据。然后，方法100行进到框116。

在框116处，处理器44使用源语义特征数据和第一合成特征数据来确定（即，计算）第一编码器损耗以使训练加速。第一生成器网络G_A可以被看作是跟随有译码器的编码器，其中编码器可以视为粗略的内容表示，以从输入提取核心语义特征。为了在生成器之前和之后保持语义内容，编码器损耗函数如等式1。因此，处理器可以使用等式1计算第一编码器损耗：

其中：

x是输入图像（例如，源图像）；

是输入图像的编码输出，即输入图像的特征（源语义特征数据）；

是风格化图像（例如，第一合成图像）；

是风格化图像的特征（第一合成特征数据）；

是编码器损耗（例如，第一编码器损耗）并且其是在原始图像和风格化图像的特征之间的差异；

d是图像特征（即，

）的维度；

是源域中的图像组（源图像的图像组）；

是源域中的数据点（源图像域中的图像）；

是源域中的数据分布（例如，源图像域中的数据分布）；并且

E是期望。

然后，方法100行进到框118。在框118处，第一合成图像（且因此第一合成图像数据）被输入到第一鉴别器网络D1中。方法100也包括框120。在框120处，处理器44接收目标图像。然后，在框120处，目标图像（且因此目标图像数据）被输入到第一鉴别器网络D1中。然后，方法100行进到框122。在框122处，第一鉴别器网络D1试图从第一合成图像数据分类该目标图像数据。然后，方法100继续到框124。

在框124处，第一鉴别器网络D1确定并输出第一生成性对抗网络（GAN）损耗。处理器44可以使用等式2计算第一GAN损耗：

其中：

是第一GAN损耗；

是从源域S到目标域T的生成器；

是在目标域T中的鉴别器；

是在源域中的图像组；

是在目标域中的图像组；

是在目标域中的数据点（在目标图像组中的图像）；

是在源域中的数据点（在源图像组中的图像）；

是目标中的数据分布；

是源域中的数据分布；并且

E是期望。

方法100然后行进到框126。在框126处，处理器44将第一合成图像输入到第二生成器网络G_B的第二编码器G_E2中。此时，第二编码器G_E2编码输入图像的内容并且生成第一合成图像的特征。然后，方法100行进到框128。

在框128处，第二生成器网络G_B的第二编码器GE2从第一合成图像的第一合成语义内容提取第一合成特征数据。第一合成图像包括第一合成图像数据。第一合成图像包括第一合成语义内容。术语“语义内容”意味着在图像中的对象（例如，汽车、建筑物、树木等等）和在图像中的对象的布置。因此，术语“第一合成语义内容”意味着在第一合成图像中的对象（例如，汽车、建筑物、树木等等）和在第一合成图像中的对象的布置。第一合成内容包括第一合成特征数据。术语“第一合成特征数据”意味着关于第一合成图像的第一合成语义内容的数据。在框128之后，方法100行进到框130。

在框130处，第一合成特征数据被输入到第二译码器G_D2。然后，方法100行进到框132。在框132处，第二译码器G_D2生成（即输出）第二合成图像。第二合成图像包括第二合成图像数据。使用由第二生成器网络G_B的第二编码器G_E2提取的第一合成语义特征数据，第二合成图像包括处于源风格中的第二合成图像的第二合成语义内容中的一些或全部。因此，术语“源风格”意味着源图像的空间上平均的色彩和纹理，诸如白平衡、色彩饱和度、图像亮度等等。源图像包括源图像数据。第二合成图像包括第二合成特征数据。术语“第二合成特征数据”意味着关于第二合成图像的第二合成语义内容的数据。术语“第二合成语义内容”意味着在第二合成图像中的对象（例如，汽车、建筑物、树木等等）和在第二合成图像中的对象的布置。因此，第二合成语义内容包括第二合成特征数据。然后，方法100行进到框134。

在框134处，第二合成图像被输入到第二生成器网络G_A的第二编码器G_E2。然后，方法100行进到框136。在框136处，第二编码器G_E2从第二合成图像提取第二合成特征数据。然后，方法100行进到框138。

在框138处，处理器44使用第一合成语义特征数据和第二合成特征数据来确定（即，计算）第二编码器损耗以使训练加速。为此，处理器可以使用类似于上面的等式1的等式。

然后，方法100行进到框140。在框1处40，第二合成图像（且因此第二合成图像数据）被输入到第二鉴别器网络D2中。方法100也包括框142。在框142处，源图像（且因此源图像数据）被输入到第二鉴别器网络D2中。然后，方法100行进到框144。在框144处，第二鉴别器网络D2试图从源图像数据分类第一合成图像数据。然后，方法100继续到框146。在框146处，第二鉴别器网络D1确定并输出第二GAN损耗。处理器44可以使用类似于等式2的等式来计算第二GAN损耗。然后，方法100行进到框148。

在框148处，处理器44确定周期损耗。为了鼓励在转换过程期间保留源内容，周期一致性约束被引入以便从目标域映射且回到源域从而重现原始样本。因此，在框148处，处理器44可以使用等式3来计算周期损耗：

其中：

是周期损耗；

是

范数；

是从源域S到目标域T的生成器（例如，第一生成器网络G_A）；

是从目标域T到源域S的生成器（例如，第二生成器网络G_B）；

是在源域中的图像组；

是在目标域中的图像组；

是在目标域中的数据点（在目标图像组中的图像）；

是源域中的数据点（在源图像组中的图像）；

是目标域中的数据分布；

是源域中的数据分布；并且

E是期望。

此外，在框148处，处理器44根据第一编码器损耗、第二编码器损耗、第一GAN损耗、第二GAN损耗和周期损耗来确定（例如，计算）总损耗。例如，处理器44可以使用等式4来计算总损耗：

其中：

是总损耗；

是从源域到目标域的GAN损耗（即，第一GAN损耗）；

是从目标域到源域的GAN损耗（即，第二GAN损耗）；

是周期损耗；

是从源域到目标域的编码器损耗（即，第一编码器损耗）；

是从目标域到源域的编码器损耗（即，第二编码器损耗）；

第一GAN损耗和第二GAN损耗加上周期损耗与现有CycleGAN相同。

方法100是迭代过程。因此，通过迭代地重复方法100，处理器44使用第一编码器损耗、第二编码器损耗、第一GAN损耗和第二GAN损耗来训练第一生成器网络G_A、第一鉴别器网络D1、第二生成器网络G_B和第二鉴别器网络D2，直到总损耗等于或者小于预定损耗阈值或者到达迭代的最大次数以便最小化在图像风格转移期间的图像失真。在SPGAN的训练期间，第一鉴别器网络D1学习区分由第一生成器网络G_A生成的合成图像与真实目标图像。在训练期间，第一生成器网络G_A学习从源图像到目标风格的映射，并且训练成产生愚弄对抗性鉴别器（即，第一鉴别器网络D1）的目标样本。在训练期间，第二生成器网络G_B学习从目标图像到源风格的映射，并且训练成产生愚弄对抗性鉴别器（即，第二鉴别器网络D2）的目标样本。可以想到，第一生成器网络G_A和/或第二生成器网络G_B可以是多阶段生成器以便增加编码器表示来自输入的内容特征的能力。在完成训练之后（即，当总损耗等于或者小于预定损耗阈值时），第一生成器网络G_A可以被集成到控制系统98中以用于图像风格转移。

详细描述和图或附图是对本教导的支持性描述，但是本教导的范围仅由权利要求限定。虽然用于执行本教导的最佳模式中的一些和其它实施例已经被详细描述，不过存在各种替代性设计和实施例以用于实践所附权利要求中限定的本教导。

Claims

1.一种用于使用保留语义的生成性对抗网络（SPGAN）进行图像风格转移的方法，包括：

2.根据权利要求1所述的方法，还包括由所述处理器接收所述目标图像。

3.根据权利要求2所述的方法，还包括将所述第一合成图像输入到第二生成器网络中，其中，所述第二生成器网络包括第二编码器和第二译码器，并且所述第一合成图像具有第一合成语义内容，并且所述第一合成语义内容是在所述第一合成图像中的对象和在所述第一合成图像中的所述对象的布置。

4.根据权利要求3所述的方法，还包括由所述第二生成器网络的所述第二编码器从所述第一合成图像的第一合成语义内容提取第一合成特征数据。

5.根据权利要求4所述的方法，还包括：由所述第二生成器网络的所述第二译码器使用所述第二生成器网络的所述第二编码器提取的所述第一合成特征数据来生成第二合成图像，所述第二合成图像包括处于所述源图像的源风格中的所述第一合成图像的所述第一合成语义内容，其中，所述源风格是所述源图像的空间上平均的色彩和纹理，其中，所述第二合成图像具有第二合成特征数据。

6.根据权利要求5所述的方法，还包括由所述处理器使用所述第一合成特征数据和所述第二合成特征数据来确定第二编码器损耗。

7.根据权利要求6所述的方法，其中，所述总损耗是所述第一编码器损耗、所述第二编码器损耗以及所述第一GAN损耗和所述第二GAN损耗的函数。

8.根据权利要求7所述的方法，还包括使用所述第二合成特征数据和源图像合成数据来确定周期损耗。

9.根据权利要求8所述的方法，其中，所述总损耗是所述第一编码器损耗、所述第二编码器损耗、所述第一GAN损耗、所述第二GAN损耗和所述周期损耗的函数。

10.根据权利要求9所述的方法，还包括将所述第二合成图像输入到所述第二生成器网络中。