CN112001488A

CN112001488A - 训练生成型对抗性网络

Info

Publication number: CN112001488A
Application number: CN202010453482.1A
Authority: CN
Inventors: A.M.穆诺兹德尔加多
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2019-05-27
Filing date: 2020-05-26
Publication date: 2020-11-27
Also published as: EP3745309A1; EP3745309B1

Abstract

训练生成型对抗性网络。描述了用于训练生成型对抗性网络（GAN）的训练系统和计算机实现的训练方法。在训练中，解释信息可以被提供给生成型部分（G），该解释信息标识鉴别性部分在哪个基础上得出其分类。特别地，该解释信息可以以注意力掩模（s）的形式来提供，该注意力掩模（s）可以由鉴别性部分（D）生成并且可以标识相应输入实例的有助于由鉴别性部分对该相应输入实例进行分类的部分。此外，描述了用于使用经训练的生成型对抗性网络的生成型部分来合成数据的数据合成系统和计算机实现的方法。

Description

训练生成型对抗性网络

技术领域

本发明涉及用于训练生成型对抗性网络的训练系统和计算机实现的训练方法。本发明进一步涉及用于使用经训练的生成型对抗性网络的生成型部分来合成数据的数据合成系统和计算机实现的数据合成方法。本发明进一步涉及包括经训练的生成型对抗性网络的数据的计算机可读介质，以及包括表示指令的数据的计算机可读介质，所述指令被布置成使得处理器系统执行至少一个计算机实现的方法。

背景技术

生成型对抗性网络（GAN）已经由 Ian Goodfellow 等人在2014年引入[1]。在他们的论文中，提出了用于经由对抗性网络估计生成型模型的框架，其中两个模型被同时训练：捕获数据分布的生成型模型G和估计输入实例是从训练数据获得的（输入是“真实的”）而不是从生成型模型G获得的（输入是“虚假的”）的概率的鉴别性模型D。

最近的研究已经示出了，这样的经训练的生成型对抗性网络的生成型模型、特别是当使用诸如深度卷积神经网络之类的深度生成型模型时，能够以高分辨率和以足够的质量合成看起来自然的图像，以甚至欺骗人类观察者。

还存在经训练的GAN的许多其他真实世界的应用，并且特别是经训练的GAN的生成型模型的许多其他真实世界的应用，其范围从异常检测、用于鉴别性模型训练的合成数据生成到用于数据集和模型的所谓“可解释性”工具。例如，在自主驾驶中，可以融合各种类型的传感器数据以建立车辆周围的360度视图。在不同类型传感器的视场不同的情况下，可以训练生成型模型，并且使用所述生成型模型、基于另一个传感器的传感器数据来合成传感器视场之外的缺失传感器数据。

在自主驾驶领域中的另一个示例是，经训练的GAN可以用于生成用于自主驾驶的“边缘情况”场景（例如，表示接近碰撞的合成图像），所述“边缘情况”场景可以用于测试和验证在这样的场景中自主驾驶算法和系统的性能。

在下文中，生成型模型也被称为GAN的生成型部分或简称为“生成器”，并且鉴别性模型也被称为GAN的鉴别性部分或简称为“鉴别器”。

GAN的训练典型地牵涉以下内容。生成型部分G可以被配置成从汲取自潜在空间的有噪样本生成合成输出实例。鉴别性部分D可以被训练成在源自生成型部分G的输入实例与训练数据之间进行鉴别。生成型部分G可以被训练成从有噪样本生成合成输出实例，当鉴别性部分D被应用于所述合成输出实例时，所述合成输出实例最大化鉴别误差。鉴别性部分D和生成型部分G的这样的训练可以是迭代的，其中在每次迭代中，鉴别性部分D和生成型部分G的权重可以例如通过经由反向传播计算梯度而被更新。

GAN的益处可能是有代价的。也就是说，GAN难以训练，因为它们包括不是一个而是两个主要组件，所述两个主要组件在零和游戏中可能对抗性地运作，并且可能被训练成寻找纳什均衡。这在概念上可能已经是一项困难的任务。然而，从实际的角度来看，存在若干个困难的和经常未解决的问题要处理，其包括模式崩溃、高方差梯度、训练不稳定性、消失的生成器梯度等。虽然一些问题正在得到解决，但目前还不存在就如何以高效的方式训练GAN的共识、更不用说就如何理解它们贯穿训练过程的发展的共识。

后一点在可解释的人工智能（AI）的上下文中是至关重要的。也就是说，当在真实生活应用中部署经训练的模型时，经训练的模型的输出应当是可解释的，例如以确保对经训练的模型的信任。这样的可解释性对于诸如自主驾驶之类的安全关键的应用是特别至关重要的，并且越来越受制于当局的规章。

通过定义，可解释的模型也是可预测的。然而，在GAN训练的上下文中，训练过程本身经常是神秘的，因为生成器和鉴别器梯度不仅是当前模型状态或来自训练数据的输入的函数，而且是彼此的函数。这使得很难以解释在这些组件的学习历史中的任何明显模式。附加地，梯度曲线可能几乎不能说明生成型模型的合成输出的质量。

参考文献

[1] Ian J. Goodfellow 等人的“Generative Adversarial Networks”于NIPS 2014,pp. 2672-2680, https://arxiv.org/abs/1406.2661。

发明内容

可能合期望的是能够改进生成型对抗性网络的训练，例如以能够从训练中获得支持经训练的生成型对抗性网络的可解释性的信息。

根据本发明的第一方面，提供了分别如权利要求1和13所限定的用于训练生成型对抗性网络的训练系统和计算机实现的训练方法。根据本发明的另外的方面，提供了分别如权利要求12和14所限定的用于使用经训练的模型来控制或监视物理系统的数据合成系统和计算机实现的数据合成方法。根据本发明的另外的方面，提供了如权利要求11所限定的包括经训练的生成型对抗性网络的计算机可读介质。根据本发明的另外的方面，提供了如权利要求15所限定的计算机可读介质。

以上措施提供了建立在已知的训练技术（例如，如在[1]和本说明书的背景章节中所描述的）上的生成型对抗性网络的训练，其中，GAN的生成型部分和鉴别性部分被联合训练，使得生成型部分从鉴别性部分的梯度中学习。本质上，鉴别性部分可以将输入实例分类为真实的（源自训练数据）或虚假的（源自生成型部分的合成输出），并且生成型部分可以从该分类中学习，以便在未来更好地“欺骗”鉴别性部分，例如，以最大化鉴别性部分的鉴别性误差。

不利地，用于生成型部分的已知训练技术不使用关于鉴别性部分使用什么特定标准来得出其对相应输入实例的分类的任何见解或细节。这可能使生成型部分的训练缓慢，并且可能导致诸如在训练过程开始处鉴别性部分赶超生成型部分之类的问题。

以上措施向生成型部分提供解释信息，所述解释信息标识鉴别性部分在哪个基础上得出其分类。该解释信息以注意力掩模（attention mask）的形式提供，所述注意力掩模标识相应输入实例的有助于由鉴别性部分对所述相应输入实例进行分类的部分，并且可以被理解为指示由鉴别性部分进行分类的根本原因的掩模。注意力掩模可以由鉴别性部分根据鉴别性部分的状态来生成。

这样的注意力掩模本身是已知的，并且在输入实例是图像的情况下也被称为“显著性图”（也参见在下面的“另外的参考文献”之下引用的参考文献[2]的第2章节），但是也可以采取任何其他合适的形式。

这样的注意力掩模可以表示比典型地由鉴别性部分提供并且用于生成型部分训练的softmax分数更具体的反馈提示。也就是说，单独的softmax分数可以导致生成型部分完全适配其合成输出，以便减小鉴别性部分对合成输出是虚假的信心。虽然这样的“破坏性”改变在训练的初始阶段中可能是合期望的，但是随着生成型部分的训练进步，使用更有见解的分析来控制生成型部分来合成输出实例的方式可能是合期望的。

以上措施提供并使用了注意力掩模作为传送该细微信息的手段。因此，生成型部分可以不仅根据鉴别性部分如何对虚假输入实例作出反应、而且还根据鉴别性部分聚焦于何处（例如，聚焦于输入实例的哪个部分）而得出其分类，来生成新的合成输出实例。

以上措施可以从而建立可解释的训练过程，因为注意力掩模指示在每个训练步骤期间鉴别性部分聚焦于哪个（些）部分上，并且从而在训练步骤期间生成型部分有可能聚焦于哪个（些）部分上，以便更好地欺骗鉴别性部分。此外，例如，与仅使用softmax分数的训练相比，当使用注意力掩模时，可以改进训练的速度和鲁棒性。

具体地，如在背景章节中所述，GAN的训练可以包括外部迭代循环。GAN的鉴别性部分可以相对于已知的鉴别性部分被修改，以输出注意力掩模，所述注意力掩模标识相应输入实例的有助于由鉴别性部分对所述相应输入实例进行分类的部分。取决于输入实例的类型，这样的注意力掩模可以采取各种形式。例如，在GAN被训练成生成图像的情况下，注意力掩模可以表示突出图像的有助于分类的部分的图像叠覆。

GAN的生成型部分可以相对于已知的生成型部分被修改，以接收注意力掩模作为输入，并且不仅根据汲取自潜在空间的有噪样本（其也被称为“潜在向量”或简称为“采样噪声”，并且由“z”指示）、而且还根据注意力掩模的内容来生成合成输出实例。

此外，在迭代训练中建立内部循环，在所述内部循环中训练生成型部分的参数，例如生成型模型的模型参数。训练基于损失函数，所述损失函数可以基于已知的损失函数，通过所述已知的损失函数，训练促进生成型部分来生成“欺骗”鉴别性部分的合成输出。该损失函数可以被修改以附加地包括互信息项。互信息项可以表达在鉴别性部分的当前注意力掩模与当前合成输出实例中的改变之间的互信息，当前合成输出实例中的改变通过与先前注意力掩模相比使用当前注意力掩模而引起。更具体地，在内部迭代循环中，通过对当前合成输出进行分类，可以从鉴别性部分获得当前注意力掩模。后者可以是生成型部分的输出实例，并且可以从潜在向量z和先前计算的注意力掩模而生成。如果先前尚未计算掩模，那么例如在迭代开始处，可以使用默认掩模。在内部迭代循环中，可以作为最小化损失函数的部分来最大化互信息项。因此，当通过优化或强力搜索来最小化损失函数时，在其他事物相等的情况下，优选具有较高值的互信息项。因此，内部迭代循环可以寻求最大化在由鉴别性部分产生的注意力掩模与由生成型部分提出的改变之间的互信息。因此，内部迭代循环可以训练生成型部分，使得对于给定的迭代，由生成型部分提出的改变与由鉴别性部分产生的注意力掩模具有高的互信息。本质上，生成型部分可以确定输入实例的哪个（些）部分有助于由鉴别性部分进行的分类，并且尝试在那里“欺骗”它。

可选地，处理器子系统被配置成在迭代训练的内部迭代循环中使被用作去往生成型部分的输入的有噪样本保持恒定。潜在向量（有噪样本z）可以在内部迭代循环中保持恒定，以计及如下事实：注意力掩模是根据潜在向量而生成的，并且因此仅适用于特定的潜在向量。注意到，在生成型对抗性网络的整体训练中，内部迭代循环可以于是例如作为外部迭代循环的部分而被执行若干次，每次使用不同的采样潜在向量。

可选地，处理器子系统被配置成在内部迭代循环开始处使用初始注意力掩模作为先前注意力掩模，其中初始注意力掩模同等地标识相应输入实例的所有部分。例如，由全一（“1”）组成的注意力掩模可以用作初始注意力掩模，其中值“1”表示最大注意力。因此，注意力掩模可以指示跨整个输入实例均匀分布的鉴别性部分的注意力，该注意力掩模例如标注已经吸引了鉴别性部分相等注意力的输入实例的每个部分。因此，在内部迭代循环的初始化中，可以避免生成型部分被偏置以尝试在输入实例的任何特定部分中欺骗鉴别性部分，而是仍然同等地考虑所有部分。注意到，当使用经训练的GAN的生成型部分来合成用于真实世界应用的数据时，可以使用相同类型的初始注意力掩模、例如由全一（“1”）组成的注意力掩模作为去往生成型部分的输入。

可选地，互信息项是在当前注意力掩模（s）与合成输出实例中的改变之间的真实互信息的近似。可选地，由变分信息最大化来给互信息项定下界。例如，可以以与在[3]中针对噪声变量与观察之间的互信息所描述的相同或相似的方式来近似在当前注意力掩模与合成输出实例中的改变之间的互信息。

可选地，训练数据包括训练图像，生成型部分被配置成生成合成输出图像，并且鉴别性部分被配置成在源自生成型部分的输入图像与训练数据之间进行鉴别。注意到，GAN还可以被配置和训练成与任何其他合适的数据类型一起使用，所述数据类型包括但不限于文本、诸如图形之类的结构化数据以及音频。在音频的特定示例中，输入实例的术语“部分”可以指代例如在给定时间窗口内的频谱（频率）部分。在一些实施例中，GAN可以被配置和训练成与可以以空间格式（诸如图像数据）表示的非图像数据一起使用，所述非图像数据诸如从非图像传感器获得的测量数据。

可选地，鉴别性部分被配置成生成注意力掩模作为对合成输出图像的空间叠覆，所述合成输出图像被用作去往鉴别性部分的输入。例如，注意力掩模可以是突出图像的有助于分类的部分的图像叠覆。

可选地，训练系统进一步包括输出接口，所述输出接口被配置成输出至少部分地表征生成型对抗性网络的训练的日志信息。可选地，处理器子系统被配置成输出在所述训练的内部迭代循环中生成的一个或多个注意力掩模，作为日志信息或者作为日志信息的部分。通过输出（一个或多个）注意力掩模，可以获得日志信息，所述日志信息可以用于支持经训练的生成型对抗性网络的可解释性。这样的日志信息可以以持久的方式存储，例如，以便遵守规章限制或者以使得训练过程能够被“审计”。

可选地，处理器子系统被配置成生成日志信息作为对经训练的生成型对抗性模型进行定义的生成型模型数据的元数据。（一个或多个）注意力掩模从而可以以其中它们与经训练的生成型对抗性模型相关联的方式被存储。

本领域技术人员将领会到，可以用被认为有用的任何方式来组合本发明的以上提及的实施例、实现和/或可选方面中的两个或更多。

可以由本领域技术人员在本描述的基础上施行任何系统、任何计算机实现的方法或任何计算机可读介质的修改和变型，其对应于所述实体中的另一个的所描述的修改和变型。

另外的参考文献

[2] Julius Adebayo等人的“Sanity Checks for Saliency Maps”, https:// arxiv.org/abs/1810.03292

[3] Xi Chen等人的“InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets”, https://arxiv.org/abs/ 1606.03657。

附图说明

本发明的这些和其它方面将从实施例和附图中清楚，并且进一步参考实施例并且参考附图来被阐明，所述实施例在以下描述中作为示例被描述，在所述附图中

图1示出了用于训练生成型对抗性网络的训练系统，该训练系统包括输出接口，该输出接口被配置成输出表征生成型对抗性网络的训练的日志信息；

图2示出了图示生成型对抗性网络的生成型部分的一部分训练的流程图；

图3提供了生成型对抗性网络的生成型部分的训练的替代图示；

图4示出了用于使用经训练的生成型对抗性网络的生成型部分来合成数据的数据合成系统；

图5示出了在自主车辆中用于合成传感器视场之外的缺失传感器数据的数据合成系统；

图6示出了包括数据的计算机可读介质。

应当注意到，各图纯粹是图解性的并且不按比例绘制。在各图中，与已经描述的元素相对应的元素可以具有相同的参考标号。

参考标号列表

提供以下参考标号列表是为了促进对附图的解释，并且不应被解释为限制权利要求。

100 训练系统

120 输入-输出接口

140 数据存储装置

142 生成型模型数据

144 训练数据

146 日志信息

200 用于训练生成型部分的内部迭代循环

210 重复k次迭代

220 直到批次为空

200 数据合成系统

220 输入-输出接口

240 数据存储装置

242 生成型模型数据

244 合成数据

300 环境

310 自主车辆

320 图像传感器

330 电动机

400 计算机可读介质

410 非暂时性数据。

具体实施方式

下文涉及训练生成型对抗性网络（GAN）和使用经训练的生成型对抗性网络用于数据合成。具体地，参考图1-3描述了GAN的训练，同时参考图4和图5描述了使用经训练的GAN的数据合成。

图1示出了用于训练生成型对抗性网络的训练系统100。训练系统100被示出为包括输入接口120，该输入接口120被配置成访问定义GAN的生成型模型数据142，该GAN初始可以被认为是“未训练的”GAN，这是因为GAN的参数可能尚未被训练，或者至少尚未被训练到可以被认为足够的程度。输入接口120可以进一步被配置成访问训练数据144，该训练数据144可以包括用于训练GAN的训练实例集合，该训练实例例如是GAN将在其上被训练的图像、文本片段、音频片段或其他类型的数据。

如图1中所示，输入接口120可以是到数据存储装置140的数据存储装置接口120，数据存储装置140可以包括所述数据142、144。例如，输入接口120可以是：存储器接口或永久存储装置接口，例如SSD接口；但也可以是个域网、局域网或广域网接口，诸如蓝牙、紫蜂或Wi-Fi接口或者以太网或光纤接口。数据存储装置140可以是训练系统100的内部数据存储装置，但也可以是外部数据存储装置、例如网络连接的数据存储装置。在一些实施例中，可以例如使用输入接口120的不同子接口从不同的数据存储装置访问生成型模型数据142和训练数据144。在其他实施例中，可以从相同的数据存储装置访问生成型模型数据142和训练数据144。

注意到，输入接口120也可以是输出接口，例如输入-输出（“I/O”）接口120。训练系统100可以使用输入-输出接口120来存储数据，该数据诸如经训练的GAN（的参数）和/或日志信息146，如也在本说明书中的别处所述的那样。

如生成型模型数据142所定义的GAN可以包括鉴别性部分，该鉴别性部分可以被配置成在源自生成型部分的输入实例与训练数据之间进行鉴别，并且输出分类和注意力掩模，该注意力掩模标识相应输入实例的有助于由鉴别性部分对该相应输入实例进行分类——例如，分类为源自生成型部分（是“虚假的”）或者分类为源自训练数据（是“真实的”）——的部分。如生成型模型数据142所定义的GAN可以进一步包括生成型部分，该生成型部分可以被配置成接收注意力掩模作为输入，并且从i）汲取自潜在空间的有噪样本和ii）注意力掩模来生成合成输出实例。

在下文中，GAN的生成型部分也被称为生成型模型或者简称为生成器或G，并且GAN的鉴别性部分也被称为鉴别性模型或者简称为鉴别器或D。

训练系统100进一步被示出为包括处理器子系统160，该处理器子系统160被配置成基于训练数据144以迭代方式训练GAN，其中生成型部分可以从汲取自潜在空间的有噪样本来生成合成输出实例，并且其中鉴别性部分可以被训练成在源自生成型部分的输入实例与训练数据之间进行鉴别。特别地，生成型部分可以被训练成从有噪样本生成合成输出实例，当鉴别性部分被应用于该合成输出实例时，该合成输出实例最大化鉴别误差。鉴别性部分和生成型部分的这样的训练可以是迭代的，其中在每次迭代中，鉴别性部分和生成型部分的权重可以例如通过经由反向传播计算梯度而被更新。这样的训练本身可以是已知的，并且在下文中也可以被称为“外部迭代循环”。

处理器子系统160可以进一步被配置成在迭代训练中建立内部迭代循环，在该迭代训练中，通过迭代地最小化针对生成型部分的损失函数来训练生成型部分的参数。将参考图2和图3进一步描述该训练方面。

尽管在图1中未明确示出，但是训练系统100可以输出表示经训练的GAN的经训练的生成型模型数据。例如，定义“未训练的”GAN的生成型模型数据142可以在训练期间或之后被经训练的GAN的生成型模型数据替换，这是因为GAN的参数可以被适配为反映在训练数据144上的训练。在其他实施例中，经训练的生成型模型数据可以与定义“未训练的”GAN的生成型模型数据142分离地存储。

一般而言，训练系统100可以被具体化为单个设备或装置或者被具体化在单个设备或装置中，所述单个设备或装置诸如工作站或服务器。服务器可以是嵌入式服务器。设备或装置可以包括执行适当软件的一个或多个微处理器。例如，处理器子系统可以通过单个中央处理单元（CPU）、而且还通过这样的CPU和/或其它类型的处理单元的系统或组合来被具体化。软件可能已被下载和/或存储在对应的存储器中，所述对应的存储器例如诸如RAM的易失性存储器，或诸如闪速存储器的非易失性存储器。可替代地，系统的处理器子系统可以以可编程逻辑的形式、例如作为现场可编程门阵列（FPGA）而实现在设备或装置中。一般而言，可以以电路的形式实现训练系统100的每个功能单元。训练系统100也可以以分布式方式实现，例如牵涉到不同的设备或装置、诸如分布式的本地或远程（例如基于云）的服务器。

以下示例更详细地描述了GAN的训练。然而，训练的实际实现可以以各种其他方式、例如在类似的数学概念的基础上来被施行。以下假设输入实例（简称为“输入”）和输出实例（简称为“输出”）将是图像，但是同等地可以应用于任何其他合适的数据类型。

GAN的训练可以由以下目标定义：

其中，D是鉴别器（例如，神经网络，诸如卷积神经网络），其确定输入是真实的（即，被确定为来自数据分布

）还是虚假的（由生成器G生成），并且在该示例中，G是将潜在空间（潜在空间的z是样本）映射到图像空间的生成器。直观上，D可以被训练成能够在真实样本与虚假样本之间进行区分，并且G可以被对抗性地训练成尝试欺骗D。

出于该目的，鉴别器D可以被配置成不仅输出给定样本为真实或虚假的概率，而且还输出注意力掩模，在该示例中，注意力掩模是基于图像的注意力掩模：显著性掩模s。

注意到，

可以表示被再成形为

的数据向量的图像输入实例，但也可以在更传统的图像定义中为

。该显著性掩模s可以是D的参数的函数以及生成器G的生成的输出的函数，生成器G的生成的输出进而可以被建模为z、潜在空间向量和先前显著性掩模s’的函数：

。

生成器G因此可以将来自潜在空间的样本以及显著性掩模映射到生成的图像。这里，k指代潜在样本的维数，即z的维数。

为了生成显著性图，可以使用任何合适的显著性方法，例如，如针对深度学习鉴别性模型[2]所探索的显著性方法。例如，显著性图s可以是具有在范围[0，1]中的值的矩阵，并且可以指示（具有接近1的值）哪些像素针对D的输入图像分类相关。

训练目标可以利用以下损失函数来定义：

。

在该损失函数中，D和G是如上所述的鉴别器D和生成器G，

可以是已知的GAN损失函数（其仅将D和G的传统输出考虑在内，而不将显著性掩模s考虑在内），

是正则项，并且

是在当前显著性掩模s与如下所述的量

之间的互信息的近似：

。

在该公式中，s’可以是先前显著性掩模（如将在下文中进一步解释的），但是其初始可以是默认的显著性掩模，其例如指示每个像素对于分类都是重要的具有全1的矩阵。

直观地，这可以被解释为生成器G以这样的方式被训练使得在由D产生的显著性掩模与由G提出的改变之间的互信息被最大化。因此，生成器可能特别查看鉴别器正将注意力放于何处，并且尝试在那里欺骗它。

值

是s与

之间的真实互信息I的近似，并且可以遵循[3]如下推导：

。

该推导指示，可以对显著性图进行采样（对于该显著性图，其熵

是已知的），计算残差

，并且然后估计

，

是在具有残差x时看到显著性s的可能性。

注意到，[3]使用变分自变数来推导

的可微分估计。取决于输入和输出实例的类型，

的估计可以采取各种形式。例如，在输入和输出实例是图像并且显著性掩模s和残差

二者均是图像的情况下，可以通过本身已知的任何合适的可微分图像相似性度量来估计

。在特别高效的实现中，

可以被估计为显著性掩模s和残差

的点积。

当现在再次考虑一般的GAN训练时，该GAN训练典型地牵涉到从潜在空间对噪声z的批次进行采样，这之后鉴别器D被训练成将生成器的合成输出

与来自训练数据的真实输入实例进行区分。然后，生成器G在可以被认为是相对的目标上被训练，因为采样噪声z的新批次应当被当前鉴别器D的状态识别为真实。因此，优选的是不将随机输入样本z与当前的显著性掩模s自由配对在一起，因为当前的显著性掩模是当前生成器G的状态的函数并且因此是z的函数，如先前所陈述的，

。

因此，先前注意力掩模s’可以被认为仅对于相同的z有效。一旦使用了新的z，表示相等注意力的初始注意力掩模因此就可以在内部迭代循环的第一次迭代中用作先前显著性掩模s’，并且在随后的迭代中由s’= s来确定。

图2示出了流程图，其图示了解决上述的GAN的生成型部分的一部分训练。在本文中，通过保持z恒定来训练生成器G的参数，并且当鉴别器D对由生成器G生成的新的合成输出实例作出反应时，鉴别器D用于更新显著性掩模s。这可以通过在生成器训练中引入内部迭代循环200来实现，其中当前z保持恒定，并且产生新的显著性掩模作为对G的合成输出的响应。更具体地，在内部迭代循环200的当前迭代中，可以将D应用于合成输出

，这在图2中被标示为

，并且其中s’是先前显著性掩模（s’= s），或者在这样的先前显著性掩模不可用的情况下（例如，在内部迭代循环200的开始处），s’是初始显著性掩模，诸如由全一（s’= 多个一）组成的显著性掩模。如果鉴别器D判断合成输出

是虚假的——其在图2中被标示为“

是真实的”的否定结果，则可以生成显著性掩模s（Gen s），生成器G可以使用该显著性掩模s来生成合成输出（

），这之后可以如箭头210所示那样例如在k次迭代内来重复内部迭代循环。在完成内部迭代循环200时，可以获得新的潜在向量z，并且可以如箭头220所示那样重复内部迭代循环，例如直到潜在向量z的批次为空或者已经达到另一种类型的结束标准。

图3示出了生成型对抗性网络的生成型部分G的训练的替代视图。这里，鉴别器D被示出为应用于真实输入实例——在该情况下是图像（真实-图像），并且应用于由生成器G从有噪样本z和先前显著性掩模

生成的合成图像。如果鉴别器D判断图像不是真实的，则输出当前显著性掩模s，然后生成器G在下一次迭代中使用该当前显著性掩模s——在该迭代中再次是前一个显著性掩模（s’= s）。

注意到，图2和图3可以暗示，仅在输入实例被判断为虚假的情况下由鉴别性部分生成注意力掩模。然而，鉴别性部分也可以被配置成在输入实例被判断为真实的情况下来产生空的显著性掩模，其指示在图像中没有生成型部分应当改变的事物。此外，将领会到，在实践中，

的输出可以是实数、例如在0和1之间的浮点值，而不是二进制0或1。在这样的情况下，显著性掩模可以很少完全是空的，并且显著性图可以经由

的输出向输入的反向传播来被生成，即，

的输出的导数相对于输入的导数。

图4示出了用于使用经训练的生成型对抗性网络的生成型部分来合成数据的数据合成系统200。数据合成系统200被示出为包括输入接口220，该输入接口220被配置成访问生成型模型数据242，该生成型模型数据242至少定义由训练系统100训练的GAN的生成型部分（G），如参考图1-3和别处所描述的。图4示出了从数据存储装置240访问的生成型模型数据242。在一些实施例中，生成型模型数据242还可以包括鉴别性部分（D），而在其他实施例中，生成型模型数据242可以省略鉴别性部分，以取而代之地仅包括生成型部分。

注意到，如先前分别针对图1的训练系统100的输入接口120和数据存储装置140所描述的，相同的实现选项可以应用于输入接口220和数据存储装置240。

数据合成系统200进一步被示出为包括处理器子系统260，该处理器子系统260可以被配置成使用GAN的生成型部分来从汲取自潜在空间的有噪样本z生成一个或多个合成输出实例。在这样做时，可以使用同等地标识相应输入实例的所有部分的注意力掩模，其例如在GAN被训练成生成图像的情况下由全一组成的显著性掩模。

数据合成系统200可以进一步包括输出接口，该输出接口被配置成输出合成输出实例作为合成数据244。在图4的示例中，输入接口是输入-输出（“I/O”）接口，该输入-输出（“I/O”）接口从而也可以使输出接口具体化，并且合成数据244可以经由该输入-输出（“I/O”）接口而被存储在数据存储装置240中。然而，输出接口也可以与输入接口分离，并且可以具有不同的类型。一般而言，如先前针对图1的训练系统100的输入接口120所描述的，相同的实现选项可以应用于输出接口220。

一般而言，数据合成系统200可以被具体化为单个设备或装置或者被具体化在单个设备或装置中，所述单个设备或装置诸如工作站或服务器。服务器可以是嵌入式服务器。设备或装置可以包括执行适当软件的一个或多个微处理器。例如，处理器子系统可以通过单个中央处理单元（CPU）、而且还通过这样的CPU和/或其它类型的处理单元的系统或组合来被具体化。软件可能已经被下载和/或存储在对应的存储器中，所述对应的存储器例如诸如RAM的易失性存储器，或诸如闪速存储器的非易失性存储器。可替代地，系统的处理器子系统可以以可编程逻辑的形式、例如作为现场可编程门阵列（FPGA）而实现在设备或装置中。一般而言，可以以电路的形式实现数据合成系统200的每个功能单元。系统200也可以以分布式方式实现，例如牵涉到不同的设备或装置、诸如分布式的本地或远程（例如基于云）的服务器。

图5示出了在自主车辆310中使用的数据合成系统200，该数据合成系统200在环境300中操作，以合成在图像传感器320的视场之外的缺失传感器数据。基于传感器数据和合成数据，可以控制电动机330。一般而言，这样的数据合成系统可以是：诸如车辆、机器人等之类的物理实体（的部分）；或物理实体的连接或分布式系统，例如照明系统；或任何其他类型的物理系统，例如建筑物。

本说明书中描述的任何方法可以在计算机上实现为计算机实现的方法、专用硬件或者二者的组合。如还在图6中图示的，例如可执行代码的用于计算机的指令可以例如以一系列410机器可读物理标记的形式和/或作为一系列具有不同的电（例如磁性）或光学属性或值的元件而存储在计算机可读介质400上。可执行代码可以以暂时性或非暂时性的方式存储。计算机可读介质的示例包括存储器设备、光学存储设备、集成电路、服务器、在线软件等。图6示出了光盘400。在计算机可读介质400的替代实施例中，计算机可读介质400可以包括表示如在本说明书中别处所述的经训练的GAN的暂时性或非暂时性数据410。

示例、实施例或可选特征——无论是否被指示为非限制性的——都不要被理解为对如如要求保护的本发明进行限制。

应当注意到，以上提及的实施例说明而不是限制本发明，并且本领域技术人员将能够在不偏离所附权利要求书的范围的情况下设计许多替代的实施例。在权利要求书中，被置于括号之间的任何参考标记不应被解释为限制权利要求。使用动词“包括”及其变位不排除存在除了在权利要求中所陈述的那些元素或阶段之外的元素或阶段。在元素之前的冠词“一”或“一个”不排除存在多个这样的元素。诸如“其中至少一个”之类的表述当在元素列表或群组之前的时候表示从该列表或群组中选择全部元素或元素的任何子集。例如，表述“A、B和C中的至少一个”应当被理解为包括仅A、仅B、仅C、A和B二者、A和C二者、B和C二者或者全部A、B和C。本发明可以借助于包括若干不同元件的硬件、以及借助于合适编程的计算机来被实现。在列举了若干构件的设备权利要求中，这些构件中的若干个可以通过硬件的同一项来被具体化。仅有的事实即在相互不同的从属权利要求中记载了某些措施不指示这些措施的组合不能被有利地使用。

Claims

1.一种用于训练生成型对抗性网络的训练系统（100），所述训练系统包括：

- 输入接口（120），其被配置成访问：

- 定义包括生成型部分（G）和鉴别性部分（D）的生成型对抗性网络的生成型模型数据（142），

- 用于生成型对抗性网络的训练数据（144 ）；

其中鉴别性部分（D）被配置成在源自生成型部分（G）的输入实例与训练数据之间进行鉴别，并且输出分类和注意力掩模（s），所述注意力掩模（s）标识相应输入实例的有助于由鉴别性部分（D）对所述相应输入实例进行分类的部分，

其中生成型部分（G）被配置成接收注意力掩模（s）作为输入，并且从i）汲取自潜在空间的有噪样本（z）和ii）注意力掩模（s）生成合成输出实例；和

- 处理器子系统（160），其被配置成通过在迭代训练中建立内部迭代循环（200）来基于训练数据迭代地训练生成型对抗性网络，在所述迭代训练中，通过迭代地最小化针对生成型部分（G）的损失函数来训练生成型部分（G）的参数，其中最小化损失函数包括最大化包括在损失函数中的互信息项，所述互信息项表示在以下二项之间的互信息：

- 鉴别性部分（D）的当前注意力掩模（s），其中，通过对生成型部分（G）的先前合成输出实例进行分类来从鉴别性部分（D）获得当前注意力掩模（s），所述生成型部分（G）的先前合成输出实例是使用在内部迭代循环的先前迭代中从鉴别性部分（D）获得的先前注意力掩模（s’）来被生成的，和

- 在使用当前注意力掩模（s）而被生成的生成型部分（G）的当前合成输出实例与生成型部分（G）的先前合成输出实例之间的改变。

2.根据权利要求1所述的训练系统（100），其中处理器子系统（160）被配置成在迭代训练的内部迭代循环中使被用作去往生成型部分（G）的输入的有噪样本（z）保持恒定。

3.根据权利要求1或2所述的训练系统（100），其中，处理器子系统（160）被配置成在内部迭代循环的开始处使用初始注意力掩模（s’）作为先前注意力掩模，其中，初始注意力掩模（s’）同等地标识相应输入实例的所有部分。

4.根据权利要求1至3中任一项所述的训练系统（100），其中所述互信息项是在当前注意力掩模（s）与合成输出实例中的改变之间的真实互信息的近似。

5.根据权利要求4所述的训练系统（100），其中，由变分信息最大化给所述互信息项定下界。

6.根据权利要求1至4中任一项所述的训练系统（100），其中：

- 训练数据（144）包括训练图像；

- 生成型部分（G）被配置成生成合成输出图像；并且

- 鉴别性部分（D）被配置成在源自生成型部分（G）的输入图像与训练数据之间进行鉴别。

7.根据权利要求6所述的训练系统（100），其中，鉴别性部分（D）被配置成生成注意力掩模作为对合成输出图像的空间叠覆，所述合成输出图像被用作去往鉴别性部分（D）的输入。

8.根据权利要求1至7中任一项所述的训练系统（100），进一步包括输出接口（120），所述输出接口（120）被配置成输出至少部分地表征生成型对抗性网络的训练的日志信息（146）。

9.根据权利要求8所述的训练系统（100），其中，处理器子系统（160）被配置成输出在所述训练的内部迭代循环中生成的一个或多个注意力掩模，作为日志信息（146）或者作为日志信息（146）的部分。

10.根据权利要求8或9所述的训练系统（100），其中处理器子系统（160）被配置成生成日志信息（146）作为对经训练的生成型对抗性模型进行定义的生成型模型数据（142）的元数据。

11.一种计算机可读介质（400），包括定义生成型对抗性网络的暂时性或非暂时性数据（410），所述生成型对抗性网络包括生成型部分（G）和鉴别性部分（D），其中鉴别性部分（D）被配置成在源自生成型部分（G）的输入实例与真实输入实例之间进行鉴别，并且输出分类和注意力掩模（s），所述注意力掩模（s）标识相应输入实例的有助于由鉴别性部分（D）对所述相应输入实例进行分类的部分，并且其中生成型部分（G）被配置成接收注意力掩模（s）作为输入，并且从i）汲取自潜在空间的有噪样本（z）和ii）注意力掩模（s）生成合成输出实例。

12.一种用于使用经训练的生成型对抗性网络的生成型部分来合成数据的数据合成系统（200），所述数据合成系统包括：

- 输入接口（220），其被配置成访问生成型模型数据（242），所述生成型模型数据（242）至少定义通过根据权利要求1至10中任一项所述的训练系统而被训练的生成型对抗性网络的生成型部分（G）；

- 处理器子系统（260），其被配置成使用生成型对抗性网络的生成型部分（G）从汲取自潜在空间的有噪样本（z）生成一个或多个合成输出实例；

- 输出接口（220），其被配置成输出所述一个或多个合成输出实例作为合成数据（244）。

13.一种用于训练生成型对抗性网络的计算机实现的方法，所述方法包括：

- 访问：

- 定义包括生成型部分（G）和鉴别性部分（D）的生成型对抗性网络的生成型模型数据，

- 用于生成型对抗性网络的训练数据；

其中生成型部分（G）被配置成接收注意力掩模（s）作为输入，并且从i）汲取自潜在空间的有噪样本（z）和ii）注意力掩模（s）生成合成输出实例；以及

- 通过在迭代训练中建立内部迭代循环来基于训练数据迭代地训练生成型对抗性网络，在所述迭代训练中，通过迭代地最小化针对生成型部分（G）的损失函数来使用鉴别性部分（D）训练生成型部分（G），其中最小化损失函数包括最大化包括在损失函数中的互信息项，所述互信息项表示在以下二项之间的互信息：

14.一种用于使用经训练的生成型对抗性网络的生成型部分来合成数据的计算机实现的方法，所述方法包括：

- 访问生成型模型数据，所述生成型模型数据至少定义通过根据权利要求13所述的方法而被训练的生成型对抗性网络的生成型部分（G）；

- 使用生成型对抗性网络的生成型部分（G）从汲取自潜在空间的有噪样本（z）生成一个或多个合成输出实例；以及

- 输出所述一个或多个合成输出实例作为合成数据。

15.一种计算机可读介质（400），包括表示指令的暂时性或非暂时性数据（410），所述指令被布置成使得处理器系统执行根据权利要求13或14所述的计算机实现的方法。