CN113496247A

CN113496247A - 估计生成对抗网络的隐含似然

Info

Publication number: CN113496247A
Application number: CN202011554390.9A
Authority: CN
Inventors: 李定成; 任绍刚; 周至心; 李平
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2020-04-03
Filing date: 2020-12-24
Publication date: 2021-10-12
Also published as: US11783198B2; US20210319302A1; EP3905141A1

Abstract

本公开公开了估计生成对抗网络的隐含似然，涉及计算机学习领域。深度模型和生成模型的繁荣为高维分布建模提供了方法。生成对抗网络(GAN)可以近似数据分布并从学习的数据流形生成数据样本。本文提供估计GAN模型的隐含似然的实施例。在一个或多个实施例中，借助于生成器的方差网络学习生成器的稳定逆函数。样本分布的局部方差可以通过潜在空间中的归一化距离来近似。对数据集的模拟研究和似然测试验证了实施例，其在这些任务中优于几种基线方法。还将一个实施例应用于异常检测。实验表明，本文实施例可以实现最先进技术水平的异常检测性能。

Description

估计生成对抗网络的隐含似然

技术领域

本公开大体涉及用于计算机学习的系统和方法，其可以提供改进的计算机性能、特征和用途。更具体地，本公开涉及用于估计生成对抗网络(GAN)的隐含似然的实施例。

背景技术

许多真实世界高维数据集集中在低维未知流形周围。深度模型为估计极高维数据的密度提供了新的方法。生成模型，例如，生成对抗网络(GAN)，也可以学习高维数据集的分布并生成样本。GAN通常使用对抗损失作为其训练目标，其对所生成的样本和真实样本的分布之间的差异性进行惩罚(penalize)。给定无穷近似幂，原始GAN目标的目的是最小化真实数据分布与所生成的样本之间的Jensen-Shannon散度。

GAN中的生成器可以看作是从低维潜在空间(latent space)到数据流形的非线性参数映射

对于GAN生成的真实感图形，可以说彻底正则化的GAN模型能够很好地近似真实数据流形。利用良好的数据流形近似，人们试图将GAN利用于除图像生成之外的其他任务，例如异常检测、照片样式转换和文本生成。

由于GAN的广泛应用，重要的是测量任何给定样本的分布似然。然而，GAN是隐含模型，这意味着不能直接计算样本似然。GAN中使用的鉴别器被设计为对来自真实数据分布的样本和来自生成器的样本进行分类。因此，鉴别器不能估计不属于任一分布的样本的似然。已经证明，存在生成器的逆函数，其能将样本空间中的样本投影到潜在空间中。AdityaRamesh和Yann LeCun在“隐含谱密度的反向传播(Backpropagation for ImplicitSpectral Densities)”技术报告(2018)(可在arXiv.org/pdf/1806.00499.pdf获得)中提供了一种方法来估计生成模型的谱隐含密度。然而，该方法没有提供估计任何给定样本的似然的定性方式。

因此，需要能够学习保持测量一致性的GAN模型的生成器的逆函数的方法。

发明内容

本公开提供了一种用于训练生成对抗网络系统的计算机实现的方法、一种用于数据的似然估计的计算机实现的方法、一种用于异常检测的计算机实现的方法、一种非暂时性机器可读介质以及一种计算机程序产品。

根据本公开的一方面，提供了一种用于训练生成对抗网络系统的计算机实现的方法，包括：响应于未达到停止条件，重复用于训练生成对抗网络系统的步骤，所述生成对抗网络系统包括生成器网络、鉴别器网络、推断网络和方差网络，所述步骤包括：从输入数据集中采样小批量输入数据样本；从隐藏变量先验分布中采样第一小批量隐藏变量值；使用第一损失函数更新所述鉴别器网络；从所述隐藏变量先验分布中采样第二小批量隐藏变量值；使用第二损失函数更新所述生成器网络；从所述输入数据集中采样第二小批量输入数据样本；使用第三损失函数更新所述推断网络和所述方差网络；从所述隐藏变量先验分布中采样第三小批量隐藏变量值；和使用第四损失函数更新所述推断网络和所述生成器网络；以及响应于达到停止条件，输出训练的生成器网络、训练的推断网络和训练的方差网络。

根据本公开的另一方面，提供了一种用于数据的似然估计的计算机实现的方法，包括：使用训练的推断网络获得与一组输入数据值相对应的一组潜在变量值，所述训练的推断网络已被训练以将输入数据值映射到潜在变量值，所述潜在变量值可使用训练的生成器网络被映射回至流形中的输入数据值的区域内的值；将所述一组潜在变量值输入到所述训练的生成器网络和训练的方差网络中，所述训练的生成器网络和训练的方差网络已经被训练以将潜在变量映射到捕获输入空间中的局部区域不确定性的方差值；使用关于所述一组潜在变量值的所述训练的生成器网络和所述训练的方差网络的一个或多个雅可比矩阵来确定一组黎曼度量矩阵；以及使用所述一组黎曼度量矩阵和所述一组潜在变量值的对数似然值来确定所述一组输入数据值的对数似然值。

根据本公开的另一方面，提供了一种用于异常检测的计算机实现的方法，包括：使用训练的推断网络获得与一组输入数据值相对应的一组潜在变量值，所述训练的推断网络已被训练以将输入数据值映射到潜在变量值，所述潜在变量值可使用训练的生成器网络被映射回至流形中的输入数据值的区域内的值；将所述一组潜在变量值输入到所述训练的生成器网络和训练的方差网络中，所述训练的生成器网络和训练的方差网络已经被训练以将潜在变量映射到捕获输入空间中的局部区域不确定性的方差值；使用关于所述一组潜在变量值的所述训练的生成器网络和所述训练的方差网络的一个或多个雅可比矩阵来确定一组黎曼度量矩阵；和使用所述一组黎曼度量矩阵和所述一组潜在变量值的对数似然值来确定所述一组输入数据值的对数似然值；使用所述对数似然值中的至少一些来确定与所述一组输入数据值相对应的对应异常分数；以及响应于异常分数不超过阈值，将与异常分数对应的输入数据值指定为异常。

根据本公开的另一方面，提供了一种非暂时性机器可读介质，具有存储在其中的指令，指令在由处理器执行时使处理器执行任一如上所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在由处理器执行时使处理器执行任一如上所述的方法。

附图说明

将参考本公开的实施例，其示例可以在附图中示出。这些附图旨在是说明性的，而不是限制性的。尽管在这些实施例的上下文中总体地描述了本公开，但是应当理解，并不意图将本公开的范围限制于这些特定实施例。图中的项目可能不是按比例的。

图1以图形方式描绘了根据本公开的实施例的学习生成器网络的近似逆(推断)函数。

图2描绘了根据本发明实施例的用于训练的示例系统架构。

图3A和3B描绘了根据本公开的实施例的用于训练的方法。

图4给出了根据本公开的实施例，使用三种方法的测试集的地面真值和估计的似然值之间的比较。

图5描绘了根据本公开的实施例的用于似然估计的方法。

图6在第一曲线图600A中呈现了根据本公开的实施例在不同潜在空间维度(d)下使用InvGAN实施例的数据集1测试数据的平均负对数似然值，并且在第二曲线图600B中呈现了在不同d值下的经修改的度量下的测试集的对应位/维度(bits/dim)。

图7描绘了根据本公开的实施例的用于异常检测的方法。

图8描绘了根据本公开的实施例的对数据集1和2使用不同模型的异常检测。

图9描绘了根据本公开的实施例的四个数据集的不同迭代下的L_h,σ。

图10描绘了根据本公开的实施例的计算设备/信息处理系统的简化框图。

具体实施方式

在以下描述中，出于解释的目的，阐述了具体细节以提供对本公开的理解。然而，对于本领域技术人员显而易见的是，可以在没有这些细节的情况下实践本公开。此外，本领域的技术人员将认识到，下面描述的本公开的实施例可以以各种方式实现，诸如过程、装置、系统、设备或有形计算机可读介质上的方法。

图中所示的部件或模块是本公开的示例性实施例是说明性的，并且旨在避免模糊本公开。还应当理解，在整个讨论中，部件可以被描述为独立的功能单元，其可以包括子单元，但是本领域技术人员将认识到，各种部件或其部分可以被划分为独立的部件或者可以被集成在一起，包括集成在单个系统或部件内。应注意，本文中所论述的功能或操作可实施为部件。部件可以用软件、硬件或其组合来实现。

此外，附图中的部件或系统之间的连接不旨在限于直接连接。相反，这些部件之间的数据可由中间部件修改、重新格式化或以其它方式改变。另外，可以使用额外或更少的连接。还应当注意，术语“耦接”、“连接”或“通信耦接”应被理解为包括直接连接，通过一个或多个中间设备的间接连接以及无线连接。

在说明书中提及“一个实施例”、“优选实施例”、“实施例”或“多个实施例”意味着结合该实施例描述的特定特征、结构、特性或功能包括在本公开的至少一个实施例中并且可以在多于一个实施例中。此外，上述短语在说明书中各处的出现未必全部指相同的一个实施例或多个实施例。

在说明书中的不同地方使用某些术语是为了说明而不应解释为限制。服务、功能或资源不限于单个服务、功能或资源；这些术语的使用可以指可以被分布或聚集的相关服务、功能或资源的分组。

术语“包括”、“包括有”、“包含”和“包含有”应被理解为开放术语，并且以下的任何列表都是示例，并不意味着限于所列出的项目。“层”可以包括一个或多个操作。词语“最优的”、“使最优”、“最优化”等是指结果或过程的改进，并且不要求指定的结果或过程已经达到“最佳”或峰值状态。

本文使用的任何标题仅用于组织目的，而不应用于限制说明书或权利要求书的范围。本专利文件中提及的每个参考/文献通过引用整体并入本文。

此外，本领域技术人员应认识到：(1)可以任选地执行某些步骤；(2)步骤可以不限于本文所述的具体顺序；(3)可以按不同的顺序执行某些步骤；(4)某些步骤可以同时进行。

应当注意，本文提供的任何实验和结果是以说明的方式提供的，并且是在特定条件下使用一个或多个具体实施方式进行的；因此，这些实验及其结果均不应用于限制本专利文献的公开范围。

A.概述

本文提供了方法的实施例，该方法可以学习保持测量一致性的GAN模型的生成器的逆函数，然后将该逆函数应用于数据样本似然估计。在以下小节中，回顾了用于深度生成模型的一些流形概念，然后引入用于密度估计的神经网络模型。还提出了将生成模型应用于异常检测的简短调查。

1.作为流形的深度生成模型

最近，人们试图将流形分析应用于生成模型。例如，一些人试图通过向分类器中添加流形不变量来改进基于GAN的半监督学习。其他一些人已经尝试使用深度生成模型来执行测地聚类。还有一些将随机变量加入到变分自编码器(VAE)生成器中。利用方差网络，可以改善数据流形上的度量估计。在数学上，如果生成器g足够平滑，则确定性生成模型x＝g(z)可以被看作表面模型。

本文简要回顾了表面上的一些基本概念。深度生成模型表示从低维潜在空间

到子流形

的嵌入函数

通常情况是D＞＞d。g可假设为平滑单射映射，从而

为嵌入流形。在

的g的雅可比行列式，J_g(z)，提供了从在z∈z的正切空间到在

的正切空间的映射，即

该映射不是满射的，并且J_zg的范围被限制到在x＝g(z)的流形

的正切空间，表示为

由于GAN可以生成真实感图像，因此

接近真实数据流形，即

黎曼度量可以被表示为在潜在坐标空间

上的每个点z处定义的对称正定矩阵字段M(z)。M(z)可以由下式给出：

M(z)＝J_g(z)^TJ_g(z).

给定坐标中的两个正切矢量

它们的内积被定义为<u，v>＝u^TM(z)v。考虑平滑曲线

这对应于流形上的曲线，

γ的弧长可以由下式给出：

其中

是γ在时间t的一阶导数。例如，利用测地距离的显式公式，可以在数据流形上应用测地聚类。

2.变量的变化

当

时，变量定理的变化在几何测量理论的上下文中被称为平滑余面积公式(smooth coarea formula)。假设g是从

到

的子流形

的拓扑嵌入。可以说：

其中假定在整个本专利文献中，在潜在空间

上的先验分布是N(0，I_d)。对于

z＝g^-1(x)，并且获得：

对于真实世界数据集，通常将不知道给定数据样本x处的

的真实正切空间维数。人们通常对于所有x将

设定为大于

这导致了问题，即J_g没有满秩，并且M(z)也是如此。这意味着不可能直接以零行列式的对数应用等式(1)来估计样本密度。

3.利用神经网络的密度估计

随着深度神经网络和GAN的繁荣，已经开发了许多密度估计方法。提出了MADE模型(Mathieu Germain、Karol Gregor、Iain Murray和Hugo Larochelle，“MADE：用于分布估计的掩码自编码器(MADE:Masked Autoencoder for Distribution Estimation)，”在第三十二届国际机器学习会议学报(Proceedings of the 32nd International Conference onMachine Learning)(ICML).法国里尔，881–889(2015))以利用掩码神经网络估计似然值。RealNVP(Laurent Dinh、Jascha Sohl-Dickstein和Samy Bengio，“使用Real NVP进行密度估计(Density estimation using Real NVP)”，在第五届国际学习表征会议(5thInternational Conference on Learning Representations)(ICLR)，法国土伦，(2017))和Glow(Diederik P.Kingma和Prafulla Dhariwal，“Glow：具有可逆1×1卷积的生成流(Glow:Generative Flow with Invertible 1×1Convolutions)，”在神经信息处理系统进展(Advances in Neural Information Processing Systems)(NeurIPS).加拿大魁北克蒙特利尔，10236-10245(2018))是声明它们可以估计样本的似然性值的生成模型。RealNVP和Glow都采用具有特殊雅可比度量的可逆神经网络，该特殊雅可比度量的行列式可以容易地计算。与RealNVP和Glow类似，FFJord(Will Grathwohl、Ricky T.Q.Chen、JesseBettencourt、Ilya Sutskever和David Duvenaud，“FFJORD：用于可缩放的可逆生成模型的自由形式的连续动态(FFJORD:Free-Form Continuous Dynamics for ScalableReversible Generative Models)，”在第七届国际学习表征会议(7th InternationalConference on Learning Representations)(ICLR).洛杉矶新奥尔良(2019))是生成性模型，其可以利用自由形式的雅可比可逆神经网络产生样本似然值。FlowGAN(AdityaGrover、Manik Dhar和Stefano Ermon，“Flow-GAN：在生成模型中组合最大似然和对抗学习(Flow-GAN:Combining Maximum Likelihood and Adversarial Learning in GenerativeModels)，”在第三十二届AAAI人工智能会议学报(Proceedings of the Thirty-SecondAAAI Conference on Artificial Intelligence)(AAAI).洛杉矶新奥尔良，3069-3076.(2018))通过组合最大似然估计(MLE)和对抗损失来估计数据分布。MLE和对抗损失的组合可能会降低所生成的样本的质量。大多数模型使用流模型来避免GAN带来的奇异性问题。然而，对于潜在空间和数据空间两者使用相同的维数可能违反这样的事实，即大部分真实世界数据集遵循低维流形上的分布。如在先前小节中所讨论的，GAN可以以更合理的方法近似真实数据分布。在本专利文献中，提出了能够通过利用GAN的流形近似幂来估计数据样本的定量似然或密度值的方法的实施例。本文提出的GAN似然估计方法的实施例还可以应用于异常检测，其(如本文所示)证明了它们与现有异常检测方法相比的有效性。在下一个小节中给出了使用生成模型的异常检测的综述。

4.利用生成模型的异常检测

生成模型已被认为是学习数据表示的有效方式，并已被应用于异常检测。基于自编码器的方法首先训练能够重建正常样本的模型，然后使用重建误差来识别异常样本。一些方法假定数据集的潜在空间遵循高斯混合分布。一些采用基于GAN的框架来检测异常医学图像，而不是利用根据数据分布或能量得出统计异常标准的基于自编码器的方法。在该方法中，用随机梯度下降法推断样本的潜在变量(latent variable)。除了来自GAN模型的鉴别器的鉴别值之外，还利用来自所推断的潜在变量的重建误差来估计异常分数。与这些现有方法不同，这里的新异常检测方法实施例基于所提出的GAN似然估计。

总之，本文提供了能够通过利用GAN模型来估计样本的对数似然的框架的实施例。所提出的方法实施例可以借助于两个学习网络(生成器的方差和潜在表示的推断网络)来近似任何给定数据点的局部方差。利用方差网络，可以避免生成器的雅可比矩阵的奇异性。因此，在一个或多个实施例中，可以用黎曼度量来计算样本的似然。在几个数据集上的实验揭示，在异常检测和似然测试的任务中，实施例明显优于其他基线方法。

B.实施例

GAN试图估计高维数据集的经验分布。给定学习的生成器g和潜在变量z，可以用等式(1)估计所生成的样本g(z)的对数似然。等式(1)的计算暗示了关于z的g的雅可比矩阵的满秩。可以使用低维潜在空间，即小d，以对于几乎任何z∈Z获得满秩雅可比矩阵。然而，实验上小d可能损害GAN的性能。在本专利文献中，通过对经典GAN模型的改变和扩展来解决这些问题。本文中的一个目标是估计任何给定数据样本的似然。应当学习推断网络以直接将输入空间中的给定数据点x映射到潜在变量z，该潜在变量z可以被映射回到流形M上接近x的点。然后，样本x的对数似然值可以由于生成器和新提出的方差网络而被计算。

1.生成器实施例的方差网络

在一个或多个实施例中，方差网络σ被添加到生成器g，并且它将生成器扩展到随机一个。

这里，g是平均函数，σ是方差函数，并且

代表逐元素相乘。对于给定的∈，f是g的近似，并且

方差网络σ将生成器g扩展到整个输入空间

将示出，g的雅可比矩阵的奇异性问题可以用其方差网络σ来克服。为了确保在没有或较少数据样本的区域中方差大，σ可以用径向基函数(RBF)神经网络(Qichao Que和Mikhail Belkin，“回到未来：重提的径向基函数网络(Back to the Future：Radial Basis FunctionNetworks Revisited)”，在第19届国际人工智能与统计会议(AISTATS)(19thInternational Conference on Artificial Intelligence and Statistics).西班牙加的斯，1375-1383的学报中)来公式化。RBF网络是一个可训练的内核学习函数。

方差网络σ的建立和训练。在一个或多个实施例中，首先，从潜在空间Z中采样大量数据点，然后将这些数据点分为具有K个均值的K个聚类。c_k是聚类k的中心，并且C_k是聚类k中的数据点数。对于任何数据样本x，为了计算对应的方差值，首先使用推断网络h(将在下一小节中介绍)估计其潜在变量，即z＝h(x)。RBF网络通过以学习的内核权重聚集从z到所有聚类中心的距离来返回x的方差值。该步骤可以在预处理阶段完成，并且可以避免主算法的计算开销。

在一个或多个实施例中，RBF函数σ函数由以下给出，

其中a是内核的超参数，以及W是要从训练数据样本中学习的网络参数。距聚类中心距离较大的样本将具有较大方差。在一个或多个实施例中，给定生成器网络g，可以通过最小化f(z)与x之间的距离来学习方差网络权重W。利用随机生成器f和方差函数，黎曼度量可以写为：

下面是似然估计的引理。

引理1.在

且满秩W²的情况下，

为满秩矩阵。所生成的样本的对数似然可以由以下给出：

证明.有

其中

在此

由于rank(B)＝D，rank(V)＝K，

由于B和V是对角的且满秩的，如果W²是满秩，则rank(BW²V)＝rank(W)＝K。由于K个中心互不相同，

则

因此

为正定的。有：

d×d矩阵的行列式

可能太小或太大，可能超出计算机系统的精度。通过使用

的特征值来估计样本似然，可以避免此问题。

备注：注意

在此λ_i，0≤i≤d是

的特征值。

2.推断网络学习实施例

在一个或多个实施例中，对于给定的数据样本x，应在等式(3)和等式(4)用于计算黎曼度量并由此计算似然值之前找到对应的潜在空间表示z。如图1所示，目标是学习生成器网络g 115的近似逆，使得对于

具有

输入空间110中的点x的潜在变量可以由推断网络(编码器)h 120来近似。给定∈和在z和∈处的满秩J_f(z)，f在开放邻域f(S)中是局部可逆的，S是z的开放邻域。目标是学习h：f(S)→S使得

利用前面小节介绍的方差网络σ，只要

就可以避免

的黎曼度量的奇异性。在一个或多个实施例中，来自数据分布p_data的数据样本的以下经验对数似然被最大化以学习σ和h的参数，

在此(p(x|z))是利用扩展生成器f参数化的。根据等式(2)，给定z，p(x|z)是具有均值g(z)，和协方差矩阵Λ_σ且Λ_σ(z)＝diag(σ(z))的多元高斯分布。在一个或多个实施例中，约束被添加到等式(5)以将z的先验分布包括在目标中，并迫使后验q(z|x)(z＝h(x)，x～p_data(x))接近z的先验p(z)(p(z)是第A.2节中的

在一个或多个实施例中，经验分布q(z|x)的每个元素都是高斯分布，其中h(x)的样本平均值为均值，h(x)的样本标准偏差x～p_data(x)为标准偏差。目标公式不同于典型的VAE模型。在一个或多个实施例中，未对分布q(z|x)的方差建模以降低模型复杂度。此外，在一个或多个实施例中，给定生成器g，目标是针对生成器g而不是VAE中的解码器学习方差网络σ。容易证明，对于

且∈～N(0，I_D)，f遵循高斯过程，其中g为均值函数，Λ_σ为协方差函数，并且A_σ是σ沿对角线的对角矩阵。

引理2.假设g是一个利用GAN模型的很好地学习的生成器函数，其中

和∈～N(0，I_D)，则随机生成器

可以看作

f(z)～GP(g(z)，Λ_σ).

证明.f的项的任何集合都遵循高斯分布。根据高斯过程的定义，f(z)遵循高斯过程。

通过将f和h堆叠在一起，可以得到回归模型来重建数据样本x(x～p_data)，即

利用所推断的潜在变量和重建数据样本的集合

整个框架在某些方面可以被认为类似于高斯过程潜在变量模型(GP-LVM)。h和σ的目标变为：

3.稳定训练实施例

实验上，对于给定的g来说，要学习一对完美的h和σ相当困难。在一个或多个实施例中，这两个网络的学习与GAN的训练集成。在一个或多个实施例中，可以使用以下目标来调整生成器g和h：

可以认为类似于InfoGAN中的正则化项，InfoGAN强制执行所生成的样本和部分潜在变量之间的互信息。VEEGAN还包括与它们的正则化相类似的项，以减少模型崩溃。实验表明，利用该项，模型可以快速收敛并且训练过程更稳定。如前所述，图1示出了g和h的方案，其中生成器网络115从潜在空间105映射到输入空间110，并且推断网络120映射到潜在空间105。

4.系统实施例

图2描绘了根据本发明实施例的系统架构200。如图所示，整个系统200包括四个主网络：鉴别器网络210、生成器网络235、推断网络245和方差网络255。在一个或多个实施例中，鉴别器网络210接收来自例如可以是真实图像或其它类型的数据的输入数据集205的样本和由生成器网络235生成的生成数据225作为输入。在一个或多个实施例中，生成器网络235接收来自潜在变量(z)230的先验的数据和潜在变量

250作为输入。在一个或多个实施例中，推断网络245接收来自输入数据集205的数据和来自生成器网络235的数据作为输入，并输出潜在变量

250和用于损失计算的数据220。方差网络255从推断网络245接收潜在变量250，并提供输出以计算推断和方差网络240的损失。

在图2中，路径被标记为a、b和/或c，其指示损失的路径。标记为“a”的路径与鉴别器和生成器网络的损失有关。标记为“b”的路径与推断和方差网络的损失有关。并且，标记为“c”的路径与推断和生成器网络的损失有关。

以下小节设置用于训练这种系统的方法实施例。

5.方法实施例

在一个或多个实施例中，用于学习推断网络h和方差网络σ的方法可以与对GAN中的生成器网络g和鉴别器网络d的学习相结合。在方法1(以下)中给出了训练过程的实施例。

图3A和3B描绘了根据本公开的实施例的用于训练的方法。在一个或多个实施例中，隐藏变量先验P_z中采样(305)固定数量的隐藏变量用于K均值聚类。对于这些样本，计算K个聚类以及方差神经网络的参数(λ_k)(参见B.1节)(310)，其中每个聚类k具有中心c_k，聚类中的数据点数(C_k)。

在一个或多个实施例中，通过从输入数据(例如，P_data)中采样(315)来获得小批量m个样本{x⁽¹⁾，...，x^(m)}，以及通过从隐藏变量先验(例如，P_z)采样(320)而获得m个样本{z⁽¹⁾，...，z^(m)}。使用该训练数据，鉴别器网络被更新(325)。

在一个或多个实施例中，通过从隐藏变量先验(例如，P_z)中采样(330)来获得小批量m个样本{z⁽¹⁾，...，z^(m)}。使用该数据，对生成器网络进行更新(335)。

在一个或多个实施例中，通过从输入数据(例如，P_data)中采样(340)来获得小批量m个样本{x⁽¹⁾，...，x^(m)}。使用该数据，更新推断网络h和方差网络σ(345)。

在一个或多个实施例中，通过从隐藏变量先验采样来获得小批量m个样本{z⁽¹⁾，...，z^(m)}。使用该数据，更新推断网络和生成器网络(355)。

如果尚未达到停止条件(360)，则过程返回(370)到步骤315。在一个或多个实施例中，停止条件可以包括：(1)执行了设定次数的迭代；(2)已经达到处理时间量；(3)连续迭代之间的收敛(例如，一个或多个损失(或一个或多个梯度)的差)小于阈值；(4)散度(例如，性能开始恶化)；以及(5)已经达到可接受的一个或多个损失。

如果已经达到停止条件(360)，则可以输出训练网络(例如，生成器网络(g)、鉴别器网络(d)、推断网络(h)和方差网络(σ))。

令W^t表示方法1中迭代t处的W。引理3涉及W的更新步骤。引理3表明，在随机初始化W的情况下，几乎可以保证每一个W^t，t＝1，...，T都具有满秩，并因此具有用于随机生成器f的满秩雅可比矩阵。这意味着可以安全地计算几乎任何测试样本的似然值。方法1还避免了用真实数据样本直接拟合生成器g的参数的步骤，并且因此可以保持GAN生成清晰且真实感图像或数据样本的能力。

引理3.令W^t为方法1的更新步骤t处的矩阵W，则W^t+1将为W^t与另一个矩阵的逐元素相乘。

证明.给定样本x，潜在变量是z＝h(x)。有关x的损失，

对于x的第i项，关于W的梯度是

在此

令

获得

在此u(x)＝[u₁(x)，...，u_D(x)]^T。

在不丧失通用性的情况下，在一个或多个实施例中，可以忽略学习率。对于t，得到

对于一批训练样本

Wt将是Wt-1与聚集更新矩阵的逐元素乘积，即

这得出了引理。

令W⁰为W的初始值，最后一步W^r将为W⁰与关于所有步骤的聚集更新矩阵的逐元素相乘。因为W⁰是随机初始化的，并且由于训练样本的随机性而更新矩阵几乎具有满秩，几乎可以肯定W^T的满秩。耗时部分可以是测试阶段中的似然的计算，这是由于J_g的计算，并且g是从dim(Z)到

的映射。

C.理论分析

方法1基本上遵循相同的过程来学习GAN中的生成器g和鉴别器d。在一个或多个实施例中，g和h之间的唯一相互作用是增强潜在变量和所生成的样本之间的互信息。d和g的损失函数可适用于任何其它形式的散度，以测量分布距离，例如Wasserstein距离。不失一般性，本文提出用本专利文献提出的方法研究分布估计的理论上界。可以遵循现有的方法来分析估计上限。可以采用地球移动距离(Earth Moving Distance，EMD)的定义，或相当于Wasserstein-1距离的定义。

定义1.对于

上的

和

分布，它们之间的Wasserstein-1距离

在以下定理中，

表示具有n个样本的

的经验分布。换句话说，假设x_i，i＝1，...n是

的独立且相同分布的(i.i.d.)样本，则

是

的经验分布。对于分布

和

表示对于独立地

和

的X+Y分布。假设

是

的经验分布，则

是

的经验分布。值得注意的是

定理1.令

为某个函数类，且

为对于D＞d＞2的L-Lipschitz函数。令Z为满足

的随机变量，且

为g(Z)的分布。令

为g(Z)+∈的n样本经验分布，其中Z遵循分布使得

且

并且

令

为

的分布，则

其中常数C_d仅取决于定理2中的d。

证明.令

和

分别为g(Z)+∈，g(Z)和

的分布。通过三角不等式，

RHS上的第一项可以由以下界定

不等式是由于

和

的事实造成的。因此，获得

界定这两个项就足以获得所需的结果。

被分解，其中

和

分别是g(Z)和∈的n样本经验分布。回想一下这个假设

通过引理4和Jensen不等式，获得

由于g是L-Lipschitz函数，令

和

是Z的n样本经验分布。假设

和

因为g是L-Lipschitz函数，获得

通过定理2，有

通过引理(5)，

结合这些界定，根据要求，获得

引理4.令

和

为

上的分布，则

证明.令γ为

的下确界的最优联合分布。要注意的是，γ一般不必存在。但是，对于每个δ＞0，存在

使得：

因此，自变量可以总是被简化为存在最优伽马的情况。因此，不失一般性，可以假设γ存在。令γ′是(X，Y)的联合分布，使得

和

则

根据要求，

引理5.令

和

为

上的分布。令

和

分别为

和

的经验分布。则：

证明.使用定义

和

令

使得如果(X，Y)～γ，则

则：

可以根据需要获得

引入了Nicolas Fournier和Arnaud Guillin的定理“关于经验测度的Wasserstein距离的收敛速度(On the rate of convergence in Wasserstein distanceof the empirical measure)”的《概率论及相关领域》(Probability Theory and RelatedFields)162，3-4(2015)，707-738，其提供了经验分布与原始分布之间的界定(以Wasserstein距离为单位)。

定理2(上面引用的Fournier和Guillin文献中的定理1)令

为

上的分布，且

为其n样本经验分布。假设

则

其中某些常数C_d仅取决于d。

D.实验

应注意的是，这些实验和结果是以说明的方式提供的并且是在特定条件下使用一个或多个具体实施例进行的；因此，这些实验及其结果均不应用于限制本专利文献的公开范围。

在本节中，首先使用各种数据集来评估似然估计方法的实施例。然后，该方法的实施例应用于异常检测任务。在以下实验中，“InvGAN”用于表示本专利文件的一个或多个实施例。测试中使用的一个或多个InvGAN实施例的实现是基于飞桨(PaddlePaddle)平台的。

1.合成数据的似然估计

在本节中，使用模拟数据调查实施例。存在两个独立且相同分布的(iid)潜在变量z1，z2遵循N(0，1)分布。用

模拟样本，并且∈的每项遵循N(0，0.01)。关于X和z的雅可比行列式可以很容易地计算出来，从而用等式(4)获得每个模拟数据样本的地面真值似然值。模拟数据集包含用于训练的50,000个样本和用于测试的50,000个样本。在测试实施例中，生成器和鉴别器均有两个全连接层，有30个隐藏节点，且反转函数h除输出维度外与鉴别器结构相同。

将测试的实施例模型与两种密度估计模型FlowGAN和FlowVAE进行比较。FlowGAN是具有最大似然估计(MLE)和对抗损失的混合模型。它们为生成器使用耦接层(如LaurentDinh、Jascha Sohl-Dickstein和Samy Bengio所建议，“使用Real NVP进行密度估计(Density estimation using Real NVP)”，第五届国际学习表征会议(5th InternationalConference on Learning Representations)(ICLR)，法国土伦，(2017))。利用耦接层，生成器对于潜在空间和输入空间具有相同的维数。利用耦接层，可以容易地计算生成器的行列式，并因此计算样本的似然。FlowGAN基于MLE和对抗损失函数来训练生成器。使用与FlowGAN模型中的生成器具有相同结构的解码器构建FlowVAE模型。InvGAN实施例和FlowGAN模型具有用于鉴别器的样本结构，其包括四个线性层和三个Relu层。使用相同的批大小(batch size)和纪元数(epoch Bumber)来训练这三种模型。

如前声明的，用2个潜在变量模拟数据集，并且输入(样本)空间的维度为6。由于FlowGAN和FlowVAE对于输入空间和潜在空间都使用相同的维数，这可能导致模型估计和地面真值似然之间的恒定偏移。为了公平地比较图中的不同模型，将恒定值添加到FlowGAN和FlowVAE的似然值中。图4给出了根据本公开的实施例，使用三种方法的测试集的地面真值和估计似然值之间的比较。

如图4所示，左上曲线图400A示出了模拟测试集的InvGAN实施例对数似然；右上曲线图400B呈现了迭代过程中的目标损失值；下面两个曲线图(400C和400D)给出了使用FlowVAE和FlowGAN的模拟数据集的对数似然值。对于关于对数似然值的曲线图，Y轴为对数似然值，X轴为基于地面真值对数似然值的升序的样本索引(sample index)。可以看出，与FlowGAN和FlowVAE相比，测试的实施例可以给出似然值的更平滑估计，以及与地面真值似然曲线的拟合的改进。

2.真实数据集的似然估计

图5描绘了根据本公开的实施例的用于似然估计的方法。所描绘的方法使用(505)一组输入数据和三个训练的网络-训练的生成器网络(g)、训练的推断网络(h)和训练的方差网络(σ)。在一个或多个实施例中，使用训练的推断网络(h)来获得(510)与该组输入数据相对应的一组隐藏变量(z)。将该组隐藏变量输入(515)到训练的生成器网络(g)和训练的方差网络(σ)。然后可以使用用于关于该组隐藏变量的训练的生成器网络(g)和训练的方差网络(σ)的一个或多个雅可比矩阵来计算(520)一组黎曼度量矩阵。最后，可以使用该组黎曼度量矩阵和该组隐藏变量的对数似然值来计算(525)该组输入数据的对数似然值。

表1：针对不同模型的测试数据集上的Bits/dim；较低更好

使用三个数据集，将所测试的实施例与其它似然估计方法进行比较。在表1中列出的方法包括RealNVP、Glow、FFJord、FlowGAN、MADE和MAF(George Papamakarios、IainMurray和Theo Pavlakou，“用于密度估计的掩码自回归流(Masked Autoregressive Flowfor Density Estimation)”在神经信息处理系统进展(Advances in Neural InformationProcessing Systems)(NIPS).美国加州长滩，2338-2347(2017))这些方法中的大多数基于最大似然估计(MLE)。FlowGAN是MLE和对抗损失相结合的混合模型。RealNVP、Glow和FlowGAN依赖于可恢复的耦接层以保持输入空间到潜在空间之间的密度质量。与可逆神经网络模型不同，MADE和MAF是基于掩码的神经密度估计方法。对于这组实验，三个卷积层和一个线性层用于生成器、鉴别器和推断网络。关于网络结构的更多细节在附录A中给出。

对于InvGAN实施例，即使对于相同的数据样本，不同数目的

可能导致对数似然值的不同值(参见图6中的顶部曲线图600A)。图6在第一曲线图600A中呈现根据本公开的实施例的在不同潜在空间维度(d)600A下使用InvGAN实施例的数据集1测试数据的平均负对数似然值。每维度位度量，即-logp_x(x)/D，x∈R^D，可能不适用于所测试的实施例模型，因为所测试的实施例产生的bits/dim值最小，由于模型中使用的潜在空间维数小。为了与其他模型进行公平比较，比较中使用了每维度位度量的修改版本，其是

在此d是潜在空间维度大小。利用新的度量，可以将InvGAN实施例的bits/dim界定在合理的范围内(如图6的底部曲线图600B所示)。图6在第二曲线图600B中呈现了根据本公开的实施例的在不同d值下的修改后的度量下的测试集的对应bits/dim。新度量可以补偿由不同的潜在空间维数引起的差异。对于基于流或可逆神经网络的密度估计方法，每维度位的值的确会随着采取D＝d而变化。遵循FFJord和FlowGAN中的实验设置，并且表1比较了对测试数据集的新度量下的不同方法。使用FFJord和FlowGAN中提出的似然值。可以看出，与其他模型相比，即使使用修改后的度量，所测试的实施例模型也始终表现得更好。

3.异常检测

图7描绘了根据本公开的实施例的用于异常检测的方法。给定一组训练数据，可以使用类似于图3A-B的方法来训练(705)网络。给定一组测试数据(或评估数据，即，待评估数据)，可使用类似于图5的方法来获得(710)对数似然值。在一个或多个实施例中，使用对数似然值(715)来计算该组测试数据集的异常分数，并且响应于异常分数不超过阈值，可以将测试数据样本指定(720)为异常。

表2：用于异常检测的数据集的统计

在这个小节中，似然估计实施例用于三个异常检测任务。表2给出了关于三个数据集的更多细节。对于所有结果，异常分数被定义为与Samet Akcay、Amir AtapourAbarghouei和Toby P.Breckon“GANomaly：通过对抗训练进行半监督异常检测(GANomaly：Semi-supervised Anomaly Detection via Adversarial Training)，”在第14届亚洲计算机视觉会议(14th Asian Conference on Computer Vision)(ACCV).澳大利亚珀斯，622-637(2018)类似。利用对数似然值集，S＝{s_i：LLK(x_i)，x_i∈T}，异常分数为

在此T是测试集。在下一个小节中给出了与实施例比较的异常方法。

a)基线方法

基于深度结构化能量的模型(DSEBM)(Shuangfei Zhai、Yu Cheng、Weining Lu和Zhongfei Zhang，“用于异常检测的基于深度结构化能量的模型(Deep Structured EnergyBased Models for Anomaly Detection)，”在第三十三届国际机器学习会议学报(Proceedings of the 33nd International Conference on Machine Learning)(ICML).纽约纽约州，1100-1109(2016))是用于异常检测的基于能量的模型。类似于去噪声自编码器，主要思想是跨神经网络各层累积能量。提出了基于能量和基于重建误差的两类异常评分标准。在实验结果中，DSEBM-r表示具有重建误差的结果，而DSEBM-e是基于能量的方法的结果。

深度自动编码高斯混合模型(DAGMM)(Bo Zong，Qi Song、Martin Renqiang Min、Wei Cheng、Cristian Lumezanu、Dae-ki Cho和Haifeng Chen，“用于无监督异常检测的深度自动编码高斯混合模型(Deep AutoencodingGaussian Mixture Model forUnsupervised Anomaly Detection)，”在第六届国际学习表征会议(6th InternationalConference on Learning Representations)(ICLR).加拿大不列颠哥伦比亚省温哥华(2018))是一种基于自编码器的异常检测方法，可以获得最先进技术水平的结果。在DAGMM中，联合训练自编码器和估计器网络。自编码器用于生成潜在空间表示，以及估计器用于输出对低维潜在空间进行建模的GMM的参数。将利用所学习的GMM计算的样本潜在表示的似然值作为异常检测度量。

AnoGAN(Thomas Schlegl、Philipp

Sebastian M.Waldstein、UrsulaSchmidt-Erfurth和Georg Langs，“利用生成对抗网络来引导标记发现的无监督异常检测(Unsupervised Anomaly Detection with Generative Adversarial Networks to GuideMarker Discovery)，”在第25届医学影像信息处理国际会议学报(Proceedings of 25thInternational Conference on Information Processing in Medical Imaging)(IPMI)北卡罗莱纳轴，布恩，146-157(2017))是一种基于GAN的异常检测方法。该方法训练GAN模型以恢复每个测试数据样本的潜在表示。结合重建误差和来自鉴别器网络的鉴别分数来计算异常分数。重建误差测量GAN可以通过所推断的潜在变量和生成器来重建数据的好坏。AnoGAN的作者比较了异常分数的两个组成部分，并选择了在论文中表现最好的变体。

高效的基于GAN的异常检测(EGBAD)(Houssam Zenati、Manon Romain、Chuan-Sheng Foo、Bruno Lecouat和Vijay Chandrasekhar，“对抗学习异常检测(AdversariallyLearned Anomaly Detection)，”在IEEE数据挖掘国际会议(IEEE InternationalConference on Data Mining)(ICDM).新加坡，727-736(2018))是另一种基于GAN的异常检测方法。与AnoGAN不同，它们的模型学习生成器的逆函数以加速潜在变量的推断。与AnoGAN相似，此方法中的异常分数包括两个部分：来自重建的拟合误差和鉴别分数。

GANomaly使用条件生成对抗网络，其联合学习高维图像空间的生成和潜在空间的推断。在生成器中采用编码器-解码器-编码器子网络使得该模型能够将输入图像映射到较低维向量，该较低维向量然后被用于重建所生成的输出图像。附加编码器网络的使用将该生成的图像映射到其潜在表示。在训练期间最小化这些图像和潜在向量之间的距离有助于学习正常样本的有效表示。

对抗学习异常检测(ALAD)(Houssam Zenati、Manon Romain、Chuan-Sheng Foo、Bruno Lecouat和Vijay Chandrasekhar，“对抗学习异常检测(Adversarially LearnedAnomaly Detection)，”在IEEE数据挖掘国际会议(IEEE International Conference onData Mining)(ICDM).新加坡，727-736(2018))是最近提出的基于GAN的异常检测方法。类似于EGBAD(Shuangfei Zhai、Yu Cheng、Weining Lu和Zhongfei Zhang，“用于异常检测的基于深度结构化能量的模型(Deep Structured Energy Based Models for AnomalyDetection),”在第三十三届国际机器学习会议学报(Proceedings of the 33ndInternational Conference on Machine Learning)(ICML).纽约纽约州，1100-1109(2016))，ALAD学习一种编码功能，以推断潜在变量用于测试样本。它们的模型用三个鉴别器增强。利用样本空间和潜在空间之间的循环一致性，在异常检测的表示学习中可以稳定它们的模型的训练。

一类支持向量机(OC-SVM)(Bernhard

Robert C.Williamson、Alexander J.Smola、John Shawe-Taylor和John C.Platt，“支持向量法用于新颖性检测(Support Vector Method for Novelty Detection)，”在神经信息处理系统进展(Advances in Neural Information Processing Systems)(NIPS).科罗拉多州丹佛市，582-588(1999))是用于异常检测和密度估计的经典内核方法，其学习围绕正常示例的决策边界。实验中采用了径向基函数(RBF)内核。v参数被设置为数据集中预期的异常比例(假定是已知的)，而γ参数被设置为与输入特征的数量成反比。

隔离森林(IF)(Fei Tony Liu，Kai Ming Ting和Zhi-Hua Zhou，“隔离森林(Isolation Forest)，”在第八届IEEE数据挖掘国际会议学报(Proceedings of the 8thIEEE International Conference on Data Mining)(ICDM).意大利比萨，413-422(2008))是一种经典的机器学习技术，它隔离异常样本而不是学习正常数据的分布。该方法根据随机分裂值跨随机选择的特征构建树。将所述异常分数定义为从测试样本到根的平均路径长度。该模型的实验结果是通过scikit-学习包中的实现获得的。

a)数据集1

将数据集1的10个数字的一类作为异常类，将其余类作为正常类。在训练阶段，来自9个正常类的图像用于训练GAN和本公开的实施例。在测试状态下，使用测试集中所有10个类的图像。实验设置遵循GANomaly。通过以在脚本中给出的最优参数运行代码，获得GANomaly的结果。其它方法的结果基于上述GANomaly的结果部分。图8中的上曲线图800A示出了对10类的所有方法的结果。注意，在图800A中的每组5个条中的顺序是相同的：VAE、AnoGAN、EGBAD、GANomaly和标记为InvGAN的所测试的实施例。在所有这10个任务中，所测试的实施例方法InvGAN优于其它方法。

b)数据集2

与数据集1相似，其中一类作为异常类，其余类作为正常类。实验设置如上面引用的GANomaly文献中所示。测试涉及来自测试数据集中正常类和异常类的样本。如图8中的下部曲线图800B所示，所测试的实施例方法InvGAN在所有10个异常检测任务中导致最好的结果，尤其是对于类dog。注意，在曲线图800B中的每组4个条的顺序是相同的：AnoGAN、EGBAD、GANomaly和标记为InvGAN的所测试的实施例。在两个真实数据集上的异常检测结果表明，所测试的实施例模型能够很好地对分布样本和异常值进行方差估计。

表3：对数据集1和数据集2的异常检测

表3示出了两种图像数据集的不同异常检测方法之间的比较。AnoGAN、EGBAD、GANomaly和提出的InvGAN的实验设置相同，并遵循上文引用的GANomaly文献。为了与现有方法进行全面比较，还包括了数据集2(表3中标有*的模型)的一些异常检测结果。

注意到ALAD与此处用于数据集2的那些之间存在一些小的实验差异。在ALAD文献中，它们以一个类为正常类，其余类为异常类。异常检测本质上是一个二元分类问题。表3中的数值结果可以验证所测试的模型实施例的显著性。总之，对于两个数据集，所测试的方法实施例都优于其它基于自编码器和GAN的方法。关于网络实施的更多细节在附录A中给出。

c)数据集4

在表格数据集上进一步测试了实施例。组合最小类以形成异常类，组合其余类以形成正常类。表4示出了不同方法的异常检测结果。由于训练集很小，经典方法在精度和F1分数方面优于深度生成模型。然而，所测试的方法实施例也实现了最高的召回值和高的F1分数。借助于方差网络，所测试的实施例与其他深度神经网络方法相比是相对稳健的。关于InvGAN实施例的实现的更多细节可以在附录B中找到。图9给出了对于以下不同数据集的损失L_h,σ的收敛：900A(数据集1)、900B(数据集2)、900C(数据集3)和900D(数据集4)。

表4：对数据集4的异常检测

E.一些观察

在本专利文献中，提出了估计GAN的隐含似然的方法的实施例。在一个或多个实施例中，通过利用推断函数和生成器的方差网络，可以估计测试样本的似然。数据集上的模拟研究和似然测试验证了实施例的优点。将实施例进一步应用于三个异常检测任务。实验结果表明，所测试的实施例可以优于经典的和其他基于深度神经网络的异常检测方法。

F.附录

1.附录A-图像数据集的网络结构

用于数据集1和数据集2的生成器、鉴别器和推断网络在表5、6和7中给出。在实验中，对于数据集3，使用与数据集2相同的网络结构，并且在表中没有说明。

表5：对于数据集1和数据集2，在似然和异常检测实验中的InvGAN的生成器

表6：对于数据集1和数据集2，在似然和异常检测实验中的InvGAN实施例的鉴别器

表7：对于数据集1和数据集2，在似然和异常检测实验中的InvGAN实施例的推断网络

2.附录B-数据集4的网络结构

表8、9和10分别给出了数据集4实验中的生成器、鉴别器和推断网络的网络结构。

表8：数据集4异常检测实验中InvGAN实施例的生成器

表9：数据集4异常检测实验中InvGAN实施例的鉴别器

表10：数据集4异常检测实验中InvGAN实施例的推断网络

G.计算系统实施例

在一个或多个实施例中，本专利文献的各方面可针对，可包括或可在一个或多个信息处理系统/计算系统上实现。计算系统可以包括任何手段或手段的聚合，其可操作以计算、运算、确定、分类、处理、传输、接收、检索、发起、路由、切换、存储、显示、通信、表明、检测、记录、再现、操纵或利用任何形式的信息、情报或数据。例如，计算系统可以是或可以包括个人计算机(例如，膝上型计算机)、平板计算机、平板手机、个人数字助理(PDA)、智能电话、智能手表、智能包、服务器(例如，刀片服务器或机架服务器)、网络存储设备、相机或任何其他合适的设备，并且可以在大小、形状、性能、功能和价格上不同。该计算系统可以包括随机存取存储器(RAM)、一个或多个处理资源，例如中央处理单元(CPU)或硬件或软件控制逻辑、ROM，和/或其他类型的存储器。计算系统的附加部件可包括一个或多个磁盘驱动器，用于与外部设备以及诸如键盘、鼠标、触摸屏和/或视频显示器等各种输入和输出(I/O)设备通信的一个或多个网络端口。该计算系统还可以包括可操作来在各个硬件部件之间传输通信的一个或多个总线。

图10描绘了根据本公开的实施例的计算设备/信息处理系统(或计算系统)的简化框图。应当理解，示出的系统1000的功能可用于支持计算系统的各种实施例，但是应当理解，计算系统可被不同地配置并包括不同的部件，包括具有更少或更多的如图10所示的部件。

如图10所示，计算系统1000包括提供计算资源并控制计算机的一个或多个中央处理单元(CPU)1001。CPU 1001可以用微处理器等来实现，并且还可以包括一个或多个图形处理单元(GPU)1019和/或用于数学计算的浮点协处理器。系统1000还可以包括系统存储器1002，系统存储器1002可以是随机存取存储器(RAM)、只读存储器(ROM)或两者的形式。

还可以提供多个控制器和外围设备，如图10所示。输入控制器1003表示到诸如键盘、鼠标、触摸屏和/或指示笔的各种输入设备1004的接口。计算系统1000还可包括用于与一个或多个存储设备1008接口的存储控制器1007，每个存储设备1008包括诸如可用于记录操作系统、实用程序和应用程序的指令的程序的磁带或磁盘、光学介质的存储介质，程序可包括实现本公开的各个方面的程序的实施例。根据本公开，存储设备1008还可用于存储经处理的数据或待处理的数据。系统1000还可以包括用于提供到显示设备1011的接口的显示控制器1009，显示设备1011可以是阴极射线管(CRT)、薄膜晶体管(TFT)显示器、有机发光二极管、电致发光面板、等离子体面板或其他类型的显示器。计算系统1000还可包括用于一个或多个外围设备1006的一个或多个外围设备控制器或接口1005。外围设备的示例可以包括一个或多个打印机、扫描仪、输入设备、输出设备、传感器等。通信控制器1014可以与一个或多个通信设备1015接口，这使得系统1000能够通过多种网络中的任何一种通过任何合适的电磁载波信号连接到远程设备，这些网络包括因特网、云资源(例如，以太网云、以太网光纤通道(FCoE)/数据中心桥接(DCB)云等)、局域网(LAN)、广域网(WAN)、存储区域网(SAN)，电磁载波信号包括红外信号。

在所说明的系统中，所有主要系统部件可连接到总线1016，总线1016可表示一个以上物理总线。然而，各种系统部件可以或可以不在物理上彼此接近。例如，输入数据和/或输出数据可以从一个物理位置远程地传输到另一个。此外，实现本公开的各个方面的程序可以通过网络从远程位置(例如，服务器)访问。这样的数据和/或程序可以通过多种机器可读介质中的任一种来传送，这些机器可读介质包括但不限于：诸如硬盘、软盘和磁带的磁介质；诸如CD-ROM和全息设备的光学介质；磁光介质；以及专门配置为存储或存储并执行程序代码的硬件设备，例如专用集成电路(ASIC)、可编程逻辑设备(PLD)、闪存设备，以及ROM和RAM设备。

可在一个或多个非暂时性计算机可读介质上编码本公开的方面，所述非暂时性计算机可读介质具有用于一个或多个处理器或处理单元致使步骤被执行的指令。应当注意，该一个或多个非暂时性计算机可读介质可以包括易失性和/或非易失性存储器。应当注意，替代实现是可能的，包括硬件实现或软件/硬件实现。可以使用ASIC、可编程阵列、数字信号处理电路等来实现硬件实现的功能。因此，任何权利要求中的“工具”术语旨在涵盖软件和硬件实现。类似地，本文中使用的术语“计算机可读介质或媒介”包括其上包含有指令程序的软件和/或硬件，或其组合。考虑到这些实现替代方案，应当理解，附图和所附描述提供了本领域技术人员将需要以编写程序代码(即，软件)和/或制造电路(即，硬件)以执行所需处理的功能信息。

应当注意，本公开的实施例还可以涉及具有非暂时性的、有形的计算机可读介质的计算机产品，该计算机可读介质上具有用于执行各种计算机实现的操作的计算机代码。介质和计算机代码可以是为本公开的目的专门设计和构造的那些，或者它们可以是相关领域的技术人员已知的或可获得的类型。有形计算机可读介质的示例包括但不限于：诸如硬盘、软盘和磁带的磁介质；诸如CD-ROM和全息设备的光学介质；磁光介质；以及专门配置为存储或存储并执行程序代码的硬件设备，例如专用集成电路(ASIC)、可编程逻辑设备(PLD)、闪存设备，以及ROM和RAM设备。计算机代码的示例包括诸如由编译器生成的机器代码，以及包含由计算机使用解释器执行的更高级代码的文件。本公开的实施例可以全部或部分地实现为机器可执行指令，该机器可执行指令可以在由处理设备执行的程序模块中。程序模块的示例包括库、程序、例程、对象、部件和数据结构。在分布式计算环境中，程序模块可物理上位于本地、远程或两者的设置中。

本领域的技术人员将认识到，没有计算系统或编程语言对于本公开的实践是关键的。本领域的技术人员还将认识到，上述多个元件可以物理地和/或功能地分离成子模块或组合在一起。

本领域技术人员将理解，前述示例和实施例是示例性的并且不限制本公开的范围。意图是本领域技术人员在阅读说明书和研究附图后显而易见的对其的所有置换、增强、等同物、组合和改进都包括在本公开的真实精神和范围内。还应当注意，任何权利要求的元素可以不同地布置，包括具有多个依赖性、配置和组合。

Claims

1.一种用于训练生成对抗网络系统的计算机实现的方法，所述方法包括：

响应于未达到停止条件，重复用于训练生成对抗网络系统的步骤，所述生成对抗网络系统包括生成器网络、鉴别器网络、推断网络和方差网络，所述步骤包括：

从输入数据集中采样小批量输入数据样本；

从隐藏变量先验分布中采样第一小批量隐藏变量值；

使用第一损失函数更新所述鉴别器网络；

从所述隐藏变量先验分布中采样第二小批量隐藏变量值；

使用第二损失函数更新所述生成器网络；

从所述输入数据集中采样第二小批量输入数据样本；

使用第三损失函数更新所述推断网络和所述方差网络；

从所述隐藏变量先验分布中采样第三小批量隐藏变量值；和

使用第四损失函数更新所述推断网络和所述生成器网络；以及

响应于达到停止条件，输出训练的生成器网络、训练的推断网络和训练的方差网络。

2.根据权利要求1所述的计算机实现的方法，进一步包括以下步骤：

通过从所述隐藏变量先验分布中采样多个隐藏变量值并使用用以获得多个聚类的K均值聚类，获得多个隐藏变量值聚类。

3.根据权利要求1所述的计算机实现的方法，其中更新所述推断网络的步骤包括：

训练所述推断网络以将输入空间中的给定输入数据样本映射到隐藏变量值，所述隐藏变量值可被映射回至流形中的所述输入数据样本的区域内的值。

4.根据权利要求1所述的计算机实现的方法，其中所述第三损失函数包括：

将使用所述推断网络和输入数据样本获得的隐藏变量值的估计用作输入的输入数据样本的生成器网络估计之间的差。

5.根据权利要求4所述的计算机实现的方法，其中所述第三损失函数进一步包括：

对于输入数据样本，使用对使用所述推断网络和输入数据样本获得的隐藏变量值的估计进行操作的方差网络来确定方差值。

6.根据权利要求1所述的计算机实现的方法，其中所述第四损失函数包括：

采样的隐藏变量值与从使用采样的隐藏变量的输入数据样本的估计作为输入的所述推断网络获得的采样的隐藏变量值的估计之间的差，其中输入数据样本的估计是从所述生成器网络和采样的隐藏变量值获得的。

7.一种用于数据的似然估计的计算机实现的方法，所述方法包括：

使用训练的推断网络获得与一组输入数据值相对应的一组潜在变量值，所述训练的推断网络已被训练以将输入数据值映射到潜在变量值，所述潜在变量值可使用训练的生成器网络被映射回至流形中的输入数据值的区域内的值；

将所述一组潜在变量值输入到所述训练的生成器网络和训练的方差网络中，所述训练的生成器网络和训练的方差网络已经被训练以将潜在变量映射到捕获输入空间中的局部区域不确定性的方差值；

使用关于所述一组潜在变量值的所述训练的生成器网络和所述训练的方差网络的一个或多个雅可比矩阵来确定一组黎曼度量矩阵；以及

使用所述一组黎曼度量矩阵和所述一组潜在变量值的对数似然值来确定所述一组输入数据值的对数似然值。

8.根据权利要求7所述的计算机实现的方法，其中通过训练生成对抗网络GAN系统来获得所述训练的生成器网络、所述训练的推断网络和所述训练的方差网络，所述GAN系统包括生成器网络、推断网络和方差网络。

9.根据权利要求7所述的计算机实现的方法，其中训练包括所述生成器网络、所述推断网络和所述方差网络的GAN系统的步骤包括以下步骤：

响应于未达到停止条件，重复用于训练所述GAN系统的步骤，所述GAN系统包括所述生成器网络、鉴别器网络、所述推断网络和所述方差网络，所述步骤包括：

从输入数据集中采样小批量输入数据样本；

从潜在变量先验分布中采样第一小批量潜在变量值；

使用第一损失函数更新所述鉴别器网络；

从所述潜在变量先验分布中采样第二小批量潜在变量值；

使用第二损失函数更新所述生成器网络；

从所述输入数据集中采样第二小批量输入数据样本；

使用第三损失函数更新所述推断网络和所述方差网络；

从所述潜在变量先验分布中采样第三小批量潜在变量值；和

使用第四损失函数更新所述推断网络和所述生成器网络；以及响应于达到停止条件，输出训练的生成器网络、训练的推断网络和训练的方差网络。

10.根据权利要求9所述的计算机实现的方法，进一步包括：

通过从所述潜在变量先验分布中采样多个潜在变量值并使用用以获得多个聚类的K均值聚类，获得多个潜在变量值聚类。

11.根据权利要求9所述的计算机实现的方法，其中所述第三损失函数包括：

将使用所述推断网络和输入数据样本获得的潜在变量值的估计作为输入的输入数据样本的生成器网络估计之间的差。

12.根据权利要求11所述的计算机实现的方法，其中所述第三损失函数进一步包括：

对于输入数据样本，使用对使用所述推断网络和输入数据样本获得的潜在变量值的估计进行操作的方差网络来确定方差值。

13.根据权利要求9所述的计算机实现的方法，其中所述第四损失函数包括：

采样的潜在变量值与从使用采样的潜在变量的输入数据样本的估计作为输入的所述推断网络获得的采样的潜在变量值的估计之间的差，其中输入数据样本的估计是从所述生成器网络和采样的潜在变量值获得的。

14.一种用于异常检测的计算机实现的方法，所述方法包括：

使用关于所述一组潜在变量值的所述训练的生成器网络和所述训练的方差网络的一个或多个雅可比矩阵来确定一组黎曼度量矩阵；和

使用所述一组黎曼度量矩阵和所述一组潜在变量值的对数似然值来确定所述一组输入数据值的对数似然值；

使用所述对数似然值中的至少一些来确定与所述一组输入数据值相对应的对应异常分数；以及

响应于异常分数不超过阈值，将与异常分数对应的输入数据值指定为异常。

15.根据权利要求14所述的计算机实现的方法，其中通过训练生成对抗网络GAN系统来获得所述训练的生成器网络、所述训练的推断网络和所述训练的方差网络，所述GAN系统包括生成器网络、推断网络和方差网络。

16.根据权利要求14所述的计算机实现的方法，其中训练包括所述生成器网络、所述推断网络和所述方差网络的GAN系统的步骤包括以下步骤：

从输入数据集中采样小批量输入数据样本；

从潜在变量先验分布中采样第一小批量潜在变量值；

使用第一损失函数更新所述鉴别器网络；

从所述潜在变量先验分布中采样第二小批量潜在变量值；

使用第二损失函数更新所述生成器网络；

从所述输入数据集中采样第二小批量输入数据样本；

使用第三损失函数更新所述推断网络和所述方差网络；

从所述潜在变量先验分布中采样第三小批量潜在变量值；以及

17.根据权利要求16所述的计算机实现的方法，进一步包括：

18.根据权利要求16所述的计算机实现的方法，其中所述第三损失函数包括：

19.根据权利要求18所述的计算机实现的方法，其中所述第三损失函数进一步包括：

20.根据权利要求16所述的计算机实现的方法，其中所述第四损失函数包括：

21.一种非暂时性机器可读介质，具有存储在其中的指令，指令在由处理器执行时使处理器执行如权利要求1-6、7-13或14-20中任一项所述的方法。

22.一种计算机程序产品，包括计算机程序，所述计算机程序在由处理器执行时使处理器执行如权利要求1-6、7-13或14-20中任一项所述的方法。