CN115039108A - 学习数据密度函数 - Google Patents

学习数据密度函数 Download PDF

Info

Publication number
CN115039108A
CN115039108A CN201980101437.5A CN201980101437A CN115039108A CN 115039108 A CN115039108 A CN 115039108A CN 201980101437 A CN201980101437 A CN 201980101437A CN 115039108 A CN115039108 A CN 115039108A
Authority
CN
China
Prior art keywords
density distribution
input data
candidate mapping
mapping
adjusting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980101437.5A
Other languages
English (en)
Inventor
埃马努埃莱·萨姆森
哈菲兹·蒂奥莫科·阿里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN115039108A publication Critical patent/CN115039108A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

一种用于形成从输入数据域到所述输入域的压缩表示的映射的数据处理系统,所述系统用于接收表示所述输入域和候选映射的输入数据集合,并且迭代地执行以下步骤:形成由所述候选映射映射的表示所述输入数据集合的向量集合;将所述向量集合的密度分布与预定密度分布进行比较;以及根据所述比较调整所述候选映射。因此,可以学习密度底层数据,例如为了生成样本和压缩数据。该技术可应用于例如图像生成任务,与现有自编码器相比改善了图像质量。

Description

学习数据密度函数
技术领域
本发明涉及学习数据密度函数,例如用于样本生成和数据压缩。
背景技术
在许多涉及无监督密度估计的应用中,诸如图像生成,处理和编辑,图像样式转换,在基于模型的强化学习中学习世界模型,以及涉及数据压缩和生成的其它应用中,深度生成自编码器已经显示出有前景的结果。
这些模型包括编码器-解码器架构,其中编码器旨在学习数据的压缩表示,而解码器确保可以从这种表示中以高保真度重构数据。深度生成自编码器具有两个主要功能,即样本生成和数据压缩。前者可用于计算机视觉(例如,用于自然图像的真实生成)和机器学习(例如,用于在模拟环境中训练强化学习代理)的许多应用中,而后者可用于数据传输和数据存储。
尽管这些模型在许多应用领域中取得了成功,但是这些模型缺乏理论上的保证和理解,直接影响到它们的实际性能。当前的技术也不能解决局部最小值的问题,因此获得次优的性能。例如,在图像生成任务中,自编码器模型通常产生模糊图像。
I.Tolstikhin,O.Bousquet,S.Gelly以及B.Schoelkopf,“Wasserstein自编码器(Wasserstein Auto-Encoders)”,国际学习表征会议(International Conference onLearning Representations,简称ICLR),2018,描述了一种具有MMD正则化器的自编码器。在FID和产生的图像的模糊方面观察到优于传统VAE的改进。
B.Dai和D.Wipf的“诊断和增强VAE模型(Diagnosing and Enhancing VAEModels)”,ICLR,2019描述了一种使用级联的两个VAE来增强变分自编码器的性能的两阶段算法。第一阶段包括以传统方式训练VAE。第二阶段包括在学习的潜在表示上训练第二VAE,以进一步减小潜在密度和先前密度之间的距离。第二VAE用于克服第一阶段的训练限制,从而在能力/训练和推理时间方面引入了模型中的更多复杂性。因此,通过作用于神经网络的结构来减轻局部最小值的问题。
US 2018/0314917 A1描述了一种用于改善自编码器的泛化性能的数据增强技术,其应用了预定义的变换来增强数据(例如,旋转)。该目标定义为对于这种变换是鲁棒的(例如,恢复真实图像)。通过(i)用预定义的变换集增强数据集,以及(ii)在目标函数中包括进一步的重构项,来实现改进。
US 2019/0026631A1描述了对潜在表示施加约束(即,矩阵分解),目的是确保所学习的表示是低维的且更可解释的。通过在目标中引入新项以及通过增加模型容量来实现改进。
为了样本生成和数据压缩,需要开发一种准确地学习密度底层数据的方法,该方法可以应用于图像生成任务,与现有的自编码器模型相比,改进了图像质量。
发明内容
根据第一方面,提供了一种用于形成从输入数据域到所述输入域的压缩表示的映射的数据处理系统,所述系统用于接收表示所述输入域和候选映射的输入数据集合,并且迭代地执行以下步骤:形成由所述候选映射映射的表示所述输入数据集合的向量集合;将所述向量集合的密度分布与预定密度分布进行比较;以及根据所述比较调整所述候选映射。
所述候选映射可以是人工智能模型,调整所述候选映射的所述步骤包括调整所述模型的参数。这可以允许所述系统学习最佳的密度分布。通过迭代地更新所述模型的所述参数,可以进一步提高所学习的密度分布的质量。
调整所述候选映射的所述步骤可以根据所述输入数据集合的重构误差的梯度的条件以及所述向量集合的密度分布与所述模型的目标函数中的预定密度分布之间的距离来执行。调整所述候选映射的所述步骤可以根据所述输入数据集合的所述重构误差的所述梯度的点积结果以及所述向量集合的所述密度分布与所述模型的目标函数中的预定密度分布之间的所述距离来执行。这可以避免函数空间中的局部最小值。
所述系统可以用于根据距离度量来确定所述向量集合的所述密度分布与所述预定密度分布之间的差。所述距离度量可以是库仑核。这可以降低所述函数空间中的局部最小值的影响。这可能对实际性能有直接影响。例如,这可能提高图像生成任务的图像质量。
所述人工智能模型可以是神经网络。这可能是方便的实现。
所述输入数据集可以包括图像。这可以允许在图像生成任务中使用所述系统。
所述系统还可以用于将表示输入数据集合的向量集合重构为输出数据集合。
所述系统还可以用于根据所述预定密度分布选择向量并将所述映射的逆映射应用到所述向量,来生成所述输入数据域中的数据。这可以允许在样本生成任务中使用所述系统。
根据第二方面,提供了一种根据表示输入域和候选映射的输入数据集合形成从输入数据域到所述输入域的压缩表示的映射的方法,其特征在于,所述方法包括迭代地执行以下步骤:形成由所述候选映射映射的表示所述输入数据集合的向量集合;将所述向量集合的密度分布与预定密度分布进行比较;以及根据所述比较调整所述候选映射。
所述候选映射可以是人工智能模型,调整所述候选映射的所述步骤包括调整所述模型的参数。因此,所述方法可以学习最佳密度分布。通过迭代地更新所述模型的所述参数,可以进一步提高所学习的密度分布的质量。
调整所述候选映射的所述步骤可以根据所述输入数据集合的重构误差的梯度的条件以及所述向量集合的密度分布与所述模型的目标函数中的预定密度分布之间的距离来执行。调整所述候选映射的所述步骤可以根据所述输入数据集合的所述重构误差的所述梯度的点积结果以及所述向量集合的所述密度分布与所述模型的目标函数中的预定密度分布之间的所述距离来执行。这可以避免函数空间中的局部最小值。
将所述向量集合的密度分布与预定密度分布进行比较的所述步骤可以包括:根据距离度量来确定所述向量集合的所述密度分布与所述预定密度分布之间的差。所述距离度量可以是库仑核。这可以降低所述函数空间中的局部最小值的影响。这可能对实际性能有直接影响。例如,这可能提高图像生成任务的图像质量。
所述人工智能模型可以是神经网络。这可能是方便的实现。
根据第三方面,提供了一种计算机程序,其在由计算机执行时使所述计算机执行上述方法。所述计算机程序可以被提供在非瞬时性计算机可读存储介质上。
附图说明
现将参考附图通过示例的方式对本发明进行描述。在附图中:
图1提供了本发明中用于更新编码器和解码器神经网络的方法的概览图。
图2示出了具有单个((a)-(c))和一对负电粒子((d)-(f))的一维情况的示例。(a-b)和(d-e)分别是等式(1)中正则化器在高斯和库仑核函数的负粒子的不同位置上的曲线图。(c)和(f)显示可能的最小值。
图3示出了神经网络的参数空间中的局部最小值问题的示例。
图4示出了概述用于训练自编码器的完整过程的算法。
图5强调在本文所述的目标函数和优化策略中使用的元素。
图6示出了一种根据表示输入域和候选映射的输入数据集合形成从输入数据域到所述输入域的压缩表示的映射的方法的示例。
图7(a)-(c)示出了图7(c)中使用库仑核函数与图7(a)中的真实值和图7(b)中使用高斯核的结果相比促进了真实密度的恢复。
图8示出了在网格数据集上使用不同模型的合成实验的结果。
图9示出了网格上的测试对数似然性和嵌入数据集的低维(得分越高,性能越好)。
图10(a)-(d)示出了与其它已知方法相比,使用本文所述方法进行的真实世界实验的结果。
图11示出了CelebA 64×64数据集上不同模型的FID得分(得分越低,性能越好)。
图12示出了数据处理系统的示例。
具体实施方式
本发明涉及一种用于在自编码器中学习密度底层数据的训练策略,例如用于样本生成和数据压缩。
用于这种目的的模型包括编码器-解码器架构,其中编码器学习数据的压缩表示,而解码器确保可以从这样的表示中以高保真度重构数据。
在编码器神经网络中,模型将表示输入域的数据集作为输入。例如,该输入数据集可以是一组图像。压缩输入数据集以形成具有密度分布的向量集。为了在解码器重构数据时给出可靠的输出,训练模型以学习用于应用的最佳密度分布。
因此,在训练期间,用于将输入数据转换为压缩表示的模型的参数被迭代更新,以给出最佳密度分布。
学习自编码器中的未知密度分布需要最小化两个项,即输入数据与其对应的重构版本之间的误差,以及先前密度函数与编码器函数所导致的密度函数之间的距离。
在本发明中,优化策略通过编码器的条件更新,根据输入数据与其对应的重构版本之间的误差梯度以及先前密度函数与编码器函数所导致的密度函数之间的距离,来最小化上述目标(在图1中以101和102示出)。
然后,如104所示,更新解码器,并且迭代地执行该过程以更新模型的参数,直到它收敛到预定阈值内。更新过程在105结束。
现在将更详细地描述用于训练自编码器的目标函数和用于更新编码器网络的优化策略。
自编码器的目标函数通常是非凸的。因此,通过局部搜索方法进行的训练可能会陷入局部最小值。该问题可以在三个不同的级别上发生,即在目标函数的级别(i),优化器的级别(ii)和架构设计的级别(iii)。
目标是估计未知密度函数pX(x),其支撑由
Figure BDA0003600937240000031
限定。
考虑两个连续函数f∶Ωx→Ωz和g∶Ωz→Ωx,其中
Figure BDA0003600937240000032
且h等于Ωx的本征维数。此外,认为对于每一x∈Ωx,g(f(x))=x。即,g是f域Ωx的左逆。
f和g是由向量θ和γ分别参数化的神经网络。f称为编码函数,采用密度为pX(x)的随机输入x生成密度为qZ(z)的随机向量z,而g是解码函数,采用z作为输入并产生根据qY(y)分布的随机向量y。注意:pX(x)=qY(y),因为对于每一x∈Ωx,y=g(z)=g(f(x))=x。这已经是一种密度估计器,但是其缺点在于qZ(z)通常无法以闭合的形式书写。现在,pZ(z)定义为具有支撑Ωz的任意密度,该支撑具有闭合的形式(pZ(z)被认为是标准的多变量高斯密度)。
目的是保证在整个支撑上qZ(z)=pZ(z),同时对于每一x∈Ωx保持g(f(x))=x。这允许将解码函数用作生成器,并产生根据pX(x)分布的样本。
因此,将高维特征空间中的密度估计问题转化为低维向量空间中的估计问题,从而克服了维数问题。
最小化问题的目标定义为:
Figure BDA0003600937240000041
其中,φ(z)=pZ(z)-qz(z),k(.,.′)是核函数,λ是加权两个加数的正标量超参数。注意,当编码和解码函数在支撑Ωx下是可逆的时,等式(1)中的第一项达到其全局最小值,而当qZ(z)等于pZ(z)时,等式(1)中的第二项全局最优。因此,等式(1)的全局最小值满足初始要求,且最优解对应于qY(y)=pX(x)的情况。
在此描述的整个分析中,假设编码器和解码器网络具有足够的容量来实现等式(1)中的目标的全局最小值。
为了将训练的全局收敛性提高到等式(1)中的第二加数的全局最小值,有利的是,核函数满足泊松方程(参见S.Hochreiter和K.Obermayer中的定理2,“无监督学习的最优核(Optimal Kernels for Unsupervised Learning)”,IEEE国际神经网络联合大会(IJCNN2005),第1895-1899页,2005年)。
假设核函数满足泊松方程,即
Figure BDA0003600937240000042
其中δ(.)是德耳塔函数且
Figure BDA0003600937240000043
则:
Figure BDA0003600937240000044
其中,φt(.)代表了迭代t的φ(.),而zmax=argmaxz‖φt(z)‖。因此,基于梯度下降的训练收敛到等式(1)中的第二加数的全局最小值并且针对所有的z∈Ωz,全局最小值φ(z)=0。
注意,先前的结果对于在编码器的函数空间中执行的梯度下降优化是有效的,并且还独立于f的初始化。这意味着等式(1)中的正则化器仅具有全局最小值。
泊松方程的解可以用闭合的形式写成,即:
Figure BDA0003600937240000045
其中,Sh是h维单位球的表面积,β=h-2。这些函数被称为库仑核。在该实施方式中,‖z-z′‖被替换为
Figure BDA0003600937240000046
和∈-1e-3以避免z=z′的奇点。
等式(3)的第一个重要性质是库仑核代表库仑定律泛化到任何一个h维的欧几里得空间。为了说明这一点,考虑对于h=3,等式(3)中的核函数正好符合库仑定律。实际上,等式(1)中的正则化器表示
Figure BDA0003600937240000051
中的静电系统的能量函数。来自pZ(z)的样本和来自qZ(z)的样本可以分别解释为带正电荷的粒子和带负电荷的粒子,而库仑核在它们之间引起一些全局吸引力和排斥力。因此,关于带负电荷的粒子的位置,等式(1)中的正则化器的最小化允许低能量配置,其中可以找到负粒子平衡正粒子的效果。
第二个重要的性质是,不同于等式(3)中的核函数,该核函数不是泊松方程的解,因此可能引入其它局部最优。这包括在I.Tolstikhin,O.Bousquet,S.Gelly和B.Schoelkopf的工作中使用的核函数,“Wasserstein自编码器”,ICLR,2018,即在实验中使用的高斯和逆多二次核。
为了获得对这两个性质的直观理解,现在将分析使用高斯和库仑核对两个简单一维情况(h=1)的影响。
如图2(c)所示,第一个例子包括位于-4、0和4的三个正粒子,以及允许自由移动的单个负粒子。在这种情况下,pZ(z)=δ(z+4)+δ(z)+δ(z-4)和qZ(z)=δ(z-z1),其中z1表示负粒子的可变位置。
图2(a)和图2(b)表示分别对于高斯核和库仑核,在不同z1的条件下评估的等式(1)中的正则化器的曲线图。高斯核引入了新的局部最优,负粒子被局部吸引到其中一个正电荷,而不受其余正电荷的影响。相反,库仑核仅具有单个最小值。如果考虑所有正粒子对负粒子施加吸引力,则这种最低配置是最好的配置。结果,库仑核引起全局吸引力。
如图2(f)所示,第二个例子包括相同的三个正粒子和一对自由负电荷。在这种情况下,qZ(z)=δ(z-z1)+δ(z-z2),其中z1和z2是这两个负粒子的位置。
图2(d)和图2(e)表示分别对于高斯核和库仑核,在不同的z1和z2的条件下评估的等式(1)中的正则化器的曲线图。按照与前面例子相同的推理,库仑核引起全局排斥力。在这种情况下,存在对应于单个配置的排列的极小值对。
泊松方程的解保证了收敛到等式(1)中的正则化器的全局最小值,而由于存在使优化与初始条件强相关的新的局部最优,诸如高斯核等其它替代选择不具有这一性质。
等式(1)中的目标要求最小化两个加数,即重建误差
Figure BDA0003600937240000052
和潜在密度之间的距离
Figure BDA0003600937240000053
注意,这两项的组合可以在优化中引入局部最小值。这可以从具有单个训练样本的简单反例,即x=z=1,以及两个简单的线性网络,即f(x)=θx和g(z)=γz中看出,其中等式(1)中的目标被重写为
Figure BDA0003600937240000054
(在这种情况下,认为λ=1)。
图3示出了神经网络参数空间中的局部最小值问题,并示出了通过传统的整体目标
Figure BDA0003600937240000055
最小化实现的解的质量强依赖于参数初始化。事实上,当两个网络参数都被负向初始化时,训练收敛到次优的局部最小值。这种失败的原因是由于在收敛时
Figure BDA0003600937240000056
但是这两个梯度项可以是非零的。这个问题可以通过检查
Figure BDA0003600937240000057
Figure BDA0003600937240000058
是否正相关,即它们的点积是否为正来避免。在点积在所有训练迭代中都是正的情况下,保证训练收敛到期望的解,即
Figure BDA0003600937240000059
该观察允许提出简单的优化策略,其中在每次迭代时,计算重构和正则化器项之间的点积,如果点积为正则根据
Figure BDA00036009372400000510
更新编码器,否则(即,如果点积为零或负)则根据
Figure BDA00036009372400000511
更新编码器)。仅重建项取决于γ。因此,与联合优化中使用的更新规则相比,解码器更新保持不变。
图3(a)中重构项的全局最小值位于由曲线θ=1/γ参数化的两个不相交流形上,图3(b)中正则化器项的全局最小值位于流形θ=1上。图3(c)中的两个项的组合产生两个不同的局部最小值,它们中只有一个是全局的。根据参数初始化,联合优化(在301处示出的图3(d)中的白色轨迹)可以收敛到次优解。条件更新(在302处示出的轨迹)类似于全局最小值。
因此,所提出的训练策略解决了由重建和MMD项的组合引入的局部最小值的问题。该问题仍然存在于每个单个目标项的级别上,因为它是深度学习中的常见问题。
在算法1中,如图4所示,概述了用于训练自编码器的完整过程。
图5强调在本文描述的目标函数和优化策略中使用的元素,即,使用目标函数中的库仑核和编码器的条件更新作为优化策略的一部分。条件更新可以应用于任何生成自编码器模型,例如变分自编码器。发现在目标函数的正则化器项中使用库仑核对于使用MMD距离作为正则化器的自编码器是特别有利的。可能使用其它距离函数。
图6示出了一种根据表示输入域和候选映射的输入数据集合形成从输入数据域到所述输入域的压缩表示的映射的方法的示例。步骤601,该方法包括迭代地执行以下步骤:形成由所述候选映射映射的表示所述输入数据集合的向量集合。步骤602,该方法还包括将所述向量集合的密度分布与预定密度分布进行比较。步骤603,该方法包括根据该比较调整候选映射。
所描述的用于深度生成自编码器的框架减轻了在目标函数和优化器级别上的局部最小值的问题,同时保持了相同的模型复杂度。该框架包括目标函数和训练编码器/解码器架构的原理方法。在目标函数中有利地使用库仑核确保除了全局最小值以外,在函数空间中不存在局部最小值。
图7(a)-(c)示出了图7(c)中使用库仑核函数与图7(a)中的真实值和图7(b)中使用高斯核的结果相比促进了真实密度的恢复。
图8示出了使用上述方法获得的合成实验与已知方法的比较结果。实验使用由25个根据网格放置的各向同性高斯(Gaussians)组成的二维数据集,如图8(a)所示。该数据集此后称为网格数据集。训练数据集包括从真实密度产生的500个样本。
在图8(d)中示出了用联合优化(CouAE)训练的模型的性能,在图8(e)中示出了用算法1(CouAE cond.)中的条件更新训练的模型的性能。如图8(b)所示,将其与变分自编码器(Variational Autoencoder,简称VAE)的基线进行比较,如D.P.Kingma和M.Welling,“自编码变分贝叶斯(Auto-Encoding Variational Bayes)”,ICLR,2014;D.J.Rezende,S.Mohamed和D.Wierstra,“深度生成模型中的随机反向传播和近似推理(StochasticBackpropagation and Approximate Inference in Deep Generative Models)”,国际机器学习大会(International Conference on Machine Learning,简称ICML),第1278-1286页,2014;Wasserstein Autoencoders(WAE),如图8(c)所示,如I.Tolstikhin,O.Bousquet,S.Gelly和B.Schoelkopf.,“Wasserstein自编码器”,ICLR,2018。
遵循其它工作的方法论(参见例如J.H.Lim和J.C.Ye,“Geometric Gan”,arXivpreprint arXiv:1705.02894,2017;T.Unterthiner,B.Nessler,G.Klambauer,M.Heusel,H.Ramsauer和S.Hochreiter,“库仑GAN:通过势场的可证明的最优纳什均衡(CoulombGANs:Provably Optimal Nash Equilibria via Potential Fields)”,ICLR,2018),在编码器和解码器两者处选择具有两个隐藏层(每个有128个神经元)的完全连接的多层感知器,并且h设置为h=2。所有模型进行3×106次迭代训练,该迭代使用学习率为10-3的Adam优化器。通过目视检查产生的样本并通过计算测试数据的对数似然性来定量地评估模型。为了计算对数似然性,首先在104个产生的样本上应用使用高斯核的核密度估计,然后在104个来自真实分布的测试样本上评估对数似然性。重复10次对结果进行平均。
图9中的表的第一行就测试对数似然性为网格数据集提供定量结果。可以看出,相比此处提出的解决方案和VAE,WAE表现得明显更差。
当特征维度增加时,条件更新(CouAE cond.)具有进一步的积极效果,如第二合成情况中所示。第二数据集包括嵌入在1000维向量空间(以下称为低维嵌入数据集)中的10维各向同性高斯。从真实密度中产生500个样本,所有模型进行2×106次迭代训练。该方法与前一种情况中使用的方法类似。该数据集的结果显示在图9中的表的第二行中。
在图9中,可以看出所提出的两种解决方案(CouAE和CouAE cond.)在测试对数似然性方面获得最佳性能。特别地,库仑核显著改进了WAE,条件更新进一步提高了性能。
图10(a)-(d)示出了与其它已知方法相比,使用本文所述方法进行的真实世界实验的结果。对于这组实验,使用Celeb 64×64数据集,并且按照Tolstikhin等人2018年使用的设置。使用如在A.Radford,L.Metz和S.Chintala,“具有深度卷积生成对抗网络的无监督表示学习(Unsupervised Representation Learning with Deep ConvolutionalGenerative Adversarial Networks)”,arXiv preprint arXiv:1511.06434,2015中描述的DCGAN架构,并且以0.0005的学习率对所有模型进行105次迭代训练。对于VAE和WAE,使用A.Radford等人2015年的实现来运行模拟。
图11提供了关于测试FID的定量结果,如M.Heusel,H.Ramsauer,T.Unterthiner,B.Nessler和S.Hochreiter,“由两个时标更新规则训练的GAN收敛到本地纳什均衡(GANsTrained by a Two Time-Scale Update Rule Converge to a Local NashEquilibrium)”,神经信息处理系统大会(Advances in Neural Information ProcessingSystems,简称NIPS),第6629-6640页,2017。较低的结果指示更好的性能。这些结果表明,本发明的方法优于已知的技术VAE和WAE。
这些实验证明,在一些实施方式中,条件更新相比已知方法改善了性能。因此,编码器的梯度条件以及编码器的第一更新可以改善自编码器的性能。库仑核距离函数的使用允许进一步的改进。
上述系统和方法可用于诸如样本生成之类的应用中,以根据预定密度分布选择向量并将映射的逆映射应用到该向量中,从而生成输入数据域中的其它数据(例如,生成图像)。
本发明降低了局部最小值的影响,直接影响实际性能,例如改善了图像生成任务的图像质量。不需要对网络架构进行修改。换句话说,不需要增加模型容量。因此,本发明在存储和执行时间方面都比现有方法更有效。
图12示出了用于实现上述方法及其相关组件的数据处理系统1200的示意图。该系统可以包括处理器1201和非易失性存储器1202。该系统可以包括一个以上的处理器和一个以上的存储器。存储器可以存储可由处理器执行的数据。处理器可用于根据以非瞬时性形式存储在机器可读存储媒体上的计算机程序来运行。计算机程序可以存储用于使处理器以此处描述的方式执行其方法的指令。
申请方在此单独公开本文描述的每一个体特征及两个或两个以上此类特征的任意组合。以本领域技术人员的普通知识,能够基于本说明书将此类特征或组合作为整体实现,而不考虑此类特征或特征的组合是否能解决本文所公开的任何问题;且不对权利要求书的范围造成。本申请表明本发明的各方面可由任何这类单独特征或特征的组合构成。鉴于前文描述可在本发明的范围内进行各种修改对本领域技术人员来说是显而易见的。

Claims (18)

1.一种用于形成从输入数据域到所述输入域的压缩表示的映射的数据处理系统,其特征在于,所述系统用于接收表示所述输入域和候选映射的输入数据集合,并且迭代地执行以下步骤:
形成由所述候选映射映射的表示所述输入数据集合的向量集合;
将所述向量集合的密度分布与预定密度分布进行比较;以及
根据所述比较调整所述候选映射。
2.如权利要求1所述的系统,其特征在于,所述候选映射是人工智能模型,调整所述候选映射的所述步骤包括调整所述模型的参数。
3.如权利要求2所述的系统,其特征在于,调整所述候选映射的所述步骤是根据所述输入数据集合的重构误差的梯度的条件以及所述向量集合的所述密度分布与所述模型的目标函数中的预定密度分布之间的距离来执行的。
4.如权利要求3所述的系统,其特征在于,调整所述候选映射的所述步骤是根据所述输入数据集合的所述重构误差的所述梯度的点积结果以及所述向量集合的所述密度分布与所述模型的目标函数中的预定密度分布之间的所述距离来执行的。
5.如任一前述权利要求所述的系统,其特征在于,所述系统用于根据距离度量来确定所述向量集合的所述密度分布与所述预定密度分布之间的差。
6.如权利要求5所述的系统,其特征在于,所述距离度量是库仑核。
7.如权利要求2至6中任一项所述的系统,其特征在于,所述人工智能模型是神经网络。
8.如任一前述权利要求所述的系统,其特征在于,所述输入数据集合包括图像。
9.如任一前述权利要求所述的系统,其特征在于,所述系统还用于将表示输入数据集合的向量集合重构为输出数据集合。
10.如任一前述权利要求所述的系统,其特征在于,所述系统还用于根据所述预定密度分布选择向量并将所述映射的逆映射应用到所述向量,来生成所述输入数据域中的数据。
11.一种根据表示输入域和候选映射的输入数据集合形成从输入数据域到所述输入域的压缩表示的映射的方法,其特征在于,所述方法包括迭代地执行以下步骤:
形成由所述候选映射映射的表示所述输入数据集合的向量集合;
将所述向量集合的密度分布与预定密度分布进行比较;以及
根据所述比较调整所述候选映射。
12.如权利要求11所述的方法,其特征在于,所述候选映射是人工智能模型,调整所述候选映射的所述步骤包括调整所述模型的参数。
13.如权利要求12所述的方法,其特征在于,调整所述候选映射的所述步骤是根据所述输入数据集合的重构误差的梯度的条件以及所述向量集合的密度分布与所述模型的目标函数中的预定密度分布之间的距离来执行的。
14.如权利要求13所述的方法,其特征在于,调整所述候选映射的所述步骤是根据所述输入数据集合的所述重构误差的所述梯度的点积结果以及所述向量集合的所述密度分布与所述模型的目标函数中的预定密度分布之间的所述距离来执行的。
15.如权利要求11至14中任一项所述的方法,其特征在于,将所述向量集合的密度分布与预定密度分布进行比较的所述步骤包括:根据距离度量来确定所述向量集合的所述密度分布与所述预定密度分布之间的差。
16.如权利要求15所述的方法,其特征在于,所述距离度量是库仑核。
17.如权利要求11至16中任一项所述的方法,其特征在于,所述人工智能模型是神经网络。
18.一种计算机程序,当由计算机执行时,所述计算机程序使得所述计算机执行权利要求11至17中任一项所述的方法。
CN201980101437.5A 2019-10-17 2019-10-17 学习数据密度函数 Pending CN115039108A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2019/078162 WO2021073738A1 (en) 2019-10-17 2019-10-17 Learning a data density function

Publications (1)

Publication Number Publication Date
CN115039108A true CN115039108A (zh) 2022-09-09

Family

ID=68281459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980101437.5A Pending CN115039108A (zh) 2019-10-17 2019-10-17 学习数据密度函数

Country Status (2)

Country Link
CN (1) CN115039108A (zh)
WO (1) WO2021073738A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114896024B (zh) * 2022-03-28 2022-11-22 同方威视技术股份有限公司 基于核密度估计的虚拟机运行状态检测方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3599575B1 (en) 2017-04-27 2023-05-24 Dassault Systèmes Learning an autoencoder
US11403531B2 (en) 2017-07-19 2022-08-02 Disney Enterprises, Inc. Factorized variational autoencoders
EP3477553B1 (en) * 2017-10-27 2023-08-30 Robert Bosch GmbH Method for detecting an anomalous image among a first dataset of images using an adversarial autoencoder

Also Published As

Publication number Publication date
WO2021073738A1 (en) 2021-04-22

Similar Documents

Publication Publication Date Title
WO2019157228A1 (en) Systems and methods for training generative machine learning models
Xie et al. Learning descriptor networks for 3d shape synthesis and analysis
Sohn et al. Learning structured output representation using deep conditional generative models
Wang et al. Improving MMD-GAN training with repulsive loss function
Han et al. Divergence triangle for joint training of generator model, energy-based model, and inferential model
Kumar et al. Improved semi-supervised learning with gans using manifold invariances
Kutyniok The mathematics of artificial intelligence
Naimipour et al. UPR: A model-driven architecture for deep phase retrieval
Srinivasan et al. Learning and inference in hilbert space with quantum graphical models
CN113781517A (zh) 用于运动估计的系统和方法
CN111062465A (zh) 一种神经网络结构自调整的图像识别模型及方法
Zheng et al. Improved techniques for maximum likelihood estimation for diffusion odes
Ak et al. Incorporating reinforced adversarial learning in autoregressive image generation
Abdallah et al. 1-dimensional polynomial neural networks for audio signal related problems
Chen et al. Doubly robust off-policy learning on low-dimensional manifolds by deep neural networks
Elarabawy et al. Direct inversion: Optimization-free text-driven real image editing with diffusion models
Sahito et al. Semi-supervised learning using Siamese networks
CN115039108A (zh) 学习数据密度函数
CN110717402B (zh) 一种基于层级优化度量学习的行人再识别方法
Sharma et al. Novel approach to design matched digital filter with Abelian group and fuzzy particle swarm optimization vector quantization
Orozco et al. Refining amortized posterior approximations using gradient-based summary statistics
Hammernik et al. Machine learning for MRI reconstruction
CN113869503B (zh) 一种基于深度矩阵分解补全的数据处理方法及存储介质
Wang Generative Adversarial Networks (GAN): A Gentle Introduction
Agrawal et al. Deep variational inference without pixel-wise reconstruction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination