CN117541892A

CN117541892A - 深度生成模型的训练方法、装置、设备及介质

Info

Publication number: CN117541892A
Application number: CN202311511386.8A
Authority: CN
Inventors: 王俊
Original assignee: Ping An Chuangke Technology Beijing Co ltd
Current assignee: Ping An Chuangke Technology Beijing Co ltd
Priority date: 2023-11-13
Filing date: 2023-11-13
Publication date: 2024-02-09

Abstract

本申请涉及人工智能和医疗健康技术领域，提出了一种深度生成模型的训练方法、装置、设备及介质，其中，方法包括：获取训练图像数据集；对于所述训练图像数据集中的每个训练图像，计算对应的第一分形维数和第一分形维数谱；将所述第一分形维数作为正则化项加入至深度生成模型的目标函数中，将所述第一分形维数谱作为所述深度生成模型的输入和/或输出的辅助信息，所述深度生成模型包括分形变分自编码器模型，所述分形变分自编码器模型包括编码器和解码器；利用所述训练图像数据集对所述深度生成模型进行训练，以得到目标深度生成模型。通过该技术方案，可以提高数据生成的质量、速度和鲁棒性。

Description

深度生成模型的训练方法、装置、设备及介质

【技术领域】

本申请涉及人工智能和医疗健康技术领域，尤其涉及一种深度生成模型的训练方法、装置、设备及介质。

【背景技术】

深度生成模型是一类利用深度神经网络来模拟数据生成过程的模型，它们的目标是学习真实数据分布的近似分布，并能够根据这个分布随机生成新的数据样本。深度生成模型可以分为三种主要类型，根据它们处理似然函数(数据分布与模型分布之间的距离)的不同方法：

(1)近似方法：通过变分或抽样的方法求似然函数的近似分布，主要包括受限玻尔兹曼机(RBM)、变分自编码器(VAE)以及以RBM为基础模块的深度置信网络(DBN)、深度玻尔兹曼机(DBM)等。

(2)隐式方法：通过对抗训练或参数化马尔可夫过程的方法避开求极大似然过程，主要包括生成对抗网络(GAN)及其各种变种，如WGAN、DCGAN、BigGAN等，以及生成随机网络(GSN)等。

(3)变形方法：通过对似然函数进行适当变形来简化计算，主要包括流模型(Flow)和自回归模型(AR)，如NICE、RealNVP、Glow等流模型，以及NADE、PixelRNN、MADE、WaveNet等自回归模型。

深度生成模型在计算机视觉、自然语言处理、语音合成、半监督学习等领域有广泛的应用，它们可以实现图像重构、缺失数据填充、密度估计、风格迁移、文本生成、语音合成等功能，并能够发现并有效地内化数据的本质特征。

随着大规模计算时代的到来，深度生成模型也面临着新的机遇和挑战，如何在海量数据上训练大型的深度生成模型，并使其具有更好的生成能力和泛化能力，是当前研究的热点和难点。例如，在医疗健康领域，为了提高医生的诊断能力和效率，提高医学教育和研究的质量和效果等，需要对现有的医学影像进行增强和合成等任务，这就需要应用深度生成模型去完成医学图像的生成。

目前，已有一些基于物理定律或者数学分布启发的深度生成模型或方法，如扩散模型、泊松流模型、变分自编码器(VAE)、生成对抗网络(GAN)等。这些方法都能够从数据中学习潜在分布，并通过随机采样或者逆向映射来生成新的数据。然而，现有技术也存在一些缺陷或不足或问题：

1)扩散模型虽然能够生成高质量的数据，但是采样速度较慢，并且对噪声敏感；

2)泊松流模型虽然能够兼顾质量和速度，并且对噪声鲁棒，但是需要解决高维空间中电场线梯度的计算问题，并且只适用于连续数据；

3)VAE虽然能够提供有效且可解释的潜在表示，并且具有快速采样和似然计算等优点，但是也存在后验坍塌、KL散度消失、过度平滑等问题；

4)GAN虽然能够生成逼真且多样化的数据，并且具有强大的表达能力和灵活性，但是也存在训练不稳定、梯度消失、模式崩溃等问题。

【发明内容】

本申请实施例提供了一种深度生成模型的训练方法、装置、设备及介质，旨在解决相关技术中通过深度生成模型生成医疗影像的过程中，存在的后验坍塌、KL散度消失、过度平滑、训练不稳定、梯度消失和模式崩溃等技术问题。

第一方面，本申请实施例提供了一种深度生成模型的训练方法，包括：

获取训练图像数据集；

对于所述训练图像数据集中的每个训练图像，计算对应的第一分形维数和第一分形维数谱；

将所述第一分形维数作为正则化项加入至深度生成模型的目标函数中，将所述第一分形维数谱作为所述深度生成模型的输入和/或输出的辅助信息，所述深度生成模型包括分形变分自编码器模型，所述分形变分自编码器模型包括编码器和解码器；

利用所述训练图像数据集对所述深度生成模型进行训练，以得到目标深度生成模型。

第二方面，本申请实施例提供了一种深度生成模型的训练装置，包括：

获取模块，用于获取训练图像数据集；

计算模块，用于对于所述训练图像数据集中的每个训练图像，计算对应的第一分形维数和第一分形维数谱；

处理模块，用于将所述第一分形维数作为正则化项加入至深度生成模型的目标函数中，将所述第一分形维数谱作为所述深度生成模型的输入和/或输出的辅助信息，所述深度生成模型包括分形变分自编码器模型，所述分形变分自编码器模型包括编码器和解码器；

训练模块，用于利用所述训练图像数据集对所述深度生成模型进行训练，以得到目标深度生成模型。

第三方面，提供了一种计算机设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述深度生成模型的训练方法的步骤。

第四方面，提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述深度生成模型的训练方法的步骤。

以上深度生成模型的训练方法、装置、设备及介质所实现的方案中，获取训练图像数据集；对于所述训练图像数据集中的每个训练图像，计算对应的第一分形维数和第一分形维数谱；将所述第一分形维数作为正则化项加入至深度生成模型的目标函数中，将所述第一分形维数谱作为所述深度生成模型的输入和/或输出的辅助信息，所述深度生成模型包括分形变分自编码器模型，所述分形变分自编码器模型包括编码器和解码器；利用所述训练图像数据集对所述深度生成模型进行训练，以得到目标深度生成模型。在本发明中，利用分形理论中的迭代函数系统(IFS)来构建深度生成模型的网络结构，使得每个网络层都可以看作是一个分形变换，从而实现数据在不同尺度上的自相似性和无限细节，利用分形理论中的分形维数来度量数据的复杂度和多样性，并将其作为一个正则化项加入到深度生成模型的目标函数中，从而避免过拟合和欠拟合，而利用分形理论中的分形维数谱来描述数据在不同尺度上的局部特征，并将其作为一个辅助信息加入到深度生成模型的输入或输出中，从而增强数据的表达能力和灵活性。通过上述训练方法训练得到的深度生成模型进行医疗图像等数据生成时，可以提高数据生成的质量、速度和鲁棒性，从而生成更清晰、更真实、更完整、更多样化的医学图像，提高医生的诊断能力和效率，提高医学教育和研究的质量和效果。

【附图说明】

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出了根据本申请的一个实施例的深度生成模型的训练方法的示意流程图。

图2示出了根据本申请的一个实施例的深度生成模型的训练方法中步骤S104的示意流程图。

图3示出了根据本申请的另一个实施例的深度生成模型的训练方法的示意流程图。

图4示出了根据本申请的又一个实施例的深度生成模型的训练方法的示意流程图。

图5示出了根据本申请的一个实施例的深度生成模型的训练装置的框图。

图6示出了根据本申请的一个实施例的计算机设备的一结构示意图。

图7示出了根据本申请的一个实施例的计算机设备的另一结构示意图。

【具体实施方式】

为了更好的理解本申请的技术方案，下面结合附图对本申请实施例进行详细描述。

应当明确，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

为了解决相关技术中通过深度生成模型生成医疗影像的过程中，存在的后验坍塌、KL散度消失、过度平滑、训练不稳定、梯度消失和模式崩溃等技术问题，本申请提出了一种深度生成模型的训练方法、装置、设备及介质。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

需要说明的是，本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

请参阅图1，图1示出了根据本申请的一个实施例的深度生成模型的训练方法的示意流程图。该深度生成模型的训练方法用于解决相关技术中通过深度生成模型生成医疗影像的过程中，存在的后验坍塌、KL散度消失、过度平滑、训练不稳定、梯度消失和模式崩溃等技术问题。

如图1所示，根据本申请的一个实施例的深度生成模型的训练方法的流程包括：

步骤S101，获取训练图像数据集；

以图像生成任务为例，图像生成任务是指根据给定的条件或者随机噪声，生成与真实图像相似的合成图像的任务。当是图像生成任务时，则获取训练图像数据集。本发明可以用来实现无条件或有条件的图像生成任务，例如生成人脸、风景、动物、花卉等各种类型的图像。当然，如果是其他生成任务，例如文本和音频等生成任务时，则对应的获取训练文本数据集和训练音频数据集。

具体地，上述图像可以是医学图像，图像生成任务可以是医学图像的增强和合成等任务。医学图像是指用于诊断和治疗疾病的各种类型的图像，例如X光、CT、MRI、超声等。医学图像的增强和合成任务是指根据给定的条件或者随机噪声，生成与真实医学图像相似的合成医学图像的任务，例如生成更清晰、更完整、更多样化的医学图像，以提高医生的诊断能力和效率，或者生成更真实、更逼真、更多角度的医学图像，以提高医学教育和研究的质量和效果。

对于每个图像x_i都是一个m×m的矩阵，表示m×m个像素点的灰度值或RGB值。

步骤S102，对于所述训练图像数据集中的每个训练图像，计算对应的第一分形维数和第一分形维数谱；

分形维数是一种用来度量数据的复杂度和多样性的指标，它反映了数据在不同尺度上的自相似性和无限细节。分形维数可以用以下公式定义：

其中，N(∈)是用直径为∈的小球覆盖数据所需要的最小个数，∈是尺度参数。分形维数越大，说明数据越复杂和多样，越接近高维空间。分形维数可以是一个非整数，例如，科赫雪花的分形维数是约1.2619。

分形维数谱是一种用来描述数据在不同尺度上的局部特征的函数，它反映了数据在某一点附近的局部规则程度和局部复杂度。分形维数谱可以用以下公式定义：

f(α)＝dim_H({x:h(x)＝α})

其中，α是局部指数，用来度量数据在某一点附近的局部规则程度，dim_H是Hausdorff维数，用来度量数据在某一点附近的局部复杂度。分形维数谱可以看作是分形维数在不同局部/>指数下的变化情况，它可以揭示数据的非均匀性和异质性。分形维数谱可以是一个曲线或一个集合。

通俗地说，分形维数和分形维数谱都是用来表征数据的几何特性的工具，它们都基于分形理论中的尺度不变性和自相似性的概念。分形维数是一种全局的指标，它描述了数据整体上的复杂度和多样性。分形维数谱是一种局部的指标，它描述了数据在不同位置和不同尺度上的差异和变化。分形维数和分形维数谱之间有一定的联系，例如，如果一个数据集是严格自相似的，那么它的分形维数谱就只有一个点，就是它的分形维数。

如果给定一个有条件的X光图像的增强和合成任务，例如根据给定的病情或者病历信息，生成与之相匹配的合成X光图像，那么可以将这些条件信息作为辅助信息加入到输入或输出中，以指导生成器生成更符合条件的合成X光图像。

步骤S103，将所述第一分形维数作为正则化项加入至深度生成模型的目标函数中，将所述第一分形维数谱作为所述深度生成模型的输入和/或输出的辅助信息，所述深度生成模型包括分形变分自编码器模型，所述分形变分自编码器模型包括编码器和解码器；

以VAE为基础，构建一个基于分形理论启发的深度生成模型，称为分形变分自编码器(FVAE)。FVAE中编码器和解码器都是由多个分形变换层组成的，每个分形变换层都是由一个仿射变换和一个非线性激活函数组成的，可以表示为：

z_l+1＝f_l(z_l)

＝σ_l(W_lz_l+b_l)

其中，z_l是第l层的输出，f_l是第l层的分形变换，σ_l是第l层的非线性激活函数，W_l和b_l是第l层的权重矩阵和偏置向量。通过这样的网络结构，可以实现数据在不同尺度上的自相似性和无限细节。

在一个实施例中，可选的，所述深度生成模型的目标函数包括：

其中，表示所述深度生成模型的目标函数，/>表示重构误差，D_KL(q_φ(z|x)||p(z))表示KL散度，D_f(x)表示数据x的分形维数正则化项，β表示权重系数，λ表示正则化系数，q_φ(z|x)表示所述编码器输出的后验分布，p_θ(x|z)表示解码器输出的似然分布，p(z)表示潜在向量的先验分布，N表示数据x的采样点数，C(N)表示数据x的最小覆盖圆数。

这样，通过加入分形维数作为一个正则化项，可以避免过拟合和欠拟合，使得生成的数据既能保持原始数据的复杂度和多样性，又能避免生成过于嘈杂或过于平滑的数据。深度生成模型的输入和输出都可以加入分形维数谱作为一个辅助信息，以增强数据的表达能力和灵活性。

步骤S104，利用所述训练图像数据集对所述深度生成模型进行训练，以得到目标深度生成模型。

如图2所示，在一个实施例中，可选的，步骤S104包括：

步骤S201，对于每个训练图像，通过所述编码器计算得到对应的第一后验分布，并根据所述第一后验分布确定第一潜在向量；

在开始进行模型训练时，首先需要初始化编码器参数φ和解码器参数θ，设置先验分布p(z)为标准正态分布，设置权重系数β和正则化系数λ。

对于每个图像x_i，通过编码器得到后验分布q_φ(z|x_i)，并从中采样一个潜在向量z_i；

步骤S202，对于每个第一潜在向量，通过所述解码器计算得到对应的第一似然分布，并根据所述第一似然分布确定第一重构图像；

通过解码器得到似然分布p_θ(x_i|z_i)，并从中采样一个重构图像

步骤S203，根据所述第一潜在向量和所述第一重构图像计算所述深度生成模型的损失函数；

在一个实施例中，可选的，步骤S203包括：

根据所述第一潜在向量和所述第一重构图像计算重构误差、KL散度和分形维数正则化项；

计算所述重构误差KL散度D_KL(q_φ(z|x_i)||p(z))和分形维数正则化项λD_f(x_i)之和，并将所述重构误差、KL散度和分形维数正则化项之和确定为所述深度生成模型的损失函数。

步骤S204，通过反向传播和梯度下降优化算法，使所述损失函数最小化，以训练得到所述目标深度生成模型。

通过反向传播和梯度下降等优化算法，更新编码器参数φ和解码器参数θ，使得损失函数最小化；重复上述步骤，直到满足停止条件，例如达到最大迭代次数或者损失函数收敛等。

如图3所示，在一个实施例中，可选的，所述方法还包括：

步骤S301，通过所述目标深度生成模型接收输入的测试数据集，其中，所述测试数据集包括图像数据集和随机噪声数据集；

测试图像数据集X′＝{x′₁,x′₂,...,x′_m}或者随机噪声数据集Z＝{z₁,z₂,...,z_m}，其中,每个图像x′_i都是一个m×m的矩阵，表示m×m个像素点的灰度值或RGB值；每个噪声向量z_i都是一个k×1的向量，表示k个随机数。

步骤S302，当确定所述测试数据集是图像数据集时，计算每个测试图像对应的第二分形维数谱，并将每个测试图像对应的第二分形维数谱作为所述深度生成模型的输入和/或输出的辅助信息；

步骤S303，对于每个测试图像，通过所述编码器计算得到对应的第二后验分布，并根据所述第二后验分布确定第二潜在向量；

步骤S304，对于每个第二潜在向量，通过所述解码器计算得到对应的第二似然分布，并根据所述第二似然分布确定第二重构图像；

步骤S305，将所有的第二重构图像组成生成图像数据集，并输出所述生成图像数据集。

在该实施例中，利用分形理论中的迭代函数系统(IFS)来构建深度生成模型的网络结构，使得每个网络层都可以看作是一个分形变换，从而实现数据在不同尺度上的自相似性和无限细节，利用分形理论中的分形维数来度量数据的复杂度和多样性，并将其作为一个正则化项加入到深度生成模型的目标函数中，从而避免过拟合和欠拟合，而利用分形理论中的分形维数谱来描述数据在不同尺度上的局部特征，并将其作为一个辅助信息加入到深度生成模型的输入或输出中，从而增强数据的表达能力和灵活性。通过上述训练方法训练得到的深度生成模型进行数据生成时，可以提高数据生成的质量、速度和鲁棒性。

如图4所示，在一个实施例中，可选的，所述方法还包括：

步骤S401，当确定所述测试数据集是随机噪声数据集时，确定每个随机噪声对应的噪声向量；

步骤S402，将所述噪声向量确定为第三潜在向量；

步骤S403，对于每个第三潜在向量，通过所述解码器计算得到对应的第三似然分布，并根据所述第三似然分布确定第三重构图像；

步骤S404，将所有的第三重构图像组成生成图像数据集，并输出所述生成图像数据集。

在该实施例中，如果输入的是随机噪声数据集，则直接使用噪声向量作为潜在向量，进而重构图像，并输出生成图像数据集。

下面以一个具体实施例，详细说明本发明的上述技术方案。

假设需要对X光图像进行增强和合成任务。X光图像是一种用于检测人体内部结构和病变的医学图像，例如骨骼、肺部、胸腔等。X光图像的增强和合成任务是指根据给定的条件或者随机噪声，生成与真实X光图像相似的合成X光图像的任务，例如生成更清晰、更完整、更多样化的X光图像，以提高医生的诊断能力和效率，或者生成更真实、更逼真、更多角度的X光图像，以提高医学教育和研究的质量和效果。

假设给定一个真实的X光图像，表示一个患有肺结核的患者的胸部X光图像；计算该图像的分形维数谱，并将其作为辅助信息加入到输入或输出中；通过编码器计算得到对应的第一后验分布，并根据第一后验分布确定第一潜在向量，对于每个第一潜在向量，通过解码器计算得到对应的第一似然分布，并根据第一似然分布确定第一重构X图像；计算深度生成模型的损失函数；更新编码器参数和解码器参数；假设经过多次迭代后，得到了一个质量较高的重构的X光图像，表示一个没有肺结核的患者的胸部X光图像；这样，就实现了一个无条件的X光图像的增强和合成任务，即根据随机噪声重构与真实X光图像相似的合成X光图像。这种任务可以用于提高医学教育和研究的质量和效果，例如生成更多角度和更多病例的X光图像，以供医学生和医生学习和分析。

如果给定一个有条件的X光图像的增强和合成任务，例如根据给定的病情或者病历信息，生成与之相匹配的合成X光图像，那么可以将这些条件信息作为辅助信息加入到输入或输出中，以指导编码器和解码器重构出更符合条件的合成X光图像。这种任务可以用于提高医生的诊断能力和效率，例如根据患者的病史、症状、体征等信息，生成更清晰、更完整、更多样化的X光图像，以辅助医生进行诊断和治疗。

如图5所示，第二方面，本申请实施例提供了一种深度生成模型的训练装置50，包括：

获取模块51，用于获取训练图像数据集；

计算模块52，用于对于所述训练图像数据集中的每个训练图像，计算对应的第一分形维数和第一分形维数谱；

处理模块53，用于将所述第一分形维数作为正则化项加入至深度生成模型的目标函数中，将所述第一分形维数谱作为所述深度生成模型的输入和/或输出的辅助信息，所述深度生成模型包括分形变分自编码器模型，所述分形变分自编码器模型包括编码器和解码器；

训练模块54，用于利用所述训练图像数据集对所述深度生成模型进行训练，以得到目标深度生成模型。

在一个实施例中，可选的，训练模块包括：

第一计算单元，用于对于每个训练图像，通过所述编码器计算得到对应的第一后验分布，并根据所述第一后验分布确定第一潜在向量；

第二计算单元，用于对于每个第一潜在向量，通过所述解码器计算得到对应的第一似然分布，并根据所述第一似然分布确定第一重构图像；

第三计算单元，用于根据所述第一潜在向量和所述第一重构图像计算所述深度生成模型的损失函数；

训练单元，用于通过反向传播和梯度下降优化算法，使所述损失函数最小化，以训练得到所述目标深度生成模型。

在一个实施例中，可选的，第三计算单元用于：

计算所述重构误差、KL散度和分形维数正则化项之和，并将所述重构误差、KL散度和分形维数正则化项之和确定为所述深度生成模型的损失函数。

在一个实施例中，可选的，所述装置还包括：

接收模块，用于通过所述目标深度生成模型接收输入的测试数据集，其中，所述测试数据集包括图像数据集和随机噪声数据集；

信息计算模块，用于当确定所述测试数据集是图像数据集时，计算每个测试图像对应的第二分形维数谱，并将每个测试图像对应的第二分形维数谱作为所述深度生成模型的输入和/或输出的辅助信息；

第一确定模块，用于对于每个测试图像，通过所述编码器计算得到对应的第二后验分布，并根据所述第二后验分布确定第二潜在向量；

第二确定模块，用于对于每个第二潜在向量，通过所述解码器计算得到对应的第二似然分布，并根据所述第二似然分布确定第二重构图像；

第一输出模块，用于将所有的第二重构图像组成生成图像数据集，并输出所述生成图像数据集。

在一个实施例中，可选的，所述装置还包括：

第三确定模块，用于当确定所述测试数据集是随机噪声数据集时，确定每个随机噪声对应的噪声向量；

第四确定模块，用于将所述噪声向量确定为第三潜在向量；

第五确定模块，用于对于每个第三潜在向量，通过所述解码器计算得到对应的第三似然分布，并根据所述第三似然分布确定第三重构图像；

第二输出模块，用于将所有的第三重构图像组成生成图像数据集，并输出所述生成图像数据集。

在一个实施例中，可选的，所述编码器和解码器均包括多个分形变换层，每个分形变换层包括仿射变换和非线性激活函数。

关于深度生成模型的训练装置的具体限定可以参见上文中对于深度生成模型的训练方法的限定，在此不再赘述。上述深度生成模型的训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务端，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性和/或易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的客户端通过网络连接通信。该计算机程序被处理器执行时以实现一种深度生成模型的训练方法服务端侧的功能或步骤。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是客户端，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种深度生成模型的训练方法客户端侧的功能或步骤。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

获取训练图像数据集；

在一个实施例中，可选的，利用所述训练图像数据集对所述深度生成模型进行训练，以得到目标深度生成模块，包括：

对于每个训练图像，通过所述编码器计算得到对应的第一后验分布，并根据所述第一后验分布确定第一潜在向量；

对于每个第一潜在向量，通过所述解码器计算得到对应的第一似然分布，并根据所述第一似然分布确定第一重构图像；

根据所述第一潜在向量和所述第一重构图像计算所述深度生成模型的损失函数；

通过反向传播和梯度下降优化算法，使所述损失函数最小化，以训练得到所述目标深度生成模型。

在一个实施例中，可选的，根据所述第一潜在向量和所述第一重构图像计算所述深度生成模型的损失函数，包括：

在一个实施例中，可选的，所述方法还包括：

通过所述目标深度生成模型接收输入的测试数据集，其中，所述测试数据集包括图像数据集和随机噪声数据集；

当确定所述测试数据集是图像数据集时，计算每个测试图像对应的第二分形维数谱，并将每个测试图像对应的第二分形维数谱作为所述深度生成模型的输入和/或输出的辅助信息；

对于每个测试图像，通过所述编码器计算得到对应的第二后验分布，并根据所述第二后验分布确定第二潜在向量；

对于每个第二潜在向量，通过所述解码器计算得到对应的第二似然分布，并根据所述第二似然分布确定第二重构图像；

将所有的第二重构图像组成生成图像数据集，并输出所述生成图像数据集。

在一个实施例中，可选的，所述方法还包括：

当确定所述测试数据集是随机噪声数据集时，确定每个随机噪声对应的噪声向量；

将所述噪声向量确定为第三潜在向量；

对于每个第三潜在向量，通过所述解码器计算得到对应的第三似然分布，并根据所述第三似然分布确定第三重构图像；

将所有的第三重构图像组成生成图像数据集，并输出所述生成图像数据集。

需要说明的是，上述关于计算机可读存储介质或电子设备所能实现的功能或步骤，可对应参阅前述方法实施例中的相关描述，为避免重复，这里不再一一描述。

以上结合附图详细说明了本申请的技术方案，利用分形理论中的分形维数来度量数据的复杂度和多样性，并将其作为一个正则化项加入到深度生成模型的目标函数中，从而避免过拟合和欠拟合，而利用分形理论中的分形维数谱来描述数据在不同尺度上的局部特征，并将其作为一个辅助信息加入到深度生成模型的输入或输出中，从而增强数据的表达能力和灵活性。通过上述训练方法训练得到的深度生成模型进行数据生成时，可以提高数据生成的质量、速度和鲁棒性。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本申请实施例中可能采用术语第一、第二等来描述设置单元，但这些设置单元不应限于这些术语。这些术语仅用来将设置单元彼此区分开。例如，在不脱离本申请实施例范围的情况下，第一设置单元也可以被称为第二设置单元，类似地，第二设置单元也可以被称为第一设置单元。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种深度生成模型的训练方法，其特征在于，包括：

获取训练图像数据集；

2.根据权利要求1所述的深度生成模型的训练方法，其特征在于，利用所述训练图像数据集对所述深度生成模型进行训练，以得到目标深度生成模块，包括：

3.根据权利要求1所述的深度生成模型的训练方法，其特征在于，根据所述第一潜在向量和所述第一重构图像计算所述深度生成模型的损失函数，包括：

4.根据权利要求1所述的深度生成模型的训练方法，其特征在于，所述深度生成模型的目标函数包括：

5.根据权利要求1所述的深度生成模型的训练方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的深度生成模型的训练方法，其特征在于，所述方法还包括：

将所述噪声向量确定为第三潜在向量；

7.根据权利要求1所述的深度生成模型的训练方法，其特征在于，所述编码器和解码器均包括多个分形变换层，每个分形变换层包括仿射变换和非线性激活函数。

8.一种深度生成模型的训练装置，其特征在于，包括：

获取模块，用于获取训练图像数据集；

9.一种计算机设备，其特征在于，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被设置为用于执行上述权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，存储有计算机可执行指令，所述计算机可执行指令用于执行如权利要求1至7中任一项所述的方法。