CN115935817A

CN115935817A - 一种基于扩散模型的快速模型生成方法

Info

Publication number: CN115935817A
Application number: CN202211550536.1A
Authority: CN
Inventors: 陈晋音; 赵晓明; 郭海峰; 郑海斌
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-12-05
Filing date: 2022-12-05
Publication date: 2023-04-07

Abstract

一种基于扩散模型的快速模型生成方法，包括：S1、确定目标模型；S2、训练扩散模型，通过扩散模型生成执行目标模型的输入查询，将扩散模型生成的数据输入目标模型中，对目标模型进行迭代查询；S3、使用零阶梯度估计不断更新扩散模型的梯度，优化扩散模型的参数，使生成数据拟合目标决策边界；S4、通过生成数据构建输入输出预测对，拟合目标模型决策边界，通过决策边界根据样本在特征空间的位置对该样本的类型进行预测，获取数据集的数据分布，构建虚拟数据集，训练快速生成模型。本发明不需要访问目标模型数据集以及目标模型的结构等，同时保证了模型生成的速度以及准确性。

Description

一种基于扩散模型的快速模型生成方法

技术领域

本发明涉及一种快速模型生成方法，尤其涉及一种基于扩散模型的快速模型生成方法。

背景技术

深度神经网络(DNN)在各种具有挑战性的计算机视觉任务中实现最先进性能的能力促使公司广泛采用这些模型，以实现各种产品和服务，如自动驾驶汽车、车牌读取、医学图像疾病诊断、图像和视频活动分类以及智能摄像头。

随着ML模型的性能随着训练数据的增长而增长，公司在收集大量数据以训练高性能ML模型方面投入了大量资金。保护这些模型的机密性对于公司保持竞争优势和防止被盗模型被对手滥用以损害安全和隐私至关重要。例如，攻击者可以使用窃取的模型来制作对抗性示例，通过成员身份推断攻击来危害用户成员身份隐私，并通过模型反转攻击来泄漏用于训练模型的敏感用户数据。因此，ML模型被认为是所有者的宝贵知识产权，并受到严密保护，防止被盗和数据泄露。随着近年来互联网的迅速发展，机器学习即服务(machinelearning as a service)也渐渐地流行起来，也把云服务提升到了一个新的水平。部署在云上的机器学习模型可以通过应用程序编程接口(API)为用户提供服务，提高生产率。这些云模型是密集劳动和金钱努力的产物，因此模型是有价值的知识产权。大厂为了训练模型，需要花费大量的时间、金钱、人力去收集处理数据，然后花费大量精力训练模型。针对云上的机器学习模型，用户可以通过提高的公共API访问经过良好训练的机器学习模型，通过MLaaS提供者，而无需从零开始构建模型。但是，目前还没有一个机器学习模型平台可以，快速生成所需目标模型，通过API进行访问，使用各种机器学习模型。针对目前还未有基于深度学习的快速生成机器学习模型的方法，因此急需一种新的快速模型生成方法，该方法通过克隆云上的机器学习模型，快速生成目标机器学习模型。

发明内容

针对现有技术不足，本发明提出了一种基于扩散模型的快速模型生成方法。

为解决上述技术问题，本发明的技术方案为：

本发明实施例的第一方面提供了基于扩散模型的快速模型生成方法，所述方法包括以下步骤：

S1、确定目标模型(分类模型)。

S2、训练扩散模型，通过扩散模型生成执行目标模型的输入查询(虚拟数据集)，将扩散模型生成的数据输入目标模型中，对目标模型进行迭代查询；

S3、使用零阶梯度估计不断更新扩散模型的梯度，优化扩散模型的参数，使生成数据拟合目标决策边界；

S4、通过生成数据构建输入输出预测对，拟合目标模型决策边界，通过决策边界根据样本在特征空间的位置对该样本的类型进行预测，获取数据集的数据分布，构建虚拟数据集，训练快速生成模型。

本发明提出了一种基于扩散模型的快速模型生成方法，该方法首先选定目标模型，然后通过依靠扩散模型强大的生成能力不断生成数据，通过生成数据对目标模型进行输入查询获得输出概率，通过使用零阶梯度估计不断更新扩散模型的梯度，优化扩散模型的参数，实现拟合目标模型的决策边界，最大可能获得目标模型的数据分布，最后快速训练出目标模型。其主要思想就是利用扩散模型强大的生成能力的同时，通过不断迭代查询目标模型，获取其输出预测，拟合目标模型决策边界，得到其数据分布，最后生成模型。

本发明的有益效果为：对于现有生成模型方法需要花费大量时间与金钱，提出了一种基于扩散模型的快速模型生成方法。通过扩散模型强大的生成能力，将扩散模型生成的数据输入到目标模型中，将目标模型的输出预测与输入构建输入输出预测对，实现拟合目标模型决策边界，获取数据分布达到快速生成模型的效果。该方法不需要访问目标模型数据集以及目标模型的结构等，同时保证了模型生成的速度以及准确性。

附图说明

图1本发明方法的流程图；

图2是本发明的基于扩散模型生成数据模型。

具体实施方式

下面结合附图，对本发明进行详细说明。在不冲突的情况下，下述的实施例及实施方式中的特征可以相互组合。

本发明的技术构思为：现有的生成模型方法需要花费大量的时间、金钱、人力去收集处理数据，然后花费大量精力训练模型，目前还没有一种快速生成模型的方法。因此本发明提出了一种基于扩散模型的快速模型生成方法，首先，通过扩散模型强大的生成能力，将生成的数据作为输入，对目标模型进行迭代查询。然后，将目标模型的输出预测与输入构建输入输出对，拟合目标模型的边界决策。通过决策边界对数据样本进行预测，获取其数据分布，最后训练快速模型。其主要思想就是依靠扩散模型的生成能力，通过输出预测的方式，拟合目标模型的决策边界，获取数据分布，达到快速生成模型的效果。

应用本发明提供一种基于扩散模型的快速模型生成方法的用户图像分类模型推荐方法，请参考图1和图2，所述方法包括以下步骤：

S1、确定目标模型。

具体为：在一种图像推荐的应用场景下，以图像分类模型平台EasyDL为例，生成模型的任务为目标用户图像喜好的进行分类，从而推荐对应类型的图像。各客户端以各种方式获取EasyDL图像分类平台相关数据，输入图像信息，创建图像分类模型，最后快速生成图像分类模型，将图像推荐给用户。本发明提供的方法是通过扩散模型生成样本数据，通过不断迭代查询目标模型得到模型的输出预测，通过拟合模型的决策边界获得其数据分布，因此要求目标模型是进行图像分类任务的机器学习模型。

S2、训练扩散模型生成输入查询。

扩散模型前向过程由于每个时刻t只与t-1时刻有关，所以可以看作马尔科夫过程，在马尔科夫链的前向采样过程中，也就是扩散过程中可以将数据转换为高斯分布。即扩散过程通过T次累积对输入数据x_i添加高斯噪声，将这个跟马尔可夫假设相结合，于是可以对扩散过程表达成：

其中β₁,…,β_T是高斯分布方差的超参数。在扩散过程中，随着t的增大，x_t越来越接近纯噪声。当T足够大的时候，x_T可以收敛为标准高斯噪声N(0,I)。

在训练时候，模型学习逆扩散过程的概率分布，以生成新数据。

从纯高斯噪声

开始，模型将学习联合概率分布p_θ(x_T:0)：

根据马尔可夫规则表示，逆扩散过程当前时间步t只取决于上一个时间步t-1，所以有：

训练扩散模型生成输入查询通过最大化

和

之间的KL差异，用于训练扩散模型的损失函数由以下方程确定：

在这个损失函数上训练扩散模型G可以最大限度地消除目标预测和生成模型之间的不一致。因为生成模型S和扩散模型G具有相反的目标，所以将这两个模型训练在一起会产生一个双人游戏，类似于生成对抗网络，从而产生最大化生成模型学习的输入。通过训练生成模型S匹配目标模型M对扩散模型G生成的查询的预测，可以进行知识蒸馏，得到一个高度精确的生成模型。

使用上式中的损失函数训练扩散模型G，需要通过目标模型M的预测进行反向传播，但是只有对目标模型M的黑盒访问，无法直接执行反向传播，从而阻止训练扩散模型G并执行生成模型。为了解决这个问题，使用零阶梯度估计来近似损失函数

的梯度。零阶梯度估计所需的黑盒查询的数量随着被优化的参数的位数而缩放，直接估计

相对于生成器参数θ_G的梯度是昂贵的，因为扩散模型有数百万个参数。因此，本发明选择对扩散模型产生的生成输入x的梯度进行估计，它的维数要低得多，并使用这个估计值对扩散模型G进行反向传播。这种修改允许本发明以查询高效的方式计算梯度估计来更新扩散模型。

S3、零阶梯度估计更新扩散模型参数。

零阶梯度估计是在黑盒设置下进行优化的常用技术。使用这种技术来训练扩散模型G。目标是使用梯度下降来更新扩散模型参数θ_G，以最小化损失函数

更新θ_G要求计算损失函数

通过使用链式法则，

可以分解成两个分量：

通过G执行反向传播来计算第二项，然而计算第一项x需要访问目标模型的模型参数，但是因为是黑盒设置，无法访问目标模型的模型参数。

通过利用零阶梯度估计来使用梯度的近似，考虑由G生成的输入向量x用于查询目标模型M。我们可以使用正向差分的方法来估计

其中u_i是从d维单位球中提取的具有均匀概率的随机变量，x是一个叫做平滑因子的小正常数。

随机梯度估计，如上式所示，往往具有较高的方差。为了减少方差，使用随机梯度估计的平均值，通过使用m个随机方向u₁,…,u_m计算前向差。

其中，

是对真实梯度

的估计，然后可以计算扩散模型G损失函数梯度的近似值。通过这种方法计算的梯度估计

可以更新扩散模型G的参数来进行梯度下降。通过更新扩散模型G，可以训练G执行生成模型所需的输入示例。

S4、训练生成模型。

生成模型使用扩散模型生成的输入查询进行训练。扩散模型G接受一个从随机正态分布中采样的低维潜在向量z，并生成一个与目标分类器的输入维数匹配的输入查询x。

然后用x得到目标模型

的输出概率，并在x上生成模型

θ_M,θ_S,θ_G分别代表目标、生成和扩散模型的参数。生成模型使用以下方程中的损失函数进行训练以最小化

和

之间的KL散度(相对熵)。

通过损失函数最小化目标模型和生成模型之间的KL散度。KL散度是用来衡量两个概率分布的相似性的一个度量指标，近似估计的概率分布和数据整体真实的概率分布的相似度，或者说差异程度。其定义如下所示：

利用KL散度，可以精确地计算出近似目标模型分布与生成模型分布时损失了多少信息，从而最大化对其目标模型，实现高精度生成模型。

不同数据集下不同方法下EasyDL图像分类模型平台上生成模型准确率如下表所示：

从结果可以看出，本发明提供的快速生成模型方法，对于不同数据集，以及与其他不同模型生成方法比较，对数据要求最低的场景下，能够为用户提高更精确地生成模型，从而实现为用户精准地生成图像分类模型。

S5、输入用户图像特征至模型，实现图像推荐。

当图像分类模型平台获取新的用户网络或是在原有网络的基础上增加新的图像特征时，根据用户需求，构建新的图像分类模型，进而快速生成图像分类模型，将图像推荐给用户。

Claims

1.一种基于扩散模型的快速模型生成方法，包括如下步骤：

S1、确定目标模型(分类模型)；

2.如权利要求1所述的一种基于扩散模型的快速模型生成方法，其特征在于：步骤S1具体包括：

各客户端以各种方式获取EasyDL图像分类平台相关数据，输入图像信息，创建图像分类模型，最后快速生成图像分类模型，将图像推荐给用户；通过扩散模型生成样本数据，通过不断迭代查询目标模型得到模型的输出预测，通过拟合模型的决策边界获得其数据分布，因此目标模型是进行图像分类任务的机器学习模型。

3.如权利要求1所述的一种基于扩散模型的快速模型生成方法，其特征在于：步骤S2具体包括：

扩散模型前向过程由于每个时刻t只与t-1时刻有关，所以可以看作马尔科夫过程，在马尔科夫链的前向采样过程中，也就是扩散过程中可以将数据转换为高斯分布；即扩散过程通过T次累积对输入数据x_i添加高斯噪声，将这个跟马尔可夫假设相结合，于是可以对扩散过程表达成：

其中β₁,…,β_T是高斯分布方差的超参数；在扩散过程中，随着t的增大，x_t越来越接近纯噪声；当T足够大的时候，x_T可以收敛为标准高斯噪声N(0,I)；

在训练时候，模型学习逆扩散过程的概率分布，以生成新数据；

从纯高斯噪声p(x_T)：＝N(x_T；0,I)开始，模型将学习联合概率分布p_θ(x_T:0)：

p_θ(x_t-1|x_t):＝Ν(x_t-1；μ_θ(x_t,t),∑_θ(x_t,t)) (3)

训练扩散模型生成输入查询通过最大化

和

在这个损失函数上训练扩散模型G可以最大限度地消除目标预测和生成模型之间的不一致；因为生成模型S和扩散模型G具有相反的目标，所以将这两个模型训练在一起会产生一个双人游戏，类似于生成对抗网络，从而产生最大化生成模型学习的输入；通过训练生成模型S匹配目标模型M对扩散模型G生成的查询的预测，可以进行知识蒸馏，得到一个高度精确的生成模型；

使用上式中的损失函数训练扩散模型G，需要通过目标模型M的预测进行反向传播，但是只有对目标模型M的黑盒访问，无法直接执行反向传播，从而阻止训练扩散模型G并执行生成模型；为了解决这个问题，使用零阶梯度估计来近似损失函数