CN115935817A - 一种基于扩散模型的快速模型生成方法 - Google Patents
一种基于扩散模型的快速模型生成方法 Download PDFInfo
- Publication number
- CN115935817A CN115935817A CN202211550536.1A CN202211550536A CN115935817A CN 115935817 A CN115935817 A CN 115935817A CN 202211550536 A CN202211550536 A CN 202211550536A CN 115935817 A CN115935817 A CN 115935817A
- Authority
- CN
- China
- Prior art keywords
- model
- diffusion
- target
- gradient
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000009792 diffusion process Methods 0.000 title claims abstract description 95
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000009826 distribution Methods 0.000 claims abstract description 28
- 230000006870 function Effects 0.000 claims description 16
- 238000013145 classification model Methods 0.000 claims description 13
- 238000010801 machine learning Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 8
- 230000035508 accumulation Effects 0.000 claims description 2
- 238000009825 accumulation Methods 0.000 claims description 2
- 230000003042 antagnostic effect Effects 0.000 claims description 2
- 235000000332 black box Nutrition 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000009499 grossing Methods 0.000 claims description 2
- 238000013140 knowledge distillation Methods 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 238000005259 measurement Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010367 cloning Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Analysis (AREA)
Abstract
一种基于扩散模型的快速模型生成方法,包括:S1、确定目标模型;S2、训练扩散模型,通过扩散模型生成执行目标模型的输入查询,将扩散模型生成的数据输入目标模型中,对目标模型进行迭代查询;S3、使用零阶梯度估计不断更新扩散模型的梯度,优化扩散模型的参数,使生成数据拟合目标决策边界;S4、通过生成数据构建输入输出预测对,拟合目标模型决策边界,通过决策边界根据样本在特征空间的位置对该样本的类型进行预测,获取数据集的数据分布,构建虚拟数据集,训练快速生成模型。本发明不需要访问目标模型数据集以及目标模型的结构等,同时保证了模型生成的速度以及准确性。
Description
技术领域
本发明涉及一种快速模型生成方法,尤其涉及一种基于扩散模型的快速模型生成方法。
背景技术
深度神经网络(DNN)在各种具有挑战性的计算机视觉任务中实现最先进性能的能力促使公司广泛采用这些模型,以实现各种产品和服务,如自动驾驶汽车、车牌读取、医学图像疾病诊断、图像和视频活动分类以及智能摄像头。
随着ML模型的性能随着训练数据的增长而增长,公司在收集大量数据以训练高性能ML模型方面投入了大量资金。保护这些模型的机密性对于公司保持竞争优势和防止被盗模型被对手滥用以损害安全和隐私至关重要。例如,攻击者可以使用窃取的模型来制作对抗性示例,通过成员身份推断攻击来危害用户成员身份隐私,并通过模型反转攻击来泄漏用于训练模型的敏感用户数据。因此,ML模型被认为是所有者的宝贵知识产权,并受到严密保护,防止被盗和数据泄露。随着近年来互联网的迅速发展,机器学习即服务(machinelearning as a service)也渐渐地流行起来,也把云服务提升到了一个新的水平。部署在云上的机器学习模型可以通过应用程序编程接口(API)为用户提供服务,提高生产率。这些云模型是密集劳动和金钱努力的产物,因此模型是有价值的知识产权。大厂为了训练模型,需要花费大量的时间、金钱、人力去收集处理数据,然后花费大量精力训练模型。针对云上的机器学习模型,用户可以通过提高的公共API访问经过良好训练的机器学习模型,通过MLaaS提供者,而无需从零开始构建模型。但是,目前还没有一个机器学习模型平台可以,快速生成所需目标模型,通过API进行访问,使用各种机器学习模型。针对目前还未有基于深度学习的快速生成机器学习模型的方法,因此急需一种新的快速模型生成方法,该方法通过克隆云上的机器学习模型,快速生成目标机器学习模型。
发明内容
针对现有技术不足,本发明提出了一种基于扩散模型的快速模型生成方法。
为解决上述技术问题,本发明的技术方案为:
本发明实施例的第一方面提供了基于扩散模型的快速模型生成方法,所述方法包括以下步骤:
S1、确定目标模型(分类模型)。
S2、训练扩散模型,通过扩散模型生成执行目标模型的输入查询(虚拟数据集),将扩散模型生成的数据输入目标模型中,对目标模型进行迭代查询;
S3、使用零阶梯度估计不断更新扩散模型的梯度,优化扩散模型的参数,使生成数据拟合目标决策边界;
S4、通过生成数据构建输入输出预测对,拟合目标模型决策边界,通过决策边界根据样本在特征空间的位置对该样本的类型进行预测,获取数据集的数据分布,构建虚拟数据集,训练快速生成模型。
本发明提出了一种基于扩散模型的快速模型生成方法,该方法首先选定目标模型,然后通过依靠扩散模型强大的生成能力不断生成数据,通过生成数据对目标模型进行输入查询获得输出概率,通过使用零阶梯度估计不断更新扩散模型的梯度,优化扩散模型的参数,实现拟合目标模型的决策边界,最大可能获得目标模型的数据分布,最后快速训练出目标模型。其主要思想就是利用扩散模型强大的生成能力的同时,通过不断迭代查询目标模型,获取其输出预测,拟合目标模型决策边界,得到其数据分布,最后生成模型。
本发明的有益效果为:对于现有生成模型方法需要花费大量时间与金钱,提出了一种基于扩散模型的快速模型生成方法。通过扩散模型强大的生成能力,将扩散模型生成的数据输入到目标模型中,将目标模型的输出预测与输入构建输入输出预测对,实现拟合目标模型决策边界,获取数据分布达到快速生成模型的效果。该方法不需要访问目标模型数据集以及目标模型的结构等,同时保证了模型生成的速度以及准确性。
附图说明
图1本发明方法的流程图;
图2是本发明的基于扩散模型生成数据模型。
具体实施方式
下面结合附图,对本发明进行详细说明。在不冲突的情况下,下述的实施例及实施方式中的特征可以相互组合。
本发明的技术构思为:现有的生成模型方法需要花费大量的时间、金钱、人力去收集处理数据,然后花费大量精力训练模型,目前还没有一种快速生成模型的方法。因此本发明提出了一种基于扩散模型的快速模型生成方法,首先,通过扩散模型强大的生成能力,将生成的数据作为输入,对目标模型进行迭代查询。然后,将目标模型的输出预测与输入构建输入输出对,拟合目标模型的边界决策。通过决策边界对数据样本进行预测,获取其数据分布,最后训练快速模型。其主要思想就是依靠扩散模型的生成能力,通过输出预测的方式,拟合目标模型的决策边界,获取数据分布,达到快速生成模型的效果。
应用本发明提供一种基于扩散模型的快速模型生成方法的用户图像分类模型推荐方法,请参考图1和图2,所述方法包括以下步骤:
S1、确定目标模型。
具体为:在一种图像推荐的应用场景下,以图像分类模型平台EasyDL为例,生成模型的任务为目标用户图像喜好的进行分类,从而推荐对应类型的图像。各客户端以各种方式获取EasyDL图像分类平台相关数据,输入图像信息,创建图像分类模型,最后快速生成图像分类模型,将图像推荐给用户。本发明提供的方法是通过扩散模型生成样本数据,通过不断迭代查询目标模型得到模型的输出预测,通过拟合模型的决策边界获得其数据分布,因此要求目标模型是进行图像分类任务的机器学习模型。
S2、训练扩散模型生成输入查询。
扩散模型前向过程由于每个时刻t只与t-1时刻有关,所以可以看作马尔科夫过程,在马尔科夫链的前向采样过程中,也就是扩散过程中可以将数据转换为高斯分布。即扩散过程通过T次累积对输入数据xi添加高斯噪声,将这个跟马尔可夫假设相结合,于是可以对扩散过程表达成:
其中β1,…,βT是高斯分布方差的超参数。在扩散过程中,随着t的增大,xt越来越接近纯噪声。当T足够大的时候,xT可以收敛为标准高斯噪声N(0,I)。
在训练时候,模型学习逆扩散过程的概率分布,以生成新数据。
根据马尔可夫规则表示,逆扩散过程当前时间步t只取决于上一个时间步t-1,所以有:
在这个损失函数上训练扩散模型G可以最大限度地消除目标预测和生成模型之间的不一致。因为生成模型S和扩散模型G具有相反的目标,所以将这两个模型训练在一起会产生一个双人游戏,类似于生成对抗网络,从而产生最大化生成模型学习的输入。通过训练生成模型S匹配目标模型M对扩散模型G生成的查询的预测,可以进行知识蒸馏,得到一个高度精确的生成模型。
使用上式中的损失函数训练扩散模型G,需要通过目标模型M的预测进行反向传播,但是只有对目标模型M的黑盒访问,无法直接执行反向传播,从而阻止训练扩散模型G并执行生成模型。为了解决这个问题,使用零阶梯度估计来近似损失函数的梯度。零阶梯度估计所需的黑盒查询的数量随着被优化的参数的位数而缩放,直接估计相对于生成器参数θG的梯度是昂贵的,因为扩散模型有数百万个参数。因此,本发明选择对扩散模型产生的生成输入x的梯度进行估计,它的维数要低得多,并使用这个估计值对扩散模型G进行反向传播。这种修改允许本发明以查询高效的方式计算梯度估计来更新扩散模型。
S3、零阶梯度估计更新扩散模型参数。
通过G执行反向传播来计算第二项,然而计算第一项x需要访问目标模型的模型参数,但是因为是黑盒设置,无法访问目标模型的模型参数。
其中ui是从d维单位球中提取的具有均匀概率的随机变量,x是一个叫做平滑因子的小正常数。
随机梯度估计,如上式所示,往往具有较高的方差。为了减少方差,使用随机梯度估计的平均值,通过使用m个随机方向u1,…,um计算前向差。
S4、训练生成模型。
生成模型使用扩散模型生成的输入查询进行训练。扩散模型G接受一个从随机正态分布中采样的低维潜在向量z,并生成一个与目标分类器的输入维数匹配的输入查询x。
通过损失函数最小化目标模型和生成模型之间的KL散度。KL散度是用来衡量两个概率分布的相似性的一个度量指标,近似估计的概率分布和数据整体真实的概率分布的相似度,或者说差异程度。其定义如下所示:
利用KL散度,可以精确地计算出近似目标模型分布与生成模型分布时损失了多少信息,从而最大化对其目标模型,实现高精度生成模型。
不同数据集下不同方法下EasyDL图像分类模型平台上生成模型准确率如下表所示:
从结果可以看出,本发明提供的快速生成模型方法,对于不同数据集,以及与其他不同模型生成方法比较,对数据要求最低的场景下,能够为用户提高更精确地生成模型,从而实现为用户精准地生成图像分类模型。
S5、输入用户图像特征至模型,实现图像推荐。
当图像分类模型平台获取新的用户网络或是在原有网络的基础上增加新的图像特征时,根据用户需求,构建新的图像分类模型,进而快速生成图像分类模型,将图像推荐给用户。
Claims (5)
1.一种基于扩散模型的快速模型生成方法,包括如下步骤:
S1、确定目标模型(分类模型);
S2、训练扩散模型,通过扩散模型生成执行目标模型的输入查询(虚拟数据集),将扩散模型生成的数据输入目标模型中,对目标模型进行迭代查询;
S3、使用零阶梯度估计不断更新扩散模型的梯度,优化扩散模型的参数,使生成数据拟合目标决策边界;
S4、通过生成数据构建输入输出预测对,拟合目标模型决策边界,通过决策边界根据样本在特征空间的位置对该样本的类型进行预测,获取数据集的数据分布,构建虚拟数据集,训练快速生成模型。
2.如权利要求1所述的一种基于扩散模型的快速模型生成方法,其特征在于:步骤S1具体包括:
各客户端以各种方式获取EasyDL图像分类平台相关数据,输入图像信息,创建图像分类模型,最后快速生成图像分类模型,将图像推荐给用户;通过扩散模型生成样本数据,通过不断迭代查询目标模型得到模型的输出预测,通过拟合模型的决策边界获得其数据分布,因此目标模型是进行图像分类任务的机器学习模型。
3.如权利要求1所述的一种基于扩散模型的快速模型生成方法,其特征在于:步骤S2具体包括:
扩散模型前向过程由于每个时刻t只与t-1时刻有关,所以可以看作马尔科夫过程,在马尔科夫链的前向采样过程中,也就是扩散过程中可以将数据转换为高斯分布;即扩散过程通过T次累积对输入数据xi添加高斯噪声,将这个跟马尔可夫假设相结合,于是可以对扩散过程表达成:
其中β1,…,βT是高斯分布方差的超参数;在扩散过程中,随着t的增大,xt越来越接近纯噪声;当T足够大的时候,xT可以收敛为标准高斯噪声N(0,I);
在训练时候,模型学习逆扩散过程的概率分布,以生成新数据;
从纯高斯噪声p(xT):=N(xT;0,I)开始,模型将学习联合概率分布pθ(xT:0):
根据马尔可夫规则表示,逆扩散过程当前时间步t只取决于上一个时间步t-1,所以有:
pθ(xt-1|xt):=Ν(xt-1;μθ(xt,t),∑θ(xt,t)) (3)
在这个损失函数上训练扩散模型G可以最大限度地消除目标预测和生成模型之间的不一致;因为生成模型S和扩散模型G具有相反的目标,所以将这两个模型训练在一起会产生一个双人游戏,类似于生成对抗网络,从而产生最大化生成模型学习的输入;通过训练生成模型S匹配目标模型M对扩散模型G生成的查询的预测,可以进行知识蒸馏,得到一个高度精确的生成模型;
4.如权利要求1所述的一种基于扩散模型的快速模型生成方法,其特征在于:步骤S3具体包括:
通过G执行反向传播来计算第二项,然而计算第一项x需要访问目标模型的模型参数,但是因为是黑盒设置,无法访问目标模型的模型参数;
其中ui是从d维单位球中提取的具有均匀概率的随机变量,x是一个叫做平滑因子的小正常数;
随机梯度估计,如上式所示,往往具有较高的方差;为了减少方差,使用随机梯度估计的平均值,通过使用m个随机方向u1,…,um计算前向差;
5.如权利要求1所述的一种基于扩散模型的快速模型生成方法,其特征在于:步骤S4具体包括:
生成模型使用扩散模型生成的输入查询进行训练;扩散模型G接受一个从随机正态分布中采样的低维潜在向量z,并生成一个与目标分类器的输入维数匹配的输入查询x;
通过损失函数最小化目标模型和生成模型之间的KL散度;KL散度是用来衡量两个概率分布的相似性的一个度量指标,近似估计的概率分布和数据整体真实的概率分布的相似度,或者说差异程度;其定义如下所示:
利用KL散度,可以精确地计算出近似目标模型分布与生成模型分布时损失了多少信息,从而最大化对其目标模型,实现高精度生成模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211550536.1A CN115935817A (zh) | 2022-12-05 | 2022-12-05 | 一种基于扩散模型的快速模型生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211550536.1A CN115935817A (zh) | 2022-12-05 | 2022-12-05 | 一种基于扩散模型的快速模型生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115935817A true CN115935817A (zh) | 2023-04-07 |
Family
ID=86551641
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211550536.1A Withdrawn CN115935817A (zh) | 2022-12-05 | 2022-12-05 | 一种基于扩散模型的快速模型生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115935817A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117274732A (zh) * | 2023-09-18 | 2023-12-22 | 广东石油化工学院 | 一种基于情景记忆驱动构建优化扩散模型的方法和系统 |
-
2022
- 2022-12-05 CN CN202211550536.1A patent/CN115935817A/zh not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117274732A (zh) * | 2023-09-18 | 2023-12-22 | 广东石油化工学院 | 一种基于情景记忆驱动构建优化扩散模型的方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11875488B2 (en) | Method and device for parallel processing of retinal images | |
CN111127364B (zh) | 图像数据增强策略选择方法及人脸识别图像数据增强方法 | |
CN103262118A (zh) | 属性值估计装置、属性值估计方法、程序和记录介质 | |
US20200082154A1 (en) | Computer vision neural network system | |
Ganguly et al. | An introduction to variational inference | |
Zhang et al. | Variational Bayesian inference for robust streaming tensor factorization and completion | |
Nijkamp et al. | Mcmc should mix: Learning energy-based model with neural transport latent space mcmc | |
WO2022193469A1 (en) | System and method for ai model watermarking | |
Mesquita et al. | Embarrassingly parallel MCMC using deep invertible transformations | |
Shu et al. | Perf-al: Performance prediction for configurable software through adversarial learning | |
CN115935817A (zh) | 一种基于扩散模型的快速模型生成方法 | |
Dunn et al. | Parisian camera placement for vision metrology | |
Wild et al. | Connections and equivalences between the Nyström method and sparse variational Gaussian processes | |
Nababan et al. | Implementation of K-Nearest Neighbors (KNN) algorithm in classification of data water quality | |
Ankam et al. | Generalized Dirichlet Regression and other Compositional Models with Application to Market-share Data Mining of Information Technology Companies. | |
Arafan et al. | End-to-End Bias Mitigation in Candidate Recommender Systems with Fairness Gates. | |
CN116644439B (zh) | 一种基于去噪扩散模型的模型安全性评估方法 | |
CN117671261A (zh) | 面向遥感图像的无源域噪声感知域自适应分割方法 | |
CN116978100A (zh) | 人脸识别模型训练方法、人脸识别方法、装置及存储介质 | |
CN108428226B (zh) | 一种基于ica稀疏表示与som的失真图像质量评价方法 | |
CN115953584A (zh) | 一种具有可学习稀疏性的端到端目标检测方法及系统 | |
CN115759297A (zh) | 一种联邦学习方法、装置、介质及计算机设备 | |
Celestine et al. | Investigations on adaptive connectivity and shape prior based fuzzy graph‐cut colour image segmentation | |
Chamand et al. | Fine-tune your classifier: Finding correlations with temperature | |
Hadj-Selem et al. | An iterative smoothing algorithm for regression with structured sparsity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20230407 |
|
WW01 | Invention patent application withdrawn after publication |