CN117296061A - 具有改进准确度和减少的计算资源消耗的扩散模型 - Google Patents

具有改进准确度和减少的计算资源消耗的扩散模型 Download PDF

Info

Publication number
CN117296061A
CN117296061A CN202280034292.3A CN202280034292A CN117296061A CN 117296061 A CN117296061 A CN 117296061A CN 202280034292 A CN202280034292 A CN 202280034292A CN 117296061 A CN117296061 A CN 117296061A
Authority
CN
China
Prior art keywords
model
noise
data
computer
learned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280034292.3A
Other languages
English (en)
Inventor
D·P·金格玛
T·萨利曼斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN117296061A publication Critical patent/CN117296061A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种用于使用具有改进准确度的扩散模型的计算机实施的方法,包括:获得输入数据,输入数据包括一个或多个通道;将输入数据提供给机器学习扩散模型,机器学习扩散模型包括:加噪模型,包括多个加噪级,加噪模型被配置为引入噪声以接收输入数据并且响应于输入数据的接收而产生中间数据;以及去噪模型,被配置为根据中间数据重构输出数据;以及由计算系统接收来自机器学习扩散模型的输出数据。扩散模型可以包括学习的噪声计划表。附加地和/或可替代地,去噪模型的输入可以包括傅立叶特征集合。附加地和/或可替代地,可以至少部分地基于证据下界的连续时间损失来训练扩散模型。

Description

具有改进准确度和减少的计算资源消耗的扩散模型
相关申请
本申请要求于2021年6月14日提交的美国临时专利申请第63/210,314号的优先权和权益。美国临时专利申请第63/210,314号通过引用整体并入本文。
技术领域
本公开总体上涉及机器学习。更具体地,本公开涉及具有改进准确度的扩散模型。
背景技术
基于似然性的生成式建模是机器学习中作为一系列应用的基础的中心任务。自回归模型由于其易处理的似然性和表达性,长期以来一直是对这种任务的主导模型类。扩散模型是一类包括加噪模型(Noising Model)和去噪模型(Denoising Model)的机器学习模型。扩散模型尚未在密度估计基准上匹配自回归模型。
发明内容
本公开的实施例的方面和优点将在以下描述中部分地阐述,或者可以从描述中获知,或者可以通过实施例的实践而获知。
本公开的一个示例方面针对一种利用傅立叶特征进行改进的精细尺度预测的计算系统。该计算系统包括一个或多个处理器和一个或多个非暂时性计算机可读介质,它们共同存储:机器学习扩散模型的至少去噪模型,扩散模型包括:加噪模型,包括多个加噪级,加噪模型被配置为接收输入数据并且响应于输入数据的接收而产生潜在数据;以及去噪模型,被配置为根据潜在数据重构输出数据;其中至去噪模型的输入包括傅立叶特征集合,傅立叶特征集合包括多个加噪级中的至少一个级的通道的线性投影;以及指令,指令在由一个或多个处理器执行时使得计算系统执行去噪模型来处理潜在数据以生成输出数据。
本公开的另一示例方面针对一种用于使用具有改进准确度的扩散模型的计算机实施的方法,该方法包括:由包括一个或多个计算设备的计算系统获得输入数据,输入数据包括一个或多个通道;由计算系统向机器学习扩散模型提供输入数据,机器学习扩散模型包括:加噪模型,包括多个加噪级,加噪模型被配置为引入噪声以接收输入数据并且响应于输入数据的接收而产生中间数据;以及去噪模型,被配置为根据中间数据重构输出数据;其中至去噪模型的输入包括傅立叶特征集合,傅立叶特征集合包括多个加噪级中的至少一个级的通道的线性投影;以及由计算系统接收来自机器学习扩散模型的输出数据。
本公开的另一示例方面针对共同存储扩散模型的至少加噪模型的一个或多个非暂时性计算机可读介质,扩散模型包括:加噪模型,包括多个加噪级,加噪模型被配置为根据噪声计划表将噪声引入输入数据以产生中间数据;以及去噪模型,被配置为根据中间数据重构输出数据;其中噪声计划表是包括一个或多个学习的参数值的学习的噪声计划表。
本公开的另一示例方面针对一种用于使用具有改进准确度的扩散模型的计算机实施的方法,该方法包括:由包括一个或多个计算设备的计算系统获得输入数据,输入数据包括一个或多个通道;由计算系统向机器学习扩散模型提供输入数据,机器学习扩散模型包括:加噪模型,包括多个加噪级,加噪模型被配置为引入噪声以接收输入数据并且响应于输入数据的接收而产生中间数据;以及去噪模型,被配置为根据中间数据重构输出数据;其中扩散模型包括学习的噪声计划表;以及由计算系统接收来自机器学习扩散模型的输出数据。
本公开的另一示例方面针对一种用于在消耗较少计算资源的同时训练扩散模型的计算机实施的方法,该方法包括:由包括一个或多个计算设备的计算系统获得训练数据,训练数据包括一个或多个通道;由计算系统向机器学习扩散模型提供训练数据,机器学习扩散模型包括:加噪模型,包括多个加噪级,加噪模型被配置为引入噪声以接收训练数据并且响应于训练数据的接收而产生中间数据;以及去噪模型,被配置为根据中间数据重构输出数据;以及由计算系统至少部分地基于机器学习扩散模型与训练数据的使用来确定训练损失,其中通过朝着证据下界优化机器学习扩散模型的参数来训练扩散模型,其中证据下界包括连续时间损失。
本公开的另一示例方面针对一种用于使用具有改进准确度的扩散模型的计算机实施的方法,该方法包括:接收压缩数据;以及利用已经作为扩散模型的一部分被训练的去噪模型对压缩数据解压缩;其中以下各项中的至少一个:1)至去噪模型的输入包括一个或多个傅立叶特征;2)去噪模型包括学习的噪声计划表;或者3)使用连续时间损失函数来训练去噪模型。
本公开的其他方面针对各种系统、装置、非暂时性计算机可读介质、用户界面和电子设备。
参考以下描述和所附权利要求,将更好地理解本公开的各种实施例的这些和其他特征、方面和优点。并入本说明书并构成其一部分的附图示出了本公开的示例实施例,并且与描述一起用于解释相关原理。
附图说明
针对本领域普通技术人员的实施例的详细讨论在参考附图的说明书中阐述,在附图中:
图1A描绘了根据本公开的示例实施例的示例计算系统的框图。
图1B描绘了根据本公开的示例实施例的示例计算设备的框图。
图1C描绘了根据本公开的示例实施例的示例计算设备的框图。
图2描绘了根据本公开的示例实施例的示例扩散模型的框图。
图3描绘了根据本公开的示例实施例的示例方法的流程图。
在多个附图中重复的附图标记旨在标识各种实施方式中的相同特征。
具体实施方式
一般地,本公开针对实现高水准性能(诸如对图像密度估计基准的高水准似然性)的一灵活族的基于扩散的模型(例如,生成式模型)。根据本公开的示例方面的模型与扩散模型的其余部分联合提供了噪声计划表(noise schedule)的高效优化。另外,模型的证据下界(evidence lower bound,ELBO)可以被简化为相对于信噪比(或噪声计划表)的相对短的表达式。这种改进的理解提供了可以被优化以提高模型准确度的连续时间证据下界的发展。此外,连续时间ELBO可以对噪声计划表不变,除了在信噪比的端点处。这提供了学习使所得ELBO估计量的方差最小化的噪声计划表,这可以提供更快的优化。根据本公开的示例方面的示例模型还可以在去噪模型的输入处包括傅立叶特征集合,这可以改进准确度结果。
基于似然性的生成式建模是可以应用于广泛应用(包括例如语音合成、翻译、压缩等)的机器学习中的中心任务。自回归模型由于易处理的似然性和表达性而已针对这些任务被证明。扩散模型在图像生成和音频生成中已经示出令人印象深刻的结果,尤其是对于感知质量来说,但是在密度估计基准中通常不匹配。本公开的示例方面对提高扩散模型在该领域中的竞争力提供了技术贡献。
本公开的一个示例方面针对将傅立叶特征并入扩散模型中的基于扩散的生成式模型。本公开的另一示例方面针对采用扩散过程的可学习规范(本文称为“噪声计划表”)的基于扩散的生成式模型。本公开的另一示例方面针对采用新颖的连续时间证据下界(ELBO)的基于扩散的生成式模型。这提供了这些模型以实现改进的性能,包括在没有数据扩充的情况下对图像密度估计基准的新的高水准的对数似然性。
本公开的示例方面针对扩散概率模型(diffusion probabilistic model,DPM),也称为扩散模型。扩散模型可以包括将噪声引入输入数据以在多个级(stage)或“时间步骤”之后模糊输入数据的加噪模型。这种模型可以是或可以包括有限数量的步骤T或无限数量的步骤如T→∞。本公开的示例方面认识到更多数量的步骤对似然性提供了改进的性能。例如,加噪模型可以包括多个加噪级(例如,层),其中每个连续层比先前层噪声更大。例如,加噪模型可以被配置为将噪声引入输入数据以产生中间数据。
扩散模型可以附加地和/或可替代地包括可以在多个级之后产生与输入数据匹配的样本的去噪模型。例如,扩散模型可以在加噪模型和/或去噪模型处包括马尔可夫链。扩散模型可以以离散时间实施,例如,其中每一层对应于一个时间步骤。扩散模型也可以以任意深度(例如,连续)时间实施。例如,模型可以是完全高斯的,使得可以从单个层获得目标函数的无偏估计。因此,可以避免计算中间层。扩散模型在概念上可以类似于变分自动编码器(variational autoencoder,VAE),其结构和损失函数提供了任意深度(例如,无限深度)模型的高效训练。可以使用变分推理来训练扩散模型。具体地,本公开的示例方面认识到扩散模型的证据下界,并且采用连续时间证据下界来训练具有改进性能的扩散模型。
扩散模型可以是或可以包括形成潜在变量模型的一个或多个潜在变量。这可以扩展到多个观察的变量、估计条件密度(例如,p(x|y))等。扩散模型可以包括扩散过程(例如,加噪模型),扩散过程被反转以获得生成式模型(例如,去噪模型)。
根据本公开的示例方面,用于使用扩散模型的计算机实施的方法可以包括由包括一个或多个计算设备的计算系统获得输入数据。在一些实施方式中,输入数据可以包括一个或多个通道。例如,生成式建模的一种情况涉及x的观察数据集,其中的任务是估计边际分布p(x)。例如,扩散模型可以接收数据x,并且对给定x的潜在变量zt的序列进行采样。时间步骤t可以在时间上从t=0前向运行到t=1。潜在变量zt在时间步骤t处的分布可以由下式给出:
其中,α是边际分布的均值,而是边际分布的方差。均值和/或方差可以是平滑的,使得它们相对于t的导数是有限的。另外,信噪比(signal-to-noise ratio,SNR)(也称为噪声计划表)可以随t单调递减。更一般地,噪声计划表可以附加地和/或可替代地分别指均值和/或方差,和/或这些量的任何其他合适比。潜在变量在后续时间步骤的联合分布被分布为第一阶马尔可夫链。
扩散模型还可以包括被配置为根据中间数据重构输出数据的去噪模型。例如,扩散过程可以被反转以产生生成式模型(例如,去噪模型)。例如,生成式模型可以是随着时间从t=1反向运行到t=0对潜在变量序列进行采样的分层模型。
模型参数可以通过使边际对数似然性的变分下界最大化来优化。这也称为证据下界(ELBO)。根据本公开的示例方面,定义前向时间扩散过程的推理模型参数可以是与模型的其余部分联合优化的。示例负边际对数似然性由先验损失、重构损失和扩散损失的总和来界定。先验损失是两个高斯之间的KL散度,并且可以以封闭形式计算。可以使用重新参数化梯度来评估和优化去噪模型损失。扩散损失可以取决于时间步骤的数量。
根据本公开的示例方面,至去噪模型的输入包括傅立叶特征集合,傅立叶特征集合包括多个加噪级中的至少一个级的通道的线性投影。傅立叶特征集合可以包括多个加噪级中的每个加噪级的通道的线性投影。例如,傅立叶特征集合可以包括多个加噪级中的至少一个级到高频周期性基函数集合的线性投影。直观上,傅立叶特征集合可以提供对输入数据的精细尺度细节的更好理解。在一些实施方式中,傅立叶特征集合可以包括四个通道。例如,傅立叶特征集合包括形式的至少一个傅立叶特征,其中,q是傅立叶特征的频率指数,i和j是位置索引,k是通道索引,并且zi,j,k是在位置索引和通道索引处的网络输入。附加地和/或可替代地,傅立叶特征集合可以包括形式的至少一个傅立叶特征,其中,q是傅立叶特征的频率指数,i和j是位置索引,k是通道索引,并且zi,j,k是在位置索引和通道索引处的网络输入。这些傅立叶特征可以基于q的选择而具有一个或多个频率。在一些实施方式中,例如,输入数据可以具有位长(bit length),并且傅立叶特征集合可以包括具有从一至位长的每个频率指数的傅立叶特征。附加地和/或可替代地,在一些实施方式中,输入数据可以包括八或更大的位长,并且傅立叶特征集合可以包括具有从七至位长的每个频率指数的傅立叶特征。作为一个示例,如果输入数据以8位字节表示,则位长可以是8,并且傅立叶特征的4个通道可以包括频率为27和28的f和g特征。仅使用更高的频率(例如,大于27)可以提供模型的更快训练。
根据本公开的示例方面,扩散模型可以包括学习的噪声计划表。噪声计划表可以包括扩散模型的边际分布的均值和/或边际分布的方差中的至少一个或两个。例如,在一些实施方式中,学习的噪声计划表包括扩散模型的边际分布的平方均值与边际分布的平方方差的比。例如,学习的噪声计划表可以是信噪比函数。学习的噪声计划表可以是与扩散模型联合学习的,诸如是与加噪模型和/或去噪模型联合学习的。
在一些实施方式中,学习的噪声计划表可以由单调递增函数参数化。例如,在一些实施方式中,信噪比可以由SNR(t)=exp(-γη(t))参数化,其中γη(t)是单调递增函数。单调递增函数的参数η可以是与扩散模型联合学习的。例如,在一些实施方式中(例如,在离散时间的情况下),可以通过使ELBO和其他模型参数最大化来学习参数。在连续时间的情况下(其中,扩散损失对信噪比不变,除了其端点以外),通过相对于端点进行优化来学习参数(例如,而不是在它们之间进行插值的计划表的参数)。例如,在一些实施方式中,可以通过使方差最小化来学习参数,诸如通过对平方扩散损失执行随机梯度下降来学习参数。作为计算ELBO梯度的副产品,可以用相对低的计算开销来计算这种梯度。
根据本公开的示例方面,单调递增函数可以是任何合适的函数。在一些实施方式中,单调递增函数可以是单调递增神经网络。在一些实施方式中,单调递增神经网络包括被限制为正的一个或多个线性层。例如,在一些实施方式中,单调递增神经网络由下式表示:
其中,li(t)是在时间步骤t处的单调递增神经网络的第i层,并且其中,φ是sigmoid(S形)函数。在一些实施方式中,l2层可以具有1024个输出,并且其他层可以具有单个输出。在一些实施方式中,单调递增神经网络被后处理为:
其中,γ0=-log(SNRmax)且γ1=-log(SNRmin),使得单调递增神经网络的范围被限制为[SNRmin,SNRmax],并且其中,γ0和γ0是与去噪模型的参数联合优化的。例如,后处理可以界定神经网络的范围。
在一些实施方式中,损失函数相对于噪声计划表的导数是与扩散模型的其他参数的梯度一起计算的,而没有第二反向传播通过去噪模型。在一些实施方式中,通过使证据下界以及扩散模型的其他参数一起最大化来学习该学习的噪声计划表的参数。在一些实施方式中,扩散模型是连续时间扩散模型,并且其中,通过相对于学习的噪声计划表的端点优化证据下界来学习该学习的噪声计划表的参数。在一些实施方式中,通过对平方扩散损失执行随机梯度下降以最小化方差来学习该学习的噪声计划表的参数。
根据本公开的示例方面,可以通过朝着证据下界优化机器学习扩散模型的参数来训练扩散模型,其中,证据下界包括连续时间损失。在一些实施方式中,使用连续时间损失的无偏估计量来近似连续时间损失。在一些实施方式中,无偏估计量包括蒙特卡罗估计量。在一些实施方式中,连续时间损失包括无限深度。
例如,本公开的示例方面提供了证据下界针对更大数量的时间步骤进行改进。在连续时间的情况下(例如,因此具有无限深度),ELBO因此可以实现改进的性能。如美国临时专利申请第63/210,314号中所述,在时间步骤无限的情况下,可以简化扩散损失,从而提供实际的实施方式。在一些实施方式中,因为评估无限积分在计算上可能是难处理的,所以可以使用无偏蒙特卡罗估计量来代替扩散损失。
在一些实施方式中,输入数据可以包括要压缩的数据,并且输出数据可以是重构的输入数据。例如,输入数据可以被提供给扩散模型(例如,加噪模型)。中间数据可以被存储为压缩表示。不同的设备和/或相同的设备然后可以访问中间数据,并将中间数据作为输入提供给去噪模型。来自去噪模型的输出数据因此可以是重构的输入数据。作为一个示例,扩散模型可以用于图像压缩。例如,输入数据和/或输出数据可以包括图像数据。扩散模型也可以用于其他类型的数据压缩,诸如音频数据、文本数据、多模态数据等。扩散模型也可以用于信号(例如,图像)的生成。例如,去噪模型可以用作生成式模型,以根据输入信号(例如,输入分布)生成数据(例如,图像数据)。去噪模型可以与加噪模型一起训练,然后用作独立模型。例如,去噪模型对于图像加噪、图像填充或其他图像操纵、音频/文本填充或加噪或其他操纵、翻译、文本转图像、图像转文本、转录语音或者以输入信号为条件的高维信号的其他预测可能是有用的。
根据本公开的示例方面的系统和方法可以提供多种技术效果和益处,包括对计算技术的改进。例如,根据本公开的示例方面的扩散模型可以实现改进的性能,诸如改进的似然性。作为示例,在数据压缩中,根据本公开的示例方面的系统和方法可以提供改进的压缩比,诸如,相对于现有系统,存储压缩数据需要更少的位。
作为另一示例技术效果和益处,根据本公开的示例方面的系统和方法可以实现在训练扩散模型时减少计算资源的消耗。例如,本文描述的学习的噪声计划表可以使所得ELBO估计量的方差最小化,导致更快的优化。更快的优化导致诸如存储器使用、处理器使用等计算资源的更少消耗。类似地,包括傅立叶特征也可以实现更快的训练。作为另一示例,连续时间损失的使用可以使训练能够在需要执行和/或评估更少的时间步骤的情况下发生。执行和/或评估更少的时间步骤导致对诸如存储器使用、处理器使用等计算资源的更少消耗。
现在参考附图,将更详细地讨论本公开的示例实施例。
图1A描绘了根据本公开的示例实施例的示例计算系统100的框图。系统100包括通过网络180通信地耦合的用户计算设备102、服务器计算系统130和训练计算系统150。
用户计算设备102可以是任何类型的计算设备,诸如,例如个人计算设备(例如,膝上型或台式)、移动计算设备(例如,智能手机或平板电脑)、游戏控制台或控制器、可穿戴计算设备、嵌入式计算设备或任何其他类型的计算设备。
用户计算设备102包括一个或多个处理器112和存储器114。一个或多个处理器112可以是任何合适的处理设备(例如,处理器核心、微处理器、ASIC、FPGA、控制器、微控制器等),并且可以是一个处理器或可操作地连接的多个处理器。存储器114可以包括一个或多个非暂时性计算机可读存储介质,诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等,以及它们的组合。存储器114可以存储数据116和指令118,指令118由处理器112执行以使得用户计算设备102执行操作。
在一些实施方式中,用户计算设备102可以存储或包括一个或多个扩散模型120。例如,扩散模型120可以是或者可以以其他方式包括各种机器学习模型,诸如神经网络(例如,深度神经网络)或者其他类型的机器学习模型,包括非线性模型和/或线性模型。神经网络可以包括前馈神经网络、循环神经网络(例如,长短期记忆循环神经网络)、卷积神经网络或其他形式的神经网络。一些示例机器学习模型可以利用诸如自注意力之类的注意力机制。例如,一些示例机器学习模型可以包括多头自注意力模型(例如,转换器模型)。参考图2-图3讨论示例扩散模型120。
在一些实施方式中,一个或多个扩散模型120可以通过网络180从服务器计算系统130接收,存储在用户计算设备存储器114中,然后由一个或多个处理器112使用或者以其他方式实施。在一些实施方式中,用户计算设备102可以实施单个扩散模型120的多个并行实例。
附加地或可替代地,一个或多个扩散模型140可以被包括在根据客户端-服务器关系与用户计算设备102进行通信的服务器计算系统130中,或者以其他方式由服务器计算系统130存储和实施。例如,扩散模型140可以由服务器计算系统140实施为网络服务(例如,图像生成服务)的一部分。因此,一个或多个模型120可以在用户计算设备102处存储和实施,和/或一个或多个模型140可以在服务器计算系统130处存储和实施。
用户计算设备102还可以包括接收用户输入的一个或多个用户输入组件122。例如,用户输入组件122可以是对用户输入对象(例如,手指或触控笔)的触摸敏感的触敏组件(例如,触敏显示屏或触摸板)。触敏组件可以用于实施虚拟键盘。其他示例用户输入组件包括麦克风、传统键盘或用户可以通过其提供用户输入的其他部件。
服务器计算系统130包括一个或多个处理器132和存储器134。一个或多个处理器132可以是任何合适的处理设备(例如,处理器核心、微处理器、ASIC、FPGA、控制器、微控制器等),并且可以是一个处理器或可操作地连接的多个处理器。存储器134可以包括一个或多个非暂时性计算机可读存储介质,诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等,以及它们的组合。存储器134可以存储数据136和指令138,指令138由处理器132执行以使得服务器计算系统130执行操作。
在一些实施方式中,服务器计算系统130包括一个或多个服务器计算设备或者以其他方式由一个或多个服务器计算设备实施。在服务器计算系统130包括多个服务器计算设备的情况下,这些服务器计算设备可以根据顺序计算架构、并行计算架构或其某种组合进行操作。
如上所述,服务器计算系统130可以存储或者以其他方式包括一个或多个扩散模型140。例如,模型140可以是或者可以以其他方式包括各种机器学习模型。示例机器学习模型包括神经网络或其他多层非线性模型。示例神经网络包括前馈神经网络、深度神经网络、循环神经网络和卷积神经网络。一些示例机器学习模型可以利用诸如自注意力之类的注意力机制。例如,一些示例机器学习模型可以包括多头自注意力模型(例如,转换器模型)。参考图2-图3讨论示例模型140。
用户计算设备102和/或服务器计算系统130可以经由与通过网络180通信地耦合的训练计算系统150的交互来训练模型120和/或140。训练计算系统150可以与服务器计算系统130分离,或者可以是服务器计算系统130的一部分。
训练计算系统150包括一个或多个处理器152和存储器154。一个或多个处理器152可以是任何合适的处理设备(例如,处理器核心、微处理器、ASIC、FPGA、控制器、微控制器等),并且可以是一个处理器或可操作地连接的多个处理器。存储器154可以包括一个或多个非暂时性计算机可读存储介质,诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等,以及它们的组合。存储器154可以存储数据156和指令158,指令158由处理器152执行以使得训练计算系统150执行操作。在一些实施方式中,训练计算系统150包括一个或多个服务器计算设备或者以其他方式由一个或多个服务器计算设备实施。
训练计算系统150可以包括模型训练器160,模型训练器160使用各种训练或学习技术(诸如,例如误差的反向传播)来训练存储在用户计算设备102和/或服务器计算系统130处的机器学习模型120和/或140。例如,损失函数可以通过(多个)模型反向传播,以(例如,基于损失函数的梯度)更新(多个)模型的一个或多个参数。可以使用各种损失函数,诸如均方误差、似然性损失、交叉熵损失、合页损失和/或各种其他损失函数。梯度下降技术可以用于在多次训练迭代中迭代地更新参数。
在一些实施方式中,执行误差的反向传播可以包括执行通过时间截断的反向传播。模型训练器160可以执行多种泛化技术(例如,权重衰减、丢弃等)来改进被训练的模型的泛化能力。
具体地,模型训练器160可以基于训练数据162的集合来训练扩散模型120和/或140。训练数据162可以包括例如图像数据、音频数据等。
在一些实施方式中,如果用户已经提供了同意,则训练示例可以由用户计算设备102提供。因此,在这样的实施方式中,提供给用户计算设备102的模型120可以由训练计算系统150在从用户计算设备102接收的用户特定数据上训练。在一些情况下,这种过程可以被称为个性化模型。
模型训练器160包括用于提供期望功能的计算机逻辑。模型训练器160可以用硬件、固件和/或控制通用处理器的软件来实施。例如,在一些实施方式中,模型训练器160包括存储在存储设备上、加载到存储器中并由一个或多个处理器执行的程序文件。在其他实施方式中,模型训练器160包括存储在有形计算机可读存储介质(诸如RAM、硬盘或光学或磁性介质)中的一个或多个计算机可执行指令集。
网络180可以是任何类型的通信网络,诸如局域网(例如,内联网)、广域网(例如,互联网)或其某种组合,并且可以包括任何数量的有线或无线链路。一般而言,网络180上的通信可以使用各种各样的通信协议(例如,TCP/IP、HTTP、SMTP、FTP)、编码或格式(例如,HTML、XML)和/或保护方案(例如,VPN、安全HTTP、SSL)经由任何类型的有线和/或无线连接来携带。
本说明书中描述的机器学习模型可以在各种任务、应用和/或用例中使用。
在一些实施方式中,至本公开的(多个)机器学习模型的输入可以是图像数据。(多个)机器学习模型可以处理图像数据以生成输出。作为示例,(多个)机器学习模型可以处理图像数据以生成图像识别输出(例如,图像数据的识别、图像数据的潜在嵌入、图像数据的编码表示、图像数据的散列等)。作为另一示例,(多个)机器学习模型可以处理图像数据以生成图像分割输出。作为另一示例,(多个)机器学习模型可以处理图像数据以生成图像分类输出。作为另一示例,(多个)机器学习模型可以处理图像数据以生成图像数据修改输出(例如,图像数据的变更等)。作为另一示例,(多个)机器学习模型可以处理图像数据以生成编码的图像数据输出(例如,图像数据的编码和/或压缩表示等)。作为另一示例,(多个)机器学习模型可以处理图像数据以生成扩充(upscale)的图像数据输出。作为另一示例,(多个)机器学习模型可以处理图像数据以生成预测输出。
在一些实施方式中,至本公开的(多个)机器学习模型的输入可以是文本或自然语言数据。(多个)机器学习模型可以处理文本或自然语言数据以生成输出。作为示例,(多个)机器学习模型可以处理自然语言数据以生成语言编码输出。作为另一示例,(多个)机器学习模型可以处理文本或自然语言数据以生成潜在文本嵌入输出。作为另一示例,(多个)机器学习模型可以处理文本或自然语言数据以生成翻译输出。作为另一示例,(多个)机器学习模型可以处理文本或自然语言数据以生成分类输出。作为另一示例,(多个)机器学习模型可以处理文本或自然语言数据以生成文本分割输出。作为另一示例,(多个)机器学习模型可以处理文本或自然语言数据以生成语义意图输出。作为另一示例,(多个)机器学习模型可以处理文本或自然语言数据以生成扩充的文本或自然语言输出(例如,比输入文本或自然语言质量更高的文本或自然语言数据等)。作为另一示例,(多个)机器学习模型可以处理文本或自然语言数据以生成预测输出。
在一些实施方式中,至本公开的(多个)机器学习模型的输入可以是语音数据。(多个)机器学习模型可以处理语音数据以生成输出。作为示例,(多个)机器学习模型可以处理语音数据以生成语音识别输出。作为另一示例,(多个)机器学习模型可以处理语音数据以生成语音翻译输出。作为另一示例,(多个)机器学习模型可以处理语音数据以生成潜在嵌入输出。作为另一示例,(多个)机器学习模型可以处理语音数据以生成编码的语音输出(例如,语音数据的编码和/或压缩表示等)。作为另一示例,(多个)机器学习模型可以处理语音数据以生成扩充的语音输出(例如,比输入语音数据质量更高的语音数据等)。作为另一示例,(多个)机器学习模型可以处理语音数据以生成文本表示输出(例如,输入语音数据的文本表示等)。作为另一示例,(多个)机器学习模型可以处理语音数据以生成预测输出。
在一些实施方式中,至本公开的(多个)机器学习模型的输入可以是潜在编码数据(例如,输入的潜在空间表示等)。(多个)机器学习模型可以处理潜在编码数据以生成输出。作为示例,(多个)机器学习模型可以处理潜在编码数据以生成识别输出。作为另一示例,(多个)机器学习模型可以处理潜在编码数据以生成重构输出。作为另一示例,(多个)机器学习模型可以处理潜在编码数据以生成搜索输出。作为另一示例,(多个)机器学习模型可以处理潜在编码数据以生成重新聚类输出。作为另一示例,(多个)机器学习模型可以处理潜在编码数据以生成预测输出。
在一些实施方式中,至本公开的(多个)机器学习模型的输入可以是统计数据。统计数据可以是、表示或者以其他方式包括根据一些其他数据源运算和/或计算出的数据。(多个)机器学习模型可以处理统计数据以生成输出。作为示例,(多个)机器学习模型可以处理统计数据以生成识别输出。作为另一示例,(多个)机器学习模型可以处理统计数据以生成预测输出。作为另一示例,(多个)机器学习模型可以处理统计数据以生成分类输出。作为另一示例,(多个)机器学习模型可以处理统计数据以生成分割输出。作为另一示例,(多个)机器学习模型可以处理统计数据以生成可视化输出。作为另一示例,(多个)机器学习模型可以处理统计数据以生成诊断输出。
在一些实施方式中,至本公开的(多个)机器学习模型的输入可以是传感器数据。(多个)机器学习模型可以处理传感器数据以生成输出。作为示例,(多个)机器学习模型可以处理传感器数据以生成识别输出。作为另一示例,(多个)机器学习模型可以处理传感器数据以生成预测输出。作为另一示例,(多个)机器学习模型可以处理传感器数据以生成分类输出。作为另一示例,(多个)机器学习模型可以处理传感器数据以生成分割输出。作为另一示例,(多个)机器学习模型可以处理传感器数据以生成可视化输出。作为另一示例,(多个)机器学习模型可以处理传感器数据以生成诊断输出。作为另一示例,(多个)机器学习模型可以处理传感器数据以生成检测输出。
在一些情况下,(多个)机器学习模型可以被配置为执行包括对输入数据进行编码以进行可靠和/或高效的传输或存储(和/或对应的解码)的任务。例如,任务可以是音频压缩任务。输入可以包括音频数据,并且输出可以包括压缩的音频数据。在另一示例中,输入包括可视数据(例如,一个或多个图像或视频),并且输出包括压缩的可视数据,并且任务是可视数据压缩任务。在另一示例中,任务可以包括生成针对输入数据(例如,输入音频或视频数据)的嵌入。
在一些情况下,输入包括可视数据,并且任务是计算机视觉任务。在一些情况下,输入包括一个或多个图像的像素数据,并且任务是图像处理任务。例如,图像处理任务可以是图像分类,其中,输出是分数集合,每个分数对应于不同的对象类并且表示一个或多个图像描绘属于该对象类的对象的似然性。图像处理任务可以是对象检测,其中,图像处理输出识别一个或多个图像中的一个或多个区域,并且针对每个区域,识别该区域描绘感兴趣对象的似然性。作为另一示例,图像处理任务可以是图像分割,其中,图像处理输出针对一个或多个图像中的每个像素来定义预定类别集合中每个类别的相应似然性。例如,类别集合可以是前景和背景。作为另一示例,类别集合可以是对象类。作为另一示例,图像处理任务可以是深度估计,其中,图像处理输出针对一个或多个图像中的每个像素来定义相应深度值。作为另一示例,图像处理任务可以是运动估计,其中,网络输入包括多个图像,并且图像处理输出针对输入图像之一的每个像素来定义在网络输入中的图像之间的像素处描绘的场景的运动。
在一些情况下,输入包括表示口头话语的音频数据,并且任务是语音识别任务。该输出可以包括被映射到口头话语的文本输出。在一些情况下,任务包括对输入数据进行加密或解密。在一些情况下,任务包括微处理器性能任务,诸如分支预测或存储器地址翻译。
图1A示出了可以用于实施本公开的一个示例计算系统。也可以使用其他计算系统。例如,在一些实施方式中,用户计算设备102可以包括模型训练器160和训练数据集162。在这样的实施方式中,模型120可以在用户计算设备102处本地训练和使用。在一些这样的实施方式中,用户计算设备102可以实施模型训练器160以基于用户特定数据来个性化模型120。
图1B描绘了根据本公开的示例实施例执行的示例计算设备10的框图。计算设备10可以是用户计算设备或服务器计算设备。
计算设备10包括多个应用(例如,应用1至应用N)。每个应用包含其自己的机器学习库和(多个)机器学习模型。例如,每个应用可以包括机器学习模型。示例应用包括文本消息传递应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。
如图1B所示,每个应用可以与计算设备的多个其他组件(诸如,例如一个或多个传感器、上下文管理器、设备状态组件和/或附加组件)进行通信。在一些实施方式中,每个应用可以使用API(例如,公共API)与每个设备组件进行通信。在一些实施方式中,每个应用所使用的API是特定于该应用的。
图1C描绘了根据本公开的示例实施例执行的示例计算设备50的框图。计算设备50可以是用户计算设备或服务器计算设备。
计算设备50包括多个应用(例如,应用1至应用N)。每个应用与中央智能层通信。示例应用包括文本消息传递应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。在一些实施方式中,每个应用可以使用API(例如,跨所有应用的共用API)与中央智能层(和存储在其中的(多个)模型)进行通信。
中央智能层包括多个机器学习模型。例如,如图1C所示,可以为每个应用提供相应的机器学习模型,并且由中央智能层进行管理。在其他实施方式中,两个或更多个应用可以共享单个机器学习模型。例如,在一些实施方式中,中央智能层可以为所有应用提供单个模型。在一些实施方式中,中央智能层被包括在计算设备50的操作系统内或者以其他方式由计算设备50的操作系统实施。
中央智能层可以与中央设备数据层进行通信。中央设备数据层可以是计算设备50的集中式数据储存库。如图1C所示,中央设备数据层可以与计算设备的多个其他组件(诸如,例如一个或多个传感器、上下文管理器、设备状态组件和/或附加组件)进行通信。在一些实施方式中,中央设备数据层可以使用API(例如,私有API)与每个设备组件进行通信。
图2描绘了根据本公开的示例实施例的示例扩散模型200的框图。在一些实施方式中,扩散模型200被训练成接收输入数据210的集合,并且作为输入数据210的接收的结果,提供输出数据220。扩散模型可以包括加噪模型202和去噪模型204。
图3描绘了根据本公开的示例实施例的用于使用具有改进准确度的扩散模型的示例方法的流程图。尽管为了说明和讨论的目的,图3描绘了以特定次序执行的步骤,但是本公开的方法不限于特别示出的次序或布置。方法300的各个步骤可以以各种方式被省略、重新布置、组合和/或调整,而不脱离本公开的范围。
方法300可以包括,在302处,由包括一个或多个计算设备的计算系统获得输入数据,输入数据包括一个或多个通道。例如,输入数据可以是图像数据。
方法300可以包括,在304处,由计算系统向机器学习扩散模型提供输入数据。扩散模型可以包括:加噪模型,包括多个加噪级,加噪模型被配置为引入噪声以接收输入数据并且响应于输入数据的接收而产生中间数据;以及去噪模型,被配置为根据中间数据重构输出数据。
方法300可以包括,在306处,由计算系统接收来自机器学习扩散模型的输出数据。例如,输出数据可以是重构的输入数据。
本文讨论的技术涉及服务器、数据库、软件应用和其他基于计算机的系统,以及所采取的行动和发送到这些系统和从这些系统发送的信息。基于计算机的系统的固有灵活性允许在组件之间和当中对任务和功能进行各种各样可能的配置、组合和划分。例如,本文讨论的过程可以使用单个设备或组件或者组合工作的多个设备或组件来实施。数据库和应用可以在单个系统上实施或分布在多个系统上。分布式组件可以顺序或并行地操作。
虽然本主题已经关于其各种具体示例实施例进行了详细描述,但是每个示例都是以解释的方式提供的,而不是对本公开的限制。本领域技术人员在理解了前述内容后,可以容易地产生对这些实施例进行变更、变化和等效。相应地,如对本领域普通技术人员来说将显而易见的是,本主题公开不排除对本主题的这种修改、变化和/或添加。例如,作为一个实施例的一部分示出或描述的特征可以与另一实施例一起使用以产生又一实施例。因此,本公开旨在覆盖这些变更、变化和等效。

Claims (52)

1.一种利用傅立叶特征进行改进的精细尺度预测的计算系统,包括:
一个或多个处理器;以及
一个或多个非暂时性计算机可读介质,其共同存储:
机器学习扩散模型的至少去噪模型,所述扩散模型包括:
加噪模型,包括多个加噪级,所述加噪模型被配置为接收输入数据并且响应于所述输入数据的接收而产生潜在数据;以及
去噪模型,被配置为根据所述潜在数据重构输出数据;
其中,至所述去噪模型的输入包括傅立叶特征集合,所述傅立叶特征集合包括所述多个加噪级中的至少一个级的通道的线性投影;以及
指令,所述指令在由所述一个或多个处理器执行时使得所述计算系统执行所述去噪模型来处理所述潜在数据以生成输出数据。
2.根据任一权利要求(例如,权利要求1)所述的计算系统,其中,所述傅立叶特征集合包括所述多个加噪级中的每个加噪级的通道的线性投影。
3.根据任一权利要求(例如,权利要求1)所述的计算系统,其中,所述傅立叶特征集合包括所述多个加噪级中的至少一个级到高频周期性基函数集合上的线性投影。
4.根据任一权利要求(例如,权利要求1)所述的计算系统,其中,所述傅立叶特征集合包括四个通道。
5.根据任一权利要求(例如,权利要求1)所述的计算系统,其中,所述傅立叶特征集合包括如下形式的至少一个傅立叶特征:
其中,q是所述傅立叶特征的频率,i和j是位置索引,k是通道索引,并且zi,j,k是在所述位置索引和所述通道索引处的网络输入。
6.根据任一权利要求(例如,权利要求1)所述的计算系统,其中,所述傅立叶特征集合包括如下形式的至少一个傅立叶特征:
其中,q是所述傅立叶特征的频率,i和j是位置索引,k是通道索引,并且zi,j,k是在所述位置索引和所述通道索引处的网络输入。
7.根据任一权利要求(例如,权利要求1)所述的计算系统,其中,所述输入数据包括位长,并且其中,所述傅立叶特征集合包括具有从一至所述位长的每个频率的傅立叶特征。
8.根据任一权利要求(例如,权利要求1)所述的计算系统,其中,所述输入数据包括八或更大的位长,并且其中,所述傅立叶特征集合包括具有从七至所述位长的每个频率的傅立叶特征。
9.根据任一权利要求(例如,权利要求1)所述的计算系统,其中,所述输入数据包括图像数据。
10.根据任一权利要求(例如,权利要求1)所述的计算系统,其中,所述潜在数据包括所述输入数据的压缩表示,并且所述输出数据包括所述输入数据的解压缩表示。
11.一种用于使用具有改进准确度的扩散模型的计算机实施的方法,所述方法包括:
由包括一个或多个计算设备的计算系统获得输入数据,所述输入数据包括一个或多个通道;
由所述计算系统向机器学习扩散模型提供所述输入数据,所述机器学习扩散模型包括:
加噪模型,包括多个加噪级,所述加噪模型被配置为引入噪声以接收所述输入数据并且响应于所述输入数据的接收而产生中间数据;以及
去噪模型,被配置为根据所述中间数据重构输出数据;
其中,至所述去噪模型的输入包括傅立叶特征集合,所述傅立叶特征集合包括所述多个加噪级中的至少一个级的通道的线性投影;以及
由所述计算系统接收来自所述机器学习扩散模型的输出数据。
12.根据任一权利要求(例如,权利要求11)所述的计算机实施的方法,其中,所述傅立叶特征集合包括所述多个加噪级中的每个加噪级的通道的线性投影。
13.根据任一权利要求(例如,权利要求11)所述的计算机实施的方法,其中,所述傅立叶特征集合包括所述多个加噪级中的至少一个级到高频周期性基函数集合上的线性投影。
14.根据任一权利要求(例如,权利要求11)所述的计算机实施的方法,其中,所述傅立叶特征集合包括四个通道。
15.根据任一权利要求(例如,权利要求11)所述的计算机实施的方法,其中,所述傅立叶特征集合包括如下形式的至少一个傅立叶特征:
其中,q是所述傅立叶特征的频率,i和j是位置索引,k是通道索引,并且zi,j,k是在所述位置索引和所述通道索引处的网络输入。
16.根据任一权利要求(例如,权利要求11)所述的计算机实施的方法,其中,所述傅立叶特征集合包括如下形式的至少一个傅立叶特征:
其中,q是所述傅立叶特征的频率,i和j是位置索引,k是通道索引,并且zi,j,k是在所述位置索引和所述通道索引处的网络输入。
17.根据任一权利要求(例如,权利要求11)所述的计算机实施的方法,其中,所述输入数据包括位长,并且其中,所述傅立叶特征集合包括具有从一至所述位长的每个频率的傅立叶特征。
18.根据任一权利要求(例如,权利要求11)所述的计算机实施的方法,其中,所述输入数据包括八或更大的位长,并且其中,所述傅立叶特征集合包括具有从七至所述位长的每个频率的傅立叶特征。
19.根据任一权利要求(例如,权利要求11)所述的计算机实施的方法,其中,所述输入数据包括图像数据。
20.根据任一权利要求(例如,权利要求11)所述的计算机实施的方法,其中,所述输出数据包括重构的输入数据。
21.共同存储扩散模型的至少加噪模型的一个或多个非暂时性计算机可读介质,所述扩散模型包括:
所述加噪模型,包括多个加噪级,所述加噪模型被配置为根据噪声计划表将噪声引入输入数据以产生中间数据;以及
去噪模型,被配置为根据所述中间数据重构输出数据;
其中,所述噪声计划表是包括一个或多个学习的参数值的学习的噪声计划表。
22.根据任一权利要求(例如,权利要求21)所述的一个或多个非暂时性计算机可读介质,其中,所述学习的噪声计划表包括所述扩散模型的边际分布的平方均值与所述边际分布的平方方差的比。
23.根据任一权利要求(例如,权利要求21)所述的一个或多个非暂时性计算机可读介质,其中,所述学习的噪声计划表是与所述扩散模型联合学习的。
24.根据任一权利要求(例如,权利要求21)所述的一个或多个非暂时性计算机可读介质,其中,所述学习的噪声计划表包括信噪比函数。
25.根据任一权利要求(例如,权利要求21)所述的一个或多个非暂时性计算机可读介质,其中,所述学习的噪声计划表由单调递增函数参数化。
26.根据任一权利要求(例如,权利要求25)所述的一个或多个非暂时性计算机可读介质,其中,所述单调递增函数包括单调递增神经网络。
27.根据任一权利要求(例如,权利要求26)所述的一个或多个非暂时性计算机可读介质,其中,所述单调递增神经网络包括被限制为正的一个或多个线性层。
28.根据任一权利要求(例如,权利要求27)所述的一个或多个非暂时性计算机可读介质,其中,所述单调递增神经网络由下式表示:
其中,li(t)是在时间步骤t处的所述单调递增神经网络的第i层,并且其中,φ是sigmoid函数。
29.根据任一权利要求(例如,权利要求28)所述的一个或多个非暂时性计算机可读介质,其中,所述单调递增神经网络被后处理为:
其中,γ0=-log(SNRmax)且γ1=-log(SNRmin),使得所述单调递增神经网络的范围被限制为[SNRmin,SNRmax],并且其中,γ0和γ0是与所述去噪模型的参数联合优化的。
30.根据任一权利要求(例如,权利要求21)所述的一个或多个非暂时性计算机可读介质,其中,损失函数相对于所述噪声计划表的导数是与所述扩散模型的其他参数的梯度一起计算的,而没有第二反向传播通过所述去噪模型。
31.根据任一权利要求(例如,权利要求21)所述的一个或多个非暂时性计算机可读介质,其中,通过最大化证据下界以及所述扩散模型的其他参数来学习所述学习的噪声计划表的参数。
32.根据任一权利要求(例如,权利要求21)所述的一个或多个非暂时性计算机可读介质,其中,所述扩散模型是连续时间扩散模型,并且其中,通过相对于所述学习的噪声计划表的端点优化证据下界来学习所述学习的噪声计划表的参数。
33.根据任一权利要求(例如,权利要求21)所述的一个或多个非暂时性计算机可读介质,其中,通过对平方扩散损失执行随机梯度下降以最小化方差来学习所述学习的噪声计划表的参数。
34.一种用于使用具有改进准确度的扩散模型的计算机实施的方法,所述方法包括:
由包括一个或多个计算设备的计算系统获得输入数据,所述输入数据包括一个或多个通道;
由所述计算系统向机器学习扩散模型提供所述输入数据,所述机器学习扩散模型包括:
加噪模型,包括多个加噪级,所述加噪模型被配置为引入噪声以接收所述输入数据并且响应于所述输入数据的接收而产生中间数据;以及
去噪模型,被配置为根据所述中间数据重构输出数据;
其中,所述扩散模型包括学习的噪声计划表;以及
由所述计算系统接收来自所述机器学习扩散模型的输出数据。
35.根据任一权利要求(例如,权利要求34)所述的计算机实施的方法,其中,所述学习的噪声计划表包括所述扩散模型的边际分布的平方均值与所述边际分布的平方方差的比。
36.根据任一权利要求(例如,权利要求34)所述的计算机实施的方法,其中,所述学习的噪声计划表是与所述扩散模型联合学习的。
37.根据任一权利要求(例如,权利要求34)所述的计算机实施的方法,其中,所述学习的噪声计划表包括信噪比函数。
38.根据任一权利要求(例如,权利要求34)所述的计算机实施的方法,其中,所述学习的噪声计划表由单调递增函数参数化。
39.根据任一权利要求(例如,权利要求38)所述的计算机实施的方法,其中,所述单调递增函数包括单调递增神经网络。
40.根据任一权利要求(例如,权利要求39)所述的计算机实施的方法,其中,所述单调递增神经网络包括被限制为正的一个或多个线性层。
41.根据任一权利要求(例如,权利要求40)所述的计算机实施的方法,其中,所述单调递增神经网络由下式表示:
其中,li(t)是在时间步骤t处的所述单调递增神经网络的第i层,并且其中,φ是sigmoid函数。
42.根据任一权利要求(例如,权利要求41)所述的计算机实施的方法,其中,所述单调递增神经网络被后处理为:
其中,γ0=-log(SNRmax)且γ1=-log(SNRmin),使得所述单调递增神经网络的范围被限制为[SNRmin,SNRmax],并且其中,γ0和γ0是与所述去噪模型的参数联合优化的。
43.根据任一权利要求(例如,权利要求34)所述的计算机实施的方法,其中,损失函数相对于所述噪声计划表的导数是与所述扩散模型的其他参数的梯度一起计算的,而没有第二反向传播通过所述去噪模型。
44.根据任一权利要求(例如,权利要求34)所述的计算机实施的方法,其中,通过最大化证据下界以及所述扩散模型的其他参数来学习所述学习的噪声计划表的参数。
45.根据任一权利要求(例如,权利要求34)所述的计算机实施的方法,其中,所述扩散模型是连续时间扩散模型,并且其中,通过相对于所述学习的噪声计划表的端点优化证据下界来学习所述学习的噪声计划表的参数。
46.根据任一权利要求(例如,权利要求34)所述的计算机实施的方法,其中,通过对平方扩散损失执行随机梯度下降以最小化方差来学习所述学习的噪声计划表的参数。
47.一种用于在消耗较少计算资源的同时训练扩散模型的计算机实施的方法,所述方法包括:
由包括一个或多个计算设备的计算系统获得训练数据,所述训练数据包括一个或多个通道;
由所述计算系统向机器学习扩散模型提供所述训练数据,所述机器学习扩散模型包括:
加噪模型,包括多个加噪级,所述加噪模型被配置为引入噪声以接收所述训练数据并且响应于所述训练数据的接收而产生中间数据;以及
去噪模型,被配置为根据所述中间数据重构输出数据;以及
由所述计算系统至少部分地基于所述机器学习扩散模型与所述训练数据的使用来确定训练损失,其中,通过朝着证据下界优化所述机器学习扩散模型的参数来训练所述扩散模型,其中,所述证据下界包括连续时间损失。
48.根据任一权利要求(例如,权利要求47)所述的计算机实施的方法,其中,使用所述连续时间损失的无偏估计量来近似所述连续时间损失。
49.根据任一权利要求(例如,权利要求48)所述的计算机实施的方法,其中,所述无偏估计量包括蒙特卡罗估计量。
50.根据任一权利要求(例如,权利要求47)所述的计算机实施的方法,其中,所述连续时间损失包括无限深度。
51.一种用于使用具有改进准确度的扩散模型的计算机实施的方法,所述方法包括:
接收压缩数据;以及
利用已经作为扩散模型的一部分被训练的去噪模型对所述压缩数据解压缩;
其中,以下各项中的至少一个:
1)至所述去噪模型的输入包括一个或多个傅立叶特征;
2)所述去噪模型包括学习的噪声计划表;或者
3)使用连续时间损失函数来训练所述去噪模型。
52.根据任一权利要求(例如,权利要求51)所述的计算机实施的方法,其中,所述压缩数据包括图像数据、音频数据、文本数据或不完整数据中的至少一个。
CN202280034292.3A 2021-06-14 2022-06-13 具有改进准确度和减少的计算资源消耗的扩散模型 Pending CN117296061A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163210314P 2021-06-14 2021-06-14
US63/210,314 2021-06-14
PCT/US2022/033253 WO2022265992A1 (en) 2021-06-14 2022-06-13 Diffusion models having improved accuracy and reduced consumption of computational resources

Publications (1)

Publication Number Publication Date
CN117296061A true CN117296061A (zh) 2023-12-26

Family

ID=82404127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280034292.3A Pending CN117296061A (zh) 2021-06-14 2022-06-13 具有改进准确度和减少的计算资源消耗的扩散模型

Country Status (4)

Country Link
US (1) US20230267315A1 (zh)
EP (1) EP4295273A1 (zh)
CN (1) CN117296061A (zh)
WO (1) WO2022265992A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116701692B (zh) * 2023-08-04 2023-11-03 浪潮(北京)电子信息产业有限公司 一种图像生成方法、装置、设备及介质

Also Published As

Publication number Publication date
EP4295273A1 (en) 2023-12-27
WO2022265992A1 (en) 2022-12-22
US20230267315A1 (en) 2023-08-24

Similar Documents

Publication Publication Date Title
US11816577B2 (en) Augmentation of audiographic images for improved machine learning
US11450096B2 (en) Systems and methods for progressive learning for machine-learned models to optimize training speed
CN112949708A (zh) 情绪识别方法、装置、计算机设备和存储介质
US20230267307A1 (en) Systems and Methods for Generation of Machine-Learned Multitask Models
EP3973712A1 (en) Small and fast video processing networks via neural architecture search
US20230267315A1 (en) Diffusion Models Having Improved Accuracy and Reduced Consumption of Computational Resources
EP4214643A1 (en) Dynamic language models for continuously evolving content
WO2022213825A1 (zh) 基于神经网络的端到端语音增强方法、装置
US20220108220A1 (en) Systems And Methods For Performing Automatic Label Smoothing Of Augmented Training Data
EP3971795A1 (en) System and method for processing of information on quantum systems
CN115171710A (zh) 基于多角度判别的生成对抗网络的语音增强方法及系统
JP2024519657A (ja) 精度が向上し、計算リソースの消費が減少した拡散モデル
US20230214656A1 (en) Subtask Adaptable Neural Network
US11755883B2 (en) Systems and methods for machine-learned models having convolution and attention
US20240169707A1 (en) Forecasting Uncertainty in Machine Learning Models
US20220245917A1 (en) Systems and methods for nearest-neighbor prediction based machine learned models
US20220108219A1 (en) Approximate Bayesian Logistic Regression For Sparse Online Learning
WO2024020107A1 (en) Task-specific prompt recycling for machine-learned models that perform multiple tasks
WO2024072877A1 (en) Learning the joint distribution of two sequences using little or no paired data
WO2023158494A1 (en) Neural architecture search with improved computational efficiency
WO2024025565A1 (en) Portion-specific model compression for optimization of machine-learned models
WO2023172692A1 (en) Maximizing generalizable performance by extraction of deep learned features while controlling for known variables
WO2023192632A1 (en) Zero-shot multi-modal data processing via structured inter-model communication
WO2024086598A1 (en) Text-driven image editing via image-specific finetuning of diffusion models
WO2024112910A1 (en) Visual transformers with sparse application of video kernels

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination