CN113822321A - 生成模型训练方法和装置、噪声尺度生成方法和计算设备 - Google Patents

生成模型训练方法和装置、噪声尺度生成方法和计算设备 Download PDF

Info

Publication number
CN113822321A
CN113822321A CN202110785953.3A CN202110785953A CN113822321A CN 113822321 A CN113822321 A CN 113822321A CN 202110785953 A CN202110785953 A CN 202110785953A CN 113822321 A CN113822321 A CN 113822321A
Authority
CN
China
Prior art keywords
noise
training
network
sample
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110785953.3A
Other languages
English (en)
Other versions
CN113822321B (zh
Inventor
林永业
王珺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110785953.3A priority Critical patent/CN113822321B/zh
Publication of CN113822321A publication Critical patent/CN113822321A/zh
Application granted granted Critical
Publication of CN113822321B publication Critical patent/CN113822321B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Complex Calculations (AREA)

Abstract

公开了生成模型训练方法和装置、噪声尺度生成方法和计算设备。训练方法包括:获取训练样本集,所述训练样本集包括多个训练样本,所述多个训练样本为独立同分布的样本;从所述训练样本集中每次随机选择一个训练样本,并确定所述训练样本对应的噪声水平;利用随机选择的每个训练样本以及对应的噪声水平,对噪声去除网络和噪声调度网络进行训练,所述噪声去除网络与从噪声输入到期望输出的反向过程相对应,并且所述噪声调度网络与从来自所述训练样本集的训练样本到输出带有噪声的输出的正向过程相对应。

Description

生成模型训练方法和装置、噪声尺度生成方法和计算设备
技术领域
本申请涉及计算机领域,更具体地,涉及用于生成期望输出的生成模型的训练方法和装置、生成用于样本生成模型中的噪声尺度序列的方法、以及计算设备。
背景技术
生成模型也称为概率生成模型,是概率统计和机器学习中的一类重要模型,指可以用于随机生成可观测数据的模型。生成模型的生成过程可以理解为通过学习训练样本集的数据分布,而使用带有一些变量的学习得到的分布来生成新的样本,生成的新样本的分布与训练样本集的真实分布接近。
生成模型在高保真图像生成、高质量语音合成、自然语言生成(1)、无监督表示学习等方面广泛应用,并取得了巨大进步。
生成模型的成功架构主要分为生成性对抗网络(GAN)和基于似然的方法。生成性对抗网络(GAN)采用对抗性训练程序,但训练可能不稳定,并且模型难以放大或与其他GAN模型进行评估;基于似然的方法使用对数似然或替代损失(surrogate loss)作为训练目标,但它们也有内在的局限性,例如样本生成(sampling)速度较慢、采用证据下界(ELBO)而导致样本质量不足够高。
一类新兴的基于似然的模型是扩散模型能够产生较高质量的样本。然而,也存在一定的缺陷,例如去噪扩散概率模型(DDPM)比其他生成模型(如GAN和变分自编码器(VAE))慢两到三个数量级,因为它需要在训练期间进行数千个扩散步骤来学习训练样本集的分布,在样本生成过程时往往需要大量的去噪步骤。WaveGrad虽然作为DDPM的延伸,基于网格搜索算法可以采用较少的样本生成步骤,但是需要在训练模型之后扫描噪声调度的所有可能区域,并且采用O(MN)复杂度(M是搜索仓(bin)的数量,N为推理期间的迭代采样数量),因此,网格搜索算法对于M和N是不可缩放的(例如,该方法对于T>10是非常慢的),因此样本生成速度也非常慢。
因此,需要一种能够快速生成新的样本并且生成的样本具有高质量的生成模型。
发明内容
根据本申请的一方面,提供了一种用于生成期望输出的生成模型的训练方法,包括:获取训练样本集,所述训练样本集包括多个训练样本,所述多个训练样本为独立同分布的样本;从所述训练样本集中每次随机选择一个训练样本,并确定所述训练样本对应的噪声水平;利用随机选择的每个训练样本以及对应的噪声水平,对噪声去除网络和噪声调度网络进行训练,所述噪声去除网络和所述噪声调度网络被包括在生成模型中;其中,所述噪声去除网络与从噪声输入到期望输出的反向过程相对应,并且所述噪声调度网络与从来自所述训练样本集的训练样本到输出带有噪声的输出的正向过程相对应。
根据本申请的另一方面,还提供了一种生成用于生成模型中的噪声尺度序列的方法,包括:获取随机噪声输入、噪声水平、以及噪声尺度,分别作为第N个数据、待生成噪声水平序列中的第N个噪声水平、待生成噪声尺度序列中的第N个噪声尺度,N为第一数量;对于第n个噪声水平:利用生成模型中的噪声去除网络,基于第n个数据、第n个噪声水平和第n个噪声尺度,生成第n-1个数据;基于第n个噪声水平(α)和第n个噪声尺度(β),确定第n-1个噪声水平(α),基于所述第n-1个噪声水平(α)和第n个噪声尺度(β),确定第n-1个噪声尺度约束(μ);利用生成模型中的噪声调度网络,基于所述第n-1个噪声尺度约束(μ)和所述第n-1个数据,生成噪声调度因子;基于所述第n-1个噪声尺度约束(μ)以及所述噪声调度因子,生成所述第n-1个噪声尺度,其中,n为小于等于N且大于等于1的整数,所述生成模型根据上述方法来进行训练。
根据本申请的又一方面,提供了一种用于生成期望输出的生成模型的训练装置,包括:获取模块,用于获取训练样本集,所述训练样本集包括多个训练样本,所述多个训练样本为独立同分布的样本;噪声水平确定模块,用于从所述训练样本集中每次随机选择一个训练样本,并确定所述训练样本对应的噪声水平;训练模块,用于利用随机选择的每个训练样本以及对应的噪声水平,对噪声去除网络和噪声调度网络进行训练,所述噪声去除网络和所述噪声调度网络被包括在生成模型中;其中,所述噪声去除网络与从噪声输入到期望输出的反向过程相对应,并且所述噪声调度网络与从来自所述训练样本集的训练样本到输出带有噪声的输出的正向过程相对应。
根据本申请的再一方面,还提供了一种生成用于生成模型中的噪声尺度序列的装置,包括:获取模块用于获取随机噪声输入、噪声水平、以及噪声尺度,分别作为第N个数据、待生成噪声水平序列中的第N个噪声水平、待生成噪声尺度序列中的第N个噪声尺度,N为第一数量;生成模块用于针对第n个噪声水平,执行以下操作:利用生成模型中的噪声去除网络,基于第n个数据、第n个噪声水平和第n个噪声尺度,生成第n-1个数据;基于第n个噪声水平和第n个噪声尺度,确定第n-1个噪声水平;基于第n-1个噪声水平和第n个噪声尺度,确定第n-1个噪声尺度约束;利用生成模型中的噪声调度网络,基于第n-1个噪声尺度约束和第n-1个数据,生成噪声调度因子;基于第n-1个噪声尺度约束以及噪声调度因子,生成第n-1个噪声尺度,其中,n为小于等于N且大于等于1的整数,生成模型根据如上的方法来进行训练。
根据本申请的实施例,生成模块还可以用于:在第n-1个噪声水平与第n个噪声水平之差小于预设阈值的情况下,利用所生成的第n-1个中间噪声尺度到第N个中间噪声尺度构造噪声尺度序列。
根据本申请的实施例,生成的噪声调度序列可以被样本生成装置用于:利用经训练的噪声去除网络,基于随机噪声输入生成多个推理样本,并将最后得到的推理样本作为新的样本进行输出。
根据本申请的另一方面,还提供了一种计算设备,包括:处理器;和存储器,其上存储有指令,所述指令在由所述处理器执行时,使得所述处理器执行如上所述的训练方法的各个步骤以及如上所述的生成方法的各个步骤。
根据本申请的另一方面,还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行如上所述的训练方法的各个步骤以及如上所述的生成方法的各个步骤。
根据本申请的又一方面,还提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现如上所述的训练方法的各个步骤以及如上所述的生成方法的各个步骤。
根据本公开的实施例,在模型的参数化过程期间结合了正向过程和反向过程,从而能够构造更合适的噪声尺度序列,进而能够更快地反向生成新的样本。此外,由于噪声调度网络针对的是噪声尺度变量,而预测噪声尺度变量本质上是一项相对容易的任务,相对于噪声去除网络的训练,速度快得多,因此噪声调度网络的训练不会增加过多的时间开销。此外,通过选择用于近似数据真实分布的分布的更优的下界,使得生成的样本的质量较高。
附图说明
图1示例性地示出了去噪扩散概率模型(DDPM)中考虑的有向图模型。
图2示例性地示出了本申请提出的双边去噪扩散模型(BDDM)中考虑的有向图模型。
图3示例性地示出了根据本申请的实施例的用于生成期望输出的生成模型的训练方法的流程示意图。
图4示例性地示出了根据本申请的实施例的图3中的训练步骤的更多细节。
图5示例性地示出了根据本申请实施例的,生成用于样本生成模型中的噪声尺度序列的方法的流程示意图。
图6A-6B示例性地示出了不同模型的噪声调度行为的比较。
图7A-7B示例性地示出了根据本申请的实施例的用于生成期望输出的生成模型的训练装置的结构框图。
图8示例性地示出了根据本申请实施例的,生成用于样本生成模型中的噪声尺度序列的装置的结构框图。
图9示例性地示出了根据本申请实施例的计算设备的框图。
具体实施方式
为了使得本申请的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
在本说明书和附图中,具有基本上相同或相似步骤和元素用相同或相似的附图标记来表示,且对这些步骤和元素的重复描述将被省略。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性或排序。
在进行本申请的具体描述之前,可以先对本申请中可能用到的某些术语进行简单解释。
去噪扩散概率模型(DDPM)和去噪扩散隐式模型(DDIM):基于似然的生成模型。
双边去噪扩散模型(BDDM):本申请提出的生成模型的另一种表述;
证据下界(ELBO):用于变分推理中,不易计算的分布(概率密度函数)作为证据(通常为其对数形式),证据下界为该分布的最小值,该证据下界能够被计算;
对数梅尔谱图均方误差(LS-MSE):将声谱图通过梅尔尺度滤波器组(Mel-scalefilter banks),变为梅尔频谱(对数),然后求梅尔谱图上的频率的均方误差,对用于衡量生成样本的质量的波形方面的度量;
梅尔-倒频谱距离(MCD):用于衡量生成样本的质量的波形方面的度量,由音乐讯号当中的片段,可以得到一组足以代表此音乐讯号的倒频谱,而梅尔倒频谱系数即是从这个倒频谱中推得的倒频谱(也就是频谱的频谱),梅尔倒频谱上的频带是均匀分布于梅尔刻度上的;
短期客观可懂度(STOI):语音能够被听者听懂的信号占总数的百分比;
语音质量的感知评估(PESQ):主观语音质量评估,语音增强中常用的度量;
平均意见得分(MOS):平均主观意见分,用于衡量生成样本的语音质量的主观度量。
独立同分布(i.i.d):指一组随机变量(例如,本申请的训练样本集)中每个训练样本的概率分布都相同,且这些训练样本互相独立,即训练用到的所有训练样本都是独立地从这个分布上采样而得。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能软件技术可以包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向,并且这些方向是可以相互融合的。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索等等。语音技术(Speech Technology)的关键技术包括语音合成技术(TTS)等。
如前面所述,去噪扩散概率模型(DDPM)虽然可以生成较好质量的样本,但是由于在样本生成过程时往往需要大量的去噪步骤,因此生成新的样本需要耗费更多的时间,因此需要一种能够快速生成新的样本并且生成的样本具有高质量的生成模型。
目前提出了能够较快生成新的样本的一些方法。例如,去噪扩散隐式模型(DDIM),它公式化了一个非马尔可夫生成过程,在样本生成中仅采用模型的一部分,通过定义预测函数以直接预测给定潜在变量的观测变量作为样本输出,从而可以通过DDIM的整个推理轨迹的子序列产生样本,因此加速了推理(样本生成),具体的过程如参考文献2中所述,参考文献2的内容通过引用并入至本申请中。或者,WaveGrad虽然作为DDPM的延伸,基于网格搜索算法而可以采用较少的样本生成步骤,但是需要在训练模型之后扫描噪声调度的所有可能区域,并且采用O(MT)复杂度(M是搜索bin的数量),因此,它对于T是不可缩放的(例如,该方法对于T>10是非常慢的)。或者,由方法使用神经概率流ODE来实现快速确定性多步骤样本生成过程。也或者,也有方法在样本生成期间使用来自分类器的梯度来引导扩散模型,但是这种知识提取和分类器技术的方向通常需要类别标签。
也就是说,先前的扩散模型只考虑了反向处理形式的替代方案或使用额外的知识进行更好的条件建模。此外,样本生成步骤的减少基本上取决于噪声调度(noiseschedule)的选择,而在目前的方法中,噪声调度通常被认为是正向过程预定义的。
本申请提出一种双边去噪扩散模型(BDDM),该模型用噪声调度网络(也称为得分网络)和噪声调度网络(也称为步骤网络)来构建,通过对噪声调度网络和噪声调度网络进行训练,而实现对正向和反向过程的参数化。
本申请提出的双边去噪扩散模型(BDDM)与DDPM具有相似的特征,因此下面首先对DDPM的一部分内容进行简要介绍,以便于更好地阐述本申请的实施例的方案。
图1示出了去噪扩散概率模型(DDPM)中考虑的有向图模型(directed graphicalmodel)。
首先,给定来自未知概率分布(未知数据分布)pdata(x0)的多个独立同分布的训练样本{x0∈RD},生成模型(其涉及不可直接测量的潜在变量,因此也称为潜在变量模型),具体为如在后文描述的得分网络或者噪声去除网络,可用于学习近似pdata(x0)的模型分布pθ(x0)。
图1的有向图中,示出了去噪扩散概率模型(DDPM)中定义的具有高斯过渡的离散马尔可夫链,其中由预定义的噪声尺度的递增序列
Figure BDA0003159215880000071
参数化,用如下公式(1)表示:
Figure BDA0003159215880000072
这可以被称为正向过程,因为逐渐地用与βt相关联的高斯噪声干扰训练样本x0的观测值(为了便于描述,该观测值也用x0来表示),而生成多个中间样本xt,每个xt与βt相对应,并且基于链式规则,正向过程具有封闭形式的表示,如公式(2)所示:
Figure BDA0003159215880000073
其中,为了描述的方便,设置参数αt来指示噪声水平,其中αt=lt,并且
Figure BDA0003159215880000074
因此,xt可以视为是x0和一个噪声变量∈t(具有参考样本分布∈t~N(O,I))的线性组合,如公式(3)所示:
Figure BDA0003159215880000075
通过最大化证据下界(ELBO),即Felbo(θ,β),来学习模型的参数,以用于拟合x0的真实概率分布pdata(x0)。θ是模型的一组参数,通过学习而选择合适的一组参数,β是与噪声尺度相关的模型的一组参数,但是在DDPM中认为它是不可学习的,因此一旦噪声尺度序列确定,该组参数β则作为常量。
证据下界(ELBO)的定义与推导方式是本领域技术人员熟知的,因此这里不再推导,公式(4)给出推导结果:
Figure BDA0003159215880000076
在公式(4)中,pθ(x0)是近似x0所属的训练样本集的真实概率分布pdata(x0)的所学习的分布,但是其似然并不容易计算的,但通过使Felbo(θ,β)最大化也能使得pθ(x0)与pdata(x0)足够接近。
在公式(4)中,qβ(x1:T|x0)为条件概率分布,已经在公式(1)-(3)中给出;pθ(x0:T)为联合分布概率,对应于反向过程,它由变分马尔可夫链建模,并且可以从pprior(xT):=N(0,I)开始在反向上顺序计算,即输入是满足高斯分布N(0,I)的变量xT,如公式(5)-(6)所示:
Figure BDA0003159215880000077
Figure BDA0003159215880000081
θ(·)为噪声去除网络,对应于反向过程,且∈θ(xt,αt)是对得分匹配技术(score matching)进行重新参数化而得出的,因此也可以称为得分网络(score network)。这里,对DDPM中的得分网络进行了一些修改,∈θ(xt,at/)以连续噪声水平at为条件,但是实际上∈θ(·)也可以以离散的索引∈θ(xt,t/)为条件,如DDPM中所述。以连续噪声水平at为条件得到的得分网络可以用于使用不同的迭代次数进行推理,而不重新训练网络。因此,在本申请中,以∈θ(xt,at/)以连续噪声水平at为条件为例。
如前面所述,要使得pθ(x0)与pdata(x0)足够接近,可以通过使Felbo(θ,β)最大化来实现,根据公式(4)-(6),并且由于所有条件都是高斯,可以推导出Felbo(θ,β)最大化等同于针对于θ来最小化
Figure BDA0003159215880000082
表示为公式(7):
Figure BDA0003159215880000083
也就是说,训练的目标是通过不断调整模型的该组参数θ,使得
Figure BDA0003159215880000084
能够最小。
经过训练的∈θ(xt,αt)网络可以使用Langevin动力学根据随机输入基于条件分布概率pθ(xt-1|xt)迭代地生成新样本。
以上结合图1描述了DDPM模型中的得分网络。但是,在针对该得分网络进行参数化(训练)的过程中,并不涉及在正向过程的参数化,因为参数集β仅作为常量,用于针对一个训练样本(x0)生成带噪的中间样本(xt),然后利用每个训练样本以及生成的中间样本进行参数化,以训练该得分网络。
并且,从DDPM模型以及其他模型可知,基于噪声尺度的噪声调度(也称为“扩散步骤”)对样本生成性能的影响是很关键的。具体来说,DDPM采用了一个线性增加的噪声调度和一个大的T,T为噪声尺度序列长度,如T=1000,使反向处理成为一个很好的近似。不幸的是,这导致了缓慢的样本生成过程(例如根据公式(5),样本生成过程必须等于T)和较差的缩放特性。虽然,在DDIM模型中,给定来自完整的噪声调度的子序列,DDIM提供迭代规则来加速样本生成,然而,该方法本身并没有优化噪声调度或其子序列。在WaveGrad中的网格搜索方法需要在训练得分函数之后扫描噪声调度的所有可能区域,并且采用O(MT)复杂度(M是搜索bin的数量),因此,它对于T是不可缩放的(例如,该方法对于T>10是非常慢的)。
为了解决上述问题,本申请提出一种双边去噪扩散模型(BDDM),该模型用噪声去除网络(也称为得分网络,对应于反向过程,如xt到x0)和噪声调度网络(也称为步骤(step)网络,对应于正向过程,如x0到xt)来构建,通过对噪声去除网络和噪声调度网络进行训练,而实现对正向和反向过程的参数化。
图2示例性地示出了本申请提出的BDDM中考虑的有向图模型。该有向图模型中包括正向过程和反向过程。
首先,如前文对β的定义,可以存在以下关系:
Figure BDA0003159215880000091
αt=lt,并且
Figure BDA0003159215880000092
并且,希望从βt+1到βt的噪声尺度是下降的,以在努力获得高的生成质量的同时能够保持少的样本生成步骤。因此,设置噪声调度网络
Figure BDA0003159215880000093
使得在正向上使用通过
Figure BDA0003159215880000094
估计的βt,而不是由传统的预定义的噪声调度序列
Figure BDA0003159215880000095
参数化,例如
Figure BDA0003159215880000096
噪声去除网络仍使用预定义的噪声调度序列。
因此,考虑到正反向过程,针对图2,引入重新参数化的正向分布,如公式(8)所示:
Figure BDA0003159215880000097
根据公式(8),可以导出以下下界不等式:
Figure BDA0003159215880000098
如前面在DDPM模型中所述,pθ(x0)是近似x0所属的训练样本集的真实概率分布pdata(x0)的所学习的分布,但是其并不容易计算,但通过使该训练样本集的分布对应的证据下界
Figure BDA0003159215880000099
最大化也能使得pθ(x0)与pdata(x0)足够接近。
而根据公式(9)可以看到,存在一个新的替代目标,该替代目标使用的下界
Figure BDA00031592158800000910
比常用的证据下界(这里的证据下界为
Figure BDA00031592158800000911
更接近logpθ(x0)。因此,通过使
Figure BDA0003159215880000101
最大化可以比通过使
Figure BDA0003159215880000102
Figure BDA0003159215880000103
最大化能使得pθ(x0)与pdata(x0)更接近,这样,生成的新样本的质量将更高。而且,根据公式(12)中推导出来的
Figure BDA0003159215880000104
的形式,
Figure BDA0003159215880000105
Figure BDA0003159215880000106
相对logpθ(x0)也更好处理。
Figure BDA0003159215880000107
包括待学习或待优化的两组参数,第一组参数(θ)与反向过程相关,第二组参数
Figure BDA0003159215880000108
与正向过程相关。本申请为了生成高质量的样本,需要对
Figure BDA0003159215880000109
进行最大化。
在最大化
Figure BDA00031592158800001010
的过程中,会导出分别与反向过程相关的第一损失函数(参数集为θ),和与正向过程相关的第二损失函数(参数集为
Figure BDA00031592158800001011
),而通过分别调整θ和
Figure BDA00031592158800001012
的值,以分别对这两个损失函数的值进行最小化以实现最大化
Figure BDA00031592158800001013
例如通过梯度下降法,这将在后续进行说明。
图3示出了根据本申请的实施例的用于生成期望输出的生成模型的训练方法的流程示意图。该生成模型可以包括噪声去除网络和噪声调度网络。
如图3所示,在步骤S310中,获取训练样本集,所述训练样本集包括多个训练样本,所述多个训练样本为独立同分布的样本。
可选地,训练样本集可以为各种类型的样本,例如图片和音频等。
具体地,所述多个训练样本为独立同分布的样本,即,训练样本集包括的多个训练样本为多个独立的样本x0,每个样本的概率分布pdata(x0)是相同的。
在步骤S320中,从所述训练样本集中随机选择一个训练样本,并确定所述训练样本对应的噪声水平。
可选地,可以通过以下方式来确定每个训练样本对应的噪声水平:获取初始噪声尺度序列和索引序列,所述初始噪声尺度序列包括第一数量的噪声尺度,所述索引序列中包括的第二数量的索引,所述第二数量小于等于第一数量;然后,基于所述初始噪声尺度序列和从所述索引序列中随机选择的索引,确定所述训练样本对应的两个相邻噪声水平。
初始噪声尺度序列可以例如是预定义的如前文所述的β序列,包括单调递增的噪声尺度,并且具有第一数量(T),例如T=1000。
从索引序列中随机选择的索引用于指示针对该训练样本,哪个噪声水平将被应用到该第二训练样本中,且索引序列包括的索引的数量可以小于第一数量。索引序列可以认为是一个均匀分布,要从其中进行选择索引也被称为是从其中进行采样。
针对每次选择的训练样本x0,如前文参考图1描述中提及的,
Figure BDA0003159215880000111
Figure BDA0003159215880000112
并且
Figure BDA0003159215880000113
这里首先可以如下定义:
Figure BDA0003159215880000114
其中,ε为预设参数,用于指示初始噪声尺度序列中的噪声尺度最大值,例如βT。t大于等于1且小于等于T。
由于希望以尽可能少的步骤生成高质量的样本,因此噪声调度网络需要学习在大间隔的索引步长之间的过渡,因此可以设置步长参数τ,其中τ大于1且小于T(当τ=1时,没有改变步长,因此相对于τ>1的情况需要更多的步数来生成高质量的样本),此时的索引序列可以为{τ,2τ,....,T-2τ,T-τ},其中τ表示该索引序列中两个连续噪声尺度索引之间的索引步长,可以在索引序列{τ,2τ,....,T-2τ,T-τ}中选择用于该训练样本的索引(下面将待选择的索引仍表示为t),并且αS表示所选择的索引所对应的噪声水平,αs+1表示与αs相邻的噪声水平,如下所示:
αs=lt,αs+1=lt+τ,t~Uniform({τ,...,T-τ}).。 (9)
这样,例如,在所选择的索引为t=2τ,且τ=2的情况下,
Figure BDA0003159215880000115
Figure BDA0003159215880000116
在步骤S330中,利用随机选择的每个训练样本以及对应的噪声水平,对噪声去除网络和噪声调度网络进行训练。
可选地,噪声去除网络对应于反向过程,即与从噪声输入数据到输出数据的反向过程相对应,根据将在后文描述的推导过程,该噪声去除网络与参考图1所描述的得分网络具有相同的表达。
可选地,噪声调度网络对应于正向过程,即与从来自所述训练样本集的训练样本x0到带有噪声的输出的正向过程相对应,如将在后文描述的,该噪声调度网络能够生成估计噪声尺度。
可选地,噪声去除网络对应所述生成模型的第一组参数(例如,θ),噪声调度网络对应所述生成模型的第二组参数
Figure BDA0003159215880000117
在训练的时候,针对每个训练样本,两组参数是独立学习的且互不影响,即在训练噪声去除网络的时候保持噪声调度网络的参数不变,在训练噪声调度网络的时候保持噪声去除网络的参数不变。此外,由于针对每个训练样本,都会基于该训练样本而确定此次是否需要更新噪声去除网络的参数和噪声调度网络的参数,因此,噪声去除网络和噪声调度网络的训练也可以认为是联合训练。
具体的训练步骤将结合图4进行详细描述。
通过参考图3所描述的方法,在模型的参数化过程期间结合了正向过程和反向过程,从而能够构造更合适的噪声尺度序列,进而能够更快地反向生成新的样本。此外,由于噪声调度网络针对的是噪声尺度变量,而预测噪声尺度变量本质上是一项相对容易的任务,相对于噪声去除网络的训练,速度快得多,因此噪声调度网络的训练不会增加过多的时间开销。
下面结合图4来对图3中的步骤S330进行详细介绍。以下过程针对每个训练样本而执行。
如图4所示,在步骤S330-1中,基于所述训练样本对应的噪声水平,生成所述训练样本的中间样本。
例如,如前面所述,由于
Figure BDA0003159215880000121
对于上述αs,可以得到对应的
Figure BDA0003159215880000122
以下以αs为例。在获取了所述训练样本对应的噪声水平之后,训练样本x0可以生成一个中间样本xs,基于αs,该中间样本被施加了噪声数据。
在步骤S330-2中,基于所述中间样本以及所述对应的噪声水平,利用所述噪声去除网络计算与所述中间样本相关的第一损失(Lscore)。
例如,所述第一损失是根据第一损失函数计算的,所述第一损失函数与相对于具有样本参考分布的噪声变量、噪声去除网络针对所述第一训练样本的中间样本以及所述对应的噪声水平的计算结果之间的差异相关联。例如,第一损失函数为:
Figure BDA0003159215880000123
其中,∈θ (s)=∈θ(xs,αs), (10)
其中,∈s为噪声变量,且具有样本参考分布∈s~N(0,I),xs为所述中间样本,αs为所述训练样本对应的噪声水平,∈θ (s)为所述噪声去除网络∈θ(·)基于当前参数针对所述中间样本和所述噪声水平时的计算结果,
Figure BDA0003159215880000124
表示向量或矩阵的二范数的平方。
第一损失函数可以通过以下推导过程得到(以下便于与前面公式统一,用t替换s)。
首先,在前文提及,希望将
Figure BDA0003159215880000131
最大化,通过固定
Figure BDA0003159215880000132
可以对
Figure BDA0003159215880000133
进行近似,由于对应的是反向过程,因此下面的β均来自初始噪声尺度序列:
Figure BDA0003159215880000134
接下来,计算上述KL项,根据有向图中的条件概率分布之间的关系,
Figure BDA0003159215880000135
可以通过xt来重新参数化x0
Figure BDA0003159215880000136
其中,
Figure BDA0003159215880000137
注意pθ(xt-1|xt)和pθ(xt-1|xt,x0)是具有相同变量σt 2的高斯分布,因此,KL项变为了两个高斯分布之间的缩放平方差:
Figure BDA0003159215880000141
替换
Figure BDA0003159215880000142
可将上式简化为:
Figure BDA0003159215880000143
由此可见,第一损失函数Lscore与现有的DDPM模型中的针对得分网络的损失函数具有基本一致的形式。
在步骤S330-3中,基于中间样本以及所述两个相邻噪声水平,利用所述噪声调度网络生成估计噪声尺度。
可选地,该步骤可以具体包括:
i.基于所述两个相邻噪声水平,确定噪声尺度约束(μs);
例如,中间样本xs的噪声尺度为αs,相邻的噪声尺度为αs+1,噪声尺度的具体值可以如前文所述通过初始噪声尺度序列和索引序列而计算得到。噪声约束(μs)被定义为1-αs 2和βs+1中的最小值,其中
Figure BDA0003159215880000144
ii.利用所述噪声调度网络,基于所述噪声尺度约束(μi)和所述中间样本,生成噪声调度因子;
例如,噪声调度网络为
Figure BDA0003159215880000145
噪声调度因子为
Figure BDA0003159215880000146
的值,即所述噪声调度网络
Figure BDA0003159215880000147
基于当前参数针对所述中间样本和所述噪声尺度约束时的计算结果。
iii.基于所述噪声尺度约束(μs)以及所述噪声调度因子,生成所述估计噪声尺度
Figure BDA0003159215880000148
例如,所述估计噪声尺度为所述噪声尺度约束以及所述噪声调度因子的乘积,即,
Figure BDA0003159215880000151
在步骤S330-4中,基于所述中间样本、所述两个相邻噪声水平以及所述估计噪声尺度,计算与所述中间样本相关的第二损失(Lstep)。
例如,所述第二损失是根据第二损失函数计算的,所述第二损失函数与相对于具有样本参考分布的噪声变量与第一系数的乘积、噪声去除网络针对所述训练样本的中间样本以及所述对应的噪声水平的计算结果与第二系数的乘积之间的差异相关联。第一系数由所述对应的噪声水平确定,第二系数由估计噪声尺度和对应的噪声水平确定。
例如,第二损失函数为:
Figure BDA0003159215880000152
其中,
Figure BDA0003159215880000153
其中,μs为噪声尺度约束并且为所述中间样本xs所对应的噪声尺度约束,
Figure BDA0003159215880000154
为所述噪声调度网络
Figure BDA0003159215880000155
基于当前参数针对所述中间样本和所述噪声尺度约束时的计算结果,作为噪声调度因子,D为xi的维度。
对于第二损失函数的设置具有以下考虑,该第二损失函数被定义为正向和反向分布之间的KL散度项,并且本质上相当于下界
Figure BDA0003159215880000156
和logpθ(x0)之间的差距。因此,通过最小化该损失函数,其意义在于在θ参数固定时,强制下界
Figure BDA0003159215880000157
逐渐变为更紧的下界,从而使得pθ(x0)与pdata(x0)更接近。由于正向过程中的βt是估计的,因此下面公式中的βt是根据噪声调度网络计算的估计值。
基于上述考虑,第二损失函数的推导过程如下(仍然以t来表示s)。
首先通过替换以下概率密度函数来扩展KL项:
Figure BDA0003159215880000158
可以得到:
Figure BDA0003159215880000161
其中,
Figure BDA0003159215880000162
从上可知,第二损失函数的形式也比较简单,由于
Figure BDA0003159215880000163
是可计算得到的值,所有与xt的数据分布相关的变量都可以消除,最后的形式只取决于两个变量∈t和∈θ(xt,αt),类似于
Figure BDA0003159215880000164
不过二范数内的变量的标度值是不同的。此外,还应注意,保留二范数的系数和依赖于βt的Ct项,因为
Figure BDA0003159215880000165
需要用于噪声调度网络的学习中。
接下来分析
Figure BDA0003159215880000166
和第二损失函数的关系。
考虑固定的θ,
Figure BDA0003159215880000167
和logpθ(x0)之间的差距为上述损失函数的和,即:
Figure BDA0003159215880000168
推导如下:
Figure BDA0003159215880000169
即,在给定αt
Figure BDA00031592158800001610
的情况下,在第t步处针对
Figure BDA00031592158800001611
最小化损失函数
Figure BDA0003159215880000171
相当于针对
Figure BDA0003159215880000172
最大化下界
Figure BDA0003159215880000173
Figure BDA0003159215880000174
通常,虽然公式(23)中是对Lstep求和,但是出于减少训练量的考虑,一般只抽取一个Lstep同样能够保证能对模型进行优化,因此也可以相当于最小化损失函数
Figure BDA0003159215880000175
这样,可以使得在θ参数固定的情况下,下界
Figure BDA0003159215880000176
最大化,从而比在DDPM模型中使用的证据下界ELBO
Figure BDA0003159215880000177
更接近logpθ(x0),以更接近x0所属的训练样本集的真实分布pdata(x0)。
这样,通过训练得到的生成模型可以生成较高质量的新的样本。
在步骤S330-5中,基于所述第一损失和所述第二损失,对所述噪声去除网络和所述噪声调度网络进行训练。
可选地,可以分别调整所述噪声去除网络和所述噪声调度网络的参数,使得第一损失和第二损失分别最小化。例如,可以对该第一损失函数和第二损失函数均采用梯度下降法,直至收敛,以得到使得第一损失和第二损失最小化的合适的模型参数。例如,可以通过随机梯度下降法(SGD)。
通过参考图4描述的训练的步骤之后,噪声去除网络的参数能够使得对应的损失函数取得全局最小值,噪声调度网络的参数能够使得损失函数取得全局最小值,因此可以使得如前面所述的下界
Figure BDA0003159215880000178
最大化,从而比在DDPM模型中使用的证据下界ELBO
Figure BDA0003159215880000179
更接近logpθ(x0),以更接近x0所属的训练样本集的真实分布pdata(x0)。在实际应用时能够基于给定初始条件而生成对于该初始条件来说合适的噪声尺度序列,以用于更快地反向生成新的样本。
根据本申请的另一方面,还提供了一种生成用于样本生成模型中的噪声尺度序列的方法。该方法是经由通过上述参考图3-4描述的训练方法训练后的样本生成模型来实现的,具体地,经由该样本生成模型的训练后的噪声去除网络和噪声调度网络来实现的。
图5示出了生成用于样本生成模型中的噪声尺度序列的方法的流程示意图。
通过前述的训练方法,噪声去除网络和噪声调度网络各自学习了一组合适的参数,从而可以用于基于该参数来进行应用。例如,噪声调度网络可以基于学习的参数而进行噪声调度。
在步骤S510中,获取随机噪声输入、噪声水平、以及噪声尺度,分别作为第N个数据x′N~N(O,I)、待生成噪声水平序列中的第N个噪声水平α′N、待生成噪声尺度序列中的第N个噪声尺度β′N,N为第一数量。
以下步骤针对从N开始以一递减的索引n而执行。n为小于等于N且大于等于2的整数。
在步骤S520中,对于第n个噪声水平,利用噪声去除网络,基于第n个数据、第n个噪声水平和第n个噪声尺度,生成第n-1个数据。
例如,x′n-1~pθ(x′n-1|x′n;α′n;β′n),其中,基于公式(6)可知,pθ(x′n-1|x′n;α′n;β′n)与经训练的噪声去除网络∈θ(·)是相关的。
在步骤S530中,对于该第n个噪声水平,基于第n个噪声水平和第n个噪声尺度,确定第n-1个噪声水平。
例如,
Figure BDA0003159215880000181
这与前文所定义的βn、αn和αn-1之间的关系也是一致的。
在步骤S540中,对于该第n个噪声水平,基于所述第n-1个噪声水平和第n个噪声尺度,确定第n-1个噪声尺度约束。
例如,μn-1=min{1-α′n-1 2,β′n}。
在步骤S550中,对于该第n个噪声水平,利用样本生成模型中的噪声调度网络,基于所述第n-1个噪声尺度约束和所述第n-1个数据,生成噪声调度因子。
在步骤S560中,基于所述第n-1个噪声尺度约束以及所述噪声调度因子,生成所述第n-1个噪声尺度。
例如,
Figure BDA0003159215880000182
其中,
Figure BDA0003159215880000183
是经训练的噪声调度网络。
通过参考图5所述的噪声尺度序列的生成方法,所生成的噪声尺度序列可以用于生成新的样本,由于如前面所述,所利用的噪声去除网络和噪声调度网络被训练,通过确定一个相对于训练样本集的分布更近的下界,使得生成的新样本的分布与训练样本集的分布更接近,因此可以提高样本生成质量。
此外,阈值ρ可以被用来作为平衡样本质量和样本生成速度的可调节控制因子。该噪声尺度序列的生成方法还可以包括以下步骤:在所述第n-1个噪声水平与所述第n个噪声水平之差小于预设阈值的情况下,利用所生成的第n-1个中间噪声尺度到第N个中间噪声尺度构造所述噪声尺度序列。
具体地,如果计算的第n-1个噪声水平相对于当前的第n个噪声水平的变化幅度已经不大,那么两者对应的噪声尺度相差也不大,因此两个样本生成步骤也比较类似,因此可以停止继续计算第n-2个噪声水平,而直接将目前已经获得的(N-(n-1)+1=N-n+2)个噪声水平对应的(N-n+2)噪声尺度用于构造所述噪声尺度序列。
反之,如果第n-1个噪声水平与所述第n个噪声水平之差不小于预设阈值,那么噪声尺度序列包括的噪声尺度的数量仍然为N。
所述样本生成模型在获得该噪声尺度序列之后,可以用于基于随机噪声输入而生成新的样本。
即,样本生成模型利用经训练的噪声去除网络,基于随机噪声输入生成多个推理样本,并将最后得到的推理样本作为新的样本进行输出。
具体地,获取随机噪声输入和噪声尺度序列。例如,随机噪声输入可以为高斯白噪声,并且该噪声尺度序列可以如参考图5描述的生成方式来生成的,例如包括P=N-n+2个噪声尺度,高斯白噪声可以作为第S个数据。
基于该噪声尺度序列可以生成噪声水平序列。噪声水平与噪声尺度的对应计算关系已经在前文进行了描述,因此这里不再重复。
然后,针对从P开始以一递减的索引p,p小于等于P且大于等于1,利用噪声去除网络,基于第p个数据、第p个噪声水平和第p个噪声尺度,生成第p-1个推理样本。
例如,xp-1~pθ(xp-1|xp;αp;βp),其中,基于公式(6)可知,pθ(xp-1|xp;αp;βp)与经训练的噪声去除网络∈θ(·)是相关的。
这样,基于噪声尺度序列可以推理得到多个推理样本,最后得到的推理样本作为生成的新样本。
通过如上过程,由于通过设置阈值ρ,生成的噪声尺度序列可以包括更少数量的噪声尺度,因此,在样本生成过程中(推理过程中)的步骤可以减少,例如从N减少到N-n+2(n大于2时),从而可以加快样本生成的速度。
根据本申请的另一方面,还提供了一种用于生成期望输出的生成模型的训练装置。
图7A-7B示出了根据本申请实施例的用于生成期望输出的生成模型的训练装置的结构框图。如7A所示,该训练装置700包括获取模块710、噪声水平确定模块720、训练模块730。
获取模块710用于获取训练样本集,所述训练样本集包括多个训练样本,所述多个训练样本为独立同分布的样本,
噪声水平确定模块720用于从所述训练样本集中每次随机选择一个训练样本,并确定所述训练样本对应的噪声水平;
训练模块730用于利用随机选择的每个训练样本以及对应的噪声水平,对噪声去除网络和噪声调度网络进行训练,其中,噪声去除网络和噪声调度网络被包括在生成模型中,所述噪声去除网络与从随机噪声输入到输出样本的反向过程相对应,并且所述噪声调度网络与从来自所述训练样本集的训练样本到输出带有噪声的中间样本的正向过程相对应。
图7B示出了图7A中的训练装置的更多细节。
如图7B所示,噪声水平确定模块720包括:获取单元720-1,用于获取初始噪声尺度序列和索引序列,所述初始噪声尺度序列包括第一数量的噪声尺度,所述索引序列中包括的第二数量的索引,所述第二数量小于等于第一数量;确定单元720-2,用于基于所述初始噪声尺度序列和从所述索引序列中随机选择的索引,确定所述训练样本对应的两个相邻噪声水平。
训练模块730包括:中间样本生成单元730-1,用于对于每个训练样本,基于所述训练样本对应的噪声水平,生成所述训练样本的中间样本;730-2第一损失计算单元,用于基于所述中间样本以及所述对应的噪声水平,利用所述噪声去除网络计算与所述中间样本相关的第一损失;估计单元730-3用于基于中间样本以及所述两个相邻噪声水平,利用所述噪声调度网络生成估计噪声尺度;第二损失计算单元730-4用于基于所述中间样本、所述两个相邻噪声水平以及所述估计噪声尺度,计算与所述中间样本相关的第二损失;以及训练单元730-5,用于基于所述第一损失和所述第二损失,对所述噪声去除网络和所述噪声调度网络进行训练。
可选地,估计单元730-3可以:基于所述两个相邻噪声水平,确定噪声尺度约束;利用所述噪声调度网络,基于所述噪声尺度约束和所述中间样本,生成噪声调度因子;基于所述噪声尺度约束以及所述噪声调度因子,生成所述估计噪声尺度。
可选地,训练模块730-5可以:调整所述噪声去除网络和噪声调度网络的参数,使得所述第一损失和第二损失最小化,其中,所述第一损失是按照第一损失函数计算的,并且所述第二损失是按照第二损失函数计算的。
例如,所述第一损失是根据第一损失函数计算的,所述第一损失函数与相对于具有样本参考分布的噪声变量、噪声去除网络针对所述第一训练样本的中间样本以及所述对应的噪声水平的计算结果之间的差异相关联。
例如,所述第二损失是根据第二损失函数计算的,所述第二损失函数与相对于具有样本参考分布的噪声变量与第一系数的乘积、噪声去除网络针对所述训练样本的中间样本以及所述对应的噪声水平的计算结果与第二系数的乘积之间的差异相关联,第一系数由所述对应的噪声水平确定,第二系数由估计噪声尺度和对应的噪声水平确定。
可选地,所述第一损失函数为:
Figure BDA0003159215880000211
其中,∈θ (t)=∈θ(xt,αt),
所述第二损失函数为:
Figure BDA0003159215880000212
Figure BDA0003159215880000213
其中,
Figure BDA0003159215880000214
其中,t为大于等于1且小于等于所述第二数量的正整数,∈t为噪声变量,且具有样本参考分布∈t~N(0,I),xt为所述中间样本,αt为所述训练样本对应的噪声水平,∈θ (t)为所述噪声去除网络∈θ(·)基于当前参数针对所述中间样本和所述噪声水平时的计算结果,
Figure BDA0003159215880000215
表示向量或矩阵的二范数的平方;
其中,μt为噪声尺度约束并且为所述中间样本xt所对应的噪声尺度约束,
Figure BDA0003159215880000216
为所述噪声调度网络
Figure BDA0003159215880000217
基于当前参数针对所述中间样本和所述噪声尺度约束时的计算结果,作为噪声调度因子,D为xt的维数。
此外,训练模块730还可以通过最小化与所述训练样本的中间样本相关的第一损失和第二损失,确定与所述训练样本集的分布最接近的下界,所确定的下界大于所述训练样本集对应的证据下界。
各个模块中的操作的更多细节可以参考前文参考图3-4进行的描述。
在图7A-7B中,根据训练装置要进行的功能而将其划分为多个模块,然而根据不同的划分方式,训练装置可以包括更多或更少的模块,本申请对此不做限制。
通过参考图7A-7B所描述的训练装置,在模型的参数化过程期间结合了正向过程和反向过程,从而能够构造更合适的噪声尺度序列,进而能够更快地反向生成新的样本。另一方面,通过使与此时中间样本相关的特定形式的损失函数最小化,可以使得导出的下界(即,
Figure BDA0003159215880000221
)最大化,从而比在DDPM模型中使用的证据下界(即,
Figure BDA0003159215880000222
)更接近训练样本集的真实分布。此外,由于噪声调度网络针对的是噪声尺度变量,而对噪声尺度变量进行预测和调度本质上是一项相对容易的任务,相对于噪声去除网络的训练,速度快得多,因此噪声调度网络的训练不会增加过多的时间开销。
根据本申请的又一方面,还提供了一种生成用于生成模型中的噪声尺度序列的装置。
图8示出了根据本申请的实施例的生成用于生成模型中的噪声尺度序列的装置800的结构框图。
如图8所示,装置800包括获取模块810和生成模块820。
获取模块810用于获取随机噪声输入、噪声水平、以及噪声尺度,分别作为第N个数据、待生成噪声水平序列中的第N个噪声水平、待生成噪声尺度序列中的第N个噪声尺度,N为第一数量。
生成模块820用于从N开始以一递减,针对第n个噪声水平,执行以下操作:利用生成模型中的噪声去除网络,基于第n个数据、第n个噪声水平和第n个噪声尺度,生成第n-1个数据;基于第n个噪声水平(α)和第n个噪声尺度(β),确定第n-1个噪声水平(α);基于第n-1个噪声水平(α)和第n个噪声尺度(β),确定第n-1个噪声尺度约束(μ);利用生成模型中的噪声调度网络,基于第n-1个噪声尺度约束(μ)和第n-1个数据,生成噪声调度因子;基于第n-1个噪声尺度约束(μ)以及噪声调度因子,生成第n-1个噪声尺度,其中,n为小于等于N且大于等于1的整数,生成模型根据如参考图3-4描述的方法来进行训练。
此外,生成模块还可以用于:在第n-1个噪声水平与第n个噪声水平之差小于预设阈值的情况下,利用所生成的第n-1个中间噪声尺度到第N个中间噪声尺度构造噪声尺度序列。
在图8中,根据训练装置要进行的功能而将其划分为多个模块,然而根据不同的划分方式,训练装置可以包括更多或更少的模块,本申请对此不做限制。
该装置800生成的噪声调度序列可以被样本生成装置用于:利用经训练的噪声去除网络,基于随机噪声输入生成多个推理样本,并将最后得到的推理样本作为新的样本进行输出。
该装置800相关的操作的更多细节可以参考前文参考图5进行的描述。
通过参考图8所述的噪声尺度序列的生成装置,所生成的噪声尺度序列可以用于生成新的样本,由于如前面所述,所利用的噪声去除网络和噪声调度网络被训练,通过确定一个相对于训练样本集的分布更近的下界,使得生成的新样本的分布与训练样本集的分布更接近,因此可以提高样本生成质量。此外,由于通过设置阈值,生成的噪声尺度序列可以包括更少数量的噪声尺度,因此,在样本生成过程中(推理过程中)的步骤数量可以减少,从而可以加快样本生成的速度。
在一些实施例中,得分网络的模型架构可以采用上采样块(UBlock)、FILM模块和下采样块(DBlock)。或者,如果UBlocks和DBlocks能够沿时间维度进行上采样和下采样,则可以应用其他类型的架构来替换它们,例如,Sandglasset架构也可以用来构建得分网络。
可选地,期望噪声调度网络
Figure BDA0003159215880000231
构建得到的噪声尺度序列中从β’t+1到β’t的噪声尺度是下降的,以保持较少的样本生成步骤,同时努力获得高的生成质量。因此例如可以采用sigmoid门控神经网络
Figure BDA0003159215880000232
RD→(0,1)实现从步骤t+1到步骤t的递减噪声尺度。
噪声调度网络的模型架构可以采用轻量级GALR网络。GALR最初是为语音增强而提出的,所以认为它非常适合预测噪声尺度。对于GALR网络的配置,使用8个样本的窗口长度进行编码,使用64的分段大小进行分段,并且仅使用128个隐藏维度的两个GALR块,其他设置采用本领域常用设置。为了使噪声调度网络输出具有适当的范围和维数,将sigmoid函数应用于GALR网络的最后一个块的输出,例如使得噪声尺度的值可以在0到1之间。然后,对分段和特征维度上的结果进行平均,以获得预测比率:
Figure BDA0003159215880000233
Figure BDA0003159215880000234
其中GALR(·)表示GALR网络,AvgPool2D(·)表示应用于分段和特征维度的平均池化操作,并且σ(x):=1/(1+e-x)。同样值得注意的是,与得分网络的成本相比,噪声调度网络的计算成本确实很小,因为预测噪声尺度变量本质上是一项相对容易得多的任务。基于GALR的噪声调度网络在能够产生稳定可靠的结果的同时,速度约比得分网络快3.6倍,这意味着训练BDDM几乎可以与训练DDPM或DDIM一样快。
当然,除了GALR网络之外,最初提出的用于语音增强、噪声估计或语音分离的其他替代模型架构,例如DPRNN(48)和ConvTasnet(49)等也可以用于构成噪声调度网络。
以下基于本申请提出的BDDM模型与其他相关生成模型进行比较来更好地说明本申请的实施例的优点。用于对比的模型包括DDPM模型(网格搜索调度、线性调度)、DDIM模型(线性调度)以及噪声估计(NE)方法的模型。NE方法通过使用对数尺度回归损失
Figure BDA0003159215880000241
来训练噪声估计器α^t=g(xt)以直接预测αt 2,在推断时,NE需要预定义的噪声调度,例如,线性调度或斐波那契调度。
对于语音合成,使用模板LJ语音数据集,并给出了在LJ语音数据集(公开的)上的实验结果,用于分析BDDM的模型以及对比模型的行为。
不同模型的噪声调度的性能在LS-MSE、MCD、STOI、PESQ和MOS方面来进行比较。这些模型均采用相同的噪声去除网络(得分网络)。
一方面是基于客观和主观度量的评价。
使用了目标度量一对数-梅尔谱图均方误差(LS-MSE)和Mel-倒频谱距离(MCD),以评估原始波形和Mel-频域中生成的波形之间的一致性。此外,为了测量生成的语音相对于参考语音的噪声和失真,采用了语音增强中常用的两个度量一语音质量的感知评估(PESQ)和短时客观可懂度(STOI)度量。平均意见得分(MOS)被用作语音质量的主观度量。
结果在表1中给出,其中包括了对应于8、16和21个推理步骤的三组(αN,βN)的性能。值得注意的是,提出的BDDM仅用16或21步就超过了1000步DDPM,这对于快速和高质量的一代来说是可以接受的。值得注意的是,100步(10倍加速)的DDIM表现出比1000步的DDPM更好的生成性能。然而,虽然DDIM通过仅采用8、16或21个推理步骤加快了它的推理速度,但相应的表现却无法与BDDM相媲美。虽然NE方法的性能在16步后看起来很有希望,但在21步后却惊人地急剧下降。相比之下,BDDM的性能比NE方法稳定得多。由于本申请的主要改进点在于与得分网络一起训练的噪声调度网络,而得分网络其实这几个模型都是大致相同的,因此为了便于凸显出噪声调度网络的优势,在比较过程中,所有方法均采用相同的得分网络,因此可以确定噪声调度对于提高样本生成质量和提高样本生成的效率至关重要。
【表1】对于LJ语音集上不同模型的噪声调度的性能比较
Figure BDA0003159215880000251
从表1中看出,本申请的实施例提出的BDDM的LS-MSE和MCD低于其他模型,STOI、PESQ和MOS高于其他模型,从而表现出比其他模型更好的性能。
在表1中,还给出了剥离的BDDM针对β的优化结果。加入这一项是在DDPM中提及了可以针对β进行重新参数化,虽然DDPM中实际是将β设置为常量。这里,可以通过将β设置为可学习的参数来与噪声调度网络剥离,从而损失函数可以变为Lstep(β;θ)。但是从表1中可以看出,通过比较8步的情况,该性能比本申请提出的基于噪声调度网络的样本生成的性能差。
另一方面是分析不同的模型的噪声调度行为。
比较了对数标度图中不同模型产生的噪声调度,如图6A所示,其中“GS”被称为DDPM模型的网格搜索方法,名称后面的数字被称为表1所示模型的步数。可以将表1中每个模型的性能与其实际噪声调度的图表联系起来。可以观察到“NE-21”的调度“最平”,这可以解释了为什么它在客观和主观度量上的得分也最低。相比之下,表现最好的“BDDM-21”估计了最陡的调度表,有趣的是,在噪声尺度超过约0.01后设计了一个转折点。还从“BDDM-8”的噪声调度中观察到一个不太明显的转弯行为。在转折点之前,BDDM倾向于将噪声尺度保持为几何序列。这种行为令人印象深刻,因为步骤索引对于噪声调度网络
Figure BDA0003159215880000261
是未知的。在图6B中,还比较了PESQ作为畸变的可靠度量的变化,因为在不同模型之间的相同示例中,样本生成索引p是从P开始到1。除了具有最高的最终PESQ评分之外,BDDM模型在大约一半的总样本生成步骤后迅速超过了所有其他模型。
根据本申请的再一方面,还提供了一种计算设备。图9示出了根据本申请实施例的计算设备900的结构框图。该计算设备包括:处理器;和存储器,其上存储有指令,所述指令在由所述处理器执行时,使得所述处理器执行如参考图3-4所述的训练方法的各个步骤以及参考图5所述的生成方法的各个步骤。
所述计算设备可以为计算机终端、移动终端或其它具有计算和处理能力的设备,所述计算设备还可以参与构成或包含本申请实施例所提供的训练装置。
所述计算设备可以是服务器(包括云服务器)和/或用户终端,或者区块链系统中的各个节点处的计算设备。
处理器可以是一种集成电路芯片,具有信号的处理能力。上述处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请的实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,可以是X84架构或ARM架构的。
存储器可以是非易失性存储器,诸如只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。应注意,本申请描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
计算设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算设备的输入装置可以是显示屏上覆盖的触摸层,也可以是终端外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
根据本申请的另一方面,还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行如参考图3-4所述的训练方法的各个步骤以及参考图5所述的生成方法的各个步骤。
根据本申请的又一方面,还提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现如参考图3-4所述的训练方法的各个步骤以及参考图5所述的生成方法的各个步骤。计算机程序可以存储在计算机可读存储介质中。
上述提到的存储介质可以是诸如只读存储器、磁盘或光盘等的非易失性存储介质。
需要说明的是,附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,模块、程序段、或代码的一部分包含至少一个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
一般而言,本申请的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑,或其任何组合中实施。某些方面可以在硬件中实施,而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本申请的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时,将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备,或其某些组合中实施。
在上面详细描述的本申请的示例实施例仅仅是说明性的,而不是限制性的。本领域技术人员应该理解,在不脱离本申请的原理和精神的情况下,可对这些实施例或其特征进行各种修改和组合,这样的修改应落入本申请的范围内。

Claims (15)

1.一种用于生成期望输出的生成模型的训练方法,包括:
获取训练样本集,所述训练样本集包括多个训练样本,所述多个训练样本为独立同分布的样本;
从所述训练样本集中随机选择一个训练样本,并确定所述训练样本对应的噪声水平;
利用随机选择的每个训练样本以及对应的噪声水平,对噪声去除网络和噪声调度网络进行训练,其中,所述噪声去除网络和所述噪声调度网络被包括在生成模型中,
其中,所述噪声去除网络与从噪声输入到期望输出的反向过程相对应,并且所述噪声调度网络与从来自所述训练样本集的训练样本到输出带有噪声的输出的正向过程相对应。
2.根据权利要求1所述的训练方法,其中,从所述训练样本集中随机选择一个训练样本,并确定所述训练样本对应的噪声水平,包括:
获取初始噪声尺度序列和索引序列,所述初始噪声尺度序列包括第一数量的噪声尺度,所述索引序列中包括的第二数量的索引,所述第二数量小于等于第一数量;
基于所述初始噪声尺度序列和从所述索引序列中随机选择的索引,确定所述训练样本对应的两个相邻噪声水平。
3.根据权利要求2所述的训练方法,其中,利用随机选择的每个训练样本以及对应的噪声水平,对噪声去除网络和噪声调度网络进行训练,包括:对于随机选择的每个训练样本,
基于所述训练样本对应的噪声水平,生成所述训练样本的中间样本;
基于所述中间样本以及所述对应的噪声水平,利用所述噪声去除网络计算与所述中间样本相关的第一损失;
基于中间样本以及所述两个相邻噪声水平,利用所述噪声调度网络生成估计噪声尺度;
基于所述中间样本、所述两个相邻噪声水平以及所述估计噪声尺度,计算与所述中间样本相关的第二损失;
基于所述第一损失和所述第二损失,对所述噪声去除网络和所述噪声调度网络进行训练。
4.根据权利要求3所述的训练方法,其中基于中间样本以及所述两个相邻噪声水平,利用所述噪声调度网络生成估计噪声尺度,包括:
基于所述两个相邻噪声水平,确定噪声尺度约束;
利用所述噪声调度网络,基于所述噪声尺度约束和所述中间样本,生成噪声调度因子;
基于所述噪声尺度约束以及所述噪声调度因子,生成所述估计噪声尺度。
5.根据权利要求2所述的训练方法,其中,基于所述第一损失和第二损失,对所述噪声去除网络和噪声调度网络进行训练,包括:
调整所述噪声去除网络和噪声调度网络的参数,使得所述第一损失和第二损失最小化,
其中,所述第一损失是按照第一损失函数计算的,并且所述第二损失是按照第二损失函数计算的。
6.根据权利要求5所述的训练方法,其中,
所述第一损失是根据第一损失函数计算的,所述第一损失函数与相对于具有样本参考分布的噪声变量、噪声去除网络针对所述第一训练样本的中间样本以及所述对应的噪声水平的计算结果之间的差异相关联;
所述第二损失是根据第二损失函数计算的,所述第二损失函数与相对于具有样本参考分布的噪声变量与第一系数的乘积、噪声去除网络针对所述训练样本的中间样本以及所述对应的噪声水平的计算结果与第二系数的乘积之间的差异相关联,第一系数由所述对应的噪声水平确定,第二系数由估计噪声尺度和对应的噪声水平确定。
7.根据权利要求5和6所述的训练方法,还包括:
通过最小化与所述训练样本的中间样本相关的第一损失和第二损失,确定相比于所述训练样本集的分布相关的证据下界,与所述训练样本集的分布更接近的下界。
8.根据权利要求2所述的训练方法,其中,所述初始噪声尺度序列中的噪声尺度单调递增。
9.一种生成用于生成模型中的噪声尺度序列的方法,包括:
获取随机噪声输入、预设噪声水平、以及预设噪声尺度,分别作为第N个数据、待生成的噪声水平序列中的第N个噪声水平、待生成的噪声尺度序列中的第N个噪声尺度,N为第一数量;
针对从N开始以一递减的索引n,对于第n个噪声水平:
利用生成模型中的噪声去除网络,基于第n个数据、第n个噪声水平和第n个噪声尺度,生成第n-1个数据;
基于第n个噪声水平和第n个噪声尺度,确定第n-1个噪声水平,
基于所述第n-1个噪声水平和第n个噪声尺度,确定第n-1个噪声尺度约束;
利用生成模型中的噪声调度网络,基于所述第n-1个噪声尺度约束和所述第n-1个数据,生成噪声调度因子;
基于所述第n-1个噪声尺度约束以及所述噪声调度因子,生成所述第n-1个噪声尺度,
其中,n为小于等于N且大于等于2的整数,所述生成模型根据权利要求1-8中任一项方法来进行训练。
10.根据权利要求9所述的方法,还包括:
在所述第n-1个噪声水平与所述第n个噪声水平之差小于预设阈值的情况下,利用所生成的第n-1个中间噪声尺度到第N个中间噪声尺度构造所述噪声尺度序列。
11.根据权利要求10所述的方法,其中,所述噪声尺度序列被所述样本生成模型用于:利用经训练的噪声去除网络,基于噪声输入生成多个推理样本,并将得到的最后一个推理样本作为新的样本进行输出。
12.一种用于生成期望输出的生成模型的训练装置,包括:
获取模块,用于获取训练样本集,所述训练样本集包括多个训练样本,所述多个训练样本为独立同分布的样本,
噪声水平确定模块,用于从所述训练样本集中每次随机选择一个训练样本,并确定所述训练样本对应的噪声水平;
训练模块,用于利用随机选择的每个训练样本以及对应的噪声水平,对噪声去除网络和噪声调度网络进行训练,其中,所述噪声去除网络和所述噪声调度网络被包括在所述样本生成模型中,
其中,所述噪声去除网络与从噪声输入到期望输出的反向过程相对应,并且所述噪声调度网络与从来自所述训练样本集的训练样本到输出带有噪声的输出的正向过程相对应。
13.根据权利要求12所述的训练装置,其中,所述噪声水平确定模块包括:
获取单元,用于获取初始噪声尺度序列和索引序列,所述初始噪声尺度序列包括第一数量的噪声尺度,所述索引序列中包括的第二数量的索引,所述第二数量小于等于第一数量;
确定单元,用于基于所述初始噪声尺度序列和从所述索引序列中随机选择的索引,确定所述训练样本对应的两个相邻噪声水平。
14.根据权利要求13所述的训练装置,其中,所述训练模块包括:
中间样本生成单元,用于对于每个训练样本,基于所述训练样本对应的噪声水平,生成所述训练样本的中间样本;
第一损失计算单元,用于基于所述中间样本以及所述对应的噪声水平,利用所述噪声去除网络计算与所述中间样本相关的第一损失;
估计单元,用于基于中间样本以及所述两个相邻噪声水平,利用所述噪声调度网络生成估计噪声尺度;
第二损失计算单元,用于基于所述中间样本、所述两个相邻噪声水平以及所述估计噪声尺度,计算与所述中间样本相关的第二损失;
训练单元,用于基于所述第一损失和所述第二损失,对所述噪声去除网络和所述噪声调度网络进行训练。
15.一种计算设备,包括:
处理器;和
存储器,其上存储有指令,当所述指令被所述处理器执行时,使得所述处理器执行如权利要求1-11任一项所述的方法。
CN202110785953.3A 2021-07-12 2021-07-12 生成模型训练方法和装置、噪声尺度生成方法和计算设备 Active CN113822321B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110785953.3A CN113822321B (zh) 2021-07-12 2021-07-12 生成模型训练方法和装置、噪声尺度生成方法和计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110785953.3A CN113822321B (zh) 2021-07-12 2021-07-12 生成模型训练方法和装置、噪声尺度生成方法和计算设备

Publications (2)

Publication Number Publication Date
CN113822321A true CN113822321A (zh) 2021-12-21
CN113822321B CN113822321B (zh) 2024-03-01

Family

ID=78912633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110785953.3A Active CN113822321B (zh) 2021-07-12 2021-07-12 生成模型训练方法和装置、噪声尺度生成方法和计算设备

Country Status (1)

Country Link
CN (1) CN113822321B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115035911A (zh) * 2022-05-31 2022-09-09 中国第一汽车股份有限公司 噪声生成模型训练方法、装置、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1599459A (zh) * 2003-06-02 2005-03-23 精工爱普生株式会社 加权过完备去噪声
CN102184530A (zh) * 2011-05-16 2011-09-14 南京航空航天大学 基于灰关联阈值的图像去噪方法
CN102609906A (zh) * 2012-01-12 2012-07-25 北京理工大学 一种基于各向异性扩散的气体红外图像增强方法
CN105628115A (zh) * 2015-12-30 2016-06-01 浙江大学 一种应用于时差式超声波流量计的脉冲噪声滤除方法
CN111091603A (zh) * 2019-11-04 2020-05-01 深圳先进技术研究院 一种超声成像方法、装置、可读存储介质及终端设备
CN111091233A (zh) * 2019-11-26 2020-05-01 江苏科技大学 一种基于小波分析和多模型AdaBoost深度网络的风电场短期风电预测建模方法
CN111358498A (zh) * 2020-03-23 2020-07-03 贵州民族大学 去除超声脉搏波上冲段反射波和量化噪声的方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1599459A (zh) * 2003-06-02 2005-03-23 精工爱普生株式会社 加权过完备去噪声
CN102184530A (zh) * 2011-05-16 2011-09-14 南京航空航天大学 基于灰关联阈值的图像去噪方法
CN102609906A (zh) * 2012-01-12 2012-07-25 北京理工大学 一种基于各向异性扩散的气体红外图像增强方法
CN105628115A (zh) * 2015-12-30 2016-06-01 浙江大学 一种应用于时差式超声波流量计的脉冲噪声滤除方法
CN111091603A (zh) * 2019-11-04 2020-05-01 深圳先进技术研究院 一种超声成像方法、装置、可读存储介质及终端设备
WO2021088849A1 (zh) * 2019-11-04 2021-05-14 深圳先进技术研究院 一种超声成像方法、装置、可读存储介质及终端设备
CN111091233A (zh) * 2019-11-26 2020-05-01 江苏科技大学 一种基于小波分析和多模型AdaBoost深度网络的风电场短期风电预测建模方法
CN111358498A (zh) * 2020-03-23 2020-07-03 贵州民族大学 去除超声脉搏波上冲段反射波和量化噪声的方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115035911A (zh) * 2022-05-31 2022-09-09 中国第一汽车股份有限公司 噪声生成模型训练方法、装置、设备及介质

Also Published As

Publication number Publication date
CN113822321B (zh) 2024-03-01

Similar Documents

Publication Publication Date Title
Chou et al. Multi-target voice conversion without parallel data by adversarially learning disentangled audio representations
US11776531B2 (en) Encoder-decoder models for sequence to sequence mapping
CN110546656B (zh) 前馈生成式神经网络
CN113822320B (zh) 生成模型训练方法和装置、样本生成方法和计算设备
US20230036020A1 (en) Text-to-Speech Synthesis Method and System, a Method of Training a Text-to-Speech Synthesis System, and a Method of Calculating an Expressivity Score
WO2020045313A1 (ja) マスク推定装置、マスク推定方法及びマスク推定プログラム
US20230267315A1 (en) Diffusion Models Having Improved Accuracy and Reduced Consumption of Computational Resources
CN113822321B (zh) 生成模型训练方法和装置、噪声尺度生成方法和计算设备
JP6955233B2 (ja) 予測モデル作成装置、予測モデル作成方法、および予測モデル作成プログラム
JP5191500B2 (ja) 雑音抑圧フィルタ算出方法と、その装置と、プログラム
EP4207192A1 (en) Electronic device and method for controlling same
JP6468519B2 (ja) 基本周波数パターン予測装置、方法、及びプログラム
JP6472005B2 (ja) 基本周波数パターン予測装置、方法、及びプログラム
JP2008298844A (ja) 雑音抑圧装置、コンピュータプログラム、及び音声認識システム
US11798579B2 (en) Device, method, and program for analyzing speech signal
US20230325658A1 (en) Conditional output generation through data density gradient estimation
US20230252974A1 (en) End-to-end speech waveform generation through data density gradient estimation
US20230419977A1 (en) Audio signal conversion model learning apparatus, audio signal conversion apparatus, audio signal conversion model learning method and program
JP7333878B2 (ja) 信号処理装置、信号処理方法、及び信号処理プログラム
CN116631379B (zh) 语音识别方法、装置、设备及存储介质
WO2024055752A1 (zh) 语音合成模型的训练方法、语音合成方法和相关装置
US20230206898A1 (en) Neural-Network-Based Text-to-Speech Model for Novel Speaker Generation
Vaičiulytė et al. Isolated Word Recognition by Recursive HMM Parameter Estimation Algorithm
JP2023124376A (ja) 情報処理装置、情報処理方法およびプログラム
CN115249483A (zh) 用于管理声码器模型的方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant