CN116884391A

CN116884391A - 基于扩散模型的多模态融合音频生成方法及装置

Info

Publication number: CN116884391A
Application number: CN202311144835.XA
Authority: CN
Inventors: 易江燕; 周俊佐; 陶建华; 汪涛
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2023-09-06
Filing date: 2023-09-06
Publication date: 2023-10-13
Anticipated expiration: 2043-09-06
Also published as: CN116884391B

Abstract

本公开涉及一种基于扩散模型的多模态融合音频生成方法及装置，所述方法包括：响应于接收到用于生成音频的信息，确定与信息的类型对应的、预先训练好的编码器，其中，不同类型的信息分别对应的编码器通过对比联合训练得到；将用于生成音频的信息输入预先训练好的编码器，得到嵌入特征；将嵌入特征、迭代步数和高斯噪声输入预先训练好的扩散模型，生成与嵌入特征对应的音频，在本公开中，不同类型的信息分别对应的编码器通过对比联合训练得到，在有限的数据集中训练出的编码器，能够输出合理的模态融合信息，从而更加准确地生成音频。

Description

基于扩散模型的多模态融合音频生成方法及装置

技术领域

本公开涉及语音处理技术领域，尤其涉及一种基于扩散模型的多模态融合音频生成方法及装置。

背景技术

目前，图像，文字，视频等模态向音频的转化技术正处于快速发展之中，根据这些模态的语义内容个性化地生成相应的音频生成技术可以广泛地用于各个行业，例如游戏，虚拟现实，残盲人士公共事业等等。

相关技术中，生成音频技术主要采用传统信号处理技术，近年来，深度学习生成模型，特别是基于扩散模型(Diffusion Models)的一系列方法的应用取得了突破。一些研究提出第一个扩散模型框架的TTA(文本引导音频)，还有一些研究提出一种以transformer解码器为基础的TTA自回归结构模型以及基于扩散模型的音频生成模型。

然而，目前的多模态引导的音频生成问题中，音频本身的长连续性使得建模困难。另一方面，图像到音频研究中缺乏大规模的视觉音频数据集，即使是文本-音频的描述对，也相对稀少。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开的实施例提供了一种基于扩散模型的多模态融合音频生成方法及装置。

第一方面，本公开的实施例提供了一种基于扩散模型的多模态融合音频生成方法，包括：

响应于接收到用于生成音频的信息，确定与信息的类型对应的、预先训练好的编码器，其中，不同类型的信息分别对应的编码器通过对比联合训练得到；

将用于生成音频的信息输入预先训练好的编码器，得到嵌入特征；

将嵌入特征、迭代步数和高斯噪声输入预先训练好的扩散模型，生成与嵌入特征对应的音频。

在一种可能的实施方式中，所述响应于接收到用于生成音频的信息，确定与信息的类型对应的、预先训练好的编码器，包括：

响应于接收到用于生成音频的文本信息，并将文本信息输入预先训练的目标文本编码器，得到文本嵌入特征；

响应于接收到用于生成音频的图像信息，并将图片信息输入预先训练的目标图像编码器，得到图像嵌入特征；

响应于接收到用于生成音频的视频信息，将视频信息处理为图像信息，并将图像信息输入预先训练的目标图像编码器，得到图像嵌入特征。

在一种可能的实施方式中，所述目标文本编码器和目标图像编码器通过以下步骤训练得到：

采集已知的文本图像对数据集，将成对的文本和图像分别输入初始文本编码器和初始图像编码器中，根据初始文本编码器和初始图像编码器的输出值，计算第一交叉熵损失，按照第一交叉熵损失训练初始文本编码器和初始图像编码器，得到训练后的图像编码器和第一文本编码器，其中，初始文本编码器为ViT网络模型，初始图像编码器为bert网络模型；

采集已知的文本语音对数据集，将成对的文本和语音分别输入第一文本编码器和初始语音编码器中，根据第一文本编码器和初始语音编码器的输出值，计算第二交叉熵损失，按照第二交叉熵损失训练第一文本编码器和初始语音编码器，得到训练后的语音编码器和第二文本编码器；

将训练后的图像编码器、训练后的语音编码器和第二文本编码器，作为目标图像编码器、目标语音编码器和目标文本编码器。

在一种可能的实施方式中，通过以下表达式，计算第一交叉熵损失和第二交叉熵损失：

其中，在和/>分别为初始文本编码器和初始图像编码器的输出值的情况下，为第一交叉熵损失；在/>和/>分别为第一文本编码器和初始语音编码器的输出值的情况下，/>为第二交叉熵损失，t为可学习温度参数，N为数据集中的对数。

在一种可能的实施方式中，所述预先训练好的扩散模型通过以下步骤训练得到：

对与扩散模型连接的初始梅尔编码器和初始梅尔解码器以及与初始梅尔解码器连接的初始鉴别器进行训练，得到训练后梅尔编码器；

将已知音频分别输入训练后梅尔编码器和目标语音编码器中，得到音频梅尔特征和音频嵌入特征；

将音频梅尔特征、音频嵌入特征和迭代步数输入初始扩散模型中，基于预设的噪声预测损失函数，得到训练后扩散模型。

在一种可能的实施方式中，所述对与扩散模型连接的初始梅尔编码器和初始梅尔解码器以及与初始梅尔解码器连接的初始鉴别器进行训练，得到训练后梅尔编码器，包括：

提取已知音频的梅尔声学特征，并将梅尔声学特征输入初始梅尔编码器中，得到梅尔音频编码特征；

将梅尔音频编码特征输入初始梅尔解码器中，得到梅尔音频解码特征；

将梅尔声学特征和梅尔音频解码特征分别输入初始鉴别器中，得到第一梅尔音频鉴别特征和第二梅尔音频鉴别特征；

根据已知音频的梅尔声学特征和梅尔音频解码特征计算距离损失，根据梅尔音频编码特征计算散度损失，根据第一音频梅尔鉴别特征和第二音频梅尔鉴别特征，计算鉴别器的鉴别损失；

基于距离损失、散度损失和鉴别损失训练初始梅尔编码器、初始梅尔解码器和初始鉴别器。

在一种可能的实施方式中，通过以下表达式，根据已知音频的梅尔声学特征和梅尔音频解码特征计算距离损失，根据梅尔音频编码特征计算散度损失，根据第一音频梅尔鉴别特征和第二音频梅尔鉴别特征，计算鉴别器的鉴别损失：

其中，为距离损失，/>为已知音频的梅尔声学特征，/>为梅尔音频解码特征，为散度损失，/>为梅尔音频编码特征，/>为标准正态分布，P为概率符号，为鉴别器的鉴别损失，/>为已知音频第i个样本的梅尔声学特征，/>为已知音频第i个样本对应的梅尔音频解码特征，/>为第一音频梅尔鉴别特征，为第二音频梅尔鉴别特征。

第二方面，本公开的实施例提供了一种基于扩散模型的多模态融合音频生成装置，包括：

确定模块，用于响应于接收到用于生成音频的信息，确定与信息的类型对应的、预先训练好的编码器，其中，不同类型的信息分别对应的编码器通过对比联合训练得到；

输入模块，用于将用于生成音频的信息输入预先训练好的编码器，得到嵌入特征；

生成模块，用于将嵌入特征、迭代步数和高斯噪声输入预先训练好的扩散模型，生成与嵌入特征对应的音频。

第三方面，本公开的实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述的基于扩散模型的多模态融合音频生成方法。

第四方面，本公开的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述的基于扩散模型的多模态融合音频生成方法。

本公开实施例提供的上述技术方案与现有技术相比至少具有如下优点的部分或全部：

本公开实施例所述的基于扩散模型的多模态融合音频生成方法，响应于接收到用于生成音频的信息，确定与信息的类型对应的、预先训练好的编码器，其中，不同类型的信息分别对应的编码器通过对比联合训练得到；将用于生成音频的信息输入预先训练好的编码器，得到嵌入特征；将嵌入特征、迭代步数和高斯噪声输入预先训练好的扩散模型，生成与嵌入特征对应的音频，在本公开中，不同类型的信息分别对应的编码器通过对比联合训练得到，在有限的数据集中训练出的编码器，能够输出合理的模态融合信息，从而更加准确地生成音频。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出了根据本公开实施例的基于扩散模型的多模态融合音频生成方法流程示意图；

图2示意性示出了根据本公开实施例的模型连接结构示意图；

图3示意性示出了根据本公开实施例的基于扩散模型的多模态融合音频生成装置的结构框图；以及

图4示意性示出了根据本公开实施例的电子设备的结构框图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

参见图1，本公开的实施例提供了一种基于扩散模型的多模态融合音频生成方法，包括：

S1，响应于接收到用于生成音频的信息，确定与信息的类型对应的、预先训练好的编码器，其中，不同类型的信息分别对应的编码器通过对比联合训练得到；

S2，将用于生成音频的信息输入预先训练好的编码器，得到嵌入特征；

S3，将嵌入特征、迭代步数和高斯噪声输入预先训练好的扩散模型，生成与嵌入特征对应的音频。

在本实施例，步骤S1中，所述响应于接收到用于生成音频的信息，确定与信息的类型对应的、预先训练好的编码器，包括：

在本实施例中，所述目标文本编码器和目标图像编码器通过以下步骤训练得到：

在本实施例中，初始文本编码器可以为HTSAT网络模型，初始文本编码器和初始图像编码器的输出值，以及第一文本编码器和初始语音编码器的输出值均可以为长度为d的一维向量，d可以取768。

在本实施例中，不同类型的信息分别对应的编码器通过对比联合训练得到，训练后图像编码器的输出值能最大限度地融合图像和对应文本的信息，训练后语音编码器的输出值能最大限度地融合语音和对应文本的信息。

在本实施例中，通过对比音频—文本预训练和对比文本—图像预训练，能够缓解音频—图像对数据集短缺的问题。

在本实施例中，通过以下表达式，计算第一交叉熵损失和第二交叉熵损失：

在本实施例中，所述预先训练好的扩散模型通过以下步骤训练得到：

对如图2所示的与扩散模型连接的初始梅尔编码器和初始梅尔解码器以及与初始梅尔解码器连接的初始鉴别器进行训练，得到训练后梅尔编码器；

在一些实施例中，将音频梅尔特征、音频嵌入特征和迭代步数输入初始扩散模型中，梅尔音频编码特征作为未经噪声添加的原始量Z ₀，通过向Z ₀逐步添加噪声，使其达到完全的高斯噪声Z _T，该过程即为训练一个噪声预测模型，该模型结构多为采用注意力的Q、K、V机制融合条件模态的嵌入特征和U-net中间表示。

在一些实施例中，通过以下损失函数，训练噪声预测模型：

其中，为扩散损失，T为时间步，/>为U-net噪声预测模型得到的预测噪声特征，为逐步加噪时的噪声特征，/>为样本提示特征作为噪声预测的条件参数，Z _T为时间步T下对原始量Z ₀进行加噪后的预设噪声特征，在训练过程中，条件/>，对于条件嵌入的方式，可以采用注意力机制对U-net的中间表示与条件C进行交融。

更具体的，扩散模型逐步前向的扩散过程可以通过以下表达式表示：

其中，为/>与/>之间的扩散关系，/>为时间步t下对原始量Z ₀进行加噪后的预设噪声特征，/>为时间步t-1下对原始量Z ₀进行加噪后的预设噪声特征，为标准正态分布，/>为时间步t下预先定义的加噪策略参数，用于控制加噪特征的程度。

在一些实施例中，通过以下表达式，向Z ₀逐步添加噪声，使其达到完全的高斯噪声Z _T：

其中，为时间步t下对原始量Z ₀进行加噪后的预设噪声特征，/>和/>为时间步t下，预先定义的加噪策略参数，用于控制加噪特征的程度，/>为时间步t下，第i个时间步的随机噪声特征，/>为标准正态分布，/>为原始量，/>为时间步从1到t的噪声特征，/>为逐步加噪时的噪声特征。

在本实施例中，所述对与扩散模型连接的初始梅尔编码器和初始梅尔解码器以及与初始梅尔解码器连接的初始鉴别器进行训练，得到训练后梅尔编码器，包括：

在一些实施例中，从已知数据集中取出已知音频，提取已知音频的梅尔声学特征，可以为梅尔谱图集合，对于一张梅尔谱图x，定义梅尔音频解码特征为复原梅尔谱图，以及/>为0-1二值向量，/>为梅尔音频编码特征，其中，/>和均采用CNN、transformer结合的结构。

在本实施例中，通过以下表达式，根据已知音频的梅尔声学特征和梅尔音频解码特征计算距离损失，根据梅尔音频编码特征计算散度损失，根据第一音频梅尔鉴别特征和第二音频梅尔鉴别特征，计算鉴别器的鉴别损失：

在本实施例，步骤S1中，用于生成音频的信息可以是文本、图片、视频(无声)，参见图2，以某段文本作为提示生成音频，将文本投入已预训练模型后，取扩散模型噪声预测模型的条件参数/>；以某段图片作为提示生成音频，将图片投入已训练模型后，取扩散模型噪声预测模型的条件参数/>；以某段视频(无声)作为提示生成音频，可以将该视频中抽取若干帧图片，随后进行平均池化，最终汇聚为一张图片，并根据/>进行相似操作。

在一些实施例中，通过以下表达式，基于预先训练的扩散模型，从完全高斯噪声中采样逐步复原样本：

其中，为概率分布符号，/>为时间步t-1下的还原特征，/>为时间步t下的预设噪声特征，/>为正态分布的标准差。

在一些实施例中，步骤S3中，将嵌入特征、迭代步数和高斯噪声输入预先训练好的扩散模型，生成与嵌入特征对应的音频，包括：

将嵌入特征、迭代步数和高斯噪声输入预先训练好的扩散模型，得到扩散模型的输出值；

将扩散模型的输出值输入预先训练好的梅尔解码器中，得到梅尔解码器的输出值；

将梅尔解码器的输出值输入预先训练好的声码器中，得到与嵌入特征对应的音频。

在一些实施例中，声码器通过以下步骤训练得到：

提取已知音频的音频梅尔特征；

基于预先训练好的扩散模型，根据高斯噪声、时间步和已知音频的梅尔音频编码特征得到时间步0下的还原特征；

将时间步0下的还原特征输入预先训练的梅尔解码器，得到梅尔解码器的输出值；

将梅尔解码器的输出值输入初始声码器中，得到初始声码器的输出；

将初始声码器的输出与已知音频进行对比，并根据对比结果训练初始声码器，得到训练好的声码器，其中，初始声码器可以为HiFiGAN网络模型或者MelGAn网络模型。

本公开使用音频—文本和文本—图片两种对比联合训练的方法，迂回建立了音频—图片之间的联系，继而通过视频抽帧平均池化为图片的方式，建立音频—视频之间的联系，解决了音频—视觉对数据集稀少的问题。

本公开通过将音频转换为梅尔谱图继而映射至潜在空间并依此扩散加噪并依靠条件提示复原的技术，有利于生成音频与提示条件的进一步契合，解决了多模态提示生成高质量音频的问题。

参见图3，本公开的实施例提供了一种基于扩散模型的多模态融合音频生成装置，包括：

确定模块11，用于响应于接收到用于生成音频的信息，确定与信息的类型对应的、预先训练好的编码器，其中，不同类型的信息分别对应的编码器通过对比联合训练得到；

输入模块12，用于将用于生成音频的信息输入预先训练好的编码器，得到嵌入特征；

生成模块13，用于将嵌入特征、迭代步数和高斯噪声输入预先训练好的扩散模型，生成与嵌入特征对应的音频。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述第二个实施例中，确定模块11、输入模块12和生成模块13中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。确定模块11、输入模块12和生成模块13中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列（FPGA）、可编程逻辑阵列（PLA）、片上系统、基板上的系统、封装上的系统、专用集成电路（ASIC），或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，确定模块11、输入模块12和生成模块13中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

参见图4，本公开的实施例提供的电子设备，包括处理器1110、通信接口1120、存储器1130和通信总线1140，其中，处理器1110，通信接口1120，存储器1130通过通信总线1140完成相互间的通信；

存储器1130，用于存放计算机程序；

处理器1110，用于执行存储器1130上所存放的程序时，实现如下所示基于扩散模型的多模态融合音频生成方法：

上述的通信总线1140可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口1120用于上述电子设备与其他设备之间的通信。

存储器1130可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器1130还可以是至少一个位于远离前述处理器1110的存储装置。

上述的处理器1110可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本公开的实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序，上述计算机程序被处理器执行时实现如上所述的基于扩散模型的多模态融合音频生成方法。

该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的；也可以是单独存在，而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的基于扩散模型的多模态融合音频生成方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于扩散模型的多模态融合音频生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述响应于接收到用于生成音频的信息，确定与信息的类型对应的、预先训练好的编码器，包括：

3.根据权利要求2所述的方法，其特征在于，所述目标文本编码器和目标图像编码器通过以下步骤训练得到：

4.根据权利要求3所述的方法，其特征在于，通过以下表达式，计算第一交叉熵损失和第二交叉熵损失：

其中，在和/>分别为初始文本编码器和初始图像编码器的输出值的情况下，/>为第一交叉熵损失；在/>和/>分别为第一文本编码器和初始语音编码器的输出值的情况下，/>为第二交叉熵损失，t为可学习温度参数，N为数据集中的对数。

5.根据权利要求3所述的方法，其特征在于，所述预先训练好的扩散模型通过以下步骤训练得到：

6.根据权利要求5所述的方法，其特征在于，所述对与扩散模型连接的初始梅尔编码器和初始梅尔解码器以及与初始梅尔解码器连接的初始鉴别器进行训练，得到训练后梅尔编码器，包括：

7.根据权利要求6所述的方法，其特征在于，通过以下表达式，根据已知音频的梅尔声学特征和梅尔音频解码特征计算距离损失，根据梅尔音频编码特征计算散度损失，根据第一音频梅尔鉴别特征和第二音频梅尔鉴别特征，计算鉴别器的鉴别损失：

其中，为距离损失，/>为已知音频的梅尔声学特征，/>为梅尔音频解码特征，/>为散度损失，/>为梅尔音频编码特征，/>为标准正态分布，P为概率符号，/>为鉴别器的鉴别损失，/>为已知音频第i个样本的梅尔声学特征，/>为已知音频第i个样本对应的梅尔音频解码特征，/>为第一音频梅尔鉴别特征，/>为第二音频梅尔鉴别特征。

8.一种基于扩散模型的多模态融合音频生成装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7中任一项所述的基于扩散模型的多模态融合音频生成方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的基于扩散模型的多模态融合音频生成方法。