CN116434763A

CN116434763A - 基于音频量化的自回归音频生成方法及装置、设备及存储介质

Info

Publication number: CN116434763A
Application number: CN202310685839.2A
Authority: CN
Inventors: 陶建华
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2023-06-12
Filing date: 2023-06-12
Publication date: 2023-07-14

Abstract

本公开涉及语音处理技术领域，具体涉及一种基于音频量化的自回归音频生成方法及装置、设备及存储介质，所述方法包括：接收与待预测音频相关的描述信息和风格信息；对所述风格信息进行编码，得到与所述风格信息对应的风格向量；将与待预测音频相关的描述信息和风格向量输入预先训练的token值序列预测模型，得到与待预测音频对应的token值序列；将与待预测音频对应的token值序列输入已知的解码器，得到与token值序列对应的音频信号，能够生成高质量音频和各种文本导向的多种音频。

Description

基于音频量化的自回归音频生成方法及装置、设备及存储介质

技术领域

本公开涉及语音处理技术领域，尤其涉及一种基于音频量化的自回归音频生成方法及装置、设备及存储介质。

背景技术

在现代科技应用领域，如增强现实、虚拟现实、游戏开发和视频编辑，个性化音效、音乐或语音的生成变得越来越重要。传统的基于音频量化的自回归音频生成方法主要使用信号处理技术，这种方法通常需要大量的专业知识和手动调整。近年来，生成模型已经引发了音频生成领域的一场革命，特别是文本到音频（TTA）生成，它能够生成自然语言描述的音频信号。相较于标签集合，自然语言描述更加灵活，可以提供更精细的音频特征描述，例如音高、声学环境和时间顺序。因此，TTA技术成为实现个性化音频生成的一个重要挑战。与传统的基于音频量化的自回归音频生成方法相比，TTA技术可以自动学习音频信号的特征，无需人工干预。同时，TTA技术可以提高生成音频的多样性和真实性，因为它可以利用自然语言描述来产生更细致的音频特征。通过TTA技术，可以实现更加个性化的音频生成，使得音频在现代科技应用中得到更加广泛的应用。

现有技术在TTA生成中仍然存在许多挑战，例如当前音频生成技术的生成质量和真实感仍然存在一定的差距，尤其是在复杂的音频场景中，生成音频的真实感和多样性仍然受到限制；音频生成需要对时间序列进行建模，这增加了模型的复杂性和训练难度，因此，在连续潜在表示中实现高质量音频生成，以及实现各种零样本文本导向的音频操作，这些都是现有技术尚未解决的问题。因此，需要进一步改进TTA技术，以实现更加高效和多样化的音频生成。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开的实施例提供了一种基于音频量化的自回归音频生成方法及装置、设备及存储介质。

第一方面，本公开的实施例提供了一种基于音频量化的自回归音频生成方法，包括：

接收与待预测音频相关的描述信息和风格信息；

对所述风格信息进行编码，得到与所述风格信息对应的风格向量；

将与待预测音频相关的描述信息和风格向量输入预先训练的token值序列预测模型，得到与待预测音频对应的token值序列；

将与待预测音频对应的token值序列输入已知的解码器，得到与token值序列对应的音频信号。

在一种可能的实施方式中，所述将与待预测音频相关的描述信息和风格信息输入预先训练的token值序列预测模型，得到与待预测音频对应的token值序列，包括：

对与待预测音频相关的描述信息进行编码，得到与所述描述信息对应的文本向量；

将所述文本向量和风格向量输入预先训练的token值序列预测模型，得到与待预测音频对应的token值序列，其中，所述token值序列预测模型为基于Transformer的语言模型。

在一种可能的实施方式中，所述基于Transformer的语言模型包括多层Transformer解码器，各层Transformer解码器分别用于根据风格向量和文本向量对token值序列进行自回归生成。

在一种可能的实施方式中，所述token值序列预测模型通过以下步骤训练得到：

接收已知的目标音频，并对目标音频进行预处理；

对预处理后的目标音频进行编码，得到与目标音频对应的token值序列；

对预处理后的目标音频的风格信息进行编码，得到与目标音频对应的风格向量；

将与目标音频相关的描述信息和风格向量作为输入，将与目标音频对应的token值序列作为输出，训练得到token值序列预测模型。

在一种可能的实施方式中，所述将与目标音频相关的描述信息和风格向量作为输入，将与目标音频对应的token值序列作为输出，训练得到token值序列预测模型，包括：

对与目标音频相关的描述信息进行编码，得到与所述描述信息对应的文本向量；

将所述文本向量和风格向量输入初始的token值序列预测模型，得到预测的token值序列；

对比预测的token值序列和与目标音频对应的token值序列；

根据预测的token值序列和与目标音频对应的token值序列之间的差值，训练初始的token值序列预测模型，直到所述差值小于预设阈值，得到训练后的token值序列预测模型。

在一种可能的实施方式中，所述对与目标音频相关的描述信息进行编码，得到与所述描述信息对应的文本向量，包括：

将与目标音频相关的描述信息输入预训练的语言模型，得到与所述描述信息对应的文本向量，其中，预训练的语言模型包括多层Transformer编码器。

在一种可能的实施方式中，所述对所述风格信息进行编码，得到与所述风格信息对应的风格向量，包括：

将所述风格信息输入预先训练的风格编码器，得到与所述风格信息对应的风格向量，其中，所述风格编码器包括3层Transformer编码器、1层池化层和1层映射层。

第二方面，本公开的实施例提供了一种音频生成装置，包括：

接收模块，用于接收与待预测音频相关的描述信息和风格信息；

编码模块，用于对所述风格信息进行编码，得到与所述风格信息对应的风格向量；

第一输入模块，用于将与待预测音频相关的描述信息和风格向量输入预先训练的token值序列预测模型，得到与待预测音频对应的token值序列；

第二输入模块，用于将与待预测音频对应的token值序列输入已知的解码器，得到与token值序列对应的音频信号。

在一种可能的实施方式中，所述第一输入模块还用于：

在一种可能的实施方式中，所述第一输入模块中的token值序列预测模型通过以下步骤训练得到：

接收已知的目标音频，并对目标音频进行预处理；

在一种可能的实施方式中，所述第一输入模块还用于：

对比预测的token值序列和与目标音频对应的token值序列；

在一种可能的实施方式中，所述第一输入模块还用于：

在一种可能的实施方式中，所述编码模块还用于：

第三方面，本公开的实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述的基于音频量化的自回归音频生成方法。

第四方面，本公开的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述的基于音频量化的自回归音频生成方法。

本公开实施例提供的上述技术方案与现有技术相比至少具有如下优点的部分或全部：

本公开实施例所述的基于音频量化的自回归音频生成方法，接收与待预测音频相关的描述信息和风格信息；对所述风格信息进行编码，得到与所述风格信息对应的风格向量；将与待预测音频相关的描述信息和风格向量输入预先训练的token值序列预测模型，得到与待预测音频对应的token值序列；将与待预测音频对应的token值序列输入已知的解码器，得到与token值序列对应的音频信号，能够生成高质量音频和各种文本导向的多种音频。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出了根据本公开实施例的基于音频量化的自回归音频生成方法流程示意图；

图2示意性示出了根据本公开实施例的音频生成装置的结构框图；

图3示意性示出了根据本公开另一实施例的音频生成装置的结构框图；

图4示意性示出了根据本公开实施例的电子设备的结构框图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

参见图1，本公开的实施例提供了一种基于音频量化的自回归音频生成方法，包括：

S1，接收与待预测音频相关的描述信息和风格信息；

S2，对所述风格信息进行编码，得到与所述风格信息对应的风格向量；

S3，将与待预测音频相关的描述信息和风格向量输入预先训练的token值序列预测模型，得到与待预测音频对应的token值序列；

S4，将与待预测音频对应的token值序列输入已知的解码器，得到与token值序列对应的音频信号，以根据音频信号合成语音进行输出。

在本实施例，步骤S3中，所述将与待预测音频相关的描述信息和风格信息输入预先训练的token值序列预测模型，得到与待预测音频对应的token值序列，包括：

将所述文本向量和风格向量输入预先训练的token值序列预测模型，得到与待预测音频对应的token值序列，其中，所述token值序列预测模型为基于Transformer的语言模型，所述基于Transformer的语言模型包括多层Transformer解码器，各层Transformer解码器分别用于根据风格向量和文本向量对token值序列进行自回归生成。该模型可以对输入的文本进行自回归生成，输出为文本序列的表示。该模型的输入为分词的文本序列，输出为文本序列的表示。

在本实施例，步骤S3中，所述token值序列预测模型通过以下步骤训练得到：

接收已知的目标音频，并对目标音频进行预处理；

在一些实施例中，对目标音频进行预处理，包括对目标音频进行切割、重采样、标准化等，以便后续处理。

在一些实施例中，对预处理后的目标音频进行编码，通过神经网络编解码器的编码器部分进行量化实现，步骤S4中的解码器为神经网络编解码器的解码器部分。

在一些实施例中，神经网络编解码器采用预训练的神经网络模型，该模型可以是一个卷积编解码模型，输入和输出都是24 kHz采样率的音频，并且支持可变比特率，编码器的输出是在24 kHz采样率下每秒75个采样的嵌入向量，编码器中的每个嵌入向量都是由一个残差向量量化（RVQ）得到的，采用了八个具有1024个条目的层次量化器来获得RVQ编码，这对应于解码器在6K比特率下的24kHz音频重建。因此，对于10秒的音频，其离散表示是一个750×8的矩阵，其中750 = 24,000×10/320是下采样时间步长，8是量化器数量。也可以选择其他比特率设置，比特率越大，对应的量化器数量越多，重建质量也更好。

在一些实施例中，对预处理后的目标音频的风格信息进行编码，通过音频风格编码器实现，其中，音频风格编码器可以是基于3层Transformer结构的编码器，最后加入池化层将其转化为固定维度的映射，输入为音频信号的特征表示，输出为一个固定维度的映射，该编码器可以对输入的音频信号进行特征提取和表示学习，并将其映射到一个固定的向量空间中。

在本实施例中，所述将与目标音频相关的描述信息和风格向量作为输入，将与目标音频对应的token值序列作为输出，训练得到token值序列预测模型，包括：

对比预测的token值序列和与目标音频对应的token值序列；

在本实施例中，所述对与目标音频相关的描述信息进行编码，得到与所述描述信息对应的文本向量，包括：

将与目标音频相关的描述信息输入预训练的语言模型，得到与所述描述信息对应的文本向量，其中，预训练的语言模型包括多层Transformer编码器，每一层Transformer编码器用于对输入的文本进行特征提取和表示学习，其输入为分词的文本序列，输出为文本序列的表示。

在一些实施例中，与目标音频相关的描述信息可以是目标音频文字内容的标题或者说明性文字。

在一些实施例中，预训练的语言模型和音频风格编码器均提供用于引导音频生成的提示词。

在本实施例，步骤S2中，所述对所述风格信息进行编码，得到与所述风格信息对应的风格向量，包括：

本公开的基于音频量化的自回归音频生成方法通过文本和参考音频引导，以语音量化和自回归的方式合成多样的高质量音频，尤其是在复杂的音频场景中，生成音频的真实感和多样性仍然受到限制。

参见图2，本公开的实施例提供了一种音频生成装置，包括：

接收模块11，用于接收与待预测音频相关的描述信息和风格信息；

编码模块12，用于对所述风格信息进行编码，得到与所述风格信息对应的风格向量；

第一输入模块13，用于将与待预测音频相关的描述信息和风格向量输入预先训练的token值序列预测模型，得到与待预测音频对应的token值序列；

第二输入模块14，用于将与待预测音频对应的token值序列输入已知的解码器，得到与token值序列对应的音频信号。

在一些实施例中，所述第一输入模块用于：

在一些实施例中，所述基于Transformer的语言模型包括多层Transformer解码器，各层Transformer解码器分别用于根据风格向量和文本向量对token值序列进行自回归生成。

在一些实施例中，所述第一输入模块中的token值序列预测模型通过以下步骤训练得到：

接收已知的目标音频，并对目标音频进行预处理；

在一些实施例中，所述第一输入模块还用于：

对比预测的token值序列和与目标音频对应的token值序列；

在一些实施例中，所述第一输入模块还用于：

在一些实施例中，所述编码模块还用于：

参见图3，本公开提供的另一实施例的音频生成装置，包括：预训练语言模型、音频风格映射、基于Transformer的语言模型和神经网络音频编解码器的解码器部分，其中，

预训练语言模型，用于接收与待预测音频相关的描述信息，并将所述描述信息编码为文本向量；

音频风格映射，用于接收与待预测音频相关的风格信息，并将所述风格信息编码为风格向量；

基于Transformer的语言模型，用于接收所述文本向量和所述风格向量，根据所述文本向量和所述风格向量预测出与待预测音频对应的token值序列；

神经网络音频编解码器的解码器部分，用于将token值序列解码还原成音频信号。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述实施例中，接收模块11、编码模块12、第一输入模块13和第二输入模块14中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。接收模块11、编码模块12、第一输入模块13和第二输入模块14中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列（FPGA）、可编程逻辑阵列（PLA）、片上系统、基板上的系统、封装上的系统、专用集成电路（ASIC），或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，接收模块11、编码模块12、第一输入模块13和第二输入模块14中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

参见图4，本公开的实施例提供的电子设备，包括处理器1110、通信接口1120、存储器1130和通信总线1140，其中，处理器1110，通信接口1120，存储器1130通过通信总线1140完成相互间的通信；

存储器1130，用于存放计算机程序；

处理器1110，用于执行存储器1130上所存放的程序时，实现如下所示基于音频量化的自回归音频生成方法：

接收与待预测音频相关的描述信息和风格信息；

上述的通信总线1140可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口1120用于上述电子设备与其他设备之间的通信。

存储器1130可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器1130还可以是至少一个位于远离前述处理器1110的存储装置。

上述的处理器1110可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本公开的实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序，上述计算机程序被处理器执行时实现如上所述的基于音频量化的自回归音频生成方法。

该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的；也可以是单独存在，而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的基于音频量化的自回归音频生成方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于音频量化的自回归音频生成方法，其特征在于，所述方法包括：

接收与待预测音频相关的描述信息和风格信息；

2.根据权利要求1所述的方法，其特征在于，所述将与待预测音频相关的描述信息和风格信息输入预先训练的token值序列预测模型，得到与待预测音频对应的token值序列，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于Transformer的语言模型包括多层Transformer解码器，各层Transformer解码器分别用于根据风格向量和文本向量对token值序列进行自回归生成。

4.根据权利要求1所述的方法，其特征在于，所述token值序列预测模型通过以下步骤训练得到：

接收已知的目标音频，并对目标音频进行预处理；

5.根据权利要求4所述的方法，其特征在于，所述将与目标音频相关的描述信息和风格向量作为输入，将与目标音频对应的token值序列作为输出，训练得到token值序列预测模型，包括：

对比预测的token值序列和与目标音频对应的token值序列；

6.根据权利要求5所述的方法，其特征在于，所述对与目标音频相关的描述信息进行编码，得到与所述描述信息对应的文本向量，包括：

7.根据权利要求1所述的方法，其特征在于，所述对所述风格信息进行编码，得到与所述风格信息对应的风格向量，包括：

8.一种音频生成装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述第一输入模块还用于：

10.根据权利要求8所述的装置，其特征在于，所述基于Transformer的语言模型包括多层Transformer解码器，各层Transformer解码器分别用于根据风格向量和文本向量对token值序列进行自回归生成。

11.根据权利要求8所述的装置，其特征在于，所述第一输入模块中的token值序列预测模型通过以下步骤训练得到：

接收已知的目标音频，并对目标音频进行预处理；

12.根据权利要求8所述的装置，其特征在于，所述第一输入模块还用于：

对比预测的token值序列和与目标音频对应的token值序列；

13.根据权利要求8所述的装置，其特征在于，所述第一输入模块还用于：

14.根据权利要求8所述的装置，其特征在于，所述编码模块还用于：

15.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7中任一项所述的基于音频量化的自回归音频生成方法。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的基于音频量化的自回归音频生成方法。