CN117292694B

CN117292694B - 基于时不变编码的少令牌神经语音编解码方法和系统

Info

Publication number: CN117292694B
Application number: CN202311564716.XA
Authority: CN
Inventors: 陶建华; 任勇; 易江燕
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2023-11-22
Filing date: 2023-11-22
Publication date: 2024-02-27
Anticipated expiration: 2043-11-22
Also published as: CN117292694A

Abstract

本发明实施例涉及一种基于时不变编码的少令牌神经语音编解码方法和系统，应用于训练好的神经语音编解码模型，该神经语音编解码模型包括编码器、时不变提取器、量化器和解码器；基于所述编码器对待处理语音进行编码，获得编码器输出层的隐层表示及编码器中间层的中间层表示；基于所述时不变提取器对所述中间层表示进行时不变特征提取，获得时不变表示；基于所述量化器分别对所述隐层表示和时不变表示进行量化，获得帧级别语音令牌和时不变令牌；基于所述解码器对所述帧级别语音令牌和时不变令牌进行解码，获得重构后语音；即通过时不变提取器对语音信号的时不变信息进行单独编码，在更少的语音编码令牌数量时能够实现高质量语音重建。

Description

基于时不变编码的少令牌神经语音编解码方法和系统

技术领域

本发明涉及语音编解码领域，尤其涉及一种基于时不变编码的少令牌神经语音编解码方法和系统。

背景技术

神经语音编解码器在语音传输、语音生成等领域有着巨大的应用价值。神经语音编解码器是指首先通过神经网络编码器对语音信号进行编码，然后通过矢量量化技术对编码器输出进行量化，获得语音令牌，最后通过神经网络解码器利用语音令牌进行语音重建。

但是，由于语音信号的周期性，通过上述语音编解码方法获得的中间表示包含冗余信息，随着编码语音令牌数量的进一步降低，对冗余信号进行编码会导致有用信息的丢失，从而导致语音重建质量急剧下降。

因此，亟需提供一种新的语音编解码方法，使得更少的语音令牌能够高质量重建语音，少令牌高质量语音重建对语音传输和语音生成任务具有重要意义。

发明内容

本发明提供了一种基于时不变编码的少令牌神经语音编解码方法和系统，以解决少语音令牌重建语音质量不高的技术问题。

第一方面，本发明提供了一种基于时不变编码的少令牌神经语音编解码方法，应用于训练好的神经语音编解码模型，所述神经语音编解码模型包括编码器、时不变提取器、量化器和解码器；所述方法包括：基于所述编码器对待处理语音进行编码，获得编码器输出层的隐层表示及编码器中间层的中间层表示；基于所述时不变提取器对所述中间层表示进行时不变特征提取，获得时不变表示；基于所述量化器分别对所述隐层表示和时不变表示进行量化，获得帧级别语音令牌和时不变令牌；基于所述解码器对所述帧级别语音令牌和时不变令牌进行解码，获得重构后语音。

在一些实施例中，所述量化器包括第一量化器和第二量化器，所述基于所述量化器分别对所述隐层表示和时不变表示进行量化，获得帧级别语音令牌和时不变令牌，包括：基于所述第一量化器的分组残差矢量量化技术对所述隐层表示进行量化，获得所述帧级别语音令牌；基于所述第二量化器的分组矢量量化技术对所述时不变表示进行量化，获得所述时不变令牌。

在一些实施例中，在进行语音传输时，发送端和接收端均部署有所述训练好的神经语音编解码模型；将待发送语音作为所述待处理语音，基于所述发送端执行所述基于所述编码器对待处理语音进行编码的步骤，获得待发送语音对应的帧级别语音令牌和时不变令牌；基于所述发送端将待发送语音对应的帧级别语音令牌和时不变令牌发送给所述接收端；基于所述接收端执行所述基于所述解码器对所述帧级别语音令牌和时不变令牌进行解码，获得重构后语音的步骤。

在一些实施例中，在进行语音合成时，将目标说话人的待合成语音作为所述待处理语音，执行所述基于所述编码器对待处理语音进行编码的步骤，获得待合成语音对应的帧级别语音令牌和时不变令牌；将所述待合成语音对应的帧级别语音令牌输入到训练好的语音合成模型中，获得帧级别预测语音令牌；将所述帧级别预测语音令牌和待合成语音对应的时不变令牌输入到所述解码器中，获得合成后语音。

在一些实施例中，所述将所述待合成语音对应的帧级别语音令牌输入到训练好的语音合成模型中之前，还包括：将语音训练集中的语音样本输入到训练好的神经语音编解码模型中，获得帧级别语音令牌样本；基于所述帧级别语音令牌样本对待训练的语音合成模型进行训练，获得训练好的语音合成模型。

在一些实施例中，所述基于所述编码器对待处理语音进行编码之前，还包括：构建包括生成器和鉴别器的生成对抗网络模型，以及生成器损失函数和鉴别器损失函数，所述生成器为神经语音编解码模型；基于所述生成器损失函数和所述鉴别器损失函数交替训练所述生成器和鉴别器，直至满足训练结束条件，获得训练好的生成器为所述训练好的神经语音编解码模型；其中，所述生成器损失函数根据重构损失项、生成器对抗损失项、特征匹配损失项、量化器损失项以及时不变一致性损失项确定，所述特征匹配损失项根据输入的第一语音片段与重构后第一语音片段之间的特征绝对差的平均值确定，所述时不变一致性损失项根据第一语音片段的第一时不变表示与第二语音片段的第二时不变表示的相似度确定，所述第二语音片段与所述第一语音片段来自于同一语音样本。

在一些实施例中，所述生成器损失函数的公式表达式如下：

所述鉴别器损失函数的公式表达式如下：

其中，表示重构损失项中的时域损失项，/>表示重构损失项中的频域损失项，/>表示生成器对抗损失项，/>表示特征匹配损失项，/>表示第一量化器损失项，/>表示第二量化器损失项，/>表示时不变一致性损失项，/>为相应损失项的超参数，/>表示第一语音片段，/>表示重构后第一语音片段，/>表示对第一语音片段提取不同时间尺度的梅尔谱特征，/>表示对重构后第一语音片段提取不同时间尺度的梅尔谱特征/>表示重构后第一语音片段经过第k个鉴别器的输出/>表示第一语音片段经过第k个鉴别器的第l层的输出，/>重构后第一语音片段经过第k个鉴别器的第l层的输出，/>表示第i组第c层残差量化器所输入的隐层表示，/>表示第i组第c层残差量化器所输出的语音令牌，/>表示第二量化器的第j组量化器所输入的时不变表示，/>表示第二量化器的第j组量化器所输出的时不变令牌，K表示鉴别器总数，L表示鉴别器的层数。

第二方面，本发明提供一种基于时不变编码的少令牌神经语音编解码系统，包括：编码器，用于对待处理语音进行编码，获得编码器输出层的隐层表示及编码器中间层的中间层表示；时不变提取器，用于对所述中间层表示进行时不变特征提取，获得时不变表示；量化器，用于分别对所述隐层表示和时不变表示进行量化，获得帧级别语音令牌和时不变令牌；解码器，用于对所述帧级别语音令牌和时不变令牌进行解码，获得重构后语音。

第三方面，本发明提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现第一方面任一项所述的基于时不变编码的少令牌神经语音编解码方法的步骤。

第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如第一方面任一项所述的基于时不变编码的少令牌神经语音编解码方法的步骤。

本发明实施例提供的基于时不变编码的少令牌神经语音编解码方法和系统，应用于训练好的神经语音编解码模型，所述神经语音编解码模型包括编码器、时不变提取器、量化器和解码器；通过基于所述编码器对待处理语音进行编码，获得编码器输出层的隐层表示及编码器中间层的中间层表示；基于所述时不变提取器对所述中间层表示进行时不变特征提取，获得时不变表示；基于所述量化器分别对所述隐层表示和时不变表示进行量化，获得帧级别语音令牌和时不变令牌；基于所述解码器对所述帧级别语音令牌和时不变令牌进行解码，获得重构后语音；即本发明实施例通过时不变提取器对语音信号的时不变信息进行单独编码，在更少的语音编码令牌数量时能够实现更高的语音重建质量。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1a为本发明实施例提供的一种基于时不变编码的少令牌神经语音编解码模型示意图；

图1b为本发明实施例提供的另一种基于时不变编码的少令牌神经语音编解码模型示意图；

图2为图1a或图1b所示神经语音编解码模型中的时不变提取器的结构示意图；

图3为本发明实施例提供的一种基于时不变编码的少令牌神经语音编解码方法的流程示意图；

图4为本发明实施例提供的一种神经语音编解码模型的训练方法的流程示意图；

图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

首先对本发明所涉及的名词进行解释：

时不变编码：使用神经网络提取语音中不随时间变化的信息，并对其进行编码。

神经语音编解码：使用神经网络编码器对语音的原始波形信号进行特征提取与编码，得到语音的压缩表示，然后使用量化器对其进行量化，得到语音的离散化表示（即语音令牌），对应的神经网络解码器可以对得到的语音的离散化表示进行解码，还原出语音波形信号。

语音信号是生活中的一种重要信息媒介，语音编解码器作为将语音压缩为离散表示的关键技术，被广泛应用到语音信号的传输，在卫星通信、流媒体等领域有着重要的应用，同时，语音编解码器也是基于语言模型的语音合成方法的一个重要组成部分。所谓语音合成是指使用计算机将文本输入转化为人的语音，生成式语言模型在语音合成领域表现优异，而生成式语言模型的输入与输出便是经过神经语音编码器编码后的离散化语音表示，即语音令牌。因此，神经语音编解码器的研究对于语音传输、语音生成等领域有着巨大的价值。

语音编解码器的目标是实现尽可能高的压缩率，同时在重建时保持卓越的语音质量。传统语音编解码器有两种类型，分别是波形编解码器和参数编解码器，后随着深度学习的快速发展，神经语音编解码器超越了传统语音编解码器的性能，成为主流方法。神经语音编解码器采用编码器-解码器框架，原始语音信号由神经网络编码器进行编码，然后通过矢量量化技术对编码器输出进行量化，并通过神经网络解码器重建语音，整个模型是端到端的，允许自动学习语音的紧凑潜在表示，便于存储和传输，以及作为语音令牌被用作语音合成任务的输入。然而，由于语音信号的周期性，通过这种语音编解码方法获得的中间表示包含冗余信息。随着编码语音令牌数量的进一步降低，对冗余信号进行编码会导致有用信息的丢失，从而导致语音重建质量急剧下降，因此，亟需提供一种新的语音编解码方法，实现更少的语音令牌能够高质量重建语音，少语音令牌的高质量语音重建对于语音传输和语音生成任务都很重要。

针对上述技术问题，本发明的技术构思在于：对语音信号中的时不变信息进行单独编码，在更少的语音编码令牌数量时能够实现更高的语音重建质量。

图1a为本发明实施例提供的一种基于时不变编码的少令牌神经语音编解码模型示意图。如图1a所示，该神经语音编解码模型包括编码器、时不变提取器、量化器和解码器。

图1b为本发明实施例提供的另一种基于时不变编码的少令牌神经语音编解码模型示意图，如图1b所示，编码器和解码器都是基于卷积模块构建的，编码器首先包括一个C通道和7个卷积核大小的1D卷积层，然后包括B个卷积模块，最后包括一个具有3个通道和3个卷积核大小的最终1D卷积层；其中，每个卷积模块由三个膨胀卷积层和一个下采样层组成，膨胀卷积层由三个正常的1D卷积层和一个跳跃连接组成，其中每个膨胀卷积层的膨胀率为1、3和5，下采样层是一个步长为S的步长卷积，卷积核大小为S的两倍，并且在每个下采样层后，通道数增加了一倍。解码器采用与编码器对称的结构，利用转置卷积进行上采样，并使用与编码器相反顺序的步长。

本实施例中，采用B=4个卷积模块，其中四个下采样层的步长分别为[2,4,5,8]，表示总共的下采样次数为320次。第一个卷积层具有C=32个通道，通过4个卷积模块后，通道数翻倍，最终输出卷积层具有512个通道。

图2为图1a或图1b所示神经语音编解码模型中的时不变提取器的结构示意图，如图2所示，该时不变提取器是由三个1D卷积层和一个线性层组成的卷积模块，其中，中间卷积层的通道大小是编码器第二个输出层的通道大小的一半。经过三个卷积层的特征提取后，输入的语音隐层表示沿时间维度进行平均池化，然后通过一个线性层，得到一个128维向量，代表从语音中提取的时不变表示。

继续参考图1a或图1b所示，量化器有两个，分别为量化器1和量化器2，对于隐藏层表示的量化，采用分组残差矢量量化。在更少的令牌序列数量下，分组残差矢量量化（group-residual vector quantization, GRVQ）退化为具有两个码本的残差矢量量化和一个码本的矢量量化。对于时不变表示的量化，使用分组矢量量化，将 128 维的时不变表示分成八组，并将每组量化为一个 16 维向量，得到八个令牌序列作为时不变编码。

继续参考图1a或1b所示，该系统还包括鉴别器组，用于模型训练。本实施例中的鉴别器组包括三种类型，基于多尺度短时傅里叶变换（MS-STFT）的判别器、多周期判别器（MPD）和多尺度判别器（MSD），其中 MS-STFT 判别器由具有相同结构的网络组成，在多尺度复数短时傅里叶变换上进行操作，实部和虚部相连；关于多周期和多尺度判别器，保留了与HiFiGAN相同的结构，并仅减少通道数以确保判别器具有类似于 MS-STFT 的参数。

图3为本发明实施例提供的一种基于时不变编码的少令牌神经语音编解码方法的流程示意图，应用于如图1a或图1b所示的训练好的神经语音编解码模型。如图3所示，该方法包括：

步骤S301、基于所述编码器对待处理语音进行编码，获得编码器输出层的隐层表示及编码器中间层的中间层表示。

步骤S302、基于所述时不变提取器对所述中间层表示进行时不变特征提取，获得时不变表示。

步骤S303、基于所述量化器分别对所述隐层表示和时不变表示进行量化，获得帧级别语音令牌和时不变令牌。

步骤S304、基于所述解码器对所述帧级别语音令牌和时不变令牌进行解码，获得重构后语音。

在一些实施例中，所述量化器包括第一量化器和第二量化器，所述步骤S303包括：基于所述第一量化器的分组残差矢量量化技术对所述隐层表示进行量化，获得所述帧级别语音令牌；基于所述第二量化器的分组矢量量化技术对所述时不变表示进行量化，获得所述时不变令牌。

具体地，待处理语音为持续时间为d的单通道语音信号，可表示为，采样率为/>，其中/>。参考图1a或图1b所示，首先基于步骤S301，将待处理语音输入到编码器Enc中，获得编码器输出层的隐层表示z，并获取编码器Enc的中间层输出的中间层表示；然后基于步骤S302，将中间层表示输入到时不变提取器TIE中，获得语音的时不变表示m；然后基于步骤S303，利用量化器分别对隐层表示z和时不变表示m进行量化，优选的，采用两个量化器分别对隐层表示z和时不变表示m进行量化，第一量化器Q1使用分组残差矢量量化技术，将语音的隐层表示z量化为/>，第二量化器Q2使用分组矢量量化技术，将语音的时不变表示m量化为/>；然后基于步骤S304，将帧级别语音令牌/>和时不变令牌/>输入到解码器Dec中，进行语音信号重建，获得重建后语音/>。

具体地，在进行语音传输时，在发送端将待处理语音通过编码器进行编码，用学习的码本表示为离散的令牌序列，包括帧级别语音令牌和时不变令牌；对离散的帧级别语音令牌和时不变令牌进行传输；在接收端，将接收到的语音令牌通过码本进行查找，然后使用解码器解码为语音信号。

具体地，将第一语音训练集中的各语音样本通过训练好的基于时不变编码的少令牌神经语音编解码模型中的编码器编码为帧级别语音令牌样本序列和时不变令牌样本，用帧级别语音令牌样本序列来训练基于语言模型的语音合成模型，获得训练好的语音合成模型。

在获得训练好的语音合成模型后，将目标说话人的待合成语音，通常为短提示语音，通过神经语音编码器编码为帧级别语音令牌序列和时不变令牌，将帧级别语音令牌序列输入到训练好的语音合成模型中，预测生成的帧级别预测语音令牌序列，然后将帧级别预测语音令牌序列和短提示语音的时不变令牌一起送入到神经语音解码器，得到合成的语音。

本发明实施例提供的基于时不变编码的少令牌神经语音编解码方法，应用于训练好的神经语音编解码模型，所述神经语音编解码模型包括编码器、时不变提取器、量化器和解码器；通过基于所述编码器对待处理语音进行编码，获得编码器输出层的隐层表示及编码器中间层的中间层表示；基于所述时不变提取器对所述中间层表示进行时不变特征提取，获得时不变表示；基于所述量化器分别对所述隐层表示和时不变表示进行量化，获得帧级别语音令牌和时不变令牌；基于所述解码器对所述帧级别语音令牌和时不变令牌进行解码，获得重构后语音；即本实施例通过时不变提取器对语音信号的时不变信息进行单独编码，在更少的语音编码令牌数量时能够实现更高的语音重建质量。

在上述实施例的基础上，图4为本发明实施例提供的一种神经语音编解码模型的训练方法的流程示意图，如图4所示，在步骤S301之前，还包括如下步骤：

步骤S401、构建包括生成器和鉴别器的生成对抗网络模型，以及生成器损失函数和鉴别器损失函数，所述生成器为神经语音编解码模型。

步骤S402、基于所述生成器损失函数和所述鉴别器损失函数交替训练所述生成器和鉴别器，直至满足训练结束条件，获得训练好的生成器为所述训练好的神经语音编解码模型。

其中，所述生成器损失函数根据重构损失项、生成器对抗损失项、特征匹配损失项、量化器损失项以及时不变一致性损失项确定，所述特征匹配损失项根据输入的第一语音片段与重构后第一语音片段之间的特征绝对差的平均值确定，所述时不变一致性损失项根据第一语音片段的第一时不变表示与第二语音片段的第二时不变表示的相似度确定，所述第二语音片段与所述第一语音片段来自于同一语音样本。

具体地，在利用神经语音编解码模型进行推理前，需先对神经语音编解码模型进行训练。参考图1b所示，所构建包括生成器和鉴别器的生成对抗网络模型TiCodec，其中生成器为神经语音编解码模型，包括编码器、两个量化器（量化器1和量化器2）、时不变提取器以及解码器，用于生成重构后语音，鉴别器（又称鉴别器组）包括多尺度短时傅里叶变换鉴别器、多周期鉴别器和多尺度鉴别器，用于鉴别是原始语音还是重构后语音。

在构建生成器损失函数时，除了考虑到重构损失和生成器对抗损失外，还考虑到特征匹配损失、量化器损失和时不变一致性损失，其中，时不变一致性损失是基于来自于同一语音的两个输入语音片段的时不变表示的余弦相似度确定的。在构建鉴别器损失函数时，考虑到鉴别器的对抗损失项。

在训练过程中，基于生成器损失函数和鉴别器损失函数对生成器和鉴别器进行交替训练，如先训练鉴别器，再训练生成器，再训练鉴别器，依次交替循环，直至生成器损失函数和鉴别器损失函数收敛，或者到达最大迭代次数，此时的生成器即为训练好的神经语音编解码模型。

在一些实施例中，所述步骤S402包括如下步骤：

步骤S4021、训练鉴别器：固定生成器的网络参数，将第一语音片段seg1输入到生成器中，获得重构后第一语音片段；将所述第一语音片段和所述重构后第一语音片段输入到鉴别器组中，根据第一语音片段和重构第一语音片段的鉴别器输出确定鉴别器损失函数值，并根据鉴别器损失函数值更新鉴别器的网络参数。

步骤S4022、训练生成器：固定鉴别器的网络参数，确定来自于同一语音样本的第一语音片段和第二语音片段，将第一语音片段输入到生成器中，获得第一语音片段对应的第一时不变表示和重构后第一语音片段，将第二语音片段输入到编码器的前两个编码模块和时不变提取器，然后接停止梯度操作，获得第二语音片段对应的第二时不变表示，根据第一时不变表示和第二时不变表示的余弦相似度确定时不变一致性损失函数，并确定重构损失项、生成器对抗损失、量化器损失和特征匹配损失项，从而计算出生成器损失函数值，根据生成器损失函数值更新生成器的网络参数。

步骤S4023、交替执行步骤S4021和步骤S4022，直至满足训练结束条件，获得训练好的生成器为所述训练好的神经语音编解码模型。

在一些实施例中，所述生成器损失函数的公式表达式如下：

（1）

（2）

（3）

（4）

（5）

（6）

（7）

（8）

所述鉴别器损失函数的公式表达式如下：

（9）

具体地，设表示TiCodec生成器，它通过编码器、时不变提取器、量化器和解码器处理输入语音波形x，重构后语音波形可表示为/>。针对于生成器损失函数，重构损失项包括时域损失和频域损失，对于时域损失，采用L1距离损失来最小化x和/>之间的L1距离，如公式（2）；对于频域损失，采用梅尔频谱图上具有多个时间尺度的 L1 损失的组合，如公式（3），公式（2）（3）的右下角的1表示L1损失；对于生成器对抗损失项，根据重构后语音经过鉴别器的输出来确定，如公式（4）；对于特征匹配损失项，通过计算原始语音的内层输出与鉴别器中生成的语音之间的平均绝对差来计算，如公式（5）所示；量化器损失项包括两个量化器损失项，其中一个是编码器的输出z与其量化值/>之间，另一个是时不变提取器的输出m与其量化值/>之间，分别如公式（6）和公式（7）所示；对于时不变一致性损失项，采用余弦相似度计算，如公式（8）所示。

针对于鉴别器损失函数，本实施例中采用了三种类型的鉴别器，包括多尺度短时傅里叶变换鉴别器、多周期鉴别器和多尺度鉴别器，鉴别器对抗性损失如公式（9）。

在前述实施例的基础上，通过构建包括生成器和鉴别器的生成对抗网络模型，以及生成器损失函数和鉴别器损失函数，所述生成器为神经语音编解码模型；基于所述生成器损失函数和所述鉴别器损失函数交替训练所述生成器和鉴别器，直至满足训练结束条件，获得训练好的生成器为所述训练好的神经语音编解码模型；其中，所述生成器损失函数根据重构损失项、生成器对抗损失项、特征匹配损失项、量化器损失项以及时不变一致性损失项确定，所述特征匹配损失项根据输入的第一语音片段与重构后第一语音片段之间的特征绝对差的平均值确定，所述时不变一致性损失项根据第一语音片段的第一时不变表示与第二语音片段的第二时不变表示的相似度确定，所述第二语音片段与所述第一语音片段来自于同一语音样本，实现了在模型训练时，考虑到时不变提取器的时不变表示的一致性损失，使得最终训练好的神经语音编解码模型在用于语音合成任务时，能够实现更稳定的音色保持。

本发明实施例还提供一种基于时不变编码的少令牌神经语音编解码系统，可参考图1a或图1b所示，该基于时不变编码的少令牌神经语音编解码系统包括：

编码器，用于对待处理语音进行编码，获得编码器输出层的隐层表示及编码器中间层的中间层表示；时不变提取器，用于对所述中间层表示进行时不变特征提取，获得时不变表示；量化器，用于分别对所述隐层表示和时不变表示进行量化，获得帧级别语音令牌和时不变令牌；解码器，用于对所述帧级别语音令牌和时不变令牌进行解码，获得重构后语音。

在一些实施例中，所述量化器包括第一量化器和第二量化器，所述第一量化器，用于基于分组残差矢量量化技术对所述隐层表示进行量化，获得所述帧级别语音令牌；所述第二量化器，用于基于分组矢量量化技术对所述时不变表示进行量化，获得所述时不变令牌。

在一些实施例中，在进行语音传输时，发送端和接收端均部署有所述训练好的神经语音编解码模型；所述系统将待发送语音作为所述待处理语音，基于所述发送端执行所述基于所述编码器对待处理语音进行编码的步骤，获得待发送语音对应的帧级别语音令牌和时不变令牌；基于所述发送端将待发送语音对应的帧级别语音令牌和时不变令牌发送给所述接收端；基于所述接收端执行所述基于所述解码器对所述帧级别语音令牌和时不变令牌进行解码，获得重构后语音的步骤。

在一些实施例中，在进行语音合成时，所述系统，用于将目标说话人的待合成语音作为所述待处理语音，执行所述基于所述编码器对待处理语音进行编码的步骤，获得待合成语音对应的帧级别语音令牌和时不变令牌；将所述待合成语音对应的帧级别语音令牌输入到训练好的语音合成模型中，获得帧级别预测语音令牌；将所述帧级别预测语音令牌和待合成语音对应的时不变令牌输入到所述解码器中，获得合成后语音。

在一些实施例中，所述系统，还用于在将所述待合成语音对应的帧级别语音令牌输入到训练好的语音合成模型中之前，将第一语音集中的语音样本输入到训练好的神经语音编解码模型中，获得帧级别语音令牌样本；基于所述帧级别语音令牌样本对待训练的语音合成模型进行训练，获得训练好的语音合成模型。

在一些实施例中，所述系统还包括鉴别器，所述系统还用于，在基于所述编码器对待处理语音进行编码之前，构建包括生成器和鉴别器的生成对抗网络模型，以及生成器损失函数和鉴别器损失函数，所述生成器为神经语音编解码模型；基于所述生成器损失函数和所述鉴别器损失函数交替训练所述生成器和鉴别器，直至满足训练结束条件，获得训练好的生成器为所述训练好的神经语音编解码模型；其中，所述生成器损失函数根据重构损失项、生成器对抗损失项、特征匹配损失项、量化器损失项以及时不变一致性损失项确定，所述特征匹配损失项根据输入的第一语音片段与重构后第一语音片段之间的特征绝对差的平均值确定，所述时不变一致性损失项根据第一语音片段的第一时不变表示与第二语音片段的第二时不变表示的相似度确定，所述第二语音片段与所述第一语音片段来自于同一语音样本。

在一些实施例中，所述生成器损失函数的公式表达式如下：

所述鉴别器损失函数的公式表达式如下：/>

其中，表示重构损失项中的时域损失项，/>表示重构损失项中的频域损失项，/>表示生成器对抗损失项，/>表示特征匹配损失项，/>表示第一量化器损失项，/>表示第二量化器损失项，/>表示时不变一致性损失项，/>为相应损失项的超参数，/>表示第一语音片段，/>表示重构后第一语音片段，/>表示对第一语音片段提取不同时间尺度的梅尔谱特征，/>表示对重构后第一语音片段提取不同时间尺度的梅尔谱特征/>表示重构后第一语音片段经过第k个鉴别器的输出/>表示第一语音片段经过第k个鉴别器的第l层的输出，/>重构后第一语音片段经过第k个鉴别器的第l层的输出，/>表示第i组第c层残差量化器所输入的隐层表示，/>表示第i组第c层残差量化器所输出的语音令牌，/>表示第二量化器的第j组量化器所输入的时不变表示，/>表示第二量化器的第j组量化器所输出的时不变令牌，K表示鉴别器总数，L表示鉴别器的层数/>

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的基于时不变编码的少令牌神经语音编解码系统的具体工作过程以及相应的有益效果，可以参考前述方法示例中的对应过程，在此不再赘述。

如图5所示，本发明实施例提供了一种电子设备，包括处理器501、通信接口502、存储器503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信，

存储器503，用于存放计算机程序；

在本发明一个实施例中，处理器501，用于执行存储器503上所存放的程序时，实现前述任意一个方法实施例提供的基于时不变编码的少令牌神经语音编解码方法的步骤。

本发明实施例提供的电子设备，其实现原理和技术效果与上述实施例类似，此处不再赘述。

上述存储器503可以是诸如闪存、EEPROM（电可擦除可编程只读存储器）、EPROM、硬盘或者ROM之类的电子存储器。存储器503具有用于执行上述方法中的任何方法步骤的程序代码的存储空间。例如，用于程序代码的存储空间可以包括分别用于实现上面的方法中的各个步骤的各个程序代码。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，光盘（CD）、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为便携式或者固定存储单元。该存储单元可以具有与上述电子设备中的存储器503类似布置的存储段或者存储空间等。程序代码可以例如以适当形式进行压缩。通常，存储单元包括用于执行根据本发明的实施例的方法步骤的程序，即可以由例如诸如501之类的处理器读取的代码，这些代码当由电子设备运行时，导致该电子设备执行上面所描述的方法中的各个步骤。

本发明的实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序，上述计算机程序被处理器执行时实现如上所述的基于时不变编码的少令牌神经语音编解码方法的步骤。

该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的；也可以是单独存在，而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本发明实施例的方法。

根据本发明的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于时不变编码的少令牌神经语音编解码方法，其特征在于，应用于训练好的神经语音编解码模型，所述神经语音编解码模型包括编码器、时不变提取器、量化器和解码器；所述方法包括：

基于所述编码器对待处理语音进行编码，获得编码器输出层的隐层表示及编码器中间层的中间层表示；

基于所述时不变提取器对所述中间层表示进行时不变特征提取，获得时不变表示；

基于所述量化器分别对所述隐层表示和时不变表示进行量化，获得帧级别语音令牌和时不变令牌；

基于所述解码器对所述帧级别语音令牌和时不变令牌进行解码，获得重构后语音；

所述基于所述编码器对待处理语音进行编码之前，还包括：

构建包括生成器和鉴别器的生成对抗网络模型，以及生成器损失函数和鉴别器损失函数，所述生成器为神经语音编解码模型；

基于所述生成器损失函数和所述鉴别器损失函数交替训练所述生成器和鉴别器，直至满足训练结束条件，获得训练好的生成器为所述训练好的神经语音编解码模型；

2.根据权利要求1所述的方法，其特征在于，所述量化器包括第一量化器和第二量化器，所述基于所述量化器分别对所述隐层表示和时不变表示进行量化，获得帧级别语音令牌和时不变令牌，包括：

基于所述第一量化器的分组残差矢量量化技术对所述隐层表示进行量化，获得所述帧级别语音令牌；

基于所述第二量化器的分组矢量量化技术对所述时不变表示进行量化，获得所述时不变令牌。

3.根据权利要求1或2所述的方法，其特征在于，在进行语音传输时，发送端和接收端均部署有所述训练好的神经语音编解码模型；

将待发送语音作为所述待处理语音，基于所述发送端执行所述基于所述编码器对待处理语音进行编码的步骤，获得待发送语音对应的帧级别语音令牌和时不变令牌；

基于所述发送端将待发送语音对应的帧级别语音令牌和时不变令牌发送给所述接收端；

基于所述接收端执行所述基于所述解码器对所述帧级别语音令牌和时不变令牌进行解码，获得重构后语音的步骤。

4.根据权利要求1或2所述的方法，其特征在于，在进行语音合成时，将目标说话人的待合成语音作为所述待处理语音，执行所述基于所述编码器对待处理语音进行编码的步骤，获得待合成语音对应的帧级别语音令牌和时不变令牌；

将所述待合成语音对应的帧级别语音令牌输入到训练好的语音合成模型中，获得帧级别预测语音令牌；

将所述帧级别预测语音令牌和待合成语音对应的时不变令牌输入到所述解码器中，获得合成后语音。

5.根据权利要求4所述的方法，其特征在于，所述将所述待合成语音对应的帧级别语音令牌输入到训练好的语音合成模型中之前，还包括：

将语音训练集中的语音样本输入到训练好的神经语音编解码模型中，获得帧级别语音令牌样本；

基于所述帧级别语音令牌样本对待训练的语音合成模型进行训练，获得训练好的语音合成模型。

6.根据权利要求1所述的方法，其特征在于，所述生成器损失函数的公式表达式如下：

所述鉴别器损失函数的公式表达式如下：

其中，表示重构损失项中的时域损失项，/>表示重构损失项中的频域损失项，/>表示生成器对抗损失项，/>表示特征匹配损失项，/>表示第一量化器损失项，/>表示第二量化器损失项，/>表示时不变一致性损失项，/>为相应损失项的超参数，/>表示第一语音片段，/>表示重构后第一语音片段，/>表示对第一语音片段提取不同时间尺度的梅尔谱特征，/>表示对重构后第一语音片段提取不同时间尺度的梅尔谱特征，/>表示重构后第一语音片段经过第k个鉴别器的输出，/>表示第一语音片段经过第k个鉴别器的第l层的输出，/>表示重构后第一语音片段经过第k个鉴别器的第l层的输出，/>表示第i组第c层残差量化器所输入的隐层表示，/>表示第i组第c层残差量化器所输出的语音令牌，/>表示第二量化器的第j组量化器所输入的时不变表示，/>表示第二量化器的第j组量化器所输出的时不变令牌，K表示鉴别器总数，L表示鉴别器的层数。

7.一种基于时不变编码的少令牌神经语音编解码系统，其特征在于，包括：

编码器，用于对待处理语音进行编码，获得编码器输出层的隐层表示及编码器中间层的中间层表示；

时不变提取器，用于对所述中间层表示进行时不变特征提取，获得时不变表示；

量化器，用于分别对所述隐层表示和时不变表示进行量化，获得帧级别语音令牌和时不变令牌；

解码器，用于对所述帧级别语音令牌和时不变令牌进行解码，获得重构后语音；

所述系统还包括鉴别器，所述系统还用于，在基于所述编码器对待处理语音进行编码之前，构建包括生成器和鉴别器的生成对抗网络模型，以及生成器损失函数和鉴别器损失函数，所述生成器为神经语音编解码模型；

8.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-6任一项所述的基于时不变编码的少令牌神经语音编解码方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的基于时不变编码的少令牌神经语音编解码方法的步骤。