CN117672237A

CN117672237A - 基于矢量预测与融合技术的端到端语音编码方法和系统

Info

Publication number: CN117672237A
Application number: CN202311563977.XA
Authority: CN
Inventors: 涂卫平; 郑友强; 肖立
Original assignee: Hubei Luojia Laboratory
Current assignee: Hubei Luojia Laboratory
Priority date: 2023-11-20
Filing date: 2023-11-20
Publication date: 2024-03-08

Abstract

本发明提供一种基于矢量预测与融合技术的端到端语音编码方法和系统，包括：采用特征提取模块，从输入语音信号提取特征矢量；将得到的特征矢量分裂为维度相等的两个子矢量，分别为高维子矢量和低维子矢量；将得到的两个子矢量中的一个进行多级残差矢量量化，并对量化值进行编码；解码和解量化，得到重建的低维或高维子矢量，将其送入矢量预测模块，预测得到高维或低维子矢量；将重建的低维或高维子矢量和预测得到的高维或低维子矢量送入矢量融合模块，得到原始维度的特征矢量；将得到的特征矢量通过语音重建模块还原出语音信号。与现有技术相比，本方法在相同码率、相同音质下，可使特征矢量量化所需存储空间下降一半，同时节省码本计算资源。

Description

基于矢量预测与融合技术的端到端语音编码方法和系统

技术领域

本发明属于语音处理领域，具体涉及一种基于矢量预测与融合技术的端到端语音编码方法和系统

背景技术

语音通信中，输入语音经过编码端从中提取出语音信号的特征参数，然后利用量化器对提取的特征参数进行量化，达到压缩数据量的目的。解码端对特征参数进行解量化并重建语音信号。随着编码码率的降低，量化比特数减少，导致量化误差增大，进而影响重建语音的质量。尤其是在编码码率低至1.2kbps及以下时，传统语音编码方法的重建语音质量受损更为严重，通常表现为重建语音自然度低并伴随着机械音，严重影响通信质量。

近年来，深度学习方法被应用于语音编码领域，端到端语音编码在编码质量方面超越了传统语音编码方法。现有的端到端语音编码方法在编码端从输入语音信号中提取高维特征矢量，并对其进行矢量量化；在解码端从解量化的高维特征矢量重建语音信号。为了对特征矢量进行高效高质量的量化，现有端到端语音编码方案一般采取残差矢量量化(Residual Vector Quantization,RVQ)、分裂矢量量化技术(Split VectorQuantization，SVQ)或者上述二者的结合。其中，RVQ采用多级码本对特征矢量逐级进行量化，下一级量化的对象是上一级量化的误差矢量，由此逐渐降低量化误差，达到提升量化精度的目的。SVQ是将高维矢量分裂成若干维度较低的子矢量，再对各个子矢量分别进行矢量量化，由此降低码本存储空间和码本搜索的计算复杂度。但是，由于端到端语音编码所提取的特征矢量具有维度高、数量大的特点，尽管采用了上述量化技术，其量化过程的存储复杂度和计算复杂度仍然很高。

本发明解决现有端到端语音编码方案中特征矢量量化所需计算和存储复杂度高的问题，同时保证重建语音质量不降低。

发明内容

本发明提供了一种基于矢量预测与融合技术的端到端语音编码方法，可以减少现有端到端语音编码器中内部特征矢量量化所需的存储复杂度和计算复杂度；同时又能保证重建语音质量。该方法包括以下步骤：

步骤1，采用特征提取模块，从输入语音信号提取特征矢量；

步骤2，将步骤1所得到的特征矢量分裂为维度相等的两个子矢量，分别为高维子矢量和低维子矢量；

步骤3，将步骤2得到的两个子矢量中的一个进行多级残差矢量量化，并对量化值进行编码；

步骤4，解码和解量化，得到重建的低维或高维子矢量，将其送入矢量预测模块，预测得到高维或低维子矢量；

步骤5，将重建的低维或高维子矢量和预测得到的高维或低维子矢量送入矢量融合模块，得到原始维度的特征矢量；

步骤6，将步骤5得到的特征矢量通过语音重建模块还原出语音信号。

进一步的，特征提取模块包括若干个一维因果卷积和编码模块，其中一维因果卷积用于学习特征，编码模块由一层一维因果卷积和残差块组成，残差块是由不同膨胀率的残差单元组成，残差单元由一个一维膨胀卷积和一维因果卷积构成。

进一步的，矢量预测模块包括多个基于Transformer的多头注意力模块。

进一步的，步骤5的具体实现方式如下；

步骤5.1，将步骤3量化后的子矢量和步骤4得到的预测子矢量拼接后进行基于时间维度的最大池化和平均池化，得到两个大小相等的权值向量，再将这两个权值向量按照时间维度进行拼接，利用一维卷积、Leaky ReLU激活函数，再经过一层一维卷积和sigmoid函数得到融合权值向量；

步骤5.2，将步骤3量化后的子矢量和步骤4得到的预测子矢量拼接后进行基于通道维进行平均池化得到权值向量，然后将权值向量通过两层全连接层和sigmoid激活函数，得到最终的权值向量；

步骤5.3，将步骤5.1和步骤5.2的权值向量与原始输入进行融合得到经过矢量融合模块的特征矢量。

进一步的，语音重建模块由若干个一维因果卷积和解码模块构成，解码模块包含转置因果卷积和残差模块，残差模块包含不同膨胀率的残差单元层，残差单元由一个一维膨胀卷积和一维因果卷积构成，每个解码模块中通道数不相同。

进一步的，还包括步骤7，将步骤6生成的语音信号和原始的语音信号一起输入至基于波形和基于STFT的判别器，进行真假判别，在训练过程中使得生成器更好地还原语音信号，所述生成器即步骤1-步骤6构成的整体模型。

进一步的，基于波形的判别器首先对输入的语音信号进行下采样处理，分别得到不同的下采样语音信号：原始语音信号，2倍下采样语音信号，4倍下采样语音信号，然后对下采样语音信号分别进行如下处理：先经过普通卷积处理，然后是四层下采样层，每层下采样都是一维卷积，下采样后的结果将经过一层卷积得到特征图，再经过一层卷积得到最终预测结果。

进一步的，基于STFT的判别器是在一个单一的尺度上运行，首先计算STFT的窗长为W和窗高H，判别器包含2个二维卷积和一系列残差单元，每个残差单元包含两层二维卷积层，总共有6个残差单元，在最后一个残差单元的输出处、激活的形状为T/(H-23)×F/26，其中T是时域中的样本数，F＝W/2是频率维的数目，最后一层通过卷积核为1×F/26的二维卷积将不同频率维的值进行聚合，以在下采样的时域中获得一维信号，表示该波形是重建语音还是真实语音。

本发明还提供一种基于矢量预测与融合技术的端到端语音编码系统，包括如下单元：

特征提取单元，用于采用特征提取模块，从输入语音信号提取特征矢量；

特征矢量分裂单元，用于将得到的特征矢量分裂为维度相等的两个子矢量，分别为高维子矢量和低维子矢量；

量化编码单元，用于将得到的两个子矢量中的一个进行多级残差矢量量化，并对量化值进行编码；

矢量预测单元，用于解码和解量化，得到重建的低维或高维子矢量，将其送入矢量预测模块，预测得到高维或低维子矢量；

矢量融合单元，用于将重建的低维或高维子矢量和预测得到的高维或低维子矢量送入矢量融合模块，得到原始维度的特征矢量；

语音重建单元，用于将得到的特征矢量通过语音重建模块还原出语音信号。

与现有技术相比，本方法在相同码率、相同音质下，可使特征矢量量化所需存储空间下降一半，同时节省码本计算资源。

附图说明

图1：为本发明实施例的基于卷积神经网络的端到端语音编码模型；

图2：为基于因果卷积模块的特征提取模块流程图；

图3：为矢量预测模块流程图；

图4：为矢量融合模块的流程图；

图5：为基于转置因果卷积模块的语音重建模块流程图；

图6：为基于波形判别器的流程图；

图7：为基于STFT判别器的流程图。

具体实施方式

以下结合附图和实施例详细说明本发明技术方案。

如图1所示，本发明实施例提供的一种基于矢量预测与融合技术的端到端语音编码方法，包括如下步骤：

步骤1：采用特征提取模块，从输入语音信号提取出特征矢量。其中，输入语音信号的组织方式是(批量大小，通道维，时间维)，特征矢量的组织方式是(批量大小，通道维，时间维)；

具体来说，对于输入语音信号，初始通道维度为1，初始输入的时间维代表的是采样点数。对于特征矢量，其通道维度一般设为512，特征矢量的时间维代表的是帧数，每帧有320个采样点，对于输入16kHz的语音信号而言帧长为20ms。采用基于因果卷积的特征提取模块如图2所示。特征提取模块包括2个一维因果卷积和4个编码模块，其中一维因果卷积用于学习特征，会改变时域维度，也会改变频域维度，每个编码模块由一层一维因果卷积和残差块组成。其中提特征提取模块的层数、各输入输出的通道数、卷积核大小和步长等网络参数可根据需要调整。其中4个编码模块中一维因果卷积的步长为(2,4,5,8)，这决定每帧长度。残差块是由不同膨胀率的3个残差单元组成，膨胀率为(1,3,9)，每个残差单元由一个一维膨胀卷积和一维因果卷积构成，这可以扩大卷积神经网络的感受野和进行下采样，每当下采样时，通道的数量会增加一倍。最后一层是一维因果卷积层，内核长度为3，步长为1，用于设置量化特征的维度，这里是512维。

步骤2：将步骤1所述经过特征提取模块得到的特征矢量，从原始特征矢量中截取出低维子矢量，组织方式是(批量大小，时间维度，通道维度/2)；

具体来说，采用直接截取的方式，从原始维度的特征矢量中获得低维子矢量(或高维子矢量)。例如，截取0-255(或者256-512)维的特征划分为低维子矢量，256-512(或者0-255)维的特征划分为其他维度子矢量，具体的组织方式是(批量大小，时间维度，256)。

步骤3：将步骤2得到的两个子矢量中的一个进行多级残差矢量量化，此处以量化低维子矢量x₁为例，并对量化值进行编码。

具体来说，将步骤2得到的低维子矢量x₁，将其送入多级矢量量化器，码本比特数是原始比特数的一半，以此减少码本所占存储资源和码字搜索时间。每级码本大小为1024，每级码矢所需比特数为10比特，码本维度为256；

步骤4：解码和解量化，得到重建的低维子矢量将其送入矢量预测模块，预测得到高维子矢量/>(若步骤3选择高维子矢量进行量化，则步骤4就是由高维子矢量预测低维子矢量)；

步骤4.1：将步骤3所述的得到量化后的低维子矢量送入预测模块(如附图3所示，此处以低维子矢量为例)，以此预测出高维子矢量/>保证低维子矢量和高维子矢量之间的相关性。这里的预测模型主要由Transformer的多头注意力模块构成，学习低维子矢量到高维子矢量。网络中层数为4层，Multi-head个数为2个。这里的预测模块输入是低维子矢量/>输出的高维子矢量/>组织方式在形状上保持一致。

步骤5：将步骤4得到量化后的低维子矢量和预测的高维子矢量/>通过矢量融合模块(如附图4所示)，还原出原始维度的特征矢量；

步骤5.1：将步骤3量化后的低维子矢量和步骤4得到的预测其他维度子矢量拼接后进行基于时间维度的最大池化和平均池化，得到两个大小相等的权值向量，再将这两个权值向量按照时间维度进行拼接，利用一维卷积、Leaky ReLU激活函数，再经过一层一维卷积和sigmoid函数得到融合权值向量；

步骤5.2：将步骤3量化后的低维子矢量和步骤4得到的预测其他维度子矢量拼接后进行基于通道维进行平均池化得到权值向量。然后将权值向量通过两层全连接层和sigmoid激活函数，得到最终的权值向量；

步骤5.3：将步骤5.1和步骤5.2的权值向量与原始输入进行融合得到经过矢量融合模块的特征矢量。

步骤6：将步骤5得到的特征矢量通过语音重建模块还原出语音信号。

具体来说，将步骤5经过矢量融合模块得到特征矢量通过语音重建模块(如附图5所示)还原语音信号，此时特征矢量的组织方式是(批量大小，通道维，帧数)。其中，语音重建模块主要由2个一维因果卷积和4个解码模块构成，每个解码模块包含转置因果卷积和残差模块。残差模块包含不同膨胀率的残差单元层，膨胀率为(1,3，9)，每个残差单元由一个一维膨胀卷积和一维因果卷积构成。每个解码模块中通道数不相同。经过解码模块后，得到的语音信号组织方式是(批量大小，1，时间维)。

步骤7：将步骤6生成的语音信号和原始的语音信号一起输入至基于波形和基于STFT的判别器，进行真假判别，在训练过程中使得生成器(即步骤1-步骤6构成的整体模型)更好地还原语音信号。

具体来说，判别器的主要作用是判别生成器的生成效果好坏，训练生成器用来更好地生成语音信号。判别器的输入是生成器的重建语音，通过预测重建语音的真实性，学习如何区分原始语音和重建语音，并将对重建语音的预测结果反馈给生成器，以一种对抗训练的方式相互竞争和写作。本发明中基于波形(如附图6所示)和基于STFT(如附图7所示)的判别器都是由卷积层构成。其中，基于波形的判别器采用的相同模型的多分辨率卷积。对于同一个模型有三个不同分别率的输入，分别对应于不同的下采样语音信号：原始的、2倍的下采样，和4倍下采样。基于波形的判别器中的每个分组判别器包括一个初始的普通卷积，然后是四层下采样层，每层下采样都是一维卷积，下采样后的结果将经过一层卷积得到特征图，再经过一层卷积得到最终预测结果，每个子判别器的输出都将包含在最终的预测结果中，判别器最终结果是从这三个尺度进行判别。其中，每个分组的大小为4，下采样系数为4，通道乘数为4，最大输出通道为1024。基于STFT的判别器，它在一个单一的尺度上运行，计算STFT的窗长为W＝1024个样本，窗高H＝256个样本。它包含2个二维卷积(卷积核大小7×7,32个通道)和一系列残差单元，每个残差单元包含两层二维卷积层，总共有6个残差单元。通道的数量随着网络深度的增加而逐渐增加。在最后一个残差单元的输出处、激活的形状为T/(H-23)×F/26，其中T是时域中的样本数，F＝W/2是频率维的数目。最后一层通过卷积核为1×F/26的二维卷积将不同频率维的值进行聚合，以在下采样的时域中获得一维信号，表示该波形是重建语音还是真实语音。

本发明在1.5kbps下客观ViSQOL mos分达到3.481，可懂度STOI值达到0.883，超过Google现有端到端编码算法Lyra-v2 3。2kbps的客观ViSQOL mos分值3.31，可懂度STOI值0.856。

各单元的具体实现方式与各步骤相同，本发明不予撰述。

以上所述，仅为本发明较佳的具体实施方式，但本发明保护的范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内所做的任何修改，等同替换和改进等，均应包含在发明的保护范围之内。

Claims

1.基于矢量预测与融合技术的端到端语音编码方法，其特征在于，包括如下步骤：

步骤1，采用特征提取模块，从输入语音信号提取特征矢量；

2.如权利要求1所述的基于矢量预测与融合技术的端到端语音编码方法，其特征在于：特征提取模块包括若干个一维因果卷积和编码模块，其中一维因果卷积用于学习特征，编码模块由一层一维因果卷积和残差块组成，残差块是由不同膨胀率的残差单元组成，残差单元由一个一维膨胀卷积和一维因果卷积构成。

3.如权利要求1所述的基于矢量预测与融合技术的端到端语音编码方法，其特征在于：矢量预测模块包括多个基于Transformer的多头注意力模块。

4.如权利要求1所述的基于矢量预测与融合技术的端到端语音编码方法，其特征在于：步骤5的具体实现方式如下；

5.如权利要求1所述的基于矢量预测与融合技术的端到端语音编码方法，其特征在于：语音重建模块由若干个一维因果卷积和解码模块构成，解码模块包含转置因果卷积和残差模块，残差模块包含不同膨胀率的残差单元层，残差单元由一个一维膨胀卷积和一维因果卷积构成，每个解码模块中通道数不相同。

6.如权利要求1所述的基于矢量预测与融合技术的端到端语音编码方法，其特征在于：还包括步骤7，将步骤6生成的语音信号和原始的语音信号一起输入至基于波形和基于STFT的判别器，进行真假判别，在训练过程中使得生成器更好地还原语音信号，所述生成器即步骤1-步骤6构成的整体模型。

7.如权利要求6所述的基于矢量预测与融合技术的端到端语音编码方法，其特征在于：基于波形的判别器首先对输入的语音信号进行下采样处理，分别得到不同的下采样语音信号：原始语音信号，2倍下采样语音信号，4倍下采样语音信号，然后对下采样语音信号分别进行如下处理：先经过普通卷积处理，然后是四层下采样层，每层下采样都是一维卷积，下采样后的结果将经过一层卷积得到特征图，再经过一层卷积得到最终预测结果。

8.如权利要求6所述的基于矢量预测与融合技术的端到端语音编码方法，其特征在于：基于STFT的判别器是在一个单一的尺度上运行，首先计算STFT的窗长为W和窗高H，判别器包含2个二维卷积和一系列残差单元，每个残差单元包含两层二维卷积层，总共有6个残差单元，在最后一个残差单元的输出处、激活的形状为T/(H-23)×F/26，其中T是时域中的样本数，F＝W/2是频率维的数目，最后一层通过卷积核为1×F/26的二维卷积将不同频率维的值进行聚合，以在下采样的时域中获得一维信号，表示该波形是重建语音还是真实语音。

9.基于矢量预测与融合技术的端到端语音编码系统，其特征在于，包括如下单元：