CN117672237A - 基于矢量预测与融合技术的端到端语音编码方法和系统 - Google Patents

基于矢量预测与融合技术的端到端语音编码方法和系统 Download PDF

Info

Publication number
CN117672237A
CN117672237A CN202311563977.XA CN202311563977A CN117672237A CN 117672237 A CN117672237 A CN 117672237A CN 202311563977 A CN202311563977 A CN 202311563977A CN 117672237 A CN117672237 A CN 117672237A
Authority
CN
China
Prior art keywords
vector
dimensional
sub
convolution
low
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311563977.XA
Other languages
English (en)
Inventor
涂卫平
郑友强
肖立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei Luojia Laboratory
Original Assignee
Hubei Luojia Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei Luojia Laboratory filed Critical Hubei Luojia Laboratory
Priority to CN202311563977.XA priority Critical patent/CN117672237A/zh
Publication of CN117672237A publication Critical patent/CN117672237A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供一种基于矢量预测与融合技术的端到端语音编码方法和系统,包括:采用特征提取模块,从输入语音信号提取特征矢量;将得到的特征矢量分裂为维度相等的两个子矢量,分别为高维子矢量和低维子矢量;将得到的两个子矢量中的一个进行多级残差矢量量化,并对量化值进行编码;解码和解量化,得到重建的低维或高维子矢量,将其送入矢量预测模块,预测得到高维或低维子矢量;将重建的低维或高维子矢量和预测得到的高维或低维子矢量送入矢量融合模块,得到原始维度的特征矢量;将得到的特征矢量通过语音重建模块还原出语音信号。与现有技术相比,本方法在相同码率、相同音质下,可使特征矢量量化所需存储空间下降一半,同时节省码本计算资源。

Description

基于矢量预测与融合技术的端到端语音编码方法和系统
技术领域
本发明属于语音处理领域,具体涉及一种基于矢量预测与融合技术的端到端语音编码方法和系统
背景技术
语音通信中,输入语音经过编码端从中提取出语音信号的特征参数,然后利用量化器对提取的特征参数进行量化,达到压缩数据量的目的。解码端对特征参数进行解量化并重建语音信号。随着编码码率的降低,量化比特数减少,导致量化误差增大,进而影响重建语音的质量。尤其是在编码码率低至1.2kbps及以下时,传统语音编码方法的重建语音质量受损更为严重,通常表现为重建语音自然度低并伴随着机械音,严重影响通信质量。
近年来,深度学习方法被应用于语音编码领域,端到端语音编码在编码质量方面超越了传统语音编码方法。现有的端到端语音编码方法在编码端从输入语音信号中提取高维特征矢量,并对其进行矢量量化;在解码端从解量化的高维特征矢量重建语音信号。为了对特征矢量进行高效高质量的量化,现有端到端语音编码方案一般采取残差矢量量化(Residual Vector Quantization,RVQ)、分裂矢量量化技术(Split VectorQuantization,SVQ)或者上述二者的结合。其中,RVQ采用多级码本对特征矢量逐级进行量化,下一级量化的对象是上一级量化的误差矢量,由此逐渐降低量化误差,达到提升量化精度的目的。SVQ是将高维矢量分裂成若干维度较低的子矢量,再对各个子矢量分别进行矢量量化,由此降低码本存储空间和码本搜索的计算复杂度。但是,由于端到端语音编码所提取的特征矢量具有维度高、数量大的特点,尽管采用了上述量化技术,其量化过程的存储复杂度和计算复杂度仍然很高。
本发明解决现有端到端语音编码方案中特征矢量量化所需计算和存储复杂度高的问题,同时保证重建语音质量不降低。
发明内容
本发明提供了一种基于矢量预测与融合技术的端到端语音编码方法,可以减少现有端到端语音编码器中内部特征矢量量化所需的存储复杂度和计算复杂度;同时又能保证重建语音质量。该方法包括以下步骤:
步骤1,采用特征提取模块,从输入语音信号提取特征矢量;
步骤2,将步骤1所得到的特征矢量分裂为维度相等的两个子矢量,分别为高维子矢量和低维子矢量;
步骤3,将步骤2得到的两个子矢量中的一个进行多级残差矢量量化,并对量化值进行编码;
步骤4,解码和解量化,得到重建的低维或高维子矢量,将其送入矢量预测模块,预测得到高维或低维子矢量;
步骤5,将重建的低维或高维子矢量和预测得到的高维或低维子矢量送入矢量融合模块,得到原始维度的特征矢量;
步骤6,将步骤5得到的特征矢量通过语音重建模块还原出语音信号。
进一步的,特征提取模块包括若干个一维因果卷积和编码模块,其中一维因果卷积用于学习特征,编码模块由一层一维因果卷积和残差块组成,残差块是由不同膨胀率的残差单元组成,残差单元由一个一维膨胀卷积和一维因果卷积构成。
进一步的,矢量预测模块包括多个基于Transformer的多头注意力模块。
进一步的,步骤5的具体实现方式如下;
步骤5.1,将步骤3量化后的子矢量和步骤4得到的预测子矢量拼接后进行基于时间维度的最大池化和平均池化,得到两个大小相等的权值向量,再将这两个权值向量按照时间维度进行拼接,利用一维卷积、Leaky ReLU激活函数,再经过一层一维卷积和sigmoid函数得到融合权值向量;
步骤5.2,将步骤3量化后的子矢量和步骤4得到的预测子矢量拼接后进行基于通道维进行平均池化得到权值向量,然后将权值向量通过两层全连接层和sigmoid激活函数,得到最终的权值向量;
步骤5.3,将步骤5.1和步骤5.2的权值向量与原始输入进行融合得到经过矢量融合模块的特征矢量。
进一步的,语音重建模块由若干个一维因果卷积和解码模块构成,解码模块包含转置因果卷积和残差模块,残差模块包含不同膨胀率的残差单元层,残差单元由一个一维膨胀卷积和一维因果卷积构成,每个解码模块中通道数不相同。
进一步的,还包括步骤7,将步骤6生成的语音信号和原始的语音信号一起输入至基于波形和基于STFT的判别器,进行真假判别,在训练过程中使得生成器更好地还原语音信号,所述生成器即步骤1-步骤6构成的整体模型。
进一步的,基于波形的判别器首先对输入的语音信号进行下采样处理,分别得到不同的下采样语音信号:原始语音信号,2倍下采样语音信号,4倍下采样语音信号,然后对下采样语音信号分别进行如下处理:先经过普通卷积处理,然后是四层下采样层,每层下采样都是一维卷积,下采样后的结果将经过一层卷积得到特征图,再经过一层卷积得到最终预测结果。
进一步的,基于STFT的判别器是在一个单一的尺度上运行,首先计算STFT的窗长为W和窗高H,判别器包含2个二维卷积和一系列残差单元,每个残差单元包含两层二维卷积层,总共有6个残差单元,在最后一个残差单元的输出处、激活的形状为T/(H-23)×F/26,其中T是时域中的样本数,F=W/2是频率维的数目,最后一层通过卷积核为1×F/26的二维卷积将不同频率维的值进行聚合,以在下采样的时域中获得一维信号,表示该波形是重建语音还是真实语音。
本发明还提供一种基于矢量预测与融合技术的端到端语音编码系统,包括如下单元:
特征提取单元,用于采用特征提取模块,从输入语音信号提取特征矢量;
特征矢量分裂单元,用于将得到的特征矢量分裂为维度相等的两个子矢量,分别为高维子矢量和低维子矢量;
量化编码单元,用于将得到的两个子矢量中的一个进行多级残差矢量量化,并对量化值进行编码;
矢量预测单元,用于解码和解量化,得到重建的低维或高维子矢量,将其送入矢量预测模块,预测得到高维或低维子矢量;
矢量融合单元,用于将重建的低维或高维子矢量和预测得到的高维或低维子矢量送入矢量融合模块,得到原始维度的特征矢量;
语音重建单元,用于将得到的特征矢量通过语音重建模块还原出语音信号。
与现有技术相比,本方法在相同码率、相同音质下,可使特征矢量量化所需存储空间下降一半,同时节省码本计算资源。
附图说明
图1:为本发明实施例的基于卷积神经网络的端到端语音编码模型;
图2:为基于因果卷积模块的特征提取模块流程图;
图3:为矢量预测模块流程图;
图4:为矢量融合模块的流程图;
图5:为基于转置因果卷积模块的语音重建模块流程图;
图6:为基于波形判别器的流程图;
图7:为基于STFT判别器的流程图。
具体实施方式
以下结合附图和实施例详细说明本发明技术方案。
如图1所示,本发明实施例提供的一种基于矢量预测与融合技术的端到端语音编码方法,包括如下步骤:
步骤1:采用特征提取模块,从输入语音信号提取出特征矢量。其中,输入语音信号的组织方式是(批量大小,通道维,时间维),特征矢量的组织方式是(批量大小,通道维,时间维);
具体来说,对于输入语音信号,初始通道维度为1,初始输入的时间维代表的是采样点数。对于特征矢量,其通道维度一般设为512,特征矢量的时间维代表的是帧数,每帧有320个采样点,对于输入16kHz的语音信号而言帧长为20ms。采用基于因果卷积的特征提取模块如图2所示。特征提取模块包括2个一维因果卷积和4个编码模块,其中一维因果卷积用于学习特征,会改变时域维度,也会改变频域维度,每个编码模块由一层一维因果卷积和残差块组成。其中提特征提取模块的层数、各输入输出的通道数、卷积核大小和步长等网络参数可根据需要调整。其中4个编码模块中一维因果卷积的步长为(2,4,5,8),这决定每帧长度。残差块是由不同膨胀率的3个残差单元组成,膨胀率为(1,3,9),每个残差单元由一个一维膨胀卷积和一维因果卷积构成,这可以扩大卷积神经网络的感受野和进行下采样,每当下采样时,通道的数量会增加一倍。最后一层是一维因果卷积层,内核长度为3,步长为1,用于设置量化特征的维度,这里是512维。
步骤2:将步骤1所述经过特征提取模块得到的特征矢量,从原始特征矢量中截取出低维子矢量,组织方式是(批量大小,时间维度,通道维度/2);
具体来说,采用直接截取的方式,从原始维度的特征矢量中获得低维子矢量(或高维子矢量)。例如,截取0-255(或者256-512)维的特征划分为低维子矢量,256-512(或者0-255)维的特征划分为其他维度子矢量,具体的组织方式是(批量大小,时间维度,256)。
步骤3:将步骤2得到的两个子矢量中的一个进行多级残差矢量量化,此处以量化低维子矢量x1为例,并对量化值进行编码。
具体来说,将步骤2得到的低维子矢量x1,将其送入多级矢量量化器,码本比特数是原始比特数的一半,以此减少码本所占存储资源和码字搜索时间。每级码本大小为1024,每级码矢所需比特数为10比特,码本维度为256;
步骤4:解码和解量化,得到重建的低维子矢量将其送入矢量预测模块,预测得到高维子矢量/>(若步骤3选择高维子矢量进行量化,则步骤4就是由高维子矢量预测低维子矢量);
步骤4.1:将步骤3所述的得到量化后的低维子矢量送入预测模块(如附图3所示,此处以低维子矢量为例),以此预测出高维子矢量/>保证低维子矢量和高维子矢量之间的相关性。这里的预测模型主要由Transformer的多头注意力模块构成,学习低维子矢量到高维子矢量。网络中层数为4层,Multi-head个数为2个。这里的预测模块输入是低维子矢量/>输出的高维子矢量/>组织方式在形状上保持一致。
步骤5:将步骤4得到量化后的低维子矢量和预测的高维子矢量/>通过矢量融合模块(如附图4所示),还原出原始维度的特征矢量;
步骤5.1:将步骤3量化后的低维子矢量和步骤4得到的预测其他维度子矢量拼接后进行基于时间维度的最大池化和平均池化,得到两个大小相等的权值向量,再将这两个权值向量按照时间维度进行拼接,利用一维卷积、Leaky ReLU激活函数,再经过一层一维卷积和sigmoid函数得到融合权值向量;
步骤5.2:将步骤3量化后的低维子矢量和步骤4得到的预测其他维度子矢量拼接后进行基于通道维进行平均池化得到权值向量。然后将权值向量通过两层全连接层和sigmoid激活函数,得到最终的权值向量;
步骤5.3:将步骤5.1和步骤5.2的权值向量与原始输入进行融合得到经过矢量融合模块的特征矢量。
步骤6:将步骤5得到的特征矢量通过语音重建模块还原出语音信号。
具体来说,将步骤5经过矢量融合模块得到特征矢量通过语音重建模块(如附图5所示)还原语音信号,此时特征矢量的组织方式是(批量大小,通道维,帧数)。其中,语音重建模块主要由2个一维因果卷积和4个解码模块构成,每个解码模块包含转置因果卷积和残差模块。残差模块包含不同膨胀率的残差单元层,膨胀率为(1,3,9),每个残差单元由一个一维膨胀卷积和一维因果卷积构成。每个解码模块中通道数不相同。经过解码模块后,得到的语音信号组织方式是(批量大小,1,时间维)。
步骤7:将步骤6生成的语音信号和原始的语音信号一起输入至基于波形和基于STFT的判别器,进行真假判别,在训练过程中使得生成器(即步骤1-步骤6构成的整体模型)更好地还原语音信号。
具体来说,判别器的主要作用是判别生成器的生成效果好坏,训练生成器用来更好地生成语音信号。判别器的输入是生成器的重建语音,通过预测重建语音的真实性,学习如何区分原始语音和重建语音,并将对重建语音的预测结果反馈给生成器,以一种对抗训练的方式相互竞争和写作。本发明中基于波形(如附图6所示)和基于STFT(如附图7所示)的判别器都是由卷积层构成。其中,基于波形的判别器采用的相同模型的多分辨率卷积。对于同一个模型有三个不同分别率的输入,分别对应于不同的下采样语音信号:原始的、2倍的下采样,和4倍下采样。基于波形的判别器中的每个分组判别器包括一个初始的普通卷积,然后是四层下采样层,每层下采样都是一维卷积,下采样后的结果将经过一层卷积得到特征图,再经过一层卷积得到最终预测结果,每个子判别器的输出都将包含在最终的预测结果中,判别器最终结果是从这三个尺度进行判别。其中,每个分组的大小为4,下采样系数为4,通道乘数为4,最大输出通道为1024。基于STFT的判别器,它在一个单一的尺度上运行,计算STFT的窗长为W=1024个样本,窗高H=256个样本。它包含2个二维卷积(卷积核大小7×7,32个通道)和一系列残差单元,每个残差单元包含两层二维卷积层,总共有6个残差单元。通道的数量随着网络深度的增加而逐渐增加。在最后一个残差单元的输出处、激活的形状为T/(H-23)×F/26,其中T是时域中的样本数,F=W/2是频率维的数目。最后一层通过卷积核为1×F/26的二维卷积将不同频率维的值进行聚合,以在下采样的时域中获得一维信号,表示该波形是重建语音还是真实语音。
本发明在1.5kbps下客观ViSQOL mos分达到3.481,可懂度STOI值达到0.883,超过Google现有端到端编码算法Lyra-v2 3。2kbps的客观ViSQOL mos分值3.31,可懂度STOI值0.856。
本发明还提供一种基于矢量预测与融合技术的端到端语音编码系统,包括如下单元:
特征提取单元,用于采用特征提取模块,从输入语音信号提取特征矢量;
特征矢量分裂单元,用于将得到的特征矢量分裂为维度相等的两个子矢量,分别为高维子矢量和低维子矢量;
量化编码单元,用于将得到的两个子矢量中的一个进行多级残差矢量量化,并对量化值进行编码;
矢量预测单元,用于解码和解量化,得到重建的低维或高维子矢量,将其送入矢量预测模块,预测得到高维或低维子矢量;
矢量融合单元,用于将重建的低维或高维子矢量和预测得到的高维或低维子矢量送入矢量融合模块,得到原始维度的特征矢量;
语音重建单元,用于将得到的特征矢量通过语音重建模块还原出语音信号。
各单元的具体实现方式与各步骤相同,本发明不予撰述。
以上所述,仅为本发明较佳的具体实施方式,但本发明保护的范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内所做的任何修改,等同替换和改进等,均应包含在发明的保护范围之内。

Claims (9)

1.基于矢量预测与融合技术的端到端语音编码方法,其特征在于,包括如下步骤:
步骤1,采用特征提取模块,从输入语音信号提取特征矢量;
步骤2,将步骤1所得到的特征矢量分裂为维度相等的两个子矢量,分别为高维子矢量和低维子矢量;
步骤3,将步骤2得到的两个子矢量中的一个进行多级残差矢量量化,并对量化值进行编码;
步骤4,解码和解量化,得到重建的低维或高维子矢量,将其送入矢量预测模块,预测得到高维或低维子矢量;
步骤5,将重建的低维或高维子矢量和预测得到的高维或低维子矢量送入矢量融合模块,得到原始维度的特征矢量;
步骤6,将步骤5得到的特征矢量通过语音重建模块还原出语音信号。
2.如权利要求1所述的基于矢量预测与融合技术的端到端语音编码方法,其特征在于:特征提取模块包括若干个一维因果卷积和编码模块,其中一维因果卷积用于学习特征,编码模块由一层一维因果卷积和残差块组成,残差块是由不同膨胀率的残差单元组成,残差单元由一个一维膨胀卷积和一维因果卷积构成。
3.如权利要求1所述的基于矢量预测与融合技术的端到端语音编码方法,其特征在于:矢量预测模块包括多个基于Transformer的多头注意力模块。
4.如权利要求1所述的基于矢量预测与融合技术的端到端语音编码方法,其特征在于:步骤5的具体实现方式如下;
步骤5.1,将步骤3量化后的子矢量和步骤4得到的预测子矢量拼接后进行基于时间维度的最大池化和平均池化,得到两个大小相等的权值向量,再将这两个权值向量按照时间维度进行拼接,利用一维卷积、Leaky ReLU激活函数,再经过一层一维卷积和sigmoid函数得到融合权值向量;
步骤5.2,将步骤3量化后的子矢量和步骤4得到的预测子矢量拼接后进行基于通道维进行平均池化得到权值向量,然后将权值向量通过两层全连接层和sigmoid激活函数,得到最终的权值向量;
步骤5.3,将步骤5.1和步骤5.2的权值向量与原始输入进行融合得到经过矢量融合模块的特征矢量。
5.如权利要求1所述的基于矢量预测与融合技术的端到端语音编码方法,其特征在于:语音重建模块由若干个一维因果卷积和解码模块构成,解码模块包含转置因果卷积和残差模块,残差模块包含不同膨胀率的残差单元层,残差单元由一个一维膨胀卷积和一维因果卷积构成,每个解码模块中通道数不相同。
6.如权利要求1所述的基于矢量预测与融合技术的端到端语音编码方法,其特征在于:还包括步骤7,将步骤6生成的语音信号和原始的语音信号一起输入至基于波形和基于STFT的判别器,进行真假判别,在训练过程中使得生成器更好地还原语音信号,所述生成器即步骤1-步骤6构成的整体模型。
7.如权利要求6所述的基于矢量预测与融合技术的端到端语音编码方法,其特征在于:基于波形的判别器首先对输入的语音信号进行下采样处理,分别得到不同的下采样语音信号:原始语音信号,2倍下采样语音信号,4倍下采样语音信号,然后对下采样语音信号分别进行如下处理:先经过普通卷积处理,然后是四层下采样层,每层下采样都是一维卷积,下采样后的结果将经过一层卷积得到特征图,再经过一层卷积得到最终预测结果。
8.如权利要求6所述的基于矢量预测与融合技术的端到端语音编码方法,其特征在于:基于STFT的判别器是在一个单一的尺度上运行,首先计算STFT的窗长为W和窗高H,判别器包含2个二维卷积和一系列残差单元,每个残差单元包含两层二维卷积层,总共有6个残差单元,在最后一个残差单元的输出处、激活的形状为T/(H-23)×F/26,其中T是时域中的样本数,F=W/2是频率维的数目,最后一层通过卷积核为1×F/26的二维卷积将不同频率维的值进行聚合,以在下采样的时域中获得一维信号,表示该波形是重建语音还是真实语音。
9.基于矢量预测与融合技术的端到端语音编码系统,其特征在于,包括如下单元:
特征提取单元,用于采用特征提取模块,从输入语音信号提取特征矢量;
特征矢量分裂单元,用于将得到的特征矢量分裂为维度相等的两个子矢量,分别为高维子矢量和低维子矢量;
量化编码单元,用于将得到的两个子矢量中的一个进行多级残差矢量量化,并对量化值进行编码;
矢量预测单元,用于解码和解量化,得到重建的低维或高维子矢量,将其送入矢量预测模块,预测得到高维或低维子矢量;
矢量融合单元,用于将重建的低维或高维子矢量和预测得到的高维或低维子矢量送入矢量融合模块,得到原始维度的特征矢量;
语音重建单元,用于将得到的特征矢量通过语音重建模块还原出语音信号。
CN202311563977.XA 2023-11-20 2023-11-20 基于矢量预测与融合技术的端到端语音编码方法和系统 Pending CN117672237A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311563977.XA CN117672237A (zh) 2023-11-20 2023-11-20 基于矢量预测与融合技术的端到端语音编码方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311563977.XA CN117672237A (zh) 2023-11-20 2023-11-20 基于矢量预测与融合技术的端到端语音编码方法和系统

Publications (1)

Publication Number Publication Date
CN117672237A true CN117672237A (zh) 2024-03-08

Family

ID=90072464

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311563977.XA Pending CN117672237A (zh) 2023-11-20 2023-11-20 基于矢量预测与融合技术的端到端语音编码方法和系统

Country Status (1)

Country Link
CN (1) CN117672237A (zh)

Similar Documents

Publication Publication Date Title
CN109410917B (zh) 基于改进型胶囊网络的语音数据分类方法
EP0802524B1 (en) Speech coder
Zhen et al. Cascaded cross-module residual learning towards lightweight end-to-end speech coding
CN101971253A (zh) 编码装置、解码装置以及其方法
CN111326168B (zh) 语音分离方法、装置、电子设备和存储介质
US11664037B2 (en) Methods of encoding and decoding speech signal using neural network model recognizing sound sources, and encoding and decoding apparatuses for performing the same
JPWO2008108078A1 (ja) 符号化装置および符号化方法
CN110473557B (zh) 一种基于深度自编码器的语音信号编解码方法
CN110491400B (zh) 一种基于深度自编码器的语音信号重建方法
CN101656077A (zh) 编码装置、编码方法以及通信终端和基站装置
CN107077857B (zh) 对线性预测系数量化的方法和装置及解量化的方法和装置
US20050114123A1 (en) Speech processing system and method
US8386249B2 (en) Compressing feature space transforms
Vignolo et al. Evolutionary cepstral coefficients
CN1312937A (zh) 掩蔽故障的方法和装置
US11488613B2 (en) Residual coding method of linear prediction coding coefficient based on collaborative quantization, and computing device for performing the method
CN117672237A (zh) 基于矢量预测与融合技术的端到端语音编码方法和系统
US20100049512A1 (en) Encoding device and encoding method
EP0871158B9 (en) System for speech coding using a multipulse excitation
KR20010024943A (ko) 고정 코드북의 최적 벡터의 빠른 결정 방법 및 장치
CN103366752A (zh) 生成用于编码信息信号的候选码矢的方法和设备
EP2116996A1 (en) Encoding device and encoding method
CN117546237A (zh) 解码器
Raj et al. Audio signal quality enhancement using multi-layered convolutional neural network based auto encoder–decoder
So Efficient block quantisation for image and speech coding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination