CN110473557A - 一种基于深度自编码器的语音信号编解码方法 - Google Patents

一种基于深度自编码器的语音信号编解码方法 Download PDF

Info

Publication number
CN110473557A
CN110473557A CN201910777131.3A CN201910777131A CN110473557A CN 110473557 A CN110473557 A CN 110473557A CN 201910777131 A CN201910777131 A CN 201910777131A CN 110473557 A CN110473557 A CN 110473557A
Authority
CN
China
Prior art keywords
depth
self
training
neural network
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910777131.3A
Other languages
English (en)
Other versions
CN110473557B (zh
Inventor
吴建锋
秦会斌
秦宏帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Shuren University
Original Assignee
HANGZHOU PAINIAO ELECTRONIC TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HANGZHOU PAINIAO ELECTRONIC TECHNOLOGY Co Ltd filed Critical HANGZHOU PAINIAO ELECTRONIC TECHNOLOGY Co Ltd
Priority to CN201910777131.3A priority Critical patent/CN110473557B/zh
Publication of CN110473557A publication Critical patent/CN110473557A/zh
Application granted granted Critical
Publication of CN110473557B publication Critical patent/CN110473557B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation

Abstract

本发明公开了一种基于深度自编码器的语音信号编解码方法,包括以下步骤:步骤S101:采用深度自编码器结构并对其进行神经网络训练得到深度编码器神经网络和深度解码器神经网络;步骤S102:将深度编码器神经网络输出给编码单元并以此进行编码操作得到编码数据,以及将深度解码器神经网络输出给解码单元并以此对接收到的编码数据进行解码操作得到解码数据。采用本发明的技术方案,能够使编码层的输出近似于0‑1布尔分布,从而能够减少量化误差,提高重建语音信号的质量。

Description

一种基于深度自编码器的语音信号编解码方法
技术领域
本发明涉及语音信号处理技术领域,尤其涉及一种基于深度自编码器的语音信号编解码方法。
背景技术
在语音信号传输技术中,编码端的语音编码技术以及解码端的语音信号重建是关键技术。现有技术中,语音编码通常采用基于码本的矢量量化技术,也即,在编码端和解码端都存储预先训练好的码本,语音编码和解码就是根据码本查找索引或者根据索引获取码子的过程。然而当适量的维度较高或者码本较大时,传统的矢量量化技术将无法进行。比如,对100维的数据进行20bit的量化,需要1048576个100维的码本,这种码本的训练几乎无法进行。通常采用分裂矢量量化或者多级矢量量化减少运算量,但这破坏了数据各维度之间的相关性,从而增加了量化误差。
随着深度神经网络的兴起,有众多学者研究将深度自编码器(Deep Auto-Encoder,DAE)应用于语音功率谱的量化编码,并取得优于传统矢量量化技术的效果。该方法直接将编码层的输出量化为0或1,从而实现编码层的二值化,然而编码层的输出分布在训练过程中是不确定的,当编码层的输出近似为0-1分布时,能够实现较好的量化效果,但当编码层的输出不是0-1分布时,就会导致很大的量化误差。因此,需要一种方法保证编码层的输出近似为0-1分布以提升量化性能。
故,针对现有技术的缺陷,实有必要提出一种技术方案以解决现有技术存在的技术问题。
发明内容
有鉴于此,确有必要提供一种基于深度自编码器的语音信号编解码方法,能够使编码层的输出近似于0-1布尔分布,从而能够减少量化误差,提高重建语音信号的质量。
为了解决现有技术存在的技术问题,本发明的技术方案如下:
一种基于深度自编码器的语音信号编解码方法,包括以下步骤:
步骤S101:采用深度自编码器结构并对其进行神经网络训练得到深度编码器神经网络和深度解码器神经网络;
步骤S102:将深度编码器神经网络输出给编码单元并以此进行编码操作得到编码数据,以及将深度解码器神经网络输出给解码单元并以此对接收到的编码数据进行解码操作得到解码数据;
其中,深度自编码器结构通过以下步骤训练:
步骤S201:获取训练数据;
步骤S202:采用训练数据训练第一个自编码器;
步骤S203:然后通过第一个自编码器的输出训练第二个自编码器,并依此逐层训练每一个自编码器;
步骤S204:完成所有自编码器训练后,展开级联成深度自编码器结构;
步骤S205:使用误差反向传播算法对经上述步骤预训练的深度神经网络进行调优训练使其输入和输出误差最小化;
其中,步骤S205采用两次调优训练,第一次调优训练中,前向传播时,在编码层的输入端加入特定分布的高斯噪声,高斯噪声的均值为0,方差σ2预先确定并在第一次调优训练中保持不变;
第二次调优训练中,前向传播时,将编码层的输出以四舍五入的方式强制二值化为‘0’或‘1’;反向传播中,仍然以浮点实数计算梯度。
作为进一步的改进方案,各层自编码器训练通过最小化下式(1)得到:
其中,n表示训练数据样本的个数,θ={W,b}和θ′={WT,b′}分别表示编码器和解码器的参数矩阵,θ*和θ′*表示优化后的参数矩阵;x(i)为自编码器的输入,z(i)=f′θ′(fθ(x(i)))为自编码器输出,E(x,z)为损失函数,采用如下公式(2);
N为向量维度,k为维度下标。
作为进一步的改进方案,训练得到深度自编码器神经网络后,便得到深度编码器神经网络和深度解码器神经网络,其中,fθ(x)表示深度编码器神经网络的映射函数,表征输入向量x到编码层表示向量y=fθ(x)之间的非线性映射关系,输出y作为编码数据;f′θ′(y)表示深度解码器神经网络的映射函数,表征编码层表示向量y到重建向量z=f′θ′(y)之间的非线性映射关系,输出z作为解码数据。
作为进一步的改进方案,语音信号解码包括如下步骤:
步骤S301:获取编码数据并将其输入解码单元;
步骤S302:解码单元通过深度解码器神经网络对编码数据进行处理并输出解码数据;
步骤S303:对解码数据进行反归一化;
步骤S304:对经步骤S103处理后的数据进行离散傅里叶逆变换;
步骤S305:对经步骤S104处理后的数据通过叠接相加得到重建的语音信号。
作为进一步的改进方案,语音信号编码包括如下步骤:
步骤S401:对原始语音信号进行分帧;
步骤S402:对分帧后的数据进行离散傅里叶变换;
步骤S403:对步骤S202处理的数据进行归一化;
步骤S404:将经归一化的数据输入编码单元;
步骤S405:编码单元通过深度编码器神经网络对经步骤S203归一化的数据进行处理得到编码数据。
作为进一步的改进方案,深度编码器神经网络和深度解码器神经网络采用级联多个自编码器形成深度自编码器结构。
作为进一步的改进方案,深度编码器神经网络采用8帧联合量化编码,深度解码器神经网络采用8帧联合量化解码。
作为进一步的改进方案,自编码器的个数为4。
作为进一步的改进方案,编码层的节点数量为288、144、72、36或18。
作为进一步的改进方案,高斯噪声的方差σ2为0.3。
与现有技术相比较,本发明采用两次调优训练,在第一次调优训练中,在编码层的输入端加入特定分布的高斯噪声,然后第二次调优训练中,将编码层的输出强制二值化,从而使经训练得到的深度自编码器神经网络的编码层输出近似于0-1布尔分布,经实验验证,重建后的信号在对数谱误差(LSD)、分段信噪比(SegSNR)和感知语音质量评分(PESQ)等语音评价参量都有大幅度的优化。
附图说明
图1为本发明中基于深度自编码器的语音信号编解码方法的流程框图。
图2为本发明中深度自编码器的训练流程图。
图3为本发明中自编码器的原理框图。
图4为本发明中语音信号解码的流程框图。
图5为本发明中语音信号编码的流程框图。
图6为本发明中基于深度自编码器的语音信号编解码系统的原理框图。
图7为本发明中语音幅度谱量化重建的原理框图。
如下具体实施例将结合上述附图进一步说明本发明。
具体实施方式
以下将结合附图对本发明提供的技术方案作进一步说明。
参见图1,所示为本发明提供的基于深度自编码器的语音信号编解码方法的流程框图,包括以下步骤:
步骤S101:采用深度自编码器结构并对其进行神经网络训练得到深度编码器神经网络和深度解码器神经网络;
步骤S102:将深度编码器神经网络输出给编码单元并以此进行编码操作得到编码数据,以及将深度解码器神经网络输出给解码单元并以此对接收到的编码数据进行解码操作得到解码数据;
参见图2,所示为本发明中深度自编码器结构的训练流程图,其通过以下步骤训练:
步骤S201:获取训练数据;
步骤S202:采用训练数据训练第一个自编码器;
步骤S203:然后通过第一个自编码器的输出训练第二个自编码器,并依此逐层训练每一个自编码器;
步骤S204:完成所有自编码器训练后,展开级联成深度自编码器结构;
步骤S205:使用误差反向传播算法对经上述步骤预训练的深度神经网络进行调优训练使其输入和输出误差最小化;
其中,步骤S205采用两次调优训练,第一次调优训练中,前向传播时,在编码层的输入端加入特定分布的高斯噪声,高斯噪声的均值为0,方差σ2预先确定并在第一次调优训练中保持不变;
第二次调优训练中,前向传播时,将编码层的输出以四舍五入的方式强制二值化为‘0’或‘1’;反向传播中,仍然以浮点实数计算梯度。
采用上述技术方案,本发明在调优训练中融入了两种二值化优化方法,第一种方法为在编码层的输入端加入特定分布的高斯噪声,从而使经训练得到的深度自编码器神经网络的编码层输出近似于0-1布尔分布。这是因为解码器网络对编码层的输出非常敏感,编码层的输出非常微小的变化就会导致解码器输出不同,而自编码器优化的目标是输出尽可能重构输入向量,故,解码器的输出是相对确定。当在编码层的输入端加入特定分布的高斯噪声,神经网络训练过程为了适应这种随机性,编码层输出会趋于0-1布尔分布,因为只有布尔分布下编码层输出受随机性影响最小,以确保解码器输出稳定。
第二种方法为前向传播时将编码层的输出强制二值化,但在反向传播时编码层仍以浮点实数计算梯度,在利用误差反向传播算法进行调优训练时,总是试图误差最小化,当在编码层的输出强制二值化这种机制下训练,编码层输出的浮点实数也将趋于0-1布尔分布,因为只有0-1布尔分布下才可以误差最小化。
申请人通过实验发现,第一次调优训练采用在编码层的输入端加入特定分布的高斯噪声,第二次调优训练在其基础上采用将编码层的输出强制二值化,这样训练后得到深度自编码器神经网络的性能最佳。
上述技术方案中,各层自编码器训练通过最小化下式(1)得到:
其中,n表示训练数据样本的个数,θ={W,b}和θ′={WT,b′}分别表示编码器和解码器的参数矩阵,θ*和θ′*表示优化后的参数矩阵;x(i)为自编码器的输入,z(i)=f′θ′(fθ(x(i)))为自编码器输出,E(x,z)为损失函数,采用如下公式(2);
N为向量维度,k为维度下标。
参见图3,所示为自编码器的结构框图,包括深度编码器神经网络和深度解码器神经网络两个非线性函数的组合。本发明中,深度编码器神经网络和深度解码器神经网络采用级联多个自编码器形成深度自编码器结构,本发明中,通过训练深度自编码器神经网络得到两个深度神经网络分别作为深度编码器神经网络和深度解码器神经网络。
其中,fθ(x)表示深度编码器神经网络的映射函数,表征输入向量x到编码层表示向量y=fθ(x)之间的非线性映射关系,输出y作为编码数据;f′θ′(y)表示深度解码器神经网络的映射函数,表征编码层表示向量y到重建向量z=f′θ′(y)之间的非线性映射关系,输出z作为解码数据。
参见图4,所示为本发明中语音信号解码的流程框图,包括以下步骤:
步骤S301:获取编码数据并将其输入解码单元;
步骤S302:解码单元通过深度解码器神经网络对编码数据进行处理并输出解码数据;
步骤S303:对解码数据进行反归一化;
步骤S304:对经步骤S303处理后的数据进行离散傅里叶逆变换;
步骤S305:对经步骤S304处理后的数据通过叠接相加得到重建的语音信号;
参见图5,所示为本发明中语音信号编码的流程框图,编码数据通过以下步骤得到:
步骤S401:对原始语音信号进行分帧;
步骤S402:对分帧后的数据进行离散傅里叶变换;
步骤S403:对步骤S402处理的数据进行归一化;
步骤S404:将经归一化的数据输入编码单元;
步骤S405:编码单元通过深度编码器神经网络对经步骤S203归一化的数据进行处理得到编码数据。
采用本发明上述方法,可以实现一种基于深度自编码器的语音信号编解码系统,参见图6,所示为基于深度自编码器的语音信号重建系统的原理框图,包括编码装置、解码装置和神经网络训练模块,其中,编码装置用于对输入语音信号进行编码并输出编码数据;解码装置用于获取编码数据并对其进行解码重建输出重建的语音信号。
编码装置进一步包括,分帧单元、DFT单元、归一化单元和编码单元,其中,分帧单元用于对语音信号在时域进行分帧;DFT单元用于对分帧后的数据进行离散傅里叶变换得到频域数据,比如转换为语音幅度谱或者对数功率谱;归一化单元用于对频域数据进行归一化以便于深度神经网络处理;编码单元用于获取预先训练好的深度编码器神经网络并通过深度编码器神经网络对经归一化的数据进行处理得到编码数据。
解码装置进一步包括解码单元、反归一化单元、IDFT单元和叠接相加单元,其中,解码单元用于获取预先训练好的深度解码器神经网络和编码数据并通过深度解码器神经网络对编码数据进行处理并输出解码数据;反归一化单元用于对解码数据反归一化;IDFT单元用于对反归一化后的数据进行离散傅里叶逆变换以恢复时域信号;叠接相加单元用于对时域信号进行叠接相加得到重建的语音信号。叠接相加单元、IDFT单元、反归一化单元分别是分帧单元、DFT单元、归一化单元的逆过程,这些都是现有技术语音信号处理常用的技术手段。
本发明采用深度自编码器结构,通过神经网络训练模块训练后分别获取深度编码器神经网络和深度解码器神经网络。神经网络训练模块用于通过训练数据对深度自编码器进行神经网络训练,得到深度编码器神经网络和深度解码器神经网络,分别输出给编码单元和解码单元中。具体训练过程参见上述步骤201至步骤205。
上述技术方案中,本发明采用了一种新的训练方法训练深度自编码器,从而使得到深度自编码器神经网络的编码层输出近似于0-1布尔分布,从而能够减少量化误差,提高重建语音信号的质量。深度自编码器神经网络的训练方法参见上述步骤201至步骤205。
以下通过实验验证本发明的技术效果。参见图7,所示为本发明语音幅度谱量化重建的原理框图,原始语音信号在时域进行分帧并通过离散傅里叶变化变换到频域,然后再对对数功率谱进行归一化后输入到预先训练好的深度编码器神经网络;然后通过预先训练好的深度解码器神经网络解码得到重建的对数功率谱,并通过反归一化和傅里叶反变换得到时域信号,再通过重叠相加合成出重建的语音信号。
具体采用TIMIT数据库对深度神经网络进行训练和测试。其中,采用训练集中大约30小时的语音数据作为训练数据;测试集中大约30分钟的语音分别作为验证数据和测试数据。所有语音数据采样频率是8kHz,采用汉明窗进行分帧,帧长为240点,帧移为120点(50%重叠),通过短时傅里叶分析计算每一帧的DFT。因此,每一帧提取121维对数功率谱(因为频谱的对称性)用于深度自编码器的训练。通过本发明上述步骤对深度自编码器进行训练。
在一种优选实施方式中,将数据集中每100个样本分为一个小批量(mini-batches),在预训练中,每个栈式自编码器的训练轮次为20,第一个自编码器的学习率为0.002,其他自编码器的学习率为0.05;在调优训练,初始学习率为0.002,当两轮之间的误差下降低于0.05%时,学习率以0.9的系数递减。动量参量初始化为0.5,并在15轮以后增加到0.9;当连续轮次之间的验证误差下降到0.01%以下,则调优训练结束。
深度自编码器可以采用多帧联合量化的方式进行训练,在一种优选实施方式中,采用8帧语音谱构建输入向量,由此,输入向量的维度为968(121*8)。
在一种优选实施方式中,深度自编码器的结构为968-2000-1000-500-288-500-1000-2000-968,采用4级对称结构,其中,编码层的节点数量为288。
为了验证深度自编码器的输出性能,本发明采用对数谱距离(log-spectraldistortion,LSD,单位为dB)评价编码误差,采用分段信噪比(segmental signal to noiseratio,SegSNR,单位为dB)和感知语音质量评分(perceptual evaluation of speechquality,PESQ)评价重建后的语音质量。
首先,本申请尝试了各种二值化优化方法,具体参见下表1所示。
表1各种二值化方法性能指标对比
上表1中,二值化方法这栏中,“None”表示采用传统方式训练深度神经网络(不采用任何二值化方法),“Binary”表示编码层输出强制二值化,“Add-Noise”表示在编码层输入增加特定分布的高斯噪声,其中,高斯噪声的均值为0,方差为0.3,该值是通过交叉校验实验得到。
在编码层这栏中,“Binary”表示在测试中将编码层的输出通过阈值‘0.5’量化为‘0’或‘1’,“Real”表示编码层直接以浮点实数输出。由表1的实验结果显示,相对于现有技术(“None”),采用本发明任何一种二值化方法,杜能极大改进了二值化编码的性能。其中,LSD从29.03dB下降到8.98dB,SegSNR从-9.03dB上升到-4.90dB,PESQ从1.16上升到2.90。表1中还给出了编码层输出为浮点实数的测试数据,表1显示在编码层输出为浮点实数时,采用二值化方法后的性能相对现有技术反而下降,这是因为本发明的目的是降低“二值化”编码误差,在实际语音编码数据的传输都是采用二值化编码,因此,而浮点实数的编码误差并不是我们所关心的。
为了进一步提升二值化编码的性能,本发明尝试将各种二值化相结合,表2给出了采用不同二值化方法进行两次调优训练的实验结果,其中,“None&Add-Noise”表示第一次不采用二值化方法进行调优训练,然后第二次采用“在编码层输入增加特定分布的高斯噪声”方法进行调优训练,“Add-Noise&Binary”表示以此类推。“在编码层输入增加特定分布的高斯噪声”方法中,方差σ设置为0.3。从表2可以看出,第一次调优训练采用“在编码层输入增加特定分布的高斯噪声”方法,然后第二次调优训练采用“编码层输出强制二值化”方法,能够获得最佳的二值化编码性能。其中,LSD为5.91dB,SegSNR为6.44dB,PESQ为3.17,均为最优值。在多种二值化方法结合调优训练中,第一次调优训练作为第二次调优训练的初始化,在其基础上进行第二次训练,从而取得更佳的性能。比如,在表1中,仅采用“编码层输出强制二值化”方法,其PESQ评分为2.69,然而,采用“在编码层输入增加特定分布的高斯噪声”方法作为初始化之后,如表2所示,“Add-Noise&Binary”方法的PESQ得分达到3.17,性能上获得了极大的提升。
表2不同二值化方法结合的实验数据
为了进一步验证本发明的技术效果,在语音幅度谱量化实验时,我们训练深度自编码器神经网络使其编码层的节点数量更少。深度自编码器的结构为968-2000-1000-500-xxx-500-1000-2000-968,其中,xxx为编码层的节点数量,为288、144、72、36或18。也就是说,将968维度的浮点输入向量分别矢量量化为288、144、72、36或18维二值向量。同样,我们利用本发明的技术方案降低二值化编码误差,实验数据参见表2所示,采用发明的技术方案能够显著提高编码性能。由表2可以看出,随着编码位数的下降,编码误差逐渐增加,当编码层节点从288下降到18时,LSD从5.91dB增加到8.92dB,SegSNR从6.44dB下降到2.9dB,PESQ从3.17下降到2.09。同样,从表3可以看出,采用本发明的技术方案,能够将,968维度的语音谱能用18位二进制编码量化表示并且重建语音的PESQ评分能够达到2.09。虽然重建后语音存在很多干扰,大体上还是可以听懂的。而采用传统VQ量化技术,是不可能将968维向量压缩为18位编码。
表3本发明不同数量编码层的实验结果
综上所述,采用本发明的技术方案,能够极大改进编码性能,编码误差显著下降;同时,能够将968维度的语音谱用18位编码量化,并且重建语音还能大致可听懂。
需要指出的是,本发明提及的编码器和解码器可以理解为编码器神经网络和解码器神经网络;自编码器是现有技术常用的一种深度神经网络结构。
以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于深度自编码器的语音信号编解码方法,其特征在于,包括以下步骤:
步骤S101:采用深度自编码器结构并对其进行神经网络训练得到深度编码器神经网络和深度解码器神经网络;
步骤S102:将深度编码器神经网络输出给编码单元并以此进行编码操作得到编码数据,以及将深度解码器神经网络输出给解码单元并以此对接收到的编码数据进行解码操作得到解码数据;
其中,深度自编码器结构通过以下步骤训练:
步骤S201:获取训练数据;
步骤S202:采用训练数据训练第一个自编码器;
步骤S203:然后通过第一个自编码器的输出训练第二个自编码器,并依此逐层训练每一个自编码器;
步骤S204:完成所有自编码器训练后,展开级联成深度自编码器结构;
步骤S205:使用误差反向传播算法对经上述步骤预训练的深度神经网络进行调优训练使其输入和输出误差最小化;
其中,步骤S205采用两次调优训练,第一次调优训练中,前向传播时,在编码层的输入端加入特定分布的高斯噪声,高斯噪声的均值为0,方差σ2预先确定并在第一次调优训练中保持不变;
第二次调优训练中,前向传播时,将编码层的输出以四舍五入的方式强制二值化为‘0’或‘1’;反向传播中,仍然以浮点实数计算梯度。
2.根据权利要求1所述的基于深度自编码器的语音信号编解码方法,其特征在于,各层自编码器训练通过最小化下式(1)得到:
其中,n表示训练数据样本的个数,θ={W,b}和θ′={WT,b′}分别表示编码器和解码器的参数矩阵,θ*和θ′*表示优化后的参数矩阵;x(i)为自编码器的输入,z(i)=f′θ′(fθ(x(i)))为自编码器输出,E(x,z)为损失函数,采用如下公式(2);
N为向量维度,k为维度下标。
3.根据权利要求2所述的基于深度自编码器的语音信号编解码方法,其特征在于,训练得到深度自编码器神经网络后,便得到深度编码器神经网络和深度解码器神经网络,其中,fθ(x)表示深度编码器神经网络的映射函数,表征输入向量x到编码层表示向量y=fθ(x)之间的非线性映射关系,输出y作为编码数据;f′θ′(y)表示深度解码器神经网络的映射函数,表征编码层表示向量y到重建向量z=f′θ′(y)之间的非线性映射关系,输出z作为解码数据。
4.根据权利要求3所述的基于深度自编码器的语音信号编解码方法,其特征在于,语音信号解码包括如下步骤:
步骤S301:获取编码数据并将其输入解码单元;
步骤S302:解码单元通过深度解码器神经网络对编码数据进行处理并输出解码数据;
步骤S303:对解码数据进行反归一化;
步骤S304:对经步骤S103处理后的数据进行离散傅里叶逆变换;
步骤S305:对经步骤S104处理后的数据通过叠接相加得到重建的语音信号。
5.根据权利要求3所述的基于深度自编码器的语音信号编解码方法,其特征在于,语音信号编码包括如下步骤:
步骤S401:对原始语音信号进行分帧;
步骤S402:对分帧后的数据进行离散傅里叶变换;
步骤S403:对步骤S202处理的数据进行归一化;
步骤S404:将经归一化的数据输入编码单元;
步骤S405:编码单元通过深度编码器神经网络对经步骤S203归一化的数据进行处理得到编码数据。
6.根据权利要求3所述的基于深度自编码器的语音信号编解码方法,其特征在于,深度编码器神经网络和深度解码器神经网络采用级联多个自编码器形成深度自编码器结构。
7.根据权利要求3所述的基于深度自编码器的语音信号编解码方法,其特征在于,深度编码器神经网络采用8帧联合量化编码,深度解码器神经网络采用8帧联合量化解码。
8.根据权利要求3所述的基于深度自编码器的语音信号编解码方法,其特征在于,自编码器的个数为4。
9.根据权利要求3所述的基于深度自编码器的语音信号编解码方法,其特征在于,编码层的节点数量为288、144、72、36或18。
10.根据权利要求1所述的基于深度自编码器的语音信号编解码方法,其特征在于,高斯噪声的方差σ2为0.3。
CN201910777131.3A 2019-08-22 2019-08-22 一种基于深度自编码器的语音信号编解码方法 Active CN110473557B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910777131.3A CN110473557B (zh) 2019-08-22 2019-08-22 一种基于深度自编码器的语音信号编解码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910777131.3A CN110473557B (zh) 2019-08-22 2019-08-22 一种基于深度自编码器的语音信号编解码方法

Publications (2)

Publication Number Publication Date
CN110473557A true CN110473557A (zh) 2019-11-19
CN110473557B CN110473557B (zh) 2021-05-28

Family

ID=68513621

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910777131.3A Active CN110473557B (zh) 2019-08-22 2019-08-22 一种基于深度自编码器的语音信号编解码方法

Country Status (1)

Country Link
CN (1) CN110473557B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797916A (zh) * 2020-06-30 2020-10-20 东华大学 一种恒星光谱分类方法
CN112115922A (zh) * 2020-09-27 2020-12-22 天津工业大学 一种增强深度特征学习的旋转机械故障诊断方法
CN112331230A (zh) * 2020-11-17 2021-02-05 平安科技(深圳)有限公司 一种欺诈行为识别方法、装置、计算机设备及存储介质
CN113642709A (zh) * 2021-08-16 2021-11-12 扬州大学 一种基于自编码器的数据重建方法
CN113794536A (zh) * 2021-09-15 2021-12-14 苏州米特希赛尔人工智能有限公司 人工智能信道编解码方法与装置

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105070293A (zh) * 2015-08-31 2015-11-18 武汉大学 基于深度神经网络的音频带宽扩展编码解码方法及装置
CN106203624A (zh) * 2016-06-23 2016-12-07 上海交通大学 基于深度神经网络的矢量量化系统及方法
US20170076719A1 (en) * 2015-09-10 2017-03-16 Samsung Electronics Co., Ltd. Apparatus and method for generating acoustic model, and apparatus and method for speech recognition
CN106782511A (zh) * 2016-12-22 2017-05-31 太原理工大学 修正线性深度自编码网络语音识别方法
JP2017151230A (ja) * 2016-02-23 2017-08-31 国立大学法人豊橋技術科学大学 音声変換装置および音声変換方法ならびに計算機プログラム
CN108171283A (zh) * 2017-12-31 2018-06-15 厦门大学 一种基于结构化语义嵌入的图像内容自动描述方法
CN108922559A (zh) * 2018-07-06 2018-11-30 华南理工大学 基于语音时频变换特征和整数线性规划的录音终端聚类方法
CN109346063A (zh) * 2018-10-12 2019-02-15 电子科技大学 一种语音数据增强方法
CN109545227A (zh) * 2018-04-28 2019-03-29 华中师范大学 基于深度自编码网络的说话人性别自动识别方法及系统
CN109559329A (zh) * 2018-11-28 2019-04-02 陕西师范大学 一种基于深度去噪自动编码器的粒子滤波跟踪方法
JP2019078864A (ja) * 2017-10-24 2019-05-23 日本電信電話株式会社 楽音強調装置、畳み込みオートエンコーダ学習装置、楽音強調方法、プログラム
CN109800677A (zh) * 2018-12-29 2019-05-24 西安交通大学 一种跨平台掌纹识别方法
EP3502973A1 (en) * 2017-12-19 2019-06-26 InterDigital CE Patent Holdings Neural network and method for training the neural network, corresponding computer program products and devices
WO2019138897A1 (ja) * 2018-01-10 2019-07-18 ソニー株式会社 学習装置および方法、並びにプログラム
CN110033101A (zh) * 2019-03-07 2019-07-19 华中科技大学 基于融合特征的知识图谱的水电机组故障诊断方法和系统

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105070293A (zh) * 2015-08-31 2015-11-18 武汉大学 基于深度神经网络的音频带宽扩展编码解码方法及装置
US20170076719A1 (en) * 2015-09-10 2017-03-16 Samsung Electronics Co., Ltd. Apparatus and method for generating acoustic model, and apparatus and method for speech recognition
JP2017151230A (ja) * 2016-02-23 2017-08-31 国立大学法人豊橋技術科学大学 音声変換装置および音声変換方法ならびに計算機プログラム
CN106203624A (zh) * 2016-06-23 2016-12-07 上海交通大学 基于深度神经网络的矢量量化系统及方法
CN106782511A (zh) * 2016-12-22 2017-05-31 太原理工大学 修正线性深度自编码网络语音识别方法
JP2019078864A (ja) * 2017-10-24 2019-05-23 日本電信電話株式会社 楽音強調装置、畳み込みオートエンコーダ学習装置、楽音強調方法、プログラム
EP3502973A1 (en) * 2017-12-19 2019-06-26 InterDigital CE Patent Holdings Neural network and method for training the neural network, corresponding computer program products and devices
CN108171283A (zh) * 2017-12-31 2018-06-15 厦门大学 一种基于结构化语义嵌入的图像内容自动描述方法
WO2019138897A1 (ja) * 2018-01-10 2019-07-18 ソニー株式会社 学習装置および方法、並びにプログラム
CN109545227A (zh) * 2018-04-28 2019-03-29 华中师范大学 基于深度自编码网络的说话人性别自动识别方法及系统
CN108922559A (zh) * 2018-07-06 2018-11-30 华南理工大学 基于语音时频变换特征和整数线性规划的录音终端聚类方法
CN109346063A (zh) * 2018-10-12 2019-02-15 电子科技大学 一种语音数据增强方法
CN109559329A (zh) * 2018-11-28 2019-04-02 陕西师范大学 一种基于深度去噪自动编码器的粒子滤波跟踪方法
CN109800677A (zh) * 2018-12-29 2019-05-24 西安交通大学 一种跨平台掌纹识别方法
CN110033101A (zh) * 2019-03-07 2019-07-19 华中科技大学 基于融合特征的知识图谱的水电机组故障诊断方法和系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HUANG GUOJIE: ""Enhacned variational Auto-encoder for voice Conversion using Non-parallel corpora"", 《ICSP》 *
JIANFENG WU ET AL: ""Vector Quantization of High-Dimensional Speech Spectra Using Deep Neural Network"", 《IEICE TRANS》 *
JU ZHOU: "" a hybrid learning model based on auto-encoder"", 《ICIEA》 *
李涛: ""深度神经网络的语音深度特征提取方法"", 《声学技术》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797916A (zh) * 2020-06-30 2020-10-20 东华大学 一种恒星光谱分类方法
CN112115922A (zh) * 2020-09-27 2020-12-22 天津工业大学 一种增强深度特征学习的旋转机械故障诊断方法
CN112331230A (zh) * 2020-11-17 2021-02-05 平安科技(深圳)有限公司 一种欺诈行为识别方法、装置、计算机设备及存储介质
CN113642709A (zh) * 2021-08-16 2021-11-12 扬州大学 一种基于自编码器的数据重建方法
CN113642709B (zh) * 2021-08-16 2023-11-10 扬州大学 一种基于自编码器的数据重建方法
CN113794536A (zh) * 2021-09-15 2021-12-14 苏州米特希赛尔人工智能有限公司 人工智能信道编解码方法与装置
CN113794536B (zh) * 2021-09-15 2024-02-23 苏州米特希赛尔人工智能有限公司 人工智能信道编解码方法与装置

Also Published As

Publication number Publication date
CN110473557B (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
CN110473557A (zh) 一种基于深度自编码器的语音信号编解码方法
CN110491400A (zh) 一种基于深度自编码器的语音信号重建方法
US9171550B2 (en) Context-based arithmetic encoding apparatus and method and context-based arithmetic decoding apparatus and method
Skoglund et al. Improving Opus low bit rate quality with neural speech synthesis
CN101925950A (zh) 音频编码器和解码器
CN111339278A (zh) 训练话术生成模型、生成应答话术的方法和装置
CN103081006B (zh) 处理音频信号的方法和设备
CN102714040A (zh) 编码装置、解码装置、频谱变动量计算方法和频谱振幅调整方法
CN111028824A (zh) 一种用于闽南语的合成方法及其装置
Wu et al. Fully vector-quantized neural network-based code-excited nonlinear predictive speech coding
JP3590071B2 (ja) 音声の効率的な符号化のためのスペクトルパラメータの予測分割マトリックス量子化
CN111724809A (zh) 一种基于变分自编码器的声码器实现方法及装置
US7050969B2 (en) Distributed speech recognition with codec parameters
CN107464569A (zh) 声码器
Chou et al. Variable dimension vector quantization of linear predictive coefficients of speech
Lu et al. Improving Children's Speech Recognition by Fine-tuning Self-supervised Adult Speech Representations
CN103854655A (zh) 一种低码率语音编码器以及解码器
CN102598124B (zh) 编码装置、解码装置及其方法
CN111243608A (zh) 一种基于深度自编码机低速率语音编码方法
Lee et al. KLT-based adaptive entropy-constrained quantization with universal arithmetic coding
Mohammadi et al. Low cost vector quantization methods for spectral coding in low rate speech coders
CN117292694B (zh) 基于时不变编码的少令牌神经语音编解码方法和系统
Lee et al. Entropy coding of compressed feature parameters for distributed speech recognition
KR960015861B1 (ko) 선 스펙트럼 주파수 벡터의 양자화 방법 및 양자화기
Ali et al. Low bit-rate speech codec based on a long-term harmonic plus noise model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210508

Address after: 312028 No. 2016 Jiangxia Road, Yang Xun Qiao, Keqiao District, Shaoxing, Zhejiang.

Applicant after: ZHEJIANG SHUREN College (ZHEJIANG SHUREN University)

Address before: Room 137, building 2, Hangdian business park, Xiasha Higher Education Park, Hangzhou City, Zhejiang Province, 310018

Applicant before: HANGZHOU PIONEER ELECTRONIC TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant