一种移动网络环境下的环绕声误码修复方法
技术领域
本发明涉及一种环绕声误码修复方法,特别涉及一种移动网络环境下的环绕声误码修复方法,属于音频误码修复方法技术领域。
背景技术
移动互联网的高速发展带动了娱乐和社交的快速发展,音频信号作为是最便捷最快速的交互方式,需求量与日俱增,应用越来越广泛。和传统的有线电路传输不同,各种音频信号在移动网络传输过程中由于抖动和延迟,不可避免的会发生数据包错误和丢失的情况,这严重影响用户的感知体验。为了降低丢包率,现有技术有的会在音频接收端设置一个抖动缓冲区,一定程度上保证接收音频数据包的连续性,减少丢包,但如果缓冲区过大,会造成巨大的音频数据延迟,缓冲区可以降低丢包率,但是不能解决丢包发生后的质量损伤问题。为了很好的解决音频数据包丢失问题,设计一个良好的丢包误码修复方法,对丢失的音频数据进行高质量的重构,具有非常大的应用价值。
随着人们生活水平的大幅提高和硬件的迅猛发展,人们对移动互联网的音频服务追求越来越高,看视频、在线听歌、看视频、看电影或关注音视频微博等也成了人们日常生活中不可缺少的一部分。环绕声音频可以提供良好的空间感受,更接近自然音频,所以现有的流媒体服务,包括歌曲、影视中的音频,很多都采取环绕声格式,空间感强、更自然生动的环绕声音频在移动音频服务领域所占的比重越来越大。然而由于移动网络的复杂性和不稳定性,使得环绕声音频在移动网络传输过程中不可避免的会产生误码和丢帧,这将会使得环绕声音频质量明显下降,严重影响用户的感知体验。为了降低环绕声音频在移动网络传输过程中丢包或误码带来的质量损伤,设计一个良好稳定的移动网络环境下的环绕声误码修复方法十分必要。
早期的音频误码修复方法将丢失的音频数据全部置为0、逐渐衰减到0或者重复上一帧的数据。在过去的二十年里,现在这些算法通过一系列的音频编码标准得到了一定的提升,包括利用基音周期进行音频波形复制,利用重叠相加进行音频数据插值。虽然这些基于波形的修复方法很容易实现,但是它们会导致音频相位不匹配,高误码率下严重影响音频质量。现有技术也出现了基于线性预测和高阶自回归模型的音频误码修复算法,利用基音周期复制上一帧激励信号作为当前帧的激励信号,或者利用最小均方差对丢失的音频数据进行递归预测,但是现有技术这些方法由于重构的激励信号会用于重构下一帧丢失的信号,会产生令人厌烦的感知严重失真。现有技术的音频误码修复方法大都针对单声道音频,而对于多声道和立体声音频的误码隐藏技术的研究相对较少,虽然现有技术个别方法同时考虑到了声道内数据和声道间的数据,但是在实际运行中,同一时刻声道内和声道间数据只有一个起作用,并没有充分考虑到声道内和声道间音频数据在误码恢复时的协同作用,音频误码恢复性能不佳。
综合来看,现有技术主要存在以下缺陷:一是现有技术基于波形的修复方法音频相位不匹配,高误码率下严重影响音频质量;二是现有技术基于线性预测和高阶自回归模型的音频误码修复算法,利用基音周期复制上一帧激励信号作为当前帧的激励信号,或者利用最小均方差对丢失的音频数据进行递归预测,由于重构的激励信号会用于重构下一帧丢失的信号,会产生令人厌烦的感知严重失真;三是现有技术的音频误码修复方法大都针对单声道音频,而对于多声道和立体声音频的误码隐藏技术的研究相对较少,这些方法适用于环绕声误码修复几乎没有修复效果,甚至起到更坏的作用,完全达不到环绕声误码修复的目的;四是为了降低丢包率,现有技术有的会在音频接收端设置一个抖动缓冲区,一定程度上保证接收音频数据包的连续性,减少丢包,但如果缓冲区过大,会造成巨大的音频数据延迟,也不能解决丢包发生后的音频质量损伤问题;五是现有误码修复方法利用声道间相关性或声道内相关性进行预测,但是并没有考虑声道间和声道内预测的相互关系,不能充分利用丢失数据和其相邻帧之间的复杂的非线性关系,误码修复效果不够理想,丢失了环绕声空间感强、更自然生动的优势。
发明内容:
针对现有技术的不足,本发明提供的一种移动网络环境下的环绕声误码修复方法,利用基于深度学习的神经网络去学习丢失帧和其相邻帧数据之间的非线性关系,运用能够表征人耳非线性感知特性的对数功率谱作为特征,采用栈式自编码模型算法,首先进行贪婪式逐层无监督预训练进行初始化,避免陷入局部最优解的麻烦,然后利用有监督学习调优使得丢失数据的预测更精确。由于人耳系统只对声音的幅度谱敏感,对声音的相位谱不敏感,为降低环绕声的复杂度,利用上一帧相位谱作为谱估计,最后利用相位谱和对数功率谱重构出丢失信号的频域表示,进行离散傅里叶逆变换变化获得当前丢失信号的时域精准估计,实验最终结果表明,环绕声误码修复方法的平均误差下降了大约25%,并且对语音和音乐音频均有很好的效果,修复后的环绕声音频质量很高,充分保留了环绕声空间感强、更自然生动的优势,延时少、实用性好。
为达到以上技术效果,本发明所采用的技术方案如下:
一种移动网络环境下的环绕声误码修复方法,包括两个阶段:深度学习训练和神经网络误码修复,深度学习训练包括训练特征提取和训练基于深度学习的神经网络两个部分,神经网络误码修复包括修复特征提取、神经网络误码解算、波形修复重建三个部分,具体步骤为:
第一步,训练特征提取;
第二步,训练基于深度学习的神经网络;
第三步,修复特征提取;
第四步,神经网络误码解算;
第五步,波形修复重建;
其中,第四步,神经网络误码解算将经过修复特征提取的待修复环绕声音频的对数功率谱转化为幅度谱,导入训练好的基于深度学习的神经网络中,根据幅度谱和相位谱进行离散傅里叶逆变换得到当前帧副声道信号的时域表示,相位谱用上一帧的相位谱进行替代,提供波形修复重建所需要的全部数据。
一种移动网络环境下的环绕声误码修复方法,进一步的,深度学习训练和神经网络误码修复两个阶段的共同部分是环绕声音频数据的特征提取,本发明环绕声音频数据特征选取对数功率谱,在深度学习训练阶段,提取当前帧和其前面相邻B帧的主声道和副声道数据的对数功率谱作为训练样本,利用基于深度学习的神经网络,学习当前主声道数据和前B帧主声道、副声道数据与当前副声道数据之间的非线性关系,利用基于深度学习的神经网络的深度结构及其非线性模拟能力,学习当前帧副声道数据和其前B帧数据之间的复杂的相互作用关系,在神经网络误码修复阶段,利用训练好的基于深度学习的神经网络,和当前帧主声道、前B帧主声道和副声道的对数功率谱估计出当前帧副声道数据的对数功率谱估计,相位谱采用上一帧的相位谱进行替代,最后利用相位谱和对数功率谱重构出丢失信号的频域表示,进行离散傅里叶逆变换变化获得当前丢失信号的时域精准估计。
一种移动网络环境下的环绕声误码修复方法,进一步的,第一步,训练特征提取中,将音频信号进行离散傅立叶变换,离散傅立叶变换域的对数功率谱作为训练特征;
对数功率谱的计算过程如下,其中a(b)是音频信号的时域表示,首先对时域信号进行加窗,然后进行离散傅立叶变换得到频域表示A(k),根据A(k),分别提取信号的幅度谱‖A(k)‖和相位谱,对幅度谱的平方取对数,得到对数功率谱C(k),j是虚数单位,D表示帧长,E=D/2,
C(k)=log||A(k)||2,k=0,1,…,E-1
所得到的C(k)即为对数功率谱。
一种移动网络环境下的环绕声误码修复方法,进一步的,第二步,训练基于深度学习的神经网络中,根据当前帧的前B个好帧以及当前帧的主声道数据预测当前帧的副声道数据,采取训练特征提取中的特征选取方式,提取当前帧前B帧主声道和副声道的对数功率谱和当前帧的主声道的对数功率谱作为输入,提取正确的当前帧副声道的对数功率谱作为目标,进行基于深度学习的神经网络模型的训练,采取的基于深度学习的神经网络结构是栈式自编码模型,栈式自编码模型由多个稀疏自编码器叠加而成,栈式自编码模型的网络结构建立包括两个步骤:步骤一为贪婪式逐层无监督预训练进行初始化,步骤二为有监督训练调优。
一种移动网络环境下的环绕声误码修复方法,进一步的,贪婪式逐层无监督预训练包括第一自编码器和第二自编码器,第一自编码器为栈式自编码模型网络结构中的第一个自编码器,F是输入特征,输入特征F是将前B帧的主声道和副声道数据顺序连接起来,
F={E-B(0),E-B(1),…,J-B(0),J-B(1),…,E0(0),E0(1),…E0(D-1)}
其中E-B是前第B帧的主声道数据,J-B是前第B帧的副声道数据,D是帧长,第一自编码器的输出是输入特征的估计值,看作是输入特征的一阶特征,采用S型生长曲线函数连接输入层和隐藏层以及隐藏层和输出层,采用反向传播算法训练自编码网络的权重;
第二自编码器是为栈式自编码模型网络结构中的第一个自编码器,它的输入特征是第一个自编码器的隐藏层,隐藏层是该输入的一阶特征,看作是输入F的二阶特征,各层之间通过S型生长曲线函数进行连接,采用反向传播算法训练网络的权重,如果栈式自编码模型包含更多层的自编码器,则依次将上一个自编码器的隐藏层作为下一个编码器的输入层,重复上述训练过程,最后一个自编码器之后叠加一个线性层,用于输出所需要的结果,线性层也采用型生长曲线函数连接,构成完整栈式自编码模型网络结构,最后一层是一个有监督层;
栈式自编码模型的层次结构使其学习到输入特征的高阶特征,采用逐层训练的过程中,训练每一层的参数时,上一层的参数保持固定不变,经过无监督训练之后,整个网络的权重都有一个固定值。
一种移动网络环境下的环绕声误码修复方法,进一步的,有监督学习调优中,采用基于栈式自编码模型对当前帧副声道功率谱的估计和当前帧副声道的实际对数功率谱的最小均方差准则进行有监督学习调优;
采用基于最小批量模式的梯度下降优化算法,如下式所示:
G表示对数功率谱的最小均方差,N表示最小批量的大小,D为最大频率,
是第n帧频率为d时的对数功率谱目标,
是目标对数功率谱的估计值,M
(l)和q
(l)是网络中第l层需要学习的权重和偏差;
利用反向传播算法对整个网络中的权重和偏差进行更新,如下式所示,s是学习速率,隐藏层的数量为nl,l=nl+1表示输出层,
一种移动网络环境下的环绕声误码修复方法,进一步的,第三步,修复特征提取将音频信号进行离散傅立叶变换,选取音频的对数功率谱作为修复特征;
其中a(b)是音频信号的时域表示,一是对时域信号进行加窗,二是进行离散傅立叶变换得到频域表示A(k),三是根据A(k),分别提取信号的幅度谱‖A(k)‖和相位谱,对幅度谱的平方取对数,得到对数功率谱C(k),j是虚数单位,D表示帧长,E=D/2,
C(k)=log||A(k)||2,k=0,1,…,E-1
所得到的C(k)即为对数功率谱。
一种移动网络环境下的环绕声误码修复方法,进一步的,第五步,波形修复重建包括两个部分:幅度谱和相位谱,下式中j是虚数单位,D表示帧长,E=D/2,
表示当前帧副声道的对数功率谱估计,∠V是当前帧副声道的相位谱估计,用
表示当前帧副声道数据的幅度谱,根据幅度谱和相位谱进行离散傅里叶逆变换得到当前帧副声道信号的时域表示
最后再和上一帧的副声道信号进行重叠相加,最后得到当前帧副声道估计:
幅度谱由对数功率谱转化得到,利用训练好的基于深度学习的神经网络、当前帧主声道的对数功率谱和前B帧的主声道和副声道的对数功率谱获得一个当前帧副声道的对数功率谱估计,相位谱用上一帧的相位谱进行替代,最后利用相位谱和对数功率谱重构出丢失信号的频域表示,进行离散傅里叶逆变换变化获得当前丢失信号的精准修复重构。
与现有技术相比,本发明的优点在于:
1.本发明提供的一种移动网络环境下的环绕声误码修复方法,利用基于深度学习的神经网络去学习丢失帧和其相邻帧数据之间的非线性关系,运用能够表征人耳非线性感知特性的对数功率谱作为特征,采用栈式自编码模型算法,首先进行贪婪式逐层无监督预训练进行初始化,避免陷入局部最优解的麻烦,然后利用有监督学习调优使得丢失数据的预测更精确。由于人耳系统只对声音的幅度谱敏感,对声音的相位谱不敏感,为降低环绕声的复杂度,利用上一帧相位谱作为谱估计,最后利用相位谱和对数功率谱重构出丢失信号的频域表示,进行离散傅里叶逆变换变化获得当前丢失信号的时域精准估计,实验最终结果表明,环绕声误码修复方法的平均误差下降了大约25%,并且对语音和音乐音频均有很好的效果,修复后的环绕声音频质量很高。
2.本发明提供的一种移动网络环境下的环绕声误码修复方法,利用基于深度学习的神经网络的深度结构及其非线性模拟能力,充分学习当前帧副声道数据和其前B帧数据之间的复杂的相互作用关系,利用训练好的基于深度学习的神经网络,和当前帧主声道、前B帧主声道和副声道的对数功率谱估计出当前帧副声道数据的对数功率谱估计,相位谱采用上一帧的相位谱进行替代,最后利用相位谱和对数功率谱重构出丢失信号的频域表示,进行离散傅里叶逆变换变化获得当前丢失信号的时域精准估计。解决了现有技术由于重构的激励信号会用于重构下一帧丢失的信号,会产生令人厌烦的感知严重失真的问题,误码修复效果理想,充分保留了环绕声空间感强、更自然生动的优势。
3.本发明提供的一种移动网络环境下的环绕声误码修复方法,解决了现有技术的音频误码修复方法大都针对单声道音频,这些方法适用于环绕声误码修复几乎没有修复效果,甚至起到更坏的作用,完全达不到环绕声误码修复的目的的问题,设计的修复方法专门针对移动网络环境下的环绕声误码修复,针对性强,修复效果好,环绕声逼真自然。
4.本发明提供的一种移动网络环境下的环绕声误码修复方法,用基于深度学习的神经网络进行环绕声误码修复建模,模型逻辑清晰,学习深度适合,算法精准鲁棒,采用对数功率谱作为音频信号的学习特征,学习特征选取科学,利用栈式自编码模型的神经网络作为映射函数,计算量合理,不会对环绕声误码修复造成音频数据延迟,方法结构清晰,修复效果好、延时少、实用性好。
附图说明:
图1是本发明提供的一种移动网络环境下的环绕声误码修复方法的步骤示意图。
图2是本发明的训练特征提取和修复特征提取的步骤原理示意图。
图3是本发明的贪婪式逐层无监督预训练的步骤原理示意图。
图4是本发明的栈式自编码模型的网络结构原理示意图。
图5是本发明的波形修复重建的步骤原理示意图。
具体实施方式:
下面结合附图,对本发明提供的一种移动网络环境下的环绕声误码修复方法的技术方案进行进一步的描述,使本领域的技术人员可以更好的理解本发明并能予以实施。
参见图1,本发明提供的一种移动网络环境下的环绕声误码修复方法,包括两个阶段:深度学习训练和神经网络误码修复,深度学习训练包括训练特征提取和训练基于深度学习的神经网络两个部分,神经网络误码修复包括修复特征提取、神经网络误码解算、波形修复重建三个部分,具体步骤为:
第一步,训练特征提取;
第二步,训练基于深度学习的神经网络;
第三步,修复特征提取;
第四步,神经网络误码解算;
第五步,波形修复重建。
本发明提供的一种移动网络环境下的环绕声误码修复方法,采用基于深度学习的神经网络进行环绕声误码修复建模,采用对数功率谱作为音频信号的学习特征,利用栈式自编码模型的神经网络作为映射函数,根据当前主声道数据以及前面B个主声道及副声道的对数功率谱预测出当前帧的副声道对数功率谱。栈式自编码模型网络的建立包括两个步骤:贪婪式逐层无监督训练和有监督学习调优,贪婪式逐层无监督训练可避免陷入最小局部最优解,有监督学习调优使得网络的准确性更强。实验表明了移动网络环境下的环绕声误码修复方法的平均误差下降了大约25%,并且对语音和音乐音频均有很好的效果。
一种移动网络环境下的环绕声误码修复方法的基本结构如图1所示,主要包括两个阶段:深度学习训练和神经网络误码修复,深度学习训练和神经网络误码修复两个阶段的共同部分是环绕声音频数据的特征提取,选择合适的特征,对系统的性能有着非常重要的影响,本发明选取的特征是对数功率谱,在深度学习训练阶段,提取当前帧和其前面相邻B帧的主声道和副声道数据的对数功率谱作为训练样本,利用基于深度学习的神经网络,学习当前主声道数据和前B帧主声道、副声道数据与当前副声道数据之间的非线性关系,利用基于深度学习的神经网络的深度结构及其非线性模拟能力,充分学习当前帧副声道数据和其前B帧数据之间的复杂的相互作用关系,在神经网络误码修复阶段,利用训练好的基于深度学习的神经网络,和当前帧主声道、前B帧主声道和副声道的对数功率谱估计出当前帧副声道数据的对数功率谱估计,相位谱采用上一帧的相位谱进行替代,最后利用相位谱和对数功率谱重构出丢失信号的频域表示,进行离散傅里叶逆变换变化获得当前丢失信号的时域精准估计。
一、深度学习训练
深度学习训练包括训练特征提取和训练基于深度学习的神经网络两个部分,
(一)训练特征提取
训练特征选择是影响误码修复性能的一个重要因素,将音频信号进行离散傅立叶变换,离散傅立叶变换域的对数功率谱可以很好的表征人耳的非线性感知特性,本发明选取音频的对数功率谱作为训练特征。
对数功率谱的计算过程如图2所示,其中a(b)是音频信号的时域表示,为了防止频谱泄露,首先对时域信号进行加窗,然后进行离散傅立叶变换得到频域表示A(k),根据A(k),分别提取信号的幅度谱‖A(k)‖和相位谱,对幅度谱的平方取对数,得到对数功率谱C(k),j是虚数单位,D表示帧长,E=D/2,
C(k)=log||A(k)||2,k=0,1,…,E-1
所得到的C(k)即为对数功率谱。
(二)训练基于深度学习的神经网络
根据当前帧的前B个好帧(包括主声道数据和副声道数据)以及当前帧的主声道数据预测当前帧的副声道数据,采取训练特征提取中的特征选取方式,提取当前帧前B帧主声道和副声道的对数功率谱和当前帧的主声道的对数功率谱作为输入,提取正确的当前帧副声道的对数功率谱作为目标,进行基于深度学习的神经网络模型的训练,采取的基于深度学习的神经网络结构是栈式自编码模型,栈式自编码模型由多个稀疏自编码器叠加而成,栈式自编码模型的网络结构建立包括两个步骤:步骤一为贪婪式逐层无监督预训练进行初始化,步骤二为有监督训练调优。
1.贪婪式逐层无监督预训练
无监督预训练包括第一自编码器和第二自编码器,如图3和图4所示,左侧的自编码器为第一自编码器,右侧的自编码器为第二自编码器,第一自编码器为栈式自编码模型网络结构中的第一个自编码器,F是输入特征,输入特征F是将前B帧的主声道和副声道数据顺序连接起来,
F={E-B(0),E-B(1),…,J-B(0),J-B(1),…,E0(0),E0(1),…E0(D-1)}
其中E-B是前第B帧的主声道数据,J-B是前第B帧的副声道数据,D是帧长,第一自编码器的输出是输入特征的估计值,n1是隐藏层数据,看作是输入特征的一阶特征,采用S型生长曲线函数连接输入层和隐藏层以及隐藏层和输出层,采用反向传播算法训练自编码网络的权重。
第二自编码器是为栈式自编码模型网络结构中的第一个自编码器,它的输入特征是第一个自编码器的隐藏层,隐藏层是该输入的一阶特征,看作是输入F的二阶特征,各层之间通过S型生长曲线函数进行连接,采用反向传播算法训练网络的权重,如果栈式自编码模型包含更多层的自编码器,则依次将上一个自编码器的隐藏层作为下一个编码器的输入层,重复上述训练过程,最后一个自编码器之后叠加一个线性层,用于输出所需要的结果,线性层也采用型生长曲线函数连接,构成完整栈式自编码模型网络结构,最后一层是一个有监督层。
栈式自编码模型的层次结构使其学习到输入特征的高阶特征,采用逐层训练的过程中,训练每一层的参数时,上一层的参数保持固定不变,经过无监督训练之后,整个网络的权重都有了一个固定值,只是通过最后一个有监督层,性能存在着一定的局限性,为了取得更好的结果,需要采用反向传播算法对整个网络的参数进行更新,该过程称之为调优。
2.有监督学习调优
因为人耳系统对声强的感知是一个非线性的关系,并且声强越大,压抑程度越高,所以对数域的最小均方差准则和人耳的听觉系统更一致,本发明采用基于栈式自编码模型对当前帧副声道功率谱的估计和当前帧副声道的实际对数功率谱的最小均方差准则进行有监督学习调优。
为了使权重的更新更加稳健,采用基于最小批量模式的梯度下降优化算法,如下式所示:
G表示对数功率谱的最小均方差,N表示最小批量的大小,D为最大频率,
是第n帧频率为d时的对数功率谱目标,
是目标对数功率谱的估计值,M
(l)和q
(l)是网络中第l层需要学习的权重和偏差。
利用反向传播算法对整个网络中的权重和偏差进行更新,如下式所示,s是学习速率,隐藏层的数量为nl,l=nl+1表示输出层,
二、神经网络误码修复
神经网络误码修复包括修复特征提取、神经网络误码解算、波形修复重建。
(一)修复特征提取
修复特征提取将音频信号进行离散傅立叶变换,离散傅立叶变换域的对数功率谱可以很好的表征人耳的非线性感知特性,修复特征提取选取音频的对数功率谱作为修复特征。
修复特征提取与训练特征提取的方法相同,对数功率谱的计算过程如图2所示,其中a(b)是音频信号的时域表示,为了防止频谱泄露,一是对时域信号进行加窗,二是进行离散傅立叶变换得到频域表示A(k),三是根据A(k),分别提取信号的幅度谱‖A(k)‖和相位谱,对幅度谱的平方取对数,得到对数功率谱C(k),j是虚数单位,D表示帧长,E=D/2,
C(k)=log||A(k)||2,k=0,1,…,E-1
所得到的C(k)即为对数功率谱。
(二)神经网络误码解算
神经网络误码解算将经过修复特征提取的待修复环绕声音频的对数功率谱转化为幅度谱,导入训练好的基于深度学习的神经网络中,根据幅度谱和相位谱进行离散傅里叶逆变换得到当前帧副声道信号的时域表示,相位谱用上一帧的相位谱进行替代,提供波形修复重建所需要的全部数据。
(三)波形修复重建
波形修复重建包括两个部分:幅度谱和相位谱,波形修复重建的过程如图5所示,j是虚数单位,D表示帧长,E=D/2,
表示当前帧副声道的对数功率谱估计,∠V是当前帧副声道的相位谱估计,用
表示当前帧副声道数据的幅度谱,根据幅度谱和相位谱进行离散傅里叶逆变换得到当前帧副声道信号的时域表示
最后再和上一帧的副声道信号进行重叠相加,最后得到当前帧副声道估计:
幅度谱由对数功率谱转化得到,利用训练好的基于深度学习的神经网络、当前帧主声道的对数功率谱和前B帧的主声道和副声道的对数功率谱获得一个当前帧副声道的对数功率谱估计,由于人耳系统对相位谱相对不敏感,为了降低系统复杂度,相位谱用上一帧的相位谱进行替代,最后利用相位谱和对数功率谱重构出丢失信号的频域表示,进行离散傅里叶逆变换变化获得当前丢失信号的精准修复重构。
三、实验分析验证
(一)实验分析
实验所用的数据集为高清环绕声音碟,数据包括交响乐、鼓乐、小提琴等乐器,也包含了流行歌曲、男女高音等人声,环绕声音频数据的总长度是360分钟,其中75%的数据作为训练集数据,25%的数据作为验证集数据,所采用的环绕声音频数据为16位,采样频率为48kNz。
实验中在深度学习训练,栈式自编码模型的无监督预训练的迭代次数设置为24,学习速率设为0.12,在栈式自编码模型的有监督学习调优阶段,将迭代次数设置为32,将学习速率设为1.2,所有的输入数据均归一化到[0,1],在能量很小的地方,例如当幅度谱小于1时,对数功率谱为负,特别当幅度谱中的某个频率点上能量接近于0时,该频率点上的对数功率谱为一个很小的负数,由于大部分对数功率谱为正数,这种能量很小的点影响系统的整体性能,并且小于0的情况都发生在环绕声开始或结束的地方,所以在训练中将对数功率谱小于0的情况剔除掉。
实验结果中,3层的网络结构已经达到很好的结果,所以首先将网络结构设为3层,找出最相关的前B帧作为输入,随着B的增加,系统的最小均方误差逐渐减小,但随着B的增加该趋势逐渐平缓,因为前面第B帧随着与当前帧距离的增加,相关性逐渐降低,因此选择前面4帧的主声道和副声道数据以及当前帧的主声道数据作为输入。
网络层数对系统的影响,在隐藏层数量为3时实验误差最小。当网络层数较少时,结构相对简单,建模能力较弱,随着网络层数增加,非线性建模能力逐渐增强,但是当层数达到一定值后,已经充分表示输入和输出之间的非线性关系,继续增加层数性能不能提升。隐藏层数为4时的误差比3时更大,说明不是网络结构越复杂效果越好,合适的网络层数结构才能取得最好的效果。
(二)实验评价
实验选取训练集数据和测试集数据中的一些序列进行对比分析,其中测试集数据中选择了四类声乐:人声、电吉他、交响乐和管弦乐;训练集数据中选择的四类声乐是:小提琴、交响乐、人声和鼓乐,丢包率设为随机丢包率20%,测试指标选择平均对数谱距离LSD。
实验结果为基于深度学习的神经网络的误码修复算法误差明显降低,其中在测试集中平均降低了25.3.1%,在训练集中平均降低了26.2%,并且在人声和音乐信号方面都取得了很好的效果,实验结果有很好的一致性。
本发明提供的移动网络环境下的环绕声误码修复方法,采取栈式自编码模型的深度网络结构,选取环绕声音频信号的对数功率谱作为特征,利用基于深度学习的神经网络学习当前丢失的副声道对数功率谱和其前面相邻前B帧主声道、副声道对数功率谱之间的非线性关系,该过程主要包括两个阶段:栈式自编码模型的深度学习训练和副声道的神经网络误码修复。栈式自编码模型的训练阶段又包含两个步骤,首先利用贪婪式逐层无监督训练进行预训练,然后根据最小均方差准则进行有监督学习调优,当前副声道的谱结构包含幅度谱和相位谱,幅度谱通过基于深度学习的神经网络结构估计的对数功率谱转换得到,相位谱可以利用上一帧的相位谱进行替代,根据估计得到的幅度谱和相位谱,经过离散傅里叶逆变换,得到当前丢失副声道信号数据。
实验中分析了输入数据与目标相关性以及不同层数的网络结构对性能的影响。
首先在三层(隐藏层数量)网络结构中探求前B帧数据与当前帧的相关性,找出和当前帧最相关的B帧数据,在获得最好效果的同时也防止引入过多的不相关帧,一是可以降低复杂度,二是可以增加准确度;
接着分析隐藏层个数在1到4时的性能,结果显示当隐藏层数量为3时达到最优,并不是网络结构越复杂效果越好。实验最终结果表明,移动网络环境下的环绕声误码修复方法的平均误差下降了大约25%,并且对语音和音乐音频均有很好的效果。