CN105070293A - 基于深度神经网络的音频带宽扩展编码解码方法及装置 - Google Patents

基于深度神经网络的音频带宽扩展编码解码方法及装置 Download PDF

Info

Publication number
CN105070293A
CN105070293A CN201510549716.1A CN201510549716A CN105070293A CN 105070293 A CN105070293 A CN 105070293A CN 201510549716 A CN201510549716 A CN 201510549716A CN 105070293 A CN105070293 A CN 105070293A
Authority
CN
China
Prior art keywords
signal
module
frequency
parameter
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510549716.1A
Other languages
English (en)
Other versions
CN105070293B (zh
Inventor
胡瑞敏
姜林
胡霞
王晓晨
张茂胜
涂卫平
李登实
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201510549716.1A priority Critical patent/CN105070293B/zh
Publication of CN105070293A publication Critical patent/CN105070293A/zh
Application granted granted Critical
Publication of CN105070293B publication Critical patent/CN105070293B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于深度神经网络的音频带宽扩展编码解码方法,装置包括编码单元与解码单元。编码单元包络预处理模块、高频参数提取模块、低频编码模块、码流生成模块;解码单元包括码流输入模块、高频参数解码模块、低频信号解码模块、自编码器参数预测模块、深度神经网络精细结构预测模块、高频信号重构模块、信号合成模块。本发明首先利用信号低频部分与高频部分存在的自相关性,使用深度神经网络预测的方法,预测高频部分的精细结构。再将精细结构与编码端得到高频部分的边信息相结合,重构出信号的高频部分。最后将信号高频部分与低频部分融合,得到最终的恢复信号。本发明相比传统方法在码率上大幅降低,且音质与传统方法相当。

Description

基于深度神经网络的音频带宽扩展编码解码方法及装置
技术领域
本发明属于音频编码技术领域,尤其涉及一种基于深度神经网络的音频带宽扩展编码解码方法及装置。
背景技术
随着人们对音质要求的提高以及移动终端用户数量的不断增加,音频编码效率的要求也日渐提高。音频带宽扩展技术与现有音频编码方式相比具有高效、低码率的优势。其主要思想是利用信号的低频部分与高频部分的相关性对高频进行编码,以提高音质、降低编码码率的目的。传统的音频带宽扩展在编码端提取高频参数并传输到解码端,解码端将解码后的低频信号复制到高频,再利用高频参数对其进行调整得到高频信号。该方法利用了高低频信号间的相关性,但当高低频信号的相关性较弱时,高频信号的重建质量降低。
发明内容
深度神经网络在图像、音频信号的编码、恢复、分类、重构有着重要的作用。本发明针对传统方法中高低频信号间相关性较弱时造成编码质量不佳的问题,提供了一种基于深度神经网络的音频带宽扩展编码解码方法及装置,利用多层神经网络预测信号高频部分,减少信号高频部分需编码的数据量,以获得较优的传输效率。
本发明的方法所采用的技术方案是:基于深度神经网络的音频带宽扩展编码解码方法,其特征在于,包括编码方法和解码方法;
所述的编码方法,其具体实现包括以下步骤:
步骤A1:将输入待处理信号进行分帧处理,再滤除频率在50Hz以下的超低频部分(这部分人耳感知度较低);处理后的信号分别通过高通滤波、低通滤波,最终得到信号的高频部分SHF与信号的低频部分SLF
步骤A2:将步骤1所得信号高频部分SHF进行修正离散余弦变换(简称MDCT),得到信号高频部分的频域系数然后对该频域系数划分子带,进行包络提取得到高频频域包络参数Env(i);
步骤A3:将步骤1所得信号低频部分SLF通过低频编码器进行编码,得到低频编码参数;
步骤A4:将步骤A2中得到的高频频域包络参数Env(i)通过矢量量化,与步骤A3中得到的低频编码参数同时传送至码流;
所述的解码方法,其具体实现包括以下步骤:
步骤B1:从输入码流中分别提取已通过矢量量化的高频频域包络参、低频编码参数;
步骤B2:解码已通过矢量量化的高频频域包络参数Env(i),得到高频部分的频域包络信息Env(i);
步骤B3:使用与步骤A3中采用的低频编码对应的方法解码,得到信号低频部分时域信息S'LF和低频规范化系数
步骤B4:使用逐层贪婪训练方法,训练得到自编码器的权重参数θ={W(0),W(1),…,W(k),b(1),b(2),…,b(k)},并确定迭代次数k。其中,W(0)∈Rm1×n表示权重矩阵,b(0)∈Rm1表示偏置矢量,Rm×n表示m×n的实数矩阵;
步骤B5:将步骤B3解码得到的低频规范化系数输入到第一个隐藏层h1,再与步骤B4中得到的权重参数θ对应相乘相加,最后利用非线性激活函数f(·),得到下一层每一单元的激活值依次递推,得到自编码器网络的输出y∈Rn,也就是最终信号高频部分的精细结构信息Fine_stru(i,j);其中Rn表示1×n维实数矩阵。
步骤B6:将步骤B5中得到的信号高频部分的精细结构信息Fine_stru(i,j)与步骤B2中计算得到的信号高频部分的频域包络信息Env(i)相乘,生成信号高频部分的频域信息;
步骤B7:将步骤B6中得到的信号高频部分的频域信息进行修正离散余弦变换的逆变换(简称IMDCT),得到信号高频部分时域信息S'HF,再与步骤B3中得到的解码后的信号低频部分时域信息S'LF叠加,利用Sl'ater=S'LF+S'HF,得到最终的输出信号。
作为优选,步骤A2中所述的信号高频部分的频域包络参数Env(i)的计算公式为:
其中Env(i)表示当前帧第i个子带的能量,M是子带的长度。
作为优选,步骤B5中所述的利用信号低频部分的编码参数来推算信号高频部分的精细结构信息Fine_stru(i,j),其具体实现包括以下子步骤:
步骤B5.1:将步骤B3解码得到的低频规范化系数输入到第一个隐藏层h1,h1(x)∈Rm1的表示为:
h1(x)=f(W(0)x+b(0));
a 1 ( 2 ) = f ( W 11 ( 1 ) x 1 + W 12 ( 1 ) x 2 + W 13 ( 1 ) x 3 + b 1 ( 1 ) )
其中, a 2 ( 2 ) = f ( W 21 ( 1 ) x 1 + W 22 ( 1 ) x 2 + W 23 ( 1 ) x 3 + b 2 ( 1 ) ) ;
a 3 ( 2 ) = f ( W 31 ( 1 ) x 1 + W 32 ( 1 ) x 2 + W 33 ( 1 ) x 3 + b 3 ( 1 ) )
f(·)是非线性激活函数,表示第l层第i单元的激活值,为hi(x)中的元素;是第l层第j单元与第l+1层第i单元之间的联接参数,是第l+1层第i单元的偏置项;
步骤B5.2:因自编码器的拓扑结构完全依赖于输入层k的大小和每层隐藏单元个数mi,故对于其他层来说,当前层的输入是前一层的输出,而当前层的输出又可作为下一层的输入,每个隐藏层的表示如下:
h2(h1)=f(W(2)h1+b(2))
·
·
·
hi(hi-1)=f(W(i)hi+b(i));
·
·
·
hk(hk-1)=f(W(k)hk-1+b(k))
此处k表示隐藏层的个数,mi表示每个隐藏层中的单元个数;
步骤B5.3:以此模式顺序迭代k次,得到自编码器网络的输出y∈Rn,输出y在隐藏层hk之后进行重建,如下式:
y=f(w(k)hk+b(k))
其中,迭代次数k,权重参数偏置项均由步骤B3参数训练确定。
作为优选,步骤B4中所述的逐层贪婪训练方法,其具体实现包括以下子步骤:
步骤B4.1:参见图3,自编码器由输入层、输出层以及一定数量的隐藏层组成。将音频数据集中的信号依次替代自编码器结构中的输入信号x,再在输入信号x上训练第一个隐藏层的权重参数此处表示第一层第j单元与第二层第i单元之间的联接参数(也就是权重),表示第一层第i单元的偏置项;
步骤B4.2:利用步骤B4.1获得的第一个隐藏层的权重参数和低频规范化系数计算第一层的隐藏单元的激活值,然后训练第二层得到第二个隐藏层的权重参数
步骤B4.3:重复训练后面每一层,直到最后一层,得到每一层的自编码器权重参数
作为优选,步骤B5的具体实现包括以下子步骤:
步骤B5.1:将步骤B3解码得到的低频规范化系数输入到第一个隐藏层h1,h1(x)∈Rm1的表示为:
h1(x)=f(W(0)x+b(0));
a 1 ( 2 ) = f ( W 11 ( 1 ) x 1 + W 12 ( 1 ) x 2 + W 13 ( 1 ) x 3 + b 1 ( 1 ) )
其中, a 2 ( 2 ) = f ( W 21 ( 1 ) x 1 + W 22 ( 1 ) x 2 + W 23 ( 1 ) x 3 + b 2 ( 1 ) ) ;
a 3 ( 2 ) = f ( W 31 ( 1 ) x 1 + W 32 ( 1 ) x 2 + W 33 ( 1 ) x 3 + b 3 ( 1 ) )
f(·)是非线性激活函数,表示第l层第i单元的激活值,为hi(x)中的元素;是第l层第j单元与第l+1层第i单元之间的联接参数,是第l+1层第i单元的偏置项;
步骤B5.2:因自编码器的拓扑结构完全依赖于输入层k的大小和每层隐藏单元个数mi,故对于其他层来说,当前层的输入是前一层的输出,而当前层的输出又可作为下一层的输入,每个隐藏层的表示如下:
h2(h1)=f(W(2)h1+b(2))
·
·
·
hi(hi-1)=f(W(i)hi+b(i));
·
·
·
hk(hk-1)=f(W(k)hk-1+b(k))
此处k表示隐藏层的个数,mi表示每个隐藏层中的单元个数;
步骤B5.3:以此模式顺序迭代k次,得到自编码器网络的输出y∈Rn,输出y在隐藏层hk之后进行重建,如下式:
y=f(w(k)hk+b(k))
其中,迭代次数k,权重参数偏置项均由步骤B3参数训练确定。
本发明的装置所采用的技术方案是:基于深度神经网络的音频带宽扩展编码解码装置,其特征在于:包括编码单元与解码单元;
所述的编码单元包含预处理模块、高频参数提取模块、低频编码模块、码流生成模块;
所述的解码单元包含码流输入模块、高频参数解码模块、低频信号解码模块、自编码器参数预测模块、深度神经网络精细结构预测模块、高频信号重构模块、信号合成模块;
所述的预处理模块用于将输入待处理时域信号先进行分帧,并滤除较低频部分,再将其分别通过高通滤波器、低通滤波器,得到信号高频部分输入高频参数提取模块,信号低频部分送入低频编码模块;
所述的高频参数提取模块用于提取信号高频部分的包络参数,将预处理模块产生的信号高频部分进行修正离散余弦变换,得到信号高频部分的频域表示形式,再将信号高频部分的频域表示式均匀分成M个子带,分别计算每个子带的包络参数,送入码流生成模块;
所述的低频编码模块用于产生信号低频部分的编码参数,提取预处理模块产生的信号低频部分的编码参数,送入码流生成模块;
所述的码流生成模块用于生成编码码流,整合高频参数提取模块中产生的子带包络参数与低频编码模块中产生的编码参数,共同送入码流;
所述的码流输入模块用于提取码流中的高低频参数,将得到的高频子带包络参数送入高频参数解码模块,低频编码参数送入低频信号解码模块;
所述的高频参数解码模块用于解码信号高频部分的频域包络信息,将解码后的信号高频部分的频域包络信息送入高频信号重构模块;
所述的低频信号解码模块用于解码信号低频部分的时域信息,使用与编码单元低频编码模块中采用方式对应的方法解码,将得到的信号低频部分时域信息送入深度神经网络精细结构预测模块与高频信号重构模块;
所述的自编码器参数预测模块用于训练预测精细结构的过程中需要使用的自编码器的权重参数,选定实验中采用的音频数据库,将数据库中的一部分用于训练,另一部分用于测试;首先,对待训练和测试的数据集进行归一化,再使用逐层贪婪训练的方法,对每一层的权重参数与偏置项进行逐层训练,直到最后一层;最后再采用后向反馈方法对整个网络进行微调;将输出自编码器的权重参数输入深度神经网络精细结构预测模块;
所述的深度神经网络精细结构预测模块用于使用解码得到的信号低频部分参数来预测信号高频部分的精细结构,将信号低频部分的参数输入该自编码器,使用非线性激活函数将其输入第一个隐藏层,再将第一个隐藏层的数据用同样的方式输入第二个隐藏层,逐层向下,最终输出预测的高频部分精细结构,将该精细结构输入到高频信号重构模块;
所述的高频信号重构模块用于将高频参数解码模块中得到的信号高频部分的包络信息与深度神经网络精细结构预测模块得到的预测的高频部分精细结构分子带相乘,得到信号高频部分的频域表示形式,输入信号合成模块;
所述的信号合成模块,就是将恢复信号的高频部分与低频部分叠加,得到最终的信号输出;首先,将高频信号重构模块中得到的信号高频部分的频域信息进行修正离散余弦变换的逆变换,得到信号高频部分的时域表示;再将信号高频部分的时域表示与低频信号解码模块中得到的信号低频部分的时域表示相加,输出最终合成信号。
本发明通过深度神经网络从低频信号预测出高频信号的精细结构,再利用高频参数与高频信号的精细结构恢复出高频信号,该发明生成的高频信号相比传统方法(如SBR技术)在码率上大幅降低,且音质与传统方法相当。
附图说明
图1:是本发明实施例编码部分的方法流程图。
图2:是本发明实施例解码部分的方法流程图。
图3:是本发明实施例的深度神经网络精细结构预测的方法流程图。
图4:是本发明实施例的编码部分系统结构框图。
图5:是本发明实施例的解码部分系统结构框图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1、图2和图3,本发明提供的一种基于深度神经网络的音频带宽扩展编码解码方法,包括编码方法和解码方法;
请见图1,编码方法具体实现包括以下步骤:
步骤A1:将输入待处理信号进行分帧处理,再滤除频率在50Hz以下的超低频部分(这部分人耳感知度较低);处理后的信号分别通过高通滤波、低通滤波,最终得到信号的高频部分SHF与信号的低频部分SLF
本实施例中,输入信号的采样率为25.6kHz,帧长为20ms(每帧512个样点),使用一阶有限冲击响应高通滤波器,滤除0~50Hz的超低频部分,分析滤波器得到高频部分的频率范围为6.4~12.8kHz,低频部分的频率范围为0~6.4kHz。
步骤A2:将步骤1所得信号高频部分SHF进行修正离散余弦变换(简称MDCT),得到信号高频部分的频域系数然后对该频域系数划分子带,进行包络提取得到高频频域包络参数Env(i);
本实施例MDCT变换中使用50%交叠的正弦分析窗,以降低频谱泄漏的影响。然后对MDCT系数划分子带,进行包络提取得到包络参数Env(i)。
其中,高频部分的MDCT系数被均匀分成8个子带,包络参数Env(i)通过下式计算:
Env(i)表示当前帧第i个子带的能量,M是子带的长度。
步骤A3:将步骤1所得信号低频部分SLF通过低频编码器进行编码,得到低频编码参数;
步骤A4:将步骤A2中得到的高频频域包络参数Env(i)通过矢量量化为16比特,与步骤A3中得到的低频编码参数同时传送至码流;
请见图2,解码方法具体实现包括以下步骤:
步骤B1:从输入码流中分别提取已通过矢量量化的高频频域包络参、低频编码参数;
步骤B2:解码已通过矢量量化的高频频域包络参数Env(i),得到高频部分的频域包络信息Env(i);
步骤B3:使用与步骤A3中采用的低频编码对应的方法解码,得到信号低频部分时域信息S'LF和低频规范化系数
步骤B4:使用逐层贪婪训练方法,训练得到自编码器的权重参数θ={W(0),W(1),…,W(k),b(1),b(2),…,b(k)},并确定迭代次数k。其中,W(0)∈Rm1×n表示权重矩阵,b(0)∈Rm1表示偏置矢量,Rm×n表示m×n的实数矩阵(下同);
计算信号高频部分精细结构需要使用自编码器,因此在此之前必须训练得到自编码器的权重参数θ={W(0),W(1),…,W(k),b(1),b(2),…,b(k)}。本实施例训练集采用的是TIMIT语音库,自然声以及音乐,共包含120万帧(0.2ms每帧,100万帧用于训练,20万帧用于测试)。训练和测试数据集均进行了归一化,保证训练集中每一个元素对最终判决结果的影响程度相同。
参见图3,逐层贪婪训练方法具体实现包括以下子步骤:
步骤B4.1:自编码器由输入层、输出层以及一定数量的隐藏层组成。将音频数据集中的信号依次替代自编码器结构中的输入信号x,再在输入信号x上训练第一个隐藏层的权重参数此处表示第一层第j单元与第二层第i单元之间的联接参数(也就是权重),表示第一层第i单元的偏置项;
步骤B4.2:利用步骤B4.1获得的第一个隐藏层的权重参数和低频规范化系数计算第一层的隐藏单元的激活值,然后训练第二层得到第二个隐藏层的权重参数
步骤B4.3:重复训练后面每一层,直到最后一层,得到每一层的自编码器权重参数
步骤B5:将步骤B3解码得到的低频规范化系数输入到第一个隐藏层h1,再与步骤B4中得到的权重参数θ对应相乘相加,最后利用非线性激活函数f(·),得到下一层每一单元的激活值依次递推,得到自编码器网络的输出y∈Rn,也就是最终信号高频部分的精细结构信息Fine_stru(i,j);其中Rn表示1×n维实数矩阵。
具体实现包括以下子步骤:
步骤B5.1:将步骤B3解码得到的低频规范化系数输入到第一个隐藏层h1,h1(x)∈Rm1的表示为:
h1(x)=f(W(0)x+b(0));
a 1 ( 2 ) = f ( W 11 ( 1 ) x 1 + W 12 ( 1 ) x 2 + W 13 ( 1 ) x 3 + b 1 ( 1 ) )
其中, a 2 ( 2 ) = f ( W 21 ( 1 ) x 1 + W 22 ( 1 ) x 2 + W 23 ( 1 ) x 3 + b 2 ( 1 ) ) ;
a 3 ( 2 ) = f ( W 31 ( 1 ) x 1 + W 32 ( 1 ) x 2 + W 33 ( 1 ) x 3 + b 3 ( 1 ) )
f(·)是非线性激活函数,表示第l层第i单元的激活值,为hi(x)中的元素;是第l层第j单元与第l+1层第i单元之间的联接参数,是第l+1层第i单元的偏置项;
步骤B5.2:因自编码器的拓扑结构完全依赖于输入层k的大小和每层隐藏单元个数mi,故对于其他层来说,当前层的输入是前一层的输出,而当前层的输出又可作为下一层的输入,每个隐藏层的表示如下:
h2(h1)=f(W(2)h1+b(2))
·
·
·
hi(hi-1)=f(W(i)hi+b(i));
·
·
·
hk(hk-1)=f(W(k)hk-1+b(k))
此处k表示隐藏层的个数,mi表示每个隐藏层中的单元个数;
步骤B5.3:以此模式顺序迭代k次,得到自编码器网络的输出y∈Rn,输出y在隐藏层hk之后进行重建,如下式:
y=f(w(k)hk+b(k))
其中,迭代次数k,权重参数偏置项均由步骤B3参数训练确定。
步骤B6:将步骤B5中得到的信号高频部分的精细结构信息Fine_stru(i,j)与步骤B2中计算得到的信号高频部分的频域包络信息Env(i)相乘,生成信号高频部分的频域信息;
信号高频部分频域值可由下式计算:
其中(1≤i≤8,1≤j≤M);
其中,表示生成的当前帧的第i个子带的第j个MDCT系数,Fine_stru(i,j)是规范化的第i个子带第j个MDCT系数的高频精细结构信息,是第i个子带的解码能量。
此方式利用深度神经网络预测的每一子带的精细结构与该子带对应包络权值的乘积,拟合信号高频部分的频域值。实验表明,相较于传统直接利用低频信号的精细结构与高频包络相乘的拟合方式而言,该方式无论从数据量大小还是与原始信号的拟合程度而言都具有优势。
步骤B7:将步骤B6中得到的信号高频部分的频域信息进行修正离散余弦变换的逆变换(简称IMDCT),得到信号高频部分时域信息S'HF,再与步骤B3中得到的解码后的信号低频部分时域信息S'LF叠加,利用Sl'ater=S'LF+S'HF,得到最终的输出信号。
请见图4、图5,本发明提供的一种基于深度神经网络的音频带宽扩展编码解码装置,包括编码单元与解码单元;
编码单元包含预处理模块101、高频参数提取模块102、低频编码模块103、码流生成模块104;
解码单元包含码流输入模块201、高频参数解码模块202、低频信号解码模块203、自编码器参数预测模块204、深度神经网络精细结构预测模块205、高频信号重构模块206、信号合成模块207;
预处理模块101用于将输入待处理时域信号先进行分帧,并滤除较低频部分,再将其分别通过高通滤波器、低通滤波器,得到信号高频部分输入高频参数提取模块102,信号低频部分送入低频编码模块103;
高频参数提取模块102用于提取信号高频部分的包络参数,将预处理模块101产生的信号高频部分进行修正离散余弦变换(简称MDCT),得到信号高频部分的频域表示形式,再将信号高频部分的频域表示式均匀分成M个子带,分别计算每个子带的包络参数,送入码流生成模块104;
低频编码模块103用于产生信号低频部分的编码参数,提取预处理模块101产生的信号低频部分的编码参数,送入码流生成模块104;
码流生成模块104用于生成编码码流,整合高频参数提取模块102中产生的子带包络参数与低频编码模块103中产生的编码参数,共同送入码流;
码流输入模块201用于提取码流中的高低频参数,将得到的高频子带包络参数送入高频参数解码模块202,低频编码参数送入低频信号解码模块203;
高频参数解码模块202用于解码信号高频部分的频域包络信息,将解码后的信号高频部分的频域包络信息送入高频信号重构模块206;
低频信号解码模块203用于解码信号低频部分的时域信息,使用与编码单元低频编码模块103中采用方式对应的方法解码,将得到的信号低频部分时域信息送入深度神经网络精细结构预测模块205与高频信号重构模块206;
自编码器参数预测模块204用于训练预测精细结构的过程中需要使用的自编码器的权重参数,选定实验中采用的音频数据库,将数据库中的一部分用于训练,另一部分用于测试;首先,对待训练和测试的数据集进行归一化,再使用逐层贪婪训练的方法,对每一层的权重参数与偏置项进行逐层训练,直到最后一层;最后再采用后向反馈方法对整个网络进行微调;将输出自编码器的权重参数输入深度神经网络精细结构预测模块205;
深度神经网络精细结构预测模块205用于使用解码得到的信号低频部分参数来预测信号高频部分的精细结构,将信号低频部分的参数输入该自编码器,使用非线性激活函数将其输入第一个隐藏层,再将第一个隐藏层的数据用同样的方式输入第二个隐藏层,逐层向下,最终输出预测的高频部分精细结构,将该精细结构输入到高频信号重构模块206;
高频信号重构模块206用于将高频参数解码模块202中得到的信号高频部分的包络信息与深度神经网络精细结构预测模块205得到的预测的高频部分精细结构分子带相乘,得到信号高频部分的频域表示形式,输入信号合成模块7;
信号合成模块207,就是将恢复信号的高频部分与低频部分叠加,得到最终的信号输出;首先,将高频信号重构模块206中得到的信号高频部分的频域信息进行修正离散余弦变换的逆变换(简称IMDCT),得到信号高频部分的时域表示;再将信号高频部分的时域表示与低频信号解码模块203中得到的信号低频部分的时域表示相加,输出最终合成信号。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (5)

1.基于深度神经网络的音频带宽扩展编码解码方法,其特征在于,包括编码方法和解码方法;
所述的编码方法,其具体实现包括以下步骤:
步骤A1:将输入待处理信号进行分帧处理,再滤除频率在50Hz以下的超低频部分;处理后的信号分别通过高通滤波、低通滤波,最终得到信号的高频部分SHF与信号的低频部分SLF
步骤A2:将步骤1所得信号高频部分SHF进行修正离散余弦变换,得到信号高频部分的频域系数然后对该频域系数划分子带,进行包络提取得到高频频域包络参数Env(i);
步骤A3:将步骤1所得信号低频部分SLF通过低频编码器进行编码,得到低频编码参数;
步骤A4:将步骤A2中得到的高频频域包络参数Env(i)通过矢量量化,与步骤A3中得到的低频编码参数同时传送至码流;
所述的解码方法,其具体实现包括以下步骤:
步骤B1:从输入码流中分别提取已通过矢量量化的高频频域包络参、低频编码参数;
步骤B2:解码已通过矢量量化的高频频域包络参数Env(i),得到高频部分的频域包络信息Env(i);
步骤B3:使用与步骤A3中采用的低频编码对应的方法解码,得到信号低频部分时域信息S'LF和低频规范化系数
步骤B4:使用逐层贪婪训练方法,训练得到自编码器的权重参数θ={W(0),W(1),…,W(k),b(1),b(2),…,b(k)},并确定迭代次数k;其中,W(0)∈Rm1×n表示权重矩阵,b(0)∈Rm1表示偏置矢量,Rm×n表示m×n的实数矩阵;
步骤B5:将步骤B3解码得到的低频规范化系数输入到第一个隐藏层h1,再与步骤B4中得到的权重参数θ对应相乘相加,最后利用非线性激活函数f(·),得到下一层每一单元的激活值依次递推,得到自编码器网络的输出y∈Rn,也就是最终信号高频部分的精细结构信息Fine_stru(i,j);其中Rn表示1×n维实数矩阵;
步骤B6:将步骤B5中得到的信号高频部分的精细结构信息Fine_stru(i,j)与步骤B2中计算得到的信号高频部分的频域包络信息Env(i)相乘,生成信号高频部分的频域信息;
步骤B7:将步骤B6中得到的信号高频部分的频域信息进行修正离散余弦变换的逆变换,得到信号高频部分时域信息S'HF,再与步骤B3中得到的解码后的信号低频部分时域信息S'LF叠加,利用Sl'ater=S'LF+S'HF,得到最终的输出信号。
2.根据权利要求1所述的基于深度神经网络的音频带宽扩展编码解码方法,其特征在于,步骤A2中所述的高频部分的频域包络参数Env(i)的计算公式为:
其中Env(i)表示当前帧第i个子带的能量,M是子带的长度。
3.根据权利要求1所述的基于深度神经网络的音频带宽扩展编码解码方法,其特征在于,步骤B4中所述的逐层贪婪训练方法,其具体实现包括以下子步骤:
步骤B4.1:自编码器由输入层、输出层以及一定数量的隐藏层组成。将音频数据集中的信号依次替代自编码器结构中的输入信号x,再在输入信号x上训练第一个隐藏层的权重参数此处表示第一层第j单元与第二层第i单元之间的联接参数,表示第一层第i单元的偏置项;
步骤B4.2:利用步骤B4.1获得的第一个隐藏层的权重参数和低频规范化系数计算第一层的隐藏单元的激活值,然后训练第二层得到第二个隐藏层的权重参数
步骤B4.3:重复训练后面每一层,直到最后一层,得到每一层的自编码器权重参数
4.根据权利要求1所述的基于深度神经网络的音频带宽扩展编码解码方法,其特征在于,步骤B5中所述的利用信号低频部分的编码参数来推算信号高频部分的精细结构信息Fine_stru(i,j),其具体实现包括以下子步骤:
步骤B5.1:将步骤B3解码得到的低频规范化系数输入到第一个隐藏层h1,h1(x)∈Rm1的表示为:
h1(x)=f(W(0)x+b(0));
其中, a 1 ( 2 ) = f ( W 11 ( 1 ) x 1 + W 1 2 ( 1 ) x 2 + W 1 3 ( 1 ) x 3 + b 1 ( 1 ) ) a 2 ( 2 ) = f ( W 21 ( 1 ) x 1 + W 22 ( 1 ) x 2 + W 23 ( 1 ) x 3 + b 2 ( 1 ) ) a 3 ( 2 ) = f ( W 31 ( 1 ) x 1 + W 32 ( 1 ) x 2 + W 33 ( 1 ) x 3 + b 3 ( 1 ) ) ;
f(·)是非线性激活函数,表示第l层第i单元的激活值,为hi(x)中的元素;是第l层第j单元与第l+1层第i单元之间的联接参数,是第l+1层第i单元的偏置项;
步骤B5.2:因自编码器的拓扑结构完全依赖于输入层k的大小和每层隐藏单元个数mi,故对于其他层来说,当前层的输入是前一层的输出,而当前层的输出又可作为下一层的输入,每个隐藏层的表示如下:
h 2 ( h 1 ) = f ( W ( 2 ) h 1 + b ( 2 ) ) · · · h i ( h i - 1 ) = f ( W ( i ) h i + b ( i ) ) · · · h k ( h k - 1 ) = f ( W ( k ) h k - 1 + b ( k ) ) ;
此处k表示隐藏层的个数,mi表示每个隐藏层中的单元个数;
步骤B5.3:以此模式顺序迭代k次,得到自编码器网络的输出y∈Rn,输出y在隐藏层hk之后进行重建,如下式:
y=f(w(k)hk+b(k))
其中,迭代次数k,权重参数偏置项均由步骤B3参数训练确定。
5.基于深度神经网络的音频带宽扩展编码解码装置,其特征在于:包括编码单元与解码单元;
所述的编码单元包含预处理模块(101)、高频参数提取模块(102)、低频编码模块(103)、码流生成模块(104);
所述的解码单元包含码流输入模块(201)、高频参数解码模块(202)、低频信号解码模块(203)、自编码器参数预测模块(204)、深度神经网络精细结构预测模块(205)、高频信号重构模块(206)、信号合成模块(207);
所述的预处理模块(101)用于将输入待处理时域信号先进行分帧,并滤除较低频部分,再将其分别通过高通滤波器、低通滤波器,得到信号高频部分输入高频参数提取模块(102),信号低频部分送入低频编码模块(103);
所述的高频参数提取模块(102)用于提取信号高频部分的包络参数,将预处理模块(101)产生的信号高频部分进行修正离散余弦变换,得到信号高频部分的频域表示形式,再将信号高频部分的频域表示式均匀分成M个子带,分别计算每个子带的包络参数,送入码流生成模块(104);
所述的低频编码模块(103)用于产生信号低频部分的编码参数,提取预处理模块(101)产生的信号低频部分的编码参数,送入码流生成模块(104);
所述的码流生成模块(104)用于生成编码码流,整合高频参数提取模块(102)中产生的子带包络参数与低频编码模块(103)中产生的编码参数,共同送入码流;
所述的码流输入模块(201)用于提取码流中的高低频参数,将得到的高频子带包络参数送入高频参数解码模块(202),低频编码参数送入低频信号解码模块(203);
所述的高频参数解码模块(202)用于解码信号高频部分的频域包络信息,将解码后的信号高频部分的频域包络信息送入高频信号重构模块(206);
所述的低频信号解码模块(203)用于解码信号低频部分的时域信息,使用与编码单元低频编码模块(103)中采用方式对应的方法解码,将得到的信号低频部分时域信息送入深度神经网络精细结构预测模块(205)与高频信号重构模块(206);
所述的自编码器参数预测模块(204)用于训练预测精细结构的过程中需要使用的自编码器的权重参数,选定实验中采用的音频数据库,将数据库中的一部分用于训练,另一部分用于测试;首先,对待训练和测试的数据集进行归一化,再使用逐层贪婪训练的方法,对每一层的权重参数与偏置项进行逐层训练,直到最后一层;最后再采用后向反馈方法对整个网络进行微调;将输出自编码器的权重参数输入深度神经网络精细结构预测模块(205);
所述的深度神经网络精细结构预测模块(205)用于使用解码得到的信号低频部分参数来预测信号高频部分的精细结构,将信号低频部分的参数输入该自编码器,使用非线性激活函数将其输入第一个隐藏层,再将第一个隐藏层的数据用同样的方式输入第二个隐藏层,逐层向下,最终输出预测的高频部分精细结构,将该精细结构输入到高频信号重构模块(206);
所述的高频信号重构模块(206)用于将高频参数解码模块(202)中得到的信号高频部分的包络信息与深度神经网络精细结构预测模块(205)得到的预测的高频部分精细结构分子带相乘,得到信号高频部分的频域表示形式,输入信号合成模块(7);
所述的信号合成模块(207),就是将恢复信号的高频部分与低频部分叠加,得到最终的信号输出;首先,将高频信号重构模块(206)中得到的信号高频部分的频域信息进行修正离散余弦变换的逆变换,得到信号高频部分的时域表示;再将信号高频部分的时域表示与低频信号解码模块(203)中得到的信号低频部分的时域表示相加,输出最终合成信号。
CN201510549716.1A 2015-08-31 2015-08-31 基于深度神经网络的音频带宽扩展编码解码方法及装置 Active CN105070293B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510549716.1A CN105070293B (zh) 2015-08-31 2015-08-31 基于深度神经网络的音频带宽扩展编码解码方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510549716.1A CN105070293B (zh) 2015-08-31 2015-08-31 基于深度神经网络的音频带宽扩展编码解码方法及装置

Publications (2)

Publication Number Publication Date
CN105070293A true CN105070293A (zh) 2015-11-18
CN105070293B CN105070293B (zh) 2018-08-21

Family

ID=54499646

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510549716.1A Active CN105070293B (zh) 2015-08-31 2015-08-31 基于深度神经网络的音频带宽扩展编码解码方法及装置

Country Status (1)

Country Link
CN (1) CN105070293B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203624A (zh) * 2016-06-23 2016-12-07 上海交通大学 基于深度神经网络的矢量量化系统及方法
CN107705801A (zh) * 2016-08-05 2018-02-16 中国科学院自动化研究所 语音带宽扩展模型的训练方法及语音带宽扩展方法
CN107945811A (zh) * 2017-10-23 2018-04-20 北京大学 一种面向频带扩展的生成式对抗网络训练方法及音频编码、解码方法
CN107958475A (zh) * 2017-12-19 2018-04-24 清华大学 基于深度学习生成网络的变角度光照层析方法及装置
CN107993672A (zh) * 2017-12-12 2018-05-04 腾讯音乐娱乐科技(深圳)有限公司 频带扩展方法及装置
CN109215635A (zh) * 2018-10-25 2019-01-15 武汉大学 用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法
CN109412152A (zh) * 2018-11-08 2019-03-01 国电南瑞科技股份有限公司 一种基于深度学习与弹性网正则化的电网网损计算方法
CN109599123A (zh) * 2017-09-29 2019-04-09 中国科学院声学研究所 基于遗传算法优化模型参数的音频带宽扩展方法及系统
CN109804383A (zh) * 2016-08-04 2019-05-24 谷歌有限责任公司 使用神经网络编码和重构输入
CN110473557A (zh) * 2019-08-22 2019-11-19 杭州派尼澳电子科技有限公司 一种基于深度自编码器的语音信号编解码方法
CN110556121A (zh) * 2019-09-18 2019-12-10 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质
CN112086102A (zh) * 2020-08-31 2020-12-15 腾讯音乐娱乐科技(深圳)有限公司 扩展音频频带的方法、装置、设备以及存储介质
CN112105902A (zh) * 2018-04-11 2020-12-18 杜比实验室特许公司 基于机器学习的用于音频编码和解码的基于感知的损失函数
CN112767954A (zh) * 2020-06-24 2021-05-07 腾讯科技(深圳)有限公司 音频编解码方法、装置、介质及电子设备
CN112885363A (zh) * 2019-11-29 2021-06-01 北京三星通信技术研究有限公司 语音发送方法和装置以及语音接收方法和装置、电子设备
CN113314132A (zh) * 2021-05-17 2021-08-27 武汉大学 一种应用于交互式音频系统中的音频对象编码方法、解码方法及装置
CN113409792A (zh) * 2021-06-22 2021-09-17 科大讯飞股份有限公司 一种语音识别方法及其相关设备
CN113573078A (zh) * 2021-08-09 2021-10-29 广东博华超高清创新中心有限公司 一种基于卷积神经网络增强avs帧内解码的方法
CN114501353A (zh) * 2020-10-23 2022-05-13 维沃移动通信有限公司 通信信息的发送、接收方法及通信设备
CN116580716A (zh) * 2023-07-12 2023-08-11 腾讯科技(深圳)有限公司 音频编码方法、装置、存储介质及计算机设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101521014A (zh) * 2009-04-08 2009-09-02 武汉大学 音频带宽扩展编解码装置
CN102543089A (zh) * 2012-01-17 2012-07-04 大连理工大学 一种窄带码流转换为宽带码流的转换装置及其转换方法
CN103871405A (zh) * 2014-01-14 2014-06-18 中山大学 一种amr音频的鉴定方法
US20140288928A1 (en) * 2013-03-25 2014-09-25 Gerald Bradley PENN System and method for applying a convolutional neural network to speech recognition
CN104269173A (zh) * 2014-09-30 2015-01-07 武汉大学深圳研究院 切换模式的音频带宽扩展装置与方法
CN104751850A (zh) * 2013-12-25 2015-07-01 北京天籁传音数字技术有限公司 一种用于音频信号的矢量量化编解码方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101521014A (zh) * 2009-04-08 2009-09-02 武汉大学 音频带宽扩展编解码装置
CN102543089A (zh) * 2012-01-17 2012-07-04 大连理工大学 一种窄带码流转换为宽带码流的转换装置及其转换方法
US20140288928A1 (en) * 2013-03-25 2014-09-25 Gerald Bradley PENN System and method for applying a convolutional neural network to speech recognition
CN104751850A (zh) * 2013-12-25 2015-07-01 北京天籁传音数字技术有限公司 一种用于音频信号的矢量量化编解码方法及装置
CN103871405A (zh) * 2014-01-14 2014-06-18 中山大学 一种amr音频的鉴定方法
CN104269173A (zh) * 2014-09-30 2015-01-07 武汉大学深圳研究院 切换模式的音频带宽扩展装置与方法

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203624B (zh) * 2016-06-23 2019-06-21 上海交通大学 基于深度神经网络的矢量量化系统及方法
CN106203624A (zh) * 2016-06-23 2016-12-07 上海交通大学 基于深度神经网络的矢量量化系统及方法
US11853860B2 (en) 2016-08-04 2023-12-26 Google Llc Encoding and reconstructing inputs using neural networks
CN109804383A (zh) * 2016-08-04 2019-05-24 谷歌有限责任公司 使用神经网络编码和重构输入
CN109804383B (zh) * 2016-08-04 2024-03-26 谷歌有限责任公司 使用神经网络编码和重构输入
CN107705801A (zh) * 2016-08-05 2018-02-16 中国科学院自动化研究所 语音带宽扩展模型的训练方法及语音带宽扩展方法
CN107705801B (zh) * 2016-08-05 2020-10-02 中国科学院自动化研究所 语音带宽扩展模型的训练方法及语音带宽扩展方法
CN109599123A (zh) * 2017-09-29 2019-04-09 中国科学院声学研究所 基于遗传算法优化模型参数的音频带宽扩展方法及系统
CN109599123B (zh) * 2017-09-29 2021-02-09 中国科学院声学研究所 基于遗传算法优化模型参数的音频带宽扩展方法及系统
CN107945811A (zh) * 2017-10-23 2018-04-20 北京大学 一种面向频带扩展的生成式对抗网络训练方法及音频编码、解码方法
CN107945811B (zh) * 2017-10-23 2021-06-01 北京大学 一种面向频带扩展的生成式对抗网络训练方法及音频编码、解码方法
CN107993672A (zh) * 2017-12-12 2018-05-04 腾讯音乐娱乐科技(深圳)有限公司 频带扩展方法及装置
CN107993672B (zh) * 2017-12-12 2020-07-03 腾讯音乐娱乐科技(深圳)有限公司 频带扩展方法及装置
CN107958475B (zh) * 2017-12-19 2020-06-02 清华大学 基于深度学习生成网络的变角度光照层析方法及装置
CN107958475A (zh) * 2017-12-19 2018-04-24 清华大学 基于深度学习生成网络的变角度光照层析方法及装置
CN112105902A (zh) * 2018-04-11 2020-12-18 杜比实验室特许公司 基于机器学习的用于音频编码和解码的基于感知的损失函数
CN112105902B (zh) * 2018-04-11 2022-07-22 杜比实验室特许公司 基于机器学习的用于音频编码和解码的基于感知的损失函数
CN109215635A (zh) * 2018-10-25 2019-01-15 武汉大学 用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法
CN109412152B (zh) * 2018-11-08 2022-06-17 国电南瑞科技股份有限公司 一种基于深度学习与弹性网正则化的电网网损计算方法
CN109412152A (zh) * 2018-11-08 2019-03-01 国电南瑞科技股份有限公司 一种基于深度学习与弹性网正则化的电网网损计算方法
CN110473557A (zh) * 2019-08-22 2019-11-19 杭州派尼澳电子科技有限公司 一种基于深度自编码器的语音信号编解码方法
CN110473557B (zh) * 2019-08-22 2021-05-28 浙江树人学院(浙江树人大学) 一种基于深度自编码器的语音信号编解码方法
CN110556121A (zh) * 2019-09-18 2019-12-10 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质
CN110556121B (zh) * 2019-09-18 2024-01-09 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质
CN112885363A (zh) * 2019-11-29 2021-06-01 北京三星通信技术研究有限公司 语音发送方法和装置以及语音接收方法和装置、电子设备
CN112767954A (zh) * 2020-06-24 2021-05-07 腾讯科技(深圳)有限公司 音频编解码方法、装置、介质及电子设备
WO2021258940A1 (zh) * 2020-06-24 2021-12-30 腾讯科技(深圳)有限公司 音频编解码方法、装置、介质及电子设备
CN112086102A (zh) * 2020-08-31 2020-12-15 腾讯音乐娱乐科技(深圳)有限公司 扩展音频频带的方法、装置、设备以及存储介质
CN112086102B (zh) * 2020-08-31 2024-04-16 腾讯音乐娱乐科技(深圳)有限公司 扩展音频频带的方法、装置、设备以及存储介质
CN114501353A (zh) * 2020-10-23 2022-05-13 维沃移动通信有限公司 通信信息的发送、接收方法及通信设备
CN114501353B (zh) * 2020-10-23 2024-01-05 维沃移动通信有限公司 通信信息的发送、接收方法及通信设备
CN113314132B (zh) * 2021-05-17 2022-05-17 武汉大学 交互式音频系统中的音频对象编码方法、解码方法及装置
CN113314132A (zh) * 2021-05-17 2021-08-27 武汉大学 一种应用于交互式音频系统中的音频对象编码方法、解码方法及装置
CN113409792A (zh) * 2021-06-22 2021-09-17 科大讯飞股份有限公司 一种语音识别方法及其相关设备
CN113409792B (zh) * 2021-06-22 2024-02-13 中国科学技术大学 一种语音识别方法及其相关设备
CN113573078A (zh) * 2021-08-09 2021-10-29 广东博华超高清创新中心有限公司 一种基于卷积神经网络增强avs帧内解码的方法
CN116580716A (zh) * 2023-07-12 2023-08-11 腾讯科技(深圳)有限公司 音频编码方法、装置、存储介质及计算机设备
CN116580716B (zh) * 2023-07-12 2023-10-27 腾讯科技(深圳)有限公司 音频编码方法、装置、存储介质及计算机设备

Also Published As

Publication number Publication date
CN105070293B (zh) 2018-08-21

Similar Documents

Publication Publication Date Title
CN105070293A (zh) 基于深度神经网络的音频带宽扩展编码解码方法及装置
CN101140759B (zh) 语音或音频信号的带宽扩展方法及系统
CN101276587B (zh) 声音编码装置及其方法和声音解码装置及其方法
CN101577605B (zh) 基于滤波器相似度的语音lpc隐藏和提取算法
CN103778919B (zh) 基于压缩感知和稀疏表示的语音编码方法
CN101527138B (zh) 超宽带扩展编码、解码方法、编解码器及超宽带扩展系统
CN102194457B (zh) 音频编解码方法、系统及噪声水平估计方法
CN103366755B (zh) 对音频信号进行编码和解码的方法和设备
JP5695074B2 (ja) 音声符号化装置および音声復号化装置
CN101809657A (zh) 用于噪声填充的方法和设备
CN102543086B (zh) 一种基于音频水印的语音带宽扩展的装置和方法
CN101676993A (zh) 用于人工扩展语音信号的带宽的方法和装置
CN101206860A (zh) 一种可分层音频编解码方法及装置
CN101458930A (zh) 带宽扩展中激励信号的生成及信号重建方法和装置
CN101430880A (zh) 一种背景噪声的编解码方法和装置
CN105280190A (zh) 带宽扩展编码和解码方法以及装置
Chen et al. An audio watermark-based speech bandwidth extension method
CN101620854B (zh) 频带扩展的方法、系统和设备
CN107221334A (zh) 一种音频带宽扩展的方法及扩展装置
CN101192410B (zh) 一种在编解码中调整量化质量的方法和装置
CN104392726A (zh) 编码设备和解码设备
Lin et al. Speech enhancement for low bit rate speech codec
Gajjar et al. Artificial bandwidth extension of speech & its applications in wireless communication systems: A review
CN101436406B (zh) 音频编解码器
CN103854655A (zh) 一种低码率语音编码器以及解码器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant