CN105070293A

CN105070293A - 基于深度神经网络的音频带宽扩展编码解码方法及装置

Info

Publication number: CN105070293A
Application number: CN201510549716.1A
Authority: CN
Inventors: 胡瑞敏; 姜林; 胡霞; 王晓晨; 张茂胜; 涂卫平; 李登实
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2015-08-31
Filing date: 2015-08-31
Publication date: 2015-11-18
Anticipated expiration: 2035-08-31
Also published as: CN105070293B

Abstract

本发明公开了一种基于深度神经网络的音频带宽扩展编码解码方法，装置包括编码单元与解码单元。编码单元包络预处理模块、高频参数提取模块、低频编码模块、码流生成模块；解码单元包括码流输入模块、高频参数解码模块、低频信号解码模块、自编码器参数预测模块、深度神经网络精细结构预测模块、高频信号重构模块、信号合成模块。本发明首先利用信号低频部分与高频部分存在的自相关性，使用深度神经网络预测的方法，预测高频部分的精细结构。再将精细结构与编码端得到高频部分的边信息相结合，重构出信号的高频部分。最后将信号高频部分与低频部分融合，得到最终的恢复信号。本发明相比传统方法在码率上大幅降低，且音质与传统方法相当。

Description

基于深度神经网络的音频带宽扩展编码解码方法及装置

技术领域

本发明属于音频编码技术领域，尤其涉及一种基于深度神经网络的音频带宽扩展编码解码方法及装置。

背景技术

随着人们对音质要求的提高以及移动终端用户数量的不断增加，音频编码效率的要求也日渐提高。音频带宽扩展技术与现有音频编码方式相比具有高效、低码率的优势。其主要思想是利用信号的低频部分与高频部分的相关性对高频进行编码，以提高音质、降低编码码率的目的。传统的音频带宽扩展在编码端提取高频参数并传输到解码端，解码端将解码后的低频信号复制到高频，再利用高频参数对其进行调整得到高频信号。该方法利用了高低频信号间的相关性，但当高低频信号的相关性较弱时，高频信号的重建质量降低。

发明内容

深度神经网络在图像、音频信号的编码、恢复、分类、重构有着重要的作用。本发明针对传统方法中高低频信号间相关性较弱时造成编码质量不佳的问题，提供了一种基于深度神经网络的音频带宽扩展编码解码方法及装置，利用多层神经网络预测信号高频部分，减少信号高频部分需编码的数据量，以获得较优的传输效率。

本发明的方法所采用的技术方案是：基于深度神经网络的音频带宽扩展编码解码方法，其特征在于，包括编码方法和解码方法；

所述的编码方法，其具体实现包括以下步骤：

步骤A1：将输入待处理信号进行分帧处理，再滤除频率在50Hz以下的超低频部分(这部分人耳感知度较低)；处理后的信号分别通过高通滤波、低通滤波，最终得到信号的高频部分S_HF与信号的低频部分S_LF；

步骤A2：将步骤1所得信号高频部分S_HF进行修正离散余弦变换(简称MDCT)，得到信号高频部分的频域系数然后对该频域系数划分子带，进行包络提取得到高频频域包络参数Env(i)；

步骤A3：将步骤1所得信号低频部分S_LF通过低频编码器进行编码，得到低频编码参数；

步骤A4：将步骤A2中得到的高频频域包络参数Env(i)通过矢量量化，与步骤A3中得到的低频编码参数同时传送至码流；

所述的解码方法，其具体实现包括以下步骤：

步骤B1：从输入码流中分别提取已通过矢量量化的高频频域包络参、低频编码参数；

步骤B2：解码已通过矢量量化的高频频域包络参数Env(i)，得到高频部分的频域包络信息Env(i)；

步骤B3：使用与步骤A3中采用的低频编码对应的方法解码，得到信号低频部分时域信息S'_LF和低频规范化系数

步骤B4：使用逐层贪婪训练方法，训练得到自编码器的权重参数θ＝{W⁽⁰⁾,W⁽¹⁾,…,W^(k),b⁽¹⁾,b⁽²⁾,…,b^(k)}，并确定迭代次数k。其中，W⁽⁰⁾∈R^m1×n表示权重矩阵，b⁽⁰⁾∈R^m1表示偏置矢量，R^m×n表示m×n的实数矩阵；

步骤B5：将步骤B3解码得到的低频规范化系数输入到第一个隐藏层h₁，再与步骤B4中得到的权重参数θ对应相乘相加，最后利用非线性激活函数f(·)，得到下一层每一单元的激活值依次递推，得到自编码器网络的输出y∈Rⁿ，也就是最终信号高频部分的精细结构信息Fine_stru(i,j)；其中Rⁿ表示1×n维实数矩阵。

步骤B6：将步骤B5中得到的信号高频部分的精细结构信息Fine_stru(i,j)与步骤B2中计算得到的信号高频部分的频域包络信息Env(i)相乘，生成信号高频部分的频域信息；

步骤B7：将步骤B6中得到的信号高频部分的频域信息进行修正离散余弦变换的逆变换(简称IMDCT)，得到信号高频部分时域信息S'_HF，再与步骤B3中得到的解码后的信号低频部分时域信息S'_LF叠加，利用S_l'_ater＝S'_LF+S'_HF,得到最终的输出信号。

作为优选，步骤A2中所述的信号高频部分的频域包络参数Env(i)的计算公式为：

其中Env(i)表示当前帧第i个子带的能量，M是子带的长度。

作为优选，步骤B5中所述的利用信号低频部分的编码参数来推算信号高频部分的精细结构信息Fine_stru(i,j)，其具体实现包括以下子步骤：

步骤B5.1：将步骤B3解码得到的低频规范化系数输入到第一个隐藏层h₁，h₁(x)∈R^m1的表示为：

h₁(x)＝f(W⁽⁰⁾x+b⁽⁰⁾)；

a_{1}^{(2)} = f (W_{11}^{(1)} x_{1} + W_{12}^{(1)} x_{2} + W_{13}^{(1)} x_{3} + b_{1}^{(1)})

其中，

a_{2}^{(2)} = f (W_{21}^{(1)} x_{1} + W_{22}^{(1)} x_{2} + W_{23}^{(1)} x_{3} + b_{2}^{(1)});

a_{3}^{(2)} = f (W_{31}^{(1)} x_{1} + W_{32}^{(1)} x_{2} + W_{33}^{(1)} x_{3} + b_{3}^{(1)})

f(·)是非线性激活函数，表示第l层第i单元的激活值，为h_i(x)中的元素；是第l层第j单元与第l+1层第i单元之间的联接参数，是第l+1层第i单元的偏置项；

步骤B5.2：因自编码器的拓扑结构完全依赖于输入层k的大小和每层隐藏单元个数m_i，故对于其他层来说，当前层的输入是前一层的输出，而当前层的输出又可作为下一层的输入，每个隐藏层的表示如下：

h₂(h₁)＝f(W⁽²⁾h₁+b⁽²⁾)

·

h_i(h_i-1)＝f(W⁽ⁱ⁾h_i+b⁽ⁱ⁾)；

·

h_k(h_k-1)＝f(W^(k)h_k-1+b^(k))

此处k表示隐藏层的个数，m_i表示每个隐藏层中的单元个数；

步骤B5.3：以此模式顺序迭代k次，得到自编码器网络的输出y∈Rⁿ，输出y在隐藏层h_k之后进行重建，如下式：

y＝f(w^(k)h_k+b^(k))

其中，迭代次数k，权重参数偏置项均由步骤B3参数训练确定。

作为优选，步骤B4中所述的逐层贪婪训练方法，其具体实现包括以下子步骤：

步骤B4.1：参见图3，自编码器由输入层、输出层以及一定数量的隐藏层组成。将音频数据集中的信号依次替代自编码器结构中的输入信号x，再在输入信号x上训练第一个隐藏层的权重参数此处表示第一层第j单元与第二层第i单元之间的联接参数(也就是权重)，表示第一层第i单元的偏置项；

步骤B4.2：利用步骤B4.1获得的第一个隐藏层的权重参数和低频规范化系数计算第一层的隐藏单元的激活值，然后训练第二层得到第二个隐藏层的权重参数

步骤B4.3：重复训练后面每一层，直到最后一层，得到每一层的自编码器权重参数

作为优选，步骤B5的具体实现包括以下子步骤：

h₁(x)＝f(W⁽⁰⁾x+b⁽⁰⁾)；

a_{1}^{(2)} = f (W_{11}^{(1)} x_{1} + W_{12}^{(1)} x_{2} + W_{13}^{(1)} x_{3} + b_{1}^{(1)})

其中，

a_{2}^{(2)} = f (W_{21}^{(1)} x_{1} + W_{22}^{(1)} x_{2} + W_{23}^{(1)} x_{3} + b_{2}^{(1)});

a_{3}^{(2)} = f (W_{31}^{(1)} x_{1} + W_{32}^{(1)} x_{2} + W_{33}^{(1)} x_{3} + b_{3}^{(1)})

h₂(h₁)＝f(W⁽²⁾h₁+b⁽²⁾)

·

h_i(h_i-1)＝f(W⁽ⁱ⁾h_i+b⁽ⁱ⁾)；

·

h_k(h_k-1)＝f(W^(k)h_k-1+b^(k))

此处k表示隐藏层的个数，m_i表示每个隐藏层中的单元个数；

y＝f(w^(k)h_k+b^(k))

本发明的装置所采用的技术方案是：基于深度神经网络的音频带宽扩展编码解码装置，其特征在于：包括编码单元与解码单元；

所述的编码单元包含预处理模块、高频参数提取模块、低频编码模块、码流生成模块；

所述的解码单元包含码流输入模块、高频参数解码模块、低频信号解码模块、自编码器参数预测模块、深度神经网络精细结构预测模块、高频信号重构模块、信号合成模块；

所述的预处理模块用于将输入待处理时域信号先进行分帧，并滤除较低频部分，再将其分别通过高通滤波器、低通滤波器，得到信号高频部分输入高频参数提取模块，信号低频部分送入低频编码模块；

所述的高频参数提取模块用于提取信号高频部分的包络参数，将预处理模块产生的信号高频部分进行修正离散余弦变换，得到信号高频部分的频域表示形式，再将信号高频部分的频域表示式均匀分成M个子带，分别计算每个子带的包络参数，送入码流生成模块；

所述的低频编码模块用于产生信号低频部分的编码参数，提取预处理模块产生的信号低频部分的编码参数，送入码流生成模块；

所述的码流生成模块用于生成编码码流，整合高频参数提取模块中产生的子带包络参数与低频编码模块中产生的编码参数，共同送入码流；

所述的码流输入模块用于提取码流中的高低频参数，将得到的高频子带包络参数送入高频参数解码模块，低频编码参数送入低频信号解码模块；

所述的高频参数解码模块用于解码信号高频部分的频域包络信息，将解码后的信号高频部分的频域包络信息送入高频信号重构模块；

所述的低频信号解码模块用于解码信号低频部分的时域信息，使用与编码单元低频编码模块中采用方式对应的方法解码，将得到的信号低频部分时域信息送入深度神经网络精细结构预测模块与高频信号重构模块；

所述的自编码器参数预测模块用于训练预测精细结构的过程中需要使用的自编码器的权重参数，选定实验中采用的音频数据库，将数据库中的一部分用于训练，另一部分用于测试；首先，对待训练和测试的数据集进行归一化，再使用逐层贪婪训练的方法，对每一层的权重参数与偏置项进行逐层训练，直到最后一层；最后再采用后向反馈方法对整个网络进行微调；将输出自编码器的权重参数输入深度神经网络精细结构预测模块；

所述的深度神经网络精细结构预测模块用于使用解码得到的信号低频部分参数来预测信号高频部分的精细结构，将信号低频部分的参数输入该自编码器，使用非线性激活函数将其输入第一个隐藏层，再将第一个隐藏层的数据用同样的方式输入第二个隐藏层，逐层向下，最终输出预测的高频部分精细结构，将该精细结构输入到高频信号重构模块；

所述的高频信号重构模块用于将高频参数解码模块中得到的信号高频部分的包络信息与深度神经网络精细结构预测模块得到的预测的高频部分精细结构分子带相乘，得到信号高频部分的频域表示形式，输入信号合成模块；

所述的信号合成模块，就是将恢复信号的高频部分与低频部分叠加，得到最终的信号输出；首先，将高频信号重构模块中得到的信号高频部分的频域信息进行修正离散余弦变换的逆变换，得到信号高频部分的时域表示；再将信号高频部分的时域表示与低频信号解码模块中得到的信号低频部分的时域表示相加，输出最终合成信号。

本发明通过深度神经网络从低频信号预测出高频信号的精细结构，再利用高频参数与高频信号的精细结构恢复出高频信号，该发明生成的高频信号相比传统方法(如SBR技术)在码率上大幅降低，且音质与传统方法相当。

附图说明

图1：是本发明实施例编码部分的方法流程图。

图2：是本发明实施例解码部分的方法流程图。

图3：是本发明实施例的深度神经网络精细结构预测的方法流程图。

图4：是本发明实施例的编码部分系统结构框图。

图5：是本发明实施例的解码部分系统结构框图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1、图2和图3，本发明提供的一种基于深度神经网络的音频带宽扩展编码解码方法，包括编码方法和解码方法；

请见图1，编码方法具体实现包括以下步骤：

本实施例中，输入信号的采样率为25.6kHz，帧长为20ms(每帧512个样点)，使用一阶有限冲击响应高通滤波器，滤除0～50Hz的超低频部分，分析滤波器得到高频部分的频率范围为6.4～12.8kHz，低频部分的频率范围为0～6.4kHz。

本实施例MDCT变换中使用50％交叠的正弦分析窗，以降低频谱泄漏的影响。然后对MDCT系数划分子带，进行包络提取得到包络参数Env(i)。

其中，高频部分的MDCT系数被均匀分成8个子带，包络参数Env(i)通过下式计算：

Env(i)表示当前帧第i个子带的能量，M是子带的长度。

步骤A4：将步骤A2中得到的高频频域包络参数Env(i)通过矢量量化为16比特，与步骤A3中得到的低频编码参数同时传送至码流；

请见图2，解码方法具体实现包括以下步骤：

步骤B4：使用逐层贪婪训练方法，训练得到自编码器的权重参数θ＝{W⁽⁰⁾,W⁽¹⁾,…,W^(k),b⁽¹⁾,b⁽²⁾,…,b^(k)}，并确定迭代次数k。其中，W⁽⁰⁾∈R^m1×n表示权重矩阵，b⁽⁰⁾∈R^m1表示偏置矢量，R^m×n表示m×n的实数矩阵(下同)；

计算信号高频部分精细结构需要使用自编码器，因此在此之前必须训练得到自编码器的权重参数θ＝{W⁽⁰⁾,W⁽¹⁾,…,W^(k),b⁽¹⁾,b⁽²⁾,…,b^(k)}。本实施例训练集采用的是TIMIT语音库，自然声以及音乐，共包含120万帧(0.2ms每帧，100万帧用于训练，20万帧用于测试)。训练和测试数据集均进行了归一化，保证训练集中每一个元素对最终判决结果的影响程度相同。

参见图3，逐层贪婪训练方法具体实现包括以下子步骤：

步骤B4.1：自编码器由输入层、输出层以及一定数量的隐藏层组成。将音频数据集中的信号依次替代自编码器结构中的输入信号x，再在输入信号x上训练第一个隐藏层的权重参数此处表示第一层第j单元与第二层第i单元之间的联接参数(也就是权重)，表示第一层第i单元的偏置项；

具体实现包括以下子步骤：

h₁(x)＝f(W⁽⁰⁾x+b⁽⁰⁾)；

a_{1}^{(2)} = f (W_{11}^{(1)} x_{1} + W_{12}^{(1)} x_{2} + W_{13}^{(1)} x_{3} + b_{1}^{(1)})

其中，

a_{2}^{(2)} = f (W_{21}^{(1)} x_{1} + W_{22}^{(1)} x_{2} + W_{23}^{(1)} x_{3} + b_{2}^{(1)});

a_{3}^{(2)} = f (W_{31}^{(1)} x_{1} + W_{32}^{(1)} x_{2} + W_{33}^{(1)} x_{3} + b_{3}^{(1)})

h₂(h₁)＝f(W⁽²⁾h₁+b⁽²⁾)

·

h_i(h_i-1)＝f(W⁽ⁱ⁾h_i+b⁽ⁱ⁾)；

·

h_k(h_k-1)＝f(W^(k)h_k-1+b^(k))

此处k表示隐藏层的个数，m_i表示每个隐藏层中的单元个数；

y＝f(w^(k)h_k+b^(k))

信号高频部分频域值可由下式计算：

其中(1≤i≤8,1≤j≤M)；

其中，表示生成的当前帧的第i个子带的第j个MDCT系数，Fine_stru(i,j)是规范化的第i个子带第j个MDCT系数的高频精细结构信息，是第i个子带的解码能量。

此方式利用深度神经网络预测的每一子带的精细结构与该子带对应包络权值的乘积，拟合信号高频部分的频域值。实验表明，相较于传统直接利用低频信号的精细结构与高频包络相乘的拟合方式而言，该方式无论从数据量大小还是与原始信号的拟合程度而言都具有优势。

请见图4、图5，本发明提供的一种基于深度神经网络的音频带宽扩展编码解码装置，包括编码单元与解码单元；

编码单元包含预处理模块101、高频参数提取模块102、低频编码模块103、码流生成模块104；

解码单元包含码流输入模块201、高频参数解码模块202、低频信号解码模块203、自编码器参数预测模块204、深度神经网络精细结构预测模块205、高频信号重构模块206、信号合成模块207；

预处理模块101用于将输入待处理时域信号先进行分帧，并滤除较低频部分，再将其分别通过高通滤波器、低通滤波器，得到信号高频部分输入高频参数提取模块102，信号低频部分送入低频编码模块103；

高频参数提取模块102用于提取信号高频部分的包络参数，将预处理模块101产生的信号高频部分进行修正离散余弦变换(简称MDCT)，得到信号高频部分的频域表示形式，再将信号高频部分的频域表示式均匀分成M个子带，分别计算每个子带的包络参数，送入码流生成模块104；

低频编码模块103用于产生信号低频部分的编码参数，提取预处理模块101产生的信号低频部分的编码参数，送入码流生成模块104；

码流生成模块104用于生成编码码流，整合高频参数提取模块102中产生的子带包络参数与低频编码模块103中产生的编码参数，共同送入码流；

码流输入模块201用于提取码流中的高低频参数，将得到的高频子带包络参数送入高频参数解码模块202，低频编码参数送入低频信号解码模块203；

高频参数解码模块202用于解码信号高频部分的频域包络信息，将解码后的信号高频部分的频域包络信息送入高频信号重构模块206；

低频信号解码模块203用于解码信号低频部分的时域信息，使用与编码单元低频编码模块103中采用方式对应的方法解码，将得到的信号低频部分时域信息送入深度神经网络精细结构预测模块205与高频信号重构模块206；

自编码器参数预测模块204用于训练预测精细结构的过程中需要使用的自编码器的权重参数，选定实验中采用的音频数据库，将数据库中的一部分用于训练，另一部分用于测试；首先，对待训练和测试的数据集进行归一化，再使用逐层贪婪训练的方法，对每一层的权重参数与偏置项进行逐层训练，直到最后一层；最后再采用后向反馈方法对整个网络进行微调；将输出自编码器的权重参数输入深度神经网络精细结构预测模块205；

深度神经网络精细结构预测模块205用于使用解码得到的信号低频部分参数来预测信号高频部分的精细结构，将信号低频部分的参数输入该自编码器，使用非线性激活函数将其输入第一个隐藏层，再将第一个隐藏层的数据用同样的方式输入第二个隐藏层，逐层向下，最终输出预测的高频部分精细结构，将该精细结构输入到高频信号重构模块206；

高频信号重构模块206用于将高频参数解码模块202中得到的信号高频部分的包络信息与深度神经网络精细结构预测模块205得到的预测的高频部分精细结构分子带相乘，得到信号高频部分的频域表示形式，输入信号合成模块7；

信号合成模块207，就是将恢复信号的高频部分与低频部分叠加，得到最终的信号输出；首先，将高频信号重构模块206中得到的信号高频部分的频域信息进行修正离散余弦变换的逆变换(简称IMDCT)，得到信号高频部分的时域表示；再将信号高频部分的时域表示与低频信号解码模块203中得到的信号低频部分的时域表示相加，输出最终合成信号。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.基于深度神经网络的音频带宽扩展编码解码方法，其特征在于，包括编码方法和解码方法；

所述的编码方法，其具体实现包括以下步骤：

步骤A1：将输入待处理信号进行分帧处理，再滤除频率在50Hz以下的超低频部分；处理后的信号分别通过高通滤波、低通滤波，最终得到信号的高频部分S_HF与信号的低频部分S_LF；

步骤A2：将步骤1所得信号高频部分S_HF进行修正离散余弦变换，得到信号高频部分的频域系数然后对该频域系数划分子带，进行包络提取得到高频频域包络参数Env(i)；

所述的解码方法，其具体实现包括以下步骤：

步骤B4：使用逐层贪婪训练方法，训练得到自编码器的权重参数θ＝{W⁽⁰⁾,W⁽¹⁾,…,W^(k),b⁽¹⁾,b⁽²⁾,…,b^(k)}，并确定迭代次数k；其中，W⁽⁰⁾∈R^m1×n表示权重矩阵，b⁽⁰⁾∈R^m1表示偏置矢量，R^m×n表示m×n的实数矩阵；

步骤B5：将步骤B3解码得到的低频规范化系数输入到第一个隐藏层h₁，再与步骤B4中得到的权重参数θ对应相乘相加，最后利用非线性激活函数f(·)，得到下一层每一单元的激活值依次递推，得到自编码器网络的输出y∈Rⁿ，也就是最终信号高频部分的精细结构信息Fine_stru(i,j)；其中Rⁿ表示1×n维实数矩阵；

步骤B7：将步骤B6中得到的信号高频部分的频域信息进行修正离散余弦变换的逆变换，得到信号高频部分时域信息S'_HF，再与步骤B3中得到的解码后的信号低频部分时域信息S'_LF叠加，利用S_l'_ater＝S'_LF+S'_HF,得到最终的输出信号。

2.根据权利要求1所述的基于深度神经网络的音频带宽扩展编码解码方法，其特征在于，步骤A2中所述的高频部分的频域包络参数Env(i)的计算公式为：

其中Env(i)表示当前帧第i个子带的能量，M是子带的长度。

3.根据权利要求1所述的基于深度神经网络的音频带宽扩展编码解码方法，其特征在于，步骤B4中所述的逐层贪婪训练方法，其具体实现包括以下子步骤：

步骤B4.1：自编码器由输入层、输出层以及一定数量的隐藏层组成。将音频数据集中的信号依次替代自编码器结构中的输入信号x，再在输入信号x上训练第一个隐藏层的权重参数此处表示第一层第j单元与第二层第i单元之间的联接参数，表示第一层第i单元的偏置项；

4.根据权利要求1所述的基于深度神经网络的音频带宽扩展编码解码方法，其特征在于，步骤B5中所述的利用信号低频部分的编码参数来推算信号高频部分的精细结构信息Fine_stru(i,j)，其具体实现包括以下子步骤：

h₁(x)＝f(W⁽⁰⁾x+b⁽⁰⁾)；

其中，

\begin{matrix} a_{1}^{(2)} = f (W_{11}^{(1)} x_{1} + W_{12}^{(1)} x_{2} + W_{13}^{(1)} x_{3} + b_{1}^{(1)}) \\ a_{2}^{(2)} = f (W_{21}^{(1)} x_{1} + W_{22}^{(1)} x_{2} + W_{23}^{(1)} x_{3} + b_{2}^{(1)}) \\ a_{3}^{(2)} = f (W_{31}^{(1)} x_{1} + W_{32}^{(1)} x_{2} + W_{33}^{(1)} x_{3} + b_{3}^{(1)}) \end{matrix};

\begin{matrix} h_{2} (h_{1}) = f (W^{(2)} h_{1} + b^{(2)}) \\ \cdot \\ \cdot \\ \cdot \\ h_{i} (h_{i - 1}) = f (W^{(i)} h_{i} + b^{(i)}) \\ \cdot \\ \cdot \\ \cdot \\ h_{k} (h_{k - 1}) = f (W^{(k)} h_{k - 1} + b^{(k)}) \end{matrix};

此处k表示隐藏层的个数，m_i表示每个隐藏层中的单元个数；

y＝f(w^(k)h_k+b^(k))

5.基于深度神经网络的音频带宽扩展编码解码装置，其特征在于：包括编码单元与解码单元；

所述的编码单元包含预处理模块(101)、高频参数提取模块(102)、低频编码模块(103)、码流生成模块(104)；

所述的解码单元包含码流输入模块(201)、高频参数解码模块(202)、低频信号解码模块(203)、自编码器参数预测模块(204)、深度神经网络精细结构预测模块(205)、高频信号重构模块(206)、信号合成模块(207)；

所述的预处理模块(101)用于将输入待处理时域信号先进行分帧，并滤除较低频部分，再将其分别通过高通滤波器、低通滤波器，得到信号高频部分输入高频参数提取模块(102)，信号低频部分送入低频编码模块(103)；

所述的高频参数提取模块(102)用于提取信号高频部分的包络参数，将预处理模块(101)产生的信号高频部分进行修正离散余弦变换，得到信号高频部分的频域表示形式，再将信号高频部分的频域表示式均匀分成M个子带，分别计算每个子带的包络参数，送入码流生成模块(104)；

所述的低频编码模块(103)用于产生信号低频部分的编码参数，提取预处理模块(101)产生的信号低频部分的编码参数，送入码流生成模块(104)；

所述的码流生成模块(104)用于生成编码码流，整合高频参数提取模块(102)中产生的子带包络参数与低频编码模块(103)中产生的编码参数，共同送入码流；

所述的码流输入模块(201)用于提取码流中的高低频参数，将得到的高频子带包络参数送入高频参数解码模块(202)，低频编码参数送入低频信号解码模块(203)；

所述的高频参数解码模块(202)用于解码信号高频部分的频域包络信息，将解码后的信号高频部分的频域包络信息送入高频信号重构模块(206)；

所述的低频信号解码模块(203)用于解码信号低频部分的时域信息，使用与编码单元低频编码模块(103)中采用方式对应的方法解码，将得到的信号低频部分时域信息送入深度神经网络精细结构预测模块(205)与高频信号重构模块(206)；

所述的自编码器参数预测模块(204)用于训练预测精细结构的过程中需要使用的自编码器的权重参数，选定实验中采用的音频数据库，将数据库中的一部分用于训练，另一部分用于测试；首先，对待训练和测试的数据集进行归一化，再使用逐层贪婪训练的方法，对每一层的权重参数与偏置项进行逐层训练，直到最后一层；最后再采用后向反馈方法对整个网络进行微调；将输出自编码器的权重参数输入深度神经网络精细结构预测模块(205)；

所述的深度神经网络精细结构预测模块(205)用于使用解码得到的信号低频部分参数来预测信号高频部分的精细结构，将信号低频部分的参数输入该自编码器，使用非线性激活函数将其输入第一个隐藏层，再将第一个隐藏层的数据用同样的方式输入第二个隐藏层，逐层向下，最终输出预测的高频部分精细结构，将该精细结构输入到高频信号重构模块(206)；

所述的高频信号重构模块(206)用于将高频参数解码模块(202)中得到的信号高频部分的包络信息与深度神经网络精细结构预测模块(205)得到的预测的高频部分精细结构分子带相乘，得到信号高频部分的频域表示形式，输入信号合成模块(7)；

所述的信号合成模块(207)，就是将恢复信号的高频部分与低频部分叠加，得到最终的信号输出；首先，将高频信号重构模块(206)中得到的信号高频部分的频域信息进行修正离散余弦变换的逆变换，得到信号高频部分的时域表示；再将信号高频部分的时域表示与低频信号解码模块(203)中得到的信号低频部分的时域表示相加，输出最终合成信号。