CN104966517A

CN104966517A - 一种音频信号增强方法和装置

Info

Publication number: CN104966517A
Application number: CN201510295355.2A
Authority: CN
Inventors: 夏丙寅; 周璇; 苗磊
Original assignee: Huawei Technologies Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2015-06-02
Filing date: 2015-06-02
Publication date: 2015-10-07
Anticipated expiration: 2035-06-02
Also published as: WO2016192410A1; CN104966517B

Abstract

本发明实施例公开了一种音频信号增强方法和装置，该方法可包括：解码输入的音频信号的比特流，获取所述音频信号的待增强帧的谱包络参数；使用预先为所述音频信号中包含的噪声类型设置的神经网络对所述音频信号的待增强帧的谱包络参数进行增强处理，以获取所述待增强帧的谱包络参数的纯净估计值；对所述纯净估计值进行量化，得到所述待增强帧的谱包络参数的纯净估计值的量化索引，并将所述量化索引替换掉所述待增强帧的谱包络参数对应的比特。本发明实施例可以降低音频信号的增强过程中计算复杂度和附加时延。

Description

一种音频信号增强方法和装置

技术领域

本发明涉及通信领域，尤其涉及一种音频信号增强方法和装置。

背景技术

在通信系统中，音频信号往往都会受到噪声的干扰，导致音频信号质量下降。目前，通信领域中主要是通过音频增强技术实现从被噪声污染的音频信号中提取尽可能的干净信号，以提高音频信号质量。由于实践中需要考虑终端设备在计算能力、存储空间和成本等方面的限制，往往使用网络设备实现对音频信号的增强。其中，在网络设备对音频信号进行语音增强过程中包括对音频信号进行完全解码、增强处理和重新编码的操作。由于需要对音频信号进行完全解码，再对解码后的数据进行处理，从而目前音频信号的增强过程中计算复杂度和附加时延都会比较高。

发明内容

本发明实施例提供了一种音频信号增强方法和装置，可以降低音频信号的增强过程中计算复杂度和附加时延。

第一方面，本发明实施例提供一种音频信号增强方法，包括：

解码输入的音频信号的比特流，获取所述音频信号的待增强帧的谱包络参数；

使用预先为所述音频信号中包含的噪声类型设置的神经网络对所述音频信号的待增强帧的谱包络参数进行增强处理，以获取所述待增强帧的谱包络参数的纯净估计值；

对所述纯净估计值进行量化，得到所述待增强帧的谱包络参数的纯净估计值的量化索引，并将所述量化索引替换掉所述待增强帧的谱包络参数对应的比特。

在第一方面的第一种可能的实现方式中，所述方法还包括：

解码输入的音频信号的比特流，获取所述音频信号的音频信号帧的谱包络参数；

使用所述谱包络参数对所述音频信号帧进行噪声分类，以获取所述音频信号帧的噪声类型；

在所述音频信号中包括所述音频信号帧在内的N个帧内中统计所述N个帧包含的每一种噪声类型的帧数量，选择帧数量最多的噪声类型作为所述音频信号中包含的噪声类型，其中，所述N为大于或者等于1的整数。

结合第一方面第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述使用所述谱包络参数对所述音频信号帧进行噪声分类，以获取所述音频信号帧的噪声类型，包括：

从输入的音频信号的比特流中获得对应于所述音频信号帧的码书增益参数，利用所述码书增益参数和所述谱包络参数计算所述音频信号帧对预设的M个噪声模型中每个噪声模型的后验概率，选择所述M个噪声模型中后验概率最大的噪声模型作为所述音频信号帧的噪声类型，其中，M为大于或者等于1的整数。

结合第一方面或者第一方面的第一种上可能的实现方式或者第一方面第二种可能的实现方式，在第一方面的第三种可能的实现方式中，所述方法还包括：

对所述待增强帧的自适应码书增益和代数码书增益进行联合调整，分别对联合调整后的自适应码书增益和代数码书增益进行量化，得到所述待增强帧的联合调整后的自适应码书增益的量化索引和代数码书增益的量化索引，其中，所述待增强帧的自适应码书增益和代数码书增益是对所述待增强帧进行解码操作获取的；

将所述待增强帧的联合调整后的自适应码书增益的量化索引替换掉所述待增强帧的自适应码书增益对应的比特，将所述待增强帧的联合调整后的代数码书增益的量化索引替换掉所述待增强帧的代数码书增益对应的比特。

结合第一方面或者第一方面的第一种上可能的实现方式或者第一方面第二种可能的实现方式，在第一方面的第四种可能的实现方式中，所述使用预先为所述音频信号中包含的噪声类型设置的神经网络对所述音频信号的待增强帧的谱包络参数进行增强处理，以获取所述待增强帧的谱包络参数的纯净估计值，包括：

计算所述音频信号的待增强帧与若干帧的谱包络参数的均值，其中，所述若干帧为所述音频信号中在所述待增强帧之前的若干帧；

计算所述待增强帧的去均值的谱包络参数，其中，所述去均值的谱包络参数为所述待增强帧的谱包络参数与所述均值的差值；

使用预先为所述音频信号中包含的噪声类型设置的神经网络对所述去均值的谱包络参数进行增强处理，以得到所述去均值的谱包络参数的纯净估计值；

将所述去均值的谱包络参数的纯净估计值与预先获取的纯净音频谱包络参数的均值相加，以得到所述待增强帧的谱包络参数的纯净估计值。

结合第一方面第一种可能的实现方式，在第一方面的第五种可能的实现方式中，所述在所述音频信号中包括所述音频信号帧在内的N个帧内中统计所述N个帧包含的每一种噪声类型的帧数量，选择帧数量最多的噪声类型作为所述音频信号中包含的噪声类型，包括：

在所述音频信号中包括所述音频信号帧在内的起始段的N个帧内中统计所述N个帧包含的每一种噪声类型的帧数量，选择帧数量最多的噪声类型作为所述音频信号中包含的噪声类型；或者

在所述音频信号中包括所述音频信号帧在内的且不存在语音信号的N个帧中统计所述N个帧包含的每一种噪声类型的帧数量，选择帧数量最多的噪声类型作为所述音频信号中包含的噪声类型。

结合第一方面或者第一方面的第一种上可能的实现方式或者第一方面第二种可能的实现方式，在第一方面的第六种可能的实现方式中，所述方法还包括：

当检测到所述音频信号中连续的多帧的噪声类型与之前判断的所述音频信号中包含的噪声类型不同时，在所述连续的多帧内统计所述连续的多帧包含的每种噪声类型的帧数量，选择帧数量最多的噪声类型作为所述音频信号的当前噪声类型；

所述使用预先为所述音频信号的噪声类型设置的神经网络对所述音频信号的待增强帧的谱包络参数进行增强处理，以获取所述待增强帧的谱包络参数的纯净估计值，包括：

使用预先为所述音频信号的当前噪声类型设置的神经网络对所述音频信号的待增强帧的谱包络参数进行增强处理，以获取所述待增强帧的谱包络参数的纯净估计值。

结合第一方面上述任一种可能的实现方式，在第一方面的第七种可能的实现方式中，所述神经网络包括：

递归深度神经网络。

第二方面，本发明提供一种音频信号增强装置，包括：解码单元、增强单元和替换单元，其中：

所述解码单元，用于解码输入的音频信号的比特流，获取所述音频信号的待增强帧的谱包络参数；

所述增强单元，用于使用预先为所述音频信号中包含的噪声类型设置的神经网络对所述音频信号的待增强帧的谱包络参数进行增强处理，以获取所述待增强帧的谱包络参数的纯净估计值；

所述替换单元，用于对所述纯净估计值进行量化，得到所述待增强帧的谱包络参数的纯净估计值的量化索引，并将所述量化索引替换掉所述待增强帧的谱包络参数对应的比特。

在第二方面的第一种可能的实现方式中，所述解码单元还用于解码输入的音频信号的比特流，获取所述音频信号的音频信号帧的谱包络参数；

所述装置还包括：

分类单元，用于使用所述谱包络参数对所述音频信号帧进行噪声分类，以获取所述音频信号帧的噪声类型；

统计单元，用于在所述音频信号中包括所述音频信号帧在内的N个帧内统计所述N个帧包含的每一种噪声类型的帧数量，选择帧数量最多的噪声类型作为所述音频信号中包含的噪声类型，其中，所述N为大于或者等于1的整数；

结合第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，所述分类单元用于从输入的音频信号的比特流中获得对应于所述音频信号帧的码书增益参数，利用所述码书增益参数和所述谱包络参数计算所述音频信号帧对预设的M个噪声模型中每个噪声模型的后验概率，选择所述M个噪声模型中后验概率最大的噪声模型作为所述音频信号帧的噪声类型。

结合第二方面或者第二方面的第一种可能的实现方式或者第二方面的第二种可能的实现方式，在第二方面的第三种可能的实现方式中，所述装置还包括：

调整单元，用于对所述待增强帧的自适应码书增益和代数码书增益进行联合调整，分别对联合调整后的自适应码书增益和代数码书增益进行量化，得到所述待增强帧的联合调整后的自适应码书增益的量化索引和代数码书增益的量化索引，其中，所述待增强帧的自适应码书增益和代数码书增益是对所述待增强帧进行解码操作获取的；

所述替换单元还用于将所述待增强帧的联合调整后的自适应码书增益的量化索引替换掉所述待增强帧的自适应码书增益对应的比特，将所述待增强帧的联合调整后的代数码书增益的量化索引替换掉所述待增强帧的代数码书增益对应的比特。

结合第二方面或者第二方面的第一种可能的实现方式或者第二方面的第二种可能的实现方式，在第二方面的第四种可能的实现方式中，所述增强单元包括：

第一计算单元，用于计算所述音频信号的待增强帧与若干帧的谱包络参数的均值，其中，所述若干帧为所述音频信号中在所述待增强帧之前的若干帧；

第二计算单元，用于计算所述待增强帧的去均值的谱包络参数，其中，所述去均值的谱包络参数为所述待增强帧的谱包络参数与所述均值的差值；

第三计算单元，用于使用预先为所述音频信号的噪声类型设置的神经网络对所述去均值的谱包络参数进行增强处理，以得到所述去均值的谱包络参数的纯净估计值；

第四计算单元，用于将所述去均值的谱包络参数的纯净估计值与预先获取的纯净音频谱包络参数的均值相加，以得到所述待增强帧的谱包络参数的纯净估计值。

结合第二方面的第四种可能的实现方式，在第二方面的第五种可能的实现方式中，所述统计单元用于在所述音频信号中包括所述音频信号帧在内的起始段的N个帧内中统计所述N个帧包含的每一种噪声类型的帧数量，选择帧数量最多的噪声类型作为所述音频信号中包含的噪声类型；或者

所述统计单元用于在所述音频信号中包括所述音频信号帧在内的且不存在语音信号的N个帧中统计所述N个帧包含的每一种噪声类型的帧数量，选择帧数量最多的噪声类型作为所述音频信号中包含的噪声类型。

结合第二方面的第一种可能的实现方式，在第二方面的第六种可能的实现方式中，所述统计单元还用于当检测到所述音频信号中连续的多帧的噪声类型与之前判断的所述音频信号中包含的噪声类型不同时，在所述连续的多帧内统计所述连续的多帧包含的每种噪声类型的帧数量，选择帧数量最多的噪声类型作为所述音频信号的当前噪声类型；

所述增强单元用于使用预先为所述音频信号的当前噪声类型设置的神经网络对所述音频信号的待增强帧的谱包络参数进行增强处理，以获取所述待增强帧的谱包络参数的纯净估计值。

结合第二方面上述任一种可能的实现方式，在第二方面的第八种可能的实现方式中，所述神经网络包括：

递归深度神经网络。

上述技术方案中，解码输入的音频信号的比特流，获取所述音频信号的待增强帧的谱包络参数；使用预先为所述音频信号中包含的噪声类型设置的神经网络对所述音频信号的待增强帧的谱包络参数进行增强处理，以获取所述待增强帧的谱包络参数的纯净估计值；对所述纯净估计值进行量化，得到所述待增强帧的谱包络参数的纯净估计值的量化索引，并将所述量化索引替换掉所述待增强帧的谱包络参数对应的比特。这样可以实现只需要对音频信号帧的谱包络参数对应的比特进行解码，即进行部分解码，从而可以降低音频信号的增强过程中计算复杂度和附加时延。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种音频信号增强方法的流程示意图；

图2是本发明实施例提供的另一种音频信号增强方法的流程示意图；

图3是本发明实施例提供的一种RDNN模型示意图；

图4是本发明实施例提供的另一种RDNN模型示意图；

图5是本发明实施例提供的一种GMM模型的结构示意图；

图6是本发明实施例提供的另一种音频信号增强方法的示意图；

图7是本发明实施例提供的一种音频信号增强装置的结构示意图；

图8是本发明实施例提供的另一种音频信号增强装置的结构示意图；

图9是本发明实施例提供的另一种音频信号增强装置的结构示意图；

图10是本发明实施例提供的另一种音频信号增强装置的结构示意图；

图11是本发明实施例提供的另一种音频信号增强装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，图1是本发明实施例提供的一种音频信号增强方法的流程示意图，如图1所示，包括以下步骤：

101、解码输入的音频信号的比特流，获取所述音频信号的待增强帧的谱包络参数。

本实施例中，上述待增强帧可以理解为上述音频信号的当前帧，即上述音频信号中当前输入的音频信号帧。另外，上述输入可以理解为本方法的输入，或者执行本方法的装置的输入。

另外，步骤101还可以理解为仅对上述待增强帧中谱包络参数对应的比特进行解码，其中，上述中谱包络参数对应的比特可以是该音频信号帧包括的比特流中为谱包络参数的比特。其中，上述谱包络参数可以包括：线谱频率(LineSpectral Frequencies，LSF)、导抗谱频率(Immittance Spectral Frequencies，ISF)或者线性预测系数(Linear Prediction Coefficients，LPC)等其他等价参数。

本实施例中，上述音频信号可以是语音信号或者音乐信号等比特流中包含谱包络参数的任意音频信号。

102、使用预先为所述音频信号中包含的噪声类型设置的神经网络对所述音频信号的待增强帧的谱包络参数进行增强处理，以获取所述待增强帧的谱包络参数的纯净估计值。

本实施例中，可以是预先设定多个神经网络，且每个神经网络与一种噪声类型对应，这样当上述音频信号的噪声类型确定后，就可以选择该噪声类型对应的神经网络进行增强处理。

另外，本实施例中，上述音频信号中包含的噪声类型可以是在对上述待增强帧进行解码之前获取的，例如：通过对上述音频信号的起始段的若干个帧的噪声类型统计获得的上述音频信号中包含的噪声类型；或者通过对上述音频信号的若干个不存在语音信号的帧的噪声类型统计获得的上述音频信号中包含的噪声类型等等。或者通过与上述待增强帧相邻的若干个帧的噪声类型统计获得的上述音频信号中包含的噪声类型。另外，上述音频信号中包含的噪声类型还可以是根据该音频信号的来源进行确认的，例如：打电话的语音信号可以根据电话双方的地理位置、通话时间或者历史语音信号的噪声类型等信息确认该语音信号的噪声类型，如通过电话双方的地理位置判断一方在某一工地时，那么就可以确定当前语音信号的噪声类型为工地对应的噪声类型，或者某一用户打电话时，该用户输出的语音信号中十次有九次的噪声类型都为噪声类型A时，那么，就可以根据该历史记录确定该用户在下一次打电话时输出的语音信号中包含的噪声类型为噪声类型A。

103、对所述纯净估计值进行量化，得到所述待增强帧的谱包络参数的纯净估计值的量化索引，并将所述量化索引替换掉所述待增强帧的谱包络参数对应的比特。

由于在对上述待增强帧进行解码时，只获取上述待增强帧的谱包络参数，而上述待增强帧中的其他参数可以不进行解码，从而步骤103将上述待增强帧的谱包络参数的纯净估计值的量化索引替换掉所述待增强帧的谱包络参数对应的比特后，就可以得到经过增强的待增强帧的比特流。

另外，本实施例中，上述方法可以应用于任意具备解码和计算功能的智能设备，例如：服务器、网络侧设备、个人计算机(Personal Computer，PC)、笔记本电脑、手机、平板电脑等智能设备。

本实施例中，解码输入的音频信号的比特流，获取所述音频信号的待增强帧的谱包络参数；使用预先为所述音频信号中包含的噪声类型设置的神经网络对所述音频信号的待增强帧的谱包络参数进行增强处理，以获取所述待增强帧的谱包络参数的纯净估计值；对所述纯净估计值进行量化，得到所述待增强帧的谱包络参数的纯净估计值的量化索引，并将所述量化索引替换掉所述待增强帧的谱包络参数对应的比特。这样可以实现只需要对音频信号帧的谱包络参数对应的比特进行解码，即进行部分解码，从而可以降低音频信号的增强过程中计算复杂度和附加时延。

请参阅图2，图2是本发明实施例提供的另一种音频信号增强方法的流程示意图，如图2所示，包括以下步骤：

201、解码输入的音频信号的比特流，获取所述音频信号的待增强帧的谱包络参数。

202、使用预先为所述音频信号中包含的噪声类型设置的神经网络对所述音频信号的待增强帧的谱包络参数进行增强处理，以获取所述待增强帧的谱包络参数的纯净估计值。

本实施例中，步骤202可以包括：

本实施例中，上述神经网络可以是递归深度神经网络或者其他神经网络，其中，使用递归深度神经网络(Recurrent Deep Neural Network，RDNN)时，由于RDNN中时域递归连接的存在，可有效提升谱包络调整结果的平滑性，从而改善音频信号质量，另外，基于RDNN的谱包络参数调整的方法还可以避免现有方法调整后的LPC滤波器不稳定的问题，从而可以提高算法鲁棒性，另外，基于RDNN的谱包络估计方法计算复杂度比较低，从而可有效提高运算速度。

下面对本实施例使用的RDNN进行详细介绍：

上述RDNN可以如图3所示，其中，图3中所示RDNN模型的相关符号解释如下：X_noisy表示上述去均值的谱包络参数(例如：含噪语音的去均值ISF特征)，表示上述去均值的谱包络参数的纯净估计值(例如：纯净语音去均值ISF特征的估计值)，h₁、h₂、h₃为隐层状态，W₁、W₂、W₃、W₄为各层之间的权重矩阵，b₁、b₂、b₃、b₄为各层的偏移量矢量，U为递归连接矩阵，m为帧标号。另外，图3所示的RDNN模型各层之间的映射关系描述如下：

显层到隐层1的映射关系为：

h₁(m)＝σ(W₁X_noisy(m)+b₁)

隐层1到隐层2的映射关系为：

h₂(m)＝σ(W₂h₁(m)+b₂)

隐层2到隐层3的映射关系为：

h₃(m)＝σ(W₃(h₂(m)+Uh₂(m-1))+b₃)

隐层3到输出层的映射关系为：

{\hat{X}}_{c l e a n} (m) = W_{4} h_{3} (m) + b_{4}

式中σ为Sigmoid激活函数。

另外，上述RDNN还可以如图4所示，其中，图4中所示RDNN模型的相关符号解释如下：X_noisy表示上述去均值的谱包络参数(例如：含噪语音的去均值ISF特征)，表示上述去均值的谱包络参数的纯净估计值(例如：纯净语音去均值ISF特征的估计值)，h₁、h₂、h₃为隐层状态，W₁、W₂、W₃、W₄为各层之间的权重矩阵，b₁、b₂、b₃、b₄为各层的偏移量矢量，U为递归连接矩阵，m为帧标号。另外，图4所示的RDNN模型各层之间的映射关系描述如下：

显层到隐层1的映射关系为：

h₁(m)＝σ(W₁X_noisy(m)+b₁)

隐层1到隐层2的映射关系为：

h₂(m)＝σ(W₂(h₁(m)+U₁h₁(m-1))+b₂)

隐层2到隐层3的映射关系为：

h₃(m)＝σ(W₃(h₂(m)+U₂h₂(m-1))+b₃)

隐层3到输出层的映射关系为：

{\hat{X}}_{c l e a n} (m) = W_{4} (h_{3} (m) + U_{3} h_{3} (m - 1)) + b_{4}

本模型结构与图3所示的RDNN模型结构相比，在隐层1和隐层3增加了递归连接。较多的递归连接有利于RDNN模型对语音信号谱包络的时域相关性进行建模。

另外，上述RDNN模型都可以是预先获取的，例如：预先接收用户输入的或者预先接收其他设备发送的。

当然，上述RDNN模型还可以是预先训练获取的，下面以ISF和语音信号为例进行举例说明。其中，RDNN模型的训练可以将含噪语音的特征作为模型输入，纯净语音的特征作为模型的目标输出。纯净语音和含噪语音的特征需要配对，即对某段纯净语音提取特征后，需要对其加入噪声，再提取含噪语音特征，作为一对训练特征。

RDNN模型的输入特征是含噪语音信号的去均值ISF特征，特征获取方式如下：

X_noisy(m)＝ISF_noisy(m)-ISF_{mean_noisy}

ISF_noisy(m)为第m帧的ISF特征，ISF_{mean_noisy}为含噪语音ISF参数的均值，由训练数据库中某一类噪声条件下的所有含噪语音ISF参数计算得到。

RDNN模型的目标输出是纯净语音信号的去均值ISF参数，特征获取方式如下：

X_clean(m)＝ISF_clean(m)-ISF_{mean_clean}

ISF_clean(m)为纯净语音ISF参数，ISF_{mean_clean}为纯净语音ISF参数的均值，由训练数据库中所有纯净语音信号的ISF参数统计得到。

与传统DNN不同，本实施例采用一种加权均方误差形式的目标函数，表示如下：

上述F_w为权重函数，该试与均方误差形式的目标函数相比，加权目标函数L_w考虑了ISF特征中各维的重建误差对语音质量影响不同的特点，对ISF特征每一维的重建误差分配了不同的权重。

另外，本实施例中可以通过上述训练方法为每个预先选定的噪声类型训练一个RDNN模型。

需要说明的是，本实施例中采用的RDNN模型不限于三个隐层，隐层的个数可以根据需要增减。

203、对所述纯净估计值进行量化，得到所述待增强帧的谱包络参数纯净估计值的量化索引，并将所述量化索引替换掉所述待增强帧的谱包络参数对应的比特。

本实施例中，上述方法还可以包括如下步骤：

204、对所述待增强帧的自适应码书增益和代数码书增益进行联合调整，分别对联合调整后的自适应码书增益和代数码书增益进行量化，得到所述待增强帧的联合调整后的自适应码书增益的量化索引和代数码书增益的量化索引。

其中，上述待增强帧的自适应码书增益和代数码书增益可以是对所述待增强帧进行解码操作获取的，例如，步骤201可以包括：

解码输入的音频信号的比特流，获取所述音频信号的待增强帧的谱包络参数、自适应码书增益和代数码书增益。

即步骤201对待增强帧的谱包络参数、自适应码书增益和代数码书增益对应比特进行解码。

本实施例中，上述对所述待增强帧的自适应码书增益和代数码书增益进行联合调整可以采用能量守恒准则进行调整，例如：可以将上述待增强帧的自适应码书增益和代数码书增益分别定义为第一自适应码书增益和第一代数码书增益，而将联合调整后的待增强帧的自适应码书增益和代数码书增益分别定义为第二自适应码书增益和第二代数码书增益，具体调整过程可以如下：

调整第一代数码书增益，得到第二代数码书增益；

根据第一自适应码书增益和第二代数码书增益，确定第二自适应码书增益。

而上述调整所述第一代数码书增益，得到第二代数码书增益的步骤可以包括：

根据所述第一代数码书增益确定噪声的代数码书增益；

根据所述噪声的代数码书增益和所述第一代数码书矢量确定噪声激励能量估计值；

根据所述第一代数码书增益和所述第一代数码书矢量确定第一代数码书激励能量；

根据所述噪声激励能量估计值和所述第一代数码书激励能量，确定所述当前待处理语音子帧的第一后验信噪比估计值；

根据所述当前待处理语音子帧的能量和所述当前待处理语音子帧的能量的最小值，确定所述当前待处理语音子帧的第二后验信噪比估计值；

根据所述第一后验信噪比估计值和所述第二后验信噪比估计值确定所述当前待处理语音子帧的先验信噪比估计值；

采用所述先验信噪比估计值确定所述当前待处理语音子帧的第一调整因子；

根据所述第一调整因子调整所述第一代数码书增益，确定所述第二代数码书增益。

另外，当对步骤201解码的参数还包括第一自适应码书矢量时，上述根据所述第一自适应码书增益和所述第二代数码书增益，确定第二自适应码书增益的步骤，可以包括：

若确定待增强帧为所述第一类子帧，则获取所述待增强帧的第二代数码书矢量以及第二自适应码书矢量；

根据所述第一自适应码书增益、所述第一自适应码书矢量、所述第一代数码书增益以及所述第一代数码书矢量，确定第一总激励能量；

根据所述第一总激励能量和能量调整因子，确定第二总激励能量；

根据所述第二总激励能量、所述第二代数码书增益、所述第二代数码书矢量以及所述第二自适应码书矢量，确定所述第二自适应码书增益。

205、将所述待增强帧的联合调整后的自适应码书增益的量化索引替换掉所述待增强帧的自适应码书增益对应的比特，将所述待增强帧的联合调整后的代数码书增益的量化索引替换掉所述待增强帧的代数码书增益对应的比特。

这样可以实现对待增强帧的谱包络参数、自适应码书增益和代数码书增益进行增强。

需要说明的是，本实施例中对步骤204和205的执行顺序不作限定，例如：步骤205和步骤203可以是一起执行的，或者分开执行的，或者步骤204可以是在步骤203之前执行的。

本实施例中，还可以包括如下步骤：

其中，上述音频信号帧可以是理解为上述音频信号中的任意帧，或者理解为当前帧，或者可以理解为针对上述音频信号中的每一帧都执行部分解码操作。

上述可以是对上述谱包络参数进行噪声分类，再将该谱包络参数的噪声类型作为上述音频信号帧中包含的噪声类型。

另外，由于在上述N个帧可能存在不同噪声类型的帧，这样上述步骤就可以对每一种噪声类型进行帧数量统计，从而选择帧数量最多的噪声类型作为所述音频信号的噪声类型。需要说明的是，上述N个帧可以是上述音频信号中的部分帧，例如：上述N个帧为上述音频信号的起始段，或者上述音频信号中第T到第N+T之间的帧，其中，第T帧可以由用户设置的。

另外，本实施方式，对音频信号帧进行解码可以是对每个帧都执行，而对音频信号帧的噪声分类可以是对每个帧都执行，或者可以是只对部分帧进行噪声分类。而选择音频信号的噪声类型的步骤可以是只执行一次，或者按照时间周期性执行等。例如：当选择出上述音频信号的噪声类型后，就可以在上述音频信号的处理过程中一直认为上述音频信号的噪声类型为上述选择的噪声类型；或者当选择出上述音频信号的噪声类型后，就可以将选择的噪声类型作为上述音频信号的处理过程中特定时段的噪声类型；或者当选择出上述音频信号的噪声类型后，继续识别每个帧的噪声类型，当识别到连续若干帧的噪声类型与之前选择的噪声类型不同时，可以再次对音频信号进行噪声分类。

上述使用所述谱包络参数对所述音频信号帧进行噪声分类，以获取所述音频信号帧的噪声类型的步骤，可以包括：

其中，上述噪声模型可以是高斯混合模型(Gaussian Mixture Model，GMM)。本实施例中，引入基于GMM的噪声分类后，谱包络参数调整时可以选择对应当前噪声环境的RDNN模型，有助于提高算法对复杂噪声环境的适应性。

另外，上述码书增益参数可以包括自适应码书增益的长时平均值和代数码书增益的方差。其中，自适应码书增益的长时平均值可以根据当前帧和该当前帧之前的L-1帧的自适应码书增益采用如下公式计算

{\overset{&OverBar;}{g}}_{p} (m) = \frac{1}{L} Σ_{i = 0}^{L - 1} g_{p} (m - i)

其中，为第m帧或者当前帧的自适应码书增益的平均值，g_p(m-i)表示第m-i帧的自适应码书增益，L为大于1的整数。

代数码书增益的方差可以根据当前帧和当前帧之前的L-1帧的代数码书增益采用如下公式计算

σ_{g c}^{2} (m) = \frac{1}{L - 1} Σ_{i = 0}^{L - 1} {(g_{c} (m - i) - {\overset{&OverBar;}{g}}_{c})}^{2} - - - (1)

其中，为第m帧或者当前帧的代数码书增益的方差，g_c(m-i)表示第m-i帧的代数码书增益，为L个帧中代数码书增益的平均值。

另外，本实施例中，可以预先获取噪声库中各种噪声类型的GMM，例如：可以预先接收用户输入的或者接收其他设备发送的，或者还可以是预先为每种噪声类型训练一个GMM。

例如：以ISF参数为例，在GMM训练中使用的特征矢量由ISF参数、自适应码书增益长时平均值，以及代数码书增益方差构成，特征维数可以为18维，如图5所示。在训练中可以使用最大期望算法(Expectation MaximizationAlgorithm，EM)对噪声数据库中的每一种噪声类型(设噪声类型数目为M)训练一个单独的GMM模型。

本实施例中，上述在所述音频信号中包括所述音频信号帧在内的N个帧内中统计所述N个帧包含的每一种噪声类型的帧数量，选择帧数量最多的噪声类型作为所述音频信号中包含的噪声类型的步骤，可以包括：

在所述音频信号中包括所述音频信号帧在内的起始段的N个帧内中统计所述N个帧包含的每一种噪声类型的帧数量，选择帧数量最多的噪声类型作为所述音频信号中包含的噪声类型。

该实施方式可以实现使用音频信号的起始段的帧确定音频信号的噪声类型，这样在后续的帧就可以直接使用该噪声类型对应的神经网络进行增强。

在所述音频信号中包括所述音频信号帧在内的且不存在语音信号的N个帧内中统计所述N个帧包含的每一种噪声类型的帧数量，选择帧数量最多的噪声类型作为所述音频信号中包含的噪声类型。

该实施方式可以实现使用不存在语音信号的N个帧确定音频信号的噪声类型，由于不存在语音信号的音频信号帧比含噪声信号的音频信号帧更加容易反映噪声类型，从而使用不存在语音信号的N个帧确定音频信号的噪声类型更加容易分析出音频信号的噪声类型。

另外，该实施方式可以使用话音激活检测(Voice Activity Detection，VAD)判断当前帧是否存在语音，这样就可以在VAD判定为不存在语音的帧中进行。还可能是当编码器开启非连续传输(Discontinuous Transmission，DTX)模式时，可以利用码流中的VAD信息判断语音是否存在；若编码器没有开启DTX模式，则可以利用ISF参数和码书增益参数等作为特征，判断语音是否存在。

本实施例中，还可以包括如下步骤：

该实施方式可以实现及时调整音频信号的噪声类型，因为一个音频信号往往会包括多个音频信号帧，而这些音频信号帧也可能会存在不同噪声类型的音频信号帧，从而通过上述步骤就可以实现及时使用当前正确的噪声类型对应的神经网络进行增强，以提高音频信号的质量。

本实施例中，在图1所示的实施例的基础上增加了多种可选的实施方式，且都可以实现降低音频信号的增强过程中计算复杂度和附加时延。

请参阅图6，图6是本发明实施例提供的另一种音频信号增强方法的示意图，该实施例中以ISF参数进行举例，如图6所示包括以下步骤：

601、利用部分解码器从输入比特流中提取含噪语音的编码参数，其中，编码参数包括ISF参数、自适应码书增益g_p(m)、代数码书增益g_c(m)、自适应码书矢量d_m(n)和代数码书矢量c_m(n)等；

602、利用部分解码器得到的自适应码书增益、代数码书增益、自适应码书矢量和代数码书矢量参数，对自适应码书增益和代数码书增益进行联合调整，得到调整后的自适应码书增益和代数码书增益。

603、以ISF和码书增益相关参数作为特征，利用高斯混合模型(GMM)对背景噪声进行分类。

其中，上述码书增益相关参数可以包括自适应码书增益的平均值和代数码书增益的方差。

604、根据噪声分类的结果，选择对应的递归深度神经网络(RDNN)模型对部分解码器得到的含噪语音的ISF参数进行处理，得到纯净语音ISF参数的估计值。

605、对调整后的自适应码书增益和代数码书增益参数，以及调整后的ISF参数进行重新量化，并替换码流中的对应位置。

本实施例中，引入RDNN模型对含噪语音的谱包络参数(如ISF参数)进行调整，由于模型中时域递归连接的存在，可有效提升谱包络参数调整结果的时域平滑性，改善语音质量。另外，基于RDNN的谱包络参数调整方法可以避免现有方法中调整后的LPC滤波器不稳定的问题，提高算法鲁棒性。以及引入基于GMM的噪声分类后，谱包络调整时可以选择对应当前噪声环境的RDNN模型，有助于提高算法对复杂噪声环境的适应性。且与现有技术方案相比，基于RDNN的谱包络估计方法计算复杂度较低，可有效提高运行速度。

下面为本发明装置实施例，本发明装置实施例用于执行本发明方法实施例一至二实现的方法，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例一和实施例二。

请参阅图7，图7是本发明实施例提供的一种音频信号增强装置的结构示意图，如图7所示，包括：解码单元71、增强单元72和替换单元73，其中：

解码单元71，用于解码输入的音频信号的比特流，获取所述音频信号的待增强帧的谱包络参数。

另外，解码单元71还可以理解为仅对上述待增强帧中谱包络参数对应的比特进行解码，其中，上述中谱包络参数对应的比特可以是该音频信号帧包括的比特流中为谱包络参数的比特。其中，上述谱包络参数可以包括：线谱频率(LineSpectral Frequencies，LSF)、导抗谱频率(Immittance Spectral Frequencies，ISF)或者线性预测系数(Linear Prediction Coefficients，LPC)等其他等价参数。

增强单元72，用于使用预先为所述音频信号中包含的噪声类型设置的神经网络对所述音频信号的待增强帧的谱包络参数进行增强处理，以获取所述待增强帧的谱包络参数的纯净估计值。

另外，本实施例中，上述音频信号中包含的噪声类型可以是在对上述待增强帧进行解码之前获取的，例如：通过对上述音频信号的起始段的若干个帧的噪声类型统计获得的上述音频信号中包含的噪声类型；或者通过对上述音频信号的若干个不存在语音信号的帧的噪声类型统计获得的上述音频信号中包含的噪声类型等等。或者通过与上述待增强帧相邻的若干个帧的噪声类型统计获得的上述音频信号中包含的噪声类型。另外，上述音频信号中包含的噪声类型还可以是根据该音频信号的来源进行确认的，例如：打电话的语音信号可以根据电话双方的地理位置、通话时间或者历史语音信号的噪声类型等信息确认该语音信号的噪声类型，如通过电话双的地理位置判断一方在某一工地时，那么就可以确定当前语音信号的噪声类型为工地对应的噪声类型，或者某一用户打电话时，该用户输出的语音信号中十次有九次的噪声类型都为噪声类型A时，那么，就可以根据该历史记录确定该用户在下一次打电话时输出的语音信号中包含的噪声类型为噪声类型A。

替换单元73，用于对所述纯净估计值进行量化，得到所述待增强帧的谱包络参数的纯净估计值的量化索引，并将所述量化索引替换掉所述待增强帧的谱包络参数对应的比特。

另外，本实施例中，上述装置可以应用于任意具备解码和计算功能的智能设备，例如：服务器、网络侧设备、个人计算机(Personal Computer，PC)、笔记本电脑、手机、平板电脑等智能设备。

请参阅图8，图8是本发明实施例提供的另一种音频信号增强装置的结构示意图，如图8所示，包括：解码单元81、增强单元82和替换单元83，其中：

解码单元81，用于解码输入的音频信号的比特流，获取所述音频信号的待增强帧的谱包络参数。

增强单元82，用于使用预先为所述音频信号中包含的噪声类型设置的神经网络对所述音频信号的待增强帧的谱包络参数进行增强处理，以获取所述待增强帧的谱包络参数的纯净估计值。

本实施例中，增强单元82可以包括：

第一计算单元821，用于计算所述音频信号的待增强帧与若干帧的谱包络参数的均值，其中，所述若干帧为所述音频信号中在所述待增强帧之前的若干帧；

第二计算单元822，用于计算所述待增强帧的去均值的谱包络参数，其中，所述去均值的谱包络参数为所述待增强帧的谱包络参数与所述均值的差值；

第三计算单元823，用于使用预先为所述音频信号中包含的噪声类型设置的神经网络对所述去均值的谱包络参数进行增强处理，以得到所述去均值的谱包络参数的纯净估计值；

第四计算单元824，用于将所述去均值的谱包络参数的纯净估计值与预先获取的纯净音频谱包络参数的均值相加，以得到所述待增强帧的谱包络参数的纯净估计值。

替换单元83，用于对所述纯净估计值进行量化，得到所述待增强帧的谱包络参数纯净估计值的量化索引，并将所述量化索引替换掉所述待增强帧的谱包络参数对应的比特。

本实施例中，如图9所示，上述装置还可以包括：

调整单元84，用于对所述待增强帧的自适应码书增益和代数码书增益进行联合调整，分别对联合调整后的自适应码书增益和代数码书增益进行量化，得到所述待增强帧的联合调整后的自适应码书增益的量化索引和代数码书增益的量化索引，其中，所述待增强帧的自适应码书增益和代数码书增益是对所述待增强帧进行解码操作获取的；

替换单元83还可以用于将所述待增强帧联合调整后的的自适应码书增益的量化索引替换掉所述待增强帧的自适应码书增益对应的比特，将所述待增强帧的联合调整后的代数码书增益的量化索引替换掉所述待增强帧的代数码书增益对应的比特。

其中，上述待增强帧的自适应码书增益和代数码书增益可以是对所述待增强帧进行解码操作获取的，例如，解码单元81可以用于解码输入的音频信号的比特流，获取所述音频信号的待增强帧的谱包络参数、自适应码书增益和代数码书增益。

即解码单元81对待增强帧的谱包络参数、自适应码书增益和代数码书增益对应比特进行解码。

调整第一代数码书增益，得到第二代数码书增益；

该实施方式可以实现对待增强帧的谱包络参数、自适应码书增益和代数码书增益进行增强。

本实施例中，解码单元81还可以用于解码输入的音频信号的比特流，获取所述音频信号的音频信号帧的谱包络参数；

如图10所示，所述装置还可以包括：

分类单元85，用于使用所述谱包络参数对所述音频信号帧进行噪声分类，以获取所述音频信号帧的噪声类型；

统计单元86，用于在所述音频信号中包括所述音频信号帧在内的N个帧内中统计所述N个帧包含的每一种噪声类型的帧数量，选择帧数量最多的噪声类型作为所述音频信号中包含的噪声类型，其中，所述N为大于或者等于1的整数；

该实施方式中，分类单元85可以用于从输入的音频信号的比特流中获得对应于所述音频信号帧的码书增益参数，利用所述码书增益参数和所述谱包络参数计算所述音频信号帧对预设的M个噪声模型中每个噪声模型的后验概率，选择所述M个噪声模型中后验概率最大的噪声模型作为所述音频信号帧的噪声类型。

{\overset{&OverBar;}{g}}_{p} (m) = \frac{1}{L} Σ_{i = 0}^{L - 1} g_{p} (m - i)

σ_{g c}^{2} (m) = \frac{1}{L - 1} Σ_{i = 0}^{L - 1} {(g_{c} (m - i) - {\overset{&OverBar;}{g}}_{c})}^{2} - - - (2)

例如：以ISF参数为例，在GMM训练中使用的特征矢量由ISF参数、自适应码书增益长时平均值，以及代数码书增益方差构成，特征维数为18维，如图5所示。在训练中可以使用最大期望算法(Expectation Maximization Algorithm，EM)对噪声数据库中的每一种噪声类型(设噪声类型数目为M)训练一个单独的GMM模型。

本实施例中，统计单元86可以用于在所述音频信号中包括所述音频信号帧在内的起始段的N个帧内中统计所述N个帧包含的每一种噪声类型的帧数量，选择帧数量最多的噪声类型作为所述音频信号中包含的噪声类型。

本实施例中，统计单元86可以用于在所述音频信号中包括所述音频信号帧在内的且不存在语音信号的N个帧内中统计所述N个帧包含的每一种噪声类型的帧数量，选择帧数量最多的噪声类型作为所述音频信号中包含的噪声类型。

本实施例中，统计单元86还可以用于当检测到所述音频信号中连续的多帧的噪声类型与之前判断所述音频信号中包含的噪声类型不同时，在所述连续的多帧内统计所述连续的多帧包含的每个种噪声类型的帧数量，选择帧数量最多的噪声类型作为所述音频信号的当前噪声类型；

增强单元83可以用于使用预先为所述音频信号的当前噪声类型设置的神经网络对所述音频信号的待增强帧的谱包络参数进行增强处理，以获取所述待增强帧的谱包络参数的纯净估计值。

该实施方式可以实现及时调整音频信号的噪声类型，因为一个音频信号往往会包括多个音频信号帧，而这些音频信号帧也可能会存在不同噪声类型的音频信号帧，从而通过上述步骤就可以实现及时使用当前正确的噪声类型对应的神经网络进行增强，以提供音频信号的质量。

本实施例中，在图7所示的实施例的基础上增加了多种可选的实施方式，且都可以实现降低音频信号的增强过程中计算复杂度和附加时延。

请参阅图11，图11是本发明实施例提供的另一种音频信号增强装置的结构示意图，如图11所示，包括：处理器111、网络接口11、存储器113和通信总线114，其中，通信总线114用于实现所述处理器111、网络接口112和存储器113之间连接通信，处理器111执行所述存储器中存储的程序用于实现以下方法：

本实施例中，处理器111执行的步骤还可以包括：

本实施例中，处理器111执行的使用所述谱包络参数对所述音频信号帧进行噪声分类，以获取所述音频信号帧的噪声类型的步骤，可以包括：

本实施例中，处理器111执行的步骤还可以包括：

将所述待增强帧联合调整后的的自适应码书增益的量化索引替换掉所述待增强帧的自适应码书增益对应的比特，将所述待增强帧联合调整后的的代数码书增益的量化索引替换掉所述待增强帧的代数码书增益对应的比特。

本实施例中，处理器111执行的使用预先为所述音频信号中包含的噪声类型设置的神经网络对所述音频信号的待增强帧的谱包络参数进行增强处理，以获取所述待增强帧的谱包络参数的纯净估计值的步骤，可以包括：

本实施例中，处理器111执行的在所述音频信号中包括所述音频信号帧在内的N个帧内中统计所述N个帧包含的每一种噪声类型的帧数量，选择帧数量最多的噪声类型作为所述音频信号中包含的噪声类型的步骤，可以包括：

本实施例中，处理器111执行的步骤还可以包括：

当检测到所述音频信号中连续的多帧的噪声类型与之前判断的所述音频信号中包含的噪声类型不同时，在所述连续的多帧内统计所述述连续的多帧包含的每种噪声类型的帧数量，选择帧数量最多的噪声类型作为所述音频信号的当前噪声类型；

本实施例中，处理器111执行的使用预先为所述音频信号的噪声类型设置的神经网络对所述音频信号的待增强帧的谱包络参数进行增强处理，以获取所述待增强帧的谱包络参数的纯净估计值的步骤，可以包括：

本实施例中，上述神经网络可以包括：

递归深度神经网络。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存取存储器(Random Access Memory，简称RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种音频信号增强方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

3.如权利要求2所述的方法，其特征在于，所述使用所述谱包络参数对所述音频信号帧进行噪声分类，以获取所述音频信号帧的噪声类型，包括：

4.如权利要求1-3中任一项所述的方法，其特征在于，所述方法还包括：

5.如权利要求1-3中任一项所述的方法，其特征在于，所述使用预先为所述音频信号中包含的噪声类型设置的神经网络对所述音频信号的待增强帧的谱包络参数进行增强处理，以获取所述待增强帧的谱包络参数的纯净估计值，包括：

6.如权利要求2所述的方法，其特征在于，所述在所述音频信号中包括所述音频信号帧在内的N个帧内中统计所述N个帧包含的每一种噪声类型的帧数量，选择帧数量最多的噪声类型作为所述音频信号中包含的噪声类型，包括：

7.如权利要求1-3中任一项所述的方法，其特征在于，所述方法还包括：

8.如权利要求1-6中任一项所述的方法，其特征在于，所述神经网络包括：递归深度神经网络。

9.一种音频信号增强装置，其特征在于，包括：解码单元、增强单元和替换单元，其中：

10.如权利要求9所述的装置，其特征在于，所述解码单元还用于解码输入的音频信号的比特流，获取所述音频信号的音频信号帧的谱包络参数；

所述装置还包括：

统计单元，用于在所述音频信号中包括所述音频信号帧在内的N个帧内统计所述N个帧包含的每一种噪声类型的帧数量，选择帧数量最多的噪声类型作为所述音频信号中包含的噪声类型，其中，所述N为大于或者等于1的整数。

11.如权利要求10所述的装置，其特征在于，所述分类单元用于从输入的音频信号的比特流中获得对应于所述音频信号帧的码书增益参数，利用所述码书增益参数和所述谱包络参数计算所述音频信号帧对预设的M个噪声模型中每个噪声模型的后验概率，选择所述M个噪声模型中后验概率最大的噪声模型作为所述音频信号帧的噪声类型。

12.如权利要求9-11中任一项所述的装置，其特征在于，所述装置还包括：

13.如权利要求9-11中任一项所述的装置，其特征在于，所述增强单元包括：

14.如权利要求10所述的装置，其特征在于，所述统计单元用于在所述音频信号中包括所述音频信号帧在内的起始段的N个帧内中统计所述N个帧包含的每一种噪声类型的帧数量，选择帧数量最多的噪声类型作为所述音频信号中包含的噪声类型；或者

15.如权利要求10所述的装置，其特征在于，所述统计单元还用于当检测到所述音频信号中连续的多帧的噪声类型与之前判断的所述音频信号中包含的噪声类型不同时，在所述连续的多帧内统计所述连续的多帧包含的每种噪声类型的帧数量，选择帧数量最多的噪声类型作为所述音频信号的当前噪声类型；

16.如权利要求9-15中任一项所述的装置，其特征在于，所述神经网络包括：

递归深度神经网络。