CN103646647A

CN103646647A - 混合音频解码器中帧差错隐藏的谱参数代替方法及系统

Info

Publication number: CN103646647A
Application number: CN201310683244.XA
Authority: CN
Inventors: 胡瑞敏; 杨玉红; 王衍业; 董少龙; 谢松波; 余洪江; 高丽; 王晓晨; 涂卫平; 高戈
Original assignee: Wuhan University WHU
Current assignee: BOOSLINK SUZHOU INFORMATION TECHNOLOGY Co.,Ltd.
Priority date: 2013-12-13
Filing date: 2013-12-13
Publication date: 2014-03-19
Anticipated expiration: 2033-12-13
Also published as: CN103646647B

Abstract

本发明提供了一种混合音频解码器中帧差错隐藏的谱参数代替方法及系统，该方法把语音帧提供给混合音频解码器，语音帧提供混合音频解码器在合成音频信号中所需使用的谱参数；根据谱参数判断当前帧是否为坏帧，若为坏帧，则根据当前坏帧与近邻好帧编码模式的相关性，选择近邻N个好帧的谱参数恢复当前坏帧谱参数。本发明既考虑了连续坏帧和当前坏帧与近邻好帧间编码模式的相关性，从而进一步提高了音频质量。

Description

混合音频解码器中帧差错隐藏的谱参数代替方法及系统

技术领域

本发明涉及混合音频解码器，具体涉及一种混合音频解码器中帧差错隐藏的谱参数代替方法及系统。

背景技术

现代移动通信中，音频信号通过分帧打包，然后以比特流的形式传输。由于不存在理想信道，传输过程中会出现丢包现象，接收端就会接收到错误信息，我们称之为坏帧。在现有的AMR-WB、AMR-WB+、AVS-P10编解码器中，当出现坏帧时，一般根据相邻好帧的谱参数来代替当前坏帧的谱参数，从而隐藏当前坏帧谱参数，达到增强音频质量的效果。

现有的编码方式中，ACELP256编码模式适合语音音频信号，TCX256编码模式适合瞬变音乐音频信号，TCX512编码模式适合暂稳态音频信号，TCX1024编码模式适合稳态音频信号。AMR-WB+和AVS-P10编解码器都是采用混合编码模式，混合音频编码模式比单一音频编码模式适用范围更广。但是，混合音频解码器对坏帧进行恢复时，均未考虑当前坏帧与近邻好帧编码模式的相关性。

发明内容

针对现有技术存在的不足，本发明提供了一种考虑了当前坏帧与近邻好帧编码模式相关性的、混合音频解码器中帧差错隐藏的谱参数代替方法及系统。

为解决上述问题，本发明采用如下的技术方案：

一、混合音频解码器中帧差错隐藏的谱参数代替方法，该方法把语音帧提供给混合音频解码器，语音帧提供混合音频解码器在合成音频信号中所需使用的谱参数；根据谱参数判断当前帧是否为坏帧，若为坏帧，则根据当前坏帧与近邻好帧编码模式的相关性，选择近邻N个好帧的谱参数恢复当前坏帧谱参数。所述的N优选为1或2或3。所述的待定系数α、β、γ通过样本训练获得。

上述选择近邻N个好帧的谱参数恢复当前坏帧谱参数，具体采用如下公式进行恢复：

ISF_q(i)＝α*past_ISF_q(i)+β*ISF_{adaptive_mean}(i)+γ*ISF_{const_mean}(i)

其中：ISF_q(i)是当前坏帧ISF向量的第i分量；past_ISF_q(i)是当前坏帧的上一好帧ISF向量的第i分量；ISF_{adaptive_mean}(i)是当前坏帧的近邻N个好帧ISF向量的第i分量的平均值；ISF_{const_mean}(i)是ISF向量的长期平均值常数向量的第i分量，为经验常数；α、β、γ是待定系数，由当前坏帧与近邻好帧编码模式的相关性、连续坏帧数量及当前误码率决定；i为ISF向量的分量编号，i＝0,1,...,15。

如果当前坏帧与最近好帧的编码模式相同，且当前坏帧的近邻M个好帧的编码模式也相同，则使用该近邻M个好帧的谱参数恢复当前坏帧谱参数，即所述的ISF_{adaptive_mean}(i)为该近邻M个好帧的ISF向量第i分量的平均值；考虑当前坏帧与近邻好帧的相关度确定M。

如果当前坏帧与最近好帧的编码模式相同，当前坏帧的近邻M个好帧中离当前坏帧最近的N个好帧的编码模式相同，则使用该近邻N个好帧的谱参数恢复当前坏帧谱参数，即所述的ISF_{adaptive_mean}(i)为该近邻N个好帧的ISF向量第i分量的平均值；考虑当前坏帧与近邻好帧的相关度确定M。

如果当前坏帧与最近好帧的编码模式不同，则使用该最近好帧的谱参数恢复当前坏帧谱参数，即所述的ISF_{adaptive_mean}(i)为该最近好帧的ISF向量的第i分量。

二、混合音频解码器中帧差错隐藏的谱参数代替系统，包括：

坏帧判断模块，用来根据谱参数判断当前帧是否为坏帧；

谱参数代替模块，用来根据当前坏帧与近邻好帧编码模式的相关性，选择近邻N个好帧的谱参数恢复当前坏帧谱参数。

本发明根据当前坏帧与近邻好帧编码模式的相关性，采用近邻好帧的自适应平均值来代替坏帧谱参数，隐藏坏帧对语音解码器的影响，以提高语音解码器合成音频的主观质量。本发明中，坏帧指损坏帧和丢失帧。

与现有技术相比，本发明具有如下有益效果：

AMR-WB+编解码器未考虑连续丢帧情况，当连续丢帧较多时，其音频质量较差；AVS-P10编解码器虽然考虑了连续丢帧情况，但其仅利用最近一个好帧对坏帧谱参数进行恢复，忽略了近邻好帧间编码模式的相关性，其音频质量仍有待提高。本发明既考虑了连续坏帧情况，也考虑了当前坏帧与近邻好帧间编码模式的相关性，从而可进一步提高合成音频质量。

附图说明

图1是发射和存储音频信号的系统框图；

图2是本发明方法的一种具体流程图。

具体实施方式

本发明用于混合音频解码器中帧差错隐藏的谱参数替代，把语音帧提供给混合音频解码器，语音帧提供混合音频解码器在合成音频中所需使用的谱参数，混合音频解码器根据谱参数判断当前语音帧是否为坏帧，若为坏帧，则根据当前坏帧与近邻好帧编码模式的相关性确定谱参数代替方法。

AMR-WB、AMR-WB+和AVS-P10等编解码器将接收语音帧的线性预测系数转换为导谱频率ISF并进行量化，将ISF作为谱参数传送至解码端。本发明所需使用的谱参数即ISF向量。

本发明的谱参数替代方法可采用如下公式来表示：

ISF_q(i)＝α*past_ISF_q(i)+β*ISF_{adaptive_mean}(i)+γ*ISF_{const_mean}(i) （1）

其中：

ISF_q(i)是当前坏帧ISF向量的第i分量；

past_ISF_q(i)是当前坏帧的上一好帧ISF向量的第i分量；

ISF_{adaptive_mean}(i)是当前坏帧的近邻N个好帧ISF向量的第i分量的平均值，根据当前坏帧和近邻好帧编码模式的相关性确定N值；

ISF_{const_mean}(i)是ISF向量的长期平均值常数向量的第i分量，为经验常数；

α、β、γ是待定系数，由当前坏帧与近邻好帧编码模式的相关性、连续坏帧数量及当前误码率决定；

i为ISF向量的分量的编号，i＝0,1,...,15。

上述待定系数可通过样本训练得到，具体为：

根据当前坏帧和前近邻M个好帧编码模式的相关性分为M类情况，该M类情况分别指取前近邻1、2、…M个近邻好帧ISF向量的平均值来恢复当前坏帧的谱参数，这里M的优选取值为1～3。基于上述M类情况对若干音频序列在无差错解码时的ISF向量进行分类训练。训练各类ISF向量时，考虑连续坏帧数量，分别在连续坏帧数量为1～P的情况下训练ISF向量，并以当前坏帧的正确ISF向量为拟合目标对该类ISF向量训练样本进行拟合，以获得不同连续坏帧及不同误码率下对应的待定系数。当连续坏帧数大于3时，采用指数函数表示待定系数；当连续坏帧数量不大于3时，则直接获得待定系数值。

下面结合附图和上述谱参数替代方法进一步说明本发明的具体实施方式。

见图1，音频信号通过信道传输到混合音频解码端，当混合音频解码器检测到坏帧时，分析当前坏帧和近邻好帧的编码模式，采用近邻好帧的谱参数对当前坏帧谱参数进行隐藏。坏帧的谱参数会影响语音的质量，隐藏坏帧的谱参数可增强音频质量。

目前的音频编码模式主要有四种，ACELP256编码模式适合语音音频信号，TCX256编码模式适合瞬变音乐音频信号，TCX512编码模式适合暂稳态音频信号，TCX1024编码模式适合稳态音频信号。混合音频编码模式比单一音频编码模式适用范围更广，AMR-WB+和AVS-PL0编解码器均是采用混合编码模式，但在进行帧差错隐藏时，均未考虑当前坏帧与近邻好帧编码模式的相关性，仅仅只是在编码模式切换时做了平滑处理。而本发明在帧差错隐藏时考虑了当前坏帧与近邻好帧编码模式的相关性。

图2为本发明方法的一种具体实施方式。根据本发明，把语音帧提供给混合音频解码器，各语音帧提供混合音频解码器在合成音频中所需使用的谱参数，当接收到好帧时，混合音频解码器使用常规解码方式进行解码。当接收到坏帧时，则对坏帧的谱参数进行替代，然后使用常规解码方式对谱参数替代后的坏帧进行解码。

在混合音频编码器编码模式切换处，帧的相关性很低，需要用近邻好帧的谱参数来恢复当前坏帧。距离当前坏帧越远的帧，当前坏帧与其相关度越低。实际应用过程中，一般可选取当前坏帧的近邻1～3个好帧的谱参数来恢复当前坏帧。本具体实施方式中，取当前坏帧的近邻三个好帧的谱参数对当前坏帧执行谱参数代替，具体恢复方法为：如果当前坏帧与最近好帧编码模式相同，且当前坏帧的近邻三个好帧的编码模式相同，则使用近邻三个好帧的谱参数恢复当前坏帧的谱参数，即公式（1）中的ISF_{adaptive_mean}(i)为当前坏帧的近邻三个好帧ISF向量第i分量的平均值。如果当前坏帧与最近好帧编码模式相同，但当前坏帧的近邻三个好帧中仅最近的两个近邻好帧编码模式相同，则使用近邻两个好帧的谱参数恢复当前坏帧的谱参数，即公式（1）中的ISF_{adaptive_mean}(i)为当前坏帧的近邻两个好帧的ISF向量第i分量的平均值。如果当前坏帧与最近好帧编码模式相同，但该最近好帧与其前一好帧的编码模式不同，则仅使用该最近好帧的谱参数恢复当前坏帧的谱参数，即公式（1）中的ISF_{adaptive_mean}(i)为当前坏帧的最近好帧的ISF向量第i分量。如果当前坏帧与最近好帧编码模式不同，则使用该最近好帧的谱参数恢复当前坏帧的谱参数，即公式（1）中的ISF_{adaptive_mean}(i)为当前坏帧的最近好帧的ISF向量第i分量。

Claims

1.混合音频解码器中帧差错隐藏的谱参数代替方法，把语音帧提供给混合音频解码器，语音帧提供混合音频解码器在合成音频信号中所需使用的谱参数，其特征在于：

根据谱参数判断当前帧是否为坏帧，若为坏帧，则根据当前坏帧与近邻好帧编码模式的相关性，选择近邻N个好帧的谱参数恢复当前坏帧谱参数。

2.如权利要求1所述的混合音频解码器中帧差错隐藏的谱参数代替方法，其特征在于：

所述的N为1或2或3。

3.如权利要求1所述的混合音频解码器中帧差错隐藏的谱参数代替方法，其特征在于：

所述的选择近邻N个好帧的谱参数恢复当前坏帧谱参数，具体采用如下公式进行恢复：

ISF_q(i)＝α*past_ISF_q(i)+β*ISF_{adaptive_mean}(i)+γ*ISF_{const_mean}(i)

4.如权利要求3所述的混合音频解码器中帧差错隐藏的谱参数代替方法，其特征在于：

5.如权利要求3所述的混合音频解码器中帧差错隐藏的谱参数代替方法，其特征在于：

6.如权利要求3所述的混合音频解码器中帧差错隐藏的谱参数代替方法，其特征在于：

7.如权利要求3所述的混合音频解码器中帧差错隐藏的谱参数代替方法，其特征在于：

所述的待定系数α、β、γ通过样本训练获得。

8.混合音频解码器中帧差错隐藏的谱参数代替系统，其特征在于，包括：

坏帧判断模块，用来根据谱参数判断当前帧是否为坏帧；