CN102254562B

CN102254562B - 一种相邻高低速率编码模式间切换的变速率音频编码方法

Info

Publication number: CN102254562B
Application number: CN2011101800509A
Authority: CN
Inventors: 王晶; 杨果; 孟凯; 赵胜辉
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2011-06-29
Filing date: 2011-06-29
Publication date: 2013-04-03
Anticipated expiration: 2031-06-29
Also published as: CN102254562A

Abstract

本发明涉及一种相邻高低速率编码模式间切换的变速率音频编码方法，属于音频编码领域，特别是适合用于多速率的音频编码器。其技术特点是首先对每帧音频信号在高速率下进行编解码，将该速率下各种编码模式的编码输入信号和解码输出信号通过感知加权滤波器后计算平均分段信噪比，并选出使感知加权平均分段信噪比最大的编码模式，然后在临近高速率的低编码速率下选出使编码输入信号和解码输出信号的感知加权平均分段信噪比最大的编码模式，最后分别对于高、低速率下选出来的编码模式，计算编码输入信号和解码输出信号平均分段信噪比，如果低速率编码模式下的平均分段信噪比相比高速率编码模式下的偏大，则切换到低速率编码模式，反之则切换到高速率编码模式。本发明的方法对每帧音频信号根据输出信号相对输入信号的失真大小，在相邻的高低编码速率下的各编码模式间切换，从而在保持良好编码质量的同时，降低音频信号的平均编码速率，从而提高多速率音频编码器的编码效率。

Description

一种相邻高低速率编码模式间切换的变速率音频编码方法

技术领域

本发明涉及一种相邻高低速率编码模式间切换的变速率音频编码方法，尤其是适合于包含多种编码速率的音频编码器，属于音频编码领域。

背景技术

变速率的音频编码技术是根据输入音频信号的统计特性，或者通信链路质量，或者网络用户的需求来控制信息传输速率，从而降低传输的平均码率，提高传输效率，它相对于传统的固定速率编码方法能够更好的节省信道带宽，受到研究者的广泛重视。一般而言，变速率的语音编码算法可以分为信源控制的或信道控制的两大类，后者可以是信道或网络控制编码速率可变，通常是根据外部控制信号从一种速率切换为预定速率集合中的另一种速率，如AMR自适应多速率语音编码，也可以是可分级的编解码方式。信源控制的变速率编码方法则是根据输入信号的特性来动态的分配编码比特或采用不同的编码模式，其编码器的目的是为了确保输出信号质量的同时给每帧音频信号分配尽可能少的比特，如3GPP2标准中提出的SMV可选模式声码器。

目前变速率编码的方法大多用于基于线性预测和码本激励的语音编码器，例如我国专利申请号为200810210215(公开日：2009年03月18日)和申请专利号为200710153938(公开日：2009年02月04日)的发明专利提出了根据合成数字话音帧的话音激活检测结果或者清浊音检测结果来确定编码速率的变速率码激励线性预测编码器和编码方法。后期产生了多模式变速率方法，它是针对不同特性的输入信号帧设计最佳的编码模式和分配最低的编码速率，并使编码器能够保持较好的解码声音质量。通常有两种技术可以实现多模式变速率，一种是闭环方式，一种是开环方式。前者基于某种失真准则通过闭环搜索判断哪种模式最适合当前帧编码，当选择合适的失真准则时能够使得语音帧和编码模式达到最佳匹配，后者通常基于语音帧分类的方式，对不同类的语音帧采用不同的编码模式或编码速率，以达到编码比特有效分配的效果。开环方式的复杂度较低，但需要鲁棒性较高的语音帧分类算法，闭环的计算复杂度较高，但编码模式匹配效果较好。VAD话音激活检测技术是变速率语音编码器中常用的方法，它通过降低语音静默段的量化编码比特从而大大降低整体编码速率，但在音乐信号的编码中并不适用，音乐信号不像语音信号在通话过程中存在50％左右的静默段，可以利用VAD技术来降低静默段的编码速率。3GPP2标准中提出的EVRC增强型可变速率编码器和SMV可选模式声码器都是基于语音帧分类的方式来确定每帧的量化编码方式和编码速率，从而达到整体编码速率的降低。

而3GPP标准中的AMR-NB(TS 26.090)、AMR-WB(TS 26.190)则是根据信道传输的恶劣情况来从预定的多种速率中选择合适的编码速率传输窄带或宽带语音，AMR-WB+(TS26.290)则是一种在AMR-WB基础上发展的自适应多速率的语音和音乐混合编码方法，在编码之前首先确定编码速率，对于每帧音频信号再选择合适的ACELP(代数码本激励)或TCX(Transform Coded Excitation)变换码激励编码模式，ACELP倾向于编码语音帧，TCX倾向于编码音频帧，对于每帧输入音频信号，从26种ACELP/TCX组合编码模式中选择最佳的编码模式。我国AVS数字音视频编码标准工作组提出的AVS-P10是多速率的移动语音和音频混合的编解码器，与AMR-WB+的编解码原理相似，其核心模块的编码方式有所不同，AVS-P10核心模块采用ACELP/TVC(Transform Vector Coding，变换域矢量编码)，两者的单声道编码速率都有8种速率，立体声编码速率都有16种速率，两者均是信道控制的变速率编码，而没有采用信源控制变速率编码方法，尤其对音乐信号未有合适的源控变速率方式。

发明内容

本发明的目的是为了进一步提高多速率音频编码器的编码效率，压缩编码带宽，利用闭环源控变速率的方式降低某些音频帧的编码速率，通过设计合适的闭环选择准则从而达到整体的平均编码速率的降低。

为了实现上述目的，本发明采用的技术方案是：首先对每帧音频信号在高速率下进行编解码，将该速率下各种编码模式的编码输入信号和解码输出信号通过感知加权滤波器后计算平均分段信噪比，并选出使感知加权平均分段信噪比最大的编码模式，然后在临近高速率的低编码速率下选出使编码输入信号和解码输出信号的感知加权平均分段信噪比最大的编码模式，最后分别对于高、低速率下选出来的编码模式，计算编码输入信号和解码输出信号平均分段信噪比，如果低速率编码模式下的平均分段信噪比相比高速率编码模式下的偏大，则切换到低速率编码模式，反之则切换到高速率编码模式。

本发明所用到的技术方案中涉及到的感知加权滤波器的表达式为：

H (z) = A (z / α) = 1 - Σ_{i = 1}^{p} α^{i} a_{i} z^{- i}, 0 < α < 1,

其中α是感知加权系数，p是线性预测滤波器的阶数。

本发明所用到的技术方案中涉及到的输入信号相对于输出信号的平均分段信噪比是将一帧信号首先划分为子帧求子帧的分段信噪比，然后再求所有子帧的分段信噪比的均值。

有益效果

采用本发明所述的一种相邻高低速率编码模式间切换的变速率音频编码方法，能够使得每帧音频信号在预先设定的编码速率集合中的高速率和相邻的低速率编码模式间进行切换，采用闭环搜索的方法，根据相邻的高、低编码速率及其相应的编码模式下解码输出信号相对于编码输入信号的失真大小，确定最佳编码速率和编码模式，从而使得音频信号的平均编码速率相对高编码速率有较大降低，而整体编码质量保持不变或相近。本发明的方法能够进一步提高音频编码器的编码效率，节省音频传输带宽，尤其是适合用于多速率的音频编码器。

附图说明

本发明中相邻高低速率编码模式间切换的流程图

具体实施例

下面结合附图和实施例对本发明作进一步描述。

本发明实例基于AVS-P10多速率音频编码器进行改进，输入16kHz采样的单声道音频信号，16bit线性PCM编码，编码速率由高到低有8种：10.4kbps，12kbps，13.6kbps，15.2kbps，16.8kbps，19.2kbps，20.8kbps，24kbps，内部采样率选择25.6kHz，每个80ms超帧(本实例中提到的超帧相当于发明内容中提到的帧)的音频信号划分为4个20ms的帧(本实例中提到的帧相当于发明内容中提到的子帧)，每帧编码模式包括ACELP256、TVC256、TVC512、TVC1024四种，每个超帧形成26种不同组合的编码模式。

选择16.8kbps和15.2kbps两种相邻的高、低编码速率，对于每个超帧的音频信号，高低速率编码模式切换的变速率编码过程如下：

(1)在较高的16.8kbps编码速率下，分别将ACELP/TVC组合的26种编码模式下的编码输入信号x(n)和解码输出信号

分别通过如下的感知加权滤波器，加权输入信号x_w(n)和加权输出信号

，

H (z) = A (z / α) = 1 - Σ_{i = 1}^{p} α^{i} a_{i} z^{- i}, 0 < α < 1,

其中α是感知加权系数，本实例中α＝0.92，p是线性预测滤波器的阶数，本例中p＝16；

(2)计算上述加权输入信号x_w(n)和加权输出信号

间的平均分段信噪比：

\overset{&OverBar;}{segSNR} = \frac{1}{N_{SF}} Σ_{i = 1}^{N_{SF}} seg {SNR}_{i},

N_SF＝4是超帧中划分的帧的个数，其中

{segSNR}_{i} = {20 \log}_{10} (\frac{Σ_{n = 0}^{N - 1} x_{w}^{2} (n)}{Σ_{n = 0}^{N - 1} {(x_{w} (n) - {\hat{x}}_{w} (n))}^{2}}), i = 1, . . ., N_{SF},

N是每个帧的样点数；

(3)在16.8kbps编码速率下，从26种编码模式中选出使感知加权平均分段信噪比最大的编码模式，记为O_H；

(4)在上述步骤中对于选出来的16.8kbps下的编码模式O_H，计算编码输入信号x(n)和解码输出信号

的平均分段信噪比

S_{H} = \overset{&OverBar;}{segSNR} = \frac{1}{N_{SF}} Σ_{i = 1}^{N_{SF}} seg {SNR}_{i},

其中

{segSNR}_{i} = {20 \log}_{10} (\frac{Σ_{n = 0}^{N - 1} x^{2} (n)}{Σ_{n = 0}^{N - 1} {(x (n) - \hat{x} (n))}^{2}});

(5)同理，在较低的15.2kbps编码速率下，计算ACELP/TVC组合的26种编码模式下编码输入信号x(n)和解码输出信号

间的感知加权平均分段信噪比，选出使之最大的编码模式，记为O_L；

(6)在15.2kbps编码速率下选出来的编码模式O_L下，计算x(n)和解码输出信号

的平均分段信噪比，记为S_L；

(7)比较16.8kbps和15.2kbps相邻高低编码速率下选出的编码模式O_H和O_L下的平均分段信噪比S_H和S_L，如果S_L＞S_H，则从高速率编码模式O_H切换到低速率编码模式O_L，反之则从低速率编码模式切换到高速率编码模式O_H。

对于AVS-P10中的每个输入的音频超帧，依次进行上述过程的高低速率编码模式间的切换操作，并完成整个输入音频信号的编解码，从而形成每个超帧编码速率和编码模式可变的效果。本实施例选用6条单声道16kHz采样的音频信号进行实验，经过统计分析得到编码平均速率为16.0kbps；用宽带PESQ客观评估算法衡量输出音频信号质量，高速率16.8kbps下的MOS为3.40，变速率16.8kbps下的MOS为3.30，低速率15.2kbps下的MOS为3.26，变速率和高速率下的编码质量相近，相差0.1MOS。

实验结果显示相比高速率16.8kbps，本实施例中变速率音频编码传输带宽节省约5％，同理，对于多速率集合中的其它编码速率，用本发明提出的相邻高低速率编码模式间切换的变速率音频编码方法进行实验，结果显示，编码传输带宽可以节省5％～7％。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种相邻高低速率编码模式间切换的变速率音频编码方法，设置一个预先设定的编码速率集合和一个预先设定的编码模式集合，该编码速率集合涉及一组从高到低的不同编码速率，且至少包含两种编码速率，该编码模式集合涉及一组不同的音频信号编码模式，且至少包含两种编码模式，每帧音频信号将根据相邻的高、低编码速率及其相应的编码模式下解码输出信号相对于编码输入信号的失真大小选择最佳编码模式和编码速率；其特征在于，本发明是通过如下步骤实现的：

对于待处理的每帧音频信号：

(1)从编码速率集合{R_i，i＝1，...，M，M是编码速率的个数}中选定一种编码速率R_h，h＞1，在该编码速率下对于编码模式集合{O_i，i＝1，...，N，N是编码模式的个数}中的每种编码模式，对该帧音频信号分别进行编解码；

(2)分别将步骤(1)中每种编码模式下得到的编码输入信号和解码输出信号通过感知加权滤波器得到加权输入信号和加权输出信号；

(3)分别计算步骤(2)中每个编码模式下得到的加权输入信号和加权输出信号间的平均分段信噪比，选出使平均分段信噪比最大的编码模式，记为O_H；

(4)在步骤(3)中选出来的高速率编码模式O_H下，计算编码输入信号和解码输出信号间的平均分段信噪比，记为S_H；

(5)采用比编码速率R_h低一级的相邻编码速率R_l，l＝h-1，对该帧音频信号进行编解码，并在每种编码模式下，将编码输入信号和解码输出信号分别通过感知加权滤波器后计算两者之间的平均分段信噪比，选出使平均分段信噪比最大的编码模式，记为O_L；

(6)在步骤(5)中选出来的低速率编码模式O_L下，计算编码输入信号和解码输出信号间的平均分段信噪比，记为S_L；

(7)对上述步骤中选出来的高速率编码模式O_H下的S_H和低速率编码模式O_L下的S_L判断大小，如果S_L＞S_H，则从高速率编码模式O_H切换到低速率编码模式O_L，反之则从低速率编码模式切换到高速率编码模式O_H。

2.如权利要求1所述的一种相邻高低速率编码模式间切换的变速率音频编码方法，其特征在于步骤(2)中所述的感知加权滤波器的表达式为：

H (z) = A (z / α) = 1 - Σ_{i = 1}^{p} α^{i} a_{i} z^{- i}, 0 < α < 1,

其中α是感知加权系数，p是线性预测滤波器的阶数。

3.如权利要求1所述的一种相邻高低速率编码模式间切换的变速率音频编码方法，其特征在于输出信号

相对于输入信号x(n)的平均分段信噪比的计算过程为：

a.将一帧信号划分为N_SF个子帧，计算每个子帧的分段信噪比：

{segSNR}_{j} = {20 \log}_{10} (\frac{Σ_{n = 0}^{N - 1} x^{2} (n)}{Σ_{n = 0}^{N - 1} {(x (n) - \hat{x} (n))}^{2}}), j = 1, . . ., N_{SF},

其中N是每个子帧的长度；

b.计算该帧信号的平均分段信噪比：

\overset{&OverBar;}{segSNR} = \frac{1}{N_{SF}} Σ_{j = 1}^{N_{SF}} seg {SNR}_{j},

N_SF是帧中子帧的个数。