CN102708872A

CN102708872A - 3d音频中水平方位参数码本获取方法

Info

Publication number: CN102708872A
Application number: CN2012101905276A
Authority: CN
Inventors: 胡瑞敏; 王晓晨; 刘梦颖; 王汪; 冯新桓; 杨姗姗; 涂卫平; 杨玉红; 张茂盛
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2012-06-11
Filing date: 2012-06-11
Publication date: 2012-10-03
Anticipated expiration: 2032-06-11
Also published as: CN102708872B

Abstract

本发明公开了一种3D音频中水平方位参数码本获取方法，包括步骤：S1、确定所需码本中码字个数n和每个码字的维数D；S2、将水平方位参数训练集中的水平方位参数分割为D维矢量得到训练矢量集，并将前n个矢量组成n个D维临时码本；S3、将训练矢量集中的矢量划分为n个胞腔；S4、计算主观平均失真D _sp，比较主观平均失真D _sp和预先设定的门限误差ε的大小，若D _sp<ε，则此时的临时码本即为最终码本，；否则，执行步骤S5；S5重新选择新的临时码本，重复步骤S3－S4。将采用本发明方法所获取的码本应用于水平方位参数量化，可以提高整体量化主观性能。

Description

3D音频中水平方位参数码本获取方法

技术领域

本发明涉及量化码本领域，更具体地，涉及一种3D音频中水平方位参数码本获取方法。

背景技术

量化，是音频压缩中极为重要的步骤。量化就是通过用一个较小的数据集表示较大的数据集来实现数据量的减少。较小的数据集通常称为码本，码本中的数据称为码字。较大的数据集就是待量化值的集合。数据经过了量化，用码字代替原始输入的数据，可见，一个码本的好坏，很大程度上决定了一个量化器的性能优劣。

码本获取的运算过程通常称为码本训练。码本训练是一个迭代的过程，其核心思想是最邻近原则和最佳质心原则的交替使用。最邻近原则是指将矢量划分至相对欧式距离最小的码字所在胞腔，最佳质心原则是指所选码字是其所在胞腔的质心。该算法的基本思路是首先给定初始码本，按最邻近原则给N个矢量划分胞腔，并求出各个胞腔的质心，再以质心为新码本，重新划分胞腔。如此循环迭代，平均失真的相对误差小于迭代精度时，迭代结束。此时，各个胞腔的质心即为训练所得码本。

随着音频技术的发展，3D音频编解码技术成了现今发展的趋势。相比于传统音频，3D音频多出了表达声源位置的空间方位信息。将传统方法得到的码本直接使用于空间方位信息量化效果并不理想，主要体现在码本不能很好的反映人耳的主观感知特性，量化结果的主观感知失真较大，进而影响3D音频编解码的整体主观听感。因而，迫切需要一种将人耳主观感知考虑在内的码本获取方法。

发明内容

本发明是以获取符合人耳感知特性的码本为目的，提供了一种3D音频中水平方位参数码本获取方法。

本发明提供的一种3D音频中水平方位参数码本获取方法，包括步骤：

S1、根据量化需要确定所需码本中码字个数n和每个码字的维数D；

S2、将水平方位参数训练集中的水平方位参数分割为D维矢量得到训练矢量集，并将前n个矢量组成n个D维临时码本；

S3、以临时码本中的各码字为质心，将训练矢量集中的矢量划分为n个胞腔；

S4、根据训练矢量集中矢量分量数值的大小和矢量分量所在频带获取各矢量分量对应的JND值，将JND值与统计失真相结合计算得到各矢量的主观失真，并求各矢量的主观失真的平均值，得到主观平均失真D_sp，比较主观平均失真D_sp和预先设定的门限误差ε的大小，若D_sp<ε，则此时的临时码本即为最终码本，输出作为训练结果；否则，执行步骤S5；

S5、计算各胞腔的质心，并将所得质心作为新的临时码本，重复步骤S3－S4。

上述步骤S3中采用最邻近原则将训练矢量集中的矢量划分为n个胞腔。上述步骤S4中的主观平均失真

D_{sp} = \frac{Σ_{i = 0}^{n - 1} Σ_{j = 0}^{X - 1} [{(v_{j (i)} - y_{i})}^{2} - {JND}_{v_{j (i)}}^{2}]}{num (v)},

其中：

v_j(i)表示胞腔

中的第j个矢量；

y_i表示胞腔

的质心；

n为胞腔的个数；

X表示胞腔中全部矢量的个数；

num(v)为训练矢量集中全部矢量的个数。

上述步骤S5中采用最佳质心原则获取新的临时码本。

本发明提出了一种符合人耳感知特性的码本获取方法，将采用本发明方法所获取的码本应用于水平方位参数量化，可以提高整体量化主观性能。

附图说明

图1为本发明所获取码本的使用环境说明框图；

图2为本发明一种具体实施的流程图。

具体实施方式

本发明提供了一种3D音频中水平方位参数码本获取方法，具体实施时，可以由本领域技术人员采用计算机软件手段根据所提供技术方案实现自动化码本获取。实施例在本发明方法前提下实施，给出了详细的实施方式与具体的操作过程，但本发明的实现不限于该实施例。

本发明中的水平方位参数表示3D音频信号中水平方位位置信息的重要参数，主要包括双耳时间差（ITD，interaural time difference）和双耳强度差（ILD，interaural level difference），本发明方法可用于所有的水平方位参数码本的获取。

下面将以获取双耳强度差ILD码本为例对本发明对进一步说明。

当多声道音频信号输入时，通过下混将其处理为表达声音内容信息的和声道和表达声音位置信息的空间方位参数。输入多声道音频信号的每个子带可以提取出一个对应的ILD。实际编解码中音频信号的一帧通常分为若干个子带进行处理，假设子带数量为N，如果将N个子带所对应的N个ILD参数作为一个N维矢量进行量化，会使量化算法的复杂度大大增加；如果将这些数据各自独立作为标量进行量化，则会破坏子带与子带之间的相关性。因而量化器通常会采用一个平衡的方案，即将输入的水平方位参数N维矢量分裂成若干个子矢量进行量化。如图1所示，每个子矢量单独量化并匹配单独的量化码本放入量化器中，再将训练好的各子带码本对应放入量化器进行后续的量化操作。因此，在码本获取时，需要针对不同的子矢量进行训练不同的码本，本发明方法就是针对上述子矢量提供子矢量码本的一种获取方法。

在码本的获取过程中，为了使结果更加符合人耳的主观感知特性，本发明通过引入水平方位参数的最小人耳可感知差异JND值来计算临时码本的主观平均失真。JND值指的是人耳所能分辨的水平方位不同音源的水平方位参数的最小值，JND值随着水平方位参数值的大小和它所在的频带变化而变化，因而每一个不同大小的水平方位参数都对应着不同的JND值，同样大小的水平方位参数在不同的频带也对应着不同的JND值。

下面将以ILD参数为例，具体说明本发明步骤：

S1、根据量化需要确定所需码本中码字个数n和每个码字的维数D。

S2、将ILD训练集中的ILD参数分割为D维矢量得到训练矢量集X，并将前n个矢量组成n个D维临时码本，初始化迭代次数m=0，初始化主观平均失真为正无穷；这里的ILD训练集是长期收集获取的ILD集合。

本步骤的将ILD训练集中的ILD参数分割为D维矢量得到训练矢量集X是采用读入操作来实现的，即，将ILD训练集中的ILD参数D个一组的读入，每一组即为一个D维矢量，由这些D维矢量所构成的集合即为训练矢量集X。若ILD训练集中的ILD参数的个数不为D的倍数，则采取末尾补零的方式把ILD训练集中的ILD参数的个数凑成对D的倍数。

S3、以临时码本中的各码字为质心，采用最邻近原则将训练矢量集中的矢量划分为n个胞腔

满足

R_{i}^{(m)} = {v | d ({v, y}_{i}^{(m)}) = \min_{0 \leq i \leq n - 1} d ({v, y}_{i}^{(m)}), v &Element; X}, i = 0,1, . . ., n - 1 .

其中，

分别表示第m次迭代时第0、1、…n-1个胞腔中矢量数据的集合，v是训练矢量集X中的矢量，

是胞腔

中的质心，即为临时码本中的码字，

为v到

的欧式距离。

S4、根据训练矢量集中矢量分量数值的大小和矢量分量所在频带获取各矢量分量对应的JND值，将JND值与统计失真相结合计算得到各矢量的主观失真，并求各矢量的主观失真的平均值得到主观平均失真D_sp，比较主观平均失真D_sp和预先设定的门限误差ε的大小，若D_sp<ε，则此时的临时码本即为最终码本，输出作为训练结果；否则，令m＝m+1，执行步骤S5。

训练矢量集中的矢量为D维矢量，对各矢量可对应的求得一组JND值：JND₁、JND₂、…、JND_D，将JND值与统计失真相结合计算得到各矢量的主观失真。对所得的各矢量的主观失真求算术平均值，即得到主观平均失真D_sp。

本步骤中主观平均失真

D_{sp} = \frac{Σ_{i = 0}^{n - 1} Σ_{j = 0}^{X - 1} [{(v_{j (i)} - y_{i})}^{2} - {JND}_{v_{j (i)}}^{2}]}{num (v)},

其中，

v_j(i)表示胞腔

中的第j个矢量；

y_i表示胞腔

的质心；

n为胞腔的个数；

X表示胞腔

中全部矢量的个数；

num(v)为训练矢量集中全部矢量的个数。

S5、采用最佳质心原则，计算各胞腔的质心

并将所得质心作为新的临时码本，重复步骤S3－S4。

为便于本领域技术人员实施参考，本发明提供更详细的实施例，实施例所训练的码本为包含2个码字的2维矢量码本，采用的统计学失真测度为均方差，具体实施过程如下：

（a）依据量化器需求获取须训练码本包含2个码字，每个码字均为2维矢量。

（b）将ILD训练集中的ILD分割为2维矢量得到训练矢量集X，将输入的ILD训练集中的前4个ILD数据组成2维临时码本C₀={（24.141024，-21.219580），（0.460724，0.169193）}，初始化迭代次数m=0，初始化主观平均失真为正无穷，给定门限误差为ε=0.5。

（c）计算各输入ILD矢量与临时码本中码字的欧式距离，按照最邻近原则将训练矢量集X中的ILD矢量划分为2个胞腔。

（d）训练矢量集X中一待训练ILD矢量（34.535961,-22.689129）被分在以码字（24.141024，-21.219580）为质心的胞腔，上述待训练ILD矢量所在频率范围为350~450Hz，求得ILD矢量所对应的JND值（0.619971,0.722825075），并计算得到该ILD矢量的主观失真为9.467286。采用上述方法计算出训练矢量集X中其他ILD矢量的主观失真，对所有ILD矢量的主观失真求算术平均值，即得到平均主观失真为4.797986，大于门限误差0.5。

（d）根据最佳质心原则，重新计算出包含2个码字的2维码本C₁={（27.587689，-23.578791），（0.745352，1.365522）}，令m＝m+1，重复步骤（c）－（d）。

（e）在迭代到第532次时，即m＝532时，此时计算得到平均主观失真为0.467812，小于0.5，则输出所得的码本C_x={（23.594567，-20.255763），（0.945402，2.735637）}。

Claims

1.一种3D音频中水平方位参数码本获取方法，其特征在于，包括步骤：

2.根据步骤1所述的3D音频中水平方位参数码本获取方法，其特征在于：

步骤S3中采用最邻近原则将训练矢量集中的矢量划分为n个胞腔。

3.根据步骤1所述的3D音频中水平方位参数码本获取方法，其特征在于：步骤S4中的主观平均失真

D_{sp} = \frac{Σ_{i = 0}^{n - 1} Σ_{j = 0}^{X - 1} [{(v_{j (i)} - y_{i})}^{2} - {JND}_{v_{j (i)}}^{2}]}{num (v)},

其中，v_j(i)表示胞腔

中的第j个矢量；y_i表示胞腔

的质心；n为胞腔的个数；X表示胞腔

中全部矢量的个数；num(v)为训练矢量集中全部矢量的个数。

4.根据步骤1所述的3D音频中水平方位参数码本获取方法，其特征在于：

步骤S5中采用最佳质心原则获取新的临时码本。