CN102708872A - 3d音频中水平方位参数码本获取方法 - Google Patents
3d音频中水平方位参数码本获取方法 Download PDFInfo
- Publication number
- CN102708872A CN102708872A CN2012101905276A CN201210190527A CN102708872A CN 102708872 A CN102708872 A CN 102708872A CN 2012101905276 A CN2012101905276 A CN 2012101905276A CN 201210190527 A CN201210190527 A CN 201210190527A CN 102708872 A CN102708872 A CN 102708872A
- Authority
- CN
- China
- Prior art keywords
- vector
- code book
- cell
- subjective
- distortion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种3D音频中水平方位参数码本获取方法,包括步骤:S1、确定所需码本中码字个数n和每个码字的维数D;S2、将水平方位参数训练集中的水平方位参数分割为D维矢量得到训练矢量集,并将前n个矢量组成n个D维临时码本;S3、将训练矢量集中的矢量划分为n个胞腔;S4、计算主观平均失真D sp ,比较主观平均失真D sp 和预先设定的门限误差ε的大小,若D sp <ε,则此时的临时码本即为最终码本,;否则,执行步骤S5;S5重新选择新的临时码本,重复步骤S3-S4。将采用本发明方法所获取的码本应用于水平方位参数量化,可以提高整体量化主观性能。
Description
技术领域
本发明涉及量化码本领域,更具体地,涉及一种3D音频中水平方位参数码本获取方法。
背景技术
量化,是音频压缩中极为重要的步骤。量化就是通过用一个较小的数据集表示较大的数据集来实现数据量的减少。较小的数据集通常称为码本,码本中的数据称为码字。较大的数据集就是待量化值的集合。数据经过了量化,用码字代替原始输入的数据,可见,一个码本的好坏,很大程度上决定了一个量化器的性能优劣。
码本获取的运算过程通常称为码本训练。码本训练是一个迭代的过程,其核心思想是最邻近原则和最佳质心原则的交替使用。最邻近原则是指将矢量划分至相对欧式距离最小的码字所在胞腔,最佳质心原则是指所选码字是其所在胞腔的质心。该算法的基本思路是首先给定初始码本,按最邻近原则给N个矢量划分胞腔,并求出各个胞腔的质心,再以质心为新码本,重新划分胞腔。如此循环迭代,平均失真的相对误差小于迭代精度时,迭代结束。此时,各个胞腔的质心即为训练所得码本。
随着音频技术的发展,3D音频编解码技术成了现今发展的趋势。相比于传统音频,3D音频多出了表达声源位置的空间方位信息。将传统方法得到的码本直接使用于空间方位信息量化效果并不理想,主要体现在码本不能很好的反映人耳的主观感知特性,量化结果的主观感知失真较大,进而影响3D音频编解码的整体主观听感。因而,迫切需要一种将人耳主观感知考虑在内的码本获取方法。
发明内容
本发明是以获取符合人耳感知特性的码本为目的,提供了一种3D音频中水平方位参数码本获取方法。
本发明提供的一种3D音频中水平方位参数码本获取方法,包括步骤:
S1、根据量化需要确定所需码本中码字个数n和每个码字的维数D;
S2、将水平方位参数训练集中的水平方位参数分割为D维矢量得到训练矢量集,并将前n个矢量组成n个D维临时码本;
S3、以临时码本中的各码字为质心,将训练矢量集中的矢量划分为n个胞腔;
S4、根据训练矢量集中矢量分量数值的大小和矢量分量所在频带获取各矢量分量对应的JND值,将JND值与统计失真相结合计算得到各矢量的主观失真,并求各矢量的主观失真的平均值,得到主观平均失真Dsp,比较主观平均失真Dsp和预先设定的门限误差ε的大小,若Dsp<ε,则此时的临时码本即为最终码本,输出作为训练结果;否则,执行步骤S5;
S5、计算各胞腔的质心,并将所得质心作为新的临时码本,重复步骤S3-S4。
上述步骤S3中采用最邻近原则将训练矢量集中的矢量划分为n个胞腔。上述步骤S4中的主观平均失真 其中:
n为胞腔的个数;
X表示胞腔中全部矢量的个数;
num(v)为训练矢量集中全部矢量的个数。
上述步骤S5中采用最佳质心原则获取新的临时码本。
本发明提出了一种符合人耳感知特性的码本获取方法,将采用本发明方法所获取的码本应用于水平方位参数量化,可以提高整体量化主观性能。
附图说明
图1为本发明所获取码本的使用环境说明框图;
图2为本发明一种具体实施的流程图。
具体实施方式
本发明提供了一种3D音频中水平方位参数码本获取方法,具体实施时,可以由本领域技术人员采用计算机软件手段根据所提供技术方案实现自动化码本获取。实施例在本发明方法前提下实施,给出了详细的实施方式与具体的操作过程,但本发明的实现不限于该实施例。
本发明中的水平方位参数表示3D音频信号中水平方位位置信息的重要参数,主要包括双耳时间差(ITD,interaural time difference)和双耳强度差(ILD,interaural level difference),本发明方法可用于所有的水平方位参数码本的获取。
下面将以获取双耳强度差ILD码本为例对本发明对进一步说明。
当多声道音频信号输入时,通过下混将其处理为表达声音内容信息的和声道和表达声音位置信息的空间方位参数。输入多声道音频信号的每个子带可以提取出一个对应的ILD。实际编解码中音频信号的一帧通常分为若干个子带进行处理,假设子带数量为N,如果将N个子带所对应的N个ILD参数作为一个N维矢量进行量化,会使量化算法的复杂度大大增加;如果将这些数据各自独立作为标量进行量化,则会破坏子带与子带之间的相关性。因而量化器通常会采用一个平衡的方案,即将输入的水平方位参数N维矢量分裂成若干个子矢量进行量化。如图1所示,每个子矢量单独量化并匹配单独的量化码本放入量化器中,再将训练好的各子带码本对应放入量化器进行后续的量化操作。因此,在码本获取时,需要针对不同的子矢量进行训练不同的码本,本发明方法就是针对上述子矢量提供子矢量码本的一种获取方法。
在码本的获取过程中,为了使结果更加符合人耳的主观感知特性,本发明通过引入水平方位参数的最小人耳可感知差异JND值来计算临时码本的主观平均失真。JND值指的是人耳所能分辨的水平方位不同音源的水平方位参数的最小值,JND值随着水平方位参数值的大小和它所在的频带变化而变化,因而每一个不同大小的水平方位参数都对应着不同的JND值,同样大小的水平方位参数在不同的频带也对应着不同的JND值。
下面将以ILD参数为例,具体说明本发明步骤:
S1、根据量化需要确定所需码本中码字个数n和每个码字的维数D。
S2、将ILD训练集中的ILD参数分割为D维矢量得到训练矢量集X,并将前n个矢量组成n个D维临时码本,初始化迭代次数m=0,初始化主观平均失真为正无穷;这里的ILD训练集是长期收集获取的ILD集合。
本步骤的将ILD训练集中的ILD参数分割为D维矢量得到训练矢量集X是采用读入操作来实现的,即,将ILD训练集中的ILD参数D个一组的读入,每一组即为一个D维矢量,由这些D维矢量所构成的集合即为训练矢量集X。若ILD训练集中的ILD参数的个数不为D的倍数,则采取末尾补零的方式把ILD训练集中的ILD参数的个数凑成对D的倍数。
S4、根据训练矢量集中矢量分量数值的大小和矢量分量所在频带获取各矢量分量对应的JND值,将JND值与统计失真相结合计算得到各矢量的主观失真,并求各矢量的主观失真的平均值得到主观平均失真Dsp,比较主观平均失真Dsp和预先设定的门限误差ε的大小,若Dsp<ε,则此时的临时码本即为最终码本,输出作为训练结果;否则,令m=m+1,执行步骤S5。
训练矢量集中的矢量为D维矢量,对各矢量可对应的求得一组JND值:JND1、JND2、…、JNDD,将JND值与统计失真相结合计算得到各矢量的主观失真。对所得的各矢量的主观失真求算术平均值,即得到主观平均失真Dsp。
本步骤中主观平均失真
其中,
n为胞腔的个数;
num(v)为训练矢量集中全部矢量的个数。
为便于本领域技术人员实施参考,本发明提供更详细的实施例,实施例所训练的码本为包含2个码字的2维矢量码本,采用的统计学失真测度为均方差,具体实施过程如下:
(a)依据量化器需求获取须训练码本包含2个码字,每个码字均为2维矢量。
(b)将ILD训练集中的ILD分割为2维矢量得到训练矢量集X,将输入的ILD训练集中的前4个ILD数据组成2维临时码本C0={(24.141024,-21.219580),(0.460724,0.169193)},初始化迭代次数m=0,初始化主观平均失真为正无穷,给定门限误差为ε=0.5。
(c)计算各输入ILD矢量与临时码本中码字的欧式距离,按照最邻近原则将训练矢量集X中的ILD矢量划分为2个胞腔。
(d)训练矢量集X中一待训练ILD矢量(34.535961,-22.689129)被分在以码字(24.141024,-21.219580)为质心的胞腔,上述待训练ILD矢量所在频率范围为350~450Hz,求得ILD矢量所对应的JND值(0.619971,0.722825075),并计算得到该ILD矢量的主观失真为9.467286。采用上述方法计算出训练矢量集X中其他ILD矢量的主观失真,对所有ILD矢量的主观失真求算术平均值,即得到平均主观失真为4.797986,大于门限误差0.5。
(d)根据最佳质心原则,重新计算出包含2个码字的2维码本C1={(27.587689,-23.578791),(0.745352,1.365522)},令m=m+1,重复步骤(c)-(d)。
(e)在迭代到第532次时,即m=532时,此时计算得到平均主观失真为0.467812,小于0.5,则输出所得的码本Cx={(23.594567,-20.255763),(0.945402,2.735637)}。
Claims (4)
1.一种3D音频中水平方位参数码本获取方法,其特征在于,包括步骤:
S1、根据量化需要确定所需码本中码字个数n和每个码字的维数D;
S2、将水平方位参数训练集中的水平方位参数分割为D维矢量得到训练矢量集,并将前n个矢量组成n个D维临时码本;
S3、以临时码本中的各码字为质心,将训练矢量集中的矢量划分为n个胞腔;
S4、根据训练矢量集中矢量分量数值的大小和矢量分量所在频带获取各矢量分量对应的JND值,将JND值与统计失真相结合计算得到各矢量的主观失真,并求各矢量的主观失真的平均值,得到主观平均失真Dsp,比较主观平均失真Dsp和预先设定的门限误差ε的大小,若Dsp<ε,则此时的临时码本即为最终码本,输出作为训练结果;否则,执行步骤S5;
S5、计算各胞腔的质心,并将所得质心作为新的临时码本,重复步骤S3-S4。
2.根据步骤1所述的3D音频中水平方位参数码本获取方法,其特征在于:
步骤S3中采用最邻近原则将训练矢量集中的矢量划分为n个胞腔。
4.根据步骤1所述的3D音频中水平方位参数码本获取方法,其特征在于:
步骤S5中采用最佳质心原则获取新的临时码本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012101905276A CN102708872B (zh) | 2012-06-11 | 2012-06-11 | 3d音频中水平方位参数码本获取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012101905276A CN102708872B (zh) | 2012-06-11 | 2012-06-11 | 3d音频中水平方位参数码本获取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102708872A true CN102708872A (zh) | 2012-10-03 |
CN102708872B CN102708872B (zh) | 2013-08-21 |
Family
ID=46901573
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012101905276A Active CN102708872B (zh) | 2012-06-11 | 2012-06-11 | 3d音频中水平方位参数码本获取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102708872B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111696058A (zh) * | 2020-05-27 | 2020-09-22 | 重庆邮电大学移通学院 | 图像处理方法、装置及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6577995B1 (en) * | 2000-05-16 | 2003-06-10 | Samsung Electronics Co., Ltd. | Apparatus for quantizing phase of speech signal using perceptual weighting function and method therefor |
CN101163239A (zh) * | 2007-11-28 | 2008-04-16 | 天津大学 | 一种新的矢量量化初始码书的生成方法 |
CN101414365A (zh) * | 2008-11-20 | 2009-04-22 | 山东大学威海分校 | 一种基于粒子群的矢量码书量化器 |
CN101937680A (zh) * | 2010-08-27 | 2011-01-05 | 太原理工大学 | 码书分类重排矢量量化方法及其矢量量化器 |
-
2012
- 2012-06-11 CN CN2012101905276A patent/CN102708872B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6577995B1 (en) * | 2000-05-16 | 2003-06-10 | Samsung Electronics Co., Ltd. | Apparatus for quantizing phase of speech signal using perceptual weighting function and method therefor |
CN101163239A (zh) * | 2007-11-28 | 2008-04-16 | 天津大学 | 一种新的矢量量化初始码书的生成方法 |
CN101414365A (zh) * | 2008-11-20 | 2009-04-22 | 山东大学威海分校 | 一种基于粒子群的矢量码书量化器 |
CN101937680A (zh) * | 2010-08-27 | 2011-01-05 | 太原理工大学 | 码书分类重排矢量量化方法及其矢量量化器 |
Non-Patent Citations (1)
Title |
---|
TU WEIPING: "Measurement and Analysis of Just Noticeable", 《MULTIMEDIA TECHNOLOGY(ICMT)》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111696058A (zh) * | 2020-05-27 | 2020-09-22 | 重庆邮电大学移通学院 | 图像处理方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN102708872B (zh) | 2013-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102270452B (zh) | 近透明或透明的多声道编码器/解码器方案 | |
CN1954642B (zh) | 多信道合成器及产生多信道输出信号方法 | |
CN1910655B (zh) | 构造多通道输出信号或生成下混信号的设备和方法 | |
CN101836250B (zh) | 用于处理信号的方法及装置 | |
TWI404429B (zh) | 用於將多頻道音訊信號編碼/解碼之方法與裝置 | |
CN102047564B (zh) | 将重叠变换因式分解成两个块变换 | |
CN101006496B (zh) | 可分级音频编码 | |
CN105531763B (zh) | 用于先进耦合的不均匀参数量化 | |
CN101223582A (zh) | 对用于数字媒体频谱数据的高效编码的词典中的码字的修改 | |
HK1096760A1 (en) | Device and method for processing a signal with a sequence of discrete values | |
CN105164749B (zh) | 多声道音频的混合编码 | |
CN101436407B (zh) | 音频编解码方法 | |
CN105336333A (zh) | 多声道声音信号编码方法、解码方法及装置 | |
CN101313355A (zh) | 编码/解码多声道音频信号的方法和装置 | |
CN101111887A (zh) | 可扩展编码装置和可扩展编码方法 | |
CN106104678A (zh) | 从两个或多个基本信号导出多通道信号 | |
CN102243876B (zh) | 预测残差信号的量化编码方法及装置 | |
KR20070090217A (ko) | 스케일러블 부호화 장치 및 스케일러블 부호화 방법 | |
CN1918629B (zh) | 音频编码中的短窗分组方法 | |
CN108962266A (zh) | 对高阶高保真立体声信号应用动态范围压缩的方法和设备 | |
CN102708872B (zh) | 3d音频中水平方位参数码本获取方法 | |
CN102682779B (zh) | 面向3d音频的双声道编解码方法和编解码器 | |
CN101499279B (zh) | 空间参数逐级精细的比特分配方法及其装置 | |
CN107452387A (zh) | 一种声道间相位差参数的提取方法及装置 | |
CN105531761A (zh) | 音频解码系统和音频编码系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |