CN103081006B

CN103081006B - 处理音频信号的方法和设备

Info

Publication number: CN103081006B
Application number: CN201180041093.7A
Authority: CN
Inventors: 李昌宪; 丁奎赫; 金洛榕; 田惠晶; 李炳锡; 姜仁圭
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2010-08-24
Filing date: 2011-08-23
Publication date: 2014-11-12
Anticipated expiration: 2031-08-23
Also published as: WO2012026741A2; US9135922B2; CN103081006A; EP2610866B1; CN104347079B; US20130151263A1; EP2610866A2; EP2610866A4; KR101850724B1; CN104347079A; KR20130112871A; WO2012026741A3

Abstract

本发明提供一种处理音频信号的方法，所述方法包括步骤：接收对应于多个谱系数的输入音频信号；基于所述输入信号的能量来获得位置信息，所述位置信息指示所述谱系数中的特定谱系数的位置；利用所述位置信息以及所述谱系数产生形状矢量；通过搜索对应于所述形状矢量的码本来确定码本索引；以及传输所述码本索引和所述位置信息，其中通过利用从所述谱系数选择的部分来产生所述形状矢量，以及基于所述位置信息来选择所述选择的部分。

Description

处理音频信号的方法和设备

技术领域

本发明涉及用于处理音频信号的设备及其方法。虽然本发明适合于广范围的应用，但是它特别适合于对音频信号编码或解码。

背景技术

压缩编码是指一系列的通过通信线路传送数字信息，或在适合于存储介质的形式存储数字化信息的信号处理技术。在一般情况下，视频，音频和文本进行压缩编码。特别是，对于音频进行压缩编码的技术被称为音频压缩。

音频压缩技术可包括对音频信号进行频率变换(例如，MDCT(修正离散余弦变换))的方法。在这样做时，将作为MDCT的结果的MDCT系数传输给解码器。如果这样的话，解码器通过利用MDCT系数进行频率逆变换(例如，iMDCT(逆MDCT))，来重建音频信号。

然而，近来，随着各种各样的媒体和数据传输媒体的发展，人们需要一种用于有效地处理视频信号的方法和装置。

发明内容

技术问题

但是，在传输MDCT系数的过程中，如果传输全部数据，则可能引起降低比特率效率的问题。如果传输诸如脉冲等等的数据，则可能引起降低重建速率的问题。

技术方案

因此，本发明旨在基本上避免由于现有技术的限制和缺点所致的一个或多个问题。本发明的目的是提供一种处理音频信号的设备及其方法，通过其基于能量产生的形状矢量(shape vector)可用于传输谱系数(例如，MDCT系数)。

本发明的另一目的是提供一种处理音频信号的设备及其方法，通过其形状矢量被归一化(normalize)然后被传输，以在传输形状矢量时缩小动态范围。

本发明的另一目的是提供一种处理音频信号的设备及其方法，通过其在传输每步骤产生的多个归一化值时，对除了值的平均值之外的其余值进行矢量量化。

有益效果

因此，本发明提供以下效果和/或特点。

首先，在传输谱系数时，当传输基于能量产生的形状矢量时，能够以较少的比特数提高重建速度。

第二，因为将形状矢量归一化然后传输，所以本发明缩小了动态范围，从而提高了比特效率。

第三，本发明通过在多级中重复形状矢量产生步骤来传输多个形状矢量，从而在不显著提高比特率的情况下更准确地重建谱系数。

第四，在传输归一化值时，本发明单独地传输多个归一化值的平均值，并且只矢量量化与差分矢量(differential vector)相对应的值，从而提高了比特效率。

第五，对归一化值差分矢量进行的矢量量化的结果几乎与SNR以及分配给差分矢量的总比特数无关，但是与形状矢量的总比特数高度相关。因此，虽然将较少的比特数分配给归一化值差分矢量，但是在不对重建速度造成显著麻烦方面是有利的。

附图说明

图1是根据本发明实施例的音频信号处理设备的方框图。

图2是描述用于产生形状矢量的处理的示意图。

图3是描述用于通过多级(m＝0,…)处理产生形状矢量的处理的示意图。

图4示出形状矢量的矢量量化所必需的码本的一个示例。

图5是形状矢量的总比特数与信噪比(SNR)之间的关系的示意图。

图6是归一化值差分码矢量的总比特数与信噪比(SNR)之间的关系的示意图。

图7是用于比特流中包括的元素的语法的一个示例的示意图。

图8是根据本发明一个实施例的音频信号处理设备中的解码器的构造的示意图。

图9是其中实现根据本发明一个实施例的音频信号处理设备的产品的示意性方框图。

图10是说明其中实现根据本发明一个实施例的音频信号处理设备的产品之间的关系的示意图。

图11是其中实现根据本发明一个实施例的音频信号处理设备的移动终端的示意性方框图。

具体实施方式

为了实现这些和其他优点并根据本发明的目的，如同具体实施并宽泛描述的，根据本发明一个实施例的处理音频信号的方法可包括步骤：接收对应于多个谱系数的输入音频信号，基于输入信号的能量来获得位置信息，所述位置信息指示多个谱系数中的特定一个的位置，利用所述位置信息以及所述谱系数来产生形状矢量，通过搜索对应于所述形状矢量的码本来确定码本索引，以及传输所述码本索引和所述位置信息，其中利用从所述谱系数选择的部分来产生所述形状矢量，并且其中基于所述位置信息来选择所选择的部分。

根据本发明，所述方法可进一步包括步骤：产生关于指定谱系数的符号信息以及传输所述符号信息，其中进一步基于所述符号信息来产生所述形状矢量。

根据本发明，所述方法可进一步包括步骤：产生用于所选择的部分的归一化值。码本索引确定步骤可包括步骤：通过利用归一化值将所述形状矢量归一化来产生归一化形状矢量，以及通过搜索对应于所述归一化形状矢量的码本来确定所述码本索引。

根据本发明，所述方法可进一步包括步骤：计算第一级到第M级归一化值的平均值，利用从所述第一级到第M级归一化值减去所述平均值所得到的值来产生差分矢量，通过搜索对应于所述差分矢量的码本来确定所述归一化值索引，以及传输所述平均值以及对应于所述归一化值的归一化索引。

根据本发明，输入音频信号可包括第(m+1)级输入信号，所述形状矢量可包括第(m+1)级形状矢量，所述归一化值可包括第(m+1)级归一化值，并且基于第m级输入信号、第m级形状矢量以及第m级归一化值可产生第(m+1)级输入信号。

根据本发明，码本索引确定步骤可包括步骤：利用包括加权因子和所述形状矢量的成本函数来搜索所述码本，以及确定对应于所述形状矢量的码本索引，所述加权因子可根据所选择的部分而变化。

根据本发明，所述方法可进一步包括步骤：利用所述输入音频信号以及对应于所述码本索引的形状码矢量来产生残差信号，以及通过对所述残差信号进行频率包络编译来产生包络参数索引。

为了进一步实现这些和其他优点并根据本发明的目的，根据本发明另一实施例用于处理音频信号的设备可包括：位置检测单元，接收对应于多个谱系数的输入音频信号，所述位置检测单元基于输入信号的能量来获得位置信息，所述位置信息指示多个谱系数中的特定一个的位置；形状矢量产生单元，利用所述位置信息以及所述谱系数来产生形状矢量；矢量量化单元，通过搜索对应于所述形状矢量的码本来确定码本索引；以及复用单元，传输所述码本索引和所述位置信息，其中利用从所述谱系数选择的部分来产生所述形状矢量，并且其中基于所述位置信息来选择所选择的部分。

根据本发明，所述位置检测单元可产生关于指定谱系数的符号信息，所述复用单元可传输所述符号信息，并且可进一步基于所述符号信息来产生所述形状矢量。

根据本发明，所述形状矢量产生单元可进一步产生用于所选择的部分的归一化值，并通过利用所述归一化值将所述形状矢量归一化来产生归一化形状矢量。此外，所述矢量量化单元可通过搜索对应于所述归一化形状矢量的码本来确定所述码本索引。

根据本发明，所述设备可进一步包括用于计算第一级到第M级归一化值的平均值的归一化值编码单元，所述归一化值编码单元利用从第一级到第M级归一化值减去所述平均值所得到的值来产生差分矢量，归一化值编码单元通过搜索对应于所述差分矢量的码本来确定所述归一化值索引，归一化值编码单元传输所述平均值以及对应于所述归一化值的归一化索引。

根据本发明，所述输入音频信号可包括第(m+1)级输入信号，所述形状矢量可包括第(m+1)级形状矢量，所述归一化值可包括第(m+1)级归一化值，以及基于第m级输入信号、第m级形状矢量以及第m级归一化值可产生第(m+1)级输入信号。

根据本发明，所述矢量量化单元可利用包括加权因子和所述形状矢量的成本函数来搜索所述码本，并确定对应于所述形状矢量的码本索引。此外，所述加权因子可根据所选择的部分而变化。

根据本发明，所述设备可进一步包括残差编码单元，其用于利用所述输入音频信号以及对应于所述码本索引的形状码矢量来产生残差信号，所述残差编码单元通过对所述残差信号进行频率包络编译来产生包络参数索引。

本发明模式

下面详细参照本发明的优选实施例，其示例在附图中示出。首先，不将本说明书和权利要求书中使用的术语或词语解释为限于一般含义或字典含义，而是应当基于发明人能够适当地限定术语的概念以便以最佳方式描述发明人的发明的原理，来解释为与本发明的技术构思相匹配的含义和概念。本公开中公开的实施例和附图中示出的构造只是一个优选实施例，并不代表本发明的全部技术构思。因此，应当理解，本发明涵盖本发明的修改和变型，只要它们落入提交本申请时所附权利要求书及其等同物的范围之内。

根据本发明，可根据以下参照来解释以下术语，并可将本说明书中未公开的其他术语解释为与本发明的技术构思相匹配的以下含义和概念。具体而言，可以选择性地将“编译”解释为“编码”或“解码”，并且本公开中的“信息”是一般包括值、参数、系数、元素等等的术语，并且有时候可将其含义解释为不同，本发明不限于此。

在本公开中，广义上，音频信号在概念上区别于视频信号，并指示可以通过听觉方式识别的所有种类的信号。狭义上，音频信号表示没有语音特性或者具有少量语音特性的信号。应当在广义上解释本发明的音频信号。但是，如果作为区别于语音信号来使用，则本发明的音频信号可以理解为狭义上的音频信号。

虽然将编译仅指定为编码，但是也可将其解释为包括编码和解码两者。

图1是根据本发明实施例的音频信号处理设备的方框图。参照图1，编码器100包括位置检测单元110和形状矢量产生单元120。编码器100进一步包括矢量量化单元130、第(m+1)级输入信号产生单元140、归一化值编码单元150、残差产生单元160、残差编码单元170以及复用单元180的至少其中之一。编码器100可以进一步包括被配置为产生谱系数的变换单元(附图中未示出)，或者可以从外部设备接收谱系数。

在以下描述中，示意性说明上述组件的功能。首先，接收或产生编码器100的谱系数，从谱系数检测高能量采样的位置，基于检测的位置产生归一化形状矢量，进行归一化，然后进行矢量量化。在后续的级(m＝1,…,M-1)中对信号重复进行形状矢量的产生、归一化和矢量量化。对通过多个级产生的多个归一化值进行编码，经由形状矢量产生编码结果的残差，然后对产生的残差进行残差编译。

在以下描述中，详细说明上述组件的功能。

首先，位置检测单元110接收谱系数作为(第一级(m＝0)的)输入信号X₀，然后从系数检测具有最大采样能量的系数的位置。在这种情况下，谱系数对应于单个帧(例如，20ms)的音频信号的频率变换的结果。例如，如果频率变换包括MDCT，则对应的结果可包括MDCT(修正离散余弦变换)系数。此外，它可以对应于以低频带(4kHz或更低)上的频率分量构造的MDCT系数。

第一级(m＝0)的输入信号X₀是一组总共N个谱系数，并且可表示如下。

[公式1]

X₀＝[x₀(0),x₀(1),…,x₀(N-1)]

在公式1中，X₀表示第一级(m＝0)的输入信号，N表示谱系数的总数。

位置检测单元110确定用于第一级(m＝0)的输入信号X₀的具有最大采样能量的系数所对应的频率(或频率位置)km如下。

[公式2]

k_{m} = \underset{0 \leq n < N}{\arg \max} (| x_{m} (n) |)

在公式2中，X_m表示第(m+1)级输入信号(谱系数)，n表示系数的索引，N表示输入信号的系数的总数，k_m表示具有最大采样能量的系数所对应的频率(或位置)。

同时，如果m非零但是等于或大于1(即，第(m+1)级的输入信号的情况)，则第(m+1)级输入信号产生单元150的输出，而不是第一级(m＝0)的输入信号X₀，被输入到位置检测单元110，这将在第(m+1)级输入信号产生单元150的描述中说明。

在图2中，示出谱系数X_m(0)～X_m(N-1)的一个示例，其总数大约是160。参照图2，具有最高能量的系数X_m(k_m)的值对应于大约450。此外，对应于这个系数的频率或位置Km接近n(＝140)(大约139)。

因此，一旦检测到位置(k_m)，就产生对应于位置k_m的系数X_m(k_m)的符号(Sign(X_m(K_m)))。产生该符号使得形状矢量在将来具有正(+)值。

如上所述，位置检测单元110产生位置k_m和符号Sign(X_m(K_m))，然后将它们传送给形状矢量产生单元120和复用单元190。

基于输入信号X_m、接收的位置k_m和符号Sign(X_m(K_m))，形状矢量产生单元120产生2L维的归一化形状矢量S_m。

[公式3]

S_m＝[x_m(k_m-L+1)，…，x_m(k_m)，…，x_m(k_m+L)]·sign(x_m(k_m))/G_m

＝[s_m(0)，s_m(1)，…，s_m(2L-1)]

S_m＝[S_m(n)](n＝0～2L-1)

在公式3中，S_m表示第(m+1)级的归一化形状矢量，n表示形状矢量的元素索引，L表示维度，k_m表示第(m+1)级输入信号中具有最大能量的系数的位置(k_m＝0～N-1)，Sign(X_m(K_m))表示具有最大能量的系数的符号，“X_m(k_m-L+1),…,X_m(k_m+L)”表示基于位置K_m从谱系数选择的部分，G_m表示归一化值。

可将归一化值G_m定义如下。

[公式4]

G_{m} = \sqrt{\frac{1}{2 L} Σ_{l = - L + 1}^{L} x_{m}^{2} (k_{m} + l)}

在公式4中，G_m表示归一化值，X_m表示第(m+1)级输入信号，L表示维度。

特别地，可将归一化值计算为公式4所表达的RMS(均方根)值。

参照图2，因为形状矢量S_m对应于以k_m为中心的右侧和左侧上的一组总共2L个系数，所以如果L＝10，则10个系数位于以点“139”为中心的右侧和左侧中每侧上。因此，形状矢量S_m可对应于具有“n＝130～149”的一组系数(X_m(130),…,X_m(149))。

同时，在被乘以公式3中的Sign(X_m(K_m))时，最大峰值分量的符号变为与正(+)值相同。如果通过均衡(equalize)形状矢量的位置和符号而将形状矢量归一化为RMS值，则能够利用码本进一步提高量化效率。

形状矢量产生单元120将第(m+1)级的归一化形状矢量S_m传递给矢量量化单元130，并将归一化值G_m传递给归一化值编码单元150。

矢量量化单元130对量化的形状矢量S_m进行矢量量化。特别地，矢量量化单元130通过搜索码本，从码本中包括的码矢量中选择与归一化形状矢量S_m最相似的码矢量将码矢量传递给第(m+1)级输入信号产生单元140以及残差产生单元160，并将对应于所选择的码矢量的码本索引Y_mi传递给复用单元180。

图4中示出码本的一个示例。参照图4，在已经提取了对应于“L＝4”的8维形状矢量之后，通过训练处理来产生5比特矢量量化码本。根据示意图，可以看到构成码本的码矢量的峰值位置和符号被均等地布置。

同时，在搜索码本之前，矢量量化单元130定义成本函数(costfunction)如下。

[公式5]

D (i) = Σ_{n = 0}^{2 L - 1} w_{m} (n) {(s_{m} (n) - c (i, n))}^{2}

在公式5中，i表示码本索引，D(i)表示成本函数，n表示形状矢量的元素索引，S_m(n)表示第(m+1)级的第n个元素，c(i,n)表示具有设定为i的码本索引的码矢量中的第n个元素，W_m(n)表示加权函数。

可将加权因子W_m(n)定义如下。

[公式6]

w_{m} (n) = | s_{m} (n) | / \sqrt{Σ_{n = 0}^{2 L - 1} s_{m}^{2} (n)}

在公式6中，W_m(n)表示加权矢量，n表示形状矢量的元素索引，S_m(n)表示第(m+1)级中形状矢量的第n个元素。在这种情况下，加权矢量根据形状矢量S_m(n)或者所选择的部分(X_m(k_m–L+1),…,X_m(k_m+L))而变化。

成本函数被定义为如公式5并搜索将成本函数最小化的码矢量C_i＝[c(i,0),c(i,1),…,c(i,2L-1)]。在这样做时，将加权矢量W_m(n)应用于用于谱系数的元素的误差值。这表示形状矢量中每个谱系数的元素所占据的能量比，并可被定义为如公式6。特别地，在搜索码矢量时，以提高具有较高能量的谱系数元素的重要性的方式，能够进一步增强在相应元素上的量化性能。

图5是形状矢量的总比特数与信噪比(SNR)之间的关系的示意图。在通过将2比特码本产生为7比特码本而对形状矢量进行矢量量化之后，如果通过来自原始信号的误差来测量信噪比，参照图5，能够确认：当增加1比特时，SNR增加大约0.8dB。

因此，将公式5的成本函数最小化的码矢量Ci被确定为形状矢量的码矢量(或者形状码矢量)，并且码本索引I被确定为形状矢量的码本索引Y_mi。如上所述，码本索引Y_mi被传递给复用单元180作为矢量量化的结果。形状码矢量被传递给第(m+1)级输入信号产生单元140，用于第(m+1)级输入信号的产生，并被传递给残差产生单元160，用于残差产生。

同时，对于第一级输入信号(X_m,m＝0)，位置检测单元110或者矢量量化单元130产生形状矢量，然后对产生的形状矢量进行矢量量化。如果m<(M-1)，则启动第(m+1)级输入信号产生单元140，并对第(m+1)级输入信号进行形状矢量产生和矢量量化。另一方面，如果m＝M，则不启动第(m+1)级输入信号产生单元140，但是归一化值编码单元150和残差产生单元160变为激活。特别地，如果M＝4，则在“m＝0(即，第一级输入信号)”之后“m＝1,2和3”的情况下，第(m+1)级输入信号产生单元140、位置检测单元110以及矢量量化单元130对第二至第四级输入信号重复进行操作。可以说，如果m＝0～3，则在完成组件110、120、130和140的操作之后，归一化值编码单元150和残差产生单元160变为激活。

在第(m+1)级输入信号产生单元140变为激活之前，进行操作“m＝m+1”。特别地，如果m＝0，则第(m+1)级输入信号产生单元140为“m＝1”的情况操作。第(m+1)级输入信号产生单元140通过以下公式产生第(m+1)级输入信号。

[公式7]

X_{m} = X_{m - 1} - G_{m - 1} {\tilde{Y}}_{m - 1}

在公式7中，X_m表示第(m+1)级输入信号，X_m-1表示第m级输入信号，G_m-1表示第m级归一化值，表示第m级形状码矢量。

利用第一级输入信号X₀、第一级归一化值G₀和第一级形状码矢量来产生第二级输入信号X₁。

同时，第m级形状码矢量是具有与X_m，而不是上述形状码矢量相同维度的矢量，并且对应于通过用零填充以位置k_m为中心的右部分和左部分(N–2L)的方式所构造的矢量。应当将符号(Sign_m)也应用于形状码矢量。

以上产生的第(m+1)级输入信号X_m(其中m＝m)被输入到位置检测单元110等等，并重复地经历形状矢量产生和量化，直到m＝M。

图3示出情况“M＝4”的一个示例。如同图2，以第一级峰值(k₀＝139)为中心确定形状矢量S₀，并且将第一级形状码矢量(或者将归一化值应用于而得到的值)从原始信号X₀减去而得到的结果变为第二级输入信号X₁，该第一级形状码矢量(或者将归一化值应用于而得到的值)是确定的形状矢量S₀的矢量量化的结果。因此，在图2中可以看到，在第二级输入信号X₁中具有最高能量值的峰值的位置k₁大约是133。可以看到，第三级峰值k₂大约是96，第四级峰值k₃大约是89。因此，如果通过多个级(例如，总共四个级(M＝4))提取形状矢量，能够提取总共四个形状矢量(S₀,S₁,S₂,S₃)。

同时，为了提高每个级(m＝0～M-1)产生的归一化值(G＝[G₀,G₁,…,G_M-1]，G_m,m＝0～M-1)的压缩效率，归一化值编码单元150对从每个归一化值减去平均值(G_mean)而得到的差分矢量Gd进行矢量量化。首先，可将归一化值的平均值确定如下。

[公式8]

G_mean＝avg(G₀，～，G_M-1)

在公式8中，G_mean表示平均值，AVG()表示平均函数，G₀,～,G_M-1分别表示每个级(G_m,m＝0～M-1)的归一化值。

归一化值编码单元150对从每个归一化值Gm减去平均值而得到的差分矢量Gd进行矢量量化。特别地，通过搜索码本，将最相似于差分值的码矢量确定为归一化值差分码矢量并将用于的码本索引确定为归一化值索引Gi。

图6是归一化值差分码矢量的总比特数与信噪比(SNR)之间的关系的示意图。特别地，图6示出通过改变归一化值差分码矢量的总比特数来测量信噪比(SNR)的结果。在这种情况下，将平均值G_mean的总比特数固定为5比特。参照图6，即使增加归一化值差分码矢量的总比特数，也可以看到SNR几乎不增加。特别地，用于归一化值差分码矢量的比特数对SNR没有显著影响。但是，当形状码矢量(即，量化的形状矢量)的比特数分别是3比特、4比特和5比特时，如果将归一化值差分码矢量的SNR相互比较，可以看到有显著差异。特别地，归一化值差分码矢量的SNR与形状码矢量的总比特数有显著相关性。

因此，虽然归一化值差分码矢量的SNR几乎独立于归一化值差分码矢量的总比特数，但是可以看到，归一化值差分码矢量的SNR取决于形状码矢量的总比特数。

从归一化值编码单元150产生的归一化值差分码矢量以及平均值G_mean被传递给残差产生单元160，并且归一化值平均值G_mean以及归一化值索引G_i被传递给复用单元180。

残差产生单元160接收归一化值差分码矢量d、平均值G_mean、输入信号X₀以及形状码矢量然后通过将平均值加入归一化值差分码矢量，来产生归一化值码矢量随后，残差产生单元160产生残差z，残差z是形状矢量编译的编译误差或量化误差，如下所示。

[公式9]

Z = Xo - {\tilde{G}}_{0} - {\tilde{Y}}_{0} - . . - {\tilde{G}}_{M - 1} {\tilde{Y}}_{M - 1}

在公式9中，z表示残差，X₀表示(第一级的)输入信号，表示形状码矢量，表示归一化值码矢量的第(m+1)个元素。

残差编码单元170对残差z应用频率包络编译(frequency envelopecoding)方案。可将用于频率包络的参数定义如下。

[公式10]

F_{e} (i) = \frac{1}{2} \log_{2} (\frac{1}{2 W} Σ_{k = Wi}^{W (i + 2) - 1} {(w_{f} (k) z (k))}^{2}), 0 \leq i < 160 / W

在公式10中，F_e(i)表示频率包络，i表示包络参数索引，w_f(k)表示2W维汉宁窗(Hanning window)，z(k)表示残差信号的谱系数。

特别地，通过进行50％重叠加窗(overlap windowing)，将对应于每个窗口的对数能量定义为频率包络以使用。

例如，当W＝8时，根据公式10，因为i＝0～19，所以通过分裂矢量量化(split vector quantization)方案能够传输总共20个包络参数(F_e(i))。在这样做时，为了量化效率对去除平均值的部分进行矢量量化。以下公式表示从分裂矢量减去平均能量值所得到的矢量。

[公式11]

F_{0}^{M} = F_{0} - M_{F}, F_{0} = [F_{e} (0), \cdot \cdot \cdot, F_{e} (4)],

F_{1}^{M} = F_{1} - M_{F}, F_{1} = [F_{e} (5), \cdot \cdot \cdot, F_{e} (9)],

F_{2}^{M} = F_{2} - M_{F}, F_{2} = [F_{e} (10), \cdot \cdot \cdot, F_{e} (14)],

F_{3}^{M} = F_{3} - M_{F}, F_{3} = [F_{e} (15), \cdot \cdot \cdot, F_{e} (19)] .

在公式11中，Fe(i)表示频率包络参数(i＝0～19,W＝8)，F_j(j＝0,…)表示分裂矢量，M_F表示平均能量值，F_j ^M(j＝0,…)表示去除平均值的分裂矢量。

残差编码单元170通过码本搜索对去除平均值的分裂矢量(F_j ^M(j＝0,…))进行矢量量化，从而产生包络参数索引F_ji。此外，残差编码单元170将包络参数索引F_ji以及平均能量M_F传递给复用单元180。

复用单元180将从各个组件传递的数据复用在一起，从而产生至少一个比特流。在这样做时，当产生比特流时，能够遵循图7所示的语法。

图7是用于比特流中包括的元素的语法的一个示例的示意图。参照图7，能够基于从位置检测单元110接收的位置(k_m)和符号(Sign_m)产生位置信息和符号信息。如果M＝4，可将7个比特(总共28个比特)分配给每个级(例如，m＝0至3)的位置信息，将1个比特(总共4个比特)分配给每个级(例如，m＝0至3)的符号信息，本发明可不限于此(即，本发明不限于特定比特数)。此外，还能够将3个比特(总共12个比特)分配给每个级的形状矢量的码本索引Y_mi。归一化平均值G_mean和归一化值索引G_i不是为每个级而是为全部级产生的值。特别地，可将5个比特和6个比特分别分配给归一化平均值G_mean和归一化值索引G_i。

同时，当包络参数索引F_ji表示总共4个分裂因子(即，j＝0,…,3)时，如果将5个比特分配给每个分裂矢量，就能够分配总共20个比特。同时，如果在不被分裂的情况下全部平均能量M_F被正好地量化，就能够分配总共5个比特。

图8是根据本发明一个实施例的音频信号处理设备中的解码器的构造的示意图。参照图8，解码器200包括形状矢量重建单元220，并且可进一步包括解复用单元210、归一化值解码单元230、残差获得单元240、第一合成单元250和第二合成单元260。

解复用单元210从自编码器接收的至少一个比特流提取诸如位置信息k_m等等的附图所示元素，然后将提取的元素传递给各个组件。

形状矢量重建单元接收位置(k_m)、符号(Sign_m)和码本索引(Y_mi)。形状矢量重建单元220通过进行反量化，从码本获得对应于码本索引的形状码矢量。形状矢量重建单元220使得获得的码矢量能够位于位置k_m，然后向其应用符号，从而重建形状码矢量重建了形状码矢量之后，形状矢量重建单元220使得与信号X的维度不匹配的右部分和左部分(N–2L)的剩余部分能够被用零填充。

同时，归一化值解码单元230利用码本重建对应于归一化值索引G1的归一化值差分码矢量随后，归一化值解码单元230通过将归一化值平均值G_mean加到归一化值码矢量，来产生归一化值码矢量

第一合成单元250重建第一合成信号Xp如下。

[公式12]

Xp = {\tilde{G}}_{0} {\tilde{Y}}_{0} + {\tilde{G}}_{1} {\tilde{Y}}_{1} + . . . + {\tilde{G}}_{M - 1} {\tilde{Y}}_{M - 1}

残差获得单元240通过接收包络参数索引F_ji和平均能量M_F，获得对应于包络参数索引(F_ji)的去除平均值的分裂码矢量F_j ^M，组合获得的分裂码矢量，然后将平均能量加到该组合的方式，重建包络参数F_e(i)。

随后，如果从随机信号产生器(附图中未示出)产生具有单位能量的随机信号，则通过将随机信号乘以包络参数的方式，产生第二合成信号。

但是，为了减少由随机信号所致的噪声出现效应，在被应用于随机信号之前，包络参数可被调节如下。

[公式13]

{\tilde{F}}_{e} (i) = α \cdot F_{e} (i)

在公式13中，Fe(i)表示包络参数，α表示常数，表示调节的包络参数。

在这种情况下，α可包括通过试验的常数。替代性地，能够应用反映信号特性的自适应算法。

作为解码的包络参数的第二合成信号Xr被如下产生。

[公式14]

Xr = random () x {\tilde{F}}_{e} (i)

在公式14中，random()表示随机信号产生器，表示调节的包络参数。

因为在编码处理中上述产生的第二合成信号Xr包括为加汉宁窗的信号(hanning-windowed signal)而计算的值，所以在解码步骤中，通过以相同的窗口覆盖随机信号的方式，能够保持与编码器的条件等同的条件。同样地，能够输出通过50％重叠和相加处理而解码的谱系数元素。

第二合成单元260将第一合成信号Xp与第二合成信号Xr加在一起，从而输出最终重建谱系数。

根据本发明的音频信号处理设备可用于使用的各种产品。这些产品主要可分为单机组和便携组。电视、监视器、机顶盒等等可包括在单机组中。此外，PMP、移动电话、导航系统等等可包括在便携组中。

图9是其中实现了根据本发明一个实施例的音频信号处理设备的产品的示意性方框图。参照图9，有线/无线通信单元510经由有线/无线通信系统接收比特流。特别地，有线/无线通信单元510可包括有线通信单元510A、红外单元510B、蓝牙单元510C、无线LAN单元510D以及移动通信单元510E的至少其中之一。

用户验证单元520接收用户信息的输入，然后进行用户验证。用户验证单元520可包括指纹识别单元、虹膜识别单元、脸部识别单元以及语音识别单元的至少其中之一。指纹识别单元、虹膜识别单元、脸部识别单元以及语音识别单元接收指纹信息、虹膜信息、脸部轮廓信息以及语音信息，然后分别将它们转换为用户信息。确定每个用户信息是否匹配预先登记的用户数据，以进行用户验证。

输入单元530是使得用户能够输入各种命令的输入装置，并且可包括键盘单元530A、触摸板单元530B、远程控制器单元530C以及麦克风单元530D的至少其中之一，本发明不限于此。在这种情况下，麦克风单元530D是配置为接收语音或音频信号的输入的输入装置。特别地，键盘单元530A、触摸板单元530B以及远程控制器单元530C中的每一个能够接收用于进行呼叫的命令输入或者用于启动麦克风单元530D的命令输入。如果经由键盘单元530D等等接收用于进行呼叫的命令，则控制单元559能够控制移动通信单元510E，向对应的通信网络做出呼叫的请求。

信号编译单元540对经由有线/无线通信单元510接收的音频信号和/或视频信号进行编码或解码，然后在时域中输出音频信号。信号编译单元540包括音频信号处理设备545。如上所述，音频信号处理设备545对应于本发明的上述实施例(即，编码器100和/或解码器200)。因此，音频信号处理设备545以及包括音频信号处理设备545的信号编译单元可通过至少一个或多个处理器实现。

控制单元550从输入装置接收输入信号，并控制信号解码单元540和输出单元560的全部处理。特别地，输出单元560是被配置为将信号解码单元540等等产生的输出信号输出的组件，并且可包括扬声器单元560A和显示单元560B。如果输出信号是音频信号，就输出到扬声器。如果输出信号是视频信号，就经由显示器输出。

图10是设置有根据本发明实施例的音频信号处理设备的产品的关系的示意图。图10示出与图9所示产品相对应的终端与服务器之间的关系。参照图15(A)，可以看到，第一终端500.1与第二终端500.2可经由有线/无线通信单元双向地相互交换数据或比特流。参照图15(B)，可以看到，服务器600与第一终端500.1可以相互进行有线/无线通信。

图11是实现了根据本发明一个实施例的音频信号处理设备的移动终端的示意性方框图。移动终端700可包括配置为用于呼入和呼出呼叫的移动通信单元710、配置为用于数据通信的数据通信单元、配置为输入用于呼出呼叫的命令或者用于音频输入的命令的输入单元、配置为输入语音或音频信号的麦克风单元740、配置为控制各个组件的控制单元750、信号编译单元760、配置为输出语音或音频信号的扬声器770、以及配置为输出屏幕的显示器780。

信号编译单元760对经由移动通信单元710、数据通信单元720以及麦克风单元530D其中之一接收的音频信号和/或视频信号进行编码或解码，并经由移动通信单元710、数据通信单元720以及扬声器770其中之一，在时域中输出音频信号。信号编译单元760包括音频信号处理设备765。如本发明实施例前面所述(即，根据实施例的编码器100和/或解码器200)，音频信号处理设备765以及包括音频信号处理设备765的信号编译单元可通过至少一个处理器实现。

根据本发明的音频信号处理方法可以实现为计算机可执行程序，并且可以存储在计算机可读记录介质中。此外，具有本发明的数据结构的多媒体数据可以存储在计算机可读记录介质中。计算机可读介质包括其中存储了计算机系统可读的数据的所有种类的记录装置。计算机可读介质例如包括ROM、RAM、CD-ROM、磁带、软盘、光数据存储装置等等，也包括载波类型的实现(例如，经由互联网的传输)。此外，通过上述编码方法产生的比特流可以存储在计算机可读记录介质中，或者可以经由有线/无线通信网络传输。

虽然这里参照其优选实施例描述和说明了本发明，但是对于本领域技术人员而言显然的是，在不脱离本发明的精神和范围的情况下可以作出各种修改和变型。因此，本发明意欲涵盖落入所附权利要求书及其等同物范围内的本发明的修改和变型。

工业实用性

因此，本发明可应用于对音频信号编码和解码。

Claims

1.一种处理音频信号的方法，包括：

接收对应于多个谱系数的输入音频信号；

基于输入信号的能量来获得位置信息，所述位置信息指示所述多个谱系数中的特定的一个的位置；

使用所述位置信息产生用于所述谱系数的归一化值；

利用所述归一化值、所述位置信息和所述谱系数来产生归一化形状矢量；

通过搜索对应于所述归一化形状矢量的码本来确定码本索引；以及

传输所述码本索引和所述位置信息，

其中所述归一化形状矢量利用从所述谱系数选择的部分来产生，以及

其中所述选择的部分基于所述位置信息来选择。

2.根据权利要求1的方法，进一步包括：

产生关于特定谱系数的符号信息；以及

传输所述符号信息，

其中进一步基于所述符号信息来产生所述归一化形状矢量。

3.根据权利要求1的方法，进一步包括：

计算第一级到第M级归一化值的平均值；

利用从所述第一级到第M级归一化值减去所述平均值所得到的值来产生差分矢量；

通过搜索对应于所述差分矢量的码本来确定所述归一化值索引；以及

传输所述平均值以及对应于所述归一化值的归一化索引。

4.根据权利要求1的方法，其中所述输入音频信号包括第(m+1)级输入信号，所述形状矢量包括第(m+1)级形状矢量，以及所述归一化值包括第(m+1)级归一化值，以及

其中，基于第m级输入信号、第m级形状矢量以及第m级归一化值来产生第(m+1)级输入信号。

5.根据权利要求1的方法，所述确定包括：

利用包括加权因子和所述归一化形状矢量的成本函数来搜索所述码本；以及

确定对应于所述归一化形状矢量的码本索引，

其中所述加权因子根据所选择的部分而变化。

6.根据权利要求1的方法，进一步包括：

利用所述输入音频信号以及对应于所述码本索引的归一化形状码矢量来产生残差信号；以及

通过对所述残差信号进行频率包络编译来产生包络参数索引。

7.一种用于处理音频信号的设备，包括：

位置检测单元，用于接收对应于多个谱系数的输入音频信号，所述位置检测单元基于输入信号的能量来获得位置信息，所述位置信息指示多个谱系数中的特定一个的位置；

形状矢量产生单元，用于利用所述位置信息产生用于所述谱系数的归一化值，以及利用所述归一化值、所述位置信息和所述谱系数来产生归一化形状矢量；

矢量量化单元，用于通过搜索对应于所述归一化形状矢量的码本来确定码本索引；以及

复用单元，用于传输所述码本索引和所述位置信息，

其中利用从所述谱系数选择的部分来产生所述归一化形状矢量，以及

其中所述选择的部分基于所述位置信息来选择。

8.根据权利要求7的设备，其中所述位置检测单元产生关于特定谱系数的符号信息，

其中所述复用单元传输所述符号信息，以及

其中进一步基于所述符号信息来产生所述归一化形状矢量。

9.根据权利要求7的设备，进一步包括归一化值编码单元，其用于计算第一级到第M级归一化值的平均值，利用从第一级到第M级归一化值减去所述平均值所得到的值来产生差分矢量，通过搜索对应于所述差分矢量的码本来确定所述归一化值索引，以及传输所述平均值以及对应于所述归一化值的归一化索引。

10.根据权利要求9的设备，其中，所述输入音频信号包括第(m+1)级输入信号，所述形状矢量包括第(m+1)级形状矢量，以及所述归一化值包括第(m+1)级归一化值，以及

其中基于第m级输入信号、第m级形状矢量以及第m级归一化值来产生第(m+1)级输入信号。

11.根据权利要求7的设备，其中所述矢量量化单元利用包括加权因子和所述归一化形状矢量的成本函数来搜索所述码本，并确定对应于所述归一化形状矢量的码本索引，以及其中所述加权因子根据所述选择的部分而变化。

12.根据权利要求7的设备，进一步包括残差编码单元，其用于利用所述输入音频信号以及对应于所述码本索引的归一化形状码矢量来产生残差信号，所述残差编码单元通过对所述残差信号进行频率包络编译来产生包络参数索引。