CN1866355A

CN1866355A - 声音编码装置和声音解码装置

Info

Publication number: CN1866355A
Application number: CNA200610093719XA
Authority: CN
Inventors: 井手博康
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2005-03-18
Filing date: 2006-03-16
Publication date: 2006-11-22
Anticipated expiration: 2026-03-16
Also published as: US20060212290A1; KR100840439B1; TW200703236A; CN1866355B; JP2006259517A; KR20060101335A; JP4800645B2; TWI312983B

Abstract

声音编码装置(100)对所输入的声音信号通过频率变换部(1)来实施频率变换。频带分割部(2)对通过频率变换得到的频率变换系数的频带，根据人的听觉的特性，按越是低频越窄、越是高频越宽地进行分割，最大值检索部(3)对通过频带分割部(2)得到的每个频带，检索频率变换系数的绝对值的最大值。移位数计算部(4)计算移位位数，使得通过最大值检索部(3)在每个频带上得到的最大值在各频带中预先设定的量化位数以下，移位处理部(5)对每个频带对频带中的频率变换系数的值，实施通过移位数计算部(4)计算的移位位数的移位处理。并且，编码部(6)对实施了移位处理的信号以规定的编码方式来实施编码。

Description

声音编码装置和声音解码装置

技术领域

本发明涉及对声音信号进行编码的装置和对被编码化后的声音信号进行解码的装置。

背景技术

近年来，随着基于互联网的音乐发送、记录声音的各种记录媒体的数字化发展，压缩声音信号的数据量的声音编码技术不可缺少。作为这种声音编码技术，有特开平7-46137号公报，其中公开了基于人的听觉特性的声音编码技术。该现有技术将声音信号分割为多个子频带(sub band)(频带)，按每个子频带来决定最大值(刻度值)和基于听觉心理上的临界频带的允许噪声幅度N，并决定各子频带所需的S/N比，从该S/N比计算量化位数，而进行编码。

但是，这种声音编码技术中，由于为计算量化位数，需要较多的计算步骤，所以有运算量大、不能高速进行处理的问题。

发明内容

本发明所要解决的技术问题是使基于人的听觉特性的声音处理的处理效率提高。

本发明的声音编码装置，其特征在于，包括：频率变换单元，其对所输入的声音信号实施频率变换；频带分割单元，其对通过所述频率变换单元得到的频率变换系数的频带，按越是低频越窄、越是高频越宽地进行分割；检索单元，其按通过所述频带分割单元分割后的每个频带，从通过所述频带变换单元得到的频率变换系数中检索绝对值最大的值；移位数计算单元，其计算移位位数，使得通过所述检索单元按每个分割频带得到的频率变换系数的最大值在各分割频带中预先设定的量化位数以下；移位处理单元，对通过所述频率变换单元得到的频率变换系数的值，实施通过所述移位数计算单元计算的移位位数量的移位处理；编码单元，其对通过所述移位处理单元移位处理后的频率变换系数进行编码。

另外，本发明的声音解码装置，其特征在于，包括：解码单元，其对包含编码后的每个分割频带的移位位数和编码后的频率变换系数的编码信号进行解码，所述分割频带对频率变换输入声音信号得到的频率变换系数的频带，按越是低频越窄、越是高频越宽地进行分割；移位处理单元，其对通过解码单元解码后的频率变换系数数据，沿与编码时相反方向来移位解码后的移位位数量；和频率逆变换单元，其对通过移位处理单元实施了移位处理的数据，实施频率逆变换而变换到时间轴，并作为再生信号输出。

附图说明

图1是表示本发明的实施方式1的声音编码装置的结构的框图；

图2是表示本发明的实施方式1的声音解码装置的结构的框图；

图3是用于说明频率变换系数的频带分割的图；

图4是用于说明量化位数和移位位数的图；

图5是表示实施方式1的声音编码装置中执行的声音编码处理的流程图；

图6是表示实施方式1的声音解码装置中执行的声音解码处理的流程图；

图7是表示本发明的实施方式2的声音编码装置的结构的框图；

图8是表示本发明的实施方式2的声音解码装置的结构的框图；

图9是表示实施方式2的声音编码装置中执行的声音编码处理的流程图；

图10是表示实施方式2的声音解码装置中执行的声音解码处理的流程图。

具体实施例

(实施方式1)

图1表示实施方式1的声音编码装置100的结构。声音编码装置100由频率变换部1、频带分割部2、最大值检索部3、移位数计算部4、移位处理部5和编码部6构成。

频率变换部1对输入的声音信号实施频率变换，并输出到频带分割部2。作为声音信号的频率变换，使用了MDCT(Modified Discrete Cosine Transform：变形离散余弦变换)。若输入的声音信号为{x_n|n＝0，...，M-1}，则如(1)式那样定义MDCT系数(频率变换系数){x_k|k＝0，...，M/2-1}。

【式1】

X_{k} = Σ_{n = 0}^{M - 1} x_{n} \cdot h_{n} \cdot \cos {\frac{2 π}{M} (\frac{k + 1}{2}) (n + \frac{M}{4} + \frac{1}{2})} - - - (1)

这里，h_n是窗函数，如式(2)那样定义。

【式2】

h_{n} = \sin {\frac{π}{M} (n + \frac{1}{2})} - - - (2)

频带分割部2，与人的听觉特性相匹配地分割从频率变换部1输入的频率变换系数的频带。具体的，频带分割部2如图3所示那样，对频率变换系数，按越是低频(低频带)越窄，越是高频(高频带)越宽地进行分割。例如，在声音信号的取样频率为16kHz的情况下，分割为分割的阈值(thre shold)为187.5Hz、437.5Hz、687.5Hz、937.5Hz、1312.5Hz、1687.5Hz、2312.5Hz、3250Hz、4625Hz、6500Hz的11频带。

最大值检索部3对通过频带分割部2分割后的每个频带，从频带中包含的频率变换系数的绝对值中检索最大值。

移位数计算部4计算移位的位数(下面称作移位位数)，使得通过最大值检索部3得到的各分割频带下的频率变换系数的最大值在各分割频带中预先设定的量化位数以下。在各分割频带中预先设定的量化位数最好根据人的听觉特性，越是低频越多，越是高频越少，如图4所示，从低频向高频，分配8～5位左右。例如，在某个频带下的最大值为“1010 1011(二进制)”，在该频带中预先设定的量化位数为6位的情况下，移位位数为2位。

移位处理部5对每个分割频带将该频带中的所有频率变换系数的值移位通过移位数计算部4计算的移位位数。另外，在解码时，由于需要将频率变换系数恢复到原来的位数，所以需要将表示每个分割频带的移位位数的数据作为编码信号的一部分输出。

编码部6通过规定的编码方式对通过移位处理部5处理后的数据进行编码，并作为编码信号输出。这里，作为编码方式，可以使用霍夫曼(Huffman)编码、矢量量化等各种编码方式。

图2表示实施方式1的声音解码装置101的结构。声音解码装置101是解码通过声音编码装置100编码后的信号的装置，如图2所示，由解码部7、移位处理部8、频率逆变换部9构成。

解码部7解码包含编码后的每个分割频带的移位位数和编码后的频率变换系数的编码信号，输出到移位处理部8。

移位处理部8对通过解码部7解码后的频率变换系数的数据，按每个频带沿与编码时相反方向移位编码时移位的位数量，并输出到频率逆变换部9。

频率逆变换部9对通过移位处理部8实施了移位处理后的数据，实施频率逆变换(例如逆MDCT)而变换到时间轴，作为再生信号输出。

接着，说明实施方式1的动作。

首先，参考图5的流程图，来说明声音编码装置100中执行的声音编码处理。

首先，对输入的声音信号实施频率变换(步骤S1)，使通过频率变换得到的频率变换系数与人的听觉特性相匹配地进行频带分割，使得越是低频越窄、越是高频越宽(步骤S2)。接着，对每个分割频带，检索频率变换系数的绝对值的最大值(步骤S3)，计算移位位数，使得各频带中的最大值在各频带中预先设定的量化位数以下(步骤S4)。

接着，按每个分割频带，对该频带中的所有频率变换系数，实施移位步骤S4中计算的移位位数的移位处理(步骤S5)，并对移位处理后的数据，通过规定的编码方式来实施编码(步骤S6)，本声音编码处理终止。

在编码信号中以分割后的频带的顺序添加移位位数来作为数据，并存储到声音编码装置100内的存储器，或输出到其他装置。

接着，参考图6的流程图，来说明解码由所述声音编码装置生成的声音编码信号的声音解码装置101中执行的声音解码处理。

首先，解码输入的编码信号(步骤T1)。接着，对解码后的频率变换系数数据按每个频带沿与编码时相反方向进行移位编码时移位的位数量的移位处理(步骤T2)。并且，对实施了移位处理的数据实施频率逆变换(步骤T3)，本声音解码处理终止。

如上所述，根据本实施方式1，通过与人的听觉特性相匹配地频带分割声音信号，并移位处理频率变换系数，使其为各频带中预先设定的量化位数以下，而可提高声音编码的处理速度。

(实施方式2)

参考图7～图10，来说明本发明的实施方式2。

图7表示实施方式2的声音编码装置200的结构。声音编码装置200由DC(Direct Current)去除部10、帧形成部11、幅度调整部12、频率变换部13、频带分割部14、最大值检索部15、移位数计算部16、移位处理部17、声音控制部18、矢量量化部19、熵编码部20构成。

声音编码装置200的构成要素中，由于频率变换部13、频带分割部14、最大值检索部15、移位数计算部16、移位处理部17分别具有与实施方式1的声音编码装置100的频率变换部1、频带分割部2、最大值检索部3、移位数计算部4、移位处理部5相同的功能，所以省略其功能说明。

DC去除部10去除所输入的声音信号的直流成分，并输出到帧形成部11中。去除声音信号的直流成分基于直流成分与音质几乎没有关系。直流成分的去除例如可通过高通滤波器来实现。高通滤波器有例如式(3)表示的传送函数。

【式3】

H (z) = \frac{0.464 - 0.927 z^{- 1} + 0.464 z^{- 2}}{1 - 1.906 z^{- 1} + 0.911 z^{- 2}} - - - (3)

帧形成部11将从DC去除部10输入的信号分割为作为编码(压缩)的处理单位的一定长度的帧，并输出到幅度调制部12。这里，一个帧设为包含一个以上的块的长度。一个块是进行一次的MDCT(Modified Discrete Cosine Transform：变形离散余弦变换)的单位，具有MDCT次数量的长度。MDCT的抽头长度中512抽头是理想的。

幅度调整部12对每个帧进行所输入的声音信号的幅度调整(振幅调整)，并将幅度调整后的信号输出到频率变换部13。所谓幅度调整是将一帧中含有的信号的振幅的最大值收敛到指定的位(下面为限制目标位)数中。声音信号中，认为限制在10位左右。幅度调整例如在一帧中的信号的最大振幅为nbit、限制目标位数为N时，通过将帧中的信号向LSB(Least Significant Bit：最低位位)侧全部移位满足(4)式的shift_bit数量来实现。

【式4】

shift_bit = \{\begin{matrix} 0 & (n \leq N) \\ N - n & (n > N) \end{matrix} - - - (4)

另外，解码时，由于需要将振幅被限制为限制目标位以下的信号恢复到原来的信号，所以需要将表示shift_bit的信号作为编码信号的一部分输出。

幅度调整后的信号与实施方式1的声音编码装置100的处理相同，通过频率变换部13来实施频率变换，并在频率分割部14中，使通过频率变换处理得到的频率变换系统与人的听觉特性相匹配地进行频带分割，接着，在最大值检索部15中，按每个分割频带来检索频率变换系数的绝对值的最大值，并在移位数计算部16中，计算移位位数，使得各分割频带下的频率变换系数的最大值在各分割频带中预先设定的量化位数以下。接着，在移位处理部17中，按每个分割频带，对该频带中的所有的频率变换系数，实施移位通过移位数计算部16计算的移位位数的移位处理。

音质控制部18进行通过频率变换系数的数据的删除来控制是即使编码量多也提高再生声音的音质，还是即使很少的牺牲再生声音的质量也要抑制编码量的音质控制。即，为了得到规定的音质，而预先决定在编码频率变换系数中对哪个频带的系数进行编码，在移位处理后的频率变换系数的数据数比规定的数据数(编码对象的频带数)多的情况下，删除多余量的频带的频率变换系数，并将其余的频带的频率变换系数输出到矢量量化部19。作为删除的处理，有例如从能量小的频带的频率变换系数删除的方法。

作为具体的例子，说明了一个块的MDCT系数为16个频带，编码对象的频带数为10个频带的情况。在16个频带的MDCT系数为10、-5、80、657、-324、-2、986、324、-832、27、-31、89、2、-1、9、1的情况下，删除能量小的第2、6、13、14、15、16编号的频带的MDCT系数(-5、-2、2、-1、9、1)，将其余的10个频带的MDCT系数作为编码对象。另外，解码时，由于使删除的频带的数据恢复，所以还需要将表示对哪个频带进行编码的信号也作为编码信号的一部分输出。

矢量量化部19具有存储了表示多个声音图案的代表矢量的VQ(VectorQuantization)表，将从声音控制部18输入的编码对象的频率变换系数(矢量)F1和VQ表中存储的各代表矢量比较，将最类似的代表矢量表示的索引作为编码输出到熵编码部20。

例如，若将矢量长度N的编码对象的矢量设作{s_j|j＝1，...，N}，在VQ表中存储的k个代表矢量设作{V_i|i＝1，...，k}，V_i＝{V_ij|j＝1，...，N}，则将编码对象的矢量、和VQ表中存储的第i的代表矢量的各要素V_ij的误差e_i最小的i(索引)作为输出的编码。(5)表示误差e_i的计算式。

【式5】

e_{i} = Σ_{j = 1}^{N} {(s_{j} - v_{ij})}^{2} - - - (5)

通过勘查矢量量化所需的处理时间和VQ表的容量等来决定代表矢量数k和矢量长度N。例如，考虑矢量长度为3，代表矢量数目为128，或矢量长度为4，代表矢量数目为256等自由的组合。另外，通过按每个编码对象的频带准备不同的VQ表，可以使再生声音的质量提高。

熵编码部20对从矢量量化部19输入的数据实施熵编码，并作为编码信号输出。所谓熵编码是指利用信号的统计性质，通过对出现频率高的符号分配短的编码，对出现频率低的符号分配长的编码，来很短地变换整体的编码长度的编码方式，有霍夫曼(Huffman)编码、算术编码、基于距离编码器(Range Coder)的编码等。

图8表示实施方式2的声音解码装置201的结构。声音解码装置201是解码通过声音编码装置200编码后的信号的装置，由熵解码部30、逆矢量量化部31、移位处理部32、频率逆变换部33、幅度再现部34、帧合成部35构成。由于声音解码装置2201的构成要素中，移位处理部32、频率逆变换部33分别具有与实施方式1的声音解码装置101的移位处理部8、频率逆变换部9相同的功能，所以省略其功能说明。

熵解码部30解码熵编码后的输入信号，并输出到逆矢量量化部31。

逆矢量量化部31具有存储了表示多个声音图案的代表矢量的VQ表，并提取对应于从熵解码部30输入的信号(索引)的代表矢量。这时，逆矢量量化部31在目前的频率变换系数的频带数比原来(频率变换时的)频率变换系数的频带数少的情况下，将规定的值插入到不充分的频带中，并将所有的频带一致的频率变换系数输出到移位处理部32中。插入如使向不充分的频带插入的数据值比所输入的信号的频带的能量值小那样的值(例如0)。

幅度再现部34进行从频率逆变换部33输入的信号的幅度调整(振幅调整)而回到原来的幅度，并输出到帧合成部35。

帧合成部35合成作为编码和解码的处理单位的帧，并将合成后的信号作为再生信号输出。

接着，说明实施方式2的动作。

首先，参考图9的流程图，来说明声音编码装置200中执行的声音编码处理。

首先，删除所输入的声音信号的直流成分(步骤S10)，将直流成分删除后的声音信号分割为一定长度的帧(S11)。接着，按每个帧来调整所输入的声音信号的幅度(振幅)(步骤S12)，并对幅度调整后的声音信号实施MDCT(步骤S13)。

接着，通过MDCT得到的MDCT系数(频率变换系数)与人的听觉的特性相匹配地被频带分割(步骤S14)。接着，按每个分割频带，来检索MDCT系数的绝对值的最大值(步骤S15)，计算移位位数，使得各分割频带下的频率变换系数的最大值在各频带中预先设定的量化位数以下(步骤S16)。

接着，按每个分割频带，对该频带中的所有的MDCT系数，实施移位步骤S16中计算的移位位数的移位处理(步骤S17)。接着，在目前的MDCT系数的频带数比预先指定的频带数(编码对象的频带数)多的情况下，删除多余的频带(步骤S18)。

接着，对编码对象的频带的MDCT系数，实施矢量量化(步骤S19)，并对矢量量化后的信号实施熵编码(步骤S20)，本声音编码处理终止。

接着，参考图10来说明声音解码装置201中执行的声音解码处理。

首先，解码实施了熵编码后的编码信号(步骤T10)，对解码后的信号实施逆矢量量化(步骤T11)。这里，在目前的MDCT系数的频带数比原来的MDCT系数的频带数少的情况下，将规定的值(例如0)插入到不充分的频带中。

接着，对所有的频带一致的MDCT系数，按每个频带，沿相反方向进行移位编码时移位位数量的移位处理(步骤T12)，对实施了移位处理后的数据实施逆MDCT(步骤T13)。接着，通过逆MDCT后的信号的幅度调整回到原来的幅度(步骤T14)，合成为编码和解码的处理单位的帧，本声音解码处理终止。

如上所述，根据实施方式2，通过将预先指定的频带的频率变换系数作为编码对象，可以进行更高速的编码处理。

另外，上述的实施方式中的描述内容可以在不脱离本发明的主旨的范围内适当变更。

例如，在上述实施方式中，表示了使用MDCT来作为频率变换的情况，但是也可使用DFT(Discrete Fourier Transform：离散傅立叶变换)等其他频率变换。

Claims

1、一种声音编码装置，包括：

频率变换单元，其对所输入的声音信号实施频率变换；

频带分割单元，其对通过所述频率变换单元得到的频率变换系数的频带，按越是低频越窄，越是高频越宽地进行分割；

检索单元，其按通过所述频带分割单元分割后的每个频带，从由所述频带变换单元所得到的频率变换系数中检索绝对值最大的值；

移位数计算单元，其计算移位位数，使得按每个分割频带由所述检索单元所得到的频率变换系数的最大值在各分割频带中预先设定的量化位数以下；

移位处理单元，其对通过所述频率变换单元所得到的频率变换系数的值，实施通过所述移位数计算单元所计算出的移位位数量的移位处理；和

编码单元，其对通过所述移位处理单元移位处理后的频率变换系数进行编码。

2、根据权利要求1所述的声音编码装置，其特征在于：

所述编码单元包括：

矢量量化单元，其对实施了所述移位处理的频率变换系数数据，实施矢量量化；和

熵编码单元，其对实施了所述矢量量化的数据，实施熵编码。

3、根据权利要求2所述的声音编码装置，还包括：

删除单元，其删除所输入的声音信号的直流成分；

帧分割单元，其将通过所述删除单元删除了直流成分的声音信号分割为一定长度的帧；和

振幅调整单元，其按通过所述帧分割单元所得到的每个帧，基于帧中包含的声音信号的振幅的最大值来调整声音信号的振幅，并将实施了振幅调整的声音信号输出到所述频率变换单元。

4、根据权利要求3所述的声音编码装置，还包括：

频带数删除单元，其在通过所述频率变换所得到的频率变换系数的数目比预先所指定的数目多的情况下，删除多余的频率变换系数。

5、根据权利要求4所述的声音编码装置，其特征在于：

所述频率变换单元使用变形离散余弦变换来作为频率变换。

6、一种声音解码装置，包括：

解码部，其对编码信号进行解码，所述编码信号包含按编码后的每个分割频带的移位位数和编码后的频率变换系数，所述分割频带是对频率变换输入声音信号而所得到的频率变换系数的频带，按越是低频越窄、越是高频越宽地进行分割后所获得；

移位处理部，其对通过解码部解码后的频率变换系数数据，沿与编码时相反方向仅移位解码后的移位位数量；和

频率逆变换部，其对通过移位处理部实施了移位处理的数据，实施频率逆变换而变换到时间轴，并作为再生信号输出。

7、一种声音编码方法，包括：

频率变换步骤，对所输入的声音信号实施频率变换；

频带分割步骤，对通过所述频率变换步骤得到的频率变换系数的频带，按越是低频越窄、越是高频越宽地进行分割；

检索步骤，按通过所述频带分割步骤所分割的每个频带，从通过所述频带变换步骤所得到的频率变换系数中检索绝对值最大的值；

移位数计算步骤，计算移位位数，使得按每个分割频带通过所述检索步骤所得到的频率变换系数的最大值在各分割频带中预先设定的量化位数以下；

移位处理步骤，对通过所述频率变换步骤所得到的频率变换系数的值，实施通过所述移位数计算步骤所计算出的移位位数量的移位处理；和

编码步骤，对通过所述移位处理步骤所移位处理的频率变换系数进行编码。

8、根据权利要求7所述的声音编码方法，其特征在于：

所述编码步骤包括：

矢量量化步骤，对实施了所述移位处理的频率变换系数数据，实施矢量量化；和

熵编码步骤，对实施了所述矢量量化的数据实施熵编码。

9、根据权利要求8所述的声音编码方法，还包括：

删除步骤，删除所输入的声音信号的直流成分；

帧分割步骤，将通过所述删除步骤删除了直流成分的声音信号分割为一定长度的帧；和

振幅调整步骤，按通过所述帧分割步骤所得到的每个帧，基于帧中包含的声音信号的振幅的最大值来调整声音信号的振幅，并将实施了振幅调整的声音信号交给所述频率变换步骤。

10、根据权利要求9所述的声音编码方法，还包括：

频带数删除步骤，在通过所述频率变换所得到的频率变换系数的数目比预先指定的数目多的情况下，删除多余的频率变换系数。

11、根据权利要求10所述的声音编码方法，其特征在于：

所述频率变换步骤使用变形离散余弦变换来作为频率变换。

12、一种声音解码方法，其特征在于，包括：

解码步骤，对编码信号进行解码，所述编码信号包含按编码后的每个分割频带的移位位数和编码后的频率变换系数，所述分割频带是对频率变换输入声音信号而所得到的频率变换系数的频带，按越是低频越窄、越是高频越宽地进行分割后所获得；

移位处理步骤，对通过解码步骤解码后的频率变换系数数据，沿与编码时相反方向仅移位解码后的移位位数量；和

频率逆变换步骤，对通过移位处理步骤实施了移位处理的数据，实施频率逆变换而变换到时间轴，并作为再生信号输出。