CN101004914A - 声音编码装置和方法、以及声音解码装置和方法 - Google Patents
声音编码装置和方法、以及声音解码装置和方法 Download PDFInfo
- Publication number
- CN101004914A CN101004914A CNA2007100019506A CN200710001950A CN101004914A CN 101004914 A CN101004914 A CN 101004914A CN A2007100019506 A CNA2007100019506 A CN A2007100019506A CN 200710001950 A CN200710001950 A CN 200710001950A CN 101004914 A CN101004914 A CN 101004914A
- Authority
- CN
- China
- Prior art keywords
- frequency
- transform coefficients
- video codec
- coding
- code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/035—Scalar quantisation
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
Abstract
声音编码装置(100),具有:对于输入的声音信号施行频率变换的频率变换部(13);对于所述声音信号的每一频率成分计算重要度的频带重要度计算部(19);以该计算出来的重要度高的顺序进行平均信息量编码的平均信息量编码部(20)。平均信息量编码部(20),比较通过平均信息量编码得到的生成代码量和预先设定的目标代码量,在该生成代码量达到目标代码量之前,以重要度高的顺序进行平均信息量编码,由此,来减低声音编码中的运算量。
Description
技术领域
本发明涉及声音编码装置、声音解码装置、声音编码方法以及声音解码方法。
背景技术
长期以来,已知有对于声音信号施行频率变换和平均信息量编码、把生成代码量控制为目标值的声音编码方法。作为这样的声音编码方法,在日本专利申请:特开2005-128404号公报中公开了在生成代码量达到目标值以前,一边减小编码的频率变换系数,一边重复编码的频率变换系数的平均信息量编码方法。
但是,上述现有技术的声音编码方法,在生成代码量达到目标值以前需要重复好多次同样的平均信息量编码。因此存在运算量(处理量)增大的问题。
发明内容
本发明提供一种声音编码装置,具有:频率变换单元,用于对于声音信号施行频率变换,计算频率变换系数;重要度计算单元,用于对于每一频率成分计算所述频率变换系数的重要度;编码单元,用于以通过所述重要度计算单元计算出来的重要度高的顺序进行通过所述频率变换单元得到的频率变换系数的平均信息量编码;比较单元,用于比较通过所述平均信息量编码生成的代码量与预先设定的目标代码量;所述编码单元,在所述生成代码量成为所述目标代码量之前,以所述重要度高的顺序进行频率变换系数的平均信息量编码。
本发明进一步提供一种声音编码方法,具有以下步骤:频率变换步骤,其对于声音信号施行频率变换,计算频率变换系数;重要度计算步骤,其计算所述频率变换系数的重要度;编码步骤,其以通过所述重要度计算步骤计算出来的重要度高的顺序、进行通过所述频率变换步骤得到的频率变换系数的平均信息量编码;比较步骤,其比较通过所述平均信息量编码生成的代码量与预先设定的目标代码量;所述编码步骤,在所述生成代码量成为所述目标代码量之前,以所述重要度高的顺序进行频率变换系数的平均信息量编码。
本发明进一步提供一种声音解码装置,具有:解码单元,用于对于声音信号施行频率变换,对于通过所述频率变换得到的频率变换系数,以重要度高的频率顺序,解码在生成的代码量达到规定的目标代码量之前施行平均信息量编码被编码的频率变换系数,频率逆变换单元,用于对于通过所述解码单元解码后的频率变换系数施行频率逆变换。
本发明进一步提供一种声音解码方法,具有以下步骤:解码步骤,对于声音信号施行频率变换,对于通过所述频率变换得到的频率变换系数,以重要度高的频率顺序,解码在生成的代码量达到规定的目标代码量之前施行平均信息量编码被编码的频率变换系数;频率逆变换步骤,对于通过所述解码步骤解码后的频率变换系数,施行频率逆变换。
附图说明
图1是表示关于本发明的实施形态的声音编码装置的结构的框图。
图2是表示关于本发明的实施形态的声音解码装置的结构的框图。
图3是用于说明频率变换系数的频带分割的图。
图4是表示在本实施形态的声音编码装置中执行的声音编码处理的流程图。
图5是表示本实施形态中的平均信息量编码的详情的流程图。
图6是表示每一频率成分的频率变换系数和能量的关系的图。
图7是表示在本实施形态的声音解码装置中执行的声音解码处理的流程图。
图8是表示本实施形态的变形例1中的编码处理的流程图。
图9是表示每一频率成分的频率变换系数、能量、标志的关系的图。
图10是表示本实施形态的变形例2中的编码处理的流程图。
具体实施方式
下面参照附图详细说明本发明的实施形态。
图1表示涉及本实施形态的声音编码装置100的结构。声音编码装置100由帧化部11、电平调整部12、频率变换部13、频带分割部14、最大值检索部15、移动数计算部16、移动处理部17、量子化部18、重要度计算部19、平均信息量编码部20构成。向声音编码装置100的输入信号,例如假定为用16kHz采样量子化为16位的数据声音等。
帧化部11把输入的声音信号分割为一定长度的帧。1帧是编码(压缩)的处理单位。各帧向电平调整部12输出。在一个帧中包含m个(m≥1)块。1块是进行一次MDCT(Modified Discrete Cosine Transform:变形离散余弦变换)的单位。一块的长度相当于MDCT的次数。MDCT的抽头(tap)长度为512抽头是理想的。
电平调整部12对于每一帧进行声音信号的电平调整(振幅调整)。电平调整过的信号向频率变换部13输出。所谓电平调整,是把在1帧中包含的信号的振幅的最大值进行控制,使处于指定的位(下面称压制目标位)数以下。在声音信号中,考虑控制在10位左右。当把1帧中的输入信号的最大振幅作为n位、压制目标位数作为N时,第一移动位数,亦即在式(1)中用shift bit的绝对值表示的位数帧中的全部信号被移动到LSB(Least Significant Bit:最下位位)侧。
【数学式1】
此外,在解码时,需要把被压制的信号复原。因此,表示shift_bit的信号作为编码信号的一部分被输出。
频率变换部13对于输入的声音信号施行频率变换,向频带分割部14输出频率变换系数。作为声音信号的频率变换使用MDCT(Modified DiscreteCosine Transform:变形离散余弦变换)。设输入的声音信号为{xn|n=0,…,M-1}。设MDCT块的长度为M。MDCT系数(频率变换系数){xk|k=0,…,M/2-1}如式(2)定义。
【数学式2】
式中,hn是窗口函数,如式(3)定义。
【数学式3】
频带分割部14把从频率变换部13输入的频率变换系数的频率区域分割为符合人的听觉特性的频带。频带分割部14,如图3所示,使频率频带在越低频率频带越窄、越高频率频带越宽那样进行分割。例如,在声音信号的采样频率是16kHz的场合,把分割的边界设定为187.5Hz、437.5Hz、687.5Hz、937.5Hz、1312.5Hz、1687.5Hz、2312.5Hz、3250Hz、4625Hz、6500Hz,把频率频带分割为11个频带。
最大值检索部15在用频带分割部14分割的每一频带中从频率变换系数的绝对值中检索最大值。
移动数计算部16,计算移动处理部17要移动的位数(以下称第二移动位数)。计算使用最大值检索部15得到的各分割频带中的最大值成为在各频带内预先设定的量子化位数以下那样进行。例如,在某频带中的频率变换系数的绝对值的最大值是1101010(二进制数)时,该最大值若包含符号位则用8位表示。在该频带内预先设定的量子化位数是6位的场合,第二移动位数成为2位。在该频带内预先设定的量子化位数,根据人的听觉特性,理想的是频率越低越多、频率越高越少。例如,从5位到8位从高频带到低频带分阶段分配。
移动处理部17,对于每一分割频带,把全部频率变换系数的数据以计算出来的第二移动位数的数量向LSB侧移动。把移动后的频率变换系数的数据向量子化部18输出。此外,在解码时,需要把频率变换系数恢复到原来的位数。因此,表示每一频带的第二移动位数的信号作为编码信号的一部分输出。
量子化部18,对于从移动处理部17输入的移动处理后的频率变换系数信号施行规定的量子化(例如标量量子化)。把量子化后的频率变换系数信号向重要度计算部19输出。
重要度计算部19计算每一频率成分的频率变换系数信号的重要度。计算出来的重要度在用平均信息量编码部20执行的距离编码器(Range Coder)编码时使用。通过使用重要度的编码,生成符合预先设定的目标代码量的代码。重要度用每一频率成分的频率变换系数信号的合计能量表示。在1帧中包含m个块的场合,对于各频率成分,通过MDCT计算m个频率变换系数。把从第j号MDCT块计算出来的第i号频率变换系数表示为fij。把从各块计算出来的第i号的(i=0,…,M/2-1)频率变换系数汇总表示为{fij|j=0,…,m-1}。以下把i称为频率号码。与通过频率号码i确定的频率成分对应的能量gi如式(4)表示。
【数学式4】
设能量gi的值越大的频率成分MDCT系数的重要度越高。图6对于每一频率号码表示频率变换系数{fij|j=0,…,m-1}以及能量gi的关系。对于每一频率成分根据m个频率变换系数计算能量gi。此外,在能量gi的值上也可以乘以依赖于频率的加权系数。例如考虑在不到500Hz的频率的能量gi上乘以1.3,在500Hz以上不到3500Hz的频率的能量gi上乘以1.1,在3500Hz以上的频带上乘以1.0。
平均信息量编码部20,以用重要度计算部19计算出来的重要度的高的顺序把频率号码i以及对应的m个频率变换系数数据{fij|j=0,…,m-1}进行平均信息量编码。在生成代码量成为预先设定的目标代码量之前,以重要度的顺序把生成的代码作为编码数据(压缩信号)输出。
所谓平均信息量编码,是用以下的方法、变换成信号全体的代码长度更短的编码方式。亦即,利用数据的统计特性,给出现频度多的符号分配短的代码、给出现频度少的符号分配长的代码进行编码。在平均信息量编码中,有哈佛曼(Huffman)编码、算术编码、通过距离编码器(Range Coder)的编码等。在本实施形态中,作为平均信息量编码假设使用通过距离编码器的编码。
图2表示涉及本实施形态的声音解码装置200的结构。声音解码装置200是解码用声音编码装置100编码后的信号的装置。如图2所示,声音解码装置200通过平均信息量解码部21、逆量子化部22、频带分割部23、移动处理部24、频率逆变换部25、电平再现部26、帧合成部27构成。
平均信息量解码部21解码平均信息量编码后的输入信号。把解码后的输入信号作为频率变换系数向逆量子化部22输出。
逆量子化部22对于用平均信息量解码部21解码后的频率变换系数施行逆量子化(例如标量量子化)。逆量子化部22。在处理对象的帧中包含的频率变换系数比频率变换时的频率变换系数少的场合,在与不足数量的频率成分对应的变换系数中代入规定的值(例如0)。代入使不足频率成分的能量成为比有输入的频率成分的能量小那样进行。逆量子化部22把全部频率区域的频率变换系数向频带分割部23输出。
频带分割部23,把通过逆量子化得到的数据的频率区域分割为符合人的听觉的的频带。频带分割和通过在编码时在编码装置100中的频带分割部14的分割同样,使频率越低越窄、频率越高越宽那样进行。
移动处理部24把通过逆量子化部22的逆量子化得到频率变换系数的数据在每一分割频带内进行移动处理。在和通过在编码装置100中的移动处理部17进行的移动处理的逆方向上进行移动。移动的位数和通过编码时通过移动处理部17移动的位数即第二移动位数一致。把移动处理后的频率变换系数数据向频率逆变换部25输出。
频率逆变换部25,对于用移动处理部24施行移动处理后的频率变换系数数据施行频率逆变换(例如逆MDCT)。由此把声音信号从频域变换为时域。把频率逆变换后的信号向电平再现部26输出。
电平再现部26,进行从频率逆变换部25输入的声音信号的电平调整(振幅调整)。通过电平调整,用编码装置100中的电平调整部12控制过的信号的电平恢复到原来的电平。把电平调整后的声音信号向帧合成部27输出。
帧合成部27,合成作为编码以及解码的处理单位的帧。把合成后的信号作为再生信号输出。
下面说明本实施形态中的动作。
首先,参照图4的流程图说明在声音编码装置100中执行的声音编码处理。
帧化部11把输入的声音信号分割为一定长度的帧(步骤S11)。电平调整部12对于每一帧调整输入的声音信号的电平(振幅)(步骤12)。对于电平调整后的声音信号,频率变换部13施行MDCT,计算MDCT系数(频率变换系数)(步骤S13)。
接着,通过频带分割部14把MDCT系数(频率变换系数)的频率区域符合人的听觉的特性进行频带分割(步骤S14)。最大值检索部15在每一分割频带中检索MDCT系数的绝对值的最大值(步骤S15)。使各分割频带中的最大值成为在各分割频带中预先设定的量子化位数以下那样,移动数计算部16计算第二移动位数(步骤S16)。
接着在每一分割频带内对于全部MDCT系数,通过移动处理部17施行与在步骤S16中计算出来的第二移动位数对应的移动处理(步骤S17)。对于移动处理后的信号,通过量子化部18施行规定的量子化(例如标量量子化)(步骤S18)。
接着,重要度计算部19从在步骤S13计算出来的MDCT系数计算各频率成分的重要度(步骤S19)。以重要度顺序通过平均信息量编码部20进行平均信息量编码(步骤S20)。本声音信号编码处理结束。
下面参照图5的流程图详细说明在平均信息量编码部20中执行的平均信息量编码(图4的步骤S20)。
首先选择与在步骤S19中通过重要度计算部19计算出来的重要度中重要度最高的频率成分对应的频率号码i(步骤S30)。对于选择的频率号码i以及通过频率号码i确定的m个MDCT系数{fij|j=0,…,m-1}施行距离编码器编码(步骤S31)。
接着判定通过步骤S31的编码生成的代码量是否达到目标代码量(步骤S32)。在步骤S32,在判定成为目标代码量的场合(步骤S32;YES),本平均信息量编码结束。
在步骤S32,在判定生成代码量未达到目标代码量的场合(步骤S32;NO),判定是否有未施行编码的MDCT系数(剩余数据)(步骤S33)。
在步骤S33,在判定有剩余数据的场合(步骤S33;YES),在步骤S34,选择与在未编码的频率成分中重要度最高的频率成分对应的频率号码i,重复步骤S31以及S32的处理。在步骤S33,在判定没有剩余数据的场合(步骤S33;NO),本平均信息量编码结束。
下面参照图7的流程图说明在声音解码装置200中执行的声音解码处理。
首先,平均信息量解码部21对于施行过平均信息量编码的编码信号施行平均信息量解码处理(步骤T10)。通过该解码处理,得到用于电平调整的第一移动位数、用于各分割频带中的最大值调整的第二移动位数、关于与各频率对应的频率号码以及频率变换系数的数据。逆量子化部22,对于频率变换系数数据施行逆量子化(步骤T11)。这里,在作为处理对象的帧的MDCT系数的数比通过在编码装置100中的频率变换部13编码时计算出来的MDCT系数的数少的场合,在不足数量的MDCT系数中插入规定的值(例如0)。
接着频带分割部23,把逆量子化后的MDCT系数的频率区域和编码时同样,符合人的听觉特性进行频带分割(步骤T12)。对于MDCT系数,在每一频带中,以编码时移动过的第二位数在和编码时的相反方向上通过移动处理部进行移动处理(步骤T13)。频率逆变换部25对于施行过移动处理的数据施行逆MDCT(步骤T14)。接着电平再现部26调整电平,使逆MDCT后的声音信号恢复到原来的电平(步骤T15)。由帧合成部27合成作为编码以及解码的处理单位的帧,本声音处理结束。
如上,本实施形态的声音编码装置100在进行平均信息量编码前,预先对于每一频率成分计算重要度,以计算出来的重要度高的顺序,在生成代码量成为目标代码量之前进行每一频率成分的声音信号的编码。因此不需要像现有技术那样多次重复同样的编码,能够削减运算量。
下面说明本实施形态的变形例。
<变形例1>
在上述的实施例中,以频率成分的重要度的顺序进行平均信息量编码。需要在编码数据中包含表示编码的顺序的频率号码数据。在变形例1中,和上述实施形态同样以重要度高的顺序进行平均信息量编码。对于平均信息量编码后的频率变换系数再次以频率顺序实施平均信息量编码。由此,不需要发送表示编码顺序的数据。参照图8的流程图详细说明在变形例1的平均信息量编码部20中执行的编码处理。
首先,作为第一次的编码,进行图5所示的平均信息量编码(步骤S40)。接着确定在步骤S40中成为了编码对象的频率成分(选择频率)(步骤S41)。亦即,给各频率成分附以表示是否成为步骤S40中的平均信息量编码的对象的标志。图9对于每一频率成分表示变换系数、能量gi(参照式(4))、标志的关系。给与在步骤S41中作为选择频率成分确定的频率成分对应的标志的值中代入1。给与未作为选择频率成分确定的频率成分对应的标志的值中代入0。
接着把与在步骤S41中确定的频率成分(标志值为1的频率成分)对应的各频率变换系数以频率号码顺序(例如频率号码小的顺序)进行平均信息量编码(距离编码器编码)。把表示编码后的频率成分的数据(例如图9的使标志连续的数据)也附加在编码后的频率变换系数的编码数据上(步骤S42),变形例1的编码处理结束。
<变形例2>
在变形例1中,根据声音信号的输入,使用了逐次更新存储了表示声音信号的各记号的出现概率的发生概率表那样的距离编码器编码。另外,变形例1中,遵照目标代码量进行第一次编码,其后变化编码顺序进行编码。但是,有时由于发生概率表的不同使生成代码量比目标代码量大。因此,在变形例2中,在通过变形例1的编码处理生成的代码量超过目标代码量的场合,通过删除预先指定的频率成分,把生成代码量抑制在目标代码量内。参照图10的流程图详细说明在变形例2的平均信息量编码部20中执行的编码处理。
首先,和变形例1同样,作为第一次编码,进行图5所示的平均信息量编码(步骤S50)。遵照目标代码量确定被编码的频率成分(选择频率成分)(步骤S51)。接着把与在步骤S51确定的频率成分对应的各频率变换系数以频率号码顺序进行编码(步骤S52)。
接着,判定生成代码量是否超过目标代码量(步骤S53)。在步骤S53,在判定生成代码量未超过目标代码量的场合(步骤S53;NO),变形例2的编码处理结束。
在步骤S53,在判定生成代码量超过目标代码量的场合(步骤S53;YES),从成为编码对象的数据中,删除预先指定的频率成分的数据(例如最高频带侧的数据)(步骤S54)。接着,对于在步骤S54中的删除处理后剩余的数据,施行平均信息量编码(步骤S55),变形例2的编码处理结束。
Claims (16)
1.一种声音编码装置,
具有:
频率变换单元,用于对于声音信号施行频率变换,计算频率变换系数;
重要度计算单元,用于对于每一频率成分计算所述频率变换系数的重要度;
编码单元,用于以通过所述重要度计算单元计算出来的重要度高的顺序进行通过所述频率变换单元得到的频率变换系数的平均信息量编码;
比较单元,用于比较通过所述平均信息量编码生成的代码量与预先设定的目标代码量;
所述编码单元,在所述生成代码量成为所述目标代码量之前,以所述重要度高的顺序进行频率变换系数的平均信息量编码。
2.根据权利要求1所述的声音编码装置,其中,
所述编码单元,对于通过所述平均信息量编码被编码后的频率变换系数以频率顺序再次进行平均信息量编码。
3.根据权利要求2所述的声音编码装置,
具有进一步比较通过以所述频率顺序再次进行的平均信息量编码得到的生成代码量和所述目标代码量的再生成代码量比较单元;
所述编码单元,在该再生成代码量比较单元判断为通过再次的平均信息量编码得到的生成代码量超过所述目标量的场合,从生成代码中删除预先指定的频率号码i的频率变换系数,对于剩余的频率变换系数再次进行平均信息量编码。
4.根据权利要求1所述的声音编码装置,其中,
所述编码单元,作为所述平均信息量编码使用通过距离编码器的编码。
5.根据权利要求1所述的声音编码装置,
进一步具有:
帧化单元,用于把输入的声音信号分割为一定长度的帧;
振幅调整单元,用于对于所述每一帧,根据在帧中包含的声音信号的振幅的最大值调整该声音信号的振幅,向所述频率变换单元输出调整后的声音信号;
频带分割单元,用于把通过所述频率变换单元得到的频率变换系数的频率区域,分割为基于人的听觉特性的频带;
检索单元,用于按通过所述频带分割单元分割后的各频带,检索频率变换系数的绝对值的最大值;
移动数计算单元,用于计算为使通过所述检索单元检索到的最大值成为在各频带内预先设定的量子化比特数以下所移动的比特数;
移动处理单元,用于按各频带、对于频带中的频率变换系数、施行通过所述移动数计算单元计算出来的移动比特数的移动处理;
所述编码单元,对于施行所述移动处理的数据施行平均信息量编码。
6.根据权利要求1所述的声音编码装置,其中,
所述频率变换单元,作为所述频率变换使用变形离散余弦变换。
7.一种声音编码方法,
具有以下步骤:
频率变换步骤,其对于声音信号施行频率变换,计算频率变换系数;
重要度计算步骤,其计算所述频率变换系数的重要度;
编码步骤,其以通过所述重要度计算步骤计算出来的重要度高的顺序、进行通过所述频率变换步骤得到的频率变换系数的平均信息量编码;
比较步骤,其比较通过所述平均信息量编码生成的代码量与预先设定的目标代码量;
所述编码步骤,在所述生成代码量成为所述目标代码量之前,以所述重要度高的顺序进行频率变换系数的平均信息量编码。
8.根据权利要求7所述的声音编码方法,其中,
所述编码步骤,对于通过所述平均信息量编码被编码后的频率变换系数,以频率顺序再次进行平均信息量编码。
9.根据权利要求8所述的声音编码方法,
具有进一步比较通过以所述频率顺序再次进行的平均信息量编码得到的生成代码量和所述目标代码量的再生成代码量比较步骤;
所述编码步骤,在通过该再生成代码量比较步骤判断为通过再次的平均信息量编码得到的生成代码量超过所述目标代码量的场合,从生成代码中删除预先指定的频率成分的频率变换系数,对于剩余的频率变换系数再次进行平均信息量编码。
10.根据权利要求7所述的声音编码方法,其中,
所述编码步骤,作为所述平均信息量编码使用通过距离编码器的编码。
11.根据权利要求7所述的声音编码方法,
进一步具有以下步骤:
帧化步骤,其把输入的声音信号分割为一定长度的帧;
振幅调整步骤,其对于所述每一帧,根据在帧中包含的声音信号的振幅的最大值调整该声音信号的振幅,向所述频率变换步骤输出调整后的声音信号;
频带分割步骤,其把通过所述频率变换步骤得到的频率变换系数的频率区域分割为基于人的听觉特性的频带,
检索步骤,其按通过所述频带分割步骤分割后的各频带检索频率变换系数的绝对值的最大值;
移动数计算步骤,其计算为使通过所述检索步骤检索到的最大值成为在各频带内预先设定的量子化比特数以下所移动的比特数,
移动处理步骤,其按各频带、对于频带中的频率变换系数、施行通过所述移动数计算步骤计算出来的移动比特数的移动处理;
所述编码步骤,对于施行过所述移动处理的数据施行平均信息量编码。
12.根据权利要求7所述的声音编码方法,其中,
所述频率变换步骤,作为所述频率变换使用变形离散余弦变换。
13.一种声音解码装置,
具有:
解码单元,用于对于声音信号施行频率变换,对于通过所述频率变换得到的频率变换系数,以重要度高的频率顺序,解码在生成的代码量达到规定的目标代码量之前施行平均信息量编码被编码的频率变换系数,
频率逆变换单元,用于对于通过所述解码单元解码后的频率变换系数施行频率逆变换。
14.根据权利要求13所述的声音解码装置,其中,
所述解码单元,在解码后的频率变换系数比频率变换时的频率变换系数还少的场合,在不足数量的频率变换系数中插入值0。
15.一种声音解码方法,
具有以下步骤:
解码步骤,对于声音信号施行频率变换,对于通过所述频率变换得到的频率变换系数,以重要度高的频率顺序,解码在生成的代码量达到规定的目标代码量之前施行平均信息量编码被编码的频率变换系数;
频率逆变换步骤,对于通过所述解码步骤解码后的频率变换系数,施行频率逆变换。
16.根据权利要求15所述的声音解码方法,其中,
所述解码步骤,在解码后的频率变换系数比频率变换时的频率变换系数还少的场合,在不足数量的频率变换系数中插入值0。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006010319 | 2006-01-18 | ||
JP2006-010319 | 2006-01-18 | ||
JP2006010319A JP4548348B2 (ja) | 2006-01-18 | 2006-01-18 | 音声符号化装置及び音声符号化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101004914A true CN101004914A (zh) | 2007-07-25 |
CN101004914B CN101004914B (zh) | 2011-03-16 |
Family
ID=38264338
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007100019506A Active CN101004914B (zh) | 2006-01-18 | 2007-01-17 | 声音编码装置和方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20070168186A1 (zh) |
JP (1) | JP4548348B2 (zh) |
KR (1) | KR100904605B1 (zh) |
CN (1) | CN101004914B (zh) |
TW (1) | TWI329302B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009068083A1 (en) * | 2007-11-27 | 2009-06-04 | Nokia Corporation | An encoder |
JP5483813B2 (ja) * | 2007-12-21 | 2014-05-07 | 株式会社Nttドコモ | マルチチャネル音声音響信号符号化装置および方法、並びにマルチチャネル音声音響信号復号装置および方法 |
JP5018557B2 (ja) * | 2008-02-29 | 2012-09-05 | カシオ計算機株式会社 | 符号化装置、復号化装置、符号化方法、復号化方法及びプログラム |
JP4978539B2 (ja) * | 2008-04-07 | 2012-07-18 | カシオ計算機株式会社 | 符号化装置、符号化方法及びプログラム。 |
JP2011064961A (ja) * | 2009-09-17 | 2011-03-31 | Toshiba Corp | 音声再生装置および方法 |
US20130030796A1 (en) * | 2010-01-14 | 2013-01-31 | Panasonic Corporation | Audio encoding apparatus and audio encoding method |
WO2011155786A2 (ko) * | 2010-06-09 | 2011-12-15 | 엘지전자 주식회사 | 엔트로피 복호화 방법 및 복호화 장치 |
WO2012137617A1 (ja) | 2011-04-05 | 2012-10-11 | 日本電信電話株式会社 | 符号化方法、復号方法、符号化装置、復号装置、プログラム、記録媒体 |
PL3457400T3 (pl) | 2012-12-13 | 2024-02-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Urządzenie do kodowania głosowego audio, urządzenie do dekodowania głosowego audio, sposób kodowania głosowego audio i sposób dekodowania głosowego audio |
JP6318904B2 (ja) * | 2014-06-23 | 2018-05-09 | 富士通株式会社 | オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム |
JP6398607B2 (ja) | 2014-10-24 | 2018-10-03 | 富士通株式会社 | オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム |
CN112767953B (zh) * | 2020-06-24 | 2024-01-23 | 腾讯科技(深圳)有限公司 | 语音编码方法、装置、计算机设备和存储介质 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA1197619A (en) * | 1982-12-24 | 1985-12-03 | Kazunori Ozawa | Voice encoding systems |
US5752225A (en) * | 1989-01-27 | 1998-05-12 | Dolby Laboratories Licensing Corporation | Method and apparatus for split-band encoding and split-band decoding of audio information using adaptive bit allocation to adjacent subbands |
JP2878796B2 (ja) * | 1990-07-03 | 1999-04-05 | 国際電気株式会社 | 音声符号化器 |
US5608713A (en) * | 1994-02-09 | 1997-03-04 | Sony Corporation | Bit allocation of digital audio signal blocks by non-linear processing |
JP3274284B2 (ja) * | 1994-08-08 | 2002-04-15 | キヤノン株式会社 | 符号化装置およびその方法 |
JP3353868B2 (ja) * | 1995-10-09 | 2002-12-03 | 日本電信電話株式会社 | 音響信号変換符号化方法および復号化方法 |
JP3998281B2 (ja) * | 1996-07-30 | 2007-10-24 | 株式会社エイビット | デジタル音声信号の帯域分割符号化方法と復号化方法 |
TW384434B (en) * | 1997-03-31 | 2000-03-11 | Sony Corp | Encoding method, device therefor, decoding method, device therefor and recording medium |
KR100354531B1 (ko) * | 1998-05-06 | 2005-12-21 | 삼성전자 주식회사 | 실시간 복호화를 위한 무손실 부호화 및 복호화 시스템 |
US6300888B1 (en) * | 1998-12-14 | 2001-10-09 | Microsoft Corporation | Entrophy code mode switching for frequency-domain audio coding |
US6975254B1 (en) * | 1998-12-28 | 2005-12-13 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Methods and devices for coding or decoding an audio signal or bit stream |
US6499010B1 (en) * | 2000-01-04 | 2002-12-24 | Agere Systems Inc. | Perceptual audio coder bit allocation scheme providing improved perceptual quality consistency |
US6778953B1 (en) * | 2000-06-02 | 2004-08-17 | Agere Systems Inc. | Method and apparatus for representing masked thresholds in a perceptual audio coder |
JP2002135122A (ja) * | 2000-10-19 | 2002-05-10 | Nec Corp | オーディオ信号符号化装置 |
JP3469567B2 (ja) * | 2001-09-03 | 2003-11-25 | 三菱電機株式会社 | 音響符号化装置、音響復号化装置、音響符号化方法及び音響復号化方法 |
CN1301014C (zh) * | 2001-11-22 | 2007-02-14 | 松下电器产业株式会社 | 可变长度编码方法以及可变长度解码方法 |
US7110941B2 (en) * | 2002-03-28 | 2006-09-19 | Microsoft Corporation | System and method for embedded audio coding with implicit auditory masking |
US7433824B2 (en) * | 2002-09-04 | 2008-10-07 | Microsoft Corporation | Entropy coding by adapting coding between level and run-length/level modes |
CN100401778C (zh) * | 2002-09-17 | 2008-07-09 | 弗拉迪米尔·切佩尔科维奇 | 具有高压缩率和最小必需资源的快速codec |
US7333930B2 (en) * | 2003-03-14 | 2008-02-19 | Agere Systems Inc. | Tonal analysis for perceptual audio coding using a compressed spectral representation |
KR101015497B1 (ko) * | 2003-03-22 | 2011-02-16 | 삼성전자주식회사 | 디지털 데이터의 부호화/복호화 방법 및 장치 |
WO2005004113A1 (ja) * | 2003-06-30 | 2005-01-13 | Fujitsu Limited | オーディオ符号化装置 |
US7349842B2 (en) * | 2003-09-29 | 2008-03-25 | Sony Corporation | Rate-distortion control scheme in audio encoding |
JP4009781B2 (ja) * | 2003-10-27 | 2007-11-21 | カシオ計算機株式会社 | 音声処理装置及び音声符号化方法 |
JP4259401B2 (ja) * | 2004-06-02 | 2009-04-30 | カシオ計算機株式会社 | 音声処理装置及び音声符号化方法 |
JP4301091B2 (ja) * | 2004-06-23 | 2009-07-22 | 日本ビクター株式会社 | 音響信号符号化装置 |
-
2006
- 2006-01-18 JP JP2006010319A patent/JP4548348B2/ja active Active
-
2007
- 2007-01-16 US US11/653,506 patent/US20070168186A1/en not_active Abandoned
- 2007-01-17 TW TW096101667A patent/TWI329302B/zh active
- 2007-01-17 KR KR1020070004990A patent/KR100904605B1/ko active IP Right Grant
- 2007-01-17 CN CN2007100019506A patent/CN101004914B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
JP4548348B2 (ja) | 2010-09-22 |
CN101004914B (zh) | 2011-03-16 |
TWI329302B (en) | 2010-08-21 |
KR100904605B1 (ko) | 2009-06-25 |
TW200805253A (en) | 2008-01-16 |
US20070168186A1 (en) | 2007-07-19 |
JP2007193043A (ja) | 2007-08-02 |
KR20070076519A (ko) | 2007-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101004914B (zh) | 声音编码装置和方法 | |
CN105210149B (zh) | 用于音频信号解码或编码的时域电平调整 | |
JP4212591B2 (ja) | オーディオ符号化装置 | |
EP1905000B1 (en) | Selectively using multiple entropy models in adaptive coding and decoding | |
KR100283547B1 (ko) | 오디오 신호 부호화 방법 및 복호화 방법, 오디오 신호 부호화장치 및 복호화 장치 | |
KR100348368B1 (ko) | 디지털 음향 신호 부호화 장치, 디지털 음향 신호 부호화방법 및 디지털 음향 신호 부호화 프로그램을 기록한 매체 | |
US9037454B2 (en) | Efficient coding of overcomplete representations of audio using the modulated complex lapped transform (MCLT) | |
KR100852482B1 (ko) | 추정을 결정하는 방법 및 장치 | |
EP3217398B1 (en) | Advanced quantizer | |
JP2010538316A (ja) | 改良された音声及びオーディオ信号の変換符号化 | |
US11335355B2 (en) | Estimating noise of an audio signal in the log2-domain | |
TWI306336B (en) | Sacle factor based bit shifting in fine granularity scalability audio coding | |
US20070033024A1 (en) | Method and apparatus for encoding audio data | |
JP3344944B2 (ja) | オーディオ信号符号化装置,オーディオ信号復号化装置,オーディオ信号符号化方法,及びオーディオ信号復号化方法 | |
JP3639216B2 (ja) | 音響信号符号化装置 | |
JP4533386B2 (ja) | オーディオ符号化装置及びオーディオ符号化方法 | |
CN111344784B (zh) | 控制编码器和/或解码器中的带宽 | |
JP4273062B2 (ja) | 符号化方法、符号化装置、復号化方法及び復号化装置 | |
US20070255557A1 (en) | Morphology-based speech signal codec method and apparatus | |
KR100640833B1 (ko) | 디지털 오디오의 부호화 방법 | |
JPH0573098A (ja) | 音声処理装置 | |
Creusere | Quantifying perceptual distortion in scalably compressed MPEG audio | |
JPH0736493A (ja) | 可変レート音声符号化装置 | |
Matta et al. | Distributed Audio Coding with Efficient Source Correlation Extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |