CN1151491C - 音频编码装置和音频编码译码装置 - Google Patents
音频编码装置和音频编码译码装置 Download PDFInfo
- Publication number
- CN1151491C CN1151491C CNB971029393A CN97102939A CN1151491C CN 1151491 C CN1151491 C CN 1151491C CN B971029393 A CNB971029393 A CN B971029393A CN 97102939 A CN97102939 A CN 97102939A CN 1151491 C CN1151491 C CN 1151491C
- Authority
- CN
- China
- Prior art keywords
- vector
- sound source
- sound
- audio
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 239000002131 composite material Substances 0.000 claims description 71
- 238000001228 spectrum Methods 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 abstract description 4
- 230000006866 deterioration Effects 0.000 abstract description 2
- 230000003044 adaptive effect Effects 0.000 abstract 6
- 238000003786 synthesis reaction Methods 0.000 abstract 3
- 230000005284 excitation Effects 0.000 abstract 2
- 238000005070 sampling Methods 0.000 description 77
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 32
- 150000001875 compounds Chemical class 0.000 description 20
- 238000000034 method Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 239000000284 extract Substances 0.000 description 12
- 238000000605 extraction Methods 0.000 description 9
- 238000010010 raising Methods 0.000 description 9
- 230000035807 sensation Effects 0.000 description 9
- 239000000654 additive Substances 0.000 description 8
- 230000000996 additive effect Effects 0.000 description 8
- 230000003442 weekly effect Effects 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 238000011002 quantification Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000012935 Averaging Methods 0.000 description 4
- 230000008676 import Effects 0.000 description 3
- 238000010835 comparative analysis Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005755 formation reaction Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0011—Long term prediction filters, i.e. pitch estimation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
音频编码装置当把音频进行编码时,能防止音频质量下降,以小的运算量可产生出高质量复合音频。音频编码装置具备:目标音频产生装置,用于由输入音频产生出具有与延迟参数相对应的向量长度的目标音频向量;自适应声源编码本,用于由过去生成的声源信号产生出具有与延迟参数相对应的向量长度的自适应声源向量;自适应声源检索装置,用于评价由上述自适应声源向量获得的复合音频向量相对于上述目标音频向量的失真,并检索出使失真变成最小的自适应声源向量;以及帧声源产生装置,用于由上述的使失真变成最小的自适应声源向量获得具有帧长的声源信号。
Description
技术领域
本发明涉及音频编码装置和音频编码译码装置,该套装置可把音频信号压缩编码成数字化信号。
背景技术
图9是一个普通音频编码译码装置的典型的总体框图,它把音频输入信号分成频谱包络信息和音源信号信息,并且以帧为单位把声源信号进行编码。图9所示的装置是与JP-A 64/40899号公报发表的装置一样的。
在图9里,各标号是:1编码装置,2译码装置,3多路转换装置,4分离装置,5音频输入,6传输线,7音频输出。编码装置1是由线性预测参数分析装置8,线性预测参数编码装置9,自适应声源信号编码本10,自适应声源检索装置11,误差信号生成装置12,驱动声源编码本13,驱动声源检索装置14和声源信号产生装置15构成。译码装置2是由线性预测参数译码装置16,自适应声源编码本17,自适应声源信号译码装置18,驱动声源信号编码本19,驱动声源信号译码装置20,声源信号发生装置21和复合滤波器22。
以下仅就上述以往的音频编码译码装置的工作原理,说明它是如何将音频输入信号分解成频谱包络信息和声源信号信息,并且如何把声源信号信息以帧为单位进行编码。
首先编码装置1接收,例如,以8kHz采样的数字音频信号作为音频输入5。线性预测参数分析装置8分析音频输入5,并且抽取声音的频谱包络信息作为线性预测参数。随后线性预测参数编码装置9将抽取的线性预测参数量化,并且把代表该参数的编码输出到多路转换装置。同时线性预测参数编码装置9把量化的线性预测参数输出到自适应声源检索装置11,误差信号发生装置12以及驱动声源检索装置14。
下面,说明有关声源信息编码过程。在自适应声源编码本10里,保存有过去来自声源信号产生装置15产生的声源信号,将从自适应声源检索装置11输入的与延迟参数L对应的帧长度的自适应声源向量输出给自适应声源检索装置11。在这里,上述的自适应声源向量是抽出的比延迟参数L早一个帧长的声源信号采样,当延迟参数L比帧长短时,把一个采样的声源信号重复地生成,一直到一个帧长时间为止。当延迟参数L大于或等于帧长时,典型的自适应声源向量的实例如图10(a)所示;当延迟参数L小于帧长时,自适应声源向量的实例如图10(b)所示。
例如延迟参数L落入20≤延迟参数L≤128的区域时,自适应声源检索装置11把由自适应声源编码本10输入的自适应声源向量和由线性预测参数编码装置9输入的量化线性预测参数进行线性预测复合,从而生成复合音频向量。于是,从输入音频5每帧抽取的输入音频向量和上述的复合音频向量之间,求出听觉加权失真。然后,通过比较进行评价上述的失真,求出使上述失真变成最小的延迟参数L和与其对应的自适应声源增益β,并把上述的延迟参数L和自适应声源增益β的编码传送给多路转换装置3,与此同时,把与上述的延迟参数L相对应的自适应声源向量和上述的自适应声源增益β相乘,从而产生出自适应声源信号,并且把该信号传送到误差信号产生装置12和声源信号产生装置15。
误差信号产生装置12把从上述的自适应声源检索装置11输入的自适应声源信号和从上述的线性预测参数编码装置9输入的量化的线性预测参数,进行线性预测复合,从而产生出复合音频向量。于是,从输入音频5每帧抽出输入音频向量和上述的复合音频向量的差分,求出作为误差信号向量,并且把该误差信号向量传送给驱动声源检索装置14。
在驱动声源编码本13里,例如,存储着由随机噪声产生的N个驱动声源向量,并输出按照来自驱动声源检索装置14输入的与驱动声源编码i相对应的驱动声源向量。驱动声源检索装置14对于N个驱动声源向量,利用从上述的驱动声源编码本13输入的驱动声源向量和从上述的线性预测参数编码装置9输入的量化的线性预测参数,进行线性预测复合,于是,产生出复合音频向量。然后,求出上述的误差信号产生装置12输入的误差信号向量和从上述的复合音频向量之间的听觉加权失真。接着,通过比较进行评价,求出使上述的失真变成最小的驱动声源编码和与其对应的驱动声源增益γ,并把上述的驱动声源编码I和驱动声源增益γ的编码传送给多路转换装置3,与此同时,把与上述的驱动声源编码I对应的驱动声源向量和上述的驱动声源增益γ相乘,从而,产生出驱动声源信号,并且把该信号传送到声源信号产生装置15。
声源信号产生装置15把从上述的自适应声源检索装置11输入的自适应声源信号和上述的驱动声源信号检索装置14输入的驱动声源信号进行加法运算,从而产生声源信号并且传送给自适应声源编码本17。
以上的编码处理过程完成后,多路转换装置3把上述量化后的同线性预测参数相对应的编码、延迟参数L、驱动声源编码I以及声源增益β乃至同γ相对应的编码,都通过传输线路6发送出去。
现在,仅就译码部件2的工作原理说明如下:
首先,接收多路转换装置3的输出信息的分离装置4,把收到分别发送给以下各装置:线性预测参数的编码→线性预测参数译码装置16;延迟参数L、(自适应)声源增益β的编码→自适应声源译码装置18;驱动声源编码I、(驱动)声源增益γ的编码→驱动声源译码装置20。
线性预测参数译码装置16把同上述的线性预测参数的编码相对应的线性预测参数进行译码,并将译码后的信息传送到复合滤波器22。自适应声源译码装置18把同上述的延迟参数L相对应的自适应声源向量从自适应声源编码本17中读出,并根据上述的自适应声源增益误差β的编码,把自适应声源增益β进行译码,产生出上述的自适应声源向量和上述的自适应声源增益β进行相乘,从而得出自适应声源信号,而后向声源信号产生装置21输出。驱动声源译码装置20把同上述的驱动声源编码I相对应的驱动声源向量从驱动声源编码本19中读出,并根据上述的驱动声源增益γ的编码,把驱动声源增益γ进行译码,将上述驱动声源向量和上述的驱动声源增益γ相乘,产生出驱动声源信号,并把该信号输出到声源信号产生装置21。
声源信号产生装置21把从上述的自适应声源译码装置18输入的自适应声源信号和从上述的驱动声源译码装置20输入的驱动声源信号,进行加法运算,从而生成声源信号,并将其分别发送到自适应声源编码本17和复合滤波器22。复合滤波器22利用从上述的声源信号产生装置21输入的声源信号和从上述的线性预测参数译码装置16输入的线性预测参数,进行线性预测复合,并产生输出音频7。
此外,在P.Kroon & B.S.Atal所著的“Pitch Predictors With High TemporalResolution”(ICASSP’90,PP661-664,1990)一文中,已经描述出上述的现有音频编码与译码装置的已改进的先有技术,它能够提供更高的输出音频效果。
这种改进的音频编码与译码装置与图9所示现有的结构的不同之处在于,自适应声源检索装置11里的检索对象的延迟参数,不仅可取整数,也可取带小数的有理数;自适应声源编码本10和17对以前产生的采样的声源信号间进行插补,产生出与带有小数的有理数延迟参数相对应的自适应声源向量,并将其输出。当延迟参数为带小数的有理数时,自适应声源向量实例,如图11所示。当延迟参数L≥一个帧长时,自适应声源向量实例如图11(a)所示;当延迟参数L<一个帧长时,情况如图11(b)所示。
利用这样的结构,能以比输入音频采样频率更高的精度确定延迟参数,并相应地产生自适应声源向量;因此,与JP-A 64/40899公报所公开的装置相比,这种装置可产生更高质的音频输出。
在JP-A 4/344669公报中发布另外一种现有技术的音频编码与译码装置。图12就是表示该现有的音频编码与译码装置的总体框图。
在图12里,与图9所对应的部分均给予同一标号,为避免重复,该部分的详细说明在此略去。
在图12里,与图9不同之处是标号23、24代表驱动声源编码本。
现在,仅就用上述结构实现的编码与译码装置说明其操作原理。
首先,例如延迟参数L处在20≤延迟参数L≤128的范围内,这种情况下,编码部件里的自适应声源检索装置11,利用从自适应声源编码本10输入的自适应声源向量和从线性预测参数编码装置9输入的量化的线性预测参数,进行线性预测复合,产生出复合音频向量。然后,自适应声源检索装置11根据从输入音频5以帧抽取的输入音频向量和上述的复合音频向量,从中求得听觉加权失真。通过比较对听觉加权失真进行评价,并求出使上述失真达到最小的延迟参数L及其对应的自适应声源增益β;随后,把求得的延迟参数L和自适应声源增益β的编码,传送给多路转换装置3和驱动声源编码本23;与此同时,把上述延迟参数L对应的自适应声源向量和上述的自适应声源增益β相乘,从而产生出自适应声源信号,并把其发送到误差信号产生装置12和声源信号产生装置15。
在驱动声源编码本23里,例如,存储着由随机噪声产生的N个驱动声源向量,把从驱动声源检索装置14输入的与驱动声源编码i相对应的驱动声源向量,按与延迟参数L相对应的每个周期重复,周期化并输出该驱动声源向量。这种周期化的驱动声源向量的实例如图13(a)所示。当延迟参数L为带小数的有理数时,如图13(b)所示,对驱动声源向量的取样之间进行插补,从而产生周期化的驱动声源向量。
驱动声源检索装置14对于N个驱动声源向量,它利用从上述的驱动声源编码本23输入来的周期化驱动声源向量和从线性预测参数编码装置9输入来的量化线性预测参数,将二者进行线性预测复合,从而产生出复合音频向量,然后,驱动声源检索装置14求出从误差信号产生装置12输入来的误差信号向量和上述的复合音频向量之间的听觉加权失真。随后,通过比较评价该失真,并且求出使上述的失真变成最小的驱动声源编码I及其对应的驱动声源增益γ,并把上述的驱动声源编码I和驱动声源增益γ的编码,传送给多路转换装置3;与此同时,驱动声源检索装置14把上述的驱动声源编码I对应的周期化的驱动声源向量乘以上述的驱动声源增益γ,从而产生出驱动声源信号,并将其发送到声源信号产生装置15。
编码过程完成后,多路转换装置3把对应上述的量化后的线性预测参数的编码、预测参数L、驱动声源编码I、声源增益β以及对应于γ的编码,通过传输线路6发送出去。
现在,说明有关译码部件2的操作原理。
首先,接收多路转换装置3输出的分离装置4,分别发送给各个装置:线性预测参数编码→线性预测参数译码装置16;预测参数L和声源增益β的编码→自适应声源译码装置18和驱动声源编码本24;驱动声源编码I和声源增益γ→驱动声源编码本24。
驱动声源编码本24和编码部件的驱动声源编码本23都存储着同样多的N个驱动声源向量,自驱动声源译码装置20输入的与驱动声源编码I,相对应驱动声源向量,按对应上述延迟参数L的每个周期重复周期化,并把它送给驱动声源译码装置20。
驱动声源译码装置20根据上述的驱动声源增益γ的编码,译码出驱动声源增益γ,并把从上述的驱动声源编码本24输入来的周期化驱动声源向量与上述的驱动声源增益γ相乘,从而产生出驱动声源信号,并将其发送到声源信号产生装置21。
声源信号传送装置21把来自声源译码装置18的自适应声源信号和来自上述的驱动声源译码装置20的驱动声源信号,进行加法运算,产生出声源信号,并将其发送到自适应声源编码本17和复合滤波器22。复合滤波器22利用从上述的声源信号产生装置21输入的声源信号和从线性预测参数译码装置16输入来的线性预测参数,将二者进行线性预测复合,并将其结果作为输出音频7输出。
在如上所述的现有的音频编码和译码装置里,在编码过程中的声源检索期间,根据延迟参数,周期化产生自适应声源向量或驱动声源向量,作为帧长的声源向量把该向量进行线性预测复合,而产生出复合音频向量;在帧长的区域内求出输入音频向量和复合音频向量之间的失真。但是,因为在进行线性预测复合时需要处理的运算量很大,于是就有在声源检索时要处理相当大的运算量的问题。
发明内容
本发明正是为解决上述课题的产物,其目的在于,提供一种当把音频进行编码时,防止复合音频质量降低,以少的运算量,能产生出高质量的复合音频输出的音频编码装置和音频编码译码装置。
为了解决上述课题,本发明的音频编码装置具备以下装置:目标音频产生装置,用于根据输入音频产生出具有与延迟参数相对应的向量长度的目标音频向量;自适应声源编码本,用于根据过去生成的声源信号,产生出具有与上述延迟参数相对应的向量长度的自适应声源向量;自适应声源检索装置,用于评价从上述的自适应声源向量中获得的复合音频向量相对于上述目标音频向量的失真,并检索出使该失真变成最小的自适应声源向量;帧长声源产生装置,用于从上述的使失真变成最小的自适应声源向量中产生出具有帧长度的声源信号。
并且,音频编码装置将进一步具备如下装置:第2目标音频产生装置,用于由目标音频向量和使失真变成最小的自适应声源向量,产生出第2目标音频向量;驱动声源编码本,用于产生出具有与延迟参数相对应的向量长度的驱动声源向量;驱动声源检索装置,用于评价由上述的驱动声源向量获得的第2复合音频向量相对于第2目标音频向量的失真,并检索出使失真变成最小的驱动声源向量;第2帧产生装置,用于从上述的使失真变成最小的驱动声源向量中产生出第2帧长的声源信号。
并且,音频编码装置还具备如下装置:目标音频产生装置,用于从音频输入产生出具有与延迟参数的相对应的向量长度的目标音频向量;驱动声源编码本,用于产生具有与延迟参数相对应的向量长度驱动声源向量;驱动声源检索装置,用于评价从上述的驱动声源向量中获得的复合音频向量相对于上述目标音频向量的失真,并检索出使失真变成最小的驱动声源向量;帧长声源产生装置,用于从上述的使失真变成最小的驱动声源向量产生出具有帧长度的声源信号。
根据本发明的音频编码装置进一步是,目标音频向量和驱动声源向量的向量长度是依照输入音频的音调周期来决定的。根据本发明的音频编码装置进一步是,对应延迟参数的向量长度可选取有理数。
根据本发明的音频编码装置进一步是,目标音频产生装置把以帧为单位的输入音频划分成具有与延迟参数相对应的每个向量长度的,并加权平均每个向量长度的输入音频部分,以便产生出目标音频向量。
根据本发明的音频编码装置进一步是,目标音频产生装置把具有与延迟参数相对应的向量长度的整倍数长的输入音频划分成每个向量长度,并加权平均每向量长度的输入音频,以便产生出目标音频向量。
根据本发明的音频编码装置进一步是,具有与延迟参数相对应的向量长度的的整倍数长度是等于帧长或大于帧长。
根据本发明的音频编码装置进一步是,目标音频产生装置按照对应延迟参数的每个向量长的输入音频有关的特征量,对每个向量长度加权平均输入音频,从而确定出产生目标音频向量时的权。
根据本发明的音频编码装置进一步是,有关具有与延迟参数相对应的向量长度的的每一音频输入部分的特征量,至少包括有关输入音频的功率信息。
根据本发明的音频编码装置进一步是,有关具有与延迟参数相对应的向量长度的每一份输入音频的特征量,至少要包括输入音频的相关信息。
根据本发明的音频编码装置进一步是,目标音频产生装置按照具有与延迟参数相对应的向量长度的每一输入音频的时序关系,把对每个向量长度的输入音频进行加权平均,从而决定出产生目标音频向量时的权。
根据本发明的音频编码装置进一步是,当把具有与延迟参数相对应的向量长度的每一输入音频进行加权平均时,目标音频产生装置可精细调整每一向量长度的输入音频时序关系。
根据本发明的音频编码装置进一步是,帧声源产生装置在上述的每向量长度区域内,重复具有与延迟参数相对应的向量长度的的声源向量并进行周期化,从而产生出具有帧长声源信号。
根据本发明的音频编码装置进一步是,帧声源产生装置是在帧之间进行插补具有与延迟参数相对应的向量长度的的声源向量,从而产生出声源信号。
根据本发明的音频编码装置进一步是,自适应声源向量检索装置配备有一个复合滤波器,并且利用来自复合滤波器的脉冲响应,反复地计算由自适应向量获得的复合音频向量相对于目标音频向量的失真。
根据本发明的音频编码装置进一步是,配备有一个把输入音频进行提高采样的输入音频提高采样装置,目标音频产生装置是根据提高采样的输入音频产生目标音频向量的装置。
根据本发明的音频编码装置进一步是,配备有把过去生成的声源信号进行提高采样的声源提高采样装置,自适应声源编码本是从提高采样的过去生成的声源信号产生出自适应声源向量的。
根据本发明的音频编码装置进一步是,提高采样装置是依照延迟参数,改变提高采样的比例因数。
根据本发明的音频编码装置进一步是,提高采样装置仅在与延迟参数相对应的向量长度的范围内,改变输入音频或声源信号的提高采样比例因数。
此外,有关本发明的音频编码译码装置,在编码器部分里配备如下装置:目标音频产生装置,用于从输入音频产生出具有与延迟参数相对应的向量长度的目标音频向量;自适应声源编码本,用于从过去生成的声源信号产生出对应上述延迟参数的具有向量长度的自适应声源向量;自适应声源检索装置,用于评价从上述的自适应声源向量中获得的复合音频向量相对于上述的目标音频向量的失真,并检索出使失真变成最小的自适应声源向量;以及帧声源产生装置,用于从上述的使失真变成最小的自适应声源向量产生出具有帧长度的声源信号,另一方面,在译码器部件里配备如下装置:自适应声源编码本,用于产生出具有与延迟参数相对应的向量长度的自适应声源向量;及帧长声源产生装置,用于从自适应声源向量产生出具有帧长度的声源信号。
根据本发明的音频编码译码装置进一步配备,其编码器方面,由下列装置构成:第2目标声源产生装置,用于从目标音频向量和自适应声源向量,产生出第2目标音频向量;驱动声源编码本,用于产生出具有与延迟参数相对应的向量长度的的驱动声源向量;驱动声源检索装置,用于评价从上述的驱动声源向量获得的第2复合音频向量相对于第2目标音频向量的失真,并检索出使失真变成最小的驱动声源向量;以及第2帧长产生装置,用于从上述的使失真变成最小的驱动声源向量中产生出第2帧长的声源信号,在音频器部件里,配备如下装置:驱动声源编码本,用于产生出具有与延迟参数相对应的向量长度的驱动声源向量;及第2帧长声源产生装置,用于从驱动声源向量中产生出具有第2帧长度的声源信号。
附图说明
图1是表示作为本发明的实施例里的音频编码装置和音频装置的总体结构框图。
图2是表示本发明的实施例1的目标音频产生装置的操作一例的说明图。
图3是表示本发明的实施例5的目标音频产生装置的操作一例的说明图。
图4是表示本发明的实施例6的目标音频产生装置的操作一例的说明图。
图5是表示本发明的实施例7的目标音频产生装置的操作一例的说明图。
图6是表示本发明的实施例8的目标音频产生装置的操作一例的说明图。
图7是表示本发明的实施例9的目标音频产生装置的操作一例的说明图。
图8是表示作为本发明的实施例10的音频编码装置和音频译码装置的总体框图。
图9是表示现有的音频编码和译码装置的实例的总体框图。
图10是表示现有的音频编码和译码装置里的自适应声源向量的实例。
图11是表示现有的改进型音频编码和译码装置里的自适应声源向量的实例。
图12是表示现有的音频编码和译码装置的另外一例的总体结构框图。
图13是表示音频编码和译码装置里的周期化驱动声源向量的实例的说明图。
具体实施方式
实施例1
图1是表示本发明的实施例1的音频编码装置和音频译码装置的总体结构框图。
在图1里,各标号分别表示:1是编码器部件;2是译码器部件;3是多路转换装置;4是分离装置;5是输入音频;6是传输线路;7是输出音频编码器部件是由如下的8、9以及25~36各个装置所构成的;其中,8是线性预测参数分析装置;9是线性预测参数编码装置;15是声源信号产生装置;25是音调分析装置,用于抽取输入音频的音调周期;26是延迟参数检索区域决定装置,用于决定出在检索自适应声源向量时所需要的延迟参数的检索范围;27是音频输入提高采样装置,用于提高采样输入音频;28是目标音频产生装置,用于产生出具有与延迟参数相对应的向量长度的目标音频向量;29是声源信号提高采样装置,用于提高采样过去生成的声源信号;30是自适应声源编码本,用于从过去生成的声源信号产生出具有与延迟参数相对应的向量长度的自适应声源向量;31是自适应声源检索装置,用于评价从自适应声源向量获得的复合音频向量相对于目标音频向量的失真,并检索出使失真变成最小的自适应声源向量;32是帧声源产生装置,用于从具有与延迟参数相对应的向量长度的自适应声源信号产生出具有帧长度的自适应声源信号;33是第2目标音频产生装置,用于产生出具有与驱动声源检索时所用的延迟参数相对应向量长度的目标音频向量;34是驱动声源编码本,用于输出具有与延迟参数相对应的向量长度的的驱动声源向量;35是驱动声源检索装置,用于评价从驱动声源向量获得的复合音频向量相对于第2目标音频向量的失真,并检索出使失真变成最小的驱动声源向量;36是第2帧声源产生装置,用于从具有与延迟参数相对应的向量长度的驱动声源信号产生出具有帧长度的驱动声源信号。
此外,译码器部件是由如下的16、21、22乃至37~43各个装置所构成。16是线性预测参数译码装置;21是声源信号产生装置;22是复合滤波器;37是声源信号提高采样装置,用于提高采样过去生成的声源信号;38是自适应声源编码本,用于输出具有与延迟参数相对应的向量长度的自适应声源向量;39是自适应声源译码装置-用于译码出具有与延迟参数相对应的向量长度的自适应声源信号;40是帧声源产生装置,用于从具有与延迟参数相对应的向量长度的自适应声源信号中产生出具有帧长度的自适应声源信号;41是驱动声源编码本,用于输出具有与延迟参数相对应的向量长度的驱动声源向量;42是驱动声源译码装置,用于译码出具有与延迟参数相对应的向量长度的驱动声源信号;43是第2帧声源产生装置,用于从具有与延迟参数相对应的向量长度的驱动声源信号,产生出具有帧长度的驱动声源信号。
以下仅就实施例的编码器部件的操作,说明如下:
首先,在编码器部件1里,譬如说是以8KHz采样的数字化音频作为输入音频5的输入信号。线性预测参数分析装置8对上述输入音频5的输入信号进行分析,并抽出线性预测参数,它就是音频的频谱包络信息。然后,线性预测参数编码装置9把抽取出来的上述线性预测参数进行量化,并将与其对应的编码发送给多路转换装置3。与此同时,把量化的线性预测参数分别发送到自适应声源检索装置31、第2目标音频产生装置33和驱动声源检索装置35。
音调分析装置25通过分析音频输入5抽出音调周期P。根据上述的音调周期P,譬如说,按照下面的等式(1),延迟参数检索区域决定装置26决定出当查找自适应声源向量时所需要的延迟参数检索范围lmin≤延迟参数≤lmax;并把它发送到输入音频提高采样装置27、声源信号提高采样装置29和自适应声源检索装置31。上述所用过的等式(1)中lmin=P-ΔP
lmax=P+ΔP…………(1)
其中,例如ΔP是P/10
输入音频提高采样装置27,根据由延迟参数检索区域决定装置26输入的延迟参数的检索范围所规定的采样率,例如,在对声源信号进行编码作为单位的帧区间内,实现对输入音频提高采样,并将采样结果传送给目标音频产生装置28。其中,上述的规定的采样率,譬如说是按以下情况决定的:当lmin≤45,4倍采样率提高采样;当45≤lmin≤65,以2倍采样率进行提高采样;当65≤lmin,则不进行提高采样。
目标音频产生装置28把由上述的输入音频提高采样装置27所输入的具有帧长度的提高采样输入音频按照由自适应声源检索装置31输入来的延迟参数L对应关系划分成具有每份输入音频,每一份输入音频的周期为l;然后,通过在把对应延迟参数L的具有向量长度的每份输入音频进行加权平均计算,产生出对应延迟参数L的具有向量长度的目标音频向量;于是,目标音频产生装置28把该目标声源向量输出给自适应声源检索装置31和第2目标音频产生装置33。其中,延迟参数L可以是整数,也可以带有小数的有理数。按照延迟参数L的存在范围,例如,lint作为整数值延迟的情况下,可以取以下的一种值:当l<45的情况下,可以取lint、lint+1/4、lint+1/2、lint+3/4;当45≤1<65的情况下,可取lint、lint+1/2;当65≤1的情况下,可取lint。
典型目标音频向量如图2所示,它具有从帧长度输入音频产生的对应延迟参数L的向量长度。其中,若延迟参数L≥帧长度的情况下,则不进行加权平均计算,并把帧长度的输入音频当作是目标音频向量。
当声源信号提高采样装置29把从声源信号产生装置15收到过去生成的声源信号,只有在根据从上述的延迟参数检索区域决定装置26输入的延迟参数的自适应声源检索中的自适应声源检索区间是必要的情况下,才能按照上述延迟参数检索范围的采样率执行提高采样操作,并把产生的声源信号结果发送到自适应声源编码本30。其中,采样率是按照以下所述的规则决定的:若在l<45的区间内,则按4倍采样率进行提高采样;若在45≤l<65的区间内,则按2倍采样率进行提高采样;若在65<l的区间内,则不进行提高采样。自适应声源编码本30根据由上述的声源信号提高采样装置29输入的提高采样的声源信号,把由自适应声源检索装置31输入来的具有与延迟参数L相对应的向量长度的的自适应声源向量送给自适应声源检索装置31。在这里,上述的自适应声源向量是通过抽取比延迟参数L早一个采样的声源信号而获得的;若在延迟参数L≥帧长度的情况下,则自适应声源向量是通过抽取比延迟参数早一个帧长的采样的声源信号获得的。
自适应检索装置31配备有复合滤波器,并利用来自线性预测参数编码装置9的量化线性预测参数,求出复合滤波器的脉冲响应。然后,对于给定的延迟参数处在lmin≤l≤lmax的范围内时,则自适应声源检索装置31通过利用上述的脉冲响应,反复地计算并合成来自自适应声源编码本30的自适应声源向量,从而产生出复合音频向量。自适应声源检索装置31求出由上述的目标音频产生装置28输入的目标音频向量相对于上述的复合音频向量的听觉加权失真。然后,通过比较,评价上述失真,自适应声源检索装置31求出使上述的失真变成最小的延迟参数L以及与其对应的自适应声源增益β,并把上述的延迟参数L和自适应声源增益β的编码,传送给多路转换装置3和驱动声源编码本34;与此同时,自适应检索装置31把与上述的延迟参数L对应的自适应声源向量和上述的自适应声源增益β相乘,从而产生出自适应声源信号,并把它发送到帧声源产生装置32和第2目标音频产生装置33。在这里,如果延迟参数L<帧长度的情况下,则自适应声源信号是L长的采样;若L≥帧长度的情况下,则自适应声源信号是一个帧长度信号。帧声源产生装置32根据由自适应声源检索装置31输入的自适应声源信号,例如,在每个L的周期内重复并周期化,产生出帧长度的自适应声源信号,并将其发送到声源信号产生装置15。
第2目标声源产生装置33把从上述的自适应声源检索装置31输入的自适应声源信号和利用由线性预测参数编码装置9输入来的量化线性预测参数,使二者实现线性预测复合,从而产生出复合音频向量。于是,第2目标音频产生装置33求出由目标音频产生装置28输入来的目标音频向量和上述的复合音频向量之间的差分,并以此作为第2目标音频向量,将其发送给驱动声源检索装置35。
在驱动声源编码本34里,例如,存储着由随机噪声产生的N个驱动声源向量。驱动声源编码本34在对应延迟参数L的向量长度里,抽出由驱动声源检索装置35输入来的对应驱动声源编码i的驱动声源向量,并将其输出。若延迟参数L≥帧长度时,则输出具有帧长度的驱动声源向量。
驱动声源检索装置35对应N个驱动声源向量把从上述的驱动声源编码本34输入来的信号中,抽出驱动声源向量和利用从上述的线性预测参数编码装置9输入来的量化线性预测参数,使二者进行线性预测复合,从而产生出复合音频向量。于是,驱动声源检索装置35求出由上述的第2目标音频产生装置33输入来的第2目标音频向量相对于上述的复合音频向量的听觉加权失真。然后,通过比较评价上述的失真,求出使上述失真变成最小的驱动声源编码I和与其对应驱动声源增益γ,并把上述的驱动声源编码I和驱动声源增益γ的编码送到多路转换装置3;与此同时,把与上述的驱动声源编码I对应的驱动向量乘以上述的驱动声源增益γ,从而产生出驱动声源信号,并将该信号传送给第2帧声源产生装置36。
第2帧声源产生装置36根据由上述驱动声源检索装置35所输入的驱动声源信号,例如,按每周期L重复并周期化,从而产生出帧长度的驱动声源信号,并将它发送给声源信号产生装置15。
声源信号产生装置15把由上述的帧声源产生装置32所输入的帧长度自适应声源信号和有由上述的第2帧声源产生装置36所输入的帧长度的驱动声源信号进行加法运算,从而产生出声源信号,并把它传送给声源信号提高采样装置29。
当上述的编码过程完成后,多路转换装置3把上述的量化以后的对应线性预测参数的编码、延迟参数L、驱动声源信号I以及声源增益β和对应γ的编码,通过传输线路6输出。
以上所述的操作是本发明的第1实施例的编码器的特征性操作。
以下,就译码器部件2进行说明。
首先,用于接收多路转换装置3输出信息的分离装置4通过分离过程,把相应的信息分别传送给以下各装置:把线性预测参数的编码送给线性预测参数编码装置16;把延迟参数L送给自适应声源译码装置39和驱动编码本41;把声源增益β的编码送给自适应声源译码装置39;把驱动声源编码I和声源增益γ的编码送给驱动声源译码装置42。
首先,自适应声源译码装置39把上述的延迟参数L传送给声源信号提高采样装置37和自适应声源编码本38。声源信号提高采样装置37把由声源信号产生装置21所输入的在过去产生的声源信号,仅在按照上述的自适应声源译码装置39输入的延迟参数L生成自适应声源向量时所需要的区间内,才能按照上述的延迟参数L规定的采样率进行提高采样,并将提高采样的声源信号输出给自适应声源编码本38。在这里,提高采样率是与编码器部件里的声源信号提高采样装置29所采取的同样方式进行确定的。
自适应声源编码本38根据由上述的声源信号提高采样装置37所输入的提高采样的声源信号,产生出具有与自适应声源译码装置39所输入的延迟参数L相对应的向量长度的自适应声源向量,并把它传送给自适应声源译码装置39。在这里,上述的自适应声源向量是抽出的比延迟参数L,早L采样声源信号,当延迟参数L≥帧长度时,将从比延迟参数L早L采样中抽取一帧长的声源信号。
自适应声源译码装置39根据上述的自适应声源增益β的编码,译码出自适应声源增益β,把由上述的自适应声源编码本38输入的自适应声源向量乘以上述的自适应声源增益β,从而产生出自适应声源信号,并将它传送给帧声源产生装置40。帧声源产生装置40根据由上述的自适应声源译码装置39输入的自适应声源信号,例如,按每周期L重复并周期化,从而产生出帧长自适应声源信号,并将它传送给声源信号产生装置21。
驱动声源编码本41和编码器部件里的驱动声源编码本34,都存储有同样多的N个驱动声源向量;按照与上述的延迟参数L相对应的向量长度方式抽出由驱动声源译码装置42输入的对应驱动声源编码I的驱动声源向量,并将它送给驱动声源译码装置42。
驱动声源译码装置42根据上述的驱动声源增益γ的编码,译码出驱动声源增益γ,把由上述的驱动声源编码本输入的信息中抽出的驱动声源向量乘以所述驱动声源增益γ,从而产生出驱动声源信号,并将它传送给第2帧声源产生装置43。第2帧声源产生装置43利用由上述的驱动声源译码装置42输入的驱动声源信号,例如,按每周期L重复该收到的信号,从而产生出周期化具有帧长度的驱动声源信号,并将它传送给声源信号产生装置21。声源信号产生装置21把由上述的帧声源产生装置40所输入的具有帧长度自适应声源信号和由上述的第2帧声源产生装置43输入的具有帧长度的驱动声源信号,实现加法运算,于是产生出声源信号并将它传送给声源信号提高采样装置37和复合滤波器22。复合滤波器22利用上述的声源信号产生装置21输入的声源信号和由线性预测参数译码装置16输入的线性预测参数,使两者进行线性预测复合,并输出输出音频7。
以上所述的操作是本发明实施例1的音频译码装置里的特征性操作。
根据本发明的实施例1,当决定最佳延迟参数时,延迟参数L比帧长短的情况下,周期性的加权平均计算输入音频,从而产生出具有向量长度l的目标音频向量;另一方面,线性预测复合具有向量长度l的自适声源向量,评价产生出的复合音频向量相对于目标音频向量之间的失真;而且当决定最佳的驱动声源编码时,线性预测复合具有向量长度的驱动声源向量,通过利用失真评价方法去评价复合音频向量,防止复合音频的质量恶化,可以用少量的运算量产生出高质量的复合音频。
实施例2
上述的实施例1,在帧声源产生装置32、40以及第2帧声源产生装置36和43里,每一周期L重复并周期化与延迟参数L相对应的向量长度的自适应声源信号或驱动声源信号,产生出帧长度的自适应声源信号或驱动声源信号;但是,例如在每周期L可以作为波形内插,例如,按每周期L进行波形插值处理,在帧之间进行波形内插插上述的对应延迟参数L的具有向量长度的自适应声源信号或驱动声源信号,也能很好地产生出自适应声源信号或驱动声源信号。
根据本发明的第2实施例,使帧间的声源信号变化变得平滑,复合音频的再现性会更好,可以提高质量。
实施例3
在上述的实施例1和2里,根据对应延迟参数L的具有向量长度的自适应声源信号和驱动声源信号,利用帧声源产生装置以及第2帧声源产生装置,产生出具有帧长度的自适应声源信号和具有帧长度的驱动声源信号,把二者进行加法运算,产生出具有帧长度的声源信号;但是,可把对应延迟参数L的具有向量长度的自适应声源信号和驱动声源信号进行加法运算,从而产生出具有与延迟参数L相对应的向量长度的声源信号;这可以举例说明如下:按每周期L,把上述的信号进行重复并周期化,从而也能很好地产生出具有帧长度的声源信号。
实施例4
在上述的实施例1里,编码器部件和音频器部件都采用新的结构;但是,编码器部件依然选用实施例1的编码器结构,然而译码器部件选用图12所示的以往译码器部件结构,也是可以的。
实施例5
上述的实施例1,在其目标音频产生装置28方面,根据具有帧长度的输入音频产生出具有与延迟参数L相对应的向量长度的目标音频向量;但是,如图3所示,从具有与延迟参数L相对应的向量长度的整倍数长的输入音频,也能很好地产生出目标音频向量。
根据本实施例5,在产生目标音频向量时的平均化处理里,可以进行简单处理,因为已不涉及带有不同向量长度的处理任务。而且,根据在对超出帧长的输入音频进行音频编码时的评价过程中,按照已考虑到已知帧的复合音频如何影响其以后帧的思路进行编码,所以使得复合音频具有很好的再现性,从而可提高输出质量。
实施例6
上述的实施例1,在其目标音频产生装置28里,根据输入音频,当产生具有与延迟参数L相对应的向量长度的目标音频向量时,只是作简单的平均计算;但是,如图4所示,按照具有与延迟参数L相对应的向量长度的输入音频功率加权平均计算,譬如说,输入音频功率越大,则加的权也越大,按照这样进行加权平均计算。
根据本发明实施例6,在产生目标音频向量时的平均化处理中,由于按照输入音频功率进行加权后实现音频编码,所以对主观质量(Subjective quality)给予影响大的复合音频的功率大部分的再现性都变得很好,从而可以提高音频质量。
实施例7
上述的实施例1,在其目标音频产生装置28里,从输入音频产生出具有与延迟参数L相对应的向量长度的目标音频向量时,只是进行简单的平均计算;但是,如图5所示,按照具有与各延迟参数L相对应的向量长度的输入音频之间的相关值加权,例如,当具有与其他各延迟参数L相对应的向量长度的输入音频相关程度较低的情况下,可取小的加权值,这样进行加权平均计算也是可以的。
根据本实施例7,在产生目标音频向量的加权平均处理中,由于按照输入音频具有周期l的周期性的情况,对相关程度较低的部分取小的加权值的原则进行音频编码,即使是音调周期变动的音频,也能产生出对应1音调周期的失真程度小的目标音频向量,并能获得更好的复合音频再现性,从而可提高质量。
实施例8
上述的实施例1,在其目标音频产生装置28里,当从输入音频产生出具有与延迟参数L相对应的向量长度的目标音频向量时,只是进行简单平均处理;但是,如图6所示,按照具有与各延迟参数L相对应的向量长度的输入音频间的位置加权,例如,对于帧边界附近的输入音频,其加权值可取较大的值进行加权平均计算也是可以的。
根据本实施例8,在产生目标音频向量时的加权平均处理中,给帧边界附近的输入音频的加权值较大,生成目标音频向量,由于按照这种方法实现编码,所以帧边界附近的复合音频再现性良好,可使帧间的复合音频变化变得平滑起来。这种效果在本实施例2里的用帧间插补方法产生声源信号时,尤为显著。
实施例9
上述实施例1,在其目标音频产生装置28里,当从输入音频产生出具有与延迟参数L相对应的向量长度的目标音频向量时,把输入音频按每周期l进行加权平均计算;但是,如图7所示,精细调整抽出输入音频的位置,例如,使与各延迟参数L相对应的向量长度的输入音频间的相互相关变为最大而进行加法平均也是可以的。
根据本实施例9,在产生目标音频向量时的平均化处理中,按照能使具有与延迟参数L相对应的向量长度的输入音频之间相互相关变成最大的原则,精细地调整抽出的位置,即使对于音调周期变动的输入音频,也可产生出对应1音调周期l的失真达到最小程度的目标音频向量,将可使目标音频的再现性良好,可提高质量。
实施例10
图8是表示本发明的实施例10音频编码装置和音频译码装置总体结构框图。在该框图里,与图1中的相同部分都标上同样的标号,因而省略其说明部分。
在图8里,它采取有别于图1的新结构如下:44是把输入音频进行提高采样的输入音频提高采样装置;45是产生出具有与音调周期相对应的向量长度的目标音频向量的目标音频产生装置;46和51为驱动声源编码本,它用于输出具有与音调周期相对应的向量长度的驱动声源向量;47是驱动声源检索装置,它用于评价由驱动声源向量获得的复合音频向量相对应目标音频向量的失真,并且检索出使失真变成最小的驱动声源向量;48是第2目标音频产生装置,它产生出在第2驱动声源向量检索里的与音调周期相对应的向量长度的目标音频向量;49和54是第2驱动声源编码本,它用于输出具有与音调周期相对应的向量长度的第2驱动声源向量;50是第2驱动声源检索装置,它评价由第2驱动声源向量获得的复合音频向量相对于第2目标音频向量的失真并检索出使上述的失真变成最小的驱动声源向量;52驱动声源译码装置,它译码出具有与音调周期相对应的向量长度的驱动声源信号;53是帧声源产生装置,它根据具有与音调周期相对应的向量长度的驱动声源信号,产生出具有帧长度的驱动声源信号;55是第2驱动声源译码装置,它译码出具有与音调周期相对应的向量长度的第2驱动声源信号;56是第2帧声源产生装置,它根据具有与音调周期相对应的向量长度的第2驱动声源信号,产生出具有帧长度的驱动声源信号。
以下将以上述的新结构为中心,解说其操作原理。
首先,在编码器部件1里音调分析装置25分析输入音频5,抽取音调周期P,并将它传送给多路转换装置3,输入音频提高采样装置44,目标音频产生装置45,驱动声源编码本46和第2驱动声源编码本49。其中,音调周期除了可选取整数值之外,也可选取非整数的有理数,按照P值存在范围,例如,把Pint作为整数音调周期的情况下可选取如下的各种数值:当P<45的情况下,可取Pint、Pint+1/4、Pint+1/2和Pint+3/4;当45≤P<65的情况下,可取Pint、Pint+1/2;当65≤P的情况下,则可取Pint值。
输入音频提高采样装置44按照由音调分析装置25所输入的音调周期规定的采样率,对输入音频与进行提高采样操作,例如,在作为编码声源信号单位的帧区间里进行提高采样,并将采样结果发送给目标音频产生装置45。其中,提高采样率,例如按以下情况确定,当P<45的情况下,以4倍提高采样操作;当45≤P<65的情况下,以2倍提高采样操作;当65≤P的情况下,则不进行提高采样操作。
目标音频产生装置45按照由音调分析装置25输入来的周期P,例如,按照每一周期P加法平均计算由上述的输入音频提高采样装置44所输入的以提高采样的具有向量长度的输入音频,从而产生出具有向量长度P的目标音频向量,并将它发送到驱动声源检索装置47和第2目标音频产生装置48。其中,P≥帧长度的情况下,则不进行上述的加法平均计算,并把具有帧长度的输入音频作为目标音频向量。
驱动声源编码本46里,例如,存储着由随机噪声产生的N个驱动声源向量,并按照由上述的音调分析装置25所输入的具有与音调周期P相对应的向量长度,抽取并输出由驱动声源检索装置47所输入的与驱动声源i相对应的驱动声源向量。在这里,若P≥帧长度时,则输出具有帧长度的驱动声源向量。
驱动声源检索装置47对于N个驱动声源向量,把由上述的驱动声源编码本46里抽出的驱动声源向量和由线性预测参数编码装置9所输入的已量化的线性预测参数,进行线性预测复合,从而产生出复合音频向量。然后,驱动声源检索装置47求出由上述目标音频产生装置45输入来的目标音频向量相对于上述的复合音频向量之间的听觉加权失真。紧接着通过比较进行评价上述失真,驱动声源检索装置47寻找出使上述失真变成最小的驱动声源编码I以及与其对应的驱动声源增益γ,并把上述的驱动声源编码I和驱动声源增益γ的编码发送到多路转换装置3;与此同时,把对应上述驱动声源编码I的驱动声源向量乘以上述的驱动声源增益γ,从而产生出驱动声源信号,并将它发送给第2目标音频产生装置48。
第2目标音频产生装置48把由上述的驱动声源检索装置47输入的驱动声源信号和由线性预测参数编码装置9输入的已量化的线性预测参数两者进行线性预测复合,从而产生出复合音频向量。然后,第2目标音频产生装置48求出由上述目标音频产生装置45输入来的目标音频向量和由上述的复合音频向量之间的差分,将它作为第2目标音频向量发送到第2驱动声源检索装置50。
在第2驱动声源编码本49里,例如,储存着由随机噪声产生出来的N个驱动声源向量,并按照由上述音调分析装置25所输入的对应音调周期P的向量长度,抽出并输出由第2驱动声源检索装置50所输入的对应驱动声源编码j的第2驱动声源向量。在这里,若P≥帧长度的情况下,则输出具有帧长度的驱动声源向量。
第2驱动声源检索装置50对于N个驱动声源向量,把由上述的第2驱动声源编码本49抽出的第2驱动声源向量和由上述的线性预测参数编码装置9输入的已量化的线性预测参数两者进行线性预测复合,从而产生出复合音频向量。并且,第2驱动声源检索装置50求出由上述的第2目标音频产生装置48输入的第2目标音频向量相对于上述的复合音频向量的听觉加权失真;紧接着通过比较进行评价上述的失真,求出使上述的失真变成最小的第2驱动声源编码J和与其对应的第2驱动声源增益γ2。并把上述的第2驱动声源编码J和第2驱动声源增益γ2的编码发送到多路转换装置3。
上述的编码过程完成之后,多路转换装置3把对应上述的量化后的线性预测参数的编码、音调周期P、驱动声源编码I、J以及对应声源增益γ、γ2的编码,都通过传输线路6发送出去。
以上所述是本实施例10的音频编码装置里的特征性操作。
以下,将继续说明有关译码器部件2的情况。
首先,接收多路转换装置3输出的分离装置4,通过分离处理分别把线性预测参数编码送到线性预测参数译码装置16、音调周期P送到驱动声源编码本51和第2驱动声源编码本54、驱动声源编码I和声源增益γ的编码送到驱动声源译码装置52和第2驱动声源编码J和音频增益γ2的编码送到第2驱动声源译码装置55。
驱动声源编码本51和编码器部件的驱动声源编码本46,都存储着相同数量的N个驱动声源向量,并按照与上述的音调周期P相对应的向量长度,抽出由驱动声源译码装置52输入的对应驱动声源编码I的驱动声源向量并将它发送到驱动声源译码装置52。
驱动声源译码装置52从上述的驱动声源增益γ的编码,译码出驱动增益γ,把由上述的驱动编码本51输入的信息中抽出驱动声源向量乘以驱动声源增益γ,从而产生出驱动声源信号,并将它送到帧声源产生装置53。帧声源产生装置53根据由上述的驱动声源译码装置52输入的声源信号,例如,按每周期P重复并周期化,从而产生出具有帧长度的驱动声源信号并将它送到声源产生装置21。
第2驱动声源编码本54和编码器部件里的第2驱动声源编码本49,都存储着同样多的N个驱动声源向量,并在具有与上述的音调周期P相对应的向量长度里,抽出由第2驱动声源编码装置55输入的与第2驱动声源编码J相对应的第2驱动声源向量,并将它送到第2驱动声源编码装置55。
第2驱动声源译码装置55由上述的第2驱动声源增益γ2的编码中译码出驱动声源增益γ2,把由上述的第2驱动声源编码本54里抽出的第2驱动声源向量乘以上述的驱动声源增益γ2,从而产生出第2驱动声源信号,并将它发送到第2帧声源产生装置56。第2帧声源产生装置56根据由上述的第2驱动声源译码装置55输入的第2驱动声源信号,例如。在每个周期P里重复并周期化,从而产生出第2帧长度驱动声源信号,并将它发送到声源信号产生装置21。
声源信号产生装置21把由上述的帧声源产生装置53输入的具有帧长度的驱动声源信号和由上述的第2帧声源产生装置56输入的驱动声源信号继续加法运算,从而产生出声源信号,并将它送到复合滤波器22,复合滤波器22把由上述的声源信号产生装置21输入的声源信号和由线性预测参数译码装置16输入的线性预测参数进行线性预测复合,将其结果输出音频7输出出去。
以上所述是本实施例10的音频译码装置里的具有特征性的操作。
根据本实施例10,当输入音频的音调周期P比帧长度短时,周期的加法平均计算输入音频,产生出具有向量长度P的目标音频向量;另一方面,把向量长度P的驱动声源向量进行线性预测复合,根据评价生成的复合音频向量之间的失真,防止复合音频质量下降,以少的运算量可产生出高质量的复合音频。
正如上所述,根据本发明,由于在音频编码装置里具备如下各装置:从输入音频产生出具有与延迟参数相对应的向量长度的目标音频向量的目标向量产生装置;从在过去生成的音频信号,产生出具有与上述的延迟参数相对应的向量长度的自适应声源向量的自适应声源编码本;评价由上述的自适应声源向量获得的复合音频向量相对于上述的目标音频向量的失真,并检索出使失真变成最小的自适应声源向量的自适应声源检索装置;从使上述失真变成最小的自适应声源向量产生出具有帧长度的声源信号的帧声源产生装置。正因为如此,可防止复合音频质量下降,以少的运算量可产生出高质量的复合音频。
而且,根据本发明,由于目标音频向量的向量长度可选取为有理数,当从输入音频产生目标音频向量时,不依赖与输入音频的采样周期,可产生出高精度目标音频向量,防止复合音频质量下降,以少的计算量可产生出高质量复合音频。
而且,根据发明,由于目标音频产生装置按照每向量长度划分出具有与延迟参数相对应的向量长度的整倍数长的输入音频,再把上述的每一向量长度的输入音频进行加权平均计算,从而产生出目标音频向量,因此在产生目标音频向量时的平均化处理过程里,不涉及处理不同向量长度的向量,可实现简单处理,防止复合音频的质量下降,以少的计算量可产生出高质量的复合音频。
而且,假定仅就产生目标音频向量的向量长度整倍数长的输入音频已超过帧长度以上的情况而论,根据用于对超过帧长度的输入音频实现编码时的评价,按照已考虑到的已知帧的复合音频如何其以后帧的思路进行决定编码,所以使得复合音频具有很好的再现性,可以提高质量。而且,即使是关于每向量长的输入音频的特征量很少,若能包括输入音频的功率信息,则根据依照输入音频功率大的部分予以加权编码,使得对主观质量有很大影响的复合音频功率大的部分的再现性变好,可提高质量。而且,即使是关于每向量长的输入音频的特征量很少,若包含输入音频的相关信息,作为输入音频具有周期L的周期性情况下,则按照相关程度低的部分小权重来进行音频编码,尽管是对于音调周期变动的输入音频也可产生出对应一音调周期的失真小的目标音频向量,使复合音频的再现性良好,从而提高质量。
而且,目标音频产生装置依照每个向量程度的输入音频时间关系,在上述的每向量长度里,进行加权平均计算输入音频,若能决定在生成目标音频向量时的权重,则可对在帧边界附近的输入音频给予大的权重,产生出目标音频向量,通过按照这种方式进行编码,于是在帧边界附近的复合音频的再现性可以变好,可使帧间的复合音频的变化平滑起来。
而且,目标音频产生装置当把输入音频在每个向量长度里进行加权平均计算时,若能进行精细调整,上述的每向量长的输入音频时间关系,按照向量长l的输入音频间的相互关系大的抽出进行细微调整位置,尽管是对于音调周期变动的输入音频,也可产生出对应1音调周期的失真小的目标音频向量,所以复合音频的再现性良好,从而提高质量。
而且,根据本发明,由于帧声源产生装置把具有向量长度的声源向量在帧间进行插补,从而生成声源信号,使帧间的声源信号变化变得平滑起来,可使复合音频的再现性良好,提高质量。
Claims (14)
1、一种把输入音频分成频谱包络信息和声源信号信息并且以帧为单位对声源信号信息进行编码的音频编码装置,其特征是,具备:从输入音频产生出具有与延迟参数相对应的向量长度的目标音频向量的目标音频产生装置;从过去生成的声源信号产生出具有与延迟参数相对应的向量长度的自适应声源向量的自适应声源编码本;评价由上述自适应声源向量获得的复合音频向量相对于上述目标音频向量的失真,并且检索出使上述失真变成最小的自适应声源向量的自适应声源检索装置;以及从使上述失真变成最小的自适应声源向量,产生出具有帧长度的声源信号的帧声源产生装置。
2、根据权利要求1记载的音频编码装置,其特征是,具备:第2目标音频产生装置,用于从使目标音频向量失真变成最小的自适应声源向量,产生出第2目标音频向量;驱动声源编码本,用于产生出具有与延迟参数相对应的向量长度的驱动声源向量;驱动声源检索装置,用于评价由上述驱动声源向量获得的第2复合音频向量相对于上述第2目标音频向量的失真,并检索出使失真变成最小的驱动声源向量;以及第2帧声源产生装置,用于由使上述失真变成最小的驱动声源向量产生出第2帧长声源信号。
3、根据权利要求1记载的音频编码装置,其特征是,自适应声源检索装置备有复合滤波器,利用该复合滤波器的脉冲响应,反复计算由自适应声源向量获得的复合音频向量相对于目标音频向量的失真。
4、一种把输入音频分成频谱包络信息和声源信号信息并以帧为单位对声源信号进行编码的音频编码装置,其特征是,具备:目标音频产生装置,用于由输入音频产生出具有与延迟参数相对应的向量长度的目标音频向量;驱动声源编码本,用于产生出具有与延迟参数相对应的向量长度的驱动声源向量;驱动声源检索装置,用于评价由上述驱动声源向量获得的复合音频向量相对于上述目标音频向量的失真,并检索出使失真变成最小的驱动声源向量;以及帧声源产生装置,用于从上述使失真变成最小的驱动声源向量产生出具有帧长的声源信号。
5、根据权利要求4记载的音频编码装置,其特征是,延迟参数是按照对应输入音频的音调周期进行决定的。
6、根据权利要求1~4所记载的任何一项的音频编码装置,其特征是,与延迟参数相对应的向量长度取有理数。
7、根据权利要求1~4所记载的任何一项的音频编码装置,其特征是,目标音频产生装置按照对应延迟参数的每个向量长度划分帧输入音频,并把每个向量长度的输入音频进行加权平均,产生出目标音频向量。
8、根据权利要求1~4所记载的任何一项的音频编码装置,其特征是,目标音频产生装置把具有与延迟参数相对应的向量长度的整倍数长度的输入音频划分成每个向量长度,并且加权平均每向量长度的输入音频,从而产生出目标音频向量。
9、根据权利要求1~4所记载的任何一项的音频编码装置,其特征是,目标音频产生装置依照和具有与延迟参数相对应的每向量长度的输入音频有关的特征量,决定出产生目标音频向量时的权重,把输入音频在每向量长度内进行加权平均。
10、根据权利要求1~4所记载的任何一项的音频编码装置,其特征是,帧声源产生装置在每个向量长度里,重复具有与延迟参数相对应的向量长度的声源向量并周期化,从而产生出具有帧长度的声源信号。
11、根据权利要求1~4所记载的任何一项的音频编码装置,其特征是,帧声源产生装置在帧间对具有与延迟参数相对应的向量长度的声源向量进行插值,从而产生出声源信号。
12、一种音频编码译码装置,用于把输入音频分成频谱包络信息和声源信号信息,而且以帧为单位对声源信号进行编码并将编码的声源信号信息进行译码,从而产生输出音频,其特征是,在编码部件方面具备:目标音频产生装置,用于从输入音频产生出具有与延迟参数相对应的向量长度的目标音频向量;自适应声源编码本,用于从过去生成的声源信号产生出具有与上述延迟参数相对应的向量长度的自适应声源向量;自适应声源检索装置,用于评价由上述自适应声源向量获得的复合音频向量相对于上述目标音频向量的失真,并且检索出使失真变成最小的自适应声源向量;以及帧声源产生装置,用于由使上述失真变成最小的自适应声源向量,产生出具有帧长度的声源信号,另一方面,在译码部件里具备如下:自适应声源编码本,用于产生出具有与延迟参数相对应的向量长度的自适应声源向量;以及帧声源产生装置,用于由自适应声源向量产生出具有帧长的声源信号。
13、根据权利要求12记载的音频编码译码装置,其特征是,在编码方面,具备如下:第2目标音频产生装置,用于由目标音频向量和自适应声源向量产生出第2目标音频向量;驱动声源编码本,用于产生出具有与延迟参数相对应的向量长度的驱动声源向量;驱动声源检索装置,用于评价由上述驱动声源向量获得的第2复合音频向量相对于第2目标音频向量的失真,并检索出使失真变成最小的驱动声源向量;以及第2帧声源产生装置,用于由上述使失真最小的驱动声源向量产生出第2帧长的声源信号,另一方面,在译码部件里具备:驱动声源编码本,用于产生出具有与延迟参数相对应的向量长度的驱动声源向量;以及第2帧声源产生装置,用于从驱动声源向量产生出第2帧长的声源信号。
14、一种音频编码译码装置,用于把输入音频分成频谱包络信息和声源信号信息并以帧为单位对声源信号信息进行编码和将编码的声源信号信息译码再产生出输出音频,其特征是,在编码部件里具有:目标音频产生装置,用于从输入音频产生出具有与延迟参数相对应的向量长度的目标音频向量;驱动声源编码本,用于产生出具有与延迟参数相对应的向量长度的驱动声源向量;驱动声源检索装置用于评价由上述驱动声源向量获得的复合音频向量相对于上述目标音频向量的失真,并检索出使失真变成最小的驱动声源向量;以及帧声源产生装置,用于从使失真变成最小的驱动声源向量产生出具有向量长度的声源信号,另一方面,在译码部件里,具备如下:驱动声源编码本,用于产生出具有延迟参数相对应的向量长度的驱动声源向量;以及帧声源产生装置,用于从驱动声源向量产生出具有帧长的声源信号。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP13524096A JP3364825B2 (ja) | 1996-05-29 | 1996-05-29 | 音声符号化装置および音声符号化復号化装置 |
JP135240/1996 | 1996-05-29 | ||
JP135240/96 | 1996-05-29 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1170189A CN1170189A (zh) | 1998-01-14 |
CN1151491C true CN1151491C (zh) | 2004-05-26 |
Family
ID=15147096
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB971029393A Expired - Fee Related CN1151491C (zh) | 1996-05-29 | 1997-03-12 | 音频编码装置和音频编码译码装置 |
Country Status (8)
Country | Link |
---|---|
US (1) | US6052661A (zh) |
EP (1) | EP0810585B1 (zh) |
JP (1) | JP3364825B2 (zh) |
KR (1) | KR100218214B1 (zh) |
CN (1) | CN1151491C (zh) |
CA (1) | CA2194513C (zh) |
DE (1) | DE69720855D1 (zh) |
TW (1) | TW317631B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104380377A (zh) * | 2012-06-14 | 2015-02-25 | 瑞典爱立信有限公司 | 用于可缩放低复杂度编码/解码的方法和装置 |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19729494C2 (de) * | 1997-07-10 | 1999-11-04 | Grundig Ag | Verfahren und Anordnung zur Codierung und/oder Decodierung von Sprachsignalen, insbesondere für digitale Diktiergeräte |
EP1746583B1 (en) * | 1997-10-22 | 2008-09-17 | Matsushita Electric Industrial Co., Ltd. | Sound encoder and sound decoder |
CN1494055A (zh) * | 1997-12-24 | 2004-05-05 | ������������ʽ���� | 声音编码方法和声音译码方法以及声音编码装置和声音译码装置 |
JP3268750B2 (ja) * | 1998-01-30 | 2002-03-25 | 株式会社東芝 | 音声合成方法及びシステム |
US6249758B1 (en) * | 1998-06-30 | 2001-06-19 | Nortel Networks Limited | Apparatus and method for coding speech signals by making use of voice/unvoiced characteristics of the speech signals |
US7072832B1 (en) | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
US6507814B1 (en) | 1998-08-24 | 2003-01-14 | Conexant Systems, Inc. | Pitch determination using speech classification and prior pitch estimation |
US6330533B2 (en) | 1998-08-24 | 2001-12-11 | Conexant Systems, Inc. | Speech encoder adaptively applying pitch preprocessing with warping of target signal |
US6449590B1 (en) | 1998-08-24 | 2002-09-10 | Conexant Systems, Inc. | Speech encoder using warping in long term preprocessing |
FI111438B (fi) * | 1999-07-09 | 2003-07-15 | Nokia Corp | Symbolijonon lähetysmenetelmä |
JP4792613B2 (ja) * | 1999-09-29 | 2011-10-12 | ソニー株式会社 | 情報処理装置および方法、並びに記録媒体 |
JP3404024B2 (ja) | 2001-02-27 | 2003-05-06 | 三菱電機株式会社 | 音声符号化方法および音声符号化装置 |
JP4948401B2 (ja) * | 2005-05-31 | 2012-06-06 | パナソニック株式会社 | スケーラブル符号化装置およびスケーラブル符号化方法 |
US7966190B2 (en) * | 2005-07-11 | 2011-06-21 | Lg Electronics Inc. | Apparatus and method for processing an audio signal using linear prediction |
WO2009039897A1 (en) * | 2007-09-26 | 2009-04-02 | Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V. | Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program |
EP3301677B1 (en) | 2011-12-21 | 2019-08-28 | Huawei Technologies Co., Ltd. | Very short pitch detection and coding |
CN106448688B (zh) | 2014-07-28 | 2019-11-05 | 华为技术有限公司 | 音频编码方法及相关装置 |
EP2980794A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
EP2980795A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4910781A (en) | 1987-06-26 | 1990-03-20 | At&T Bell Laboratories | Code excited linear predictive vocoder using virtual searching |
US5235670A (en) * | 1990-10-03 | 1993-08-10 | Interdigital Patents Corporation | Multiple impulse excitation speech encoder and decoder |
US5195168A (en) * | 1991-03-15 | 1993-03-16 | Codex Corporation | Speech coder and method having spectral interpolation and fast codebook search |
JP3275247B2 (ja) * | 1991-05-22 | 2002-04-15 | 日本電信電話株式会社 | 音声符号化・復号化方法 |
US5396576A (en) * | 1991-05-22 | 1995-03-07 | Nippon Telegraph And Telephone Corporation | Speech coding and decoding methods using adaptive and random code books |
US5305421A (en) * | 1991-08-28 | 1994-04-19 | Itt Corporation | Low bit rate speech coding system and compression |
FI95085C (fi) * | 1992-05-11 | 1995-12-11 | Nokia Mobile Phones Ltd | Menetelmä puhesignaalin digitaaliseksi koodaamiseksi sekä puhekooderi menetelmän suorittamiseksi |
JPH07334194A (ja) * | 1994-06-14 | 1995-12-22 | Matsushita Electric Ind Co Ltd | 音声符号化/復号化方法およびそれらの装置 |
-
1996
- 1996-05-29 JP JP13524096A patent/JP3364825B2/ja not_active Expired - Lifetime
- 1996-12-16 TW TW085115514A patent/TW317631B/zh active
- 1996-12-31 US US08/777,874 patent/US6052661A/en not_active Expired - Fee Related
-
1997
- 1997-01-07 CA CA002194513A patent/CA2194513C/en not_active Expired - Fee Related
- 1997-01-15 KR KR1019970001026A patent/KR100218214B1/ko not_active IP Right Cessation
- 1997-01-30 DE DE69720855T patent/DE69720855D1/de not_active Expired - Lifetime
- 1997-01-30 EP EP97101441A patent/EP0810585B1/en not_active Expired - Lifetime
- 1997-03-12 CN CNB971029393A patent/CN1151491C/zh not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104380377A (zh) * | 2012-06-14 | 2015-02-25 | 瑞典爱立信有限公司 | 用于可缩放低复杂度编码/解码的方法和装置 |
CN104380377B (zh) * | 2012-06-14 | 2017-06-06 | 瑞典爱立信有限公司 | 用于可缩放低复杂度编码/解码的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
US6052661A (en) | 2000-04-18 |
EP0810585A2 (en) | 1997-12-03 |
EP0810585A3 (en) | 1998-11-11 |
KR100218214B1 (ko) | 1999-09-01 |
TW317631B (en) | 1997-10-11 |
CA2194513C (en) | 2001-05-15 |
CA2194513A1 (en) | 1997-11-30 |
CN1170189A (zh) | 1998-01-14 |
KR970076487A (ko) | 1997-12-12 |
DE69720855D1 (de) | 2003-05-22 |
EP0810585B1 (en) | 2003-04-16 |
JP3364825B2 (ja) | 2003-01-08 |
JPH09319396A (ja) | 1997-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1151491C (zh) | 音频编码装置和音频编码译码装置 | |
CN1288622C (zh) | 编码设备和解码设备 | |
CN1096148C (zh) | 信号编码方法和装置 | |
CN1172294C (zh) | 音频编码装置、音频编码方法、音频解码装置及音频解码方法 | |
CN1104710C (zh) | 在语音数字传输系统中产生悦耳噪声的方法与装置 | |
CN1689069A (zh) | 声音编码设备和声音编码方法 | |
CN1210690C (zh) | 音频解码器和音频解码方法 | |
CN1252679C (zh) | 声音编码装置、声音编码译码装置、以及声音编码方法 | |
CN1185620C (zh) | 声音合成装置和方法以及电话装置 | |
CN1240978A (zh) | 音频信号编码装置、解码装置及音频信号编码、解码装置 | |
CN1795495A (zh) | 音频编码设备、音频解码设备、音频编码方法和音频解码方法 | |
CN1126869A (zh) | 语音编码和解码设备及其方法 | |
CN1669074A (zh) | 话音增强装置 | |
CN1591575A (zh) | 合成语音的方法和装置 | |
CN1468427A (zh) | 一种码激励线性预测语音编码器的增益量化 | |
CN1161750C (zh) | 语音编码译码方法和装置、电话装置、音调变换方法和介质 | |
CN1291375C (zh) | 声信号编码方法和设备、解码方法和设备 | |
CN1977311A (zh) | 语音编码装置、语音解码装置及其方法 | |
CN1486486A (zh) | 用于编码和解码声学参数的方法、设备和程序及用于编码和解码语音的方法、设备和程序 | |
CN1174457A (zh) | 语音信号传输方法及语音编码和解码系统 | |
CN1359513A (zh) | 话音解码装置和编码差错补偿方法 | |
CN1293535C (zh) | 声音编码设备和方法以及声音解码设备和方法 | |
CN1135528C (zh) | 声音编码装置以及声音解码装置 | |
CN1135530C (zh) | 声音编码装置和声音译码装置 | |
CN1224523A (zh) | 音频信号编码装置和译码装置以及音频信号编码和译码方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C19 | Lapse of patent right due to non-payment of the annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |