CN1954364B - 带有不同编码帧长度的音频编码 - Google Patents
带有不同编码帧长度的音频编码 Download PDFInfo
- Publication number
- CN1954364B CN1954364B CN200480043056.XA CN200480043056A CN1954364B CN 1954364 B CN1954364 B CN 1954364B CN 200480043056 A CN200480043056 A CN 200480043056A CN 1954364 B CN1954364 B CN 1954364B
- Authority
- CN
- China
- Prior art keywords
- coding
- frame
- frame lengths
- coding frame
- lengths
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 98
- 238000000034 method Methods 0.000 claims abstract description 44
- 230000007704 transition Effects 0.000 claims description 17
- 230000003595 spectral effect Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 description 20
- 238000004458 analytical method Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 230000005284 excitation Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 235000017060 Arachis glabrata Nutrition 0.000 description 1
- 241001553178 Arachis glabrata Species 0.000 description 1
- 235000010777 Arachis hypogaea Nutrition 0.000 description 1
- 235000018262 Arachis monticola Nutrition 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 235000020232 peanut Nutrition 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及用于支持音频信号的编码的方法,其中该音频信号的至少一个部分将用允许使用不同编码帧长度的编码模型进行编码。为了使能够简单选择相应的最适合的编码帧长度,提出了基于该音频信号的信号特性确定至少一个控制参数。接着,使用该控制参数限制该至少一个部分的可能的编码帧长度的选项。本发明同样涉及其中实现了该方法的模块10、11,涉及包含此种模块10、11的设备1和系统,并且涉及包含有用于实现所提出的方法的软件代码的软件程序产品。
Description
技术领域
本发明涉及用于支持音频信号的编码的方法,其中所述音频信号的至少一部分将用允许使用不同编码帧长度的编码模型进行编码。本发明同样涉及对应的模块、涉及对应的电子设备、涉及对应的系统并涉及对应的软件程序产品。
背景技术
对音频信号进行编码以便有效传输和/或存储音频信号是众所周知的。
音频信号可以是语音信号或诸如音乐的另一种类型的音频信号,并且对于不同类型的音频信号,不同的编码模型可能是适合的。
广泛使用的对语音信号进行编码的技术是代数编码激励线性预测(ACELP)编码。ACELP模拟人的语音产生系统,并且非常适合于对语音信号的周期进行编码。因此,可以用非常低的比特率获得高的语音质量。例如,自适应多速率宽带(AMR-WB)是基于ACELP技术的语音编解码器。有关AMR-WB的描述例如可以参阅技术规范3GPP TS 26.190:“Speech Codec speech processing functions;AMRWideband speech codec;Transcoding functions”,V5.1.0(2001-12)。然而,基于人的语音产生系统的语音编解码器通常对例如音乐的其它类型的音频信号的表现相当差。
广泛使用的用于对不同于语音的音频信号进行编码的技术是变换编码(TCX)。用于音频信号的变换编码的优越性是基于知觉掩蔽和频域编码的。通过为变换编码选择适合的编码帧长度,可以进一步改善最后得到的音频信号的质量。但是尽管变换编码技术导致对于不同于语音的音频信号的高质量,但是,对于周期性的语音信号,其性能并不好。因此,变换编码的语音的质量通常相当低,特 别是用长TCX帧长度时。
扩展AMR-WB(AMR-WB+)编解码器将立体声音频信号编码为高比特率的单声道信号,并且提供用于立体声扩展的辅助信息。AMR-WB+编解码器同时使用ACELP编码和TCX模型对0Hz到6400Hz的频带内的核心单声道信号进行编码。对于TCX模型,使用20ms、40ms或80ms的编码帧长度。
因为ACELP模型可能使音频质量降级,并且变换编码通常对语音的表现不佳,特别是在使用长编码帧时,所以必须根据要编码的信号的性质选择各自的最好的编码模型。可以用不同方式实现要实际使用的编码模型的选择。
在例如移动多媒体业务(MMS)的需要低复杂性技术的系统中,通常使用音乐/语音分类算法选择最佳的编码模型。这些算法基于对音频信号的能量和频率的分析,把全部源信号分类为音乐或语音。
如果音频信号仅由语音或仅由音乐组成,则基于此种音乐/语音分类对全部信号使用相同的编码模型是令人满意的。然而,在许多其它情况中,要编码的音频信号是混合类型的音频信号。例如,语音可以与音乐同时出现和/或与音频信号中的音乐交错。
在这些情况中,把全部源信号分类成音乐或语音类别是一种非常局限的方法。在对音频信号编码时,只有编码模型之间的切换才能使总的音频质量最大化。亦即,最好部分地使用ACELP模型对被分类为不同于语音的音频信号的源信号进行编码,同时最好部分地使用TCX模型对被分类为语音信号的源信号进行编码。
扩展AMR-WB(AMR-WB+)编解码器被设计用来以逐帧为基础利用混合编码模型对此种混合类型的音频信号进行编码。
可以用几种方式实现AMR-WB+中的编码模型的选择。
在最复杂的方法中,首先用ACELP和TCX模型的所有可能组合对该信号进行编码。接着,针对每种组合再次合成该信号。然后基于合成的语音信号的质量选择最好的激励。例如,通过确定其信噪比(SNR),可以测量以具体组合得到的合成语音的质量。这种综 合分析类型的方法将提供好的结果。然而,在某些应用中,它是不可行的,因为它具有非常高的复杂性。复杂性主要是由ACELP编码产生的,ACELP编码是编码器的最复杂的部分。
例如,在类似MMS的系统中,全闭环综合分析方法太复杂以至于不能执行。因此,在MMS编码器中,使用低复杂度的开环方法确定是选择ACELP编码模型还是选择TCX模型对特定帧进行编码。
AMR-WB+提供两种不同的低复杂度的开环方法以便为每一帧选择相应的编码模型。两种开环方法均评估源信号特性和编码参数以选择相应的编码模型。
在第一种开环方法中,首先把每一帧内的音频信号分成若干频带,并且分析较低频带内的能量和较高频带内的能量之间的关系,以及这些频带内的能级变化。然后,基于所执行的两种测量或者基于使用不同分析窗口和决策阈值的这些测量的不同组合,把该音频信号的每一帧内的音频内容分类成类似音乐的内容或类似语音的内容。
在第二种开环方法中,该方法也称为模型分类改进,编码模型选择基于音频信号的各帧内的音频内容的周期性和稳定性的评估。更具体地说,通过确定相关性、长期预测(LTP)参数和频谱距测量,评估周期性和稳定性。
当使用用于选择ACELP或TCX的开环方法分析信号性质并且选择TCX进行编码时,仍然需要定义要使用的TCX帧长度是20ms、40ms还是80ms。然而,在开环方法中,很难基于信号特性选择用于TCX的最佳帧长度。
因此,可以在上面提及的综合分析方法中仅仅选择TCX帧长度。然而,在需要低复杂性技术的系统中,即使只使用综合分析方法来选择TCX帧长度,它还是太复杂。
发明内容
本发明的目的是,使能够有效地、简单地选择用于对音频信号的 一部分进行编码的编码帧长度。
提出了支持音频信号的编码的方法,其中该音频信号的至少一个部分将用允许使用不同编码帧长度的编码模型进行编码。该提出的方法包括至少部分基于该音频信号的信号特性确定至少一个控制参数。该提出的方法还包括,借助于该至少一个控制参数限制该至少一个部分的可能的编码帧长度的选项。
此外,提出了用于支持音频信号的编码的模块,其中该音频信号的至少一个部分将用允许使用不同编码帧长度的编码模型进行编码。该模块包括适合于至少部分基于该音频信号的信号特性确定至少一个控制参数的参数选择部分。该模块还包括适合于借助于第一评估部分提供的至少一个控制参数限制用于该音频信号的至少一个部分的可能的编码帧长度的选项的帧长度选择部分。该模块可以例如是编码器或编码器的一部分。
此外,提出了包含此种模块的电子设备。
此外,提出了包含此种模块和译码器的音频编码系统,其中译码器对利用可变编码帧长度编码的音频信号进行解码。
最后,提出了一种软件程序产品,该软件程序产品中存储有用于支持音频信号的编码的软件代码。该音频信号的至少一个部分将用允许使用不同编码帧长度的编码模型进行编码。当在编码器的处理部件上运行时,该软件代码实现所提出的方法的步骤。
本发明源于以下考虑,虽然常常不能基于信号特性确定对于音频信号的具体部分的编码帧长度的最终决定,但是此种信号特性允许预先选择适合的编码帧长度。因此,提出基于音频信号的相应部分的信号特性确定至少一个控制参数,并且提出使用该至少一个控制参数来限制可用的编码帧长度选项。
本发明的优势在于,它利用具有低复杂性的方法降低编码帧长度选项的数目。另一方面,通过减少编码帧长度选项,降低了要使用的编码帧长度的最终选择的复杂性。
在本发明的一个实施例中,编码帧长度的最终选择是利用综合分 析的方法实现的。亦即,在该提出的限制之后,如果仍然存在可能的编码帧长度的不止一个选项,则使用每个剩余的变换编码帧长度对该至少一个部分进行编码。然后用分别使用的变换编码帧长度再次对得到的编码信号进行解码。现在,可以选择得到该至少一个部分中最佳的编码音频信号的编码帧长度。
与上面提及的全闭环方法相比,由于前述限制,可以显著减少所需的综合分析的次数。因此,还可以降低其中实施本发明的编码器的总复杂性。
可以用不同方式确定最佳解码的音频信号。例如,通过比较用每个剩余的编码帧长度所得的SNR可以确定最佳解码的音频信号。SNR可以容易地确定,并且SNR提供信号质量的可靠指示。
如果可以使用几个编码模型对该音频信号进行编码,例如TCX模型和ACELP编码模型,则还要确定对该音频信号的哪个部分使用哪个编码。这可以用如上所述,基于用于相应部分的音频信号特性的低复杂度的方式实现。因此,将使用与允许使用不同的编码帧长度的编码模型不同的编码模型的那些部分的数目和/或位置也可以作为用于限制编码帧长度选项的控制参数。
例如,编码帧长度不能超过为其选择另一个编码模型的两个部分之间的一个部分或多个部分的大小。
在本发明的另一个实施例中,该编码帧长度仅是在包括预定数目的部分的相应超部分(supersection)内选择的。在这种情况中,也可以基于与该部分所属的超部分的边界有关的知识限制对于特定部分的编码帧长度选项。
这种超部分可以是例如超帧,超帧包括四个音频信号帧,每个音频信号帧是一个部分,每个音频信号帧的长度为20ms。如果编码模型是TCX模型,则它允许的编码帧长度为20ms、40ms和80ms。在这种情况中,例如,如果为超帧中的第二个音频信号帧选择了ACELP编码模型,则可以确定至多可以用20ms的编码长度对第三个音频信号帧进行编码,或者用40ms的编码长度对第三个和第四 个音频信号帧一起进行编码。
在本发明的另一个有利实施例中,指示将使用较短的编码帧长度或较长的编码帧长度的指示符给出另一个控制参数。将使用较短的编码帧长度的指示至少排除最长的编码帧长度选项,而将使用较长的编码帧长度的指示至少排除最短的编码帧长度选项。
附图说明
通过连同附图一起考虑以下详细描述,本发明的其它目的和特征将变得明显。
图1是根据本发明的实施例的音频编码系统的示意图;
图2是一个流程图,说明在图1的系统中实现的根据本发明的方法的实施例;
图3是第一张表,说明根据本发明的基于控制参数的方式组合的约束;以及
图4是第二张表,说明根据本发明的基于控制参数的方式组合的约束。
具体实施方式
图1是根据本发明的实施例的允许选择变换编码模型的编码帧长度的示意图。
该系统包括第一设备1和第二设备2,第一设备1包括AMR-WB+编码器10,第二设备2包括AMR-WB+解码器20。第一设备1可以是例如MMS服务器,而第二设备2可以是例如一部移动电话。
第一设备1包括第一评估部分12,该部分用于在开环方法中的编码模型的第一选择。此外,第一设备1包括第二评估部分13,用于在另一种开环方法中改进第一选择以及用于并行确定短帧指示符作为一个控制参数。第一评估部分12和第二评估部分13一起构成参数选择部分。此外,第一设备1包括TCX帧长度选择部分14,用于在选择了TCX模型的情况下限制编码帧长度选项以及用于用闭环 方法选择剩余选项中的最好的选项。此外,第一设备1包括编码部分15。编码部分15能够将ACELP编码模型、使用20ms的TCX帧长度的TCX20模型、使用40ms的TCX帧长度的TCX40模型或使用80ms的TCX帧长度的TCX80模型应用于接收的音频帧。
第一评估部分12与第二评估部分13和编码部分15相连。此外,第二评估部分13与TCX帧长度选择部分14和编码部分15相连。TCX帧长度选择部分14也与编码部分15相连。
应该懂得,所展示的部分12-15被设计用来对单声道音频信号进行编码,单声道音频信号可以是根据立体声音频信号生成的。在未示出的附加立体声扩展部分中可以生成附加立体声信息。另外,请注意,编码器10还包括未示出的其它部分。另外,应该懂得,所展示的部分12-15无需是独立部分,而是可以彼此交织或与其它部分交织。
特别地,利用在以虚线所示的编码器10的处理部件11上运行的软件SW,可以实现部分12、13、14和15。
以下参照图2的流程图更详细地描述编码器10的处理。
该处理是针对相应超帧进行的。每个超帧的长度为80ms并且包括四个连续音频信号帧。
编码器10接收已向第一设备1提供的音频信号。该音频信号被转换为单声道音频信号,并且线性预测(LP)滤波器计算每个帧中的线性预测编码(LPC),以建立谱包络的模型。
在第一开环分析中,对于该超帧的每一帧,第一评估部分12处理由LP滤波器输出的得到的LPC激励。该分析基于源信号特性确定各个帧的内容可假定为语音还是诸如音乐的其它音频内容。如上所述,该分析可以基于例如不同频带中的能量的评估。对于可被认为是包括语音的每一帧,选择ACELP编码模型,而对于可被认为是包括另一种音频内容的每一帧,选择TCX模型。此时,使用不同编码帧长度的TCX模型之间没有区别。对于其分析特性不能明确指示语音内容或另一种内容的那些帧,选择不确定方式。
第一评估部分12通知编码部分15迄今为止已为其选择ACELP模型的所有帧。
接着,第二评估部分13以逐帧为基础执行第二开环分析,以便基于信号特性进一步分成ACELP帧和TCX帧。并行地,第二评估部分13把短帧指示符标志NoMtcx确定为一个控制参数。如果设置了标志NoMtcx,则禁止使用TCX80。
对于各帧,只有为该帧设置了声音活动指示符VAD标志并且第一评估部分12尚未为该帧选择ACELP编码模型时,才在第二评估部分13中执行该处理。
如果第一评估部分12的第一开环分析的输出为不确定方式,则首先计算频谱距,并收集各种可用的信号特性。
根据以下公式用导抗频谱对(ISP)参数计算当前帧n的频谱距SDn:
其中ISPn是帧n的ISP系数向量,而ISPn(i)是该向量的第i个元素。该ISP参数总是可用的,因为该LP系数被变换到ISP域以便进行量化和插值。
参数Lagn包含当前帧n的两个开环滞后值。滞后是长期滤波器延迟。它通常是实际基音周期、其倍数或因数。每个帧执行两次开环基音分析,亦即,每次10ms,以查找每个帧中的基音滞后的两个估计。这么做的目的是为了简化基音分析,并且把闭环基音搜索限制在该开环估计的滞后附近的小数目的滞后内。
此外,LagDifbuf是包含前10个20ms的帧的开环滞后值的缓冲器。
参数Gainn包含当前帧n的两个LTP增益值。
参数NormCorrn包含当前帧n的两个归一化的相关值。
参数MaxEnergybuf是包含能量值的缓冲器的最大值。能量缓冲器 包含当前帧n和前5个帧的能量值,每个帧的长度为20ms。
现在,基于以下开环算法选择编码模型并设置控制参数NoMtcx:
if(SDn>0.2)
Mode=ACELP_MODE;
else
if(LagDifbuf<2)
if(Lagn==HIGH LIMIT or Lagn==LOW LIMIT){
if(Gainn-NormCorn<0.1and NormCorrn>0.9)
Mode=ACELP_MODE
else
Mode=TCX_MODE
else if(Gainn-NormCorrn<0.1and NormCorrn>0.88)
Mode=ACELP_MODE
else if(Gainn-NormCorrn>0.2)
Mode=TCX_MODE
else
NoMtcx=NoMtcx+1
if(MaxEnergybuf<60)
if(SDn>0.15)
Mode=ACELP_MODE;
else
NoMtcx=NoMtcx+1.
因此,将各种信号特性及其组合与各种预定阈值进行比较,以便确定不确定方式帧是包含语音内容还是包含其它音频内容,并指派适合的编码模型。同样地,依据这些信号特性中的某些特性及其组合设置短帧指示符标志NoMtcx。
相反,如果第一评估部件12的第一开环分析的输出已经是TCX方式,则确定前一个超帧中的至少一帧的VAD标志是否已经设置成零。假如是这样的话,将短帧指示符标志NoMtcx同样设置成“1”。
如果当前帧的编码方式此时已经设置成TCX方式或者仍然设置成不确定方式,则进一步验证方式决策。为此,首先用当前帧的LP滤波器系数创建一个离散傅立叶变换(DFT)谱包络向量mag。接着,根据以下算法验证编码方式:
if(Gainn-NormCorrn<0.006 and NormCorrn>0.92 and Lagn>
21)
DFTSum=0;
for(i=1;i<40;i++){
DFTSum=DFTSum+mag[i];
if(DFTSum>95and mag[0]<5){
Mode=TCX_MODE;
else
Mode=ACELP_MODE;
NoMtcx=NoMtcx+1
因此,最后的总和DFTSum是不包括向量mag的第一个元素mag(0)的向量mag的前40个元素的总和。
另外,第二评估部分13通知编码部分15已经为其选择ACELP模型的所有帧。
在TCX帧长度选择部分14中,评估第一控制参数以便限制TCX帧长度选项的数目。
一个控制参数是在该超帧中选择的ACELP方式的数目。如果已经为该超帧中的4个帧选择了ACELP编码模型,则不存在需要为其确定TCX帧长度的帧。如果已经为该超帧中的3个帧选择了ACELP编码模型,则将TCX帧长度设置成20ms。
其它限制是基于图3或图4的表实现的。图3和图4分别表示把可选择的TCX帧长度和所选择的编码方式的各种组合联系起来的由5列组成的表。
两个表的第一列表示对于超帧的四个帧的所选择的编码方式的7种可能组合。在每个组合中,至多选择两个ACELP方式。组合是(0,1,1,1),(1,0,1,1),(1,1,0,1),(1,1,1,0),(1,1,0,0),(0,0,1,1)和(1,1,1,1),最后一个出现两次。在所选择的组合的上述表示中,‘0’代表ACELP方式,而‘1’代表TCX方式。
相应的第四列表示控制参数Aind,该参数指示第一列中的每个组合的所选择的ACELP方式的数目。可以看出,只出现与Aind值为‘0’、‘1’和‘2’相关联的方式组合,因为在值为‘3’或‘4’的情况中,TCX帧长度选择部分14无需其它处理就可以立即选择TCX帧长度。
相应的第五列表示短帧指示符标志NoMtcx。只有控制参数Aind的值为‘0’时,亦即,没有为该超帧的任何一帧选择ACELP方式时,TCX帧长度选择部分14才评估该参数。
相应的第二列和第三列表示对于每个组合在考虑控制参数的约束的情况下允许为TCX方式帧选择的TCX帧长度。对于第一列中的每个组合,至多需要检查两个TCX帧长度。在这些TCX帧长度组合中,‘0’代表20ms的ACELP编码帧,‘1’代表20ms的TCX帧,两个‘2’的序列代表40ms的TCX帧,而四个‘3’的序列代表80ms的TCX帧。
例如,对于第一种方式组合(0,1,1,1),允许编码帧长度的组合(0,1,1,1)和(0,1,2,2)。亦即,或者第二、第三和第四帧是用20ms的TCX帧编码的,或者只有第二帧是用20ms的TCX帧编码的,而第 三和第四帧是用40ms的TCX帧编码的。
同样地,对于第二种方式组合(1,0,1,1),允许编码帧长度的组合(1,0,1,1)和(1,0,2,2)。对于第三种方式组合(1,1,0,1),允许编码帧长度的组合(1,1,0,1)和(2,2,0,1)。对于第四种方式组合(1,1,1,0),允许编码 帧长度的组合(1,1,1,0)和(2,2,1,0)。对于第五种方式组合(1,1,0,0),允许编码帧长度的组合(1,1,0,0)和(2,2,0,0)。对于第六种方式组合(0,0,1,1),允许编码帧长度的组合(0,0,1,1)和(0,0,2,2)。
对于第七种方式组合(1,1,1,1),短帧指示符标志NoMtcx指示是否尝试较长或较短的TCX帧长度。如果第二评估部分13已经为该超帧的至少一帧设置了标志NoMtcx,则它是为超帧设置的。如果为超帧设置了标志NoMtcx,则仅允许短帧长度。
在图3的表中,这意味着TCX帧长度选择部分14立即为整个超帧选择20ms的TCX帧长度。亦即,唯一允许的TCX帧长度组合是(1,1,1,1)。在图4的表中,设置的标志NoMtcx意味着允许TCX帧长度的组合(1,1,1,1),外加TCX帧长度的组合(2,2,2,2),后者代表两个40ms的TCX帧。
如果没有设置短帧指示符标志NoMtcx,则只允许使用长TCX帧长度。在图3和图4的表中,这意味着允许TCX帧长度的组合(2,2,2,2)和(3,3,3,3),后者代表一个80ms的TCX帧。
清澈的音乐多半需要比较长的TCX帧以获得最佳编码,并且语音显然最好用ACELP进行编码。特别是在音乐和/或语音的开头部分,当能量为低或声音活动指示符VAD在前面的帧中被设置成零时,用于对语音进行编码的较长的TCX帧使语音质量降级。另一方面,20ms的短TCX帧对音乐和某些语音段比较有效。对于某些信号特性,难以确定帧内容是音乐还是语音。因此,在此种情况中,短TCX帧是优选编码模型的好的替换方案,因为它适合于两种类型的内容。因此,短帧指示符非常适合作为控制参数。
利用编码器结构防止用于提供的方式组合的编码帧长度的其它组合,在该编码器结构中,不允许用于中等音频信号帧的TCX40模型。
同样地,图3和图4中没有提供的Aind<3的其它方式组合仅允许编码帧长度的单一组合,这或者起因于它们自己或者起因于编码器结构。亦即,方式组合(1,0,0,1)仅允许编码帧长度的组合(1,0,0,1), 而方式组合(0,1,1,0)仅允许编码帧长度的组合(0,1,1,0)。
因为控制参数Aind和NoMtcx关于TCX帧长度约束方式组合,所以对于每个超帧至多需要检查两个帧长度。
如果仍然存在两个可能的TCX帧长度的组合,则在TCX帧长度选择部分14中使用SNR类型的算法为该超帧查找一个或多个优选TCX模型。
为了评估可选择的TCX帧长度,通过使用具有两个允许的TCX帧长度的组合的变换编码,对已经为其选择TCX方式的超帧中的帧进行编码。TCX基于例如快速傅立叶变换(FFT)。再次对编码的信息进行解码,然后基于分段SNR比较两个TCX帧长度的结果。
分段SNR是TCX帧的一个子帧的SNR。该子帧的长度为N,这相当于原始音频信号的5ms的子帧。
根据下式为TCX帧的每个子帧确定子帧i中的分段SNR,即,segSNRi:
在上式中,xw(n)是位于该子帧内的位置n的数字化的原始音频信号的振幅,而 是位于该子帧内的位置n的编码和解码音频信号的振幅。
于是,根据下式确定TCX帧内的所有子帧上的平均分段SNR:
其中NSF是该TCX帧内的子帧的数目。因为TCX帧的长度可以是20ms、40ms或80ms,所以NSF可以是4、8或16。
接着,TCX帧长度选择部分14确定对于某些数目的音频信号帧所允许的TCX帧长度中的哪个TCX帧长度得到更好的平均SNR。例如,如果可以用TCX20模型对两个音频信号帧的每一个进行编码或者用TCX40模型对两个音频信号帧一起进行编码,则比较TCX40帧的平均SNR与两个TCX20帧的SNR之和的平均值。选择得到较高平均SNR的TCX帧长度,并向编码部分15报告。
编码部分15利用或者由第一评估部分12,或者由第二评估部分13,抑或由TCX帧长度选择部分14所指示的分别选择的编码模型,对该音频信号的所有帧进行编码。TCX基于例如使用所选择的编码帧长度的FFT,并且ACELP编码将例如LTP和固定码本参数用于LPC激励。
接着,编码部分15向第二设备2提供用于传输的编码帧。在第二设备2中,解码器20利用ACELP编码模型或利用某一TCX模型对所有接收的帧进行解码。经过解码的帧被提供给第二设备2的用户以便例如进行展示。
因此,所展示的TCX帧长度选择基于半闭环方法,其中基本类型的编码模型和控制参数是用开环方法选择的,而用闭环方法从数目受限制的选项中选择TCX帧长度。尽管在全闭环分析中每个超帧通常执行四次综合分析,但是在所提供的半闭环方法中,每个超帧至多需要执行两次综合分析。
请注意,描述的实施例仅仅构成本发明的多种可能实施例的一个实施例。
Claims (33)
1.一种用于支持音频信号的编码的方法,其中所述音频信号的至少一个部分将用允许使用不同编码帧长度的编码模型进行编码,所述方法包括:
至少部分基于所述音频信号的信号特性确定至少一个控制参数;
借助于所述至少一个控制参数限制所述至少一个部分的可能的编码帧长度的选项;以及
如果在所述限制之后剩余多于一个可能的编码帧长度的选项,则从数目受限制的选项中选择用于所述部分的编码帧长度。
2.根据权利要求1的方法,还包括以以下参数中的至少一个参数为基础确定所述至少一个控制参数:
当前帧和较早帧之间的频谱距的指示符;
选择为要用其它编码模型进行编码的超帧中的帧数。
3.根据权利要求1或2的方法,还包括:
如果在所述限制之后仍然存在可能的编码帧长度的不止一个选项,则用所述剩余编码帧长度的每个编码帧长度对所述至少一个部分进行编码;
用分别使用的编码帧长度对所述编码部分进行解码;以及
为所述至少一个部分选择得到在所述至少一个部分中的最佳解码音频信号的编码帧长度。
4.根据权利要求3的方法,其中得到最佳的解码部分的编码帧长度是通过比较所述编码帧长度的每个帧长度所得的信噪比确定的。
5.根据权利要求4的方法,其中对于用特定编码帧长度获得的音频信号的所述信噪比,首先分别地对相应编码帧中的多个子帧确定分段信噪比,并且其中接着为整个编码帧计算编码帧的所述子帧的所述分段信噪比的平均值,以获得所述至少一个部分的所述信噪比。
6.根据前述权利要求中至少一个权利要求的方法,还包括以下步骤,基于相应部分的音频信号特性,为所述音频信号的每个部分确定是使用所述编码模型还是使用另一个编码模型,其中所述至少一个控制参数包括已经为其选择所述另一个编码模型的那些部分的指示。
7.根据权利要求6的方法,其中所述编码模型是变换编码模型,并且其中所述另一个编码模型是代数编码激励线性预测编码模型。
8.根据权利要求6或7的方法,其中所述音频信号的每个部分均具有预定长度,并且其中为包括预定数目的所述部分的相应超部分提供已经为其选择所述另一个编码模型的那些部分的所述指示。
9.根据权利要求1的方法,其中所述音频信号的每个部分均具有预定长度,其中预定数目的连续部分分别形成相应超部分,并且其中利用所述部分所属的超部分的边界限制用于特定部分的所述编码帧长度选项。
10.根据权利要求7的方法,其中所述音频信号的每个部分的长度为20ms,其中四个连续部分分别形成一个超部分,其中所述变换编码模型允许使用20ms、40ms和80ms的编码帧长度,并且其中利用部分所属的超部分的边界限制用于所述部分的所述编码帧长度选项。
11.根据权利要求1的方法,其中所述至少一个控制参数包括用于指示是使用较短编码帧长度还是使用较长编码帧长度的指示符,将使用较短编码帧长度的指示至少排除最长的编码帧长度选项,而将使用较长编码帧长度的指示至少排除最短的编码帧长度选项。
12.一种用于支持音频信号的编码的模块,其中所述音频信号的至少一个部分将用允许使用不同编码帧长度的编码模型进行编码,所述模块包括:
参数选择部分,适合于至少部分基于所述音频信号的信号特性确定至少一个控制参数;以及
帧长度选择部分,适合于借助于所述参数选择部分提供的至少一个控制参数限制用于至少一个部分的可能的编码帧长度的选项,并且适合于在所述限制之后剩余多于一个可能的编码帧长度的选项的情况下,从数目受限制的选项中选择用于所述部分的编码帧长度。
13.根据权利要求12的模块,还包括以以下参数中的至少一个参数为基础确定所述至少一个控制参数:
短帧指示符,该指示符是至少基于频谱距确定的;以及
超帧中的选择为代数编码激励线性预测帧的数目。
14.根据权利要求12或13的模块,其中所述帧长度选择部分还适合于如果在所述限制之后仍然存在可能的编码帧长度的不止一个选项,则用所述剩余编码帧长度的每个编码帧长度对所述至少一个部分进行编码;适合于用分别使用的编码帧再次对所述编码部分进行解码;以及适合于为所述至少一个部分选择得到所述至少一个部分中的最佳的解码音频信号的编码帧长度。
15.根据权利要求14的模块,其中所述帧长度选择部分适合于,通过比较所述编码帧长度的每个帧长度所得的信噪比确定得到最佳的解码部分的编码帧长度。
16.根据权利要求15的模块,其中为了确定用特定编码帧长度获得的音频信号的所述信噪比,所述帧长度选择部分适合于,首先分别地对相应编码帧中的多个子帧确定分段信噪比,并且适合于为整个编码帧计算编码帧的所述子帧的所述分段信噪比的平均值,以获得所述至少一个部分的所述信噪比。
17.根据权利要求12的模块,其中所述参数选择部分还适合于,基于所述音频信号的相应部分的音频信号特性,至少为音频信号的某些部分确定是使用所述编码模型还是使用另一个编码模型,并且适合于提供已经为其选择所述另一个编码模型的那些部分的指示作为所述至少一个控制参数之一。
18.根据权利要求17的模块,其中所述编码模型是变换编码模型,并且其中所述另一个编码模型是代数编码激励线性预测编码模型。
19.一种电子设备,该设备包括用于支持音频信号的编码的模块,其中所述音频信号的至少一个部分将用允许使用不同编码帧长度的编码模型进行编码,所述模块包括:
参数选择部分,适合于至少部分基于所述音频信号的信号特性确定至少一个控制参数;以及
帧长度选择部分,适合于借助于所述参数选择部分提供的至少一个控制参数限制用于至少一个部分的可能的编码帧长度的选项,并且适合于在所述限制之后剩余多于一个可能的编码帧长度的选项的情况下,从数目受限制的选项中选择用于所述部分的编码帧长度。
20.根据权利要求19的电子设备,还包括以以下参数中的至少一个参数为基础确定所述至少一个控制参数:
短帧指示符,该指示符是至少基于频谱距确定的;以及
超帧中的选择为代数编码激励线性预测帧的数目。
21.根据权利要求19或20的电子设备,其中所述帧长度选择部分还适合于如果在所述限制之后仍然存在可能的编码帧长度的不止一个选项,则用所述剩余编码帧长度的每个编码帧长度对所述至少一个部分进行编码;适合于用分别使用的编码帧再次对所述编码部分进行解码;以及适合于为所述至少一个部分选择得到所述至少一个部分中的最佳的解码音频信号的编码帧长度。
22.根据权利要求21的电子设备,其中所述帧长度选择部分适合于,通过比较所述编码帧长度的每个帧长度所得的信噪比确定得到最佳的解码部分的编码帧长度。
23.根据权利要求22的电子设备,其中为了确定用特定编码帧长度获得的音频信号的所述信噪比,所述帧长度选择部分适合于,首先分别地对相应编码帧中的多个子帧确定分段信噪比,并且适合于为整个编码帧计算编码帧的所述子帧的所述分段信噪比的平均值,以获得所述至少一个部分的所述信噪比。
24.根据权利要求21的电子设备,其中所述参数选择部分还适合于,基于音频信号的相应部分的音频信号特性,至少为所述音频信号的某些部分确定是使用所述编码模型还是使用另一个编码模型,并且适合于提供已经为其选择所述另一个编码模型的那些部分的指示作为所述至少一个控制参数之一。
25.根据权利要求24的电子设备,其中所述编码模型是变换编码模型,并且其中所述另一个编码模型是代数编码激励线性预测编码模型。
26.根据权利要求24或25的至少一个权利要求的电子设备,其中所述音频信号的每个部分均具有预定长度,并且其中所述参数选择部分适合于为包括预定数目的所述部分的相应超部分提供已经为其选择所述另一个编码模型的那些部分的指示。
27.根据权利要求19的电子设备,其中所述音频信号的每个部分均具有预定长度,其中预定数目的连续部分分别形成相应超部分,并且其中所述帧长度选择部分适合于基于所述部分所属的超部分的边界限制用于特定部分的编码帧长度选项。
28.根据权利要求25的电子设备,其中所述音频信号的每个部分的长度为20ms,其中四个连续部分分别形成一个超部分,其中所述变换编码模型允许使用20ms、40ms和80ms的编码帧长度,并且其中所述帧长度选择部分适合于基于部分所属的超部分的边界限制用于所述部分的编码帧长度选项。
29.根据权利要求19的电子设备,其中所述参数选择部分适合于提供用于指示是使用较短编码帧长度还是使用较长编码帧长度的指示符作为所述至少一个控制参数之一,将使用较短编码帧长度的指示至少排除最长的编码帧长度选项,而将使用较长编码帧长度的指示至少排除最短的编码帧长度选项。
30.一种音频编码系统,该系统包括根据权利要求12-18中至少一个权利要求的模块以及解码器,后者用于对已经用可变编码帧长度编码的音频信号进行解码。
31.根据权利要求30的音频编码系统还包括,至少部分地基于所述音频信号的信号特性确定至少一个控制参数。
32.根据权利要求30的音频编码系统还包括,借助于所述至少一个控制参数限制可能的编码帧长度的所述选项。
33.根据权利要求31和32的至少一个权利要求的音频编码系统还包括:
如果在所述限制之后仍然存在可能的编码帧长度的不止一个选项,则用所述剩余变换编码帧长度的每个编码帧长度对所述至少一个部分进行编码;
用分别使用的变换编码帧长度对所述编码部分进行解码;以及
为所述至少一个部分选择得到所述至少一个部分中的最佳的解码音频信号的编码帧长度。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/IB2004/001585 WO2005112003A1 (en) | 2004-05-17 | 2004-05-17 | Audio encoding with different coding frame lengths |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1954364A CN1954364A (zh) | 2007-04-25 |
CN1954364B true CN1954364B (zh) | 2011-06-01 |
Family
ID=34957451
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200480043056.XA Expired - Lifetime CN1954364B (zh) | 2004-05-17 | 2004-05-17 | 带有不同编码帧长度的音频编码 |
Country Status (13)
Country | Link |
---|---|
US (1) | US7860709B2 (zh) |
EP (1) | EP1747554B1 (zh) |
JP (1) | JP2007538282A (zh) |
CN (1) | CN1954364B (zh) |
AT (1) | ATE457512T1 (zh) |
AU (1) | AU2004319556A1 (zh) |
BR (1) | BRPI0418838A (zh) |
CA (1) | CA2566368A1 (zh) |
DE (1) | DE602004025517D1 (zh) |
ES (1) | ES2338117T3 (zh) |
MX (1) | MXPA06012617A (zh) |
TW (1) | TW200609902A (zh) |
WO (1) | WO2005112003A1 (zh) |
Families Citing this family (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
TWI333643B (en) * | 2006-01-18 | 2010-11-21 | Lg Electronics Inc | Apparatus and method for encoding and decoding signal |
ES2380059T3 (es) | 2006-07-07 | 2012-05-08 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato y método para combinar múltiples fuentes de audio codificadas paramétricamente |
US7966175B2 (en) | 2006-10-18 | 2011-06-21 | Polycom, Inc. | Fast lattice vector quantization |
US7953595B2 (en) | 2006-10-18 | 2011-05-31 | Polycom, Inc. | Dual-transform coding of audio signals |
WO2008072671A1 (ja) * | 2006-12-13 | 2008-06-19 | Panasonic Corporation | 音声復号化装置およびパワ調整方法 |
US9653088B2 (en) * | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
US20090006081A1 (en) * | 2007-06-27 | 2009-01-01 | Samsung Electronics Co., Ltd. | Method, medium and apparatus for encoding and/or decoding signal |
JPWO2009038170A1 (ja) * | 2007-09-21 | 2011-01-06 | 日本電気株式会社 | 音声処理装置、音声処理方法、プログラム及び音楽・メロディ配信システム |
WO2009038115A1 (ja) * | 2007-09-21 | 2009-03-26 | Nec Corporation | 音声符号化装置、音声符号化方法及びプログラム |
EP2198426A4 (en) * | 2007-10-15 | 2012-01-18 | Lg Electronics Inc | METHOD AND DEVICE FOR PROCESSING A SIGNAL |
WO2009066959A1 (en) * | 2007-11-21 | 2009-05-28 | Lg Electronics Inc. | A method and an apparatus for processing a signal |
EP2077551B1 (en) * | 2008-01-04 | 2011-03-02 | Dolby Sweden AB | Audio encoder and decoder |
EP2144230A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
MY159110A (en) * | 2008-07-11 | 2016-12-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V | Audio encoder and decoder for encoding and decoding audio samples |
KR20100007738A (ko) * | 2008-07-14 | 2010-01-22 | 한국전자통신연구원 | 음성/오디오 통합 신호의 부호화/복호화 장치 |
CN104104391B (zh) * | 2008-12-09 | 2017-04-26 | 日本电信电话株式会社 | 编码方法以及编码装置 |
US8457975B2 (en) * | 2009-01-28 | 2013-06-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program |
KR101622950B1 (ko) * | 2009-01-28 | 2016-05-23 | 삼성전자주식회사 | 오디오 신호의 부호화 및 복호화 방법 및 그 장치 |
JP4977157B2 (ja) * | 2009-03-06 | 2012-07-18 | 株式会社エヌ・ティ・ティ・ドコモ | 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム |
PL2489041T3 (pl) * | 2009-10-15 | 2020-11-02 | Voiceage Corporation | Jednoczesne kształtowanie szumu w dziedzinie czasu i w dziedzinie częstotliwości dla przekształcenia tdac |
CA3160488C (en) | 2010-07-02 | 2023-09-05 | Dolby International Ab | Audio decoding with selective post filtering |
SG10202101292WA (en) * | 2010-12-17 | 2021-03-30 | Mitsubishi Electric Corp | Image coding device, image decoding device, image coding method, and image decoding method |
MY159444A (en) * | 2011-02-14 | 2017-01-13 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V | Encoding and decoding of pulse positions of tracks of an audio signal |
PL3471092T3 (pl) | 2011-02-14 | 2020-12-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Dekodowanie pozycji impulsów ścieżek sygnału audio |
CN102959620B (zh) | 2011-02-14 | 2015-05-13 | 弗兰霍菲尔运输应用研究公司 | 利用重迭变换的信息信号表示 |
AU2012217216B2 (en) | 2011-02-14 | 2015-09-17 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result |
ES2534972T3 (es) | 2011-02-14 | 2015-04-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Predicción lineal basada en esquema de codificación utilizando conformación de ruido de dominio espectral |
CA2827000C (en) | 2011-02-14 | 2016-04-05 | Jeremie Lecomte | Apparatus and method for error concealment in low-delay unified speech and audio coding (usac) |
CN103534754B (zh) | 2011-02-14 | 2015-09-30 | 弗兰霍菲尔运输应用研究公司 | 在不活动阶段期间利用噪声合成的音频编解码器 |
SG192746A1 (en) | 2011-02-14 | 2013-09-30 | Fraunhofer Ges Forschung | Apparatus and method for processing a decoded audio signal in a spectral domain |
AU2012217153B2 (en) | 2011-02-14 | 2015-07-16 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for encoding and decoding an audio signal using an aligned look-ahead portion |
MX2013010537A (es) | 2011-03-18 | 2014-03-21 | Koninkl Philips Nv | Codificador y decodificador de audio con funcionalidad de configuracion. |
WO2013081663A1 (en) * | 2011-12-02 | 2013-06-06 | Intel Corporation | Methods, systems, and apparatuses to enable short frames |
CN107293311B (zh) | 2011-12-21 | 2021-10-26 | 华为技术有限公司 | 非常短的基音周期检测和编码 |
US9111531B2 (en) * | 2012-01-13 | 2015-08-18 | Qualcomm Incorporated | Multiple coding mode signal classification |
CN103426441B (zh) | 2012-05-18 | 2016-03-02 | 华为技术有限公司 | 检测基音周期的正确性的方法和装置 |
JP6170172B2 (ja) * | 2012-11-13 | 2017-07-26 | サムスン エレクトロニクス カンパニー リミテッド | 符号化モード決定方法及び該装置、オーディオ符号化方法及び該装置、並びにオーディオ復号化方法及び該装置 |
ES2626809T3 (es) * | 2013-01-29 | 2017-07-26 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Concepto para compensación de conmutación del modo de codificación |
PL2951820T3 (pl) * | 2013-01-29 | 2017-06-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Urządzenie i sposób wyboru jednego spośród pierwszego algorytmu kodowania i drugiego algorytmu kodowania |
EP2830058A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Frequency-domain audio coding supporting transform length switching |
EP2980795A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
EP2980794A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
CN105632503B (zh) * | 2014-10-28 | 2019-09-03 | 南宁富桂精密工业有限公司 | 信息隐藏方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040088160A1 (en) * | 2002-10-30 | 2004-05-06 | Samsung Electronics Co., Ltd. | Method for encoding digital audio using advanced psychoacoustic model and apparatus thereof |
EP1278184B1 (en) * | 2001-06-26 | 2008-03-05 | Microsoft Corporation | Method for coding speech and music signals |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69028176T2 (de) * | 1989-11-14 | 1997-01-23 | Nippon Electric Co | Adaptive Transformationskodierung durch optimale Blocklängenselektion in Abhängigkeit von Unterschieden zwischen aufeinanderfolgenden Blöcken |
CN1062963C (zh) * | 1990-04-12 | 2001-03-07 | 多尔拜实验特许公司 | 用于产生高质量声音信号的解码器和编码器 |
US5327518A (en) * | 1991-08-22 | 1994-07-05 | Georgia Tech Research Corporation | Audio analysis/synthesis system |
US5285498A (en) * | 1992-03-02 | 1994-02-08 | At&T Bell Laboratories | Method and apparatus for coding audio signals based on perceptual model |
JPH06180948A (ja) * | 1992-12-11 | 1994-06-28 | Sony Corp | ディジタル信号処理装置又は方法、及び記録媒体 |
US5732389A (en) * | 1995-06-07 | 1998-03-24 | Lucent Technologies Inc. | Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures |
US6134518A (en) * | 1997-03-04 | 2000-10-17 | International Business Machines Corporation | Digital audio signal coding using a CELP coder and a transform coder |
US5913191A (en) * | 1997-10-17 | 1999-06-15 | Dolby Laboratories Licensing Corporation | Frame-based audio coding with additional filterbank to suppress aliasing artifacts at frame boundaries |
DE69926821T2 (de) * | 1998-01-22 | 2007-12-06 | Deutsche Telekom Ag | Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen |
US5963897A (en) * | 1998-02-27 | 1999-10-05 | Lernout & Hauspie Speech Products N.V. | Apparatus and method for hybrid excited linear prediction speech encoding |
US6449590B1 (en) * | 1998-08-24 | 2002-09-10 | Conexant Systems, Inc. | Speech encoder using warping in long term preprocessing |
JP2000134105A (ja) * | 1998-10-29 | 2000-05-12 | Matsushita Electric Ind Co Ltd | オーディオ変換符号化に用いられるブロックサイズを決定し適応させる方法 |
US6633841B1 (en) * | 1999-07-29 | 2003-10-14 | Mindspeed Technologies, Inc. | Voice activity detection speech coding to accommodate music signals |
US7315815B1 (en) * | 1999-09-22 | 2008-01-01 | Microsoft Corporation | LPC-harmonic vocoder with superframe structure |
US6604070B1 (en) * | 1999-09-22 | 2003-08-05 | Conexant Systems, Inc. | System of encoding and decoding speech signals |
EP1199711A1 (en) * | 2000-10-20 | 2002-04-24 | Telefonaktiebolaget Lm Ericsson | Encoding of audio signal using bandwidth expansion |
US7460993B2 (en) * | 2001-12-14 | 2008-12-02 | Microsoft Corporation | Adaptive window-size selection in transform coding |
KR100880480B1 (ko) * | 2002-02-21 | 2009-01-28 | 엘지전자 주식회사 | 디지털 오디오 신호의 실시간 음악/음성 식별 방법 및시스템 |
WO2003077235A1 (en) * | 2002-03-12 | 2003-09-18 | Nokia Corporation | Efficient improvements in scalable audio coding |
EP1383110A1 (fr) * | 2002-07-17 | 2004-01-21 | STMicroelectronics N.V. | Procédé et dispositif d'encodage de la parole à bande élargie, permettant en particulier une amélioration de la qualité des trames de parole voisée |
US20050004793A1 (en) * | 2003-07-03 | 2005-01-06 | Pasi Ojala | Signal adaptation for higher band coding in a codec utilizing band split coding |
US7325023B2 (en) * | 2003-09-29 | 2008-01-29 | Sony Corporation | Method of making a window type decision based on MDCT data in audio encoding |
US7809579B2 (en) * | 2003-12-19 | 2010-10-05 | Telefonaktiebolaget Lm Ericsson (Publ) | Fidelity-optimized variable frame length encoding |
GB0408856D0 (en) | 2004-04-21 | 2004-05-26 | Nokia Corp | Signal encoding |
-
2004
- 2004-05-17 DE DE602004025517T patent/DE602004025517D1/de not_active Expired - Lifetime
- 2004-05-17 JP JP2007517467A patent/JP2007538282A/ja not_active Withdrawn
- 2004-05-17 BR BRPI0418838-1A patent/BRPI0418838A/pt not_active IP Right Cessation
- 2004-05-17 WO PCT/IB2004/001585 patent/WO2005112003A1/en active Application Filing
- 2004-05-17 AU AU2004319556A patent/AU2004319556A1/en not_active Abandoned
- 2004-05-17 MX MXPA06012617A patent/MXPA06012617A/es not_active Application Discontinuation
- 2004-05-17 ES ES04733394T patent/ES2338117T3/es not_active Expired - Lifetime
- 2004-05-17 CA CA002566368A patent/CA2566368A1/en not_active Abandoned
- 2004-05-17 AT AT04733394T patent/ATE457512T1/de not_active IP Right Cessation
- 2004-05-17 EP EP04733394A patent/EP1747554B1/en not_active Expired - Lifetime
- 2004-05-17 CN CN200480043056.XA patent/CN1954364B/zh not_active Expired - Lifetime
-
2005
- 2005-05-13 US US11/129,662 patent/US7860709B2/en active Active
- 2005-05-13 TW TW094115504A patent/TW200609902A/zh unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1278184B1 (en) * | 2001-06-26 | 2008-03-05 | Microsoft Corporation | Method for coding speech and music signals |
US20040088160A1 (en) * | 2002-10-30 | 2004-05-06 | Samsung Electronics Co., Ltd. | Method for encoding digital audio using advanced psychoacoustic model and apparatus thereof |
Also Published As
Publication number | Publication date |
---|---|
BRPI0418838A (pt) | 2007-11-13 |
AU2004319556A1 (en) | 2005-11-24 |
EP1747554A1 (en) | 2007-01-31 |
TW200609902A (en) | 2006-03-16 |
ES2338117T3 (es) | 2010-05-04 |
US7860709B2 (en) | 2010-12-28 |
CN1954364A (zh) | 2007-04-25 |
JP2007538282A (ja) | 2007-12-27 |
CA2566368A1 (en) | 2005-11-24 |
EP1747554B1 (en) | 2010-02-10 |
MXPA06012617A (es) | 2006-12-15 |
WO2005112003A1 (en) | 2005-11-24 |
ATE457512T1 (de) | 2010-02-15 |
US20050267742A1 (en) | 2005-12-01 |
DE602004025517D1 (de) | 2010-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1954364B (zh) | 带有不同编码帧长度的音频编码 | |
CN100485337C (zh) | 用于对音频信号进行编码的编码模型的选择 | |
CN1820306B (zh) | 可变比特率宽带语音编码中增益量化的方法和装置 | |
CN102150205B (zh) | 用于编码和解码统合的语音与音频的设备 | |
CA2306098C (en) | Multimode speech coding apparatus and decoding apparatus | |
CN100583242C (zh) | 声音译码方法和声音译码装置 | |
CN104025189B (zh) | 编码语音信号的方法、解码语音信号的方法,及使用其的装置 | |
CN103493129B (zh) | 用于使用瞬态检测及质量结果将音频信号的部分编码的装置与方法 | |
Quackenbush | MPEG unified speech and audio coding | |
CN101379551A (zh) | 在语音编解码器中用于有效帧擦除隐蔽的方法和装置 | |
CN104517612B (zh) | 基于amr-nb语音信号的可变码率编码器和解码器及其编码和解码方法 | |
CN104126201A (zh) | 用于语音编码的混合码本激励的系统和方法 | |
US6804639B1 (en) | Celp voice encoder | |
JPH08272395A (ja) | 音声符号化装置 | |
CN104517614A (zh) | 基于各子带特征参数值的清浊音判决装置及其判决方法 | |
CN100489966C (zh) | 合成分析语音编码器中用于进行语音编码的方法和装置 | |
CN103999153A (zh) | 用于以带选择的方式量化语音信号的方法和设备 | |
CN101192408A (zh) | 选择导谱频率系数矢量量化的方法及装置 | |
JPH07225599A (ja) | 音声の符号化方法 | |
KR20070017379A (ko) | 오디오 신호를 부호화하기 위한 부호화 모델들의 선택 | |
JP3984048B2 (ja) | 音声/音響信号の符号化方法及び電子装置 | |
RU2344493C2 (ru) | Кодирование звука с различными длительностями кадра кодирования | |
Miki et al. | Pitch synchronous innovation code excited linear prediction (PSI‐CELP) | |
JPH05273999A (ja) | 音声符号化方法 | |
KR100757366B1 (ko) | Zinc 함수를 이용한 음성 부호화기 및 그의 표준파형추출 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20160114 Address after: Espoo, Finland Patentee after: NOKIA TECHNOLOGIES OY Address before: Espoo, Finland Patentee before: NOKIA Corp. |
|
CX01 | Expiry of patent term |
Granted publication date: 20110601 |
|
CX01 | Expiry of patent term |