CN103477388A - 声音信号混合解码器、声音信号混合编码器、声音信号解码方法及声音信号编码方法 - Google Patents

声音信号混合解码器、声音信号混合编码器、声音信号解码方法及声音信号编码方法 Download PDF

Info

Publication number
CN103477388A
CN103477388A CN2012800043379A CN201280004337A CN103477388A CN 103477388 A CN103477388 A CN 103477388A CN 2012800043379 A CN2012800043379 A CN 2012800043379A CN 201280004337 A CN201280004337 A CN 201280004337A CN 103477388 A CN103477388 A CN 103477388A
Authority
CN
China
Prior art keywords
signal
frame
mentioned
windowing process
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012800043379A
Other languages
English (en)
Inventor
石川智一
则松武志
张国成
赵丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN103477388A publication Critical patent/CN103477388A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一种对包括通过使用了低延迟滤波器组的音频编码处理而被编码的音频帧、和通过使用了线性预测系数的语音编码处理而被编码的语音帧的比特流进行解码的声音信号混合解码器,当解码对象帧是作为从音频帧切换为语音帧的最初的语音帧的第i帧时,使用作为通过将第i帧解码而得到的、使用编码前的第i-1帧的信号生成的信号的子帧(1001),生成作为与编码前的第i-1帧对应的信号的子帧(1101)及子帧(1102)。

Description

声音信号混合解码器、声音信号混合编码器、声音信号解码方法及声音信号编码方法
技术领域
本发明涉及能够切换语音编解码器(speech codec)和音频编解码器(audio codec)的声音信号(sound signal)混合解码器及声音信号混合编码器。
背景技术
混合编解码器(hybrid codec,参照例如专利文献1)是结合了音频编解码器与语音编解码器(参照例如非专利文献1)的优点的编解码器。根据混合编解码器,将语音信号主体的内容(content)和音频信号主体的内容混合而成的声音信号通过切换音频编解码器和语音编解码器而能够用适合于各自的编码方法进行编码。因而,根据混合编解码器,能够以低比特率实现稳定的声音信号的压缩编码。
现有技术文献
专利文献
专利文献1:Fuchs,Guillaume“Apparatus and method forencoding/decoding and audio signal using an aliasing switch scheme”,国际公开第2010/003532A1号
非专利文献
非专利文献1:Milan Jelinek,“Wideband Speech Coding Advances inVMR-WB Standard”,IEEE Transactions on Audio,Speech and LanguageProcessing,15(4),1167-1179(2007)
非专利文献2:Chi-Min Liu and Wen-Chieh Lee,“A unified fastalgorithm for cosine modulated filterbanks in current audio standards”,J.AudioEngineering47(12),1061-1075(1999)
发明概要
发明要解决的问题
为了提高混合编解码器的音质,作为音频编解码器,例如通过使用AAC-ELD(Advanced Audio Coding-Enhanced Low Delay:高级音频编码-增强低延迟)模式,能够期待音质提高。
但是,在AAC-ELD模式那样的编码方式中,为了使用与先行帧重叠(overlap)的采样进行编码,在切换为仅通过对象帧内的采样编码完成的语音编解码器时发生混叠(aliasing),产生不自然的声音。在专利文献1中,虽然公开了这样编码模式切换的部位的信号处理,但这样的处理并不对应于如AAC-ELD模式那样的需要通过多个先行帧的重叠处理的编码方式,通过专利文献1的方法不能降低上述混叠。
发明内容
本发明的目的是提供一种混合编解码器(声音信号混合解码器及声音信号混合编码器),在作为音频编解码器而使用如AAC-ELD模式那样需要基于多个先行帧的重叠处理的编码方式的情况下,降低在语音编解码器和音频编解码器的切换部分发生的混叠。
用于解决问题的手段
有关本发明的一技术方案的声音信号混合解码器,对包括通过使用了低延迟滤波器组的音频编码处理而被编码的音频帧、和通过使用了线性预测系数的语音编码处理而被编码的语音帧的比特流进行解码,其特征在于,具备:低延迟变换解码器,通过低延迟逆滤波器组处理对上述音频帧进行解码;语音信号解码器,对上述语音帧进行解码;以及块切换部,进行控制,以便在上述比特流中的解码对象帧是上述音频帧的情况下将该解码对象帧通过上述低延迟变换解码器解码、在上述解码对象帧是上述语音帧的情况下将该解码对象帧通过上述语音信号解码器解码;当上述解码对象帧是作为从上述音频帧切换为上述语音帧后的最初的上述语音帧的第i帧时,在上述第i帧中,以编码后的状态包含第1信号,该第1信号是使用比上述第i帧靠前1帧的帧即第i-1帧的编码前的信号而生成的;上述块切换部(1)进行将如下信号相加的处理而生成与编码前的上述第i-1帧的前半部分对应的信号,所述如下信号包括:将相当于第2信号的帧的前半部分的信号与对相当于上述第2信号的帧的后半部分的信号进行折叠处理后的信号相加、并进行加窗处理后的信号;通过将上述第i帧用上述语音信号解码器解码而得到的、对上述第1信号进行加窗处理后的信号;和第3信号的帧的前半部分的信号,其中所述第2信号是对比上述第i帧靠前3帧的帧即第i-3帧的重建后的信号进行加窗处理后的信号,该第i-3帧的重建后的信号是通过将比上述第i帧靠前2帧的帧即第i-2帧用上述低延迟变换解码器解码而得到的,所述第3信号是对上述第i-1帧进行上述低延迟逆滤波器组处理及加窗处理后的信号的与上述第i-3帧对应的部分;以及进行将如下信号相加的处理而生成与编码前的上述第i-1帧的后半部分对应的信号,所述如下信号包括:将相当于上述第2信号的帧的后半部分的信号与对相当于上述第2信号的帧的前半部分的信号进行折叠处理后的信号相加、并进行加窗处理后的信号;对上述第1信号进行折叠处理及加窗处理后的信号;和相当于上述第3信号的帧的后半部分的信号;或者(2)进行将如下信号相加的处理而生成与编码前的上述第i-1帧的前半部分对应的信号,所述如下信号包括:将相当于上述第2信号的帧的前半部分的信号与对相当于上述第2信号的帧的后半部分的信号进行折叠处理后的信号相加、并进行加窗处理后的信号;对上述第1信号进行折叠处理及加窗处理后的信号;和相当于上述第3信号的帧的前半部分的信号;以及进行将如下信号相加的处理而生成与编码前的上述第i-1帧的后半部分对应的信号,所述如下信号包括:将相当于上述第2信号的帧的后半部分的信号与对相当于上述第2信号的帧的前半部分的信号进行折叠处理后的信号相加、并进行加窗处理后的信号;对上述第1信号进行加窗处理后的信号;和相当于上述第3信号的帧的后半部分的信号。
另外,这些整体性或具体的技术方案也可以通过系统、方法、集成电路、计算机程序或计算机能够读取的CD-ROM等的记录介质实现,也可以通过系统、方法、集成电路、计算机程序及记录介质的任意的组合来实现。
发明效果
根据本发明,在使用如AAC-ELD模式那样需要基于多个先行帧的重叠处理的编码方式的音频编解码器的混合编解码器(声音信号混合解码器及声音信号混合编码器)中,能够降低在语音编解码器与音频编解码器的切换部分中发生的混叠。
附图说明
图1是表示AAC-ELD的编码器的分析窗的图。
图2是表示AAC-ELD的解码器的解码处理的图。
图3是表示AAC-ELD的解码器的合成窗的图。
图4是表示AAC-ELD的编码/解码处理的延迟量的图。
图5是用来说明转变帧的图。
图6是表示有关实施方式1的声音信号混合编码器的结构的框图。
图7是表示编码模式被从FD编码模式切换为ACELP编码模式的情况下的编码的帧的图。
图8A是表示成分X的生成方法的一例的图。
图8B是表示成分X的生成方法的流程图。
图9是表示具备TCX编码器的声音信号混合编码器的结构的框图。
图10是表示有关实施方式1的声音信号混合解码器的结构的框图。
图11是表示用FD编码模式编码的信号切换为用ACELP编码模式编码的信号时的块切换部的切换控制的示意图。
图12A是表示重建帧i-1的信号的方法的图。
图12B是表示重建帧i-1的信号的方法的流程图。
图13是表示有关实施方式1的编码/解码处理的延迟量的图。
图14是表示具备TCX解码器的声音信号混合解码器的结构的框图。
图15是表示使用合成误差补偿装置重建帧i-1的信号的方法的图。
图16是表示合成误差信息的解码处理的图。
图17是表示编码模式被从ACELP编码模式切换为FD编码模式的情况下的编码的帧的图。
图18是表示用ACELP编码模式编码的信号切换为用FD编码模式编码的信号时的块切换部的切换控制的示意图。
图19是表示有关实施方式2的重建帧i-1的信号的方法的流程图。
图20A是表示有关实施方式2的重建帧i-1的信号的方法的一例的图。
图20B是表示有关实施方式2的重建帧i-1的信号的方法的一例的另一个图。
图21是表示有关实施方式2的重建帧i的信号的方法的一例的图。
图22是表示有关实施方式2的重建帧i+1的信号的方法的一例的图。
图23是表示有关实施方式2的编码/解码处理的延迟量的图。
图24是表示使用SEC装置重建帧i-1的信号的方法的图。
图25是表示使用SEC装置重建帧i的信号的方法的图。
图26是表示使用SEC装置重建帧i-1的信号的方法的图。
图27是表示编码模式被从FD编码模式切换为TCX编码模式的情况下的编码的帧的图。
图28是表示用FD编码模式编码的信号切换为用TCX符号模式编码的信号时的块切换部的切换控制的示意图。
图29是表示有关实施方式3的编码/解码处理的延迟量的图。
图30是表示编码模式从TCX编码模式切换为FD编码模式的情况下的编码的帧的图。
图31是表示编码模式从TCX编码模式切换为FD编码模式的情况下的编码的帧的图。
图32是表示有关实施方式4的重建帧i-1的信号的方法的一例的图。
图33是表示有关实施方式4的编码/解码处理的延迟量的图。
具体实施方式
(作为发明的基础的认识)
语音编解码器是特别用来根据语音信号(speech signal)的特征将语音信号编码的编解码器(参照非专利文献1)。语音编解码器在将语音信号以低比特率编码的情况下,以低延迟实现良好的音质。但是,语音编解码器不适合于音频信号(audio signal)的编码。因而,在通过语音编解码器将音频信号编码的情况下,例如与用AAC等的音频编解码器编码的情况相比音质下降。
目前,ACELP编码模式(Algebraic Code Excited Linear Prediction:代数码激励线性预测)或TCX编码模式(Transform Coded Excitation:变换码激励)等的一般的语音编解码器基于线性预测域编码(参照专利文献1)。在ACELP编码模式中,在线性预测分析后,将代数码本用于激励信号的编码。在TCX编码模式中,在线性预测分析后,对激励信号使用变换编码。
另一方面,音频编解码器是适合于音频信号的编码的编解码器。但是,在将音频编解码器用于语音信号的情况下,为了实现如语音编解码器那样稳定的音质,通常需要较高的比特率。
混合编解码器是结合了音频编解码器和语音编解码器的优点的编码器。在混合编解码器中,编码模式被划分为两个系统。一个是相当于上述音频编解码器的AAC等的频率域(FD:Frequency Domain)编码模式。另一个是相当于上述语音编解码器的线性预测域(LPD:Linear PredictionDomain)编码模式。
作为FD编码模式,一般使用AAC-LD编码模式或AAC编码模式等的直行变换编码。此外,作为LPD编码模式,一般使用作为LPC(LenearPrediction Coefficient:线性预测系数)残差的频率域显示的TCX编码模式、和作为LPC残差的时间域显示的ACELP编码模式。
在混合编解码器中,根据编码对象的信号是语音信号还是音频信号而切换编码模式(参照专利文献1)。另外,选择ACELP编码模式和TCX编码模式的哪个例如基于闭环分析合成技术来选择。
这里,在进行VoIP(Voice over Internet Protocol:互联网协议语音)或视频会议等的实时通信的情况下,更希望低延迟的混合编解码器。这里,为了实现低延迟,作为上述FD编码模式而使用将AAC及AAC-LD扩展的AAC-ELD编码方式(以下,也单记作AAC-ELD)。AAC-ELD编码方式为了实现充分的低延迟而具有下述的特征。
1.AAC-ELD的1个帧中的采样数(帧大小N,在以下本说明书中也同样)为512时间域采样及480时间域采样,是较少的。
2.使先读处理及块切换处理为无效。
3.为了采用低延迟滤波器组(filter bank)而变更分析及合成滤波器组。具体而言,长度4N的长窗口使与过去的重叠变多、使与未来的重叠变少而使用(值N/4实际是零)。
4.使比特池(bit reservoir)最小化、或完全不使用比特池。
5.使时间域噪声整形及长期预测功能适应于低延迟的帧大小。
这里,对AAC-ELD低延迟滤波器组的变换及逆变换进行说明。另外,以下说明的背景知识在后续的记载中也原样使用。
如已经叙述那样,在AAC-ELD中使用低延迟分析及合成滤波器组。低延迟滤波器组如以下这样定义。
[数式1]
X k = - 2 &Sigma; n = - 2 N 2 N - 1 x n cos [ &pi; N ( n + 1 2 - N 2 ) ( k + 1 2 ) ] , 0 &le; k < N ···式(1)
这里,xn是被进行加窗处理的输入信号(编码对象)。另一方面,AAC-ELD的低延迟逆滤波器组如以下这样定义。
[数式2]
y n = - 1 N &Sigma; k = 0 N - 1 X k cos [ &pi; N ( n + 1 2 - N 2 ) ( k + 1 2 ) ] , 0 &le; n < 4 N
这里,Xk是解码后的变换系数。
首先,说明AAC-ELD的编码器中的变换处理(AAC-ELD的编码处理)。
在AAC-ELD中,对应于1个帧而编码4帧。具体而言,在将帧i-1编码的情况下,形成将该帧i-1与先行的(在先的)3个帧i-4、i-3、i-2连结的长度4N的扩展帧,将该扩展帧编码。在1个帧大小是N的情况下,编码的帧大小是4N。
图1表示AAC-ELD的编码器的分析窗(编码器窗),将其表示为wenc。另外,如上述那样,分析窗的长度是4N。
另外,为了方便,将1个帧分割为两个子帧。例如,将帧i-1分割,如[ai-1,bi-1]那样用矢量的形式表示。ai-1、bi-1的长度分别是N/2采样。对应于此,将长度为4N的编码器窗进行8分割,如图1所示,它们是[w1,w2,w3,w4,w5,w6,w7,w8]。另一方面,将扩展帧表示为[ai-4,bi-4,ai-3,bi-3,ai-2,bi-2,ai-1,bi-1]。将编码器窗对扩展帧应用,能得到作为加窗处理后的信号的xn=[ai-4w1,bi-4w2,ai-3w3,bi-3w4,ai-2w5,bi-2w6,ai-1w7,bi-1w8]。
这里,将由式(1)定义的低延迟滤波器组用于对进行了加窗处理后的信号xn进行变换。按照上述低延迟滤波器组,从帧大小4N的加窗处理后的信号xn生成帧大小N的变换波谱系数。
另外,低延迟滤波器组的基本的算法与MDCT(Modified DiscreteCosine Transform:改进离散余弦变换)是同样的。这里,MDCT是基于DCT-IV的傅立叶变换的类似形,所以在低延迟滤波器组与DCT-IV之间,基本上存在等价的关系性(参照非专利文献2)。DCT-IV如以下这样定义。
[数式3]
X k = DCT - IV ( x n ) = &Sigma; n = 0 N - 1 x n cos [ &pi; N ( n + 1 2 ) ( k + 1 2 ) ]
DCT-IV具有以下这样的偶数/奇数交互的边界条件。
[数式4]
cos [ &pi; N ( - n - 1 + 1 2 ) ( k + 1 2 ) ] = cos [ &pi; N ( n + 1 2 ) ( k + 1 2 ) ]
cos [ &pi; N ( 2 N - n - 1 + 1 2 ) ( k + 1 2 ) ] = - cos [ &pi; N ( n + 1 2 ) ( k + 1 2 ) ]
使用这些边界条件由低延迟滤波器组变换后的帧i-1的信号在DCT-IV中如以下这样表示。
[数式5]
[DCT-IV(-(ai-4w1)R-bi-4w2+(ai-2w5)R+bi-2w6),
DCT-IV(-ai-3w3+(bi-3w4)R+ai-1w7-(bi-1w8)R]
式中的(ai-4w1R,(ai-2w5R,(bi-3w4R,(bi-1w8R分别是矢量ai-4w1、ai-2w5、bi-3w4、bi-1w8的相反顺序。
接着,对AAC-ELD的解码器中的逆变换处理(AAC-ELD的解码处理)进行说明。
图2是表示AAC-ELD的解码器中的解码处理的图。解码后的输出信号的长度(帧大小)是4N。同样,如果考虑逆MDCT与DCT-IV的关系性是等价的(参照非专利文献2),则对于帧i-1的逆变换信号是以下这样的。
[数式6]
yi-1=[-ai-4w1-(bi-4w2)R+ai-2w5+(bi-2w6)R
-(ai-4w1)R-bi-4w2+(ai-2w5)R+bi-2w6
-ai-3w3+(bi-3w4)R+ai-1w7-(bi-1w8)R
(ai-3w3)R-bi-3w4-(ai-1w7)R+bi-1w8
ai-4w1+(bi-4w2)R-ai-2w5-(bi-2w6)R
(ai-4w1)R+bi-4w2-(ai-2w5)R-bi-2w6
ai-3w3-(bi-3w4)R-ai-1w7+(bi-1w8)R
-(ai-3w3)R+bi-3w4+(ai-1w7)R-bi-1w8]
通过对yi-1应用AAC-ELD的解码器的合成窗,得到
[数式7]
y &OverBar; i - 1
图3表示AAC-ELD的解码器的合成窗,将其表示为wdec。合成窗是将AAC-ELD的编码器的分析窗原样设为逆序而得到的。此外,与AAC-ELD的编码器的分析窗同样,为了方便而如图3所示那样将合成窗进行8分割。合成窗可以如以下这样用矢量的形式表示。
[数式8]
[wR,8,wR,7,wR,6,wR,5,wR,4,wR,3,wR,2,wR,1
因而,作为加窗处理后的逆变换信号的
[数式9]
y - i - 1
是以下这样的。
[数式10]
y &OverBar; i - 1 = [ ( - a i - 4 w 1 - ( b i - 4 w 2 ) R + a i - 2 w 5 + ( b i - 2 w 6 ) R ) w R , 8 ,
( - ( a i - 4 w 1 ) R - b i - 4 w 2 + ( a i - 2 w 5 ) R + b i - 2 w 6 ) w R , 7 ,
( - a i - 3 w 3 + ( b i - 3 w 4 ) R + a i - 1 w 7 - ( b i - 1 w 8 ) R ) w R , 6 ,
( ( a i - 3 w 3 ) R - b i - 3 w 4 - ( a i - 1 w 7 ) R + b i - 1 w 8 ) w R , 5 ,
( a i - 4 w 1 + ( b i - 4 w 2 ) R - a i - 2 w 5 - ( b i - 2 w 6 ) R ) w R , 4 ,
( ( a i - 4 w 1 ) R + b i - 4 w 2 - ( a i - 2 w 5 ) R - b i - 2 w 6 ) w R , 3 ,
( a i - 3 w 3 - ( b i - 3 w 4 ) R - a i - 1 w 7 + ( b i - 1 w 8 ) R ) w R , 2 ,
( - ( a i - 3 w 3 ) R + b i - 3 w 4 + ( a i - 1 w 7 ) R - b i - 1 w 8 ) w R , 1 ]
= [ c - 4 , d - 4 , c - 3 , d - 3 , c - 2 , d - 2 , c - 1 , d - 1 ] i - 1
在AAC-ELD的解码处理中,为了重建帧i-1的信号[ai-1,bi-1]而将解码对象帧i解码处理。即,分别使用帧i和先行于它的3个帧的加窗处理后的逆变换信号进行重复相加处理。由此,图2所示的重复相加处理用以下的式表示。
[数式11]
out i , n = y &OverBar; i , n + y &OverBar; i - 1 , n + N + y &OverBar; i - 2 , n + 2 N + y &OverBar; i - 3 , n + 3 N , 0 &le; n < N
= [ c - 4 , d - 4 ] i + [ c - 3 , d - 3 ] i - 1 + [ c - 2 , d - 2 ] i - 2 + [ c - 1 , d - 1 ] i - 3
重建后的信号的长度是N。
混叠的降低基于上述重复相加式导出。
关于
[数式12]
0 &le; n < N 2
为如下所述。
[数式13]
outi,n=[c-4]i+[c-3]i-1+[c-2]i-2+[c-1]i-3
=(-ai-3w1-(bi-3w2)R+ai-1w5+(bi-1w6)R)wR,8+(-ai-3w3+(bi-3w4)R+ai-1w7-(bi-1w8)R)wR,6
+(ai-5w1+(bi-5w2)R-ai-3w5-(b1-3w6)R)wR,4+(ai-5w3-(bi-5w4)R-ai-3w7+(bi-3w8)R)wR,2
=ai-5(w3wR,2+w1wR,4)+ai-3(-w7wR,2-w5wR,4-w1wR,8-w3wR,6)+ai-1(w7wR,6+w5wR,8)
此外,关于
[数式14]
N 2 &le; n < N
为如下所述。
[数式15]
outi,n=[d-4]i+[d-3]i-1+[d-2]i-2+[d-1]i-3
=(-(ai-3w1)R-bi-3w2+(ai-1w5)R+bi-1w6)wR,7+((ai-3w3)R-bi-3w4-(ai-1w7)R+bi-1w8)wR,5
+((ai-5w1)R+bi-5w2-(ai-3w5)R-bi-3w6)wR,3+(-(ai-5w3)R+bi-5w4+(ai-3w7)R-bi-3w8)wR,1
=bi-5(w4wR,1+w2wR,3)+bi-3(-w8wR,1-w6wR,3-w4wR,5-w2wR,7)+bi-1(w8wR,5+w6wR,7)
进而,根据以下的窗的特性,将帧i-1的信号[ai-1,bi-1]通过重复相加处理重建。
[数式16]
w3wR,2+w1wR,4≈0
-w7wR,2-w5wR,4-w1wR,8-w3wR,6≈0
w7wR,6+w5wR,8≈1
w4wR,1+w2wR,3≈0
-w8wR,1-w6wR,3-w4wR,5-w2wR,7≈0
w8wR,5+w6wR,7≈1
这里,对AAC-ELD的编码/解码处理的延迟量进行说明。
图4是表示AAC-ELD的编码/解码处理的延迟量的图。在图4中,假设对于帧i-1的编码处理在时间t开始。
如图1所示,相当于AAC-ELD的编码器的分析窗的w8的后半N/4个采样的部分是零。因而,如图4所示,在时间t+3*N/4采样时,xi-1是能够进行MDCT变换的状态,得到IMDCT变换后的信号yi-1
同样,如图4所示,在时间t+7*N/4采样时,得到IMDCT变换后的信号yi
接着,对yi-1、yi应用加窗处理及重复相加处理,得到outi,n。这里,也如图3所示,由于相当于AAC-ELD的解码器的合成窗wR,8的前半N/4個的采样的部分是零,所以能够在作为
[数式17]
y &OverBar; i
能够利用的N/4采样前开始声音的输出。即,声音的输出在(t+7*N/4)-N/4=t+3*N/2采样开始。即,AAC-ELD编码/解码处理的延迟量是3*N/2采样,是低延迟。
如以上说明,在AAC-ELD中,对4个连续的帧进行MDCT,将4个帧如图2所示那样进行重复相加处理。通过将这样的AAC-ELD用在混合编解码器中,能够使音质提高、使延迟量进一步降低。另外,MDCT变换在TCX编码模式中也可以使用,但在TCX编码模式中,在1个帧内存在1个以上的多个块,对该连续的块进行MDCT变换,以1个块的后半与下个块的前半一致的方式,使后续的块重复。
在AAC-ELD中,为了如上述那样通过重复相加处理使用先行帧及后续帧进行解码,在将作为将编码模式从LPD编码模式切换为AAC-ELD或从AAC-ELD切换为LPD编码模式后的最初的帧的转变帧解码的情况下发生混叠。
图5是用来说明转变帧的图。图5中的帧i是转变帧。例如,当模式1是AAC-ELD、模式2是LPD编码模式时,在将帧i解码的情况下发生混叠。同样,当模式1是LPD编码模式、模式2是AAC-ELD时,在将帧i解码的情况下发生混叠。
因在转变帧中发生的混叠,通常发生可听到的伪音(artifact)。但是,专利文献1所记载那样的方法由于不对应于AAC-ELD那样的需要通过多个先行帧的重叠处理的编码方式,所以不能降低发生的混叠。
为了解决这样的课题,有关本发明的一技术方案的声音信号混合解码器,对包括通过使用了低延迟滤波器组的音频编码处理而被编码的音频帧、和通过使用了线性预测系数的语音编码处理而被编码的语音帧的比特流进行解码,其特征在于,具备:低延迟变换解码器,通过低延迟逆滤波器组处理对上述音频帧进行解码;语音信号解码器,对上述语音帧进行解码;以及块切换部,进行控制,以便在上述比特流中的解码对象帧是上述音频帧的情况下将该解码对象帧通过上述低延迟变换解码器解码、在上述解码对象帧是上述语音帧的情况下将该解码对象帧通过上述语音信号解码器解码;当上述解码对象帧是作为从上述音频帧切换为上述语音帧后的最初的上述语音帧的第i帧时,在上述第i帧中,以编码后的状态包含第1信号,该第1信号是使用比上述第i帧靠前1帧的帧即第i-1帧的编码前的信号而生成的;上述块切换部(1)进行将如下信号相加的处理而生成与编码前的上述第i-1帧的前半部分对应的信号,所述如下信号包括:将相当于第2信号的帧的前半部分的信号与对相当于上述第2信号的帧的后半部分的信号进行折叠处理后的信号相加、并进行加窗处理后的信号;通过将上述第i帧用上述语音信号解码器解码而得到的、对上述第1信号进行加窗处理后的信号;和第3信号的帧的前半部分的信号,其中所述第2信号是对比上述第i帧靠前3帧的帧即第i-3帧的重建后的信号进行加窗处理后的信号,该第i-3帧的重建后的信号是通过将比上述第i帧靠前2帧的帧即第i-2帧用上述低延迟变换解码器解码而得到的,所述第3信号是对上述第i-1帧进行上述低延迟逆滤波器组处理及加窗处理后的信号的与上述第i-3帧对应的部分;以及进行将如下信号相加的处理而生成与编码前的上述第i-1帧的后半部分对应的信号,所述如下信号包括:将相当于上述第2信号的帧的后半部分的信号与对相当于上述第2信号的帧的前半部分的信号进行折叠处理后的信号相加、并进行加窗处理后的信号;对上述第1信号进行折叠处理及加窗处理后的信号;和相当于上述第3信号的帧的后半部分的信号;或者(2)进行将如下信号相加的处理而生成与编码前的上述第i-1帧的前半部分对应的信号,所述如下信号包括:将相当于上述第2信号的帧的前半部分的信号与对相当于上述第2信号的帧的后半部分的信号进行折叠处理后的信号相加、并进行加窗处理后的信号;对上述第1信号进行折叠处理及加窗处理后的信号;和相当于上述第3信号的帧的前半部分的信号;以及进行将如下信号相加的处理而生成与编码前的上述第i-1帧的后半部分对应的信号,所述如下信号包括:将相当于上述第2信号的帧的后半部分的信号与对相当于上述第2信号的帧的前半部分的信号进行折叠处理后的信号相加、并进行加窗处理后的信号;对上述第1信号进行加窗处理后的信号;和相当于上述第3信号的帧的后半部分的信号。
即,块切换部进行图12A所示的处理。由此,能够将在对编码模式从FD编码模式切换为LPD编码模式的最初的帧进行解码的情况下发生的混叠降低。因而,能够实现FD解码技术与LPD解码技术的无缝的切换。
此外,在本发明的一技术方案中,也可以是一种声音信号混合解码器,对包括通过使用了低延迟滤波器组的音频编码处理而被编码的音频帧、和通过使用了线性预测系数的语音编码处理而被编码的语音帧的比特流进行解码,其特征在于,具备:低延迟变换解码器,通过低延迟逆滤波器组处理对上述音频帧进行解码;语音信号解码器,对上述语音帧进行解码;块切换部,进行控制,以便在上述比特流中的解码对象帧是上述音频帧的情况下将该解码对象帧通过上述低延迟变换解码器解码、在上述解码对象帧是上述语音帧的情况下将该解码对象帧通过上述语音信号解码器解码;当上述解码对象帧是作为从上述语音帧切换为上述音频帧后的最初的音频帧的第i帧时,上述块切换部进行将第5信号、第7信号、第8信号相加的处理而生成作为与编码前的比上述第i帧靠前1帧的帧即第i-1帧对应的信号的重建信号,其中所述第5信号是将第4信号与对该第4信号进行折叠处理后的信号相加、并进行加窗处理后的信号,所述第4信号是对将上述第i-1帧用上述语音信号解码器解码得到的信号进行加窗处理后的信号;所述第7信号是将第6信号与对该第6信号进行折叠处理后的信号相加、并进行加窗处理后的信号,所述第6信号是对将比上述第i帧靠前3帧的帧即第i-3帧用上述语音信号解码器解码得到的信号进行加窗处理后的信号;所述第8信号是对上述第i帧进行上述低延迟逆滤波器组处理及加窗处理后的信号的与上述第i-3帧对应的部分。
即,块切换部进行图20A及图20B所示的处理。由此,能够将在对编码模式从LPD编码模式切换为FD编码模式的最初的帧进行解码的情况下发生的混叠降低。因而,能够实现FD解码技术与LPD解码技术的无缝的切换。
此外,在本发明的一技术方案中,也可以是,当上述解码对象帧是比上述第i帧靠后1帧的帧即第i+1帧时,上述块切换部进行将第9信号、第10信号、第13信号、第15信号相加的处理而生成与编码前的上述第i帧对应的信号,其中所述第9信号是对上述第i+1帧进行上述低延迟逆滤波器组处理及加窗处理后的信号中的、与比上述第i帧靠前2帧的帧即第i-2帧对应的部分;所述第10信号是对上述第i帧进行上述低延迟逆滤波器组处理及加窗处理后的信号的与上述第i-2帧对应的部分;所述第13信号是对第12信号连结对该第12信号进行折叠处理后的信号、并进行加窗处理后的信号,其中所述第12信号是通过将相当于对第11信号进行第1加窗处理后的信号的帧的前半部分的信号、与将相当于对上述第11信号进行上述第1加窗处理后的信号的帧的后半部分的信号折叠处理后的信号相加而得到的,而所述第11信号是通过将所述第i-2帧用所述语音信号解码器解码而得到的;所述第15信号是对第14信号连结对该第14信号进行折叠处理并将符号反转的信号、并进行加窗处理后的信号,其中所述第14信号是通过将相当于对上述第11信号进行与上述第1加窗处理不同的第2加窗处理后的信号的帧的前半部分的信号、与将相当于对上述第11信号进行上述第2加窗处理后的信号的帧的后半部分的信号折叠处理后的信号相加而得到的。
即,块切换部进行图21所示的处理。由此,能够将在对编码模式从LPD编码模式切换为FD编码模式的最初的帧的1帧后的帧进行解码的情况下发生的混叠降低。
此外,在本发明的一技术方案中,也可以是,当上述解码对象帧是比上述第i帧靠后2帧的帧即第i+2帧时,上述块切换部进行将第16信号、第17信号、第18信号、第21信号、第23信号相加的处理而生成与编码前的上述第i+1帧对应的信号,其中所述第16信号是对上述i+2帧进行上述低延迟逆滤波器组处理及加窗处理后的信号的与上述第i-1帧对应的部分;所述第17信号是对上述第i+1帧进行上述低延迟逆滤波器组处理及加窗处理后的信号的与上述第i-1帧对应的部分;所述第18信号是对上述第i帧进行上述低延迟逆滤波器组处理及加窗处理后的信号的与上述第i-1帧对应的部分;所述第21信号是对第20信号连结对该第20信号进行折叠处理后的信号、并进行加窗处理后的信号,其中所述第20信号是通过将相当于对第19信号进行加窗处理后的信号的帧的前半部分的信号、与将相当于对上述第19信号进行上述加窗处理后的信号的帧的后半部分的信号折叠处理后的信号相加而得到的,而所述第19信号是通过将上述第i-3帧用上述语音信号解码器解码而得到的;所述第23信号是对第22信号连结对该第22信号进行折叠处理并将符号反转的信号、并进行加窗处理后的信号,其中所述第22信号是通过将相当于对上述重建信号进行加窗处理后的信号的帧的前半部分的信号、与将相当于对上述重建信号进行上述加窗处理后的信号的帧的后半部分的信号折叠处理后的信号相加而得到的。
即,块切换部进行图22所示的处理。由此,能够将在对编码模式从LPD编码模式切换为FD编码模式的最初的帧的2帧后的帧进行解码的情况下发生的混叠降低。
此外,在本发明的一技术方案中,也可以是,一种声音信号混合解码器,对包括通过使用了低延迟滤波器组的音频编码处理而被编码的音频帧、和通过使用了线性预测系数的语音编码处理而被编码的语音帧的比特流进行解码,其特征在于,具备:低延迟变换解码器,使用低延迟逆滤波器组处理对上述音频帧进行解码;TCX解码器,对通过TCX变换码激励方式编码的上述语音帧进行解码;以及块切换部,进行控制,以便在上述比特流中的解码对象帧是上述音频帧的情况下将该解码对象帧通过上述低延迟变换解码器解码、在上述解码对象帧是上述语音帧的情况下将该解码对象帧通过上述语音信号解码器解码;当上述解码对象帧是从上述音频帧切换为上述语音帧后的最初的上述语音帧、而且是作为过渡信号被编码的帧的第i帧时,在上述第i帧中,以编码后的状态包含第1信号,该第1信号是使用比上述第i帧靠前1帧的帧即第i-1帧的编码前的信号而生成的;上述块切换部(1)进行将如下信号相加的处理而生成与编码前的上述第i-1帧的前半部分对应的信号,所述如下信号包括:将相当于第2信号的帧的前半部分的信号与对相当于上述第2信号的帧的后半部分的信号进行折叠处理后的信号相加、并进行加窗处理后的信号;通过将上述第i帧用上述语音信号解码器解码而得到的、对上述第1信号进行加窗处理后的信号;和第3信号的帧的前半部分的信号,其中所述第2信号是对比上述第i帧靠前3帧的帧即第i-3帧的重建后的信号进行加窗处理后的信号,该第i-3帧的重建后的信号是通过将比上述第i帧靠前2帧的帧即第i-2帧用上述低延迟变换解码器解码而得到的,所述第3信号是对上述第i-1帧进行上述低延迟逆滤波器组处理及加窗处理后的信号的与上述第i-3帧对应的部分;以及进行将如下信号相加的处理而生成与编码前的上述第i-1帧的后半部分对应的信号,所述如下信号包括:将相当于上述第2信号的帧的后半部分的信号与对相当于上述第2信号的帧的前半部分的信号进行折叠处理后的信号相加、并进行加窗处理后的信号;对上述第1信号进行折叠处理及加窗处理后的信号;和相当于上述第3信号的帧的后半部分的信号;或者(2)进行将如下信号相加的处理而生成与编码前的上述第i-1帧的前半部分对应的信号,所述如下信号包括:将相当于上述第2信号的帧的前半部分的信号与对相当于上述第2信号的帧的后半部分的信号进行折叠处理后的信号相加、并进行加窗处理后的信号;对上述第1信号进行折叠处理及加窗处理后的信号;和相当于上述第3信号的帧的前半部分的信号;以及进行将如下信号相加的处理而生成与编码前的上述第i-1帧的后半部分对应的信号,所述如下信号包括:将相当于上述第2信号的帧的后半部分的信号与对相当于上述第2信号的帧的前半部分的信号进行折叠处理后的信号相加、并进行加窗处理后的信号;对上述第1信号进行加窗处理后的信号;和相当于上述第3信号的帧的后半部分的信号。
即,块切换部在FD编码模式中发生了过渡信号(过渡帧)的情况下的编码信号的解码中,进行图12A所示的处理。由此,能够使对过渡帧进行解码的情况下的声音的音质提高。
此外,在本发明的一技术方案中,也可以是,上述低延迟变换解码器是AAC-ELD高级音频编码-增强低延迟解码器,通过对对于上述音频帧及与该音频帧在时间上连续的且靠前的3个帧分别进行低延迟逆滤波器组处理及加窗处理后的信号中的各个信号进行重复相加处理,从而将该音频帧解码。
此外,在本发明的一技术方案中,也可以是,上述语音信号解码器是ACELP解码器,对使用ACELP代数码激励线性预测系数而被编码的上述语音帧进行解码。
此外,在本发明的一技术方案中,也可以是,上述语音信号解码器是TCX解码器,对通过TCX方式而被编码的上述语音帧进行解码。
此外,在本发明的一技术方案中,也可以是,还具备对与上述解码对象帧一起被编码的合成误差信息进行解码的合成误差补偿装置;上述合成误差信息是表示上述比特流被编码之前的信号与将上述比特流解码后的信号之间的差的信息;上述合成误差补偿装置将上述块切换部生成的上述编码前的上述第i-1帧的信号、上述块切换部生成的上述编码前的上述第i帧的信号、或上述块切换部生成的上述编码前的上述第i+1帧的信号使用解码后的上述合成误差信息进行修正。
由此,通过切换编码模式,将在声音信号混合解码器中发生的合成误差降低,能够提高音质。
此外,有关本发明的一技术方案的声音信号混合编码器,其特征在于,具备:信号分类部,分析声音信号的音频特性,判断包含在上述声音信号中的帧是音频信号还是语音信号;低延迟变换编码器,使用低延迟滤波器组对上述帧进行编码;语音信号编码器,通过计算上述帧的线性预测系数,对该帧进行编码;以及块切换部,进行控制,以便将上述信号分类部判断为是上述音频信号的编码对象帧通过上述低延迟变换编码器编码、将上述信号分类部判断为是上述语音信号的上述编码对象帧通过上述语音信号编码器编码;上述块切换部(1)在上述编码对象帧是作为上述信号分类部判断为是上述语音信号的帧的第i-1帧的1帧后的帧、而且是作为上述信号分类部判断为是上述音频信号的帧的第i帧时,将如下信号和上述第i帧通过上述语音信号编码器编码:该信号是将对相当于上述第i-1帧的前半部分的信号进行加窗处理后的信号、与对相当于上述第i-1帧的后半部分的信号进行加窗处理并进行折叠处理后的信号相加而得到的信号;或者(2)将如下信号和上述第i帧通过上述语音信号编码器编码:该信号是将对相当于上述第i-1帧的后半部分的信号进行加窗处理后的信号、与对相当于上述第i-1帧的前半部分的信号进行加窗处理并进行折叠处理后的信号相加而得到的信号。
即,块切换部进行图7及图8A所示的处理。由此,能够将在对编码模式从FD编码模式切换为LPD编码模式的最初的帧进行解码的情况下发生的混叠降低。因而,能够实现FD解码技术与LPD解码技术的无缝的切换。
此外,在本发明的一技术方案中,也可以是,具备:信号分类部,分析声音信号的音频特性,判断包含在上述声音信号中的帧是音频信号还是语音信号;低延迟变换编码器,使用低延迟滤波器组对上述帧进行编码;TCX编码器,通过对上述帧的线性预测系数的残差进行MDCT改进离散余弦变换处理的TCX方式,对上述帧进行编码;块切换部,进行控制,以便将上述信号分类部判断为是上述音频信号的编码对象帧通过上述低延迟变换编码器编码、将上述信号分类部判断为是上述语音信号的上述编码对象帧通过上述语音信号编码器编码;当作为上述编码对象帧的第i帧是上述信号分类部判断为是上述音频信号、并且是能量急剧地变化的过渡信号的帧时,上述块切换部(1)将如下信号和上述第i帧通过上述语音信号编码器编码:该信号是将将相当于比上述第i帧靠前1帧的帧即第i-1帧的前半部分的信号进行加窗处理后的信号、与对相当于上述第i-1帧的后半部分的信号进行加窗处理并进行折叠处理后的信号相加而得到的信号;或者(2)将如下信号和上述第i帧通过上述语音信号编码器编码:该信号是将对相当于上述第i-1帧的后半部分的信号进行加窗处理后的信号、与对相当于上述第i-1帧的前半部分的信号进行加窗处理并进行折叠处理后的信号相加而得到的信号。
即,块切换部在FD编码模式中发生了过渡信号(过渡帧)的情况下的编码中,进行图7及图8A所示的处理。由此,能够使对过渡帧进行解码的情况下的声音的音质提高。
此外,在本发明的一技术方案中,也可以是,上述低延迟变换编码器是AAC-ELD编码器,通过对于将上述帧及与该帧在时间上连续的且靠前的3个帧连结而成的扩展帧进行加窗处理及低延迟逆滤波器组处理,从而将上述帧编码。
此外,在本发明的一技术方案中,也可以是,上述语音信号编码器是通过生成ACELP系数而将上述帧编码的ACELP编码器。
此外,在本发明的一技术方案中,也可以是,上述语音信号编码器是将上述线性预测系数的残差进行MDCT处理而将上述帧编码的TCX编码器。
此外,在本发明的一技术方案中,也可以是,还具备:本地解码器,对编码后的上述声音信号进行解码;以及本地编码器,对作为上述声音信号与上述本地解码器解码后的上述声音信号之间的差的合成误差信息进行编码。
另外,这些整体或具体的形态也可以通过系统、方法、集成电路、计算机程序或计算机能够读取的CD-ROM等的记录介质实现,也可以通过系统、方法、集成电路、计算机程序及记录介质的任意的组合来实现。
以下,参照附图对实施方式具体地说明。
在以下的各实施方式中,对在以下的5种编码模式的转变中降低混叠的影响、实现无缝的编码模式切换的声音信号混合编码器及声音信号混合解码器进行说明。
·从FD编码模式向ACELP编码模式的转变(实施方式1)
·从ACELP编码模式向FD编码模式的转变(实施方式2)
·从FD编码模式向TCX编码模式的转变(实施方式3)
·从TCX编码模式向FD编码模式的转变(实施方式4)
·从FD编码模式向过渡信号编码模式的转变(实施方式5)
另外,以下说明的实施方式都是表示包含性或具体的例子的。以下的实施方式中表示的数值、形状、材料、构成要素、构成要素的配置位置及连接形态、步骤、步骤的顺序等是一例,并不是限定本发明的意思。此外,关于以下的实施方式的构成要素中的、在表示最上位概念的独立权利要求中没有记载的构成要素,设为任意的构成要素进行说明。
(实施方式1)
在实施方式1中,对将编码模式从FD编码模式切换为ACELP编码模式的情况下的声音信号混合编码器的编码方法及声音信号混合解码器的解码方法进行说明。另外,在以下的实施方式的说明中,只要没有特别否定,所谓FD编码模式就是指AAC-ELD。
[1-1.编码方法]
图6是表示有关实施方式1的声音信号混合编码器的结构的框图。
声音信号混合编码器500具备高频编码器501、块切换部502、信号分类部503、ACELP编码器504、FD编码器505和比特复用器506。
输入信号被向高频编码器501和信号分类部503分别发送。
高频编码器501生成作为将输入信号中的高频带提取并编码而成的信号的高频参数、和作为将输入信号中的低频带提取的信号的低频信号。高频参数被向比特复用器506发送。低频信号被向块切换部502发送。
信号分类部503分析上述低频信号的音频特性,将低频信号按照每个采样数N(按照每个帧)判断该帧是音频信号还是语音信号。具体而言,信号分类部503计算该帧的3kHz以上的频带的波谱强度、和该帧的3kHz以下的频带的波谱强度。在3kHz以下的波谱强度比其以外的频带的波谱强度大的情况下,信号分类部503判断该帧是语音信号主体的信号、即语音信号,将表示判断结果的模式指标向块切换部502及比特复用器506发送。同样,在3kHz以下的波谱强度比其以外的频带的波谱强度小的情况下,信号分类部503判断该帧是音频信号主体的信号、即音频信号,将模式指标向块切换部502及比特复用器506发送。
块切换部502进行将表示模式指标是音频信号的帧通过FD编码器505编码、将表示模式指标是语音信号的帧通过ACELP编码器504编码的切换控制。即,块切换部502将从高频编码器接收到的低频信号按照模式指标向FD编码器505和ACELP编码器504按每个帧进行发送。
FD编码器505基于块切换部502的控制,将帧用AAC-ELD编码模式编码,将通过该编码生成的FD变换系数向比特复用器506发送。
ACELP编码器504基于块切换部502的控制,将帧通过ACELP编码模式编码,将通过该编码生成的ACELP系数向比特复用器506发送。
比特复用器506生成将编码模式指标、高频带参数、FD变换系数和ACELP系数合成后的比特流。
另外,虽然没有图示,但声音信号混合编码器500也可以具备将帧(信号)暂时存储的存储部。
接着,对编码模式被从FD编码模式切换为ACELP编码模式的情况下的块切换部502的控制进行说明。
图7是表示编码模式被从FD编码模式切换为ACELP编码模式的情况下的编码的帧的图。
在此情况下,当将帧i编码时,将添加了从先行的帧i-1的信号[ai-1,bi-1]生成的成分X的信号编码。具体而言,块切换部502生成将成分X和帧i的信号[ai,bi]加在一起的扩展帧。扩展帧是(N+N/2)的长度。扩展帧被块切换部502向ACELP编码器504发送,被用ACELP编码模式编码。
成分X具体而言如以下这样生成。
图8A是表示成分X的生成方法的一例的图。图8B是成分X的生成方法的流程图。
首先,通过对作为帧i-1的信号的前半部分的输入部分ai-1应用窗w5,得到成分ai-1w5(图8B的S101)。同样,通过对作为帧i-1的信号的后半部分的输入部分bi-1应用窗w6,得到bi-1w6(图8B的S102)。接着,对bi -1w6再应用折叠处理(folding)(图8B的S103)。
另外,在本说明书中,所谓“对信号进行折叠处理”,是指按照每个相应的信号矢量将构成信号矢量的采样在时间上改变排列为逆序。
由此,得到bi-1w6的逆序(bi-1w6R。最后,得到将ai-1w5与(bi-1w6)R相加后的成分X(图8B的S104)。
将得到的成分X在解码器中与多个先行帧一起用于解码。由此,将帧i-1的信号[ai-1,bi-1]适当地重建。
另外,在以上的说明中,对bi-1w6再应用折叠处理,但也可以对ai-1w5再应用折叠处理。即,成分X也可以是(ai-1w5R+bi-1w6
另外,如图9所示,声音信号混合编码器500也可以还具备TCX编码器507。
TCX编码器507基于块切换部502的控制,将帧通过TCX编码模式编码,将通过该编码生成的TCX系数向比特复用器506发送。
[1-2.解码方法]
以下,说明对通过声音信号混合编码器500如图8A所示那样编码后的编码信号进行解码的声音信号混合解码器。
图10是表示有关实施方式1的声音信号混合解码器的结构的框图。
声音信号混合解码器900具备解复用器901、FD解码器902、ACELP解码器903、块切换部904和高频解码器905。
解复用器901将比特流逆复用。具体而言,解复用器901将比特流分割为模式指标、高频带参数和编码信号。将模式指标向块切换部904发送,将高频参数向高频解码器905发送,将编码信号(FD变换系数及ACELP系数)按照每个帧向对应的FD解码器902和ACELP解码器903发送。
FD解码器902通过使用图2说明的AAC-ELD解码处理从FD变换系数生成FD逆变换信号。即,FD解码器902将通过FD编码模式编码的帧解码。
ACELP解码器903通过ACELP解码处理,从ACELP系数生成ACELP合成信号。即,ACELP解码器903将通过ACELP编码模式编码的帧解码。
将FD逆变换信号和ACELP合成信号向块切换部904发送。
块切换部904将表示模式指标是音频信号的帧通过FD解码器902解码,接收FD逆变换信号,将表示模式指标是语音信号的帧通过ACELP解码器903解码,接收ACELP合成信号。
高频解码器905使用从解复用器发送的高频参数和从块切换部904发送的低频带的时间域信号重建输入信号。
另外,虽然没有图示,但声音信号混合解码器900也可以具备将帧(信号)暂时存储的存储部。
接着,对用FD编码模式编码的信号切换为用ACELP编码模式编码的信号时的、块切换部904的切换控制(解码方法)进行说明。
图11是表示用FD编码模式编码的信号切换为用ACELP编码模式编码的信号时的、块切换部904的切换控制(解码方法)的示意图。如图11所示,帧i-1是通过FD编码模式编码的帧,作为解码对象帧的帧i是用ACELP编码模式编码的帧。
如上述那样,在用FD编码模式编码的信号连续的情况下,能够将解码对象帧i解码而重建帧i-1的信号。即,在图11所示的情况下,到帧i-2的信号为止,能够通过通常的FD解码处理重建。但是,帧i-1的信号由于解码对象帧i被用ACELP编码模式编码,所以如果用通常的方法重建,则发生因混叠成分带来的不自然的声音。即,帧i-1的信号如图11所示,成为混叠部分。
为了降低混叠成分,块切换部904使用以下的3个信号进行解码处理。
第1,通过将解码对象帧i进行ACELP解码处理得到的ACELP合成信号的成分X的信号(第1信号)被用于重建降低了混叠成分的帧i-1的信号。该信号是在图11中表示为子帧1001的信号,是使用图8A说明的成分X。
解码对象帧i是用ACELP编码模式编码的长度3N/2的帧。即,通过将帧i进行ACELP解码处理得到的ACELP合成信号表示为yi,n acelp,是
[数式18]
0 &le; n < 3 2 N
因而,相当于成分X的扩展部分为以下这样。
[数式19]
X i , n = y i , n acelp , 0 &le; n < N 2
如使用图8A说明那样,成分X具体而言是ai-1w5+(bi-1w6R
第2,在将解码对象帧i-1通过AAC-ELD低延迟滤波器组逆变换后、进行加窗处理后的信号中的与帧i-3对应的部分的信号(第3信号)被用于重建降低了混叠成分的帧i-1的信号。该信号在图11中被表示为子帧1002及子帧1003。
更具体地讲,该信号通过将帧i-1用AAC-ELD低延迟滤波器组作为通常帧而以长度4N进行逆变换、再进行加窗处理而得到。逆变换信号表示为
[数式20]
y &OverBar; i - 1 = [ c - 4 , d - 4 , c - 3 , d - 3 , c - 2 , d - 2 , c - 1 , d - 1 ] i - 1
其中,对应于帧i-3的部分的信号(在图11中表示为子帧1002及子帧1003的两个混叠部分)被从上述逆变换信号如以下这样提取。即,
[数式21]
[c-3]i-1=-ai-3w3wR,6+(bi-3w4)RwR,6+ai-1w7wR,6-(bi-1w8)RwR,6
[数式22]
[d-3]i-1=(ai-3w3)RwR,5-bi-3w4wR,5-(ai-1w7)RwR,5+bi-1w8wR,5
是分别对应于子帧1002和子帧1003的信号。
第3,通过将解码对象帧i-2进行FD解码处理而得到的帧i-3的信号[ai-3,bi-3](第2信号)被用于重建降低了混叠成分的帧i-1的信号。帧i-3的信号在图11中被表示为子帧1004及子帧1005。
如以上说明,在图11中被表示为子帧1001的信号ai-1w5+(bi-1w6R、被表示为子帧1002的信号[c-3i-1、被表示为子帧1003的信号[d-3i-1、和被表示为子帧1004、1005的信号[ai-3,bi-3]被用于重建降低了混叠成分的帧i-1的信号。
对使用上述的信号的重建降低了混叠成分的帧i-1的信号的方法具体地说明。
图12A的(a)是表示重建作为帧i-1的信号的前半的采样部分的ai-1的方法的图。图12B是表示重建作为帧i-1的信号的前半的采样部分的ai-1的方法的流程图。
首先,通过对作为子帧1004(第2信号的帧前半部分)的ai-3应用窗w3,得到ai-3w3(图12B的S201)。接着,通过对作为子帧1005(第2信号的帧后半部分)的bi-3应用窗w4,得到bi-3w4,进而,通过应用折叠处理,得到作为bi-3w4的逆序的(bi-3w4R(图12B的S202)。
接着,通过对将ai-3w3和(bi-3w4R进行相加处理后的信号应用加窗处理,得到ai-3w3wR,6-(bi-3w4RwR,6(图12B的S203)。
对作为子帧1001(成分X,第1信号)的ai-1w5+(bi-1w6R应用合成窗wR,8,得到ai-1w5wR,8+(bi-1w6RwR,8(图12B的S204)。
除此以外,作为逆变换信号的子帧1002(第3信号的帧前半部分)为
[数式23]
-ai-3w3wR,6+(bi-3w4)RwR,6+ai-1w7wR,6-(bi-1w8)RwR,6
将上述各个信号相加,得到ai-1(w5wR,8+w7wR,6)(图12B的S205)。
如果考虑上述窗的特性,则由于是
[数式24]
w5wR,8+w7wR,6≈1
所以得到作为将少了混叠成分的帧i-1的信号的前半部分的子帧1101。
同样,图12A的(b)是表示重建作为帧i-1的信号的后半的采样部分的bi-1的方法的图。与图12A的(a)在对子帧1001进行折叠处理这一点上不同,而其他处理是同样的。由此,得到作为降低了混叠成分的帧i-1的信号的后半部分的子帧1102。
因而,通过将解码对象帧i解码,得到将子帧1101与子帧1102连结的信号帧i-1的信号[ai-1,bi-1]。
另外,在以上的说明中,对图12A的(a)所示的子帧1001应用了加窗处理,对图12A的(b)所示的子帧1001应用了折叠处理和加窗处理。这是如上述那样成分X被表示为ai-1w5+(bi-1w6R的情况下的处理。在成分X是(ai-1w5R+bi-1w6的情况下,对图12A的(a)所示的子帧1001应用折叠处理和加窗处理,对图12A的(b)所示的子帧1001应用加窗处理。
[1-3.延迟量]
接着,对以上说明的有关实施方式1的编码/解码处理的延迟量进行说明。
图13是表示有关实施方式1的编码/解码处理的延迟量的图。另外,在图13中,假设对帧i-1的编码处理在时间t开始。
如已经叙述那样,通过AAC-ELD的低延迟滤波器组的窗的特征,帧i-1的IMDCT变换后的输出
[数式25]
y &OverBar; i - 1
在时间t+3*N/4采样中得到。即,子帧1002及1003在时间t+3*N/4采样中得到。
子帧1004及子帧1005由于是将先行帧解码而重建的信号,所以已经取得。
此外,在时间t+2N采样中,得到帧i的ACELP合成信号。即,子帧1001(成分X)在时间t+2N采样中得到。但是,由于对子帧1001用通过相当于前半N/4个采样的部分为零的合成窗wR,8,所以可以在将子帧1001完全取得的N/4采样前开始声音的输出。
因此,如上述那样重建使用子帧1001~1005的信号[ai-1,bi-1]并输出的情况下的延迟量是2N-N/4=7*N/4采样。
[1-4.总结]
如以上说明,根据声音信号混合编码器500及声音信号混合解码器900,能够将在将作为编码模式被从FD编码模式切换为ACELP编码模式的最初的帧的转变帧解码的情况下发生的混叠降低,实现FD解码技术与ACELP解码技术的无缝的切换。
另外,如图14所示,声音信号混合解码器900也可以还具备TCX解码器906。
图14所示的TCX解码器906通过TCX解码处理从TCX系数生成TCX合成信号。即,TCX解码器906将通过TCX编码模式编码的帧解码。
另外,为了实现更加高的音质,声音信号混合解码器900也可以还具备合成误差补偿(SEC:Synthesis Error Compensation)装置。
SEC处理在为了生成最终的合成信号而将解码对象帧i解码的时点进行。追加SEC装置的目的是,为了提高音质,将在声音信号混合解码器900中通过切换编码模式而发生的合成误差降低(除去)。
图15是表示使用合成误差补偿装置重建帧i-1的信号的方法的图。这里,为了将时间域的混叠的影响有效率地补偿,对重建后的信号[ai-1,bi-1]进行SEC处理。
SEC装置在解码对象帧中,在将编码处理时用DCT-IV、AVQ方式等变换而计算出的合成误差信息解码。将解码后的合成误差信息与通过SEC处理重建后的信号[ai-1,bi-1]相加,将重建后的信号修正。具体而言,如图15的(a)所示,将子帧1101修正为子帧2901,如图15的(b)所示,将子帧1102修正为子帧2902。
为了在声音信号混合解码器900侧进行SEC处理,需要将上述合成误差信息在声音信号混合编码器500侧编码。
图16是表示合成误差信息的编码、解码方法的图。
如图16所示,在将合成误差信息编码的情况下,声音信号混合编码器500具备本地解码器508和本地编码器。
本地解码器508将由编码器(ACELP编码器504、FD编码器505或TCX编码器507)编码的原来的信号(编码前的信号)解码。重建的信号(解码后的原来的信号)与原来的信号的差是合成误差信息。
本地编码器509使用DCT-IV、AVQ(Adaptive Vector Quantization:自适应矢量量化)等将合成误差信息编码(变换)。将编码后的合成误差信息通过声音信号混合解码器900具备的SEC装置907解码(逆变换),用于通过使用图15说明那样的基于SEC处理的重建后的信号的修正。
(实施方式2)
在实施方式2中,对将编码模式从ACELP编码模式切换为FD编码模式的情况下的声音信号混合编码器500的编码方法及声音信号混合解码器900的解码方法进行说明。另外,声音信号混合编码器500及声音信号混合解码器900的结构与实施方式1是相同的。
[2-1.编码方法]
图17是表示编码模式被从ACELP编码模式切换为FD编码模式的情况下的编码的帧的图。
帧i-1通过ACELP编码模式被编码。帧i通过FD编码模式与先行的3个帧i-3、i-2、i-1连结而被编码。
[2-2.解码方法]
以下,说明对由声音信号混合编码器500如图17所示那样编码的编码信号进行解码的声音信号混合解码器900的解码方法。
通常,在将解码对象帧i解码的情况下,通过如上述那样与先行的3个帧i-3、i-2、i-1进行重复相加处理,得到帧i-1的信号。
但是,上述重复相加处理是以连续的帧全部通过FD编码模式被编码为前提的处理。这里,在帧i是编码模式被从ACELP编码模式切换为FD编码模式的情况下的转变帧的情况下,作为先行的3个帧的帧i-3、i-2、i-1被用ACELP编码模式编码。因此,在对解码对象帧i进行通常的FD解码处理的情况下,会发生混叠。同样,由于在帧i+1、帧i+2中也在先行的3个帧中包含有用ACELP编码模式编码的帧,所以会发生混叠。
[2-2-1.解码对象帧i的解码方法]
图18是表示用ACELP编码模式编码的信号切换为用FD编码模式编码的信号时的、块切换部904的切换控制(解码方法)的示意图。
在将解码对象帧i解码而重建帧i-1的信号[ai-1,bi-1]的情况下,为了降低混叠成分,块切换部904使用以下的3个信号进行解码处理。
第1,可使用在将解码对象帧i通过AAC-ELD低延迟滤波器组进行逆变换后、进行加窗处理后的信号中的对应于帧i-3的部分的信号。该信号在图18中被表示为子帧1401及子帧1402。
第2,可使用通过将解码对象帧i-1进行ACELP解码处理而得到的ACELP合成信号[ai-1,bi-1]。该信号是在图18中被表示为子帧1403及1404的信号。
第3,可使用通过将解码对象帧i-3进行ACELP解码处理而得到的帧i-3的信号[ai-3,bi-3]。帧i-3的信号在图18中被表示为子帧1407及子帧1408。
接着,对使用上述3个信号的解码处理更详细地说明。
图19是重建帧i-1的信号[ai-1,bi-1]的方法的流程图。
生成将解码对象帧i通过AAC-ELD低延迟滤波器组逆变换后、进行加窗处理后的信号(第8信号)(图19的S301)。第8信号用以下的式子表示。
[数式26]
y &OverBar; i = [ ( - a i - 3 w 1 - ( b i - 3 w 2 ) R + a i - 1 w 5 + ( b i - 1 w 6 ) R ) w R , 8 ,
( - ( a i - 3 w 1 ) R - b i - 3 w 2 + ( a i - 1 w 5 ) R + b i - 1 w 6 ) w R , 7 ,
( - a i - 2 w 3 + ( b i - 2 w 4 ) R + a i w 7 - ( b i w 8 ) R ) w R , 6 ,
( ( a i - 2 w 3 ) R - b i - 2 w 4 - ( a i w 7 ) R + b i w 8 ) w R , 5 ,
( a i - 3 w 1 + ( b i - 3 w 2 ) R - a i - 1 w 5 - ( b i - 1 w 6 ) R ) w R , 4 ,
( ( a i - 3 w 1 ) R + b i - 3 w 2 - ( a i - 1 w 5 ) R - b i - 1 w 6 ) w R , 3 ,
( a i - 2 w 3 - ( b i - 2 w 4 ) R - a i w 7 + ( b i w 8 ) R ) w R , 2 ,
( - ( a i - 2 w 3 ) R + b i - 2 w 4 + ( a i w 7 ) R - b i w 8 ) w R , 1 ]
其中,对应于帧i-3的部分的信号(在图18中被表示为子帧1401及子帧1402的信号)分别用以下的式子表示。
[数式27]
[c-4]i=(-ai-3w1-(bi-3w2)R+ai-1w5+(bi-1w6)R)wR,8
[数式28]
[d-4]i=(-(ai-3w1)R-bi-3w2+(ai-1w5R+bi-1w6)wR,7
图20A是表示重建帧i-1的信号[ai-1,bi-1]的方法的一例的图。对将通过将第i-1帧用ACELP解码处理解码而得到的信号进行加窗处理的加窗处理后的信号(第4信号)、加上将该第4信号折叠处理后的信号而得到的信号是
[数式29]
[ai-1w7-(bi-1w8)R,-(ai-1w7)R+bi-1w8]
所示那样的。应用窗[wR,6,wR,5
[数式30]
[ai-1w7-(bi-1w8)R,-(ai-1w7)R+bi-1w8]
生成信号
[数式31]
[ai-1w7wR,6-(bi-1w8)RwR,6,-(ai-1w7)RwR,5+bi-1w8wR,5]
(第5信号)(图19的S302)。第5信号在图20A中被表示为子帧1501及子帧1502。
图20B是表示重建帧i-1的信号[ai-1,bi-1]的方法的一例的另一个图。对通过将第i-3帧用ACELP解码处理解码而得到的信号进行加窗处理后的第6信号、加上将该第6信号折叠处理后的信号后的信号为
[数式32][ai-3w1+(bi-3w2)R,(ai-3w1)R+bi-3w2]
所示那样的。通过对该信号应用窗[wR,8,wR,7],得到
[数式33]
[ai-3w1wR,8+(bi-3w2)RwR,8,(ai-3w1)RwR,7+bi-3w2wR,7]
(第7信号)(图19的S303)。
如图20B所示,通过将该第7信号与第6信号(子帧1501及子帧1502)、以及作为从帧i扩展的混叠成分的第8信号(子帧1401及子帧1402)相加,生成帧i-1的重建信号[ai-1,bi-1](图19的S304)。
[2-2-2.解码对象帧i+1的解码方法]
在将解码对象帧i+1解码而重建帧i的信号[ai,bi]的情况下,为了降低混叠成分,块切换部904使用以下的3个信号进行解码处理。
第1,可使用在将解码对象帧i+1通过AAC-ELD低延迟滤波器组逆变换后、进行加窗处理后的信号中的对应于帧i-2的部分的信号(第9信号)。将解码对象帧i+1通过AAC-ELD低延迟滤波器组逆变换、进行加窗处理后的信号可表示为
[数式34]
y &OverBar; i + 1
[数式35]
y &OverBar; i + 1
提取的、对应于帧i-2的部分(混叠部分)是以下这样的。
[数式36]
[c-4,d-4]i+1=[(-ai-2w1-(bi-2w2)R+aiw5+(biw6)R)wR,8
(-(ai-2wi)R-bi-2w2+(aiw5)R+biw6)wR,7]
第2,可使用在将解码对象帧i通过AAC-ELD低延迟滤波器组逆变换后、进行加窗处理后的信号中的对应于帧i-2的部分的信号(第10信号)。将解码对象帧i通过AAC-ELD低延迟滤波器组逆变换、进行加窗处理后的信号可表示为
[数式37]
y &OverBar; i
从该式提取的、对应于帧i-2的部分是以下这样的。
[数式38]
[c-3,d-3]i=[(-ai-2w3+(bi-2w4)R+aiw7-(biw8)R)wR,6
((ai-2w3)R-bi-2w4-(aiw7)R+biw8)wR,5]
第3,除了从
[数式39]
y &OverBar; i
提取的对应于上述帧i-2的部分、和从
[数式40]
y &OverBar; i + 1
提取的对应于帧i-2的部分以外,还可以使用通过将解码对象帧i-2进行ACELP解码处理而得到的帧i-2的信号[ai-2,bi-2]。该信号在图18中被表示为子帧1405及子帧1406。
图21是表示重建帧i的信号的方法的一例的图。
对帧i-2的信号[ai-2,bi-2](第11信号)进行加窗处理[w1,w2](第1加窗处理)后的信号中的相当于帧前半的信号被表示为ai-2W1。通过对该信号加上对帧i-2的信号进行加窗处理后的信号中的作为相对于帧后半的信号的bi-2W2进行折叠处理后的信号(bi-2W2R,生成第12信号。
进而,通过对该第12信号组合(连结)将该第12信号进行折叠处理后的信号,得到信号
[数式41][(ai-2w1+(bi-2w2)R,(ai-2w1)R+bi-2w2]
这里,将窗[wR,8,wR,7]对
[数式42]
[(ai-2w1+(bi-2w2)R,(ai-2w1)R+bi-2w2]
应用,得到第13信号(混叠成分)
[数式43]
[(ai-2w1+(bi-2w2)R)wR,8,((ai-2w1)R+bi-2w2)wR,7]
另一方面,对帧i-2的信号进行加窗处理[w3,w4](第2加窗处理)后的信号中的相当于帧前半的信号被表示为ai-2W3。通过对该信号加上将作为对帧i-2的信号进行加窗处理后的信号中的相当于帧后半的信号的bi -2W4进行折叠处理后的信号(bi-2W4R,生成第14信号。
进而,通过对该第14信号组合(连结)将该15信号折叠处理并且使符号反转(乘以-1)后的信号,得到信号
[数式44]
[(ai-2w3-(bi-2w4)R,-(ai-2w3)R+bi-2w4]
这里,将窗[wR,6,wR,5]对
[数式45]
[(ai-2w3-(bi-2w4)R,-(ai-2w3)R+bi-2w4]
应用,得到第15信号(混叠成分)
[数式46]
[(ai-2w3-(bi-2w4)R)wR,6(-(ai-2w3)R+bi-2w4)wR,5]
最后,如图21所示,为了取得降低了混叠的帧i的信号[ai,bi],对从
[数式47]
y &OverBar; i + 1
[数式48]
y &OverBar; i
提取的第9信号及第10信号加上第15信号。
[数式49]
[(-ai-2w1-(bi-2w2)R+aiw5+(biw6)R)wR,8
(-(ai-2w1)R-bi-2w2+(aiw5)R+biw6)wR,7]
+[(-ai-2w3+(bi-2w4)R+aiw7-(biw8)R)wR,6
((ai-2w3)R-bi-2w4-(aiw7)R+biw8)wR,5]
+[(ai-2w1+(bi-2w2)R)wR,8,((ai-2w1)R+bi-2w2)wR,7]
+[(ai-2w3-(bi-2w4)R)wR,6,(-(ai-2w3)R+bi-2w4)wR,5]
=[ai(w5wR,8+w7wR,6),bi(w6wR,7+w8wR,5)]
这里,如果考虑上述窗的特性,则从解码对象帧i+1重建帧i的信号[ai,bi](子帧1701及1702)。
[2-2-3.解码对象帧i+2的解码方法]
在将解码对象帧i+2解码而重建帧i+1的信号[ai+1,bi+1]的情况下,为了降低混叠成分,块切换部904使用以下的5个信号进行解码处理。
第1,可使用将帧i+2通过AAC-ELD低延迟滤波器组逆变换后、进行加窗处理后的信号中的对应于帧i-1的部分(混叠部分)的信号(第16信号)。将帧i+2通过AAC-ELD低延迟滤波器组逆变换、进行加窗处理后的信号可表示为
[数式50]
y &OverBar; i + 2
[数式51]
y &OverBar; i + 2
提取的、对应于帧i-1的部分(混叠部分)是以下这样的。
[数式52]
[c-4,d-4]i+2=[(-ai-1w1-(bi-1w2)R+ai+1w5+(bi+1w6)R)wR,8
(-(ai-1w1)R-bi-1w2+(ai+1w5)R+bi+1w6)wR,7]
第2,可使用将帧i通过AAC-ELD低延迟滤波器组逆变换后、进行加窗处理后的信号中的对应于帧i-1的部分(混叠部分)的信号(第18信号)。将帧i通过AAC-ELD低延迟滤波器组逆变换、进行加窗处理后的信号可表示为
[数式53]
y &OverBar; i
第3,可使用将帧i+1通过AAC-ELD低延迟滤波器组逆变换后、进行加窗处理后的信号中的对应于帧i-1的部分(混叠部分)的信号(第17信号)。将帧i+1通过AAC-ELD低延迟滤波器组逆变换、进行加窗处理后的信号可表示为
[数式54]
y &OverBar; i + 1
上述第18信号是以下这样的。
[数式55]
[c-3,d-3]i+1=[(-ai-1w3+(bi-1w4)R+ai+1w7-(bi+1w8)R)wR,6
((ai-1w3)R-bi-1w4-(ai+1w7)R+bi+1w8)wR,5]
此外,上述第17信号是以下这样的。
[数式56]
[c-2,d-2]i=[(ai-3w1+(bi-3w2)R-ai-1w5-(bi-1w6)RwR,4
((ai-3w1)R+bi-3w2-(ai-1w5)R-bi-1w6)wR,3]
第4,除了从
[数式57]
y &OverBar; i
提取的上述第18信号、从
[数式58]
y &OverBar; i + 1
提取的上述第17信号、和从
[数式59]
y &OverBar; i + 2
提取的上述第16信号以外,还可使用在图18中被表示为子帧1407及子帧1408的信号(第19信号)。子帧1407及子帧1408是将帧i-3通过ACELP解码处理解码后的信号[ai-3,bi-3]。
第5,可使用在图20B中被表示为子帧1601及子帧1602的帧i-1的重建信号[ai-1,bi-1]。
图22是表示重建帧i+1的信号的方法的一例的图。
对帧i-3的信号[ai-3,bi-3](第19信号)进行加窗处理[w1,w2]后的信号中的相当于帧前半的信号被表示为ai-3W1。通过对该信号加上将作为对帧i-3的信号进行加窗处理后的信号中的相当于帧后半的信号的bi -3W2折叠处理后的信号(bi-3W2R,生成第20信号。
进而,通过对该第20信号组合(连结)将该第20信号进行折叠处理后的信号,得到信号
[数式60]
-[ai-3w1+(bi-3w2)R,(ai-3w1)R+bi-3w2]
这里,将窗[wR,4,wR,3]对
[数式61]
-[ai-3w1+(bi-3w2)R,(ai-3w1)R+bi-3w2]
应用,得到第21信号(混叠成分)
[数式62]
-[(ai-3w1+(bi-3w2)R)wR,4,((ai-3w1)R+bi-3w2)wR,3]
另一方面,对帧i-1的重建信号[ai-1,bi-1]进行加窗处理[w7,w8]后的信号中的相当于帧前半的信号可表示为ai-1W7。通过对该信号加上将作为对帧i-1的重建信号进行加窗处理后的信号中的相当于帧后半的信号的bi-1W8进行折叠处理后的信号(bi-1W8R,生成第22信号。
进而,通过对该第22信号组合(连结)将该第22信号进行折叠处理并使符号反转(乘以-1)后的信号,得到信号
[数式63]
[-ai-1w7+(bi-1w8)R,(ai-1w7)R-bi-1w8]
这里,将窗[wR,2,wR,1]对
[数式64]
[-ai-1w7+(bi-1w8)R,(ai-1w7)R-bi-1w8]
应用,得到第23信号(混叠成分)
[数式65]
[(-ai-1w7+(bi-1w8)R)wR,2,((ai-1w7)R-bi-1w8)wR,1]
最后,如图22所示,为了取得降低了混叠的帧i+1的信号[ai,bi],将从
[数式66]
y &OverBar; i
[数式67]
y &OverBar; i + 1
[数式68]
y &OverBar; i + 2
提取的第16信号、第17信号及第18信号、上述第21信号、和上述第23信号相加。
[数式69]
[(-ai-1w1-(bi-1w2)R+ai+1w5+(b+1w6)R)wR,8
(-(ai-1w1)R-bi-1w2+(ai+1w5)R+bi+1w6)wR,7]
+[(-ai-1w3+(bi-1w4)R+ai+1w7-(bi+1w8)R)wR,6
((ai-1w3)R-bi-1w4-(ai+1w7)R+bi+1w8)wR,5]
+[(ai-3w1+(bi-3w2)R-ai-1w5-(bi-1w6)R)wR,4
((ai-3w1)R+bi-3w2-(ai-1w5)R-bi-1w6)wR,3]
-[(ai-3w1+(bi-3w2)R)wR,4,((ai-3w1)R+bi-3w2)wR,3]
+[(-ai-1w7+(bi-1w8)R)wR,2,((ai-1w7)R-bi-1w8)wR,1]
=[-ai-1(w1wR,8+w3wR,6+w5wR,4+w7wR,2)+ai+1(w5wR,8+w7wR,6),
-bi-1(w2wR,7+w4wR,5+w6wR,3+w8wR,1)+bi+1(w6wR,7+w8wR,5)]
这里,如果考虑上述窗的特性,则可从解码对象帧i+2重建帧i+1的信号[ai+1,bi+1](子帧1801及1802)。
[2-3.延迟量]
接着,对以上说明的有关实施方式2的编码/解码处理的延迟量进行说明。
图23是表示有关实施方式2的编码/解码处理的延迟量的图。另外,在图23中,假设对帧i-1的编码处理在时间t开始。
帧i-1的ACELP合成信号在时间t+N采样中得到。即,子帧1501及1502(子帧1403及1404)在时间t+N采样中得到。
子帧1407及子帧1408由于是将先行帧解码而重建的信号,所以已经取得。
此外,如已经叙述那样,通过AAC-ELD的低延迟滤波器组的窗的特征,帧i的IMDCT变换后的输出在时间t+7*N/4采样中得到。即,子帧1401及1402在时间t+7*N/4采样中得到。但是,由于对子帧1401应用相当于前半N/4个采样的部分为零的合成窗wR,8,所以能够在完全取得子帧1401的N/4采样前开始声音的输出。
因此,如上述那样重建的信号[ai-1,bi-1]在时间t+3*N/2采样中开始输出,延迟量是(t+3*N/2)-t=3*N/2采样。
[2-4.总结]
如以上在实施方式2中说明那样,根据声音信号混合编码器500及声音信号混合解码器900,能够将对转变帧进行解码的情况下发生的混叠降低,该转变帧是编码模式被从ACELP编码模式切换为FD编码模式的最初的帧,并且能够实现ACELP解码处理与FD解码处理的无缝的切换。
另外,与实施方式1同样,有关实施方式2的声音信号混合解码器900也可以还具备图14所示那样的TCX解码器906。
另外,与实施方式1同样,为了实现更加高的音质,有关实施方式2的声音信号混合解码器900也可以还具备合成误差补偿(SEC)装置。
图24是表示使用SEC装置重建帧i-1的信号[ai-1,bi-1]的方法的图。图24所示的结构是对图20B所示的结构追加了SEC装置的结构。如图24所示,子帧1601及1602通过SEC处理分别被修正为子帧3101及3102。
图25是表示使用SEC装置重建帧i的信号[ai,bi]的方法的图。图25所示的结构是对图21所示的结构追加了SEC装置的结构。如图25所示,子帧1701及1702通过SEC处理分别被修正为子帧3201及3202。
图26是表示使用SEC装置重建帧i-1的信号[ai+1,bi+1]的方法的图。图26所示的结构是对图22所示的结构追加了SEC装置的结构。如图26所示,子帧1801及1802通过SEC处理分别被修正为子帧3301及3302。
这样,通过将重建后的信号所包含的合成误差用设在解码器中的SEC装置进行补偿,能够进一步提高音质。
(实施方式3)
在实施方式3中,对编码模式从FD编码模式切换为TCX编码模式的情况下的声音信号混合编码器500的编码方法及声音信号混合解码器900的解码方法进行说明。
声音信号混合编码器500的结构与图9所示的结构是同样的,但图9中的ACELP编码器504可以省略。此外,声音信号混合解码器900的结构与图14所示的结构是同样的,但图14中的ACELP解码器903可以省略。
[3-1.编码方法]
首先,对编码模式被从FD编码模式切换为TCX编码模式的情况下的块切换部502的控制进行说明。
图27是表示编码模式被从FD编码模式切换为TCX编码模式的情况下的编码的帧的图。
在此情况下,当将帧i编码时,将添加了从先行的帧i-1的信号[ai-1,bi-1]生成的成分X的信号编码。具体而言,块切换部502生成将成分X与帧i的信号[ai,bi]加在一起的扩展帧。扩展帧是(N+N/2)的长度。扩展帧被块切换部502向TCX编码器507发送,被用TCX编码模式编码。此外,成分X用与使用图8A及图8B说明的方法相同的方法生成。
[3-2.解码方法]
接着,对用FD编码模式编码的信号切换为用TCX编码模式编码的信号时的、块切换部904的切换控制(解码方法)进行说明。
图28是表示用FD编码模式编码的信号切换为用TCX编码模式编码的信号时的、块切换部904的切换控制(解码方法)的示意图。如图28所示,帧i-1是通过FD编码模式编码的帧,作为解码对象帧的帧i是用TCX编码模式编码的帧。
如上述那样,在用FD编码模式编码的信号连续的情况下,可以将解码对象帧i解码而重建帧i-1的信号。即,在图11所示的情况下,到帧i-2的信号为止,能够通过通常的FD解码处理重建。但是,帧i-1的信号由于解码对象帧i是用ACELP编码模式而编码的,所以如果用通常的方法重建,则会发生因混叠成分带来的不自然的声音。即,帧i-1的信号如图11所示那样为混叠部分。
为了降低混叠成分,块切换部904使用以下的3个信号进行解码处理。
第1,可使用通过将解码对象帧i进行TCX解码处理得到的TCX合成信号的成分X的信号,用于重建降低了混叠成分的帧i-1的信号。该信号是在图11中被表示为子帧2001的信号,是使用图8A说明的成分X。
如使用图8A说明那样,成分X具体而言是ai-1w5+(bi-1w6R
第2,可使用将解码对象帧i-1通过AAC-ELD低延迟滤波器组逆变换后、进行加窗处理后的信号中的对应于帧i-3的部分的信号用于重建降低了混叠成分的帧i-1的信号。该信号在图28中被表示为子帧2002及子帧2003。
更具体地讲,该信号通过将帧i-1用AAC-ELD低延迟滤波器组作为通常帧以长度4N进行逆变换、再进行加窗处理而得到。逆变换信号被表示为
[数式70]
y &OverBar; i - 1
其中,对应于帧i-3的部分的信号(在图28中被表示为子帧2002及子帧2003的混叠部分)从上述逆变换信号如以下这样提取。即,
[数式71]
[c-3]i-1=-ai-3w3wR,6+(bi-3w4)RwR,6+ai-1w7wR,6-(bi-1w8)RwR,6
[数式72]
[d-3]i-1=(ai-3w3)RwR,5-bi-3w4wR,5-(ai-1w7)RwR,5+bi-1w8wR,5
是分别对应于子帧2002和子帧2003的信号。
第3,可使用通过将解码对象帧i-2进行FD解码处理得到的帧i-3的信号[ai-3,bi-3]用于重建降低了混叠成分的帧i-1的信号。帧i-3的信号在图28中被表示为子帧2004及子帧2005。
使用上述信号的重建降低了混叠成分的帧i-1的信号的方法与使用图12A及图12B说明的方法是相同的。具体而言,只要考虑将图12A中的子帧1001、1002、1003、1004、1005分别替换为图28的子帧2001、2002、2003、2004、2005就可以。由此,重建帧i的信号[ai-1,bi-1]。
[3-3.延迟量]
接着,对以上说明的有关实施方式1的编码/解码处理的延迟量进行说明。
图29是表示有关实施方式3的编码/解码处理的延迟量的图。另外,在图29中,假设对帧i-1的编码处理在时间t开始。
如已经叙述那样,通过AAC-ELD的低延迟滤波器组的窗的特征,帧i-1的被IMDCT变换后的输出
[数式73]
y &OverBar; i - 1
在时间t+3*N/4采样中得到。即,子帧2002及2003在时间t+3*N/4采样中得到。
子帧2004及子帧2005由于是将先行帧解码而重建的信号,所以已经取得。
此外,在时间t+2N采样中得到帧i的TCX合成信号。即,子帧2001(成分X)在时间t+2N采样中得到。但是,由于对子帧2001应用相当于前半N/4个采样的部分为零的合成窗wR,8,所以在将子帧2001完全取得的N/4采样前开始声音的输出。
因此,如上述那样使用子帧2001~2005重建信号[ai-1,bi-1]并输出的情况下的延迟量是2N/4-N/4=7*N/4采样。
[3-4.总结]
如以上说明,根据声音信号混合编码器500及声音信号混合解码器900,能够降低对作为编码模式被从FD编码模式切换为TCX编码模式的最初的帧的转变帧进行解码的情况下发生的混叠,能够实现FD解码技术与TCX解码技术的无缝的切换。
另外,为了实现更加高的音质,声音信号混合解码器900也可以还具备合成误差补偿(SEC)装置。该情况下的信号的重建方法与图15所示的方法是同样的。
(实施方式4)
在实施方式4中,对将编码模式从TCX编码模式切换为FD编码模式的情况下的声音信号混合编码器500编码方法及声音信号混合解码器900的解码方法进行说明。
声音信号混合编码器500的结构与图9所示的结构是同样的,但图9中的ACELP编码器504可以省略。此外,声音信号混合解码器900的结构与图14所示的结构是同样的,但图14中的ACELP解码器903可以省略。
[4-1.编码方法]
图30是表示编码模式被从TCX编码模式切换为FD编码模式的情况下的编码的帧的图。
帧i-1被通过TCX编码模式编码。将帧i通过FD编码模式与先行的3个帧i-3、i-2、i-1连结而编码。
[4-2.解码方法]
以下,说明对由声音信号混合编码器500如图31所示那样编码的编码信号进行解码的声音信号混合解码器900的解码方法。
[4-2-1.解码对象帧i的解码方法]
在将解码对象帧i解码的情况下,为了降低混叠成分,块切换部904使用以下的3个信号进行解码处理。
第1,可使用将解码对象帧i通过AAC-ELD低延迟滤波器组逆变换后、进行加窗处理后的信号中的对应于帧i-3的部分的信号。该信号在图31中被表示为子帧2301及子帧2302。
第2,可使用通过将解码对象帧i-1进行TCX解码处理而得到的TCX合成信号[ai-1,bi-1]。该信号在图31中被表示为子帧2303及2304的信号。
第3,可使用通过将解码对象帧i-3进行TCX解码处理而得到的帧i-3的信号[ai-3,bi-3]。帧i-3的信号在图31中被表示为子帧2307及子帧2308。
将解码对象帧i通过AAC-ELD低延迟滤波器组逆变换后、进行加窗处理后的信号(第8信号)的对应于帧i-3的部分的信号(在图31中被表示为子帧2301及子帧2302的信号)分别用以下的式子表示。
[数式74]
[c-4]i=(-ai-3w1-(bi-3w2)R+ai-1w5+(bi-1w6)R)wR,8
[数式75]
[d-4]i=(-(ai-3w1)R-bi-3w2+(ai-1w5)R+bi-1w6)wR,7
这里,将解码对象帧i-1通过TCX解码处理得到的TCX合成信号[ai -1,bi-1]为了便于说明而如
[数式76]
Figure BDA00003410587000441
那样分割。对应于此,窗[w7,w8]被分割为
[数式77]
被表示为子帧2303及2304的TCX合成信号由于后续的帧没有被用TCX编码模式编码,所以包含混叠成分,可表示为
[数式78]
Figure BDA00003410587000451
这里,考虑分析窗w8的特性、即w8,2=0,如果将窗[w7,w8]对TCX合成信号
[数式79]
Figure BDA00003410587000452
应用,则得到
[数式80]
Figure BDA00003410587000453
这与图32所示的
[数式81]
Figure BDA00003410587000454
实际上是等价的。
因而,图32所示的生成子帧2401、2402的方法与图20A所示的方法是相同的。
即,以后的处理与使用图20B说明的方法是同样。具体而言,只要考虑在图20B中,子帧1401、1402、1407、1408、1501及1502分别被替换为子帧2301、2302、2307、2308、2401及2402就可以。
[4-2-2.解码对象帧i+1的解码方法]
在将解码对象帧i+1解码的情况下,为了降低混叠成分,块切换部904使用以下的3个信号进行解码处理。
第1,可使用将解码对象帧i+1通过AAC-ELD低延迟滤波器组逆变换后、进行加窗处理后的信号中的对应于帧i-2的部分的信号(第9信号)。
第2,可使用将解码对象帧i通过AAC-ELD低延迟滤波器组逆变换后、进行加窗处理后的信号中的对应于帧i-2的部分的信号(第10信号)。
关于以上的第9信号及第10信号,与使用图21说明的是同样的。
第3,可使用通过将解码对象帧i-2进行TCX解码处理而得到的帧i-2的信号[ai-2,bi-2]。该信号在图31中被表示为子帧2305及子帧2306。
使用上述3个信号的解码对象帧i+1的解码方法与使用图21说明的方法是同样的。具体而言,只要考虑在图21中子帧1405、1406分别被替换为子帧2305及2306就可以。
[4-2-3.解码对象帧i+2的解码方法]
在将解码对象帧i+2解码的情况下,为了降低混叠成分,块切换部904使用以下的5个信号进行解码处理。
第1,可使用将帧i+2通过AAC-ELD低延迟滤波器组逆变换后、进行加窗处理后的信号中的对应于帧i-1的部分(混叠部分)的信号(第16信号)。
第2,可使用将帧i通过AAC-ELD低延迟滤波器组逆变换后、进行加窗处理后的信号中的对应于帧i-1的部分(混叠部分)的信号(第18信号)。
第3,可使用将帧i+1通过AAC-ELD低延迟滤波器组逆变换后、进行加窗处理后的信号中的对应于帧i-1的部分(混叠部分)的信号(第17信号)。
这些第16信号、第17信号及第18信号的3个信号与使用图22说明的是同样的。
第4,可使用将帧i-3通过TCX解码处理解码后的信号[ai-3,bi-3]。
第5,可使用将帧i-1通过TCX解码处理解码后的信号[ai-1,bi-1]。
使用上述5个信号的解码对象帧i+2的解码方法与使用图22说明的方法是同样的。具体而言,只要考虑在图22中子帧1407、1408分别被替换为子帧2307及2308就可以。此外,只要考虑图22所示的子帧1601及1602别替换为用在解码对象帧i的解码方法中说明的方法(在图20B中将帧替换为TCX编码模式的帧的方法)生成的帧就可以。
[4-3.延迟量]
接着,对以上说明的有关实施方式4的编码/解码处理的延迟量进行说明。
图33是表示有关实施方式4的编码/解码处理的延迟量的图。另外,在图33中,假设对帧i-1的编码处理在时间t开始。
帧i-1的TCX合成信号在时间t+N采样中得到。即,子帧2401及2402(子帧2303及2304)在时间t+N采样中得到。
子帧2307及子帧2308由于是将先行帧解码而重建的信号,所以已经取得。
此外,如已经叙述那样,通过AAC-ELD的低延迟滤波器组的窗的特征,帧i的被IMDCT变换后的输出在时间t+7*N/4采样中得到。即,子帧2301及子帧2302在时间t+7*N/4采样中得到。但是,由于对子帧2301应用相当于前半N/4个采样的部分为零的合成窗wR,8,所以可以在将子帧2301完全取得的N/4采样前开始声音的输出。
因此,如上述那样重建的信号[ai-1,bi-1]在时间t+3*N/2采样中开始输出,延迟量是(t+3*N/2)-t=3*N/2采样。
[4-4.总结]
如以上说明,根据声音信号混合编码器500及声音信号混合解码器900,能够将在对作为编码模式被从TCX编码模式切换为FD编码模式的最初的帧的转变帧进行解码的情况下发生的混叠降低,能够实现TCX解码技术与FD解码技术的无缝的切换。
另外,为了实现更加高的音质,声音信号混合解码器900也可以还具备合成误差补偿(SEC)装置。该情况下的信号的重建方法与图24~图26所示的方法是同样的。
(实施方式5)
在实施方式5中,对将过渡信号进行编码的情况下的声音信号混合编码器的编码方法、以及将过渡信号进行解码的情况下的声音信号混合解码器的解码方法进行说明。在实施方式5中,声音信号混合编码器500的结构与图9所示的结构是同样的,但图9中的ACELP编码器504可以省略可能。此外,声音信号混合解码器900的结构与图14所示的结构是同样的,但图14中的ACELP解码器903可以省略。
在FD编码模式中,由于使用长窗口(long window)(使用时间幅度较大的窗),所以不适合于能量(=信号功率,即与编码帧中的声音信号的振幅的平方和成比例的值)急剧地变化的过渡信号的编码。即,当对过渡信号进行处理时,也可以使用短窗口(short window)(时间幅度较小的窗)。
[5-1.编码方法]
首先,在编码对象帧i是过渡信号(过渡帧)的情况下,当将编码对象帧i编码时,将添加从先行的帧i-1的信号[ai-1,bi-1]生成的成分X后的信号编码。具体而言,块切换部502生成将成分X与帧i的信号[ai,bi]加在一起的扩展帧。扩展帧是(N+N/2)的长度。扩展帧被块切换部502向TCX编码器507发送,被用TCX编码模式编码。另外,此时,TCX编码器507进行使用MDCT滤波器组的短窗口模式的TCX编码。此时,编码的帧与使用图27的说明的帧是同样的。此外,成分X用与使用图8A及图8B说明的方法相同的方法生成。
另外,编码对象帧i是否是过渡信号的判断例如可以根据编码对象帧的能量是否超过规定的阈值来进行,但并不限定于这样的方法。
[5-2.解码方法]
如上述那样编码的过渡帧的解码方法与用FD编码模式编码的信号切换为用TCX编码模式编码的信号时的解码方法是同样的。即,与使用图12A或图28说明的方法是同样的。
另外,实施方式5的编码/解码处理的延迟量与实施方式1及3相同,是7*N/4采样。
[5-3.总结]
如以上说明,根据声音信号混合解码器900,在用FD编码模式进行编码时的过渡帧中,通过用TCX编码模式编码、解码,能够使音质进一步提高。
另外,为了实现更加高的音质,声音信号混合解码器900也可以还具备合成误差补偿(SEC)装置。该情况下的信号的重建方法与图15所示的方法是同样的。
(变形例)
以上,将本发明基于上述实施方式进行了说明,但本发明当然并不限定于上述实施方式。
例如,作为LPD编码模式,也可以使用VSELP(Vector Sum ExcitedLinear Prediction:矢量和激励线性预测)编码模式等ACELP以外的CELP方式。关于解码处理也同样,也可以使用ACELP以外的CELP方式。
此外,在本实施方式中,作为FD编码模式的一例而主要对AAC-ELD模式进行了说明,但本发明不仅是AAC-ELD模式,能够应用于需要基于多个先行帧的重叠处理的编码方式。
此外,以下这样的情况也包含在本发明中。
(1)上述各装置具体而言可以通过由微处理器、ROM、RAM、硬盘单元、显示器单元、键盘、鼠标等构成的计算机系统实现。在RAM或硬盘单元中存储有计算机程序。通过微处理器按照计算机程序动作,各装置实现其功能。这里,计算机程序是为了达到规定的功能而将表示对计算机的指令的命令代码组合多个而构成的。
(2)构成上述各装置的构成要素的一部分或全部也可以由1个系统LSI(Large Scale Integration:大规模集成电路)构成。系统LSI是将多个构成部集成在1个芯片上而制造的超多功能LSI,具体而言是包括微处理器、ROM、RAM等而构成的计算机系统。在ROM中存储有计算机程序。通过微处理器从ROM向RAM装载计算机程序、按照装载的计算机程序进行运算等的动作,系统LSI实现其功能。
(3)构成上述各装置的构成要素的一部分或全部也可以由对于各装置可拆装的IC卡或单体的模块构成。IC卡或模块是由微处理器、ROM、RAM等构成的计算机系统。在IC卡或模块中也可以包含上述超多功能LSI。通过微处理器按照计算机程序动作,IC卡或模块实现其功能。该IC卡或该模块也可以具有耐篡改性。
(4)本发明也可以通过上述所示的方法实现。此外,也可以通过将这些方法用计算机实现的计算机程序实现,也可以通过由计算机程序构成的数字信号实现。
此外,本发明也可以通过将计算机程序或数字信号记录到计算机能够读取的记录介质、例如软盘、硬盘、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、BD(Blu-ray Disc)、半导体存储器等中的产品来实现。此外,也可以通过记录在这些记录介质中的数字信号实现。
此外,本发明也可以将计算机程序或数字信号经由电通信线路、无线或有线通信线路、以因特网为代表的网络、数字广播等传送。
此外,本发明也可以是具备微处理器和存储器的计算机系统,存储器存储有计算机程序,微处理器按照计算机程序动作。
此外,也可以通过将程序或数字信号记录到记录介质中并移送、或通过将程序或数字信号经由网络等移送,由独立的其他计算机系统实施。
(5)也可以将上述实施方式及上述变形例分别组合。
另外,本发明并不限定于这些实施方式或其变形例。只要不脱离本发明的主旨,对本实施方式或其变形例实施本领域的技术人员想到的各种变形后的形态、或者将不同的实施方式或其变形例中的构成要素组合而构建的形态也包含在本发明的范围内。
产业上的可利用性
本发明的声音信号混合解码器及声音信号混合编码器能够进行高音质低延迟的声音信号的编码及解码,能够在广播系统、便携用电视、便携电话通信、电视会议等中使用。
附图标记说明
500  声音信号混合编码器
501  高频编码器
502  块切换部
503  信号分类部
504  ACELP编码器
505  FD编码器
506  比特复用器
507  TCX编码器
508  本地解码器
509  本地编码器
900  声音信号混合解码器
901  解复用器
902  FD解码器
903  ACELP解码器
904  块切换部
905  高频解码器
906  TCX解码器
907  SEC装置
1001~1005、1101、1102  子帧
1401~1408、1501、1502、1601、1602  子帧
1701、1702、1801、1802  子帧
2001~2005、2301~2308、2401、2402  子帧
2901、2902、3101、3102、3201、3202  子帧
3301、3302  子帧

Claims (20)

1.一种声音信号混合解码器,对包括通过使用了低延迟滤波器组的音频编码处理而被编码的音频帧、和通过使用了线性预测系数的语音编码处理而被编码的语音帧的比特流进行解码,其特征在于,
具备:
低延迟变换解码器,通过低延迟逆滤波器组处理对上述音频帧进行解码;
语音信号解码器,对上述语音帧进行解码;以及
块切换部,进行控制,以便在上述比特流中的解码对象帧是上述音频帧的情况下将该解码对象帧通过上述低延迟变换解码器解码、在上述解码对象帧是上述语音帧的情况下将该解码对象帧通过上述语音信号解码器解码;
当上述解码对象帧是作为从上述音频帧切换为上述语音帧后的最初的上述语音帧的第i帧时,
在上述第i帧中,以编码后的状态包含第1信号,该第1信号是使用比上述第i帧靠前1帧的帧即第i-1帧的编码前的信号而生成的;
上述块切换部
(1)
进行将如下信号相加的处理而生成与编码前的上述第i-1帧的前半部分对应的信号,所述如下信号包括:将相当于第2信号的帧的前半部分的信号与对相当于上述第2信号的帧的后半部分的信号进行折叠处理后的信号相加、并进行加窗处理后的信号;通过将上述第i帧用上述语音信号解码器解码而得到的、对上述第1信号进行加窗处理后的信号;和第3信号的帧的前半部分的信号,其中所述第2信号是对比上述第i帧靠前3帧的帧即第i-3帧的重建后的信号进行加窗处理后的信号,该第i-3帧的重建后的信号是通过将比上述第i帧靠前2帧的帧即第i-2帧用上述低延迟变换解码器解码而得到的,所述第3信号是对上述第i-1帧进行上述低延迟逆滤波器组处理及加窗处理后的信号的与上述第i-3帧对应的部分;以及
进行将如下信号相加的处理而生成与编码前的上述第i-1帧的后半部分对应的信号,所述如下信号包括:将相当于上述第2信号的帧的后半部分的信号与对相当于上述第2信号的帧的前半部分的信号进行折叠处理后的信号相加、并进行加窗处理后的信号;对上述第1信号进行折叠处理及加窗处理后的信号;和相当于上述第3信号的帧的后半部分的信号;
或者
(2)
进行将如下信号相加的处理而生成与编码前的上述第i-1帧的前半部分对应的信号,所述如下信号包括:将相当于上述第2信号的帧的前半部分的信号与对相当于上述第2信号的帧的后半部分的信号进行折叠处理后的信号相加、并进行加窗处理后的信号;对上述第1信号进行折叠处理及加窗处理后的信号;和相当于上述第3信号的帧的前半部分的信号;以及
进行将如下信号相加的处理而生成与编码前的上述第i-1帧的后半部分对应的信号,所述如下信号包括:将相当于上述第2信号的帧的后半部分的信号与对相当于上述第2信号的帧的前半部分的信号进行折叠处理后的信号相加、并进行加窗处理后的信号;对上述第1信号进行加窗处理后的信号;和相当于上述第3信号的帧的后半部分的信号。
2.一种声音信号混合解码器,对包括通过使用了低延迟滤波器组的音频编码处理而被编码的音频帧、和通过使用了线性预测系数的语音编码处理而被编码的语音帧的比特流进行解码,其特征在于,
具备:
低延迟变换解码器,通过低延迟逆滤波器组处理对上述音频帧进行解码;
语音信号解码器,对上述语音帧进行解码;
块切换部,进行控制,以便在上述比特流中的解码对象帧是上述音频帧的情况下将该解码对象帧通过上述低延迟变换解码器解码、在上述解码对象帧是上述语音帧的情况下将该解码对象帧通过上述语音信号解码器解码;
当上述解码对象帧是作为从上述语音帧切换为上述音频帧后的最初的音频帧的第i帧时,
上述块切换部进行将第5信号、第7信号、第8信号相加的处理而生成作为与编码前的比上述第i帧靠前1帧的帧即第i-1帧对应的信号的重建信号,其中所述第5信号是将第4信号与对该第4信号进行折叠处理后的信号相加、并进行加窗处理后的信号,所述第4信号是对将上述第i-1帧用上述语音信号解码器解码得到的信号进行加窗处理后的信号;所述第7信号是将第6信号与对该第6信号进行折叠处理后的信号相加、并进行加窗处理后的信号,所述第6信号是对将比上述第i帧靠前3帧的帧即第i-3帧用上述语音信号解码器解码得到的信号进行加窗处理后的信号;所述第8信号是对上述第i帧进行上述低延迟逆滤波器组处理及加窗处理后的信号的与上述第i-3帧对应的部分。
3.如权利要求2所述的声音信号混合解码器,其特征在于,
当上述解码对象帧是比上述第i帧靠后1帧的帧即第i+1帧时,
上述块切换部进行将第9信号、第10信号、第13信号、第15信号相加的处理而生成与编码前的上述第i帧对应的信号,其中所述第9信号是对上述第i+1帧进行上述低延迟逆滤波器组处理及加窗处理后的信号中的、与比上述第i帧靠前2帧的帧即第i-2帧对应的部分;所述第10信号是对上述第i帧进行上述低延迟逆滤波器组处理及加窗处理后的信号的与上述第i-2帧对应的部分;所述第13信号是对第12信号连结对该第12信号进行折叠处理后的信号、并进行加窗处理后的信号,其中所述第12信号是通过将相当于对第11信号进行第1加窗处理后的信号的帧的前半部分的信号、与将相当于对上述第11信号进行上述第1加窗处理后的信号的帧的后半部分的信号折叠处理后的信号相加而得到的,而所述第11信号是通过将所述第i-2帧用所述语音信号解码器解码而得到的;所述第15信号是对第14信号连结对该第14信号进行折叠处理并将符号反转的信号、并进行加窗处理后的信号,其中所述第14信号是通过将相当于对上述第11信号进行与上述第1加窗处理不同的第2加窗处理后的信号的帧的前半部分的信号、与将相当于对上述第11信号进行上述第2加窗处理后的信号的帧的后半部分的信号折叠处理后的信号相加而得到的。
4.如权利要求3所述的声音信号混合解码器,其特征在于,
当上述解码对象帧是比上述第i帧靠后2帧的帧即第i+2帧时,
上述块切换部进行将第16信号、第17信号、第18信号、第21信号、第23信号相加的处理而生成与编码前的上述第i+1帧对应的信号,其中所述第16信号是对上述i+2帧进行上述低延迟逆滤波器组处理及加窗处理后的信号的与上述第i-1帧对应的部分;所述第17信号是对上述第i+1帧进行上述低延迟逆滤波器组处理及加窗处理后的信号的与上述第i-1帧对应的部分;所述第18信号是对上述第i帧进行上述低延迟逆滤波器组处理及加窗处理后的信号的与上述第i-1帧对应的部分;所述第21信号是对第20信号连结对该第20信号进行折叠处理后的信号、并进行加窗处理后的信号,其中所述第20信号是通过将相当于对第19信号进行加窗处理后的信号的帧的前半部分的信号、与将相当于对上述第19信号进行上述加窗处理后的信号的帧的后半部分的信号折叠处理后的信号相加而得到的,而所述第19信号是通过将上述第i-3帧用上述语音信号解码器解码而得到的;所述第23信号是对第22信号连结对该第22信号进行折叠处理并将符号反转的信号、并进行加窗处理后的信号,其中所述第22信号是通过将相当于对上述重建信号进行加窗处理后的信号的帧的前半部分的信号、与将相当于对上述重建信号进行上述加窗处理后的信号的帧的后半部分的信号折叠处理后的信号相加而得到的。
5.一种声音信号混合解码器,对包括通过使用了低延迟滤波器组的音频编码处理而被编码的音频帧、和通过使用了线性预测系数的语音编码处理而被编码的语音帧的比特流进行解码,其特征在于,
具备:
低延迟变换解码器,使用低延迟逆滤波器组处理对上述音频帧进行解码;
TCX解码器,对通过TCX变换码激励方式编码的上述语音帧进行解码;以及
块切换部,进行控制,以便在上述比特流中的解码对象帧是上述音频帧的情况下将该解码对象帧通过上述低延迟变换解码器解码、在上述解码对象帧是上述语音帧的情况下将该解码对象帧通过上述语音信号解码器解码;
当上述解码对象帧是从上述音频帧切换为上述语音帧后的最初的上述语音帧、而且是作为过渡信号被编码的帧的第i帧时,
在上述第i帧中,以编码后的状态包含第1信号,该第1信号是使用比上述第i帧靠前1帧的帧即第i-1帧的编码前的信号而生成的;
上述块切换部
(1)
进行将如下信号相加的处理而生成与编码前的上述第i-1帧的前半部分对应的信号,所述如下信号包括:将相当于第2信号的帧的前半部分的信号与对相当于上述第2信号的帧的后半部分的信号进行折叠处理后的信号相加、并进行加窗处理后的信号;通过将上述第i帧用上述语音信号解码器解码而得到的、对上述第1信号进行加窗处理后的信号;和第3信号的帧的前半部分的信号,其中所述第2信号是对比上述第i帧靠前3帧的帧即第i-3帧的重建后的信号进行加窗处理后的信号,该第i-3帧的重建后的信号是通过将比上述第i帧靠前2帧的帧即第i-2帧用上述低延迟变换解码器解码而得到的,所述第3信号是对上述第i-1帧进行上述低延迟逆滤波器组处理及加窗处理后的信号的与上述第i-3帧对应的部分;以及
进行将如下信号相加的处理而生成与编码前的上述第i-1帧的后半部分对应的信号,所述如下信号包括:将相当于上述第2信号的帧的后半部分的信号与对相当于上述第2信号的帧的前半部分的信号进行折叠处理后的信号相加、并进行加窗处理后的信号;对上述第1信号进行折叠处理及加窗处理后的信号;和相当于上述第3信号的帧的后半部分的信号;
或者
(2)
进行将如下信号相加的处理而生成与编码前的上述第i-1帧的前半部分对应的信号,所述如下信号包括:将相当于上述第2信号的帧的前半部分的信号与对相当于上述第2信号的帧的后半部分的信号进行折叠处理后的信号相加、并进行加窗处理后的信号;对上述第1信号进行折叠处理及加窗处理后的信号;和相当于上述第3信号的帧的前半部分的信号;以及
进行将如下信号相加的处理而生成与编码前的上述第i-1帧的后半部分对应的信号,所述如下信号包括:将相当于上述第2信号的帧的后半部分的信号与对相当于上述第2信号的帧的前半部分的信号进行折叠处理后的信号相加、并进行加窗处理后的信号;对上述第1信号进行加窗处理后的信号;和相当于上述第3信号的帧的后半部分的信号。
6.如权利要求1~5中任一项所述的声音信号混合解码器,其特征在于,
上述低延迟变换解码器是AAC-ELD高级音频编码-增强低延迟解码器,通过对对于上述音频帧及与该音频帧在时间上连续的且靠前的3个帧分别进行低延迟逆滤波器组处理及加窗处理后的信号中的各个信号进行重复相加处理,从而将该音频帧解码。
7.如权利要求1~4中任一项所述的声音信号混合解码器,其特征在于,
上述语音信号解码器是ACELP解码器,对使用ACELP代数码激励线性预测系数而被编码的上述语音帧进行解码。
8.如权利要求1~4中任一项所述的声音信号混合解码器,其特征在于,
上述语音信号解码器是TCX解码器,对通过TCX方式而被编码的上述语音帧进行解码。
9.如权利要求1~8中任一项所述的声音信号混合解码器,其特征在于,
还具备对与上述解码对象帧一起被编码的合成误差信息进行解码的合成误差补偿装置;
上述合成误差信息是表示上述比特流被编码之前的信号与将上述比特流解码后的信号之间的差的信息;
上述合成误差补偿装置将上述块切换部生成的上述编码前的上述第i-1帧的信号、上述块切换部生成的上述编码前的上述第i帧的信号、或上述块切换部生成的上述编码前的上述第i+1帧的信号使用解码后的上述合成误差信息进行修正。
10.一种声音信号混合编码器,其特征在于,
具备:
信号分类部,分析声音信号的音频特性,判断包含在上述声音信号中的帧是音频信号还是语音信号;
低延迟变换编码器,使用低延迟滤波器组对上述帧进行编码;
语音信号编码器,通过计算上述帧的线性预测系数,对该帧进行编码;以及
块切换部,进行控制,以便将上述信号分类部判断为是上述音频信号的编码对象帧通过上述低延迟变换编码器编码、将上述信号分类部判断为是上述语音信号的上述编码对象帧通过上述语音信号编码器编码;
上述块切换部
(1)在上述编码对象帧是作为上述信号分类部判断为是上述语音信号的帧的第i-1帧的1帧后的帧、而且是作为上述信号分类部判断为是上述音频信号的帧的第i帧时,
将如下信号和上述第i帧通过上述语音信号编码器编码:该信号是将对相当于上述第i-1帧的前半部分的信号进行加窗处理后的信号、与对相当于上述第i-1帧的后半部分的信号进行加窗处理并进行折叠处理后的信号相加而得到的信号;
或者
(2)将如下信号和上述第i帧通过上述语音信号编码器编码:该信号是将对相当于上述第i-1帧的后半部分的信号进行加窗处理后的信号、与对相当于上述第i-1帧的前半部分的信号进行加窗处理并进行折叠处理后的信号相加而得到的信号。
11.一种声音信号混合编码器,其特征在于,
具备:
信号分类部,分析声音信号的音频特性,判断包含在上述声音信号中的帧是音频信号还是语音信号;
低延迟变换编码器,使用低延迟滤波器组对上述帧进行编码;
TCX编码器,通过对上述帧的线性预测系数的残差进行MDCT改进离散余弦变换处理的TCX方式,对上述帧进行编码;
块切换部,进行控制,以便将上述信号分类部判断为是上述音频信号的编码对象帧通过上述低延迟变换编码器编码、将上述信号分类部判断为是上述语音信号的上述编码对象帧通过上述语音信号编码器编码;
当作为上述编码对象帧的第i帧是上述信号分类部判断为是上述音频信号、并且是能量急剧地变化的过渡信号的帧时,
上述块切换部
(1)将如下信号和上述第i帧通过上述语音信号编码器编码:该信号是将将相当于比上述第i帧靠前1帧的帧即第i-1帧的前半部分的信号进行加窗处理后的信号、与对相当于上述第i-1帧的后半部分的信号进行加窗处理并进行折叠处理后的信号相加而得到的信号;
或者
(2)将如下信号和上述第i帧通过上述语音信号编码器编码:该信号是将对相当于上述第i-1帧的后半部分的信号进行加窗处理后的信号、与对相当于上述第i-1帧的前半部分的信号进行加窗处理并进行折叠处理后的信号相加而得到的信号。
12.如权利要求10或11所述的声音信号混合编码器,其特征在于,
上述低延迟变换编码器是AAC-ELD编码器,通过对于将上述帧及与该帧在时间上连续的且靠前的3个帧连结而成的扩展帧进行加窗处理及低延迟逆滤波器组处理,从而将上述帧编码。
13.如权利要求10~12中任一项所述的声音信号混合编码器,其特征在于,
上述语音信号编码器是通过生成ACELP系数而将上述帧编码的ACELP编码器。
14.如权利要求10~12中任一项所述的声音信号混合编码器,其特征在于,
上述语音信号编码器是将上述线性预测系数的残差进行MDCT处理而将上述帧编码的TCX编码器。
15.如权利要求10~14中任一项所述的声音信号混合编码器,其特征在于,还具备:
本地解码器,对编码后的上述声音信号进行解码;以及
本地编码器,对作为上述声音信号与上述本地解码器解码后的上述声音信号之间的差的合成误差信息进行编码。
16.一种声音信号解码方法,对包括通过使用了低延迟滤波器组的音频编码处理而被编码的音频帧、和通过使用了线性预测系数的语音编码处理而被编码的语音帧的比特流进行解码,其特征在于,
具备:
低延迟变换解码步骤,利用低延迟逆滤波器组处理对上述音频帧进行解码;
语音信号解码步骤,对上述语音帧进行解码;以及
控制步骤,进行控制,以便在上述比特流中的解码对象帧是上述音频帧的情况下将该解码对象帧通过上述低延迟变换解码步骤解码、在上述解码对象帧是上述语音帧的情况下将该解码对象帧通过上述语音信号解码步骤解码;
当上述解码对象帧是作为从上述音频帧切换为上述语音帧后的最初的上述语音帧的第i帧时,
在上述第i帧中,以编码后的状态包含第1信号,该第1信号是使用比上述第i帧靠前1帧的帧即第i-1帧的编码前的信号而生成的;
上述控制步骤
(1)
进行将如下信号相加的处理而生成与编码前的上述第i-1帧的前半部分对应的信号,所述如下信号包括:将相当于第2信号的帧的前半部分的信号与对相当于上述第2信号的帧的后半部分的信号进行折叠处理后的信号相加、并进行加窗处理后的信号;通过将上述第i帧用上述语音信号解码步骤解码而得到的、对上述第1信号进行加窗处理后的信号;和第3信号的帧的前半部分的信号,其中所述第2信号是对比上述第i帧靠前3帧的帧即第i-3帧的重建后的信号进行加窗处理后的信号,该第i-3帧的重建后的信号是通过将比上述第i帧靠前2帧的帧即第i-2帧用上述低延迟变换解码步骤解码而得到的,所述第3信号是对上述第i-1帧进行上述低延迟逆滤波器组处理及加窗处理后的信号的与上述第i-3帧对应的部分;以及
进行将如下信号相加的处理而生成与编码前的上述第i-1帧的后半部分对应的信号,所述如下信号包括:将相当于上述第2信号的帧的后半部分的信号与对相当于上述第2信号的帧的前半部分的信号进行折叠处理后的信号相加、并进行加窗处理后的信号;对上述第1信号进行折叠处理及加窗处理后的信号;和相当于上述第3信号的帧的后半部分的信号;
或者
(2)
进行将如下信号相加的处理而生成与编码前的上述第i-1帧的前半部分对应的信号,所述如下信号包括:将相当于上述第2信号的帧的前半部分的信号与对相当于上述第2信号的帧的后半部分的信号进行折叠处理后的信号相加、并进行加窗处理后的信号;对上述第1信号进行折叠处理及加窗处理后的信号;和相当于上述第3信号的帧的前半部分的信号;以及
进行将如下信号相加的处理而生成与编码前的上述第i-1帧的后半部分对应的信号,所述如下信号包括:将相当于上述第2信号的帧的后半部分的信号与对相当于上述第2信号的帧的前半部分的信号进行折叠处理后的信号相加、并进行加窗处理后的信号;对上述第1信号进行加窗处理后的信号;和相当于上述第3信号的帧的后半部分的信号。
17.一种声音信号解码方法,对包括通过使用了低延迟滤波器组的音频编码处理而被编码的音频帧、和通过使用了线性预测系数的语音编码处理而被编码的语音帧的比特流进行解码,其特征在于,
具备:
低延迟变换解码步骤,利用低延迟逆滤波器组处理对上述音频帧进行解码;
语音信号解码步骤,对上述语音帧进行解码;
控制步骤,进行控制,以便在上述比特流中的解码对象帧是上述音频帧的情况下将该解码对象帧通过上述低延迟变换解码步骤解码、在上述解码对象帧是上述语音帧的情况下将该解码对象帧通过上述语音信号解码步骤解码;
当上述解码对象帧是作为从上述语音帧切换为上述音频帧后的最初的音频帧的第i帧时,
上述控制步骤进行将第5信号、第7信号、第8信号相加的处理而生成作为与编码前的比上述第i帧靠前1帧的帧即第i-1帧对应的信号的重建信号,其中所述第5信号是将第4信号与对该第4信号进行折叠处理后的信号相加、并进行加窗处理后的信号,所述第4信号是对将上述第i-1帧用上述语音信号解码步骤解码得到的信号进行加窗处理后的信号;所述第7信号是将第6信号与对该第6信号进行折叠处理后的信号相加、并进行加窗处理后的信号,所述第6信号是对将比上述第i帧靠前3帧的帧即第i-3帧用上述语音信号解码步骤解码得到的信号进行加窗处理后的信号;所述第8信号是对上述第i帧进行上述低延迟逆滤波器组处理及加窗处理后的信号的与上述第i-3帧对应的部分。
18.一种声音信号解码方法,对包括通过使用了低延迟滤波器组的音频编码处理而被编码的音频帧、和通过使用了线性预测系数的语音编码处理而被编码的语音帧的比特流进行解码,其特征在于,
具备:
低延迟变换解码步骤,使用低延迟逆滤波器组处理对上述音频帧进行解码;
TCX解码步骤,对通过TCX变换码激励方式编码的上述语音帧进行解码;以及
控制步骤,进行控制,以便在上述比特流中的解码对象帧是上述音频帧的情况下将该解码对象帧通过上述低延迟变换解码步骤解码、在上述解码对象帧是上述语音帧的情况下将该解码对象帧通过上述语音信号解码步骤解码;
当上述解码对象帧是从上述音频帧切换为上述语音帧后的最初的上述语音帧、而且是作为能量急剧变化的过渡信号被编码的帧的第i帧时,
在上述第i帧中,以编码后的状态包含第1信号,该第1信号是使用比上述第i帧靠前1帧的帧即第i-1帧的编码前的信号而生成的;
上述控制步骤
(1)
进行将如下信号相加的处理而生成与编码前的上述第i-1帧的前半部分对应的信号,所述如下信号包括:将相当于第2信号的帧的前半部分的信号与对相当于上述第2信号的帧的后半部分的信号进行折叠处理后的信号相加、并进行加窗处理后的信号;通过将上述第i帧用上述语音信号解码步骤解码而得到的、对上述第1信号进行加窗处理后的信号;和第3信号的帧的前半部分的信号,其中所述第2信号是对比上述第i帧靠前3帧的帧即第i-3帧的重建后的信号进行加窗处理后的信号,该第i-3帧的重建后的信号是通过将比上述第i帧靠前2帧的帧即第i-2帧用上述低延迟变换解码步骤解码而得到的,所述第3信号是对上述第i-1帧进行上述低延迟逆滤波器组处理及加窗处理后的信号的与上述第i-3帧对应的部分;以及
进行将如下信号相加的处理而生成与编码前的上述第i-1帧的后半部分对应的信号,所述如下信号包括:将相当于上述第2信号的帧的后半部分的信号与对相当于上述第2信号的帧的前半部分的信号进行折叠处理后的信号相加、并进行加窗处理后的信号;对上述第1信号进行折叠处理及加窗处理后的信号;和相当于上述第3信号的帧的后半部分的信号;
或者
(2)
进行将如下信号相加的处理而生成与编码前的上述第i-1帧的前半部分对应的信号,所述如下信号包括:将相当于上述第2信号的帧的前半部分的信号与对相当于上述第2信号的帧的后半部分的信号进行折叠处理后的信号相加、并进行加窗处理后的信号;对上述第1信号进行折叠处理及加窗处理后的信号;和相当于上述第3信号的帧的前半部分的信号;以及
进行将如下信号相加的处理而生成与编码前的上述第i-1帧的后半部分对应的信号,所述如下信号包括:将相当于上述第2信号的帧的后半部分的信号与对相当于上述第2信号的帧的前半部分的信号进行折叠处理后的信号相加、并进行加窗处理后的信号;对上述第1信号进行加窗处理后的信号;和相当于上述第3信号的帧的后半部分的信号。
19.一种声音信号编码方法,其特征在于,
包括:
判断步骤,分析声音信号的音频特性,判断包含在上述声音信号中的帧是音频信号还是语音信号;
低延迟变换编码步骤,使用低延迟滤波器组对上述帧进行编码;
语音信号编码步骤,通过计算上述帧的线性预测系数,对该帧进行编码;以及
控制步骤,进行控制,以便将上述判断步骤判断为是上述音频信号的编码对象帧通过上述低延迟变换编码步骤编码、将上述判断步骤判断为是上述语音信号的上述编码对象帧通过上述语音信号编码步骤编码;
上述控制步骤
(1)在上述编码对象帧是作为上述判断步骤判断为是上述语音信号的帧的第i-1帧的1帧后的帧、而且是作为上述判断步骤判断为是上述音频信号的帧的第i帧时,
将如下信号和上述第i帧通过上述语音信号编码步骤编码:该信号是将对相当于上述第i-1帧的前半部分的信号进行加窗处理后的信号、与对相当于上述第i-1帧的后半部分的信号进行加窗处理并进行折叠处理后的信号相加而得到的信号;
或者
(2)将如下信号和上述第i帧通过上述语音信号编码步骤编码:该信号是将对相当于上述第i-1帧的后半部分的信号进行加窗处理后的信号、与对相当于上述第i-1帧的前半部分的信号进行加窗处理并进行折叠处理后的信号相加而得到的信号。
20.一种声音信号编码方法,其特征在于,
包括:
判断步骤,分析声音信号的音频特性,判断包含在上述声音信号中的帧是音频信号还是语音信号;
低延迟变换编码步骤,使用低延迟滤波器组对上述帧进行编码;
TCX编码步骤,通过对上述帧的线性预测系数的残差进行MDCT改进离散余弦变换处理的TCX方式,对上述帧进行编码;
控制步骤,进行控制,以便将上述判断步骤判断为是上述音频信号的编码对象帧通过上述低延迟变换编码步骤编码、将上述判断步骤判断为是上述语音信号的上述编码对象帧通过上述语音信号编码步骤编码;
当作为上述编码对象帧的第i帧是上述判断步骤判断为是上述音频信号、并且是能量急剧地变化的过渡信号的帧时,
上述控制步骤
(1)将如下信号和上述第i帧通过上述语音信号编码步骤编码:该信号是将将相当于比上述第i帧靠前1帧的帧即第i-1帧的前半部分的信号进行加窗处理后的信号、与对相当于上述第i-1帧的后半部分的信号进行加窗处理并进行折叠处理后的信号相加而得到的信号;
或者
(2)将如下信号和上述第i帧通过上述语音信号编码步骤编码:该信号是将对相当于上述第i-1帧的后半部分的信号进行加窗处理后的信号、与对相当于上述第i-1帧的前半部分的信号进行加窗处理并进行折叠处理后的信号相加而得到的信号。
CN2012800043379A 2011-10-28 2012-10-24 声音信号混合解码器、声音信号混合编码器、声音信号解码方法及声音信号编码方法 Pending CN103477388A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2011-236912 2011-10-28
JP2011236912 2011-10-28
PCT/JP2012/006802 WO2013061584A1 (ja) 2011-10-28 2012-10-24 音信号ハイブリッドデコーダ、音信号ハイブリッドエンコーダ、音信号復号方法、及び音信号符号化方法

Publications (1)

Publication Number Publication Date
CN103477388A true CN103477388A (zh) 2013-12-25

Family

ID=48167435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012800043379A Pending CN103477388A (zh) 2011-10-28 2012-10-24 声音信号混合解码器、声音信号混合编码器、声音信号解码方法及声音信号编码方法

Country Status (5)

Country Link
US (1) US20140058737A1 (zh)
EP (1) EP2772914A4 (zh)
JP (1) JPWO2013061584A1 (zh)
CN (1) CN103477388A (zh)
WO (1) WO2013061584A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104967755A (zh) * 2015-05-28 2015-10-07 魏佳 一种基于嵌入式编码的远程互动方法
WO2022222713A1 (zh) * 2021-04-20 2022-10-27 华为技术有限公司 一种编解码器协商与切换方法

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10141004B2 (en) * 2013-08-28 2018-11-27 Dolby Laboratories Licensing Corporation Hybrid waveform-coded and parametric-coded speech enhancement
CN106448688B (zh) 2014-07-28 2019-11-05 华为技术有限公司 音频编码方法及相关装置
US9555308B2 (en) 2014-08-18 2017-01-31 Nike, Inc. Bag with multiple storage compartments
WO2017050398A1 (en) * 2015-09-25 2017-03-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-adaptive switching of the overlap ratio in audio transform coding
US10504530B2 (en) 2015-11-03 2019-12-10 Dolby Laboratories Licensing Corporation Switching between transforms
WO2020094263A1 (en) * 2018-11-05 2020-05-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and audio signal processor, for providing a processed audio signal representation, audio decoder, audio encoder, methods and computer programs
US11488613B2 (en) * 2019-11-13 2022-11-01 Electronics And Telecommunications Research Institute Residual coding method of linear prediction coding coefficient based on collaborative quantization, and computing device for performing the method
EP4327555A1 (en) * 2021-04-22 2024-02-28 OP Solutions, LLC Systems, methods and bitstream structure for hybrid feature video bitstream and decoder

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010210680A (ja) * 2009-03-06 2010-09-24 Ntt Docomo Inc 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム
WO2011048118A1 (en) * 2009-10-20 2011-04-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, audio signal decoder, method for providing an encoded representation of an audio content, method for providing a decoded representation of an audio content and computer program for use in low delay applications
CN102089812A (zh) * 2008-07-11 2011-06-08 弗劳恩霍夫应用研究促进协会 用以使用混叠切换方案将音频信号编码/解码的装置与方法
WO2011085483A1 (en) * 2010-01-13 2011-07-21 Voiceage Corporation Forward time-domain aliasing cancellation using linear-predictive filtering

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3317470B2 (ja) * 1995-03-28 2002-08-26 日本電信電話株式会社 音響信号符号化方法、音響信号復号化方法
CA2415105A1 (en) * 2002-12-24 2004-06-24 Voiceage Corporation A method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
RU2439721C2 (ru) * 2007-06-11 2012-01-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Аудиокодер для кодирования аудиосигнала, имеющего импульсоподобную и стационарную составляющие, способы кодирования, декодер, способ декодирования и кодированный аудиосигнал
EP2311034B1 (en) * 2008-07-11 2015-11-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding frames of sampled audio signals
RU2507609C2 (ru) * 2008-07-11 2014-02-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Способ и дискриминатор для классификации различных сегментов сигнала
US9275650B2 (en) * 2010-06-14 2016-03-01 Panasonic Corporation Hybrid audio encoder and hybrid audio decoder which perform coding or decoding while switching between different codecs

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102089812A (zh) * 2008-07-11 2011-06-08 弗劳恩霍夫应用研究促进协会 用以使用混叠切换方案将音频信号编码/解码的装置与方法
JP2010210680A (ja) * 2009-03-06 2010-09-24 Ntt Docomo Inc 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム
WO2011048118A1 (en) * 2009-10-20 2011-04-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, audio signal decoder, method for providing an encoded representation of an audio content, method for providing a decoded representation of an audio content and computer program for use in low delay applications
WO2011085483A1 (en) * 2010-01-13 2011-07-21 Voiceage Corporation Forward time-domain aliasing cancellation using linear-predictive filtering

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104967755A (zh) * 2015-05-28 2015-10-07 魏佳 一种基于嵌入式编码的远程互动方法
WO2022222713A1 (zh) * 2021-04-20 2022-10-27 华为技术有限公司 一种编解码器协商与切换方法

Also Published As

Publication number Publication date
EP2772914A4 (en) 2015-07-15
EP2772914A1 (en) 2014-09-03
WO2013061584A1 (ja) 2013-05-02
JPWO2013061584A1 (ja) 2015-04-02
US20140058737A1 (en) 2014-02-27

Similar Documents

Publication Publication Date Title
CN103477388A (zh) 声音信号混合解码器、声音信号混合编码器、声音信号解码方法及声音信号编码方法
CN102934161B (zh) 音频混合编码装置以及音频混合解码装置
TWI363563B (en) Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream
KR101508819B1 (ko) 멀티 모드 오디오 코덱 및 이를 위해 적응된 celp 코딩
CN101231850B (zh) 编解码方法及装置
US9818411B2 (en) Apparatus for encoding and decoding of integrated speech and audio
KR101586317B1 (ko) 신호 처리 방법 및 장치
US8959015B2 (en) Apparatus for encoding and decoding of integrated speech and audio
CN102770912B (zh) 使用线性预测滤波的前向时域混叠消除
JP5600822B2 (ja) 正弦波置換を用いた音声符号化および復号化のための装置および方法
KR101869395B1 (ko) 예측 인코딩 및 변환 인코딩 사이에서 교번하는 낮은―지연 사운드―인코딩
TWI479478B (zh) 用以使用對齊的預看部分將音訊信號解碼的裝置與方法
CA2717584A1 (en) Method and apparatus for processing an audio signal
KR101405022B1 (ko) 입력 신호를 전위시키기 위한 시스템 및 방법, 상기 방법을 수행하는 소프트웨어 프로그램 및 컴퓨터 프로그램 제품을 포함하는 저장 매체
CN101266797B (zh) 语音信号后处理滤波方法
TW201009815A (en) Audio encoder and decoder for encoding frames of sampled audio signals
CN101432802A (zh) 使用有损编码的数据流和无损扩展数据流对源信号进行无损编码的方法以及设备
CN104718572A (zh) 音频编码方法和装置、音频解码方法和装置及采用该方法和装置的多媒体装置
CN103915100A (zh) 一种编码模式切换方法和装置、解码模式切换方法和装置
US20110087494A1 (en) Apparatus and method of encoding audio signal by switching frequency domain transformation scheme and time domain transformation scheme
KR101418227B1 (ko) 스피치 시그널 부호화 방법 및 복호화 방법
CN102074242B (zh) 语音音频混合分级编码中核心层残差提取系统及方法
CN101256773A (zh) 导抗谱频率参数的矢量量化方法及装置
CN105280189B (zh) 带宽扩展编码和解码中高频生成的方法和装置
CN101990253A (zh) 一种带宽扩展方法及其装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20131225