CN103548080A - 声音信号混合编码器、声音信号混合解码器、声音信号编码方法以及声音信号解码方法 - Google Patents

声音信号混合编码器、声音信号混合解码器、声音信号编码方法以及声音信号解码方法 Download PDF

Info

Publication number
CN103548080A
CN103548080A CN201380001328.9A CN201380001328A CN103548080A CN 103548080 A CN103548080 A CN 103548080A CN 201380001328 A CN201380001328 A CN 201380001328A CN 103548080 A CN103548080 A CN 103548080A
Authority
CN
China
Prior art keywords
mentioned
signal
frame
mode
lfd
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201380001328.9A
Other languages
English (en)
Other versions
CN103548080B (zh
Inventor
张国成
则松武志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN103548080A publication Critical patent/CN103548080A/zh
Application granted granted Critical
Publication of CN103548080B publication Critical patent/CN103548080B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

声音信号混合编码器(100)具备:信号解析部(404),判断声音信号中包含的帧的编码方法;LFD编码器(406、410),将帧编码,生成LFD帧;LP编码器(408),将帧编码,生成LP帧;切换部(405),根据信号解析部(404)的判断结果,进行编码器的切换;AC信号生成部(413),按照从多个方式中选出的1个方式,生成AC信号并输出,并且将表示所选出的1个方式的AC标志输出。

Description

声音信号混合编码器、声音信号混合解码器、声音信号编码方法以及声音信号解码方法
技术领域
本发明涉及能够切换编解码器(codec)的声音信号混合编码器及声音信号混合解码器。
背景技术
混合编解码器(hybrid codec)是组合了音频编解码器(audio codec)和语音编解码器(speech codec)的优点的编解码器。根据混合编解码器,能够将混合了语音信号主体的内容(content)和音频信号主体的内容而得到的声音信号通过切换音频编解码器和语音编解码器而用适合于各自的编码方法进行编码。因而,根据混合编解码器,能够以低比特率实现稳定的声音信号的压缩编码。
此外,在混合编解码器中,为了抑制在编解码器的切换部分发生的混叠(aliasing),已知在编码侧生成AC(Aliasing Cancel:混叠消除)信号的方法。
现有技术文献
非专利文献
非专利文献1:Carot,Alexander et al.:“Networked Music Performance:State of the Art”,AES30th International Conference(15-17March2007).
非专利文献2:Schuller,Geraldet et al.:“New Framework for ModulatedPerfect Reconstruction Filter Banks”,IEEE Transaction on Signal Processing,Vol.44,pp.1941-1954(August1996).
非专利文献3:Schnell,Markus,et al.:“MPEG-4Enhaned Low DelayAAC-a new standard for high quality communication”,AES125thConvention(2-5October2008).
非专利文献4:Valin,Jean-Marc,et al.:“A Full-bandwidth AudioCodec with Low Complexity and Very Low Delay”.
发明概要
发明要解决的课题
混合编解码器能够对语音信号与音频信号混杂那样的内容高效率地进行编码。因此,混合编解码器能够应用于有声读物(audio book)、广播系统、便携型媒体设备、便携通信终端(例如智能电话、平板型计算机)、电视会议装置及网络上的音乐演奏等各种应用。
但是,特别是当将混合编解码器应用于电视会议装置或网络上的音乐演奏等实时通信性能重要的应用时,在编码及解码处理时发生的算法延迟成为较大的课题。
为了降低这样的算法延迟,例如可以考虑使帧的大小(样本(sample)数)减小。
但是,在使帧的大小减小了的情况下,帧的切换频度相对变大,AC信号的发生频度自然也变大。为了以低比特率实现高品质且低延迟的混合编解码器,希望尽量抑制AC信号的码量。即,有效率地生成AC信号成为课题。
发明内容
因此,本发明提供一种能够有效率地生成AC信号的声音信号混合编码器等。
解决课题所采用的手段
本发明的一技术方案的声音信号混合编码器,具备:信号解析部,将声音信号的特性解析,判断上述声音信号中包含的帧的编码方法;LFD编码器,通过将上述帧进行LFD(Lapped Frequency Domain)变换,生成将该帧编码后的LFD帧;LP编码器,通过计算上述帧的线性预测系数,生成将该帧编码后的LP(Linear Prediction)帧;切换部,根据上述信号解析部的判断结果,进行将上述帧通过上述LFD编码器编码还是通过上述LP编码器编码的切换;本地解码器,生成本地解码信号,该本地解码信号包括将AC(Aliasing Cancel)对象帧的至少一部分解码后的信号、和将与上述AC对象帧连续的上述LP帧的至少一部分解码后的信号,该AC对象帧是通过上述切换部的切换控制而与上述LP帧连续的上述LFD帧;AC信号生成部,使用上述声音信号及上述本地解码信号,生成并输出AC信号,该AC信号用于在上述AC对象帧的解码中产生的混叠的去除;上述AC信号生成部,在上述AC对象帧在上述LP帧的紧后连续的情况下,或者在上述AC对象帧是在上述LP帧的紧前连续的帧的情况下,(1)按照从多个方式中选出的1个方式生成并输出上述AC信号,并且(2)将表示选出的上述1个方式的AC标志输出。
另外,这些全局性或具体的技术方案也可以通过系统、方法、集成电路、计算机程序或计算机可读取的CD-ROM等记录介质来实现,也可以通过系统、方法、集成电路、计算机程序及记录介质的任意组合来实现。
发明效果
本发明的声音信号混合编码器能够有效率地生成AC信号。
附图说明
图1是用来说明使用了MDCT的编码、解码中的部分重叠所导致的混叠的去除的图。
图2是表示在从LP编码向变换编码的切换中使用的AC信号的生成方法的图。
图3是表示在从变换编码向LP编码的切换中使用的AC信号的生成方法的图。
图4是表示实施方式1的声音信号混合编码器的结构的框图。
图5是表示重叠(overlap)较小的窗的形状的图。
图6是表示AC信号生成部的结构的一例的框图。
图7是表示AC信号生成部的动作的一例的流程图。
图8是表示在从LP编码向变换编码的切换中使用的AC信号生成的第2方式的图。
图9是表示在从变换编码向LP编码的切换中使用的AC信号生成的第2方式的图。
图10是表示实施方式2的声音信号混合解码器的结构的框图。
图11是表示AC输出信号生成部的结构的一例的框图。
图12是表示AC输出信号生成部的动作的一例的流程图。
具体实施方式
(作为本发明的基础的知识)
以往的声音压缩技术大体上可分为音频编解码器和语音编解码器这两种。
首先,对音频编解码器进行说明。
音频编解码器适合于对包含局部波谱内容(音色信号、高次谐波信号等)的稳态信号进行编码。在音频编解码器中,编码主要通过将信号在频率域中变换来进行。
具体而言,在音频编解码器的编码器中,使用改进离散余弦变换(MDCT:Modified Discrete Cosine Transform)等时间-频率域变换,将输入信号在频率(波谱)域中变换。在MDCT的情况下,被编码的帧具有和与该帧在时间上连续的(邻接的)帧在时间上重合的部分(部分重叠),被编码的帧分别被进行加窗处理。上述部分重叠是为了在解码侧使帧的边界平滑化。
此外,加窗处理兼具生成更高分辨率的波谱(spectrum)、和为了上述平滑化而将被编码后的帧的边界虚化这两个目的。此外,为了补偿由上述部分重叠产生的采样效应(sampling effect),MDCT将时间域样本变换为减少了数量的波谱系数以用于编码。MDCT那样的时间-频率域变换中,虽发生混叠成分,但通过上述部分重叠,混叠成分在解码侧被去除。
音频编解码器的主要优点之一是能够容易地使用心理声学模型(psychoacoustic model)。例如,能够将更多的比特数分配给感知“掩蔽音(masker)”,将更少的比特数分配给人耳无法察觉的感知“被掩蔽音(maskee)”。在音频编解码器中,通过利用心理声学模型,编码效率和音质大幅提高。MPEG的高级音频编码(AAC)是纯粹的音频编解码器的良好的一例。
接着,对语音编解码器进行说明。
语音编解码器是基于利用声道的声调(pitch)特性的模型的方法,适合于将人的讲话编码。在语音编解码器的编码器中,为了得到人的讲话的波谱包络线,使用线性预测(LP:Linear Prediction)滤波器,将输入信号的LP滤波器的系数编码。
接着,LP滤波器将输入信号逆滤波(波谱分割),生成波谱平坦的音源信号。这里的音源信号,通常表示具有“码字(codeword)”的音源信号,使用矢量量化(VQ:Vector Quantization)法,稀疏地被编码。
另外,不同于线性预测滤波器,为了掌握语音的长期周期性,也可以装入长期预测器(LTP:Long Term Predictor)。此外,通过在线性预测滤波器之前对信号应用白化滤波器(Whitening Filter),能实现考虑了心理声学方面的编码。
通过音源信号的稀疏的编码,能够以低比特率实现良好的音质。但是,在这样的编码方式中,无法正确地掌握音乐那样的内容的复谱,无法将音乐那样的内容以高音质再现。ITU.T(国际电气通信联合电气通信标准化部门)的适应型多速率宽带(AMR-WB)是纯粹的语音编解码器的良好的一例。
此外,作为第3编解码器,有称作“变换编码激励”(TCX:TransformCoded Excitation)的编码方法。TCX是将LP编码与变换编码进行了组合的方法。首先,用从输入信号的线性预测滤波器导出的感知滤波器(perceptual filter),将输入信号在感知上加权。接着,将加权后的输入信号在波谱域中变换,将波谱系数用VQ法编码。TCX可见于ITU.T的扩展适应型多速率宽带(AMR-WB+)编解码器。在(AMR-WB+)中使用的频率变换是离散傅立叶变换(DFT:Discrete Fourier Transform)。
这里,通过追加低比特率工具以用来进一步实现低比特率的编码,还能够补充上述主要的编码方法。两个主要的低比特率工具是带宽扩展工具和多信道扩展工具。
带宽扩展(BWE:Band Width Extension)工具(tool)利用输入信号的低频部分与高频部分之间的高次谐波关系,将输入信号的高频部分在参数上编码。这些带宽扩展参数例如是子带能量(subband energy)及TNR(Tone To Noise Ratio:音调噪声比)等。
解码器通过将输入信号修补(patch)或拉长,将输入信号的低频部分扩展,由此形成基本高频信号。接着,解码器使用带宽扩展参数,形成在波谱上扩展后的信号的振幅。即,带宽扩展参数用人工生成的对应物来补偿噪声基底(noise floor)和音调(音色)。
结果,从解码器输出的输出信号的波形虽然与原来的输入信号的波形不类似,但与原来的输入信号在感知上近似。MPEG的高效率AAC(HE-AAC)是包括波谱带复制(SBR:Spectral Band Replication)的代码名的、这样的带宽扩展工具的编解码器。在SBR中,在由正交镜像滤波器组(QMF:Quadrature Mirror Filterbank)生成的混合域(时间及频率域)中执行参数计算。
多信道扩展工具将多信道缩混为编码用的信道子集(channel subset)。多信道扩展工具将各个信道间的关系在参数上编码。这些多信道扩展参数例如是信道间的电平(level)差、信道间的时间差、以及信道间的相关等。
解码器通过使解码后的已缩混信道的信号与人工生成的“非相关”信号混合,生成各个信道的信号。此时,基于上述的参数,计算已缩混信道的信号与非相关信号的混合权重(mixing weight)。
结果,从解码器输出的输出信号的波形虽然与原来的输入信号的波形不类似,但与原来的输入信号在感知上近似。MPEG环绕(MPS:MPEGSurround)是这样的多信道扩展工具的良好的例子。与SBR同样,在QMF域中,也计算MPS参数。多信道扩展工具也作为立体声(stereo)扩展而被周知。
并且,进入高分辨率(HD)时代,通信装置正在变化为与多媒体、娱乐及通信等的用户的需求相对应的通用装置。结果,对能够处理语音主体的信号(语音信号)和音频主体的信号(音频信号)双方的统一编解码器的需要提高。
最近,通过MPEG将统一语音音频编码方式(USAC:Unified SpeechAnd Audio Codec)标准化。USAC是能够对大范围的比特率的输入信号(语音信号及音频信号)处理语音信号及音频信号的编码的低比特率的编解码器。
具体而言,在USAC中,根据输入信号的特性,从上述的工具(与AAC方式类似的方式(以下设为AAC)、LP、TCX、带宽扩大工具(以下设为SBR)、以及信道扩大工具(以下设为MPS))的全部之中选择最优的工具来组合使用。
USAC的编码器使用MPS工具将立体声信号缩混为单声道信号(monaural signal),使用SBR工具将全频带的单声道信号缩小为窄带的单声道信号。进而,USAC的编码器为了将窄带的单声道信号编码,利用信号分类部分析信号帧的特性,决定应使用核心(core)编解码器(AAC、LP、TCX)中的哪个进行编码。这里,在USAC中,将通过编解码器的切换而在帧间产生的混叠去除是重要的。
如上述那样,为了将帧的边界平滑化、将混叠去除,MDCT将连续的帧连结,在进行变换之前,将连结后的信号进行加窗处理。这表示在图1中。
图1是用来说明使用了MDCT的编码、解码中的部分重叠所导致的混叠的去除的图。
在图1中,a和b分别表示将帧1进行了2等分的情况下的前半及后半。c和d分别表示将帧2进行了2等分的情况下的前半及后半。e和f分别表示将帧3进行了2等分的情况下的前半及后半。
这里,对将帧1和2结合后的信号(a,b,c,d)进行第1组的MDCT变换。对将帧2和3结合后的信号(c,d,e,f)进行第2组的MDCT变换。c和d是部分重叠(重叠域)。
在MDCT中,首先,对结合后的信号应用窗
[数学式1]
[w1,w2,w2,R,w1,R]
另外,以下的式(1)是第1组的MDCT的情况,式(2)表示第2组的MDCT的情况。
[数学式2]
[aw1,bw2,cw2,R,dw1,R]------------------(1)
[数学式3]
[cw1,dw2,ew2,R,fw1,R]------------------(2)
为了在解码器中可靠地进行互补相加(complementary addition)和混叠去除,窗具有以下的式(3)的特征。
[数学式4]
w 1 2 + w 2 , R 2 = 1 - - - ( 3 )
这里,脚标字符的“R”表示时间的逆转/反转。这样的关系具体而言例如可见于正弦函数的前半周期。
在解码器中,对解码MDCT系数实施逆改进离散余弦变换(IMDCT:Inverse Modified Discrete Cosine Transform)。与第1组的MDCT相对的IMDCT后的信号在以下的式(4)中表示。
[数学式5]
[aw1-bRw2,R,bw2-aRw1,R,cw2,R+dRw1,dw1,R+cRw2]------------(4)
在将式(4)所示的信号与式(1)所示的原信号进行比较的情况下,通过IMDCT,产生以下的式(5)所示那样的混叠成分。
[数学式6]
[-bRw2,R,-aRw1,R,+dRw1,+cRw2]----------------(5)
同样,与第2组的MDCT相对的IMDCT后的信号在以下的式(6)中表示。
[数学式7]
[cw1-dRw2,R,dw2-cRw1,R,ew2,R+fRw1,fw1,R+eRw2]------------(6)
如果对作为IMDCT后的信号的式(4)和式(6)乘以窗
[数学式8]
[w1,w2,w2,R,w1,R]
则分别成为以下的式(7)、式(8)那样。
[数学式9]
[(aw1-bRw2,R)w1,(bw2-aRw1,R)w2,(cw2,R+dRw1)w2,R,(dw1,R+cRw2)w1,R]----(7)
[数学式10]
[(cw1-dRw2,R)w1,(dw2-cRw1,R)w2,(ew2,R+fRw1)w2,R,(fw1,R+eRw2)w1,R]----(8)
这里,考虑式(3)所示的窗特性,将式(7)的最后两项加到式(8)的最初两项中,从而得到作为原信号的c和d。即,混叠成分被消除。
另外,从算法延迟的观点看,在基于MDCT的编码中,在帧大小是样本数N的情况下,为了准备全帧以用于MDCT而需要样本数N的时间。即,发生N的成帧延迟(framing delay)。进而,与此另外地,产生样本数N的固有的MDCT延迟(滤波器延迟)。因而,总延迟是样本数2N。
另一方面,在LP编码的情况下,帧不重合地被依次编码。因而,如USAC那样,在从LP编码向变换编码(也记作LFD编码。例如是使用了MDCT的编码方式或TCX等)切换、或者在反向切换的情况下,需要将切换的边界处的混叠去除的解决对策。
在MPEG的USAC中,能够使用前向混叠去除(FAC:Forward AliasingCancel)工具将混叠去除。
图2是表示FAC工具的原理的图。
在图2中,a和b分别表示将帧1进行了2等分的情况下的前半及后半。c和d分别表示将帧2进行了2等分的情况下的前半及后半。e和f分别表示将帧3进行了2等分的情况下的前半及后半。对帧1的前半及帧2的后半(即,b和c)进行LP编码。在帧2中编码方式从LP编码切换为变换编码,对帧2和帧3进行变换编码。
由于子帧c是被LP编码的子帧,所以解码器能够仅使用编码后的子帧c将子帧c完全解码。但是,子帧d由于通过变换编码(MDCT或TCX)而被编码,所以在解码器将子帧d原样解码了的情况下,在解码后的信号中包含混叠成分。为了进行这样的混叠成分的去除,编码器生成以下的第1~第3信号。
如式(9)所示,编码器首先使用本地解码器(local decoder)进行逆MDCT,生成加窗处理后的第1信号x。这里,d’和c’分别是将d和c通过本地解码器解码后的信号。
[数学式11]
x=(d′w2-c′Rw1,R)w2--------------------(9)
此外,编码器如式(10)所示,对将被LD编码后的子帧c使用本地解码器进行解码后的信号c’’乘以两个窗并反转,从而生成第2信号y。
[数学式12]
y=(c″w1w2,R)R=c″Rw1,Rw2--------------------(10)
第3信号如式(11)所示,是将先前LP帧进行加窗处理后的零输入响应(ZIR:Zero Input Response)。所谓零输入响应(ZIR),是在FIR滤波处理中计算对通过过去输入而状态时时刻刻变化的状态的FIR滤波器进行了零输入时的输出值的处理。
[数学式13]
z = ZIR ( 1 - w 2 2 ) - - - ( 11 )
如式(12)所示,混叠去除(AC:Aliasing Cancel)信号通过从原信号d减去上述的3个信号来计算。
[数学式14]
AC = d - x - y - z = ( d - d ′ w 2 2 ) + ( c ′ R - c R ′ ′ ) w 1 , R w 2 - ZIR ( 1 - w 2 2 ) - - - ( 12 )
AC信号具有以下这样的特性。在编码性能充分、解码后的信号的波形与原信号的波形类似的情况下,是
[数学式15]
d≈d'
[数学式16]
c’≈c”
式(12)如以下的式(13)那样近似。
[数学式17]
AC ≈ ( d - ZIR ) ( 1 - w 2 2 ) - - - ( 13 )
进而,在子帧d的开头预测信号d时,若假设线性预测编码的ZIR是确切的,则AC信号的子帧的开头是
[数学式18]
AC≈0
此外,由于子帧d的最后为w2→1,所以AC信号的子帧的最后是
[数学式19]
AC≈0
即,AC信号在子帧d的两侧收敛为零,自然成为加窗处理后的信号那样的形状。
上述AC信号在从LP编码向变换编码(MDCT/TCX)切换时使用。在从变换编码(MDCT/TCX)向LP编码切换的情况下,生成同样的AC信号。
在这样的情况下,不同的点是在从变换编码向LP编码的切换中使用的AC信号没有ZIR成分。此外,不同的点还在于,在从变换编码向LP编码的切换中使用的AC信号由于在子帧的与被LP编码后的帧邻接的端不是零,所以不成为加窗处理后的信号那样的形状。
图3是表示在从变换编码向LP编码的切换中使用的AC信号的生成方法的图。
如图3所示,在从变换编码向LP编码的切换中,为了将子帧c中包含的混叠成分去除而生成AC信号。具体而言,通过从原信号c中减去式(14)所示的第1信号x和式(15)所示的第2信号y,如式(16)所示那样求出。
[数学式20]
x=(c'w2,R+d′Rw1)w2,R--------------------(14)
[数学式21]
y=-d″Rw1w2,R--------------------(15)
[数学式22]
AC = c - x - y = c - c ′ w 2 , R 2 - ( d ′ R - d ′ ′ R ) w 1 w 2 , R ≈ c - c ′ w 2 , R 2 - - - ( 16 )
这里,在AC信号的开头(左边界),由于成为w2,R→1,所以成为
[数学式23]
≈0
以上,对编码器中的AC信号的生成例进行了说明。另外,关于解码器的动作,与编码器的动作相反,所以省略说明。
并且,最近,因为社交网络文化的兴起,参加到通过电视会议或音频影像的娱乐等的社会活动中的精通因特网的人增多。在这样的状况中,作为预想到会普及的活动之一,可以想到处于不同地点的用户经由因特网而集结、实时地相互演奏乐器、合唱、或无伴奏(acappella)唱歌(以下,将这样的活动记载为网络上的音乐演奏)。
在进行网络上的音乐演奏的情况下,为了使用户不感到不适,以低延迟进行声音信号的编码、解码是重要的。
具体而言,为了防止人耳感知的“声音偏移”,信号处理的时间与信号通过网络传送的时间(网络延迟)的合计时间即总延迟必须不到30毫秒(例如参照非专利文献1)。在回波(echo)去除处理及网络延迟占总延迟中的20毫秒的情况下,在编码、解码中容许的算法延迟为约10毫秒。
这里,由于上述的MPEG的USAC的算法延迟较长,所以不适合于如网络上的音乐演奏那样要求低延迟的应用。MPEG的USAC中的主要的延迟由以下的1~3产生。
1.编码器及解码器双方产生的主要的延迟由于帧的大小较大而产生。目前,在MPEG的USAC的规格中,容许768样本或1024样本的帧大小。这里,在MPEG的USAC中,当变换编码时,在设样本数为N的情况下,产生2N的延迟,产生1536或2048样本的延迟。进而,如果采样频率是48kHz,则分别产生32毫秒或43毫秒的核心MDCT+成帧延迟。
2.编码器及解码器双方产生的主要的延迟的第二个,在对SBR及MPS的QMF分析及合成滤波器组中产生。具有左右对称的典型的窗的以往的滤波器组在追加577样本的延迟或48kHz的采样频率中产生12毫秒的延迟。
3.编码器产生的主要的延迟是由编码器的信号分类部产生的先行延迟(lookahead delay)。信号分类部将信号的迁移、音色及波谱倾斜(信号的特性)进行解析,决定应通过MDCT、LP及TCX中的哪种方式将信号编码。通常,由此再产生1帧的量的延迟。如果采样频率是48kHz,则该延迟是16毫秒或21毫秒。
鉴于上述1~3,为了实现超低延迟而应最先进行的是帧大小的大幅缩小。但是,在帧大小被缩小的情况下,为了降低变换编码的编码效率,在量化时有效率地使用比特变得比以往更加重要。
在如上述那样、特别是进行LP编码和变换编码(MDCT/TCX)之间的切换的情况下,被变换编码后的帧的混叠成分与解码后的LP信号合成(例如,式(10))。因此,编码器如上述那样生成被称作AC信号的追加的混叠残留信号,通过进行编码而将混叠成分去除。这里,理想地讲,为了使编码的负荷成为最小限度,应当尽可能减小AC信号的码量。
但是,存在即使使用AC信号也不能将混叠成分充分去除的情况。例如,如图2所示,在编码方式从LP编码切换为变换编码(MDCT/TCX)的情况下,基于先前的被LP编码后的子帧c的ZIR,计算AC信号以使其最初为零。
此时,AC信号看上去是被加窗处理后的信号,是若使用特定的量化方法则能促进有效率的编码的信号。但是,图2所示的AC信号的生成方法是基于子帧c的ZIR而预测子帧d的开始的方法,例如在信号特性突然变化那样的情况下,无法充分地将混叠成分去除。
此外,如图3所示,在编码方式从变换编码(MDCT/TCX)切换为LP编码的情况下,AC信号在子帧c的最后不是零。这如在前面的段落中说明的那样,在特定的量化方法中,导致没有效率的编码。
第三,AC信号的波形不会变得比被编码后的原信号的波形小,已去除混叠的MDCT信号及LP信号类似于原信号。在高的比特率下,原信号的波形和解码后的信号的波形有类似的情况,在编码时AC信号成为不必要的负担。
鉴于以上那样的状况,基于MPEG的USAC的整体构造的本发明的编解码器,首先为了实现低延迟化而做成了以下的1~3那样的基本结构。
1.在基本结构中,使帧大小变小。具体而言,帧的大小推荐256样本,但并不限定于此。由此,产生的延迟在样本数上是2×256=512样本,如果采样频率是48kHz,则产生11毫秒的MDCT+成帧延迟。
2.此外,在基本结构中,为了使延迟进一步减少,将连续的MDCT帧间的重合(重叠)缩小(例如参照非专利文献4)。这里,推荐的重合的样本数是128样本。由此,MDCT+成帧延迟在样本数上是256+128=384样本,如果采样频率是48kHz则为8毫秒。即,产生的延迟从上述的11毫秒减少到8毫秒。
3.此外,在基本结构中,使用具有非对称的典型的窗的复合低延迟滤波器组。关于低延迟QMF滤波器组的构建,记载在非专利文献2中而是周知的,在MPEG的AAC-ELD(参照非专利文献3)中已经被使用。在复合低延迟滤波器组中,使非对称的典型的窗的长度为一半,调整子带数(M)参数和过去的扩展(E)参数,由此能够实现不到2毫秒的延迟。例如,在M=64、E=8、典型的窗的长度是640的情况下,MPEG的AAC-ELD的复合低延迟QMF滤波器组在样本数上是64样本,如果采样频率是48kHz,则能实现1.3毫秒的延迟。
通过使用这样的基本结构,在本发明的编解码器中,能够实现10毫秒的算法延迟。
这里,在这样的基本结构中,通过将帧的大小缩小而产生编码开销。因此,AC信号产生的比特开销(bit overhead)更加显著。上述比特开销特别是在编解码器的切换快的情况下显著。因而,为此,有效率地生成AC信号成为课题。
为了解决这样的课题,本发明者们发现了将AC信号更有效率地编码的方法。
本发明的一技术方案的声音信号混合编码器具备:信号解析部,将声音信号的特性进行解析,判断上述声音信号所包含的帧的编码方法;LFD编码器,通过将上述帧进行LFD变换(Lapped Frequency Domain),生成将该帧编码后的LFD帧;LP编码器,通过计算上述帧的线性预测系数,生成将该帧编码后的LP(Linear Prediction)帧;切换部,根据上述信号解析部的判断结果,进行将上述帧通过上述LFD编码器进行编码还是通过上述LP编码器进行编码的切换;本地解码器,生成本地解码信号,该本地解码信号包括将AC(Aliasing Cancel)对象帧的至少一部分解码后的信号、和将与上述AC对象帧连续的上述LP帧的至少一部分解码后的信号,该AC对象帧是通过上述切换部的切换控制而与上述LP帧连续的上述LFD帧;以及AC信号生成部,使用上述声音信号及上述本地解码信号,生成并输出AC信号,该AC信号用于在上述AC对象帧的解码中产生的混叠的去除;上述AC信号生成部,在上述AC对象帧在上述LP帧的紧后连续的情况下,或者在上述AC对象帧是在上述LP帧的紧前连续的帧的情况下,(1)按照从多个方式中选出的1个方式生成并输出上述AC信号,并且(2)将表示选出的上述1个方式的AC标志输出。
这样,通过从多个方式中选择1个方式生成AC信号并输出,声音信号混合编码器能够有效率地生成AC信号。
此外,例如也可以是,上述AC信号生成部,按照从第1方式及与上述第1方式不同的第2方式中选出的1个方式生成并输出上述AC信号。
此外,例如也可以是,还具备将上述AC信号量化的量化器;上述AC信号生成部,使用上述第1方式及上述第2方式中的每一个生成两个上述AC信号,将在所生成的两个上述AC信号中的、经上述量化器量化后的码量较小的上述AC信号的生成中使用的方式的上述AC信号输出。
由此,声音信号混合编码器能够选择码量更少的AC信号并输出。
此外,例如也可以是,在上述AC对象帧是在上述LP帧的紧后连续的帧的情况下,上述第1方式是使用将上述AC对象帧的紧前的LP帧进行加窗处理后的零输入响应而生成上述AC信号的方式;上述第2方式是不使用上述零输入响应而生成上述AC信号的方式。
此外,例如也可以是,上述第1方式是在USAC(Unified Speech AndAudioCodec)中标准化后的方式;上述第2方式是生成的AC信号的量化后的码量预计比上述第1方式小的方式。
此外,例如也可以是,上述AC信号生成部,在上述声音信号所含的帧的帧大小比规定的大小大的情况下,选择上述第1方式,在上述声音信号所含的帧的帧大小在上述规定的大小以下的情况下,选择上述第2方式。
在第2方式在帧大小较小的情况下有效那样的情况下,通过这样的结构,也能实现低比特率的有效率的编码。
此外,例如也可以是,还具备将上述AC信号量化的量化器;上述AC信号生成部,以上述第1方式生成上述AC信号,在以上述第1方式生成的上述AC信号的经上述量化器量化后的码量比规定的阈值小的情况下,选择上述第1方式;在以上述第1方式生成的上述AC信号的经上述量化器量化后的码量在规定的阈值以上的情况下,上述AC信号生成部进而以上述第2方式生成上述AC信号,将以上述第1方式生成的上述AC信号及以上述第2方式生成的上述AC信号中的、经上述量化器量化后的码量较小的上述AC信号输出。
由此,当以第1方式生成的AC信号的码量足够小时,不需要以第2方式生成AC信号,所以能够减少AC信号的生成的处理量。
此外,例如也可以是,上述AC信号生成部还具备:第一AC候选生成器,以上述第1方式生成上述AC信号;第二AC候选生成器,以上述第2方式生成上述AC信号;以及AC候选选择器,(1)将从上述第一AC候选生成器及上述第二AC候选生成器中选出的1个AC候选生成器生成的上述AC信号输出,并且(2)将上述AC标志输出,该AC标志表示所输出的上述AC信号使用上述第1方式及上述第2方式中的哪个方式生成。
此外,例如也可以是,还具备:LD(Low Delay)解析滤波器组,生成输入子带信号,该输入子带信号是对输入信号变换为时间频率域表现后的信号;多信道扩展部,从上述输入子带信号生成多信道扩展参数及缩混子带信号;带宽扩展部,从上述缩混子带信号生成带宽扩展参数及窄带子带信号;LD合成滤波器组,生成上述声音信号,该声音信号是将上述窄带子带信号从时间频率表现变换为时间域表现后的信号;量化器,将上述多信道扩展参数、上述带宽扩展参数、输出的上述AC信号、上述LFD帧及上述LP帧量化;以及比特流复用器,将上述量化器量化后的信号及上述AC标志复用并发送。
此外,例如也可以是,上述LFD编码器通过TCX方式将上述帧编码。
此外,例如也可以是,上述LFD编码器通过MDCT将上述帧编码;上述切换部对上述LFD编码器进行编码的上述帧进行加窗处理;在上述加窗处理中使用的窗,在比上述帧的长度的2分之1短的期间中单调增加或单调减小。
此外,本发明的一技术方案的声音信号混合解码器,将包含LFD帧、LP帧和AC信号的编码信号进行解码,该LFD帧是通过LFD变换而被编码后的帧,该LP帧是使用线性预测系数而被编码后的帧,该AC信号用来进行AC对象帧的混叠的去除,该AC对象帧是与上述LP帧连续的上述LFD帧,该声音信号混合解码器的特征在于,具备:ILFD(Inverse LappedFrequency Domain)解码器,将上述LFD帧解码;LP解码器,将上述LP帧解码;切换部,输出将对上述ILFD解码器解码后的帧进行了加窗处理后的帧、和上述LP解码器解码后的帧依次排列后的第2窄带信号;AC输出信号生成部,取得表示在上述AC信号的生成中使用的方式的AC标志,根据上述AC标志表示的方式,生成对上述AC信号加上从上述切换部、上述ILFD解码器或上述LP解码器输出的信号后的AC输出信号;以及加法部,输出对上述第2窄带信号中的与上述AC对象帧相当的部分加上上述AC输出信号后的第3窄带信号。
此外,例如也可以是,还具备:比特流解复用器,取得包含量化后的上述编码信号和上述AC标志的比特流;逆量化器,将上述量化后的上述编码信号逆量化,生成上述编码信号;LD解析滤波器组,通过将从上述加法部输出的上述第3窄带信号变换为时间频率域表现,生成窄带子带信号;带宽扩展解码部,通过将由上述逆量化器生成的编码信号所含的带宽扩展参数对上述窄带子带信号进行应用,合成高频信号,生成带宽被扩展后的子带信号;多信道扩展解码部,通过将由上述逆量化器生成的编码信号所含的多信道扩展参数对上述带宽被扩展后的子带信号进行应用,生成多信道子带信号;以及LD合成滤波器组,生成多信道信号,该多信道信号是将上述多信道子带信号从时间频率表现变换为时间域表现后的信号。
此外,例如也可以是,上述AC信号通过第1方式或与上述第1方式不同的第2方式生成;上述AC输出信号生成部还具备:第一AC候选生成器,生成与以上述第1方式生成的上述AC信号对应的上述AC输出信号;第二AC候选生成器,生成与以上述第2方式生成的上述AC信号对应的上述AC输出信号;以及AC候选选择器,根据上述AC标志,选择上述第一AC候选生成器及上述第二AC候选生成器中的某一个,使选出的AC候选生成器生成上述AC输出信号。
另外,这些全局性或具体的技术方案也可以通过系统、方法、集成电路、计算机程序或计算机可读取的CD-ROM等记录介质实现,也可以通过系统、方法、集成电路、计算机程序及记录介质的任意组合实现。
以下,参照附图对实施方式具体地说明。另外,以下说明的实施方式都是表示总体或具体的例子的。在以下的实施方式中表示的数值、形状、材料、构成要素、构成要素的配置位置及连接形态、步骤、步骤的顺序等是一例,并不意欲限定本发明。此外,关于以下的实施方式的构成要素中的、在表示最上位概念的独立权利要求中没有记载的构成要素,作为任意的构成要素而进行说明。
(实施方式1)
在实施方式1中,对声音信号混合编码器进行说明。
图4是表示实施方式1的声音信号混合编码器的结构的框图。
声音信号混合编码器100具备:LD(Low Delay:低延迟)解析滤波器组400、MPS编码器401、SBR编码器402、LD合成滤波器组403、信号解析部404和切换部405。此外,声音信号混合编码器100具备使用MDCT滤波器组的音频编码器406(以下简单记载为MDCT编码器406)、LP编码器408和TCX编码器410。此外,声音信号混合编码器100具备多个量化器407、409、411、414、416及417、比特流复用器(bit stream multiplexer)415、本地解码器412和AC信号生成部413。
LD解析滤波器组400通过对输入信号(多信道输入信号)进行低延迟解析滤波器组处理,生成用混合时间/频率表现来表示的输入子带信号。低延迟滤波器组具体而言可以举出非专利文献2所示的低延迟QMF滤波器组等作为候选,但并不限定于此。
MPS编码器401(多信道扩展部)将LD解析滤波器组400生成的输入子带信号变换为作为更小的信号的集合的缩混子带信号,生成MPS参数。这里的缩混子带信号是指全带宽缩混子带信号。
例如,在输入信号是立体声信号的情况下,生成的缩混子带信号仅是1个。另外,MPS参数通过量化器416而被量化。
SBR编码器402(带宽扩展部)将缩混子带信号下采样(down sampling)为窄带子带信号的集合(set)。在该过程中,生成SBR参数。另外,SBR参数通过量化器417而被量化。
LD合成滤波器组403将窄带子带信号向时间域进行再变换,生成第1窄带信号(声音信号)。这里,也能够使用在非专利文献2中表示的低延迟QMF滤波器组。
信号解析部404将第1窄带信号的特性进行解析,为了将第1窄带信号编码,从MDCT编码器406、LP编码器408及TCX编码器410中选择最优的编码器。另外,在以下的说明中,将MDCT编码器406和TCX编码器410也称作LFD(Lapped Frequency Domain:重叠频率域)编码器。
例如,信号解析部404对于整体上非常具有音调性、波谱倾斜的变动小的第1窄带信号,能够选择MDCT编码器406。在不能适用MDCT的基准的情况下,若是在低频率域中音调性强、波谱倾斜较大变动的第1窄带信号,则信号解析部404选择LP编码器408。对于对上述哪个基准都不符合的第1窄带信号,选择TCX编码器410。
另外,上述的信号解析部404的编码器的判断基准是一例,并不限定于这样的判断基准。信号解析部404只要将第1窄带信号(声音信号)的特性解析、并判断第1窄带信号中包含的帧的编码方法即可,判断基准是怎样的都可以。
切换部405根据信号解析部404的判断结果,进行将帧通过LFD编码器(MDCT编码器406或TCX编码器410)编码还是通过LP编码器408编码的切换控制。具体而言,切换部405基于根据信号解析部404的判断结果而选择的编码器,选择第1窄带信号中包含的编码对象帧(过去和当前的帧)的样本子集,为了接下来的编码,从该样本子集生成第2窄带信号。
这里,在选择MDCT的情况下,切换部405对选出的样本子集进行加窗处理。
图5是表示重叠小的窗的形状的图。如图5所示,在声音信号混合编码器100中优选的窗的形状的重叠小。在实施方式1中,在选择MDCT的情况下切换部405进行这样的加窗处理。
另外,在图1等中表示的窗,在帧的长度的2分之1的期间中单调增加,在帧的长度的2分之1的期间中单调减小。相对于此,在图5中表示的窗,在比帧的长度的2分之1短的期间中单调增加,在比帧的长度的2分之1短的期间中单调减小。这即意味着重叠小。
MDCT编码器406通过MDCT将编码对象帧进行编码。
LP编码器408通过计算编码对象帧的线性预测系数而将该编码对象帧进行编码。LP编码器408例如是ACELP(Algebraic Code Excited LinearPrediction:代数码激励线性预测)、VSELP(Vector Sum Excited LinearPrediction:矢量和激励线性预测)等CELP方式。
TCX编码器410将编码对象帧以TCX方式编码。具体而言,TCX编码器410计算编码对象帧的线性预测系数,将线性预测系数的残差进行MDCT处理而将编码对象帧进行编码。
另外,在以下的说明中,将由MDCT编码器406或TCX编码器410编码后的帧记载为LFD帧,将由LP编码器编码后的帧记载为LP帧。此外,将通过切换部405的切换而产生混叠的LFD帧记载为AC对象帧。
即,AC对象帧是通过切换部405的切换控制而与LP帧连续地被编码后的LFD帧。AC对象帧有如下两种情况:AC对象帧是在LP帧的紧后(紧挨着且位于之后)被编码的帧(在紧后连续的帧)的情况,和AC对象帧是在LP帧的紧前(紧挨着且位于之前)被编码的帧(在紧前连续的帧)的情况。
量化器407、409及411将编码器的输出量化。具体而言,量化器407将MDCT编码器406的输出量化,量化器409将LP编码器408的输出量化,量化器411将TCX编码器410的输出量化。
一般而言,量化器407是dB级(dB step)的量化器与哈夫曼(Huffman)编码的组合,量化器409及量化器411是矢量量化器。
本地解码器412从比特流复用器415取得AC对象帧、以及和它连续的LP帧,生成将所取得的帧的至少一部分解码后的本地解码信号。本地解码信号是通过本地解码器412解码后的窄带信号,具体而言,是上述的式(10)的d’及c’、式(11)的c’’、式(15)的d’’等。
AC信号生成部413使用上述第1信号及第1窄带信号,生成并输出用于在AC对象帧的解码中产生的混叠的去除的AC信号。即,AC信号生成部413利用由本地解码器412提供的解码后的过去数据(过去帧)而生成AC信号。
此外,在实施方式1中,AC信号生成部413使用多个AC方法(方式)分别生成多个AC信号,确认在生成的AC信号中哪个AC信号在编码上比特(bit)效率更好。进而,AC信号生成部413选择在编码上比特效率更好的AC信号,输出所选择的AC信号、和表示在该AC信号的生成中使用的AC方法的AC标志。另外,所选择的AC信号通过量化器414而被量化。
比特流复用器415将全部的编码后的帧和副信息向比特流写入。即,比特流复用器415将量化器407、409、411、414、416及417量化后的信号及AC标志复用而发送。
以下,对作为实施方式1的声音信号混合编码器100的特征动作的、AC信号生成部413的结构及动作详细地说明。
图6是表示AC信号生成部413的结构的一例的框图。
如图6所示,AC信号生成部413具备第一AC候选生成器700、第二AC候选生成器701和AC候选选择器702。
第一AC候选生成器700及第二AC候选生成器701分别使用第1窄带信号和本地解码信号,计算AC候选,AC候选是最终从AC信号生成部输出的AC信号的候选。另外,在以下的说明中,有时将第一AC候选生成器700生成的AC候选简单表述为AC,将第二AC候选生成器701生成的AC候选简单表述为AC2。
此外,在以下的说明中,假设第一AC候选生成器700以第1方式生成AC候选(AC信号),第二AC候选生成器以与第1方式不同的第2方式生成AC候选(AC信号)。关于第1方式及第2方式的详细情况在后面叙述。
AC候选选择器702基于规定的条件,选择AC及AC2中的一个AC候选。这里,所谓规定的条件,在实施方式1中是将各AC候选量化了的情况下的码量。AC候选选择器702输出所选择的AC候选、和AC标志,AC标志表示所选择的AC候选是使用第1方式及第2方式的哪个方式生成的。
图7是表示AC信号生成部413的动作的一例的流程图。
在声音信号混合编码器100中,如上述那样,根据信号解析部404的判断结果,切换部405切换编码方式,并进行第1窄带信号的编码(S101、S102中的“否”)。
在编码对象帧是AC对象帧的情况下(S102中“是”),AC信号生成部413首先以第1方式生成AC信号(S103)。具体而言,第一AC候选生成器700使用第1窄带信号和本地解码信号,生成AC。
接着,AC信号生成部413以第2方式生成AC信号(S104)。具体而言,第二AC候选生成器701使用第1窄带信号和本地解码信号,生成AC2。
接着,AC信号生成部413选择AC及AC2中的一个AC候选(AC信号)(S105)。具体而言,AC候选选择器702选择AC及AC2中的、经量化器414量化后的码量小的AC候选。
最后,AC信号生成部413将在步骤S105中选择的AC候选(AC信号)、和表示该AC候选的生成方式的AC标志输出(S106)。
如以上说明的那样,AC信号生成部413基于规定的条件,选择并输出以第1方式生成的AC信号及以与第1方式不同的第2方式生成的AC信号中的某一个。此外,AC信号生成部413将表示所输出的AC信号使用第1方式及第2方式中的哪个方式而生成的AC标志输出。
另外,AC信号生成部413,在AC对象帧是在LP帧的紧后被编码的帧的情况以及AC对象帧是在LP帧的紧前被编码的帧的情况中的各个情况下,以两个方式生成AC信号。
接着,对第1方式及第2方式详细地说明。另外,在以下的说明中,分别各举出1个第1方式和第2方式的具体例,但AC信号的生成方式并不限定于这些具体例,是怎样的方式都可以。
首先,对从LP编码向变换编码(MDCT/TCX)的切换的第1方式及第2方式进行说明。
第1方式如已用图2说明的那样,是在MPEG的USAC中通常使用的AC方法,是使用式(12)生成AC候选(AC)的方式。即,第一AC候选生成器700使用式(12)生成AC候选(AC)。
但是,如上述那样,以第1方式生成的AC信号是否能充分地去除混叠较大地受到ZIR的可靠性的影响。在ZIR成分大的情况下,有难以将混叠去除的倾向,而另一方面,在ZIR成分小的情况下,有容易进行混叠去除的倾向。此外,即使是在解码后的信号的波形与原信号的波形非常类似的情况下,混叠也不会对应于此而消失。这是因为,ZIR有随着时间经过而与原信号之间的差异变大的特性。
所以,AC信号生成部413还使用不采用ZIR的第2方式生成AC信号。第2方式优选的是生成的AC信号的量化后的码量预计比第1方式小的方式(与混叠去除相比使码量更优先的方式)。例如,作为第2方式,在AC信号的振幅小的情况下,可以采取与通常的量化比特数相比削减将该信号量化的量化比特的方法、或削减将AC信号用LPC滤波器表现时的滤波器系数的阶数的方法等各种各样的方法。
图8是表示在从LP编码向变换编码的切换中使用的、AC信号生成的第2方式的图。即,第二AC候选生成器701使用以下的式(17)生成AC候选(AC2)。
[数学式24]
AC 2 = d - ( x + y ) / w 2 2 - - - ( 17 )
这里,如果将式(9)的x及式(10)的y代入到式(17)中并将式子展开,则如以下的式(18)及(19)所示,能够理解式(17)的根据。
如果假设
[数学式25]
AC2=(d-d′)-(c′R-c″R)w1,R/w2------------------(18)
[数学式26]
c’≈c”
与上述式子同样,则AC2如以下的式(19)那样近似。
[数学式27]
AC2≈(d-d′)-----------------------(19)
如式(19)所示,AC2是比特效率比AC好的信号的可能性高。与AC相比,上述的AC2信号的信号电平(level)变动小的可能性高,在对这样的信号进行量化时,即使将对量化分配的比特数以某种程度间隔剔除,量化精度也不易劣化。因此,特别是在原信号d与解码后的信号d’的波形容易类似的情况、或比特率更高、d与d’之间的差变小那样的倾向的编码条件的情况下,AC2是比特效率比AC好的信号的可能性高。
接着,对从变换编码(MDCT/TCX)向LP编码的切换的第1方式及第2方式进行说明。
第1方式如已用图3说明的那样,是在MPEG的USAC中通常使用的AC方法,使用式(16)生成AC候选(AC)。即,第一AC候选生成器700使用式(16)生成AC候选(AC)。
此外,因为与上述同样的理由,AC信号生成部413还使用第2方式生成AC信号。
图9是表示在从变换编码向LP编码的切换中使用的、AC信号生成的第2方式的图。即,第二AC候选生成器701使用以下的式(20)生成AC候选(AC2)。
[数学式28]
AC 2 = c - ( x + y ) / w 2 , R 2 - - - ( 20 )
在式(20)中,将x(式14)和y(式15)代入到式(20)中并将式(20)展开,并且如果假定
[数学式29]
d’≈d”
则AC2如以下的式(21)那样近似。
[数学式30]
AC2≈c-c′---------------------(21)
这里,AC2是比特效率比AC好的编码对象的信号的可能性高。特别是,在比特效率更好的情况下,原信号c和解码后的信号c’的波形容易类似。
接着,对AC候选选择器702的AC信号的选择方法进行说明。
AC候选选择器702的最简单的选择方法,是将AC和AC2双方通过量化器414、选择编码所需要的比特数(码量)少的AC候选的方法。
另外,AC候选的选择方法并不限定于这样的方法,也可以是其他方法。
例如,也可以是,AC候选选择器702(AC信号生成部413),在第1窄带信号所含的帧的帧大小比规定的大小大的情况下(例如,该帧的码量多的情况下等),选择第1方式,在第1窄带信号所含的帧的帧大小在规定的大小以下的情况下(例如,该帧的码量少的情况下等),选择第2方式。
如上述那样,AC2在帧大小小的情况下是有效的,所以通过这样的结构,也能够实现低比特率的有效率的编码器。
此外,例如,也可以是,AC信号生成部413以第1方式生成AC信号,在以第1方式生成的AC信号的基于量化器的量化后的码量比规定的阈值小的情况下,选择第1方式。
如果是这样的结构,则当以第1方式生成的AC信号的码量足够小时,不需要以第2方式生成AC信号,所以能够减少AC信号的生成的处理量。
接着,AC信号生成部413,在以第1方式生成的AC信号的经量化器414量化后的码量在规定的阈值以上的情况下,进而以第2方式生成AC信号。结果,AC信号生成部413可以将以第1方式生成的AC信号及以第2方式生成的AC信号中的、经量化器414量化后的码量更小的AC信号输出。
通过这样的结构,能够将生成AC信号时的处理量减少,并适当地选择方式而生成AC信号,实现低比特率的有效率的编码器。
另外,实施方式1的声音信号混合编码器只要是至少包括重复频率域变换编码器(LFD编码器。例如MDCT、TCX)和线性预测编码器(LP编码器)的编码器,则作为怎样的结构的编码器实现都可以。例如,实施方式1的声音信号混合编码器也可以作为仅包括TCX编码器及LP编码器的编码器实现。此外,实施方式1的带宽扩展工具和多信道扩展工具是任意的低比特率工具,不是必须的构成要素。实施方式1的声音信号混合编码器也可以作为完全不具有这些工具的子集或这些工具的全部的编码器来实现。
另外,在实施方式1中,对AC信号生成部413按照从第1方式及第2方式中选择的1个方式生成AC信号的例子进行了说明,但AC信号生成部413也可以从3个以上的方式中选择1个方式。即,AC信号生成部413只要按照从多个方式中选择的1个方式生成AC信号并输出、并且将表示所选择的1个方式的AC标志输出就可以。该情况下的AC标志可以由多个比特构成等,只要是能够从多个方式中区别1个方式的形态,是怎样的形态都可以。
如以上说明的那样,根据实施方式1的声音信号混合编码器,在编码时,能够适应性地选择比特效率良好的AC信号。即,根据实施方式1的声音信号混合编码器,能够实现低比特率的有效率的编码器。这样的比特率的降低效果,在编解码器的切换迅速的情况下、以及在编码中需要许多比特的低延迟编码器的情况下特别显著。
(实施方式2)
在实施方式2中,对声音信号混合解码器进行说明。
图10是表示实施方式2的声音信号混合解码器的结构的框图。
声音信号混合解码器200具备LD解析滤波器组503、LD合成滤波器组500、MPS解码器501、SBR解码器502和切换部505。此外,声音信号混合解码器200具备使用了IMDCT滤波器组的音频解码器506(以下简单记载为IMDCT解码器506)、LP解码器508、TCX解码器510、逆量化器507、509、511、514、516及517、比特流解复用器(bit stream demultiplexer)515和AC输出信号生成部。
比特流解复用器515基于比特流的核心编码指示(core coder indicator),选择IMDCT解码器506、LP解码器508及TCX解码器中的1个解码器、和与之对应的逆量化器507、509及511中的1个逆量化器。比特流解复用器515使用所选择的逆量化器将比特流数据逆量化,使用所选择的解码器将比特流数据解码。逆量化器507、509及511的输出分别被输入IMDCT解码器506、LP解码器508或TCX解码器510,在解码器中进一步被在时间域中变换,生成第1窄带信号。另外,在以下的说明中,IMDCT解码器506和TCX解码器510也称作ILFD(Inverse Lapped Frequency Domain:逆重叠频率域)解码器。
切换部505首先按照与过去样本的时间关系(按照被编码的顺序),使第1窄带信号的帧排列。在帧是由IMDCT解码器506解码后的帧的情况下,切换部505通过对该解码对象帧进行加窗处理,追加重复进行部分。窗采用与图5所示的编码器采用的窗相同的窗,图5所示的窗为了实现低延迟,具有短的重叠域。
在切换部505的编解码器的切换时,AC对象帧(以下也记载为切换帧)的帧边界周边的混叠成分与图2及图3所示的信号一致。此外,切换部505生成第2窄带信号。
比特流中包含的AC信号被逆量化器514逆量化。比特流中包含的AC标志决定使用过去的窄带信号的追加的混叠去除成分的生成等、AC信号的接下来的处理方法。AC输出信号生成部513通过根据AC标志将已逆量化的AC信号与切换部505生成的AC成分(x、y、z等)合计,生成AC_out信号(AC输出信号)。
加法器504(加法部)对由切换部505排列、追加了重叠域的第2窄带信号加上AC_out信号,将AC对象帧的帧边界处的混叠成分去除。将去除混叠成分后的信号称作第3窄带信号。
LD解析滤波器组503处理第3窄带信号,生成用混合时间/频率表现所表示的窄带子带信号。具体而言,可以举出非专利文献2所示的低延迟QMF滤波器组等作为候选,但并不限定于此。
SBR解码器502(带宽扩展解码部)将窄带子带信号向更高频的区域扩大。扩大方法是将低频带向更高频的频带复制的“向上修补(patch up)”法、或基于相位声码器(phase vocoder)的原理将低频带的谐波伸展的“向上伸展(stretch up)”法的某种。扩大(合成)后的高频区域的特性、特别是能量、噪声基底及音色基于由逆量化器517逆量化后的SBR参数而被调整。由此,生成将带宽扩展后的子带信号。
MPS解码器501(多信道扩展解码部)使用由逆量化器516逆量化后的MPS参数,从带宽被扩展后的子带信号生成多信道子带信号。例如,MPS解码器501基于信道间相关参数,将无相关信号和缩混信号混合。MPS解码器501还将该混合后的信号的振幅和相位基于信道间电平差参数及信道间相位差参数进行调整,生成多信道子带信号。
LD合成滤波器组500将多信道子带信号从混合时间/频率域向时间域再变换,输出时间域的多信道信号。
以下,对作为实施方式2的声音信号混合解码器200的特征动作的、AC输出信号生成部513的结构及动作详细地说明。
图11是表示AC输出信号生成部513的结构的一例的框图。
如图11所示,AC输出信号生成部513具备第一AC候选生成器800、第二AC候选生成器801和AC候选选择器802及803。
第一AC候选生成器800及第二AC候选生成器801分别使用被逆量化后的AC信号和被解码后的窄带信号来计算AC候选(AC输出信号、AC_out)。AC候选选择器802及803为了进行混叠去除,基于AC标志从第一AC候选生成器800及第二AC候选生成器801中选择1个。
图12是表示AC输出信号生成部513的动作的一例的流程图。
在声音信号混合解码器200中,如上述那样,进行将所取得的帧根据该帧的编码方式进行解码的处理(S201、S202中“否”)。
在AC输出信号生成部513取得了AC标志的情况下(S202中“是”),AC输出信号生成部513进行与AC标志相应的处理,生成AC_out信号(S203)。
具体而言,首先,AC候选选择器802及803选择AC标志表示的AC候选生成器。AC候选选择器802及803在AC标志表示第1方式的情况下选择第一AC候选生成器800。AC候选选择器802及803在AC标志表示第2方式的情况下选择第二AC候选生成器801。
接着,AC输出信号生成部513(AC候选选择器802及803)使用所选出的AC候选生成器生成AC_out信号。换言之,AC输出信号生成部513使所选出的AC候选生成器生成AC_out信号。具体而言,第一AC候选生成器800生成第一AC_out信号。第二AC候选生成器801生成第二AC_out信号。
最后,加法器504将AC输出信号生成部513输出的AC_out信号与从切换部505输出的第2窄带信号相加,进行混叠的去除(S204)。
接着,对AC_out信号的生成方法详细地说明。在以下的说明中,示出与实施方式1所示的例子对应的AC_out信号的生成方法(计算方法),但AC_out信号的生成方法并不限定于这样的具体例,是怎样的方法都可以。
首先,对于编码方式从LP编码向变换编码(MDCT/TCX)切换的情况,参照上述图2进行说明。第一AC候选生成器800如以下这样计算第一AC_out信号。
[数学式31]
AC_out1=AC+y+z--------------------(22)
第二AC候选生成器801如以下这样计算第二AC_out信号。
[数学式32]
AC _ out 2 = AC + ( 1 / w 2 2 - 1 ) x + y / w 2 2 - - - ( 23 )
这里,x、y及z是进行了以下的加窗处理后的窄带信号。x是切换部505进行时间排列并加窗处理后的信号。y是切换部505乘以两个窗并反转后的、将先前LP帧解码后的信号,与式(10)一致。z是切换部505进行加窗处理后的、先前LP帧的ZIR,与式(11)一致。
同样,参照图3对编码方式从变换编码(MDCT/TCX)向LP编码切换的情况进行说明。第一AC候选生成器800如以下这样计算第一AC_out信号。
[数学式33]
AC_out1=AC+y--------------------(24)
第二AC候选生成器801如以下这样计算第二AC_out信号。
[数学式34]
AC _ out 2 = AC + ( 1 / w 2 , R 2 - 1 ) x + y / w 2 , R 2 - - - ( 25 )
这里,x是切换部505进行时间排列并加窗处理后的信号。y是切换部505乘以两个窗并反转、将后续LP帧解码后的信号,与式(15)一致。
如以上说明,根据实施方式2的声音信号混合解码器200,根据AC标志,AC候选选择器802及803使第一AC候选生成器800或第二AC候选生成器801动作,将AC_out1或AC_out2输出。由此,声音信号混合解码器200能够将用实施方式1的声音信号混合编码器100编码后的信号的混叠成分去除。
另外,实施方式2的声音信号混合解码器只要是至少包括重叠频率域变换解码器(ILFD解码器。例如MDCT、TCX)和线性预测解码器(LP解码器)的解码器,则作为怎样的结构的解码器实现都可以。例如,实施方式2的声音信号混合解码器也可以作为仅包括TCX解码器及LP解码器的解码器实现。此外,实施方式2的频带扩展工具和多信道扩展工具是任意的低比特率工具,不是必须的构成要素。实施方式2的声音信号混合解码器也可以作为完全不具有这些工具的子集或这些工具的全部的解码器来实现。
如以上说明的那样,根据实施方式2的声音信号混合解码器,能够根据AC标志将由实施方式1的声音信号混合编码器编码后的信号适当地解码。实施方式1的声音信号混合编码器在编码时适应性地选择比特效率良好的AC信号。因此,根据实施方式2的声音信号混合解码器,能实现低比特率的有效率的解码器。
这样的比特率的降低效果,在编解码器的切换迅速的情况下、以及在编码中需要许多比特的低延迟编码器的情况下特别显著。
(变形例)
另外,基于上述实施方式说明了本发明,但本发明当然并不限定于上述实施方式。以下那样的情况也包含在本发明中。
(1)上述各装置具体而言可通过由微处理器、ROM、RAM、硬盘单元、显示单元、键盘、鼠标等构成的计算机系统来实现。在上述RAM或硬盘单元中,存储有计算机程序。微处理器按照计算机程序动作,从而各装置实现其功能。这里,计算机程序为了实现规定的功能,将表示对计算机的指令的命令代码组合多个而构成。
(2)构成上述各装置的构成要素的一部分或全部也可以由1个系统LSI(Large Scale Integration:大规模集成电路)构成。系统LSI是将多个构成部分集成到1个芯片上而制造的超多功能LSI,具体而言,是包括微处理器、ROM、RAM等而构成的计算机系统。在ROM中存储有计算机程序。微处理器将计算机程序从ROM载入到RAM中,按照载入后的计算机程序进行运算等动作,从而系统LSI实现其功能。
(3)构成上述各装置的构成要素的一部分或全部也可以由能够相对于各装置拆装的IC卡或单体的模块构成。IC卡或模块是由微处理器、ROM、RAM等构成的计算机系统。IC卡或模块也可以包括上述的超多功能LSI。微处理器按照计算机程序动作,从而IC卡或模块实现其功能。该IC卡或该模块也可以具有耐篡改性。
(4)本发明也可以通过上述所示的方法来实现。此外,也可以由通过计算机实现这些方法的计算机程序来实现,也可以通过由计算机程序构成的数字信号来实现。
此外,本发明也可以通过将计算机程序或数字信号记录到计算机可读取的记录介质、例如软盘、硬盘、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、BD(Blu-ray(注册商标)Disc)、半导体存储器等中来实现。此外,也可以由记录在这些记录介质中的数字信号来实现。
此外,本发明也可以将计算机程序或数字信号,经由电气通信线路、无线或有线通信线路、以因特网为代表的网络、数据广播等进行传送。
此外,本发明也可以是具备微处理器和存储器的计算机系统,存储器存储有计算机程序,微处理器按照计算机程序动作。
此外,也可以通过将程序或数字信号记录到记录介质中并移送,或通过将程序或数字信号经由网络等移送,从而由独立的其他计算机系统实施。
(5)也可以将上述实施方式及上述变形例分别组合。
另外,本发明并不限定于这些实施方式或其变形例。只要不脱离本发明的主旨,对本实施方式或其变形例实施本领域技术人员想到的各种变形而得到的形态、或者将不同的实施方式或其变形例的构成要素组合而构建的形态也包含在本发明的范围内。
工业实用性
本发明能够用于有声读物、广播系统、便携型媒体设备、便携通信终端(例如智能电话、平板型计算机)、电视会议装置及网络上的音乐演奏等、与包含语音内容或音乐内容的信号的编码相关联的用途。
标号说明
100  声音信号混合编码器
200  声音信号混合解码器
400、503  LD  解析滤波器组
401  MPS  编码器
402SBR  编码器
403、500LD  合成滤波器组
404  信号解析部
405、505  切换部
406  MDCT  编码器
407、409、411、414、416、417  量化器
408  LP  编码器
410  TCX编码器
412  本地解码器
413  AC  信号生成部
415  比特流复用器
501  MPS  解码器
502  SBR  解码器
504  加法器(加法部)
506  IMDCT  解码器
507、509、511、514、516、517  逆量化器
508  LP  解码器
510  TCX  解码器
513  AC  输出信号生成部
515  比特流解复用器
700、800  第一AC  候选生成器
701、801  第二AC  候选生成器
702、802、803  AC  候选选择器

Claims (20)

1.一种声音信号混合编码器,其特征在于,
具备:
信号解析部,将声音信号的特性进行解析,判断上述声音信号所包含的帧的编码方法;
LFD编码器,通过将上述帧进行LFD变换,生成将该帧编码后的LFD帧,该LFD是指Lapped Frequency Domain即重叠频率域;
LP编码器,通过计算上述帧的线性预测系数,生成将该帧编码后的LP帧,该LP是指Linear Prediction即线性预测;
切换部,根据上述信号解析部的判断结果,进行将上述帧通过上述LFD编码器进行编码还是通过上述LP编码器进行编码的切换;
本地解码器,生成本地解码信号,该本地解码信号包括将AC对象帧的至少一部分解码后的信号、和将与上述AC对象帧连续的上述LP帧的至少一部分解码后的信号,该AC对象帧是通过上述切换部的切换控制而与上述LP帧连续的上述LFD帧,该AC是指Aliasing Cancel即混叠消除;以及
AC信号生成部,使用上述声音信号及上述本地解码信号,生成并输出AC信号,该AC信号用于去除在上述AC对象帧的解码中产生的混叠;
上述AC信号生成部,在上述AC对象帧在上述LP帧的紧后连续的情况下,或者在上述AC对象帧是在上述LP帧的紧前连续的帧的情况下,(1)按照从多个方式中选出的1个方式生成并输出上述AC信号,并且(2)将表示选出的上述1个方式的AC标志输出。
2.如权利要求1所述的声音信号混合编码器,其特征在于,
上述AC信号生成部,按照从第1方式及与上述第1方式不同的第2方式中选出的1个方式生成并输出上述AC信号。
3.如权利要求2所述的声音信号混合编码器,其特征在于,
该声音信号混合编码器还具备将上述AC信号量化的量化器;
上述AC信号生成部,使用上述第1方式及上述第2方式中的每一个生成两个上述AC信号,将在所生成的两个上述AC信号中的、经上述量化器量化后的码量较小的上述AC信号的生成中使用的方式的上述AC信号输出。
4.如权利要求2或3所述的声音信号混合编码器,其特征在于,
在上述AC对象帧是在上述LP帧的紧后连续的帧的情况下,
上述第1方式是使用将上述AC对象帧的紧前的LP帧进行加窗处理后的零输入响应而生成上述AC信号的方式;
上述第2方式是不使用上述零输入响应而生成上述AC信号的方式。
5.如权利要求2~4中任一项所述的声音信号混合编码器,其特征在于,
上述第1方式是在USAC中标准化后的方式,该USAC是指UnifiedSpeech And Audio Codec即统一语音音频编码;
上述第2方式是生成的AC信号的量化后的码量预计比上述第1方式小的方式。
6.如权利要求5所述的声音信号混合编码器,其特征在于,
上述AC信号生成部,在上述声音信号所含的帧的帧大小比规定的大小大的情况下,选择上述第1方式,在上述声音信号所含的帧的帧大小在上述规定的大小以下的情况下,选择上述第2方式。
7.如权利要求2~6中任一项所述的声音信号混合编码器,其特征在于,
该声音信号混合编码器还具备将上述AC信号量化的量化器;
上述AC信号生成部,以上述第1方式生成上述AC信号,在以上述第1方式生成的上述AC信号的经上述量化器量化后的码量比规定的阈值小的情况下,选择上述第1方式;
在以上述第1方式生成的上述AC信号的经上述量化器量化后的码量在规定的阈值以上的情况下,上述AC信号生成部进而以上述第2方式生成上述AC信号,将以上述第1方式生成的上述AC信号及以上述第2方式生成的上述AC信号中的、经上述量化器量化后的码量较小的上述AC信号输出。
8.如权利要求2~7中任一项所述的声音信号混合编码器,其特征在于,
上述AC信号生成部还具备:
第一AC候选生成器,以上述第1方式生成上述AC信号;
第二AC候选生成器,以上述第2方式生成上述AC信号;以及
AC候选选择器,(1)将从上述第一AC候选生成器及上述第二AC候选生成器中选出的1个AC候选生成器生成的上述AC信号输出,并且(2)将上述AC标志输出,该AC标志表示所输出的上述AC信号使用上述第1方式及上述第2方式中的哪个方式生成。
9.如权利要求1~8中任一项所述的声音信号混合编码器,其特征在于,还具备:
LD解析滤波器组,生成输入子带信号,该输入子带信号是对输入信号变换为时间频率域表现后的信号,该LD是指Low Delay即低延迟;
多信道扩展部,从上述输入子带信号生成多信道扩展参数及缩混子带信号;
带宽扩展部,从上述缩混子带信号生成带宽扩展参数及窄带子带信号;
LD合成滤波器组,生成上述声音信号,该声音信号是将上述窄带子带信号从时间频率表现变换为时间域表现后的信号;
量化器,将上述多信道扩展参数、上述带宽扩展参数、输出的上述AC信号、上述LFD帧及上述LP帧量化;以及
比特流复用器,将上述量化器量化后的信号及上述AC标志复用并发送。
10.如权利要求1~9中任一项所述的声音信号混合编码器,其特征在于,
上述LFD编码器通过TCX方式将上述帧编码。
11.如权利要求1~10中任一项所述的声音信号混合编码器,其特征在于,
上述LFD编码器通过MDCT将上述帧编码;
上述切换部对上述LFD编码器进行编码的上述帧进行加窗处理;
在上述加窗处理中使用的窗,在比上述帧的长度的2分之1短的期间中单调增加或单调减小。
12.一种声音信号混合解码器,将包含LFD帧、LP帧和AC信号的编码信号进行解码,该LFD帧是通过LFD变换而被编码后的帧,该LP帧是使用线性预测系数而被编码后的帧,该AC信号用来进行AC对象帧的混叠的去除,该AC对象帧是与上述LP帧连续的上述LFD帧,该声音信号混合解码器的特征在于,具备:
ILFD解码器,将上述LFD帧解码,该ILFD是指Inverse LappedFrequency Domain即逆重叠频率域;
LP解码器,将上述LP帧解码;
切换部,输出将对上述ILFD解码器解码后的帧进行了加窗处理后的帧、和上述LP解码器解码后的帧依次排列后的第2窄带信号;
AC输出信号生成部,取得表示在上述AC信号的生成中使用的方式的AC标志,根据上述AC标志表示的方式,生成对上述AC信号加上从上述切换部、上述ILFD解码器或上述LP解码器输出的信号后的AC输出信号;以及
加法部,输出对上述第2窄带信号中的与上述AC对象帧相当的部分加上上述AC输出信号后的第3窄带信号。
13.如权利要求12所述的声音信号混合解码器,其特征在于,还具备:
比特流解复用器,取得包含量化后的上述编码信号和上述AC标志的比特流;
逆量化器,将上述量化后的上述编码信号逆量化,生成上述编码信号;
LD解析滤波器组,通过将从上述加法部输出的上述第3窄带信号变换为时间频率域表现,生成窄带子带信号;
带宽扩展解码部,通过将由上述逆量化器生成的编码信号所含的带宽扩展参数对上述窄带子带信号进行应用,合成高频信号,生成带宽被扩展后的子带信号;
多信道扩展解码部,通过将由上述逆量化器生成的编码信号所含的多信道扩展参数对上述带宽被扩展后的子带信号进行应用,生成多信道子带信号;以及
LD合成滤波器组,生成多信道信号,该多信道信号是将上述多信道子带信号从时间频率表现变换为时间域表现后的信号。
14.如权利要求12或13所述的声音信号混合解码器,其特征在于,
上述AC信号通过第1方式或与上述第1方式不同的第2方式生成;
上述AC输出信号生成部还具备:
第一AC候选生成器,生成与以上述第1方式生成的上述AC信号对应的上述AC输出信号;
第二AC候选生成器,生成与以上述第2方式生成的上述AC信号对应的上述AC输出信号;以及
AC候选选择器,根据上述AC标志,选择上述第一AC候选生成器及上述第二AC候选生成器中的某一个,使选出的AC候选生成器生成上述AC输出信号。
15.一种声音信号编码方法,其特征在于,
包括以下步骤:
信号解析步骤,将声音信号的特性进行解析,判断上述声音信号所包含的帧的编码方法;
LFD编码步骤,通过将上述帧进行LFD变换,生成将该帧编码后的LFD帧,该LFD是指Lapped Frequency Domain即重叠频率域;
LP编码步骤,通过计算上述帧的线性预测系数,生成将该帧编码后的LP帧,该LP是指Linear Prediction即线性预测;
切换步骤,根据上述信号解析步骤的判断结果,进行将上述帧在上述LFD编码步骤中进行编码还是在上述LP编码步骤中进行编码的切换;
本地解码步骤,生成本地解码信号,该本地解码信号包括将AC对象帧的至少一部分解码后的信号、和将与上述AC对象帧连续的上述LP帧的至少一部分解码后的信号,该AC对象帧是通过上述切换步骤的切换控制而与上述LP帧连续的上述LFD帧,该AC是指Aliasing Cancel即混叠消除;以及
AC信号生成步骤,使用上述声音信号及上述本地解码信号,生成并输出AC信号,该AC信号用于去除在上述AC对象帧的解码中产生的混叠;
在上述AC信号生成步骤中,在上述AC对象帧在上述LP帧的紧后连续的情况下,或者在上述AC对象帧是在上述LP帧的紧前连续的帧的情况下,(1)按照从多个方式中选出的1个方式生成并输出上述AC信号,并且(2)将表示选出的上述1个方式的AC标志输出。
16.一种程序,其特征在于,
用来使计算机执行权利要求15所述的声音信号编码方法。
17.一种集成电路,其特征在于,
具备:
信号解析部,将声音信号的特性进行解析,判断上述声音信号所包含的帧的编码方法;
LFD编码器,通过将上述帧进行LFD变换,生成将该帧编码后的LFD帧,该LFD是指Lapped Frequency Domain即重叠频率域;
LP编码器,通过计算上述帧的线性预测系数,生成将该帧编码后的LP帧,该LP是指Linear Prediction即线性预测;
切换部,根据上述信号解析部的判断结果,进行将上述帧通过上述LFD编码器进行编码还是通过上述LP编码器进行编码的切换;
本地解码器,生成本地解码信号,该本地解码信号包括将AC对象帧的至少一部分解码后的信号、和将与上述AC对象帧连续的上述LP帧的至少一部分解码后的信号,该AC对象帧是通过上述切换部的切换控制而与上述LP帧连续的上述LFD帧,该AC是指Aliasing Cancel即混叠消除;以及
AC信号生成部,使用上述声音信号及上述本地解码信号,生成并输出AC信号,该AC信号用于去除在上述AC对象帧的解码中产生的混叠;
上述AC信号生成部,在上述AC对象帧在上述LP帧的紧后连续的情况下,或者在上述AC对象帧是在上述LP帧的紧前连续的帧的情况下,(1)按照从多个方式中选出的1个方式生成并输出上述AC信号,并且(2)将表示选出的上述1个方式的AC标志输出。
18.一种声音信号解码方法,将包含LFD帧、LP帧和AC信号的编码信号进行解码,该LFD帧是通过LFD变换而被编码后的帧,该LP帧是使用线性预测系数而被编码后的帧,该AC信号用来进行AC对象帧的混叠的去除,该AC对象帧是与上述LP帧连续的上述LFD帧,该声音信号解码方法的特征在于,具备以下步骤:
ILFD解码步骤,将上述LFD帧解码;
LP解码步骤,将上述LP帧解码;
切换步骤,输出将对上述ILFD解码步骤中解码后的帧进行了加窗处理后的帧、和上述LP解码器解码后的帧依次排列后的第2窄带信号;
AC输出信号生成步骤,取得表示在上述AC信号的生成中使用的方式的AC标志,根据上述AC标志表示的方式,生成对上述AC信号加上在上述切换步骤、上述ILFD解码步骤或上述LP解码步骤中输出的信号后的AC输出信号;以及
加法步骤,输出对上述第2窄带信号中的与上述AC对象帧相当的部分加上上述AC输出信号后的第3窄带信号。
19.一种程序,其特征在于,
用来使计算机执行权利要求18所述的声音信号解码方法。
20.一种集成电路,将包含LFD帧、LP帧和AC信号的编码信号进行解码,该LFD帧是通过LFD变换而被编码后的帧,该LP帧是使用线性预测系数而被编码后的帧,该AC信号用来进行AC对象帧的混叠的去除,该AC对象帧是与上述LP帧连续的上述LFD帧,该集成电路的特征在于,具备:
ILFD解码器,将上述LFD帧解码;
LP解码器,将上述LP帧解码;
切换部,输出将对上述ILFD解码器解码后的帧进行了加窗处理后的帧、和上述LP解码器解码后的帧依次排列后的第2窄带信号;
AC输出信号生成部,取得表示在上述AC信号的生成中使用的方式的AC标志,根据上述AC标志表示的方式,生成对上述AC信号加上从上述切换部、上述ILFD解码器或上述LP解码器输出的信号后的AC输出信号;以及
加法部,输出对上述第2窄带信号中的、与解码后的上述AC对象帧相当的部分加上上述AC输出信号后的第3窄带信号。
CN201380001328.9A 2012-05-11 2013-05-08 声音信号混合编码器、声音信号混合解码器、声音信号编码方法以及声音信号解码方法 Active CN103548080B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012108999 2012-05-11
JP2012-108999 2012-05-11
PCT/JP2013/002950 WO2013168414A1 (ja) 2012-05-11 2013-05-08 音信号ハイブリッドエンコーダ、音信号ハイブリッドデコーダ、音信号符号化方法、及び音信号復号方法

Publications (2)

Publication Number Publication Date
CN103548080A true CN103548080A (zh) 2014-01-29
CN103548080B CN103548080B (zh) 2017-03-08

Family

ID=49550477

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380001328.9A Active CN103548080B (zh) 2012-05-11 2013-05-08 声音信号混合编码器、声音信号混合解码器、声音信号编码方法以及声音信号解码方法

Country Status (5)

Country Link
US (1) US9489962B2 (zh)
EP (1) EP2849180B1 (zh)
JP (1) JP6126006B2 (zh)
CN (1) CN103548080B (zh)
WO (1) WO2013168414A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106575507A (zh) * 2014-07-28 2017-04-19 弗劳恩霍夫应用研究促进协会 用于处理音频信号的方法和装置,音频解码器和音频编码器
CN108352165A (zh) * 2015-11-09 2018-07-31 索尼公司 解码装置、解码方法以及程序
US20220262376A1 (en) * 2019-03-05 2022-08-18 Sony Group Corporation Signal processing device, method, and program

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3503095A1 (en) 2013-08-28 2019-06-26 Dolby Laboratories Licensing Corp. Hybrid waveform-coded and parametric-coded speech enhancement
EP3044790B1 (en) * 2013-09-12 2018-10-03 Dolby International AB Time-alignment of qmf based processing data
KR101498113B1 (ko) * 2013-10-23 2015-03-04 광주과학기술원 사운드 신호의 대역폭 확장 장치 및 방법
EP2980797A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
EP3067887A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
US10504530B2 (en) 2015-11-03 2019-12-10 Dolby Laboratories Licensing Corporation Switching between transforms
KR102291792B1 (ko) 2016-11-08 2021-08-20 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 적어도 2개의 채널들을 다운믹싱하기 위한 다운믹서 및 방법 및 멀티채널 인코더 및 멀티채널 디코더
CN116631416A (zh) * 2017-01-10 2023-08-22 弗劳恩霍夫应用研究促进协会 音频解码器、提供解码的音频信号的方法、和计算机程序
CN107454416B (zh) * 2017-09-12 2020-06-30 广州酷狗计算机科技有限公司 视频流发送方法和装置
CN113948085B (zh) * 2021-12-22 2022-03-25 中国科学院自动化研究所 语音识别方法、系统、电子设备和存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0514949A2 (en) * 1989-01-27 1992-11-25 Dolby Laboratories Licensing Corporation Low bit rate transform coder, decoder, and encoder/decoder for high-quality audio
WO2000045389A1 (en) * 1999-01-28 2000-08-03 Dolby Laboratories Licensing Corporation Data framing for adaptive-block-length coding system
AU2008339211A1 (en) * 2007-12-18 2009-06-25 Lg Electronics Inc. A method and an apparatus for processing an audio signal
CN101826071A (zh) * 2004-02-19 2010-09-08 杜比实验室特许公司 用于信号分析和合成的自适应混合变换
WO2011013980A2 (en) * 2009-07-27 2011-02-03 Lg Electronics Inc. A method and an apparatus for processing an audio signal
WO2011048118A1 (en) * 2009-10-20 2011-04-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, audio signal decoder, method for providing an encoded representation of an audio content, method for providing a decoded representation of an audio content and computer program for use in low delay applications
CN102089811A (zh) * 2008-07-11 2011-06-08 弗朗霍夫应用科学研究促进协会 用于编码和解码音频样本的音频编码器和解码器
CN102089812A (zh) * 2008-07-11 2011-06-08 弗劳恩霍夫应用研究促进协会 用以使用混叠切换方案将音频信号编码/解码的装置与方法
WO2011085483A1 (en) * 2010-01-13 2011-07-21 Voiceage Corporation Forward time-domain aliasing cancellation using linear-predictive filtering
CN102177426A (zh) * 2008-10-08 2011-09-07 弗兰霍菲尔运输应用研究公司 多分辨率切换音频编码/解码方案
WO2011158485A2 (ja) * 2010-06-14 2011-12-22 パナソニック株式会社 オーディオハイブリッド符号化装置およびオーディオハイブリッド復号装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8421498D0 (en) * 1984-08-24 1984-09-26 British Telecomm Frequency domain speech coding
US6124811A (en) * 1998-07-02 2000-09-26 Intel Corporation Real time algorithms and architectures for coding images compressed by DWT-based techniques
US6426977B1 (en) * 1999-06-04 2002-07-30 Atlantic Aerospace Electronics Corporation System and method for applying and removing Gaussian covering functions
US6917913B2 (en) * 2001-03-12 2005-07-12 Motorola, Inc. Digital filter for sub-band synthesis
US8682652B2 (en) * 2006-06-30 2014-03-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
FR2912249A1 (fr) * 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
CA2871268C (en) * 2008-07-11 2015-11-03 Nikolaus Rettelbach Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program
KR101377703B1 (ko) * 2008-12-22 2014-03-25 한국전자통신연구원 광대역 인터넷 음성 단말 장치
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
JP4892021B2 (ja) * 2009-02-26 2012-03-07 株式会社東芝 信号帯域拡張装置
EP3764356A1 (en) 2009-06-23 2021-01-13 VoiceAge Corporation Forward time-domain aliasing cancellation with application in weighted or original signal domain
KR101379261B1 (ko) * 2009-09-17 2014-04-02 연세대학교 산학협력단 오디오 신호 처리 방법 및 장치
EP4358082A1 (en) * 2009-10-20 2024-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation
KR101397058B1 (ko) * 2009-11-12 2014-05-20 엘지전자 주식회사 신호 처리 방법 및 이의 장치
KR101858466B1 (ko) * 2010-10-25 2018-06-28 보이세지 코포레이션 혼합형 시간-영역/주파수-영역 코딩 장치, 인코더, 디코더, 혼합형 시간-영역/주파수-영역 코딩 방법, 인코딩 방법 및 디코딩 방법
FR2969805A1 (fr) * 2010-12-23 2012-06-29 France Telecom Codage bas retard alternant codage predictif et codage par transformee

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0514949A2 (en) * 1989-01-27 1992-11-25 Dolby Laboratories Licensing Corporation Low bit rate transform coder, decoder, and encoder/decoder for high-quality audio
WO2000045389A1 (en) * 1999-01-28 2000-08-03 Dolby Laboratories Licensing Corporation Data framing for adaptive-block-length coding system
CN1338104A (zh) * 1999-01-28 2002-02-27 多尔拜实验特许公司 自适应块长编码系统的数据分帧
CN101826071A (zh) * 2004-02-19 2010-09-08 杜比实验室特许公司 用于信号分析和合成的自适应混合变换
AU2008339211A1 (en) * 2007-12-18 2009-06-25 Lg Electronics Inc. A method and an apparatus for processing an audio signal
CN101903944A (zh) * 2007-12-18 2010-12-01 Lg电子株式会社 用于处理音频信号的方法和装置
CN102089812A (zh) * 2008-07-11 2011-06-08 弗劳恩霍夫应用研究促进协会 用以使用混叠切换方案将音频信号编码/解码的装置与方法
CN102089811A (zh) * 2008-07-11 2011-06-08 弗朗霍夫应用科学研究促进协会 用于编码和解码音频样本的音频编码器和解码器
CN102177426A (zh) * 2008-10-08 2011-09-07 弗兰霍菲尔运输应用研究公司 多分辨率切换音频编码/解码方案
WO2011013980A2 (en) * 2009-07-27 2011-02-03 Lg Electronics Inc. A method and an apparatus for processing an audio signal
WO2011048118A1 (en) * 2009-10-20 2011-04-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, audio signal decoder, method for providing an encoded representation of an audio content, method for providing a decoded representation of an audio content and computer program for use in low delay applications
CN102859588A (zh) * 2009-10-20 2013-01-02 弗兰霍菲尔运输应用研究公司 音频信号编码器、音频信号译码器、用以提供音频内容的编码表示型态的方法、用以提供音频内容的译码表示型态的方法及用于低延迟应用的计算机程序
WO2011085483A1 (en) * 2010-01-13 2011-07-21 Voiceage Corporation Forward time-domain aliasing cancellation using linear-predictive filtering
WO2011158485A2 (ja) * 2010-06-14 2011-12-22 パナソニック株式会社 オーディオハイブリッド符号化装置およびオーディオハイブリッド復号装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106575507A (zh) * 2014-07-28 2017-04-19 弗劳恩霍夫应用研究促进协会 用于处理音频信号的方法和装置,音频解码器和音频编码器
CN108352165A (zh) * 2015-11-09 2018-07-31 索尼公司 解码装置、解码方法以及程序
CN108352165B (zh) * 2015-11-09 2023-02-03 索尼公司 解码装置、解码方法以及计算机可读存储介质
US20220262376A1 (en) * 2019-03-05 2022-08-18 Sony Group Corporation Signal processing device, method, and program

Also Published As

Publication number Publication date
EP2849180A1 (en) 2015-03-18
WO2013168414A1 (ja) 2013-11-14
CN103548080B (zh) 2017-03-08
EP2849180B1 (en) 2020-01-01
JPWO2013168414A1 (ja) 2016-01-07
JP6126006B2 (ja) 2017-05-10
EP2849180A4 (en) 2015-04-22
US9489962B2 (en) 2016-11-08
US20140074489A1 (en) 2014-03-13

Similar Documents

Publication Publication Date Title
JP7092809B2 (ja) 再構築帯域に対するエネルギ情報を用いてオーディオ信号を復号化または符号化する装置および方法
JP6941643B2 (ja) 全帯域ギャップ充填を備えた周波数ドメインプロセッサと時間ドメインプロセッサとを使用するオーディオ符号器及び復号器
CN103548080B (zh) 声音信号混合编码器、声音信号混合解码器、声音信号编码方法以及声音信号解码方法
JP6262668B2 (ja) 帯域幅拡張パラメータ生成装置、符号化装置、復号装置、帯域幅拡張パラメータ生成方法、符号化方法、および、復号方法
JP5400059B2 (ja) オーディオ信号処理方法及び装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant