CN102498515B - 处理音频信号的方法和设备 - Google Patents

处理音频信号的方法和设备 Download PDF

Info

Publication number
CN102498515B
CN102498515B CN201080041387.5A CN201080041387A CN102498515B CN 102498515 B CN102498515 B CN 102498515B CN 201080041387 A CN201080041387 A CN 201080041387A CN 102498515 B CN102498515 B CN 102498515B
Authority
CN
China
Prior art keywords
window
gradient
compilation scheme
stop
compilation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201080041387.5A
Other languages
English (en)
Other versions
CN102498515A (zh
Inventor
吴贤午
李昌宪
姜泓求
宋政旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
IND ACADEMIC COOP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IND ACADEMIC COOP filed Critical IND ACADEMIC COOP
Publication of CN102498515A publication Critical patent/CN102498515A/zh
Application granted granted Critical
Publication of CN102498515B publication Critical patent/CN102498515B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00007Time or data compression or expansion
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00007Time or data compression or expansion
    • G11B2020/00014Time or data compression or expansion the compressed signal being an audio signal
    • G11B2020/00028Advanced audio coding [AAC]
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/10537Audio or video recording
    • G11B2020/10546Audio or video recording specifically adapted for audio data

Abstract

本发明公开了一种用于处理音频信号的设备及其方法。本发明包括通过音频处理设备来接收包括以第一编译方案编码的当前帧和以第二编译方案编码的下一帧的音频信号;接收指示以矩形编译方案或非矩形编译方案编码当前帧的至少一个块的子编译标识信息;当子编译标识信息指示以非矩形编译方案编码当前帧的至少最后块时,根据用于下一帧的下一窗口是否是短窗口,来决定用于当前窗口的包括第一形状和第二形状的窗口形状;以及,将决定的窗口形状的当前窗口应用到当前帧,其中:第一形状具有带有第一坡度的下降线条,第二形状具有带有第二坡度的下降线条,并且,第一坡度比第二坡度更平缓。

Description

处理音频信号的方法和设备
技术领域
本发明涉及一种用于处理音频信号的设备及其方法。虽然本发明适用于广泛的应用,但是其特别适用于编码或解码音频信号。
背景技术
通常,基于音频特征编译方案被应用于诸如音乐信号的音频信号,而基于语音特征编译方案被应用于语音信号。
发明内容
技术问题
然而,如果规定的编译方案被应用于音频和语音特征互相混合的信号,则音频编译效率被降低或者声音质量下降。
解决方案
因此,本发明旨在提供一种用于处理音频信号的设备及其方法,其基本上消除了由于现有技术的限制和缺点导致的问题中的一个或更多。
本发明的目的是提供一种用于处理音频信号的设备及其方法,借此至少两种编译方案中的一个被应用于一个帧或子帧。
本发明的另一个目的是提供用于处理音频信号的设备及其方法,借此,在将不同的编译方案应用到包括一系列帧的音频信号的每个帧或子帧时,可以解决从与每个编译方案相对应的窗口形状的不对称性生成的错配。
本发明的另一个目的是提供用于处理音频信号的设备及其方法,借此当矩形窗口和非矩形窗口互相接触时可以取消混叠(aliasing)等。
本发明的另一个目的是提供用于处理音频信号的设备及其方法,借此,如果频域方案应用框架遵守线性预测域方案应用框架,则可以跳过用于补偿窗口长度差异的窗口传输。
本发明的另一个目的是提供用于处理音频信号的设备及其方法,借此,以根据下一帧的编译方案来切换与当前帧相对应的窗口类型的方式,可以解决归因于窗口形状的不对称性的错配。
本发明的进一步目的是提供用于处理音频信号的设备及其方法,借此以根据前一帧是否是频域方案的帧来选择地应用长期预测的方式,可以提高线性预测域方案的帧中的比特效率。
在下面的描述中将阐述本发明的附加特性和优点,以及其在一定程度上从描述中将是显而易见,或者通过本发明的实践可以学到。通过在所写的描述及其权利要求以及附图中特别指出的结构,将实现和获得本发明的目的和其他优点。
应该理解,前面的一般说明和下面的详细说明都是示例性和解释性的,并且意图提供请求保护的本发明的进一步解释。
技术效果
因此,本发明提供下述效果或优点:
首先,本发明补偿由于窗口间不对称性(例如,矩形窗口和非矩形窗口之间的不对称性)等导致的诸如混叠的缺陷,从而大大地改进音频信号的声音质量。
第二,随着用于补偿混叠等的方案被应用,矩形窗口和非矩形窗口之间100%重叠变得没有必要。所以,非矩形窗口可以维持下降线条或具有平缓坡度的上升线条。
第三,本发明应用具有下降线条或带有平缓坡度的上升线条的非矩形窗口,借此同类窗口(例如,非矩形窗口)之间的交叉点被匹配到异类窗口(例如,非矩形窗口和矩形窗口)之间的交叉点。
第四,随着同类窗口的交叉点被匹配到异类窗口的交叉点,用于窗口长度差的补偿的过渡窗口变得没有必要,并且第一编译方案(例如,线性预测域方案)和第二编译方案(例如,频域方案)之间的直接过渡变得可能。
第五,随着直接过渡变得可能,在不使用用于解决错配的窗口的情况下能够应用适用于相应块(block)的音频信号特征的窗口。所以,可以大大增强声音质量。
第六,由于与非矩形窗口类型相对应的窗口的形状根据短窗口是否出现在前一或后一块处而进行变化,所以满足TDAC条件。因此可以增强声音质量。
附图说明
被包括以提供本发明的进一步理解并且被并入说明书中且构成该说明书的一部分的附图,示出本发明的实施例并且与描述一起用于解释本发明的原理。
在附图中:
图1是根据本发明的音频信号处理设备的示意性框图;
图2是根据本发明第一实施例的编码器的框图;
图3是根据本发明第一实施例的解码器的框图;
图4是通过块单元而配置的音频信号的示意图,每帧(或子帧)应用不同编译方案到块单元;
图5是用于到异类编译方案(即,矩形编译方案和非矩形编译方案)的过渡的示意图;
图6是用于矩形窗口和非矩形窗口互相重叠时的特征的示意图;
图7是用于修正部分(CP)、混叠部分(AP)和未补偿的信号的示意图;
图8是用于具有对称性(即,用于TDAC的条件)的非矩形窗口的特征的示意图;
图9是用于补偿修正部分和/或混叠部分的补偿信号的示例的示意图;
图10是用于图6中所示的异类窗口(即,矩形窗口和非矩形窗口)的组合中非矩形窗口的示例的示意图;
图11是用于矩形窗口之后的矩形窗口被重叠的情况的示意图;
图12是根据本发明第二实施例的编码器的框图;
图13是根据本发明第二实施例的解码器的框图;
图14是根据矩形编译方案是否应用到前一块的过渡窗口的形状的示意图;
图15是根据本发明第三实施例的编码器的框图;
图16是根据本发明第三实施例的解码器的框图;
图17A是与第一编译方案窗口或第二编译方案窗口(短窗口)组合的long_start窗口的示意图;
图17B是与第一编译方案窗口或第二编译方案窗口(短窗口)组合的long_stop窗口的示意图;
图17C和17D是与第一编译方案窗口或第二编译方案窗口(短窗口)组合的stop_start窗口的示意图;
图18是与第一编译方案窗口或第二编译方案窗口重叠的短窗口的示意图;
图19是根据本发明第四实施例的编码器的框图;
图20是根据本发明第四实施例的解码器的框图;
图21是窗口间路径或过渡的表格;
图22是用于第一编译方案中到long_stop窗口的过渡的情况的示意图;
图23是用于第一编译方案中到短窗口的过渡的情况的示意图;
图24是用于第一编译方案窗口与新形状的短窗口重叠的情况的示意图;
图25是根据本发明第五实施例的编码器的框图;
图26是根据本发明第六实施例的解码器的框图;
图27是用于对应于第一编译方案(例如,TCX)的窗口与短窗口(或long_stop窗口)重叠的情况的示意图;
图28是与形状1至形状4内变化的第一编译方案之中的非矩形方案相对应的窗口的表格;
图29是根据本发明第六实施例的编码器的框图;
图30是根据本发明第六实施例的解码器的框图;
图31是用于每块(帧或子帧)编译方案的示例的示意图;
图32是用于涉及长期预测的信号波形的一个示例的示意图;
图33是用于音频信号编码设备的示例的示意图,根据本发明实施例的编码器被应用到该设备;
图34是用于音频信号解码设备的示例的示意图,根据本发明实施例的解码器被应用到该设备;
图35是产品的示意性框图,其中根据本发明的一个实施例的音频信号处理设备被实现;以及
图36是用于解释产品之间关系的示意图,其中根据本发明的一个实施例的音频信号处理设备被实现。
具体实施方式
在下面的描述中将阐述本发明的附加特性和优点,以及其在一定程度上从描述中将是显而易见,或者通过本发明的实践可以学到。通过在所写的描述及其权利要求以及附图中特别指出的结构,将实现和获得本发明的目的和其他优点。
为了这些和其他优点,以及根据本发明的目的,如实例化和广泛描述的,提供一种用于处理音频信号的方法,包括:通过音频处理设备接收包括以矩形编译方案编码的第一块的第一数据和以非矩形编译方案编码的第二块的第二数据的音频信号;接收与第二块相对应的补偿信号;使用第一数据来估计混叠部分的预测;基于第二数据、补偿信号和混叠部分的预测来获得用于第二块的重构的信号。
根据本发明,矩形编译方案将以矩形窗口编码或解码,非矩形编译方案将以非矩形窗口编码或解码。
根据本发明,基于修正部分和混叠部分的误差来生成补偿信号,修正部分对应于涉及矩形窗口和非矩形窗口之间不对称性的差异,混叠部分的误差对应于混叠部分和混叠部分的预测之间的差异。
根据本发明,混叠部分对应于第一块和用于非矩形编译方案的非矩形窗口之间的重叠部分。
根据本发明,预测的估计包括:基于矩形窗口方案使用第一块的第一数据来生成用于第一块的输出信号;使用用于第一块的输出信号和非矩形窗口来获得混叠部分的预测。
根据本发明,重构的信号近似于以与用于非矩形编译方案的非矩形窗口不同的矩形窗口处理的信号。
根据本发明,重构的信号的获得包括:逆频率变换第二数据以生成时域第二信号;逆频率变换补偿信号以生成时域补偿信号;通过将时域补偿信号添加到时域第二信号和混叠部分的预测来获得重构的信号;
根据本发明,第一块对应于帧和子帧中的一个,并且第二块对应于帧或子帧中的一个。
为了进一步实现这些或其他优点,以及根据本发明的目的,提供一种用于处理音频信号的设备,所述设备包括:解复用器,其接收包括以矩形编译方案编码的第一块的第一数据和以非矩形编译方案编码的第二块的第二数据的音频信号,并且接收与第二块相对应的补偿信号;矩形解码单元,其使用第一数据来估计混叠部分的预测;以及,非矩形解码单元,其基于第二数据、补偿信号和混叠部分的预测来获得用于第二块的重构的信号。
根据本发明,矩形编译方案将以矩形窗口编码或解码,非矩形编译方案将以非矩形窗口编码或编码。
根据本发明,基于修正部分和混叠部分的误差来生成补偿信号,修正部分与涉及矩形窗口和非矩形窗口之间的不对称性的差异相对应,混叠部分的误差与混叠部分和混叠部分的预测之间的差异相对应。
根据本发明,混叠部分与第一块和用于非矩形编译方案的非矩形窗口之间的重叠部分相对应。
根据本发明,矩形解码单元被配置为:基于矩形窗口方案而使用第一块的第一数据来生成用于第一块的输出信号,并且使用用于第一块的输出信号和非矩形窗口来获得混叠部分的预测。
根据本发明,重构的信号近似于以与用于非矩形编译方案的非矩形窗口不同的矩形窗口处理的信号。
根据本发明,非矩形解码单元被配置为:逆频率变换第二数据以生成时域第二信号;逆频率变换补偿信号以生成时域补偿信号;以及通过将时域补偿信号添加到时域第二信号和混叠部分的预测来获得重构的信号。
根据本发明,第一块对应于帧和子帧中的一个,而第二块对应于帧和子帧中的一个。
为了进一步实现这些和其他优点,根据本发明的目的,用于处理音频信号的方法,包括:通过音频处理设备来接收指示是否将第一编译方案或第二编译方案应用到当前帧的编译标识信息,当编译标识信息指示第二编译方案应用到当前帧时,接收从多个窗口中指示用于当前帧的特定窗口的窗口类型信息;基于窗口类型信息来标识当前窗口是long_start窗口,其中long_start窗口在前一帧的only_long窗口之后,其中long_start窗口包括平缓long_start窗口和陡峭long_start窗口;以及,当第一编译方案被应用到下一帧时,将平缓long_start窗口应用到当前帧,其中:平缓long_start窗口包括具有第一坡度的下降线条,陡峭long_start窗口包括具有第二坡度的下降线条,第一坡度比第二坡度更平缓。
根据本发明,第一坡度的宽度等于第二坡度的宽度的两倍。
根据本发明,第一坡度的宽度对应于N/4(其中N是帧长度)。
根据本发明,第一坡度的宽度对应于256个采样,以及其中第一坡度的宽度等于long_start窗口的长度的1/8。
根据本发明,only_long窗口是水平对称的,并且long_start窗口是水平不对称的,long_start窗口在右半部具有零部分。
根据本发明,具有第一坡度或第二坡度的下降线条的中点在距long_start窗口的起始点3N/2距离处(其中N是帧长度)。
根据本发明,第一编译方案是基于频域,而第二编译方案是基于线性预测域。
为了进一步实现这些和其他优点,以及根据本发明的目的,提供一种用于处理音频信号的设备,所述设备包括:解复用器,其通过音频处理设备来接收指示是否将第一编译方案或第二编译方案应用到当前帧的编译标识信息,以及当编译标识信息指示第二编译方案应用到当前帧时,接收从多个窗口中指示用于当前帧的特定窗口的窗口类型信息;第二编译单元基于窗口类型信息来标识当前窗口是long_start窗口,其中long_start窗口在前一帧的only_long窗口之后,其中long_start窗口包括平缓long_start窗口和陡峭long_start窗口,以及当第一编译方案被应用到下一帧时,将平缓long_start窗口应用到当前帧,其中:平缓long_start窗口包括具有第一坡度的下降线条,陡峭long_start窗口包括具有第二坡度的下降线条,第一坡度比第二坡度更平缓。
根据本发明,第一坡度的宽度等于第二坡度的宽度的两倍。
根据本发明,其中第一坡度的宽度对应于N/4(其中N是当前帧的长度)。
根据本发明,其中第一坡度的宽度对应于256个采样,以及其中第一坡度的宽度等于long_start窗口的长度的1/8。
根据本发明,only_long窗口是水平对称的,并且long_start窗口是水平不对称的,long_start窗口在右半部具有零部分。
根据本发明,具有第一坡度或第二坡度的下降线条的中点在距long_start窗口的起始点3N/2距离处(其中N是帧长度)。
根据本发明,第一编译方案是基于频域,而第二编译方案是基于线性预测域。
为了实现这些和其他优点,以及根据本发明的目的,提供一种用于处理音频信号的方法,所述方法包括:通过音频处理设备来接收包括第一块的第一数据和第二块的第二数据的音频信号;接收与第二块相对应的补偿信号;基于第二数据、补偿信号和第二块的窗口来获得用于第二块的重构的信号,其中,当以矩形编译方案来编码第一数据并且第二块的窗口属于过渡窗口类时,第二块的窗口具有带有第一坡度的上升线条,其中第一坡度比第二坡度更平缓。
根据本发明,当以非矩形编译方案来编码第一数据并且第二块的窗口属于过渡窗口类时,第二块的窗口具有带有第二坡度的上升线条。
根据本发明,当过渡窗口类包括long_stop窗口和stop_start窗口时,long_stop窗口和stop_start窗口是水平不对称的,并且在左半部具有零部分。
根据本发明,当以矩形编译方案来编码第一数据时,补偿信号被接收。
根据本发明,基于涉及矩形窗口和非矩形窗口之间不对称性的差异以及混叠部分和混叠部分的预测之间的差异中的至少一个来生成补偿信号。
为了进一步实现这些和其他优点,以及根据本发明的目的,提供一种用于处理音频信号的设备,所述设备包括:解复用器,其接收包括第一块的第一数据和第二块的第二数据的音频信号,并且接收与第二块相对应的补偿信号;非矩形解码单元,其基于第二数据、补偿信号和第二块的窗口来获得用于第二块的重构的信号,其中,当以矩形编译方案来编码第一数据并且第二块的窗口属于过渡窗口类时,第二块的窗口具有带有第一坡度的上升线条,其中第一坡度比第二坡度更平缓。
根据本发明,当以非矩形编译方案来编码第一数据并且第二块的窗口属于过渡窗口类时,第二块的窗口具有带有第二坡度的上升线条。
根据本发明,当过渡窗口类包括long_stop窗口和stop_start窗口时,long_stop窗口和stop_start窗口是水平不对称的,并且在左半部具有零部分。
根据本发明,当以矩形编译方案来编码第一数据时,接收补偿信号。
根据本发明,基于涉及矩形窗口和非矩形窗口之间不对称性的差异以及混叠部分和混叠部分的预测之间的差异中的至少一个来生成补偿信号。
为了进一步实现这些和其他优点,以及根据本发明的目的,用于处理音频信号的方法,包括:通过音频处理设备来接收包括第一块的第一数据和第二块的第二数据的音频信号;接收与第二块相对应的补偿信号;基于第二数据、补偿信号和第二块的窗口来获得用于第二块的重构的信号,其中,当以矩形编译方案来编码第一数据并且第二块的窗口属于过渡窗口类时,第二块的窗口具有带有第一坡度的上升线条,其中第一坡度比第二坡度更平缓。
根据本发明,当以非矩形编译方案来编码第一数据并且第二块的窗口属于过渡窗口类时,第二块的窗口具有带有第二坡度的上升线条。
根据本发明,当过渡窗口类包括long_start窗口和stop_start窗口时,long_stop窗口和stop_start窗口是水平不对称的,并且在左半部具有零部分。
根据本发明,当以矩形编译方案来编码第一数据时,补偿信号被接收。
根据本发明,基于涉及矩形窗口和非矩形窗口之间不对称性的差异以及混叠部分和混叠部分的预测之间的差异中的至少一个来生成补偿信号。
为了进一步实现这些和其他优点,以及根据本发明的目的,提供一种用于处理音频信号的设备,所述设备包括:解复用器,其接收包括第一块的第一数据和第二块的第二数据的音频信号,并且接收与第二块相对应的补偿信号;非矩形解码单元,其基于第二数据、补偿信号和第二块的窗口来获得用于第二块的重构的信号,其中,当以矩形编译方案来编码第一数据并且第二块的窗口属于过渡窗口类时,第二块的窗口具有带有第一坡度的上升线条,其中第一坡度比第二坡度更加平缓。
根据本发明,当以非矩形编译方案来编码第一数据并且第二块的窗口属于过渡窗口类时,第二块的窗口具有带有第二坡度的上升线条。
根据本发明,当过渡窗口类包括long_stop窗口和stop_start窗口时,long_stop窗口和stop_start窗口是水平不对称的,并且在左半部具有零部分。
根据本发明,当以矩形编译方案来编码第一数据时,补偿信号被接收。
根据本发明,基于涉及矩形窗口和非矩形窗口之间不对称性的差异以及混叠部分和混叠部分的预测之间的差异中的至少一个来生成补偿信号。
为了进一步实现这些和其他优点,以及根据本发明的目的,提供一种用于处理音频信号的方法,所述方法包括:当第二编译方案被应用到当前帧时,通过音频处理设备来接收从多个窗口中指示用于当前帧的特定窗口的窗口类型信息;以及,基于窗口类型信息将当前窗口应用到当前帧,其中,当第一编译方案被应用到前一帧时,多个窗口由短窗口、第一过渡窗口、第二过渡窗口构成,其中短窗口具有宽度为N/8的至少一个上升线条,并且第一过渡窗口和第二过渡窗口具有宽度为N/4(其中N是帧长度)的上升线条。
根据本发明,短窗口、第一过渡窗口和第二过渡窗口的长度是2N。
根据本发明,短窗口、第一过渡窗口和第二过渡窗口的左半部对应于1024个采样。
根据本发明,当前窗口和前一窗口的交叉点是在距当前窗口的起始N/2距离处。
根据本发明,第一过渡窗口在右半部具有零部分,第二过渡窗口在右半部具有零部分,短窗口具有重叠一起的多个短部分,并且短部分具有上升线条和下降线条。
为了进一步实现这些和其他优点,以及根据本发明的目的,提供一种用于处理音频信号的方法,所述方法包括:通过音频处理设备来接收包括以第一编译方案编码的当前帧和以第二编译方案编码的下一帧的音频信号;接收指示以矩形编译方案或非矩形编译方案编码当前帧的至少一个块的子编译标识信息;当子编译标识信息指示以非矩形编译方案编码当前帧的至少最后块时,根据用于下一帧的下一窗口是否是短窗口来决定用于当前窗口的包括第一形状和第二形状的窗口形状;将决定的窗口形状的当前窗口应用到当前帧,其中:第一形状具有带有第一坡度的下降线条,第二形状具有带有第二坡度的下降线条,以及,第一坡度比第二坡度更平缓。
根据本发明,第一坡度的宽度对应于256个采样或N/4,并且第二坡度的宽度对应于128个采样或N/8(N是帧长度)。
根据本发明,当前窗口和下一窗口之间的交叉点是在距下一窗口的起始N/2距离处。
根据本发明,第一坡度被匹配到非短窗口中上升坡度的坡度,并且第二坡度被匹配到短窗口中上升坡度的坡度。
为了进一步实现这些和其他优点,以及根据本发明的目的,提供一种用于处理音频信号的设备,所述设备包括:解复用器,其当第二编译方案被应用到当前帧时,接收从多个窗口中指示用于当前帧的特定窗口的窗口类型信息;第二编译单元,其基于窗口类型信息将当前窗口应用到当前帧,其中,当第一编译方案被应用到前一帧时,多个窗口由短窗口、第一过渡窗口、第二过渡窗口构成,其中短窗口具有宽度为N/8的至少一个上升线条,并且第一过渡窗口和第二过渡窗口具有宽度为N/4(其中N是帧长度)的上升线条。
根据本发明,短窗口、第一过渡窗口和第二过渡窗口的长度是2N。
根据本发明,短窗口、第一过渡窗口和第二过渡窗口的左半部对应于1024个采样。
根据本发明,当前窗口和前一窗口之间的交叉点是在距当前窗口的起始N/2处。
根据本发明,第一过渡窗口在右半部具有零部分,第二过渡窗口在右半部具有零部分,短窗口具有重叠一起的多个短部分,以及短部分具有上升线条和下降线条。
为了进一步实现这些和其他优点,以及根据本发明的目的,提供一种用于处理音频信号的设备,所述设备包括:解复用器,其接收包括以第一编译方案编码的当前帧和以第二编译方案编码的下一帧的音频信号,并且接收指示以矩形编译方案或非矩形编译方案来编码当前帧的至少一个块的子编译标识信息;第一编译单元,其当子编译标识信息指示以非矩形编译方案来编码当前帧的至少最后块时,根据用于下一帧的下一窗口是否是短窗口,来决定用于当前窗口的包括第一形状和第二形状的窗口形状;将决定的窗口形状的当前窗口应用到当前帧,其中:第一形状具有带有第一坡度的下降线条,第二形状具有带有第二坡度的下降线条,以及,第一坡度比第二坡度更平缓。
根据本发明,第一坡度的宽度对应于256个采样或N/4,而第二坡度的宽度对应于128个采样或N/8(N是帧长度)。
根据本发明,当前窗口和下一窗口之间的交叉点是在距下一窗口的起始N/2处。
根据本发明,第一坡度被匹配到非短窗口中上升坡度的坡度,而第二坡度被匹配到短窗口中上升坡度的坡度。
为了进一步实现这些和其他优点,以及根据本发明的目的,用于处理音频信号的方法,包括:通过音频处理设备来接收指示是否将第一编译方案或第二编译方案应用到当前帧的编译标识信息;当编译标识信息指示第二编译方案被应用到当前帧时,接收从多个窗口中指示用于当前帧的特定窗口的窗口类型信息;基于窗口类型信息来确定当前窗口是long_stop窗口,其中long_stop窗口之后是下一帧的only_long窗口,其中long_stop窗口包括平缓long_stop窗口和陡峭long_stop窗口;以及,当第一编译方案被应用到前一帧时,将平缓long_stop窗口应用到当前帧,其中:平缓long_stop窗口包括具有第一坡度的上升线条,陡峭long_stop窗口包括具有第二坡度的上升线条,并且,第一坡度比第二坡度更平缓。
根据本发明,第一坡度的宽度等于第二坡度的宽度的两倍。
根据本发明,第一坡度的宽度对应于N/4(其中N是帧长度)。
根据本发明,第一坡度的宽度对应于256个采样,以及其中第一坡度的宽度等于long_stop窗口的长度的1/8。
根据本发明,only_long窗口是水平对称的,而long_stop窗口是水平不对称的,long_stop窗口在左半部具有零部分。
根据本发明,具有第一坡度或第二坡度的上升线条的中点在距long_stop窗口的起始点N/2距离处(其中N是帧长度)。
根据本发明,第一编译方案是基于频域,而第二编译方案是基于线性预测域。
为了进一步实现这些和其他优点,以及根据本发明的目的,用于处理音频信号的设备,包括:解复用器,其接收指示是否将第一编译方案或第二编译方案应用到当前帧的编译标识信息,以及当编译标识信息指示第二编译方案被应用到当前帧时,接收从多个窗口中指示用于当前帧的特定窗口的窗口类型信息;以及,第二编译单元,其基于窗口类型信息来标识当前窗口是long_stop窗口,其中long_stop窗口之后是下一帧的only_long窗口,其中long_stop窗口包括平缓long_stop窗口和陡峭long_stop窗口;以及,当第一编译方案被应用到前一帧时,将平缓long_stop窗口应用到当前帧,其中:平缓long_stop窗口包括具有第一坡度的上升线条,陡峭long_stop窗口包括具有第二坡度的上升线条,并且,第一坡度比第二坡度更平缓。
根据本发明,第一坡度的宽度等于第二坡度的宽度的两倍。
根据本发明,第一坡度的宽度对应于N/4(其中N是帧长度)。
根据本发明,第一坡度的宽度对应于256个采样,以及其中第一坡度的宽度等于long_stop窗口的长度的1/8。
根据本发明,其中only_long窗口是水平对称的,以及long_stop窗口是水平不对称的,long_stop窗口在左半部具有零部分。
根据本发明,具有第一坡度或第二坡度的上升线条的中点在距long_stop窗口的起始点N/2距离处(其中N是帧长度)。
根据本发明,第一编译方案是基于频域,以及第二编译方案是基于线性预测域。
为了实现这些和其他优点,以及根据本发明的目的,用于处理音频信号的方法,包括:通过音频处理设备来接收指示是否将第一编译方案或第二编译方案应用到当前帧的编译标识信息;当编译标识信息指示第二编译方案被应用到当前帧时,接收从多个窗口中指示用于当前帧的特定窗口的窗口类型信息;基于窗口类型信息来标识当前窗口是stop_start窗口,其中stop_start窗口在long_start窗口、短窗口和用于前一帧的第一编译方案的窗口中的一个的后面,其中stop_start窗口之后是long_stop窗口、短窗口和用于下一帧的第一编译方案的窗口中的一个,其中stop_start窗口包括平缓-平缓stop_start窗口、平缓-陡峭stop_start窗口、陡峭-平缓stop_start窗口和陡峭-陡峭stop_start窗口;当第一编译方案被应用到前一帧时,将平缓-平缓stop_start窗口和平缓-陡峭stop_start窗口中的一个应用到当前帧;以及,当第一编译方案被应用到下一帧时,将平缓-平缓stop_start窗口和陡峭-陡峭stop_start窗口中的一个应用到当前帧,其中:平缓-平缓stop_start窗口包括具有第一坡度的上升线条和具有第一坡度的下降线条,平缓-陡峭stop_start窗口包括具有第一坡度的上升线条和具有第二坡度的下降线条,陡峭-平缓stop_start窗口包括具有第二坡度的上升线条和具有第一坡度的下降线条,陡峭-陡峭stop_start窗口包括具有第二坡度的上升线条和具有第二坡度的下降线条,并且,第一坡度比第二坡度更平缓。
根据本发明,第一坡度的宽度等于第二坡度的宽度的两倍。
根据本发明,第一坡度的宽度对应于N/4(其中N是帧长度)。
根据本发明,第一坡度的宽度对应于256个采样,以及其中第一坡度的宽度等于stop_start窗口的长度的1/8。
根据本发明,短窗口是水平对称的,long_start窗口和long_stop窗口是水平不对称的,long_stop窗口在左半部具有零部分,而long_start窗口在右半部具有零部分。
根据本发明,其中具有第一坡度或第二坡度的上升线条的中点在距stop_start窗口的起始点N/2距离处(其中N是帧长度),具有第一坡度或第二坡度的下降线条的中点在距stop_start窗口的起始点3N/2距离处(其中N是帧长度)。
根据本发明,第一编译方案是基于频域,而第二编译方案是基于线性预测域。
为了进一步实现这些和其他优点,以及根据本发明的目的,用于处理音频信号的设备,包括:解复用器,其接收指示是否将第一编译方案或第二编译方案应用到当前帧的编译标识信息,并且,当编译标识信息指示第二编译方案被应用到当前帧时,接收从多个窗口中指示用于当前帧的特定窗口的窗口类型信息;以及,第二编译单元,其基于窗口类型信息来标识当前窗口是stop_start窗口,其中stop_start窗口在long_start窗口、短窗口和用于前一帧的第一编译方案的窗口中的一个之后,其中stop_start窗口之后是long_stop窗口、短窗口和用于下一帧的第一编译方案的窗口中的一个,其中stop start窗口包括平缓-平缓stop_start窗口、平滑-陡峭stop_start窗口、陡峭-平缓stop_start窗口和陡峭-陡峭stop_start窗口,以及,当第一编译方案被应用到前一帧时,将平缓-平缓stop_start窗口和平缓-陡峭stop_start窗口中的一个应用到当前帧,当第一编译方案被应用到下一帧时,将平缓-平缓stop_start窗口和陡峭-平缓stop_start窗口中的一个应用到当前帧,其中:平缓-平缓stop_start窗口包括具有第一坡度的上升线条和具有第一坡度的下降线条,平缓-陡峭stop_start窗口包括具有第一坡度的上升线条和具有第二坡度的下降线条,陡峭-平滑stop_start窗口包括具有第二坡度的上升线条和具有第一坡度的下降线条,陡峭-陡峭stop_start窗口包括具有第二坡度的上升线条和具有第二坡度的下降线条,并且,第一坡度比第二坡度更平缓。
根据本发明,第一坡度的宽度等于第二坡度的宽度的两倍。
根据本发明,第一坡度的宽度对应于N/4(其中N是帧长度)。
根据本发明,第一坡度的宽度对应于256个采样,以及其中第一坡度的宽度等于stop_start窗口的长度的1/8。
根据本发明,短窗口是水平对称的,long_start窗口和long_stop窗口是水平不对称的,long_stop窗口在左半部具有零部分,以及long_start窗口在右半部具有零部分。
根据本发明,具有第一坡度或第二坡度的上升线条的中点在距stop_start窗口的起始点N/2距离处(其中N是帧长度),具有第一坡度或第二坡度的下降线条的中点在距stop_start窗口的起始点3N/2距离处(其中N是帧长度)。
根据本发明,第一编译方案是基于频域,而第二编译方案是基于线性预测域。
为了进一步实现这些和其他优点,以及根据本发明的目的,用于处理音频信号的方法,包括:通过音频处理设备来接收指示是否将第一编译方案或第二编译方案应用到当前帧的编译标识信息,当编译标识信息指示第二编译方案被应用到当前帧时,接收从多个窗口之中指示用于当前帧的特定窗口的窗口类型信息;基于窗口类型信息来标识当前窗口是短窗口,其中短窗口具有一个固定的形状,其包括多个重叠一起的短部分,以及,将固定的形状的短窗口应用到当前帧,其中短窗口在long_start窗口、stop_start窗口和用于前一帧的第一编译方案的窗口中的一个之后,其中短窗口之后是long_stop窗口、stop_start窗口和用于下一帧的第一编译方案的窗口中的一个。
根据本发明,其中短部分具有上升线条和下降线条,其中上升线条的宽度与下降线条的宽度相同。
根据本发明,上升线条的宽度和下降线条的宽度对应于N/8(其中N是帧长度)。
根据本发明,短窗口和用于前一帧的窗口之间的交叉点是在距短窗口的起始N/2距离处,短窗口和用于下一帧的窗口的交叉点是在距短窗口的起始3N/2距离处(其中N是帧长度)。
根据本发明,该方法进一步包括接收下一帧的帧数据;当来自第一编译方案之中的矩形编译方案被应用到下一帧时,接收用于下一帧的补偿信号;以及,基于下一帧的下一数据、补偿信号和第一编译方案的窗口来获得用于下一帧的重构的信号。
根据本发明,基于涉及矩形窗口和非矩形窗口之间不对称性的差异以及混叠部分和混叠部分的预测之间的差异中的至少一个来生成补偿信号。
为了进一步实现这些和其他优点,以及根据本发明的目的,用于处理音频信号的设备,包括:通过音频处理设备来接收指示是否将第一编译方案或第二编译方案应用到当前帧的编译标识信息,当编译标识信息指示第二编译方案被应用到当前帧时,接收从多个窗口之中指示用于当前帧的特定窗口的窗口类型信息;基于窗口类型信息来标识当前窗口是短窗口,其中短窗口具有一个固定形状,其包括重叠一起的多个短部分,以及,将固定形状的短窗口应用到当前帧,其中短窗口在long_start窗口、stop_start窗口和用于前一帧的第一编译方案的窗口中的一个之后,其中短窗口之后是long_stop窗口、stop_start窗口和用于下一帧的第一编译方案的窗口中的一个。
根据本发明,短部分具有上升线条和下降线条,其中上升线条的宽度与下降线条的宽度相同。
根据本发明,上升线条的宽度和下降线条的宽度对应于N/8(其中N是帧长度)。
根据本发明,短窗口和用于前一帧的窗口之间的交叉点是在距短窗口的起始N/2距离处,短窗口和用于下一帧的窗口之间的交叉点是在距短窗口的起始3N/2距离处(其中N是帧长度)。
根据本发明,设备进一步包括接收下一帧的下一数据;当来自第一编译方案之中的矩形编译方案被应用到下一帧时,接收用于下一帧的补偿信号;以及,基于下一帧的下一数据、补偿信号和第一编译方案的窗口来获得用于下一帧的重构的信号。
根据本发明,基于涉及矩形窗口和非矩形窗口之间不对称性的差异以及混叠部分和混叠部分之间的差异中的至少一个来生成补偿信号。
为了进一步实现这些和其他优点,以及根据本发明的目的,用于处理音频信号的方法,包括:通过音频处理设备来接收包括以第一编译方案编码的当前帧和以第二编译方案编码的下一帧的音频信号;接收指示以矩形编译方案或非矩形编译方案编码当前帧的至少一个块的子编译标识信息;当子编译标识信息指示以非矩形编译方案编码当前帧的至少最后块时,根据用于下一帧的下一窗口是否是短窗口,来决定包括用于当前窗口的第一形状和第二形状的窗口形状;将决定的窗口形状的当前窗口应用到当前帧,其中:第一形状具有带有第一坡度的下降线条,第二形状具有带有第二坡度的下降线条,并且,第一坡度比第二坡度更平缓。
根据本发明,第一坡度的宽度对应于256个采样或N/4,而第二坡度的宽度对应于128个采样或N/8(N是帧长度)。
根据本发明,当前窗口和下一窗口之间的交叉点是在距下一窗口的起始N/2距离处。
根据本发明,第一坡度被匹配到非短窗口中上升坡度的坡度,而第二坡度被匹配到短窗口中上升坡度的坡度。
为了进一步实现这些和其他优点,以及根据本发明的目的,用于处理音频信号的设备,包括:解复用器,其接收包括以第一编译方案编码的当前帧和以第二编译方案编码的下一帧的音频信号,并且接收指示以矩形编译方案或非矩形编译方案编码当前帧的至少一个块的子编译标识信息;第一编译单元,其当子编译标识信息指示以非矩形编译方案编码当前帧的至少最后块时,根据用于下一帧的下一窗口是否是短窗口,来决定用于当前窗口的包括第一形状和第二形状的窗口形状;将决定的窗口形状的当前窗口应用到当前帧,其中:第一形状具有带有第一坡度的下降线条,第二形状具有带有第二坡度的下降线条,并且,第一坡度比第二坡度更平缓。
根据本发明,第一坡度的宽度对应于256个采样或N/4,而第二坡度的宽度对应于128个采样或N/8(N是帧长度)。
根据本发明,当前窗口和下一窗口之间的交叉点是在距下一窗口的起始N/2距离处。
根据本发明,第一坡度被匹配到非短窗口中上升坡度的坡度,而第二坡度被匹配到短窗口中上升坡度的坡度。
应该理解,前面的一般描述和下面的具体描述都是示例性和解释性的,并且意图提供请求保护的本发明的进一步解释。
用于发明的模式
现在将详细对本发明优选实施例进行参考,其示例被示出在附图中。首先,该说明书和权利要求中所用的术语或词语不应该理解为一般或字典的意思,而应该基于发明人能够恰当地定义技术的概念的原理理解为匹配本发明的技术思想的意思和概念,以最好的方式来描述发明人的发明。该公开中公开的实施例和附图中所示的配置仅仅是一个优选实施例,并且不表示本发明的所有技术思想。所以,应该理解,本发明覆盖在提交该申请的时间点处落入所附权利要求和它们的等同范围内的该发明的修改和变形。
根据本发明,该说明书中未公开的术语可以理解为匹配本发明的技术思想的下述意思和概念。具体来说,“编译”可以被选择地理解为“编码”或“解码”,以及该公开中的“信息”是通常包括值、参数、系数、元件等的术语,以及其意思偶尔可以被理解为不同的,本发明不限于此。
在该公开中,在广义中,音频信号是概念上有别于视频信号,并且指定可以被听觉上识别的所有信号。在狭义中,音频信号意思是没有或具有少量语音特征的信号。本发明的音频信号应该在广义中理解。还有,在用于有别于语音信号的情况中,本发明的音频信号可以被理解为狭义中的音频信号。
虽然编译仅被指定为编码,但是其可以被理解为包括编码和解码。
图1是根据本发明的音频信号处理设备的示意性框图。
参考图1,根据本发明的音频信号处理设备的编码器100包括一对编译单元(即,矩形编译单元120R和非矩形编译单元120N或第一编译单元120-1和第二编译单元120-2)并且能够进一步包括信号分类器110和复用器130。
在该情况中,矩形编译单元120R是矩形编译方案所应用到的编译单元。具体地,矩形编译方案意思是应用具有矩形形状的窗口的编译方案,而非矩形编译方案意思是应用具有非矩形形状的窗口的编译方案。
此外,第一和第二编译单元120-1和120-2是用于基于不同域来分别应用第一和第二编译方案的单元。在该情况中,域可以包括线性预测域、频域、时域等。例如,第一编译方案是基于线性预测域的编译方案,而第二编译方案是基于频域的编译方案。还有,稍后将详细描述根据域类型的定义和属性。
编码器100能够包括三个特定编译单元(即,A编译单元120A,B编译单元120B和C编译单元120C)。例如如图1中所示,应用到A编译单元120A的编译方案是矩形编译方案并且对应于第一编译方案。应用到B编译单元120B的B编译方案是非矩形编译方案并且对应于第一编译方案。应用到C编译单元120C的编译方案是非矩形编译方案并且对应于第二编译方案。如前面描述中所述,图1中所示的附图仅仅是示例性的,本发明不限于此。为了下述说明的清楚和方便,将图1中所示的示例作为参考。
可选地,A、B和C编译方案可以分别对应于ACELP(代数代码激励线性预测)、TCX(变换码激励)和MDCT(改进的离散余弦变换),本发明不限于此。将参考矩形编译方案、非矩形编译方案、第一编译方案和第二编译方案的细节来详细描述A、B和C编译方案。
信号分类器110分析输入音频信号的特征,然后基于分析的特征来确定将上述至少两个编译方案的哪一个应用到当前帧或子帧。根据确定,生成编译方案信息。如前面描述中所述,至少两个编译方案对应于矩形和非矩形编译方案、第一和第二编译方案或A至C编译方案,本发明不限于此。
例如,假如在图1中所示的示例中,编译方案信息可以包括编译标识信息和子编译标识信息。在该情况中,编译标识信息指示第一编译方案或者第二编译方案用于当前帧。在当前帧对应于第一编译方案的情形中,子编译标识信息是指示每帧或子帧中第一编译方案是A编译方案还是B编译方案的信息。
然后,信号分类器110生成编译方案信息,然后将其发送到复用器130。
同时,在信号分类器110的控制下,每帧或子帧,输入信号被分类,然后被输入到矩形/非矩形编译单元120R/120N或第一/第二编译单元120-1/120-2。在图1中所示的示例中,输入信号被输入到A至C编译单元120A至120C中的一个。
在图1中所示的示例的情形中,A至C编译单元120A至120C的每个将利用相应的编译方案来编码输入信号产生的数据发送到复用器120。
复用器130通过复用编译方案信息和数据来生成至少比特流,该数据是由相应的单元执行的编译的结果。
同时,根据本发明的音频信号处理设备的解码器200包括至少两个解码单元220R和220N,或者220-1和220-2,并且能够进一步包括解复用器210。在该情况中,至少两个解码单元是解码方面中的组件以对应于前者至少两个解码单元,并且分别包括矩形解码单元220R和非矩形解码单元220N(或者第一解码单元220-1和第二解码单元220-2)。在类似于编码器110的方式中,至少两个解码单元可以分别包括A至C解码单元220A至220C。
由矩形解码单元220R应用的矩形编译方案和由非矩形解码单元220N应用的非矩形编译方案与前面描述中解释的方案一样。并且,由第一解码单元220-1应用的第一编译方案和由第二解码单元220-2应用的第二编译方案与前面描述中解释的方案一样。如前面描述中所述,在A至C解码单元220A至220C被包括,如图1中所示,则将稍后详细描述分别由各个编译单元所用的A至C编译方案。
然后,解复用器210从至少一个比特流提取每帧或子帧的编译方案信息和数据。根据编译方案信息,提取的数据被转发到相应的解码单元220A、220B或220C。最后,解码单元中的每个通过相应的解码方案来解码数据以生成输出音频信号。
在下面的描述中,按顺序来描述图1中所示的根据本发明的音频信号处理设备的实施例。
图2是根据本发明第一实施例的编码器的框图,而图3是根据本发明第一实施例的解码器的框图。具体地,当由矩形编译方案编码的块接触由非矩形编译方案编码的块时,第一实施例涉及用于补偿诸如混叠等缺陷的实施例。
参考图2,如同图1中所示的前者编码器100,根据第一实施例的编码器100A包括矩形编译单元120R和非矩形编译单元120N,并且能够进一步包括复用器130。具体地,矩形编译单元120R包括矩形方案编译部分122和矩形方案合成部分124。并且,非矩形编译单元120N包括补偿信息生成部分128并且能够进一步包括非矩形方案编译部分126。
首先,输入信号通过块的单元来分开,然后被输入到矩形编译单元120R或非矩形编译单元120N。在该情况中,块是与帧或子帧相对应的单元。
在下面的描述中,参考图4和图5来检查每帧的编译方案(例如,矩形编译方案、非矩形编译方案),以及参考图6至11来描述用于补偿从到异类编译方案(例如,矩形编译方案和非矩形编译方案)的过渡生成的缺陷(例如,混叠等)的各种方法。图4至11被优先地描述并且将再次描述图2和图3中所示的组件。
图4示出了音频信号的配置单元和每个配置单元的编译方案。
参考图4,可以观察到音频信号被以一系列帧配置,包括第i帧(帧i)和第(i+1)帧(帧i+1)。具体地,可以看出单个帧包括多个子帧(例如,4个子帧)。此外,图4示出不同的编译方案可应用到每个帧或子帧。具体地,图4示出了有三种编译方案[即,A编译方案(ACELP)、B编译方案(TCX)和C编译方案(FD)]的示例。例如,帧可以以多个子帧(例如,4个子帧)来配置。以及,A编译方案(例如,ACELP)可应用在每个子帧,如图4(A)中第i帧中所示。B编译方案(例如,TCX)可应用在1个子帧、2个连续子帧和4个连续子帧(即,一个帧),如图4(B)的第i帧所示和图4(D)中所示的第i和第(i+1)帧。C编译方案(例如,FD)可不通过子帧单元来应用,而是通过帧单元来应用,如图4(A)和图(B)中所示,本发明不限于此。
图5是用于到异类编译方案的过渡(即,矩形编译方案和非矩形编译方案)的示意图。
参考图5(A-1),第N块中的过渡被做为矩形编译方案,而第(N+1)块中的过渡被做为非矩形编译方案。反过来,参考图5(A-2),第N块中的过渡被做为非矩形编译方案,而第(N+1)块中的过渡被做为矩形编译方案。在该情况中,块可以对应于前面描述中所解释的帧或子帧。即,第N或第(N+1)帧或子帧可以包括帧或子帧。具体地,总共四种组合(例如,帧-帧,帧-子帧,子帧-帧和子帧-子帧)是可能的。
从图4(A)至图4(D)中所示的前者情况中,可以发现图5(A-1)中所示的从矩形编译方案到非矩形编译方案的过渡的示例。
参考图1,如前面描述中所述,A编译方案(ACELP)对应于矩形编译方案,而B编译方案(TCX)和C编译方案(FD)中的每个对应于非矩形编译方案。从A(ACELP)编译方案到B编译方案(TCX)或者C编译方案(FD)的过渡的情况对应于由图5(B-1)至图5(B-4)中所示的虚线所指示的部分中的一个。
反过来,从非矩形编译方案到矩形编译方案的过渡的情况[即,图5(A-2)],即,从B编译方案(TCX)或者C编译方案(FD)到A编译方案(ACELP)的过渡的情况未在图5(B-1)至图5(B-4)中指示,但是可以从两个或三个位置发现(例如,图5(B-2)中第1和第2块等)。
这样,由于来自矩形窗口和非矩形窗口互相接触的位置的不对称性,可以生成诸如混叠等的缺陷。在下面的描述中,将参考图6至9来描述补偿该缺陷的方法。
图6是当矩形窗口和非矩形窗口互相重叠时的特征的示意图。图7是修正部分(CP)、混叠部分(AP)和未补偿的信号的示意图。具体地,图6对应于矩形窗口之后是非矩形窗口的情况。还有,将稍后在该公开中以与下一矩形窗口重叠的方式来解释非矩形窗口之后是矩形窗口的情况。
参考图6,可以观察到矩形窗口和非矩形窗口部分互相重叠。关于包括块A至F的音频信号,矩形窗口被应用到块B和块C,而非矩形窗口被应用到块C至F。具体地,矩形窗口和非矩形窗口在块C处互相重叠。图6(a)至图6(d)示出按照顺序将开窗、折叠、展开和开窗应用到块A至F所导致的结果。在该情况中,开窗、折叠、展开和开窗中的每个被按照顺序应用到相应的块,用于与非矩形窗口相关联的时域混叠抵消(TDAC)的应用。
参考图6(a),矩形窗口被应用到块B和块C(即,虚线块)中的每一个,而非矩形窗口被应用到块C至F中的每一个。C(L1)指示将非矩形窗口的部分L1应用到块C产生的结果。以及,D(L2)指示将非矩形窗口的部分L2应用到块D产生的结果。随后,如果在非矩形窗口应用的结果上执行折叠,则其导致图6(b)中所示的块。在该情况中,Er、Dr等是指对相应的块执行折叠,以及然后参考块边界来反转折叠的块。然后,执行展开以导致图6(c)中所示的示意图。最后,如果非矩形窗口被应用到未折叠的块,则生成如图6(d)中所示的相同结果。
具体地,与原始信号的块D相对应的未补偿的信号,即,仅仅作为传输的数据所要求的信号可以被表示如下。
[方程1]
未补偿的信号=(-Cr(L1)r+D(L2))(L2)
在方程1中,‘C’指示与块C相对应的数据,‘D’指示与块D相对应的数据,‘r’指示反转,‘L1’指示应用非矩形窗口的部分L1产生的结果,以及‘L2’指示应用非矩形窗口的部分L2产生的结果。
在下面的描述中,参考图7至9来描述用于对未补偿的信号进行补偿以变得与原始信号相同或类似的方法。首先,参考图7,示出与方程1相对应的未补偿的信号。
其间,非矩形窗口具有对称性。如图8中所示,下面解释非矩形窗口的特征。图8是用于具有对称性的非矩形窗口的特性的示意图(即,用于TDAC的条件)。
[方程2]
Li 2+Ri 2=1,其中i=1或2
L1r=R2
L2r=R1
在方程2中,‘L1’指示左面第一部分,‘L2’指示左面第二部分,‘R1’指示右面第一部分,以及‘R2’指示右面第二部分。
因此,如果非矩形窗口的上述特征被应用,则方程1可以被概括如下。
[方程3]
未补偿的信号=(-Cr(L1)r+D(L2))(L2)=D(L2)2-Cr(R2L2)(因为L1r=R2)
因此,为了未补偿的信号变得与原始信号D相等,即,为了执行完美补偿,所需信号被示出在图7中并可以被表示如下。
[方程4-1]
用于完美补偿的所需信号
=原始信号-未补偿的信号
=D-(D(L2)2-Cr(R2L2))
其间,使用方程2中所示的特征,方程4-1可以被概括成下述。
[方程4-2]
用于完美补偿的所需信号
=D(R2)2+C(R2L2)(因为1-L2 2=R2 2)
在方程4-2中,第一术语(D(R2)2)对应于修正部分而第二术语(Cr(R2L2))可以叫做混叠部分。
如果同类窗口(例如,非矩形窗口和非矩形窗口)互相重叠,则修正部分CP和混叠部分AP对应于以通过执行时域混叠抵消(TDAC)被添加的方式删除的部分。换句话说,由于异类窗口(即,矩形窗口和非矩形窗口)互相重叠,修正部分CP和混叠部分AP是剩余误差,而不是被抵消。
具体来说,修正部分CP对应于非矩形窗口(特别地,R2)所应用到的当前块(例如块D)(即,窗口交叉点后面的块)的部分。以及,混叠部分AP对应于非矩形窗口(特别地,R2和L2)所应用的前一块(例如,块C)(即,窗口交叉点后面的块)(例如,矩形窗口和非矩形块互相重叠处的块)的部分。
其间,由于解码器能够使用前一块的数据来重构前一块(例如,块C),其能够使用重构的前一块来生成混叠部分的预测。这被表示如方程5。
[方程5]
混叠部分的预测=qCr(R2L2)
同时,混叠部分的误差,即混叠部分的预测与原混叠部分之间的差异(或者量化误差)可以被表示为方程6。
[方程6]
混叠部分的误差=er(R2L2)=Cr(R2L2)-qCr(R2L2)
使用方程5和方程6,方程4-2被概括到方程7中。
[方程7]
用于完美补偿的所需信号
=D(R2)2+Cr(R2L2)=D(R2)2+(qCr+er)(R2L2)
在方程7中,D(R2)2指示修正部分CP,qCr(R2L2)指示混叠部分AP的预测,而er(R2L2)指示混叠部分的误差。
因此,完美补偿所需的信号是修正部分CP和混叠部分AP之和,如方程7中所示。
在下面的描述中,参考图9来描述用于补偿修正部分CP和混叠部分AP的三种方法。
图9是用于补偿修正部分和/或混叠部分的补偿信号的实施例的示意图。
参考图9,图9(A)中所示的第一实施例的补偿信号包括修正部分CP和混叠部分的误差,而图9(B)中所示的第二实施例的补偿信号仅仅包括修正部分CP。根据图9(B)中所示的第三实施例,补偿信号未被发送到解码器,但是修正信号CP和混叠部分AP由解码器估计。
[方程8-1]
方法A:补偿信号=D(R2)2+er(R2L2),其中‘D’是重构的信号。
在根据第一实施例的补偿信号的情况下,参考方程5如在前面描述中所述,在没有从编码器到解码器的传输的情况下,可以基于前一块(即,对应于矩形窗口和非矩形窗口之间的重叠部分的块)的数据,由解码器来获得混叠部分AP的预测。即使补偿信号包括修正部分CP和混叠部分的误差,解码器也能够生成混叠部分的预测。所以,能够获得用于完成补偿的信号(查阅方程7)。根据第一实施例,能够通过传输误差而不是混叠部分AP自身来节省比特的数目。此外,能够通过补偿混叠部分AP的误差来获得完美的补偿信号。
根据第二实施例,补偿信号包括仅仅对应于修正部分CP的信号。
[方程8-2]
方法B:补偿信号=D(R2)2,其中重构的信号是D-er(R2L2)。
如前面描述中所述(或如同第一实施例),解码器生成混叠部分AP的预测,然后使用与修正部分CP相对应的补偿信号以及预测来获得补偿的信号。根据第二实施例,由于混叠部分AP的误差可以保留在补偿的信号中,所以重构速率或声音质量可能被降低。还有,补偿信号的压缩率可以提高到比第一实施例的压缩率高。
根据第三实施例,补偿信号未被传输,但是解码器估计修正部分CP和混叠部分AP。
[方程8-3]
方法C:补偿信号=未传输的、解码器中生成的补偿信号=qCr(L2R2)+D(R2)2,其中重构的信号是D-er(L2)/(R2)。
如前面描述中所述(或者如同第一实施例和第二实施例),混叠部分AP的预测可以由解码器生成。其间,修正部分CP可以以补偿用于与当前块(例如,块D)相对应的信号的窗口形状的方式来生成。具体地,使用前一块(qC)的数据生成的qCr(L2R2)被添加到未补偿的信号,如同方程1。然后生成D(L2)2-er(L2R2),通过将D(L2)2-er(L2R2)除以(L2)2(其可以对应于将D(R2)2加入到D(L2)2-er(L2R2)),D-er(R2)/(L2)被获得。在方程8-3中,当前块(块D)的量化误差未表示。
第三实施例的重构速率可以低于第一或第二实施例的速率。还有,由于第三实施例根本不需要用于传输补偿信号的比特,所以第三实施例的压缩率是相当高的。
图10是图6中所示的异类窗口(即,矩形窗口和非矩形窗口)的组合中非矩形窗口的示例的示意图。在非矩形窗口的示例中,如图10(A)至10(C)中所示,每个拐角都不是矩形但是具有带坡度的上升线条。与图10(A)至图10(C)相对应的非矩形窗口的形状可以被表示为表格1。
[表格1]
  总长度   左面零部分   上升线条   顶部线条   下降线条   右面零部分
  (A)   N/4或者256   0   N/4或者256   0   N/4或者256   0
  (B)   N/2或者512   N/8或者128   N/4或者256   N/4或者256   N/4或者256   N/8或者128
  (C)   N或者1024   N3/8或者384   N/4或者256   3N/4或者768   N/4或者256   N/8或者128
在表格1中,‘N’指示帧长度,而数字指示采样的数目(例如,‘256’指示256个采样)。
参考表格1和图10,三种类型的窗口中的每个都可以分别具有宽度设定为N/4和N/4的上升和下降线条。在该情况中,‘N’指示帧长度。
图10(A)至图10(C)中所述的非矩形窗口可以分别对应于B编译方案(例如,TCX)的模式1、模式2和模式3中的窗口,本发明不限于此。参考图4如前面描述中所述的,模式1对应于B编译方案被应用到一个子帧时的窗口。模式2对应于B编译方案被应用到两个连续子帧时的窗口。以及,模式3对应于B编译方案被应用到四个连续子帧,即,一个帧时的窗口。
在上面描述中,解释了对应于B编译方案的非矩形窗口的示例。稍后与根据第二实施例的音频信号处理设备一起,将描述与C编译方案(例如,MDCT)相对应的非矩形窗口的示例。
图11是矩形窗口之后的矩形窗口被重叠的情况的示意图。具体地,图11示出了在非矩形窗口之后矩形窗口被重叠的情况,然而图6示出了矩形窗口之后是非矩形窗口的情况。
参考图11(A),如同图6中所示的情况,可以观察到从与非矩形窗口相对应的块生成修正部分CP和混叠部分AP。由于使非矩形窗口和矩形窗口重叠的块不是前一块而是下一块,与图6不同,所以能够使用下一块的数据来生成混叠部分AP的预测。此外,通过传输参考图9描述的补偿信号的示例中的一个,能够解决由于非矩形和矩形窗口之间重叠生成的缺陷(即,修正部分CP和混叠部分AP)。
参考图11(B),矩形窗口的嵌入部分EP被嵌入作为根据与非矩形窗口相对应的编译方案而编译的数据中的混叠部分AP。假设对应于矩形窗口的全部信号被设定为D,并且嵌入部分EP被设定为Crw,嵌入部分EP可以被表示为方程9。
[方程9]
Crw=Cr(L1)r+D(R2)
为了参考,信号是解码器应用窗口之前的信号。
嵌入部分EP(Crw)可以由解码器计算。可以通过仅仅编码‘D-Crw’来执行传输(即,图中所示的传输部分TP),而不是根据矩形编译方案来编译全部信号D。以及,传输部分TP可以被表示为方程10。
[方程10]
TP=D-Crw=-Cr(L1)r-D(1-R2)
解码器能够以将对应于非矩形编译方案的未折叠的数据与对应于矩形编译方案的数据重叠的方式来重构原始信号。
在目前为止的上面描述中,参考图4至11来详细说明用于补偿在异类编译方案和异类窗口(即,矩形窗口和非矩形窗口)的重叠情况下的缺陷的内容。在下面的描述中,再次参考图2和图3来解释根据第一实施例的音频信号处理设备和方法。
现在参考图2,在下面描述中解释的是分别对应于矩形编译方案和非矩形编译方案的第N块和第(N+1)块。当然,如在参考图10(A)所进行的上述描述中提及的,第N块和第(N+1)块分别对应于非矩形编译方案和矩形编译方案的反向情况也是可应用的。
矩形编译方案部分122根据矩形编译方案来编码输入信号的第N块,然后将编码的数据(为了清楚,该数据叫做第一数据)发送到矩形方案合成部分124和复用器130。在该情况中,如前面描述中所提及的,矩形编译方案是用于应用矩形窗口的编译方案。ACELP属于矩形编译方案,本发明不限于此。通过利用图6中的A编译方案,将矩形窗口应用到块B和块C,矩形方案编译部分122能够输出编译的结果。
矩形方案合成部分124使用编译的数据,即第一数据来生成混叠部分AP的预测。具体地,矩形方案合成部分124通过以矩形编译方案执行解码来生成输出信号。例如,利用A编译方案,块C(和块B)被重构为其原始形式中。使用输出信号和非矩形窗口,获得混叠部分AP的预测。在该情况中,混叠部分AP的预测可以被表示为方程5。在方程5中,‘qC’指示输出信号,而‘R2L2’指示非矩形窗口。以及,混叠部分AP的预测被输入到补偿信息生成部分128。
非矩形方案编译部分126通过非矩形编译方案来编译第(N+1)块,来生成编译的数据(为了清楚,叫做第二数据)。例如,第二数据可以对应于将非矩形窗口应用到块C至F产生的结果,然后折叠块。如前面描述中所提及的,非矩形编译方案可以对应于B编译方案(例如,TCX)或C编译方案(例如,MDCT),本发明不限于此。以及,第二数据可以被发送到复用器130。
补偿信息生成部分124使用混叠部分的预测和原始输入信号来生成补偿信号。在该情况中,可以根据图9中所示的三种方法中的一个来生成补偿信号。在使用方法A的情况下,使用混叠部分的预测和原始输入信号这两者。在使用方法B的情况下,仅仅使用原始输入信号。在使用方法C的情况下,不生成补偿信号。三种方法中的每个均可应用到相同方式中的整个帧或子帧。可替选地,考虑到每个帧的比特效率,不同的方法可应用到每个帧。在前面描述中参考图6至9来解释补偿信号的定义和生成过程,并且在下面描述中将不再冗余解释。其间,通过补偿信息生成部分124生成的补偿信号被发送到复用器130。
复用器130通过将第一数据(例如,第N块的数据)、第二数据(例如,第(N+1)块的数据)和补偿信号复用在一起来生成至少一个比特流,然后将生成的至少一个比特流传输到编码器。当然,如同图1中所示的前者复用器130,后者复用器130使能相应的比特流中包含的编译方案信息等。
参考图3,如同图1中所示的前者解码器200,根据本发明第一实施例的解码器200A包括矩形解码单元220R和非矩形解码单元220N,并且能够进一步包括解复用器210。在该情况中,非矩形解码单元220N包括补偿部分228。具体地,矩形解码单元220R能够进一步包括矩形方案解码部分222和混叠预测部分224。以及,非矩形解码单元220N能够进一步包括非矩形方案解码部分226。
解复用器210从至少一个比特流提取第一数据(例如,第N块的数据)、第二数据(例如,第(N+1)块的数据)和补偿信号。在该情况中,补偿信号可以对应于参考图9描述的三种类型中的一个。
矩形方案解码部分222通过矩形编译方案解码第一数据来生成输出信号。这与获得图6中所示的块C(和块B)一样。
如同图2中所示的矩形方案合成部分124,混叠预测部分224使用输出信号和非矩形窗口来生成混叠部分的预测。在该情况中,混叠部分的预测可以对应于方程5。
非矩形方案解码部分226通过非矩形编译方案解码第二数据来生成信号。由于生成的信号是混叠的补偿等之前的信号,所以其对应于前面描述中所提及的未补偿的信号。因此,该信号可以等于如方程1所表示的前者信号。
补偿部分228使用从解复用器210发送的补偿信号、通过混叠预测部分224获得的混叠部分的预测和通过非矩形方案解码部分226生成的未补偿的信号来生成重构的信号。在该情况中,重构的信号与参考图9和方程8-1至8-3所述的信号相同。
在下面描述中,参考图12和图13来解释根据第二实施例的音频信号处理设备。
首先,关于第一实施例,第N块对应于矩形编译方案(例如,A编译方案)而第(N+1)块对应于非矩形编译方案(例如,B编译方案或C编译方案),并且反之亦然。反过来,关于第二实施例,当第(N+1)块对应于C编译方案时,C编译方案的窗口类型根据第N块是否对应于矩形编译方案(例如,A编译方案)而改变。在该情况中,第N块和第(N+1)块可以按照顺序互相切换是必然的。
图12是根据本发明第二实施例的编码器的框图。
参考图12,如同第一实施例,根据第二实施例的编码器100B包括矩形编译单元120R和非矩形编译单元120N。还有,非矩形编译单元120B进一步包括窗口类型确定部分127。剩余组件(即,矩形方案编译部分122和矩形方案合成部分124、非矩形方案编译部分126和补偿信息生成部分128)具有根据第一实施例的相同名称的前者组件的相同功能性。以及,在下面的描述中将不再描述相同部分。
在第二块(即,当前块)由非矩形编译方案来编码的情况下,窗口类型确定部分127根据第一块(例如,前一块、下一块等)是否由矩形编译方案编码来确定第二块的窗口的类型。具体地,如果第二块通过属于非矩形编译方案的C编译方案来编码并且应用到第二块的窗口属于过渡窗口类,则窗口类型确定部分127根据第一块是否由矩形编译方案编码来确定第二块的窗口的类型(和形状)。窗口类型的示例被被示出在表格1中。
表格1:非矩形编译方案(具体地,C编译方案)中窗口类型的示例
Figure BDA0000144179600000411
在表格1中,‘N’指示帧长度,1024或960个采样等。
参考表格1,总共5个窗口中的第2、第4和第5窗口(即,long_start窗口、long_stop窗口和stop_start窗口)属于过渡窗口类。属于过渡窗口类的窗口,如表格中所示,根据与矩形窗口相对应的前一或下一块的形状中的不同。在对应于矩形编译方案的情况下,则上升或下降线条的宽度是N/4。还有,可以观察到在对应于非矩形编译方案(例如,C编译方案)的情况下,过渡窗口类具有上升或下降线条的宽度变为N/8。
图13是根据本发明第二实施例的解码器的框图。
图14是根据矩形编译方案是否应用到前一块的过渡窗口的形状的示意图。虽然图14(A)或14(B)中所示的右面非矩形对应于表格1中所示的long_stop窗口,但是其可以由long_start窗口或stop_start窗口取代。
参考图14(A),在前一块对应于矩形窗口的情况下,则当前块的过渡窗口的上升线条具有第一坡度。参考图14(B),在前一块不对应于矩形窗口(具体地,在前一块对应于C编译方案的窗口的情况下)的情况下,则当前块的过渡窗口的上升线条具有第二坡度。在该情况中,第一坡度比第二坡度更平缓。以及,第一坡度的宽度可以对应于第二坡度的两倍。具体地,第一坡度的宽度是N/4,而第二坡度的宽度是N/8。
换句话说,窗口类型确定部分127优先地确定与当前块相对应的窗口的类型,生成用于从多个窗口之中指定应用到当前块(例如,帧或子帧)的特定窗口的窗口类型信息(即,用于指示窗口类型),然后将生成的窗口类型信息发送到复用器130。在与当前块相对应的窗口的类型被分类到过渡窗口中的情况下,则根据前一或下一块是否对应于矩形编译方案,窗口类型确定部分127确定窗口的形状,以及更具体地,上升或下降线条的宽度(以及相应的顶部线条和左面或右面零部分的长度),然后将确定的窗口形状应用到当前块。
其间,如同第一实施例的前者补偿信息生成部分128,当异类窗口(例如,非矩形窗口和矩形窗口)互相重叠时(例如,对应于图14中(A)的情况),补偿信息生成部分128生成补偿信号。
如前面描述中所提及的,由于从互相重叠的异类窗口生成的缺陷可以使用补偿信号来修正,所以50%的异类窗口可以重叠而不是100%。由于异类窗口不必互相100%重叠,所以没有必要缩窄被分类到过渡窗口中的每个窗口的上升或下降线条的宽度。所以,窗口可以具有相对于100%重叠的情况中更平缓的坡度。
参考图13,在根据第二实施例的解码器200B中,非矩形解码单元220N进一步包括窗口形状确定部分127,而不是第一实施例的部分。在下面的描述中,将不再详细解释具有第一实施例的前者组件的相同名称的组件。
在当前块或第二块对应于非矩形编译方案(具体地,C编译方案),则窗口形状确定部分127基于从解复用器210发送的窗口类型信息、在多个窗口之中确定应用到当前块的特定窗口(即,窗口类型)。在当前块的窗口属于过渡窗口类的情况下,则窗口形状确定部分127根据前一/下一块(即,第一块)是否由矩形编译方案编译来确定所述确定的窗口类型的窗口形状。具体地,如果前一/下一块由矩形编译方案来编码并且当前块的窗口属于过渡窗口类,如前面描述中所提及的,窗口形状被确定为具有带有比第二坡度更平缓的第一坡度的上升或下降线条。例如,在long_start窗口的情况下,窗口形状被确定为平缓long_start窗口(具有带表格1中第一坡度(例如,N/4)的下降线条)。在long_stop窗口的情况下,窗口形状被确定为平缓long_stop窗口(例如,具有第一坡度(N/4)的上升线条)。以及,在stop_start窗口的情况下,以相同方式来确定窗口形状。在该情况中,如前面描述中所提及的,第一坡度(例如,N/4)比第二坡度更平缓。具体地,第二坡度是陡峭过渡窗口(例如,陡峭long_stop窗口等)的上升或下降线条的坡度。
以上述方式确定的窗口类型和形状被发送到非矩形方案解码部分226。随后,非矩形方案解码部分226根据确定的窗口类型和形状,通过非矩形方案解码当前块来生成未补偿的信号。
如同第一实施例,在发生异类窗口(例如,矩形窗口和非矩形窗口)的重叠的情况下,补偿部分228使用未补偿的信号和补偿信号(以及混叠部分的预测)来生成重构的信号。
在下面的描述中,参考图15和图16来解释根据第三实施例的音频信号处理设备。第三实施例包括图1中所示的前者音频信号处理设备中的第一编译单元120-1、第二编译单元120-2、第一解码单元220-1和第二解码单元220-2。具体地,当前块(例如,第N块)由第二编译方案(即,C编译方案)编码时,根据下一块(例如,第(N+1)块)或前一块(例如,第(N-1)块)是否由第一编译方案(即,A编译方案或B编译方案)编码,由第三实施例来确定与当前块相对应的当前窗口的形状。
图15是根据本发明第三实施例的编码器的框图。
参考图15,在根据第三实施例的编码器100C中,第一编译单元120-1包括第一方案编译部分122-1,并且第二编译单元120-2包括第二方案编译部分126-2和窗口形状确定部分127-2。以及,编码器100可以进一步包括复用器130。在该情况中,通过块的单元(例如,帧、子帧等),输入信号被输入到第一编译单元120-1或第二编译单元120-2。
第一方案编译部分122-1利用第一编译方案来编码输入信号,而第二方案编译部分126-2利用第二编译方案来编码输入信号。在该情况中,第一和第二编译方案与参考图1中所述的方案一样。具体地,第一编译方案是基于线性预测域的编译方案,而第二编译方案可以对应于基于频域的方案。同时,如参考图1的前面描述中所提及的,第一编译方案可以包括对应于矩形窗口方案的A编译方案(例如,ACELP)和对应于非矩形窗口方案的B编译方案(例如,TCX),并且第二编译方案可以包括对应于非矩形窗口方案的C编译方案(例如,MDCT)。
在输入信号对应于第二编译方案的情况下,窗口类型确定部分127-2参考前一或下一块的特征(和窗口类型)来确定当前块的窗口类型和形状,生成指示与当前块(帧或子帧)相对应的窗口类型的窗口类型信息,然后将生成的窗口类型信息发送到复用器130。
在下面的描述中,参考表格1来详细解释窗口类型,参考图17A至图18来解释根据前一/下一块的当前块的窗口类型和形状,以及然后再次解释图15和图16中所示的组件。
首先,对应于第二编译方案的窗口类型的一个示例可以与表格1相同。参考表格1,存在总共五种类型的窗口(例如,only_long、long_start、短、long_stop和stop_start)。在该情况中,由于信号的固定特征,only_long窗口是应用到适用于长窗口的信号的窗口,而由于信号的瞬变特征,短窗口是应用到适用于短窗口的信号的窗口。被分类为过渡窗口的long_start窗口、long_stop窗口和stop_start窗口是用于从only_long窗口到短窗口(或具有第一编译方案的窗口)的过渡的处理或用于从短窗口到only_long窗口(或者具有第一编译方案的窗口)的过渡的处理所必须的。尽管长窗口适用于当前块或帧,stop_start窗口是如果前一/下一帧对应于短窗口(或者具有第一编译方案的窗口)时使用的窗口。
下面详细检查表格1中所示的五种类型的窗口的形状。首先,only_long、短和stop_start窗口的每个均具有水平对称性,而剩下的窗口具有水平不对称性。long_start窗口包括仅仅右半部中的零部分,反之long_stop窗口包括仅仅左半部中的零部分。
在下面的描述中,详细解释根据前一帧或下一帧来确定当前帧的窗口形状的三种情况。
下面参考图17A来描述当前帧是long_start窗口时根据下一帧来确定当前帧的窗口形状的第一种情况,以及下面参考图17B来描述当前帧是long_stop帧时根据前一帧来确定当前帧的窗口形状的第二种情况。另外,下面参考图17C和17D来描述当前帧是stop_start窗口时根据前一帧或下一帧来确定当前帧的窗口形状的第三种情况。
在第一种情况中,当前一帧是only_long窗口并且当前帧是long_start窗口,根据下一帧是否对应于短窗口或具有第一编译方案的窗口来确定当前long_start窗口的形状。具体地,long_start窗口的下降线条的坡度可以变化。具有下降线条的平缓坡度的long_start窗口将被叫做平缓long_start窗口(参考表格中每个形状的名称)以及具有下降线条的陡峭坡度的long_start窗口将被叫做陡峭long_start窗口。参考图17A,这将被详细描述如下。
图17A是第一编译方案窗口或第二编译方案窗口(短窗口)组合的long_start窗口的示意图。图17A(A-1)/(A-2)示出long_start窗口和第一编译方案的窗口之间的组合。图17A(B)示出long_start窗口和短窗口之间的组合。
具体地,图17A(A-1)中所示的第一编译方案的窗口是对应于‘A方案’(即,矩形窗口方案)的窗口。以及,图17A(A-2)示出与第一编译方案窗口中‘B编译方案’(非矩形窗口方案)相对应的窗口。参考图17A(A-1)和图17A(A-2),在前一帧对应于第一编译方案的情况下,当前long_start窗口包括具有第一坡度的下降线条。参考图17A(B),在下一帧对应于第二编译方案(即,短窗口)的情况下,当前long_start窗口包括具有第二坡度的下降线条。第一坡度的宽度可以是第二坡度的两倍,并且可以对应于N/4,其中‘N’是帧长度。此外,第一坡度的宽度总计为256个采样,并且可以对应于long_start窗口的总长度的1/8。
如同图17A(A-1)中所示的情况,在矩形窗口与矩形窗口之前的long_start窗口重叠,如第一和第二实施例的前面描述中所提及的,能够使用接收的补偿信号来补偿修正部分(CP)和混叠部分(AP)。如果未执行该补偿,long_start窗口应该是与矩形窗口100%重叠。所以,为了不浪费比特,与矩形窗口重叠的下降线条的坡度应该设定为陡峭。还有,随着上述补偿被使能,声音质量避免了以矩形窗口的重叠的50%失真。因此,下降线条的坡度可以被维持为图17A(A-1)中所示的第一坡度。这样,随着下降线条被以第一坡度平缓地维持,两个窗口之间的交叉点变为3N/2处的点。如果实现100%重叠,则两个窗口之间的交叉点变为3N/2-N/16。具体地,相应的交叉点在图17A(A-1)中所示的情况中交叉点前N/16。
换句话说,在下一窗口是对应于第一编译方案的窗口,则50%重叠是可以接受的。因此,以第一坡度平缓地维持long_start窗口的下降线条。结果,如果下一窗口遵守第一或第二编译方案或者是不考虑第一或第二编译方案,则交叉点的位置变为相同的位置(例如,距窗口起始点3N/2的点)。这样,随着交叉点变为互相相等,窗口间过渡变得不同。这将在该公开中稍后与第四实施例一起描述。
由于第一坡度与下一帧的非矩形窗口的下降线条对称(更准确地,第一坡度是与上升线条水平对称,或者第一坡度的绝对值等于上升线条的绝对值),当前帧的下降线条具有第一坡度时,图17A(A-2)的情况满足TDAC的条件。
参考图17A(B),随着第二坡度被匹配到与下一帧(即,第二编译方案)相对应的窗口(短窗口)的上升线条的坡度,满足TDAC的条件。在该情况中,‘被匹配’的意思可以指示坡度的绝对值是相同的。具体地,下降线条的坡度的宽度是N/4,而下一帧的上升线条的坡度的宽度也是N/4。
下面参考图17B来描述第二种情况。如上所述,在第二种情况中,当下一帧是only_long窗口并且当前帧是long_stop窗口时,根据前一帧是否对应于第二编译方案(短窗口)或具有第一编译方案的窗口来确定当前long_stop窗口的形状。具体地,long_stop窗口的上升线条的坡度可以变化。具有上升线条的平缓坡度的long_stop窗口将被叫做平缓long_stop窗口(参考表格1中每个形状的名称),并且具有上升线条的陡峭坡度的long_stop窗口将被叫做陡峭long_stop窗口。
类似于图17A,图17B(A-1)示出了示例,其中第一编译方案中的矩形编译方案被应用到前一帧,(A-2)示出了示例,其中第一编译方案中的非矩形编译方案被应用到前一帧,以及(B)示出了第二编译方案被应用到前一帧的示例。当前一帧对应于第一编译方案时,因为参考图17A如上所述的相同原因,当前帧的long_stop窗口的上升线条具有第一坡度(即,当前帧的long_stop窗口是平缓long_stop窗口)。当前一帧对应于第二编译方案时,当前帧的long_stop窗口的上升线条具有第二坡度(即,当前帧的long_stop窗口是陡峭long_stop窗口)。
这里,第一坡度比第二坡度更平缓。第一坡度的宽度可以是第二坡度的宽度的两倍并且对应于N/4,其中‘N’是帧长度。另外,第一坡度的宽度总计256个采样并且可以对应于long_stop窗口的总长度的1/8。
下面参考图17C和17D来描述第三种情况。如上所述,在第三种情况中,当前帧是stop_start窗口时,根据前一帧或下一帧是否对应于第二编译方案(短窗口)或具有第一编译方案的窗口来确定当前stop_start窗口的形状。具体地,stop_start窗口的上升线条或下降线条的坡度可以变化。在上升和下降线条中均具有平缓坡度的stop_start窗口将被叫做平缓-平缓stop_start窗口(参考表格1中每个形状的名称),以及上升和下降线条中均具有平缓坡度(第二坡度)的stop_start窗口将被叫做陡峭-陡峭stop_start窗口。仅仅在上升线条中具有平缓坡度(第一坡度)的stop_start窗口将被叫做平缓-陡峭stop_start窗口,以及仅仅在下降线条中具有平缓坡度(第一坡度)的stop_start窗口将被叫做陡峭-平缓stop_start窗口。
图17C示出了其中stop_start窗口的下降线条的坡度根据下一帧被确定为第一坡度或第二坡度的情况,以及图17D示出了其中stop_start窗口的上升线条的坡度根据前一帧被确定为第一坡度或第二坡度的情况。
stop_start窗口可以跟随在long_start窗口、短窗口和与用于前一帧的第一编译方案相对应的窗口中的一个之后并且其之后可以是long_stop窗口、短窗口和与用于下一帧的第一编译方案相对应的窗口中的一个。
参考图17C,当第一编译方案被应用到下一帧时,stop_start窗口的下降线条被确定为如图17C的(A-1)和(A-2)中所示的第一坡度。也就是,因为参考图17A和17B与上述相同的原因,平缓-平缓stop_start窗口或陡峭-平缓stop_start窗口中的一个被应用到当前帧。
另一方面,当下一帧不对应于第一编译方案但是对应于短窗口或long_start窗口(即,图17C的(B)的情况中)时,下降线条被确定为第二坡度。也就是,平缓-陡峭stop_start窗口或陡峭-陡峭stop_start窗口被应用到当前帧。
参考图17D,当第一编译方案被应用到下一帧时,stop_start窗口的上升线条被确定为如图17C的(A-1)和(A-2)中所示的第二坡度。也就是,平缓-平缓stop_start窗口或平缓-陡峭stop_start窗口中的一个被应用到当前帧。
另一方面,当下一帧不对应第一编译方案但是对应于短窗口或long_start窗口(即,在图17D的(B)的情况中)时,下降线条被确定为第二坡度。也就是,平缓-陡峭stop_start窗口或陡峭-陡峭stop_start窗口被应用到当前帧。现在参考表格1,短窗口具有不考虑前一或下一块的编译方案的单一形状。这被参考图18解释如下。图18是与第一编译方案(A)或第二编译方案(B)重叠的短窗口的示意图。参考图18(A-1),第一编译方案,并且更具体地,矩形编译方案(例如,A编译方案)出现在短窗口后面。参考图18(A-2),第一编译方案,并且更具体地,非矩形编译方案(例如,B编译方案)出现在短窗口后面。这里,当前一帧对应于第二编译方案时,短窗口可以在long_start窗口或stop_start窗口中的一个之后,以及当下一帧对应于第二编译方案时短窗口之后可以是long_stop窗口或stop_start窗口中的一个。
不考虑短窗口与短窗口之后第一编译方案的窗口重叠的情况,如图18(A-1)或图18(A-2)中所示,或者短窗口与短窗之后第二编译方案的窗口(具体地,long_stop窗口或stop_start窗口)重叠的情况,如图18(B)中所示,短窗口的下降线条的坡度(参考图中“坡度A”)是相同的。这样,相同的固定形状的短窗口是可以的原因被解释如下。首先,如第一和第二实施例的前面描述中所提及的,即使矩形编译方案出现在短窗口后面,能够使用补偿信号[图18(A-1)]来补偿修正部分(CP)和混叠部分(AP)。由于上面在第一和第二实施例中已经描述,所以这里忽略使用修正部分(CP)和混叠部分(AP)的补偿的详细描述。如果实现50%或更多的重叠,这种补偿是可能的。以及,被包括在短窗口中的8个短部分(即,三角形状)中的最后一个的下降线条不必也具有陡峭坡度。所以,能够维持相对平缓的坡度(即,‘坡度A’)(例如,N/8的宽度,其中N是帧长度)在上升线条的相同水平处,如图18(A-1)中所示[如同17A(A-1)中所示的情况]。因此,能够使用相同的固定形状的短窗口,而不考虑下一块是否对应于第一或第二编译方案。
其间,如果当前帧是long_stop窗口并且下一帧是only_long窗口时,当前long_stop窗口的形状可以根据与第一编译方案相对应的前一帧来确定。这将参考第四实施例来详细描述。
现在参考图15,窗口类型确定部分127-2,如前面描述中参考表格1所述,从多个窗口中确定应用到当前块的特定窗口,生成指示确定的特定窗口的窗口类型信息,然后将生成的窗口类型信息发送到复用器。
然后,复用器130通过将以第一编译方案编码的数据(例如,第(N+1)或(N-1)块的数据)、以第二编译方案编码的数据(例如,第N块的数据)和窗口类型信息一起复用来生成至少一个比特流。
参考图16,根据第三实施例的解码器200C包括第一解码单元220-1和第二解码单元220-2并且能够进一步包括解复用器210。第一解码单元220-1包括第一方案解码部分222-1以及第二解码单元220-2包括第二方案解码部分226-2和窗口形状确定部分227-2。
解复用器210接收参考图1描述的编译方案信息(例如,编译标识信息和子编译标识信息),然后基于接收的编译方案信息,针对每块将数据发送到第一解码单元220-1或第二解码单元220-2。此外,解复用器210提取窗口类型信息,然后将其发送到第二解码单元220-2。在该情况中,窗口类型信息可以包括指示与表格1相对应的五种窗口类型中的一个的信息。还有,如前面描述中所提及的,由于前一或下一块的编译方案或窗口类型而不是所有五种窗口类型的可用性,当前块的窗口可以被限制。因此,窗口类型信息可以包括指示除了不可用的窗口类型之外的两种或三种类型中的一个而不是指示全部五种中的一个的信息。该过渡限制稍后将被另外地与第四实施例一起解释。
第一方案解码部分222-1是配置为执行第一方案编译部分122-1的反向处理的组件。第一方案解码部分222-1通过第一编译方案(例如,ACELP、TCX等)解码数据来生成输出信号(例如,第(N+1)块或第(N-1)的输出信号)。以及,第二方案解码部分226-2通过第二编译方案(例如,MDCT等)解码数据来生成输出信号(例如,第N块的输出信号)。
窗口形状确定部分227-2基于窗口类型信息来确定当前块的窗口类型,然后根据前一或下一块的编译方案、在窗口类型之中确定窗口类型。如参考图17A的前面描述中所提及的,在第一种情况中,当前窗口是long_start窗口并且前一窗口是only_long窗口时,通过根据下一窗口是否对应于第一编译方案或第二编译方案选择陡峭long_start窗口或平缓long_start窗口来确定窗口形状。此外,如参考图17B至17D的前面描述中所提及的,根据前一或下一窗口是否对应于第二种情况(即,当前窗口是long_stop窗口时)和第三种情况(即,当前窗口是stop_start窗口时)中的第一编译方案来确定当前窗口形状。
在参考图18描述的示例中,如果当前块是短窗口,则在不考虑下一块的窗口类型的情况下确定相同形状的短窗口。
随后,第二方面解码部分226-2将通过窗口形状确定部分227-2确定的形状中的窗口应用到当前块。
在下面的描述中,参考图19至23来描述本发明的第四实施例。本发明的第四实施例根据前一块的编译方案来确定当前块的窗口形状,反之第三实施例根据下一块的编译方案来确定当前块的窗口形状。这样,本发明的第四实施例几乎与本发明的第三实施例相同,只是在确定窗口形状中不同于第三实施例。以及,将从下面的描述中省略相同部分的冗余描述。
图19是根据本发明第四实施例的编码器的框图,而图20是根据本发明第四实施例的解码器的框图。
参考图19和图20,根据本发明第四实施例的编码器100D和解码器200D的组件几乎与图15和图16中所示的根据本发明第三实施例的前者编码器和解码器100C和200C相同,只是在第N块和第(N+1)块分别由第一编译方案和第二编译方案编码中本发明第四实施例不同于本发明第三实施例。所以,参考图15和图16解释的相同部分的前者描述将被代替用于本发明第四实施例的描述。
考虑到块间窗口过渡,窗口形状确定部分127-2确定当前块的窗口。具体地,窗口形状确定部分127-2根据前一块(例如,第N块)是否由第一编译方案编译来确定当前块[例如,第(N+1)块]的窗口类型和形状。具体地,在前一块由第一编译方案编译的情况下,表格1中所示的5种类型之中除了only_long窗口和long_start窗口之外的三种类型中的一个(例如,短窗口、long_stop窗口和stop_start窗口)被确定为窗口类型。这样,在不经历第一编译方案中编译方案间过渡所必须的过渡窗口的情况下,能够直接移动到第二编译方案中使用的短窗口或用于短窗口和长窗口之间过渡的过渡窗口(即,long_stop窗口或stop_start窗口)。
这种窗口间路径被示出在图21中。图21是窗口间路径或过渡的表格。参考图21,行方向指示与前一块相对应的窗口,而列方向指示与当前块相对应的窗口。具有圆圈或星号的标记的部分指示可用的窗口过渡路径。例如,在前一块对应于only_long窗口的情况下,only_long窗口或long_start窗口仅仅对于当前块是可用的。
参考星号标记,在前一块是与第一编译方案(例如,ACELP或TCX)相对应的块的情况下,如前面描述中所提及的,短窗口、long_stop窗口和stop_start窗口中的一个可以变为与第二编译方案相对应的窗口。具体地,没有必要经历单独为从第一编译方案过渡到第二编译方案所提供的窗口(例如,对应于1152个采样的窗口)。这是因为在不考虑编译方案的情况下交叉点重合,如第三实施例的前面描述中所提及的。参考图22和图23进行下面描述。
图22是用于第一编译方案中到long_stop窗口的过渡的情况的示意图,其对应于图21中所示的星号标记★(1)。图23是用于第一编译方案中到短窗口的过渡的情况的示意图,其对应于图21中所示的星号标记★(2)。
首先,图22(A)示出与属于第一编译方案的矩形编译方案(例如,ACELP)相对应的窗口和long_stop窗口之间的交叉。图22(B)示出与属于第一编译方案的非矩形编译方案(例如,TCX)相对应的窗口和long_stop窗口之间的交叉。在图22(A)和图22(B)中,可以观察到从与第一编译方案相对应的块到long_stop窗口的过渡是可能的。
由于矩形窗口被示出在图22(A)中,如第一或第二实施例的前面描述中所述,能够补偿修正部分(CP)和混叠部分(AP),其是由矩形窗口和非矩形窗口之间的重叠导致的误差。因此,50%的重叠是足够的,以及如参考图14(A)的前面描述中所提及的,long_stop窗口的上升线条可以具有平缓坡度(例如,N/4坡度)。因此,由于窗口间交叉点位于N/2的距离中,与1024个采样或2N(其中N指示帧)的长度相对应的long_stop窗口可以被直接连接,与需要100%的重叠的情况不一样。
第三种情况(即,到stop_start窗口的过渡)未被示出在图21中。如同long_stop窗口或短窗口的情况,stop_start窗口对应于1024个采样或具有2N的长度。在该情况中,能够进行从与第一编译方案相对应的窗口到stop_start窗口的直接过渡。
在图22(A)的情况下,除了第二实施例之外,将描述long_stop窗口的上升线条的坡度。在当前帧和下一帧分别是long_stop窗口和only_long窗口的情况下,可以根据前一帧是否对应于第一编译方案的窗口来确定当前long_stop窗口的形状。这与参考图14的前者描述一样。具体地,如同图14(A)中所示的情况,在前一帧对应于第一编译方案[例如,图14(A)中的A编译方案(即,矩形编译方案)]的情况下,当前long_stop窗口的上升线条具有第一坡度。如同图14(B)中所示的情况,在前一帧对应于第二编译方案[例如,图14(B)中的C编译方案(即,非矩形编译方案)]的情形下,当前long_stop窗口的上升线条具有第二坡度。在该情况中,第一坡度比第二坡度更平缓。
现在参考第四实施例,如参考图21的前面描述中所提及的,在前一块和当前块分别对应于第一编译方案和第二编译方案的情况下,短窗口、long_stop窗口和stop_start窗口中的一个被确定。
图19中所示的窗口类型确定部分127-2通过参考前一和下一块的编译方案和窗口类型来确定当前块的窗口类型。这样做时,窗口类型确定部分127-2根据上述的路径限制来确定当前块的窗口类型。偶尔,窗口类型确定部分127-2也确定当前块的窗口的形状。然后,窗口类型确定部分127-2将指示确定的窗口类型的窗口类型信息发送到复用器130。
第二方案编译部分126-2使用确定的窗口类型和形状、根据第二编译方案来编码当前块。以及,复用器130通过将前一块的数据、当前块的数据和当前块的窗口类型信息一起复用来生成至少一个比特流。
参考图20,除了窗口形状确定部分227-2之外的组件也具有类似于图16中所示的前者组件的功能或作用,并且在下面的描述中将不再详细描述。
窗口类型确定部分227-2基于窗口类型信息、在多个窗口之中确定用于当前块的特定窗口。在这样做时,其能够考虑到图21中所示的过渡限制而确定多个窗口中的一个。这被详细解释如下。
参考图21,如果当前块对应于第二编译方案,则根据前一块的窗口类型,可用的窗口类型的种类的总数不超过3个[例如,按照顺序从上开始2、3、3、2、3和3种]。因此,可以以2比特来编码窗口类型信息。窗口类型信息的一个示例被示出在表格2中。
[表格2]:窗口类型信息
  窗口类型信息
  only_long窗口   0
  long_start窗口   1
  短窗口   2
  long_stop窗口   3
  stop_start窗口   1
如果窗口类型信息被设定为1,则其指示long_start窗口和stop_start窗口,即,两种情况。其间,根据图21中公开的过渡限制,在前一块对应于第一编译方案的情况下,短窗口、long_stop窗口和stop_start窗口仅仅对于当前块是可用的。因此,在上面的两种情况中,除了违反限制的一种情况(即,long_start窗口)之外,stop_start窗口被确定为当前块的窗口。
窗口形状确定部分227-2基于前一或下一块的编译方案,根据上面确定的窗口类型来确定窗口形状,诸如当前块的上升线条的坡度、当前块的下降线条的坡度等。这样,目前为止已经描述了第四实施例。在下面的描述中,参考图24来解释用于解决第一编译方案和第二编译方案之间窗口过渡的问题的另一个方法。
图24是用于第一编译方案窗口与新形状的短窗口重叠的情况的示意图。如前面描述中所提及的,当第一编译方案的块和第二编译方案的块互相邻近时,两个块不可能互相重叠50%。而是,由于两个块应该互相重叠10%,交叉点位于N/2点的前面。为了解决错配的问题,具有1152长度的过渡块应该被提供在第一编译方案的块和第二编译方案的块之间。具体地,虽然有必要走到第一编译方案的块后面属于第二编译方案的短窗口,但是也应该经历具有1152长度的长窗口。所以,在该情况中,长窗口被应用到应该以短窗口处理的当前块,而短窗口被应用到下一块。这样,因为本该以短窗口处理的当前块由于过渡问题而被以长窗口处理,所以声音质量变得失真。
除了具有1152长度的长窗口,在包括总共9个短部分的短窗口被使用,如图24中所示,则声音质量失真的问题被减小,所述9个短部分包括具有1152长度的短部分。还有,如前面描述中所提及的,仅仅当交叉点变化由于50%重叠和相应的直接过渡(参考第三或第四实施例)是不可能的时,图24中所示的具有1152长度的短窗口是可应用的。
在下面的描述中,参考图25和图26来解释本发明第五实施例。根据本发明第五实施例,在当前块(例如,第N块)与属于第一编译方案的非矩形编译方案(例如,TCX)相对应的情况下,根据前一或下一块[例如,第(N-1)或第(N+1)块]是否对应于第二编译方案的短窗口来确定当前块的窗口形状。图25是根据本发明第五实施例的编码器的框图。参考图25,由于除了模式确定部分123-2之外,根据本发明第五实施例的编码器100E几乎与第三/第四实施例的前者编码器100C/100D相同,所以将从下面的描述中省略冗余的描述。
首先,当前块对应于第一编译方案时,模式确定部分123-1标识当前块对应于矩形编译方案(例如,ACELP)还是非矩形编译方案(例如,TCX)。如果当前块对应于非矩形编译方案,则模式确定部分123确定模式1至3中的一个。因为模式1至3中的每个均可以对应于用于将非矩形方案应用到其的长度,所以可以确定单个子帧、两个连续子帧和四个连续子帧(即,单个帧)中的一个。此外,长度可以被确定成256个采样、512个采样和1024个采样中的一个,如图28中所示。
这样,在非矩形编译方案的情况下,在模式已被确定之后,根据前一还是下一块的窗口对应于短窗口来确定当前块的窗口的形状。该处理将参考图27和图28被详细解释如下。
图27(A)是用于对应于第一编译方案(例如,TCX)的窗口与短窗口重叠的情况的示意图。图27(A)是与第一编译方案(例如,TCX)相对应的窗口与long_stop窗口重叠的情况的示意图。具体地,图27(A)示出了第一编译方案的窗口中与模式1(参考图28中的形状1和形状2)相对应的窗口,而图27(B)也示出了第一编译方案的窗口之中与模式1(参考图28中的形状1和形状2)相对应的窗口。更具体地,图27(A)与图23(B)相同,而图27(B)与图22(B)相同。
在与第一编译方案相对应的窗口与long_stop窗口重叠的情况下,如图27(B)中所示,该窗口对应于形状1并且具有与long_stop窗口的上升线条的宽度(例如,N/4)相等的宽度的下降线条。具体地,形状1的下降线条的第一坡度被匹配到下一帧的非短窗口(例如,long_stop窗口)的上升线条的坡度。在该情况中,‘匹配’的意思可以指示坡度的绝对值相等。
反过来,在与第一编译方案相对应的窗口与短窗口重叠的情况下,如图27(A)中所示,该窗口对应于形状2并且具有与短窗口的上升线条的宽度(例如,N/5)相等的宽度的下降线条。具体地,形状2的下降线条的第二坡度被匹配到下一帧的短窗口的上升线条的坡度。
这样,下降或上升线条的宽度可以根据前一或下一块是短窗口而变化。通过均等化宽度,其能够满足参考图8所述的TDAC条件。因此,如果满足TDAC条件,则声音质量失真可以被大大降低。
图28是与形状1至形状4内变化的第一编译方案中非矩形方案相对应的窗口的表格。
参考图28,根据前一块和/或下一块是否对应于短窗口,可以观察到通过属于第一编译方案的非矩形方案的窗口的形状从形状1变化到形状4。在前一块和下一块中的每一个均不对应于短窗口,则形状1指示上升线条L的宽度和下降线条R的宽度分别对应于256个采样(即,N/4)和256个采样(N/4)的情况。在形状2中,由于下一块仅仅对应于短窗口,所以下降线条R的宽度被减小为128,顶部线条M被减小了64,以及右面的零部分ZR被减小了64。在形状3中,由于前一块对应于仅仅短窗口,所以上升线条L的宽度被减小到仅仅128,左面零部分ZL的长度被减小了64,大于形状1的长度,以及顶部线条M的长度被减小了64,大于形状1的长度。形状4指示前一块和下一块中的每一个均对应于短窗口的情况。在形状4中,上升线条L对应于128而下降线条R对应于128,而不考虑模式(例如,模式1、模式2和模式3)。
为了参考,与形状1中模式1至3相对应的窗口可以分别等于图10(A)、图10(B)和图10(C)。
此外,前一块对应于至少前一帧的最后的子帧,以及下一帧可以对应于至少下一帧的第一个子帧。
现在参考图25,当第一编译方案(具体地,非矩形方案)被应用时,模式确定部分123-1确定包括图28中所示的模式1至3的多个模式中的一个。与确定的模式相对应的信息可以与上述子编译标识信息一起被编码。例如,如果子编译标识信息被设定为0,则其能够指示A编译方案(即,作为第一编译方案的矩形编译方案)。如果子编译标识信息被设定为1至3,则其能够分别指示B编译方案的模式1至3(即,作为第一编译方案的非矩形编译方案)。
一旦模式被确定,模式确定部分123-1就根据前一块和/或下一块是否对应于短窗口、在形状1至4之中确定窗口的形状。
以及,复用器123-1通过将子编译标识信息、当前块的数据和前一或下一块的数据一起复用来生成至少一个比特流。
参考图26,窗口形状确定部分223-2使用子编译标识信息来确定当前块是否通过属于第一编译方案的A编译方案(即,矩形编译方案)或B编译方案(即,非矩形编译方案)编码。此外,在B编译方案的情况下,使用子编译标识信息,窗口形状确定部分223-2确定模式1至3中的一个。
窗口形状确定部分223-2通过确定前一块和/或下一块是否对应于短窗口来以标识形状1至4中的一个的方式来确定用于确定的模式的窗口的形状。
从下面的描述中,将不再描述剩下的组件。
下面参考图29至32来描述根据本发明第六实施例的编码器100F和解码器200F。根据本发明第六实施例,根据前一块的编译方案来确定是否执行长期预测(LTP)。
图29是根据本发明第六实施例的编码器的框图,而图30是根据本发明第六实施的解码器的框图。
参考图29和图30,根据本发明第六实施例的编码器100F和解码器200F类似于本发明第五实施例的前者编码器100E和解码器200E,但是不同在于包括长预测确定部分121-1和长预测控制部分221-2。长预测确定部分121-2根据第一编译方案(即,ACELP、TCX)或第二编译方案(例如,MDCT)是否应用到前一块来确定是否在当前块上执行长期预测。下面参考图31和图32来详细说明。
图31示出了每块(帧或子帧)编译方案的示例。图31(A)至图31(B-3)分别示出了具有应用到其的第一编译方案(例如,ACELP)的块出现在具有应用到其的第二编译方案(例如,MDCT)的块之后的示例。这样,在存在编译方案的变化[模式切换]的情况下,第一编译方案(例如,ACELP)中长期预测的效率可以被大大降低。图32是用于涉及长期预测的信号波形的一个示例的示意图。图32(A)示出根据信号的特征将第二编译方案(例如,MDCT)和第一编译方案的矩形编译方案(例如,ACELP)分别应用到前一块和下一块的示例。图32(B)示出了与第一编译方案相对应的块的信号和信号的波形的一个示例,作为执行长期预测(LTP)的结果。对于第二编译方案之后的块,由于执行线性预测,原始信号存在于前一存储器中而不是残余信号中。由于长期预测是基于波形相关性,所以如果长期预测被应用到上述情况,则不可避免的编译效率被大大降低。参考图32(B),可以观察到在长期预测结果和原始信号之间的波形中没有大的差异。所以,在该情况中,在不应用大大降低编译效率的长期预测的情况下,能够节省分配给长期预测的比特。
参考图31(B-1),在应用第二编译方案(例如,MDCT)之后,长期预测(LTP)不可以被无条件地应用到首先出现的块(即,第一帧)。偶尔,参考图31(B-2),能够适应性地应用长期预测(LTP)。例如,仅如果在应用长期预测(LTP)中编译效率良好时,执行长期预测(LTP)。这样,在长期预测被有条件地执行的情况下,能够设定指示长期预测(LTP)是否已被执行的长期标志(LTP标志)。此外,参考图31(B-3),无条件地对块(例如,第2至第4块)不执行长期预测,以及首先出现的块或有条件地不对其执行。这样,在长期预测被有条件地不使用的情况下,能够设定用于具有长期预测的小效应的随机块的长期标志,而不是在具有与仅仅第二编译方案相对应的块的边界上设定长期标志。例如,尽管通过第一编译方案来编译,可以在不存在音高的无声部分、静音部分或其他音乐部分中不执行长期预测。
现在参考图29,如前面描述中所提及的,长预测确定部分121-1基于前一块的编译方案来确定通过块单元是否执行长期预测。如果有条件地不执行长期预测,则长期预测确定部分121-1将长期标志(LTP标志)发送到复用器130。
在对应于第一编译方案的块的情况下,如果不执行长期预测(LTP),则第一方案编译部分122-1生成总计为在不执行长期预测的情况下节省的比特的新信息。新信息的示例被描述如下。
1)能够利用激励代码本。具体地,更多的代码本被设计,而不是剩余比特的大小的前一代码本或专用代码本。在使用专用代码本的情况下,通过利用原始代码本的激励和利用附加代码本的激励的组合来生成激励信号。在专用代码本的情况下,可以使用配置为编码音高组件、也如同长期预测的功能性一样的代码本。
2)能够通过将附加比特分配到线性预测编译(LPC)来增强LPC系数的量化性能。
3)能够分配比特以编译第一或第二实施例的补偿信号(即,用于补偿从第二编译方案的非矩形窗口与第一编译方案的矩形窗口之间的重叠生成的修正和混叠部分的信号)。
4)未执行总计为节省的比特的传输。具体地,由于使用的比特量是在音频编译的情况下可变为与帧一样多,在其他帧中利用节省的比特。
其间,第一方案编译部分122-1通过编码用于块的新信息将附加比特发送到复用器130,在该块上不执行长期预测。
最后,复用器130通过将长期标志(LTP标志)、与新信息相对应的附加比特以及与每个块相对应的数据一起复用来生成至少一个比特流。
参考图30,在有条件地不执行长期预测的情况下,解复用器210提取长期标志(LTP标志),然后将其发送到长期预测控制部分221-2。如果考虑到前一块的编译方案而无条件地不执行长期预测,则长期预测控制部分221-2确定前一块是否对应于第二编译方案。如果不管前一块的编译方案对应于第二编译方案的情况下有条件地不执行长期预测,则长期预测控制部分221-2基于从复用器130发送的长期标志(LTP标志)来确定是否执行长期预测。
如果这样,第一方案解码部分222-1根据由长期预测控制部分222-1做出的确定来对变为长期预测的目标的块执行长期预测。在附加比特被传输的情况下,第一方案解码部分222-1提取与附加比特相对应的新信息,然后基于提取的新信息来执行相应块的解码。
在下面的描述中,解释根据参考图1和图2描述的本发明的编码器和解码器的应用。
图33是用于根据本发明实施例的编码器被应用到其的音频信号编码设备的示例的示意图,以及图34是用于根据本发明实施例的解码器被应用到其的音频信号解码设备的示例的示意图。
参考图33,音频信号编码设备33包括根据本发明的编码器100并且进一步包括复数信道编码器310、频带展宽编译单元320和复用器330。在该情况中,复用器300可以包括参考图1描述的前者复用器130。
复数信道编码器310接收多个信道信号(例如,至少两个信道信号)(下文中叫做多信道信号),然后缩混多个接收的信道信号以生成单声道或立体声缩混信号。以及,复数信道编码器310生成将缩混信号上混成多信道信号所要求的空间信息。在该情况中,空间信息可以包括信道水平差异信息、信道间相关性信息、信道预测系数、缩混增益信息等。可选地,在音频信号编码设备300接收单声道信号的情况下,复数信道编码器310不缩混接收的单声道信号,但是单声道信号绕过复数信道编码器310。
频带展宽编码器320能够通过将频带展宽方案应用到从复数信道编码器310输出的缩混信号来生成与低频带相对应的光谱数据和用于高频带展宽的展宽信息。具体地,缩混信号的部分频带的光谱数据被排除,以及可以生成用于重构被排除的数据的频带展宽信息。
根据通过信号分类器(图中未示出)(例如,图1中所示的前者信号分类器110)生成的编译方案信息,通过频带展宽编译单元320生成的信号被输入到A编译单元120A、B编译单元120B或C编译单元120C。
A至C编译单元120A至120C与参考图1描述的前者编译单元相同,并且从下面的描述中将省略冗余的描述。下面将描述附加的内容。
首先,在缩混信号的特定帧或片段具有主导语音特征的情况下,A编译单元120A通过A编译方案(即,属于第一编译方案的矩形编译方案)来编码缩混信号。在该情况中,A编译方案可以遵守AMR-WB(自适应多速率宽带)标准,本发明不限于此。同时,A编译单元120A能够进一步使用线性预测编译(LPC)方案。在谐波信号在时间轴上具有高冗余性的情况下,其可以由线性预测来模型化以用于从过去的信号预测当前信号。在该情况中,如果采用线性预测编译方案,则可以提升编译效率。同时,A编译单元120A可以包括时域编码器。
第二,在缩混信号的特定帧或片段中音频和语音特征共存的情况下,B编译单元120B通过B编译方案(即,属于第一编译方案的非矩形编译方案)来编码缩混信号。在该情况中,B编译方案可以对应于TCX(变换码激励),本发明不限于此。在该情况中,TCX可以包括用于对从执行线性预测(LPC)获得的激励信号执行频率变换的方案。在该情况中,频率变换可以包括MDCT(改进的离散余弦变换)。
第三,在缩混信号的特定帧或片段具有主导的音频特征,C编译单元120C通过C编译方案(即,属于第二编译方案的非矩形编译方案)来编码缩混信号。在该情况中,C编译方案可以遵守AAC(高级音频编译)标准或HE-AAC(高效高级音频编译)标准,本发明不限于此。其间,C编译单元120C可以包括MDCT(改进的离散余弦变换)编码器。
以及,复用器330通过将空间信息、频带展宽信息和通过A至C编译单元120A至120C中的每个而编码的信号一起复用来生成至少一个比特流。
参考图34,音频信号解码设备400包括解复用器410、A至C解码单元220A至220C、频带展宽解码单元420和复数信号解码器430。
解复用器410从音频信号比特流提取通过A至C编译方案编码的数据、频带展宽信息和空间信息等。
A至C解码单元220A至220C对应于前者A至C编译单元120A至120C以分别执行其反向处理,以及从下面的描述中将省略它们的细节。
频带展宽解码单元420通过在A至C解码单元220A至220C中的每个的输出信号上执行频带展宽解码方案、基于频带展宽信息来重构高频带信号。
在解码的音频信号是缩混信号的情况下,复数信道解码器430使用空间信息来生成包括立体声信号的多信道信号的输出信道信号。
根据本发明的音频信号处理设备对于各种产品都是可以使用的。这些产品可以主要分组为独立组和便携组。TV、监视器、机顶盒等可以被包括在独立组中。以及,PMP、移动电话、导航系统等可以被包括在便携组中。
图35示出了产品之间的关系,其中根据本发明实施例的音频信号处理设备被实现。
参考图35,有线/无线通信单元510经由有线/无线通信系统来接收比特流。具体地,有线/无线通信单元510可以包括有线通信单元510A、红外单元510B、蓝牙单元510C和无线LAN单元510D中的至少一个。
用户认证单元520接收用户信息的输入,然后执行用户认证。用户认证单元520可以包括指纹识别单元520A、虹膜识别单元520B、脸部识别单元520C和声音识别单元520D中的至少一个。指纹识别单元520A、虹膜识别单元520B、脸部识别单元520C和语音识别单元520D接收指纹信息、虹膜信息、脸部轮廓信息和语音信息,然后将它们分别转换为用户信息。是否用户信息的每个匹配预注册的用户数据被确定以执行用户认证。
输入单元530是使用户能够输入各种命令的输入装置并且可以包括键盘单元530A、触摸板单元530B和远程控制器单元530C中的至少一个,本发明不限于此。
信号编译单元540对经由有线/无线通信单元510接收的音频信号和/或视频信号来执行编码或解码,然后输出时域的音频信号。信号编译单元540包括音频信号处理设备545。如前面描述中所提及的,音频信号处理设备545对应于上述编码器100(包括的第一至第六实施例)或解码器200(包括的第一至第六实施例)。这样,音频信号处理设备545和包括其的信号编译单元可以通过至少一个或更多处理器来实现。
控制单元550从输入装置接收输入信号并且控制信号解码单元540和输出单元560的所有处理。具体地,输出单元560是配置为输出由信号解码单元540等生成的输出信号的元件,并且可以包括扬声器单元560A和显示单元560B。如果输出信号是音频信号,则其被输出到扬声器。如果输出信号是视频信号,则其被经由显示器输出。
图36是用于提供有根据本发明实施例的音频信号处理设备的产品的关系的示意图。图36示出了与图35中所示的产品相对应的终端和服务器之间的关系。
参考图36(A),可以观察到第一终端500.1和第二终端500.2可以经由有线/无线通信单元来互相双向地交换数据或比特流。参考图36(B),可以观察到服务器600和第一终端500.1可以互相执行有线/无线通信。
根据本发明的音频信号处理方法可以被实现为计算机可执行的程序,并且可以被存储在计算机可读记录介质中。以及,具有本发明的数据结构的多媒体数据可以被存储在计算机可读记录介质中。计算机可读介质包括各种记录装置,其中通过计算机系统可读的数据被存储。计算机可读介质包括例如ROM、RAM、CD-ROM、磁带、软盘、光学数据存储装置等,并且还包括载波类型实现(例如,经由互联网的传输)。以及,通过上述编码方法生成的比特流可以被存储在计算机可读记录介质中或者可以经由有线/无线通信网络传输。
工业可用性
因此,本发明可应用于处理和输出音频信号。
这里参考其优选实施例已经描述和示出本发明,然而对于本领域内技术人员显而易见的是在不脱离本发明的精神和范围的情况下可以在其中进行各种改动和变化。这样,本发明意图覆盖落入在所附权利要求和其等同的范围内的该发明的改动和变形。

Claims (12)

1.一种用于处理音频信号的方法,包括:
通过音频处理设备来接收编译标识信息,所述编译标识信息指示是否将第一编译方案或第二编译方案应用到当前帧,所述第一编译方案基于线性预测域,并且所述第二编译方案基于频率域;
当所述编译标识信息指示所述第二编译方案被应用到所述当前帧时,接收从多个窗口中指示用于所述当前帧的特定窗口的窗口类型信息;
基于所述窗口类型信息,标识当前窗口是stop_start窗口,其中所述stop_start窗口在long_start窗口、短窗口、以及用于前一帧的第一编译方案的窗口中的一个的后面,所述短窗口具有多个重叠在一起的短部分,其中所述stop_start窗口之后是long_stop窗口、短窗口以及用于下一帧的第一编译方案的窗口中的一个,其中stop_start窗口包括上升线条和下降线条;
根据前一帧确定所述上升线条的坡度为第一坡度或者第二坡度,并且根据下一帧确定所述下降线条的坡度为第一坡度或者所述第二坡度,
其中,当所述第一编译方案被应用于前一帧时,所述上升线条被确定为所述第一坡度,并且当所述第一编译方案不应用于前一帧时,所述上升线条被确定为所述第二坡度,
其中,当所述第一编译方案被应用于下一帧时,所述下降线条被确定为所述第一坡度,并且当所述第一编译方案不应用于下一帧时,所述下降线条被确定为所述第二坡度,以及
其中,所述第一坡度比所述第二坡度平缓。
2.根据权利要求1所述的方法,其中,所述第一坡度的宽度等于所述第二坡度的宽度的两倍。
3.根据权利要求1所述的方法,其中,所述第一坡度的宽度对应于帧长度的1/4。
4.根据权利要求1所述的方法,其中,所述第一坡度的宽度对应于256个采样,以及其中所述第一坡度的宽度等于所述stop_start窗口的长度的1/8。
5.根据权利要求1所述的方法,其中,所述短窗口是水平对称的,以及
所述long_start窗口和所述long_stop窗口是水平不对称的,
所述long_stop窗口在左半部具有零部分,以及
所述long_start窗口在右半部具有零部分。
6.根据权利要求1所述的方法,其中,具有所述第一坡度或所述第二坡度的所述上升线条的中点是在距所述stop_start窗口的起始点N/2距离处,
其中,具有所述第一坡度或所述第二坡度的所述下降线条的中点是在距所述stop_start窗口的起始点3N/2距离处,并且
其中,N是帧长度。
7.一种处理音频信号的设备,包括:
解复用器,所述解复用器接收指示是否将第一编译方案或第二编译方案应用到当前帧的编译标识信息,以及当所述编译标识信息指示所述第二编译方案被应用到所述当前帧时,接收从多个窗口中指示用于所述当前帧的特定窗口的窗口类型信息;以及
第二编译单元,所述第二编译单元基于所述窗口类型信息,标识当前窗口是stop_start窗口,其中所述stop_start窗口在long_start窗口、短窗口、以及用于前一帧的第一编译方案的窗口中的一个的后面,所述短窗口具有多个重叠在一起的短部分,其中所述stop_start窗口之后是long_stop窗口、短窗口以及用于下一帧的第一编译方案的窗口中的一个,其中stop_start窗口包括上升线条和下降线条;并且根据前一帧,确定所述上升线条的坡度为第一坡度或者第二坡度,并且根据下一帧确定所述下降线条的坡度为第一坡度和所述第二坡度,
其中,所述第一编译方案基于线性预测域,并且所述第二编译方案基于频率域,
其中,当所述第一编译方案被应用于前一帧时,所述上升线条被确定为所述第一坡度,并且当所述第一编译方案不应用于前一帧时,所述上升线条被确定为所述第二坡度,
其中,当所述第一编译方案被应用于下一帧时,所述下降线条被确定为所述第一坡度,并且当所述第一编译方案不应用于下一帧时,所述下降线条被确定为所述第二坡度,以及
其中,所述第一坡度比所述第二坡度平缓。
8.根据权利要求7所述的设备,其中,所述第一坡度的宽度等于所述第二坡度的宽度的两倍。
9.根据权利要求7所述的设备,其中,所述第一坡度的宽度对应于帧长度的1/4。
10.根据权利要求7所述的设备,其中,所述第一坡度的宽度对应于256个采样,以及其中所述第一坡度的宽度等于所述stop_star窗口的长度的1/8。
11.根据权利要求7所述的设备,其中,所述短窗口是水平对称的,以及
所述long_start窗口和所述long_stop窗口是水平不对称的,
所述long_stop窗口在左半部具有零部分,以及
所述long_start窗口在右半部具有零部分。
12.根据权利要求7所述的设备,其中,具有所述第一坡度或第二坡度的上升线条的中点是在距所述stop_start窗口的起始点N/2距离处,并且其中N是帧长度,
其中,具有所述第一坡度或第二坡度的下降线条的中点是在距所述stop_start窗口的起始点3N/2距离处,并且
其中,N是帧长度。
CN201080041387.5A 2009-09-17 2010-09-17 处理音频信号的方法和设备 Active CN102498515B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US24351409P 2009-09-17 2009-09-17
US61/243,514 2009-09-17
PCT/KR2010/006411 WO2011034376A2 (en) 2009-09-17 2010-09-17 A method and an apparatus for processing an audio signal

Publications (2)

Publication Number Publication Date
CN102498515A CN102498515A (zh) 2012-06-13
CN102498515B true CN102498515B (zh) 2014-06-18

Family

ID=43759189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080041387.5A Active CN102498515B (zh) 2009-09-17 2010-09-17 处理音频信号的方法和设备

Country Status (6)

Country Link
US (4) US8930199B2 (zh)
EP (2) EP3462450A1 (zh)
JP (1) JP5547813B2 (zh)
KR (1) KR101379261B1 (zh)
CN (1) CN102498515B (zh)
WO (4) WO2011034376A2 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
US8457975B2 (en) * 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
US8924200B2 (en) * 2010-10-15 2014-12-30 Motorola Mobility Llc Audio signal bandwidth extension in CELP-based speech coder
EP2849180B1 (en) * 2012-05-11 2020-01-01 Panasonic Corporation Hybrid audio signal encoder, hybrid audio signal decoder, method for encoding audio signal, and method for decoding audio signal
JP6179122B2 (ja) * 2013-02-20 2017-08-16 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
CN105096958B (zh) 2014-04-29 2017-04-12 华为技术有限公司 音频编码方法及相关装置
WO2017050398A1 (en) * 2015-09-25 2017-03-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-adaptive switching of the overlap ratio in audio transform coding
US10678828B2 (en) 2016-01-03 2020-06-09 Gracenote, Inc. Model-based media classification service using sensed media noise characteristics
CN107731238B (zh) * 2016-08-10 2021-07-16 华为技术有限公司 多声道信号的编码方法和编码器
CN114898761A (zh) 2017-08-10 2022-08-12 华为技术有限公司 立体声信号编解码方法及装置
CN115881140A (zh) * 2021-09-29 2023-03-31 华为技术有限公司 编解码方法、装置、设备、存储介质及计算机程序产品

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008071353A2 (en) * 2006-12-12 2008-06-19 Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung E.V: Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5848391A (en) * 1996-07-11 1998-12-08 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method subband of coding and decoding audio signals using variable length windows
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
ATE521143T1 (de) * 2005-02-23 2011-09-15 Ericsson Telefon Ab L M Adaptive bitzuweisung für die mehrkanal- audiokodierung
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
US8352279B2 (en) * 2008-09-06 2013-01-08 Huawei Technologies Co., Ltd. Efficient temporal envelope coding approach by prediction between low band signal and high band signal
BRPI0914056B1 (pt) * 2008-10-08 2019-07-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Esquema de codificação/decodificação de áudio comutado multi-resolução
KR101315617B1 (ko) * 2008-11-26 2013-10-08 광운대학교 산학협력단 모드 스위칭에 기초하여 윈도우 시퀀스를 처리하는 통합 음성/오디오 부/복호화기
CA3107567C (en) * 2009-01-28 2022-08-02 Dolby International Ab Improved harmonic transposition
WO2011013980A2 (en) * 2009-07-27 2011-02-03 Lg Electronics Inc. A method and an apparatus for processing an audio signal

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008071353A2 (en) * 2006-12-12 2008-06-19 Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung E.V: Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Efficient cross-fade windows for transitions between LPC-based and non-LPC based audio coding;Jeremie Lecomte, Philippe Gournay, Ralf Geiger, Bruno Bessette a;《Audio Engineering Society Convention Paper Presented at the 126th Convention 2009 May 7–10 Munich, Germany》;20060510;全文 *
Jeremie Lecomte, Philippe Gournay, Ralf Geiger, Bruno Bessette a.Efficient cross-fade windows for transitions between LPC-based and non-LPC based audio coding.《Audio Engineering Society Convention Paper Presented at the 126th Convention 2009 May 7–10 Munich, Germany》.2006,

Also Published As

Publication number Publication date
EP3462450A1 (en) 2019-04-03
US8990095B2 (en) 2015-03-24
WO2011034374A3 (en) 2011-07-14
CN102498515A (zh) 2012-06-13
WO2011034376A2 (en) 2011-03-24
JP5547813B2 (ja) 2014-07-16
EP2478520A4 (en) 2013-08-28
WO2011034375A3 (en) 2011-07-07
US20140025387A1 (en) 2014-01-23
KR20120098626A (ko) 2012-09-05
WO2011034377A3 (en) 2011-07-07
US8930201B2 (en) 2015-01-06
US8930199B2 (en) 2015-01-06
EP2478520A2 (en) 2012-07-25
US8996388B2 (en) 2015-03-31
US20120239408A1 (en) 2012-09-20
WO2011034375A2 (en) 2011-03-24
KR101379261B1 (ko) 2014-04-02
US20140025388A1 (en) 2014-01-23
WO2011034374A2 (en) 2011-03-24
WO2011034377A2 (en) 2011-03-24
US20140019143A1 (en) 2014-01-16
JP2013505475A (ja) 2013-02-14
WO2011034376A3 (en) 2011-07-07

Similar Documents

Publication Publication Date Title
CN102498515B (zh) 处理音频信号的方法和设备
CN102576540B (zh) 一种处理音频信号的方法和装置
KR102148492B1 (ko) Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
US9343074B2 (en) Apparatus and method for audio encoding and decoding employing sinusoidal substitution
CN101589623B (zh) 对表示时域数据流的数据段进行编码和解码的编码器、解码器以及方法
CN101479785B (zh) 用于编码和解码基于对象的音频信号的方法和装置
RU2492530C2 (ru) Устройство и способ кодирования/декодирования звукового сигнала посредством использования схемы переключения совмещения имен
CN102165520B (zh) 处理信号的方法和装置
TW201740368A (zh) 用以在多聲道編碼中施以立體聲充填之裝置及方法
CN104903956A (zh) 用于通过使用频谱模式有效合成正弦曲线和扫描的设备及方法
Fink et al. Enhanced Chroma Feature Extraction from HE-AAC Encoder

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Free format text: FORMER OWNER: INDUSTRY-ACADEMIC COOPERATION FOUNDATION, YONSEI UNIVERSITY

Effective date: 20130605

Owner name: INDUSTRY-ACADEMIC COOPERATION FOUNDATION, YONSEI U

Free format text: FORMER OWNER: LG ELECTRONICS INC.

Effective date: 20130605

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20130605

Address after: Seoul, South Kerean

Applicant after: Ind Academic Coop

Address before: Seoul, South Kerean

Applicant before: LG Electronics Inc.

Applicant before: Ind Academic Coop

C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: YINGDI CO., LTD.

Free format text: FORMER OWNER: INDUSTRY-ACADEMIC COOPERATION FOUNDATION, YONSEI UNIVERSITY

Effective date: 20140912

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140912

Address after: Seoul, South Kerean

Patentee after: Neo Lab Convergence Inc.

Address before: Seoul, South Kerean

Patentee before: Ind Academic Coop

TR01 Transfer of patent right

Effective date of registration: 20180227

Address after: American California

Patentee after: Joint audio systems company

Address before: Seoul, South Kerean

Patentee before: Neo Lab Convergence Inc.

TR01 Transfer of patent right
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20180919

Address after: American California

Patentee after: Dolby Lab Licensing Corp.

Address before: American California

Patentee before: Joint audio systems company