CN102576540B - 一种处理音频信号的方法和装置 - Google Patents

一种处理音频信号的方法和装置 Download PDF

Info

Publication number
CN102576540B
CN102576540B CN2010800425406A CN201080042540A CN102576540B CN 102576540 B CN102576540 B CN 102576540B CN 2010800425406 A CN2010800425406 A CN 2010800425406A CN 201080042540 A CN201080042540 A CN 201080042540A CN 102576540 B CN102576540 B CN 102576540B
Authority
CN
China
Prior art keywords
window
rectangle
signal
compilation scheme
compilation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2010800425406A
Other languages
English (en)
Other versions
CN102576540A (zh
Inventor
吴贤午
姜泓求
李昌宪
宋政旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
IND ACADEMIC COOP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IND ACADEMIC COOP filed Critical IND ACADEMIC COOP
Priority to CN201310579014.9A priority Critical patent/CN103761971B/zh
Publication of CN102576540A publication Critical patent/CN102576540A/zh
Application granted granted Critical
Publication of CN102576540B publication Critical patent/CN102576540B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

公开了一种用于处理音频信号的装置及其方法。本发明包括:当将第二编译方案应用于当前帧时,通过音频处理装置接收窗口类型信息,所述窗口类型信息表示多个窗口当中的用于当前帧的特定窗口;并且根据窗口类型信息将当前窗口应用于当前帧,其中,当将第一编译方案应用于先前帧时,所述多个窗口是由短窗口、第一过渡窗口、第二过渡窗口组成的,其中,短窗口具有宽度是N/8的至少一个上升线,并且第一过渡窗口和第二过渡窗口具有宽度是N/4的上升线(其中N是帧长)。

Description

一种处理音频信号的方法和装置
技术领域
本发明涉及一种用于对音频信号进行处理的装置以及其方法。虽然本发明适用于广泛的应用范围,但是其尤其适用于对音频信号进行编码或解码。
背景技术
通常,基于音频特征的编译方案被应用于诸如音乐信号这样的音频信号,而基于语音特征的编译方案被应用于语音信号。
发明内容
技术问题
然而,如果将规定的编译方案应用于在其中音频和语音特征相互混合的信号,那么音频编码效率被降低或者音质被恶化。
技术方案
因此,本发明是指用于对音频信号进行处理的装置及其方法,其基本上可消除由于现有技术的局限性和缺点所造成的一个或多个问题。
本发明的目的是提供一种用于对音频信号进行处理的装置及其方法,通过其可将至少两种编译方案中的一个应用于一个帧或子帧。
本发明的另一个目的是提供一种用于对音频信号进行处理的装置及其方法,通过其在将不同编译方案应用于包括一系列帧的音频信号的每个帧或子帧的过程中,可解决由于与每个编译方案相对应的窗口形状的不对称所产生的不匹配。
本发明的另一个目的是提供一种用于对音频信号进行处理的装置及其方法,通过其可在矩形窗口和非矩形窗口相互接触时,消除混叠等等。
本发明的另一个目的是提供一种用于对音频信号进行处理的装置及其方法,通过其,如果频域方案所应用的帧跟在线性预测域方案所应用的帧之后,则可跳过用于对窗口长度差进行补偿的窗口传输。
本发明的另一个目的是提供一种用于对音频信号进行处理的装置及其方法,通过其以根据随后帧的编译方案来对与当前帧相对应的窗口类型进行转换的方式,可解决由于窗口形状的不对称所导致的不匹配。
本发明的进一步目的是提供一种用于对音频信号进行处理的装置和方法,通过其以根据先前帧是否是频域方案的帧来有选择地应用长期预测的方式,可提高线性预测域方案的帧中的比特效率。
将在随后的描述中对本发明的附加特征和优点进行阐述,并且其部分地可从该描述显而易见地得知,或者从本发明的实施中学习到。通过所写的描述和其权利要求以及附图中所指出的特定结构可实现并获得本发明的目的及其它优点。
为了实现这些及其它优点,并且根据本发明的目的,如具体体现且广泛描述地,提供了一种用于处理音频信号的方法,其包括:通过音频处理装置接收音频信号,所述音频信号包括以矩形编译方案编码的第一块的第一数据,以及以非矩形编译方案编码的第二块的第二数据;接收与第二块相对应的补偿信号;利用第一数据估计混叠部分的预测;根据第二数据、补偿信号、以及混叠部分的预测来获得用于第二块的重建信号。
根据本发明,矩形编译方案以矩形窗口来编码或解码,非矩形编译方案以非矩形窗口来编码或解码。
根据本发明,根据校正部分以及混叠部分的误差来产生补偿信号,校正部分对应于和矩形窗口与非矩形窗口之间的不对称有关的差异,混叠部分的误差对应于混叠部分和混叠部分的预测之间的差异。
根据本发明,混叠部分对应于第一块和用于非矩形编译方案的非矩形窗口之间的重叠部分。
根据本发明,估计预测包括:根据矩形窗口方案利用第一块的第一数据来产生用于第一块的输出信号;利用用于第一块的输出信号以及非矩形窗口来获得混叠部分的预测。
根据本发明,重建信号近似于以矩形窗口处理的信号,该矩形窗口与用于非矩形编译方案的非矩形窗口不同。
根据本发明,获得重建信号包括:对第二数据进行逆频率变换以产生时域第二信号;对补偿信号进行逆频率变换以产生时域补偿信号;通过将时域补偿信号添加到时域第二信号和混叠部分的预测,而获得重建信号。
根据本发明,第一块与帧和子帧中的一个相对应,并且第二块与帧和子帧中的一个相对应。
为了进一步实现这些及其它优点,并且根据本发明的目的,提供一种用于处理音频信号的装置,其包括:解复用器,其接收音频信号,所述音频信号包括以矩形编译方案编码的第一块的第一数据,以及以非矩形编译方案编码的第二块的第二数据,并且用于接收与第二块相对应的补偿信号;矩形解码单元,用于利用第一数据估计混叠部分的预测;以及非矩形解码单元,用于根据第二数据、补偿信号、以及混叠部分的预测来获得用于第二块的重建信号。
根据本发明,矩形编译方案以矩形窗口来编码或解码,非矩形编译方案以非矩形窗口来编码或解码。
根据本发明,根据校正部分以及混叠部分的误差来产生补偿信号,校正部分对应于和矩形窗口与非矩形窗口之间的不对称有关的差异,混叠部分的误差对应于混叠部分和混叠部分的预测之间的差异。
根据本发明,混叠部分对应于第一块与用于非矩形编译方案的非矩形窗口之间的重叠部分。
根据本发明,矩形解码单元被配置成:根据矩形窗口方案,利用第一块的第一数据来产生用于第一块的输出信号;并且利用用于第一块的输出信号和非矩形窗口来获得混叠部分的预测。
根据本发明,重建信号近似于以矩形窗口处理的信号,该矩形窗口与用于非矩形编译方案的非矩形窗口不同。
根据本发明,非矩形解码单元被配置成:对第二数据进行逆频率变换以产生时域第二信号;对补偿信号进行逆频率变换以产生时域补偿信号;以及通过将时域补偿信号添加到时域第二信号和混叠部分的预测,来获得重建信号。
根据本发明,第一块与帧和子帧中的一个相对应,并且第二块与帧和子帧中的一个相对应。
为了进一步实现这些及其它优点,并且根据本发明的目的,提供了一种用于处理音频信号的方法,包括:通过音频处理装置接收编译标识信息,所述编译标识信息表示是将第一编译方案还是第二编译方案应用于当前帧;当编译标识信息表示将第二编译方案应用于当前帧时,接收窗口类型信息,该窗口类型信息表示多个窗口当中的用于当前帧的特定窗口;根据窗口类型信息识别出当前窗口是长_起始窗口,其中,长_起始窗口跟在先前帧的仅长窗口之后,其中,长_起始窗口包括平缓的长_起始窗口以及陡峭的长_起始窗口;以及当将第一编译方案应用于随后帧时,将平缓的长_起始窗口应用于当前帧,其中:平缓的长_起始窗口包括带有第一斜坡的下降线,陡峭的长_起始窗口包括带有第二斜坡的下降线,第一斜坡比第二斜坡平缓。
根据本发明,第一斜坡的宽度等于第二斜坡的宽度的两倍。
根据本发明,第一斜坡的宽度与N/4(其中,N是帧长)相对应。
根据本发明,第一斜坡的宽度与256个抽样相对应,并且其中,第一斜坡的宽度等于长_起始窗口的长度的1/8。
根据本发明,仅长窗口是水平对称,并且长_起始窗口是水平不对称,长_起始窗口在右半边具有零部分。
根据本发明,带有第一斜坡或第二斜坡的下降线的中心点在距长起始窗口的起始点的3N/2距离处(其中N是帧长)。
根据本发明,第一编译方案基于频域,并且第二编译方案基于线性预测域。
为了进一步实现这些及其它优点,并且根据本发明的目的,提供了一种用于处理音频信号的装置,其包括:解复用器,用于通过音频处理装置接收编译标识信息,所述编译标识信息表示是将第一编译方案还是第二编译方案应用于当前帧,并且当编译标识信息表示将第二编译方案应用于当前帧时,接收窗口类型信息,该窗口类型信息表示多个窗口当中的用于当前帧的特定窗口;第二编译单元,用于根据窗口类型信息识别出当前窗口是长_起始窗口,其中,长_起始窗口跟在先前帧的仅长窗口之后,其中,长_起始窗口包括平缓的长_起始窗口以及陡峭的长_起始窗口,并且当将第一编译方案应用于随后帧时,将平缓的长_起始窗口应用于当前帧,其中:平缓的长_起始窗口包括带有第一斜坡的下降线,陡峭的长_起始窗口包括带有第二斜坡的下降线,第一斜坡比第二斜坡平缓。
根据本发明,第一斜坡的宽度等于第二斜坡的宽度的两倍。
根据本发明,第一斜坡的宽度与N/4(其中N是当前帧的长度)相对应。
根据本发明,第一斜坡的宽度与256个抽样相对应,并且其中,第一斜坡的宽度等于长_起始窗口的长度的1/8。
根据本发明,仅长窗口是水平对称,并且长_起始窗口是水平不对称,长_起始窗口在右半边具有零部分。
根据本发明,带有第一斜坡或第二斜坡的下降线的中心点在距长起始窗口的起始点的3N/2距离处(其中N是帧长)。
根据本发明,第一编译方案基于频域,并且第二编译方案基于线性预测域。
为了进一步实现这些及其它优点并且根据本发明的目的,提供了一种用于处理音频信号的方法,其包括:通过音频处理装置接收音频信号,所述音频信号包括第一块的第一数据以及第二块的第二数据;接收与第二块相对应的补偿信号;根据第二数据、补偿信号、以及第二块的窗口获得用于第二块的重建信号,其中当以矩形编译方案对第一数据编码,并且第二块的窗口属于过渡窗口类别时,第二块的窗口具有带有第一斜坡的上升线,其中,第一斜坡比第二斜坡平缓。
根据本发明,当以非矩形编译方案对第一数据编码,并且第二块的窗口属于过渡窗口类别时,第二块的窗口具有带有第二斜坡的上升线。
根据本发明,当过渡窗口类别包括长_停止(1ong_stop)窗口和停止_起始(stop_start)窗口时,长_停止窗口和停止_起始窗口是水平不对称的,并且在左半边具有零部分。
根据本发明,当以矩形编译方案对第一数据进行编码时,接收补偿信号。
根据本发明,根据与矩形窗口与非矩形窗口之间的不对称有关的差异,以及混叠部分与混叠部分的预测之间的差异中的至少一个差异,产生补偿信号。
为了进一步实现这些及其它优点,并且根据本发明的目的,提供一种用于处理音频信号的装置,其包括:解复用器,用于接收音频信号,所述音频信号包括第一块的第一数据以及第二块的第二数据,并且用于接收与第二块相对应的补偿信号;非矩形解码单元,用于根据第二数据、补偿信号、以及第二块的窗口获得用于第二块的重建信号,其中当以矩形编译方案对第一数据编码,并且第二块的窗口属于过渡窗口类别时,第二块的窗口具有带有第一斜坡的上升线,其中,第一斜坡比第二斜坡平缓。
根据本发明,当以非矩形编译方案对第一数据编码,并且第二块的窗口属于过渡窗口类别时,第二块的窗口具有带有第二斜坡的上升线。
根据本发明,当过渡窗口类别包括长_停止窗口和停止_起始窗口时,长_停止窗口和停止_起始窗口是水平不对称的,并且在左半边具有零部分。
根据本发明,当以矩形编译方案对第一数据编码时,接收补偿信号。
根据本发明,根据与矩形窗口和非矩形窗口之间的不对称有关的差异,以及混叠部分与混叠部分的预测之间的差异中的至少一个差异,产生补偿信号。
为了进一步实现这些及其它优点,并且根据本发明的目的,提供一种用于处理音频信号的方法,包括:通过音频处理装置接收音频信号,所述音频信号包括第一块的第一数据以及第二块的第二数据;接收与第二块相对应的补偿信号;根据第二数据、补偿信号、以及第二块的窗口获得用于第二块的重建信号,其中当以矩形编译方案对第一数据编码,并且第二块的窗口属于过渡窗口类别时,第二块的窗口具有带有第一斜坡的上升线,其中,第一斜坡比第二斜坡平缓。
根据本发明,当以非矩形编译方案对第一数据编码,并且第二块的窗口属于过渡窗口类别时,第二块的窗口具有带有第二斜坡的上升线。
根据本发明,过渡窗口类别包括长_停止窗口和停止_起始窗口,并且长_停止窗口和停止_起始窗口是水平不对称的,并且在左半边具有零部分。
根据本发明,当以矩形编译方案对第一数据编码时,接收补偿信号。
根据本发明,根据与矩形窗口和非矩形窗口之间的不对称有关的差异,以及混叠部分与混叠部分的预测之间的差异中的至少一个差异,产生补偿信号。
为了进一步实现这些及其它优点,并且根据本发明的目的,提供一种用于处理音频信号的装置,其包括:解复用器,用于接收音频信号,所述音频信号包括第一块的第一数据以及第二块的第二数据,并且用于接收与第二块相对应的补偿信号;非矩形解码单元,用于根据第二数据、补偿信号、以及第二块的窗口获得用于第二块的重建信号,其中,当以矩形编译方案对第一数据编码,并且第二块的窗口属于过渡窗口类别时,第二块的窗口具有带有第一斜坡的上升线,其中,第一斜坡比第二斜坡平缓。
根据本发明,当以非矩形编译方案对第一数据编码,并且第二块的窗口属于过渡窗口类别时,第二块的窗口具有带有第二斜坡的上升线。
根据本发明,过渡窗口类别包括长_停止窗口和停止_起始窗口时,长_停止窗口和停止_起始窗口是水平不对称的,并且在左半边具有零部分。
根据本发明,当以矩形编译方案对第一数据编码时,接收补偿信号。
根据本发明,根据与矩形窗口和非矩形窗口之间的不对称有关的差异,以及混叠部分与混叠部分的预测之间的差异中的至少一个差异,产生补偿信号。
为了进一步实现这些及其它优点,并且根据本发明的目的,提供了一种用于处理音频信号的方法,其包括:当将第二编译方案应用于当前帧时,通过音频处理装置接收窗口类型信息,所述窗口类型信息表示多个窗口当中的用于当前帧的特定窗口;并且根据窗口类型信息将当前窗口应用于当前帧,其中,当将第一编译方案应用于先前帧时,所述多个窗口是由短窗口、第一过渡窗口、第二过渡窗口组成的,其中,短窗口具有宽度是N/8的至少一个上升线,并且第一过渡窗口和第二过渡窗口具有宽度是N/4的上升线(其中N是帧长)。
根据本发明,短窗口、第一过渡窗口、以及第二过渡窗口的长度是2N。
根据本发明,短窗口、第一过渡窗口、以及第二过渡窗口的左半边与1024个抽样相对应。
根据本发明,当前窗口与先前窗口之间的交叉点在距当前窗口的起始的N/2距离处。
根据本发明,第一过渡窗口在右半边不具有零部分,第二过渡窗口在右半边具有零部分,短窗口具有重叠在一起的多个短部分,并且短部分具有上升线和下降线。
为了进一步实现这些及其它优点,并且根据本发明的目的,提供了一种用于处理音频信号的方法,其包括:通过音频处理装置接收音频信号,所述音频信号包括以第一编译方案编码的当前帧以及以第二编译方案编码的随后帧;接收子编译标识信息,所述子编译标识信息表示以矩形编译方案或非矩形编译方案对当前帧的至少一个块进行编码;当子编译标识信息表示以非矩形编译方案对当前帧的至少最后块进行编码时,根据用于随后帧的随后窗口是否是短窗口,来确定用于当前窗口的包括第一形状和第二形状的窗口形状;将具有所确定的窗口形状的当前窗口应用于当前帧,其中:第一形状具有带有第一斜坡的下降线,第二形状具有带有第二斜坡的下降线,并且第一斜坡比第二斜坡平缓。
根据本发明,第一斜坡的宽度与256个抽样或N/4相对应,并且第二斜坡的宽度与128个抽样或N/8(N是帧长)相对应。
根据本发明,当前窗口与随后窗口之间的交叉点在距随后窗口的起始的N/2距离处。
根据本发明,第一斜坡与非短窗口中的上升斜坡的斜坡相匹配,并且第二斜坡与短窗口中的上升斜坡的斜坡相匹配。
为了进一步实现这些及其它优点,并且根据本发明的目的,提供了一种用于处理音频信号的装置,其包括:解复用器,用于当将第二编译方案应用于当前帧时接收窗口类型信息,所述窗口类型信息表示多个窗口当中的用于当前帧的特定窗口;第二编译单元,用于根据窗口类型信息将当前窗口应用于当前帧,其中,当将第一编译方案应用于先前帧时,所述多个窗口是由短窗口、第一过渡窗口、第二过渡窗口组成的,其中,短窗口具有宽度是N/8的至少一个上升线,并且第一过渡窗口和第二过渡窗口具有宽度是N/4的上升线(其中N是帧长)。
根据本发明,短窗口、第一过渡窗口、以及第二过渡窗口的长度是2N。
根据本发明,短窗口、第一过渡窗口、以及第二过渡窗口的左半边与1024个抽样相对应。
根据本发明,当前窗口与先前窗口之间的交叉点在距当前窗口的起始的N/2距离处。
根据本发明,第一过渡窗口在右半边不具有零部分,第二过渡窗口在右半边具有零部分,短窗口具有重叠在一起的多个短部分,并且短部分具有上升线和下降线。
为了进一步实现这些及其它优点,并且根据本发明的目的,提供了一种用于处理音频信号的装置,其包括:解复用器,用于接收音频信号,所述音频信号包括以第一编译方案编码的当前帧以及以第二编译方案编码的随后帧,并且用于接收子编译标识信息,所述子编译标识信息表示以矩形编译方案或非矩形编译方案对当前帧的至少一个块进行编码;第一编译单元,用于当子编译标识信息表示以非矩形编译方案对当前帧的至少最后块进行编码时,根据用于随后帧的随后窗口是否是短窗口,来确定用于当前窗口的包括第一形状和第二形状的窗口形状;将具有所确定的窗口形状的当前窗口应用于当前帧,其中:第一形状具有带有第一斜坡的下降线,第二形状具有带有第二斜坡的下降线,并且第一斜坡比第二斜坡平缓。
根据本发明,第一斜坡的宽度与256个抽样或N/4相对应,并且第二斜坡的宽度与128个抽样或N/8(N是帧长)相对应。
根据本发明,当前窗口与随后窗口之间的交叉点在距随后窗口的起始的N/2距离处。
根据本发明,第一斜坡与非短窗口中的上升斜坡的斜坡相匹配,并且第二斜坡与短窗口中的上升斜坡的斜坡相匹配。
应该理解的是先前的一般描述和随后的详细说明是示例性和说明性的,并且其被用于提供对所要求的本发明的进一步说明。
有益效果
因此,本发明提供以下效果或优点。
首先,本发明对诸如由于窗口间不对称(例如,矩形窗口与非矩形窗口之间不对称)等所引起的混叠这样的缺点进行补偿,从而显著改善音频信号的音质。
其次,当应用了用于对混叠等等进行补偿的方案时,矩形窗口与非矩形窗口之间100%重叠变得不必要。因此,非矩形窗口可保持具有平缓斜坡的下降线。
第三,本发明适用于具有包含平缓斜坡的下降线的非矩形窗口,由此同类窗口(homogeneous window)(例如,非矩形窗口)之间的交叉点与异类窗口(heterogeneous window)(例如,非矩形窗口和矩形窗口)之间的交叉点相匹配。
第四,因为同类窗口的交叉点与异类窗口的交叉点相匹配,因此用于对窗口长度差进行补偿的过渡窗口变得不必要,并且第一编译方案(例如,线性预测域方案)与第二编译方案(例如,频域方案)之间的直接过渡成为可能。
第五,因为直接过渡成为可能,因此可应用适用于相应块的音频信号特征的窗口,而无需使用用于解决不匹配的窗口。因此,可显著地提高音质。
第六,因为与非矩形窗口类型相对应的窗口的形状根据短窗口是存在于先前块还是存在于随后块而变,因此满足TDAC条件。因此,可提高音质。
附图说明
所附附图被包括以提供对本发明进一步了解,并纳入且构成了该说明书的一部分,所述附图对本发明的实施例进行说明并且与该描述一下对本发明的原理进行说明。
在附图中:
图1是根据本发明的音频信号处理装置的示意性方框图;
图2是根据本发明的第一实施例的编码器的方框图;
图3是根据本发明的第一实施例的解码器的方框图;
图4是由块单元配置的音频信号的示意图,按每个帧(或子帧)可对其应用不同的编译方案;
图5是用于过渡到异类编译方案(heterogeneous coding scheme)(即,矩形编译方案和非矩形编译方案)的示意图;
图6是当矩形窗口和非矩形窗口相互重叠时的特征的示意图;
图7是校正部分(CP),混叠部分(aliasing part)(AP)、以及未补偿信号的示意图;
图8是具有对称性(即,TDAC的条件)的非矩形窗口的特征的示意图;
图9是用于对校正部分和/或混叠部分进行补偿的补偿信号的示例的示意图;
图10是图6所示的异类窗口(即,矩形窗口和非矩形窗口)的组合中的非矩形窗口的示例的示意图;
图11是矩形窗口之后的矩形窗口被重叠的情况的示意图;
图12是根据本发明的第二实施例的编码器的方框图;
图13是根据本发明的第二实施例的解码器的方框图;
图14是根据是否将矩形编译方案应用于先前块的过渡窗口(transition window)的形状的示意图;
图15是根据本发明的第三实施例的编码器的方框图;
图16是根据本发明的第三实施例的解码器的方框图;
图17是与第一编译方案窗口或第二编译方案窗口(短窗口)相结合的长_起始窗口的示意图;
图18是与第一编译方案窗口或第二编译方案窗口(例如,长_停止窗口)相重叠的短窗口的示意图;
图19是根据本发明的第四实施例的编码器的方框图;
图20是根据本发明的第四实施例的解码器的方框图;
图21是窗口间路径或过渡的表格;
图22是过渡到第一编译方案中的长_停止窗口的情况的示意图;
图23是过渡到第一编译方案中的短窗口的情况的示意图;
图24是第一编译方案窗口与新形状的短窗口相重叠的情况的示意图;
图25是根据本发明的第五实施例的编码器的方框图;
图26是根据本发明的第六实施例的解码器的方框图;
图27是与第一编译方案(例如TCX)相对应的窗口与短窗口(或长_停止窗口)相重叠的情况的示意图;
图28是与在形状1至形状4之内变化的第一编译方案当中的非矩形方案相对应的窗口的表格;
图29是根据本发明的第六实施例的编码器的方框图;
图30是根据本发明的第六实施例的解码器的方框图;
图31是每个块(帧或子帧)的编译方案的示例的示意图;
图32是用于与长期预测有关的信号波形的一个示例的示意图;
图33是根据本发明的实施例的编码器所应用到的音频信号编码装置的示例的示意图;
图34是根据本发明的实施例的编码器所应用到的音频信号解码装置的示例的示意图;
图35是实现根据本发明的一个实施例的音频信号处理装置的产品的示意性方框图;以及
图36是用于对实现根据本发明的一个实施例的音频信号处理装置的产品之间的关系进行说明的示意图。
具体实施方式
在随后的描述中,对本发明的附加特征和优点进行阐述,并且其部分可从该描述中显而易见地得知,或者可以从本发明的实施中学习到。特别地,通过在所写描述及其权利要求以及附图中所指出的结构可实现并获得本发明的目的及其他优点。
为了实现这些和其他优点,并且根据本发明的目的,如具体体现和广泛描述地,
为了进一步实现这些及其他优点,并且根据本发明的目的,
很清楚的是先前的一般描述和下面的详细描述是示例性和说明性的,并且其旨在提供对所要求的本发明的进一步说明。
本发明的模式
现在对本发明的优选实施例进行详细地参考,在附图中示出了所述优选实施例的示例。首先,不将在该说明书和权利要求中所使用的术语或词语解释为局限于一般或字典含义,并且应解释为与基于下述原理的本发明的技术思想相匹配的含义和概念,所述原理即就是发明人能够适当地定义术语的概念,以最好地方式对发明人的发明进行描述。该公开中所公开的实施例以及附图中所示的配置仅是一个优选实施例,并且不表示本发明的所有技术思路。因此,很清楚的是本发明覆盖本发明的修改和变化,只要其落入在提交该申请时的所附权利要求及其等效体的范围之内。
根据本发明,应将未在该说明书中所公开的术语解释为与本发明的技术思路相匹配的以下含义和概念。具体地说,可将“编译(coding)”有选择地解释为“编码”或“解码”,并且该公开中的“信息”是通常包括值、参数、系数、元素等等的术语,并且其含义可偶而解释为不同,本发明并不受到此限制。
在该公开中,在广义上,音频信号在概念上与视频信号有区别,并且表示可听觉上识别的各种信号。从狭义上讲,音频信号是指不具有或具有少量语音特征的信号。应在广义上对本发明的音频信号进行解释。然而,在用作与语音信号加以区分的情况下,本发明的音频信号可被理解为狭义上的音频信号。
虽然规定编译(coding)仅是编码,但是可以将其解释为包括编码和解码。
图1是根据本发明的音频信号处理装置的示意性方框图。
参考图1,根据本发明的音频信号处理装置的编码器100包括一对编译单元(即,矩形编译单元120R和非矩形编译单元120N,或第一编译单元120-1和第二编译单元120-2)并且能够进一步包括信号分类器110和复用器130。
在这种情况下,矩形编译单元120R是应用了矩形编译方案的编译单元。尤其是,矩形编译方案是指应用了具有矩形形状的窗口的编译方案,而非矩形编译方案是指应用了具有非矩形形状的窗口的编译方案。
此外,第一和第二编译单元120-1和120-2是用于分别根据不同域来应用第一和第二编译方案的单元。在这种情况下,域可以包括线性预测域、频域、时域等等。例如,第一编译方案是基于线性预测域的编译方案,并且第二编译方案是基于频域的编译方案。并且,随后对根据域类型的定义和性质进行详细地描述。
编码器100可包括三个特定编译单元(即,A编译单元120A、B编译单元120B、以及C编译单元120C)。例如图1所示,应用于A编译单元120A的A编译方案是矩形编译方案,并且与第一编译方案相对应。应用于B编译单元120B的B编译方案是非矩形编译方案,并且与第一编译方案相对应。应用于C编译单元120C的C编译方案是非矩形编译方案,并且与第二编译方案相对应。如在先前描述中所提到的,图1所示的图仅仅是示例性的,本发明并不受到此限制。为了使以下描述清楚和方便起见,图1所示的示例用作参考。
或者,A,B、C编译方案分别与ACELP(代数码激励线性预测)、TCX(变换码激励)、以及MDCT(修正离散傅里叶变换)相对应,但是本发明并不受到此限制。随后参考矩形编译方案、非矩形编译方案、第一编译方案、以及第二编译方案的细节对A、B、C编译方案进行详细地描述。
信号分类器110对输入音频信号的特征进行分析,并且此后根据所分析的特征来确定将上述至少两个编译方案中的哪一个应用到当前帧或子帧。根据该确定,产生编译方案信息。如在先前描述中提到的,至少两个编译方案与矩形和非矩形编译方案、第一和第二编译方案、或者A至C编译方案相对应,但是本发明并不受到此限制。
例如,在图1所示的示例的情况下,编译方案信息可包括编译标识信息和子编译标识信息(subcoding identification information)。在这种情况下,编译标识信息表示用于当前帧的第一编译方案或第二编译方案。在当前帧与第一编译方案相对应的情况下,子编译标识信息是表示对于每个帧或子帧而言第一编译方案是A编译方案或还是B编译方案的信息。
此后,信号分类器110产生编译方案信息,并且此后将其递送到复用器130。
同时,在信号分类器110的控制之下,对每个帧或子帧的输入信号进行分类,并且此后将其输入到矩形/非矩形编译单元120R/120N或第一/第二编译单元120-1/120-2。在图1所示的示例的情况下,将输入信号输入到A至C编译单元102A至120C中的一个。
在图1所示的示例的情况下,A至C编译单元120A至120C中的每一个将由相应编译方案对输入信号进行编码所产生的数据递送到复用器120。
复用器130通过对编译方案信息以及作为通过相应单元执行编译的结果的数据进行复用而至少产生比特流。
同时,根据本发明的音频信号处理装置的解码器200包括至少两个解码单元220R和220N,或220-1和220-2,并且可进一步包括解复用器210。在这种情况下,至少两个解码单元是在解码方面与先前的至少两个编译单元相对应,并且分别包括矩形解码单元220R和非矩形解码单元220N(或第一解码单元220-1和第二解码单元220-2)的部件。按照与编码器100相似的方式,所述至少两个解码单元可分别包括A至C解码单元220A至220C。
矩形解码单元220R所应用的矩形编译方案和非矩形解码单元220N所应用的非矩形编译方案与在先前描述中所说明的那些几乎一样。并且,第一解码单元220-1所应用的第一编译方案和第二解码单元220-2所应用的第二编译方案与在先前描述中所说明的那些几乎一样。如在先前描述中所提到的,如图1所示,在包括A至C解码单元220A至220C的情况下,随后对相应编译单元所使用的A至C编译方案进行详细地描述。
之后,解复用器210从至少一个比特流中提取编译方案信息以及每个帧或子帧的数据。根据编译方案信息,将所提取的数据转发到相应解码单元220A,220B,或220C。最终,每个解码单元通过相应解码方案对该数据进行解码,以产生输出音频信号。
在下面的描述中,依次对根据图1所示的本发明的音频信号处理装置的实施例进行描述。
图2是根据本发明的第一实施例的编码器的方框图,并且图3是根据本发明的第一实施例的解码器的方框图。尤其是,第一实施例涉及用于对诸如当矩形编译方案所编码的块与非矩形编译方案所编码的块相接触时的混叠等等这样的缺陷进行补偿的实施例。
参考图2,像图1所示的先前编码器100一样,根据第一实施例的编码器100A包括矩形编译单元120R和非矩形编译单元120N,并且可进一步包括复用器130。尤其是,矩形编译单元120R包括矩形方案编译部分122和矩形方案合成(synthesis)部分124。并且,非矩形编译单元120N包括补偿信息产生部分128,并且可进一步包括非矩形方案编译部分126。
首先,通过以块为单元对输入信号进行划分,并且此后对于每个块将其输入到矩形编译单元120R或非矩形编译单元120N。在这种情况下,块是与帧或子帧相对应的单元。
在下面的描述中,参考图4和图5对每帧的编译方案(例如,矩形编译方案、非矩形编译方案)进行检查,并且参考图6至11对用于对由于过渡到异类编译方案(例如,矩形编译方案或非矩形编译方案)所产生的缺陷(例如,混叠等等)进行补偿的各种方法进行描述。优先描述图4至11,并且再描述图2和图3所示的部件。
图4示出了音频信号的配置单元,以及对于每个配置单元而言的编译方案。
参考图4,可以观察到音频信号被配置成具有包括第i帧(帧i)和第(i+1)帧(帧i+1)的一系列帧。尤其是,可认识到单个帧包括多个子帧(例如4个子帧)。此外,图4示出了不同编译方案适用于每个帧或子帧。尤其是,图4示出了存在3种编译方案[即,A编译方案(ACELP)、B编译方案(TCX)、以及C编译方案(FD)]的示例。例如,帧可被配置成具有多个子帧(例如,4个子帧)。并且,如图4(A)所示的第i帧所示,A编译方案(例如ACELP)可应用到每个子帧。如图4(B)第i帧以及图4(D)所示的第i帧和第(i+1)帧所示,B编译方案(例如TCX)可应用到1子帧、2个连续子帧、以及4个连续子帧(即,一帧)。如图4(A)和图4(B)所示,C编译方案(例如FD)不通过子帧单元来应用,而是通过帧单元来应用,但是本发明并不受到此限制。
图5是过渡到异类编译方案(即,矩形编译方案和非矩形编译方案)的示意图。
参考图5(A-1),在第N块中过渡到矩形编译方案并且在第(N+1)块中过渡到非矩形编译方案。相反地,参考图5(A-2),在第N块中过渡到非矩形编译方案并且在第(N+1)块中过渡到矩形编译方案。在这种情况下,块与在先前描述中所说明的帧或子帧相对应。也就是说,第N或第(N+1)帧或子帧可包括帧或子帧。尤其是,总共4种组合(例如,帧-帧、帧-子帧、子帧-帧、以及子帧-帧)是可能的。
从图4(A)至图4(D)所示的先前情况可发现如图5(A-1)所示的从矩形编译方案过渡到非矩形编译方案的示例。
如在参考图1的先前描述中所提到的,A编译方案(ACELP)与矩形编译方案相对应,而B编译方案(TCX)和C编译方案(FD)中的每一个与非矩形编译方案相对应。从A编译方案(ACELP)过渡到B编译方案(TCX)或C编译方案(FD)的情况(即图5(A-1))与图5(B-1)至图5(B-4)所示的虚线所表示的部分中的一个相对应。
相反地,从非矩形编译方案过渡到矩形编译方案的情况[即,图5(A-2)]没有在图5(B-1)至图5(B-4)中表示,即,从B编译方案(TCX)或C编译方案(FD)过渡到A编译方案(ACELP)的情况没有在图5(B-1)至图5(B-4)中表示,但是可从两个或三个位置(例如,图5(B-2)中的第1块和第2块等等)中发现。
因此,由于矩形窗口和非矩形窗口彼此接触的位置的不对称,可产生诸如混叠等等这样的缺陷。在下面的描述中,参考图6至9对用于对该缺陷进行补偿的方法进行描述。
图6是当矩形窗口和非矩形窗口彼此重叠时的特征的示意图。图7是校正部分(CP)、混叠部分(AP)、以及未补偿信号的示意图。特别地,图6与矩形窗口后面是非矩形窗口的情况相对应。然而,随后在该公开中还对按照非矩形窗口与随后矩形窗口相重叠的方式,使得非矩形窗口之后跟随矩形窗口的情况进行说明。
参考图6,可以观察到矩形窗口和非矩形窗口彼此部分重叠。与包括块A至F的音频信号相关,将矩形窗口应用于块B和块C上,并且将非矩形窗口应用于块C至F上。尤其是,矩形窗口和非矩形窗口在块C处彼此重叠。图6(a)至图6(d)示出了由于依次将窗口化(windowing)、折叠(folding)、展开(unfolding)、以及窗口化应用于块A至F上所造成的结果。在这种情况下,为了应用与非矩形窗口相关的时域混叠消除(TDAC),依次将窗口化、折叠、展开、以及窗口化应用到相应的块上。
参考图6(a),将矩形窗口应用到块B和块C的每一个上(即,虚线块)并且将非矩形窗口应用于到块C至F的每一个上。C(L1)表示由于将非矩形窗口的部分L1应用于块C上所造成的结果。并且,D(L2)表示由于将非矩形窗口的部分L2应用到块D上所造成的结果。随后,如果对非矩形窗口应用结果执行折叠,那么将导致图6(b)所示的块。在这种情况下,Er,Dr等等是指对相应块执行折叠,并且此后参考块界限使折叠的块进行反转。之后,执行展开以导致图6(c)所示的示意图。最终,如果将非矩形窗口应用到展开块上,那么产生如图6(d)所示的相同结果。
尤其是,可如下表示与原始信号的块D相对应的未补偿信号,即,作为仅传送数据所获取的信号。
[公式1]
未补偿信号=(-Cr(L1)r+D(L2)) (L2)
在公式1中,“C”表示与块C相应的数据,“D”表示与块D相对应的数据,“r”表示反转,“L1”表示由于应用非矩形窗口的部分L1所造成的结果,并且“L2”表示由于应用非矩形窗口的部分L2所造成的结果。
在下面的描述中,参考图7至9对用于对未补偿信号进行补偿以变为与原始信号相同或相似的方法进行描述。首选,参考图7,示出了与公式1相对应的未补偿信号。
同时,非矩形窗口具有对称性。如下对如图8所示的非矩形窗口的特征进行说明。图8是具有对称性(即,TDAC的条件)的非矩形窗口的特征的示意图。
[公式2]
Li 2+Ri 2=1,其中i=1或2
L1r=R2
L2r=R1
在公式2中,“L1”表示左边第一部分,“L2”表示左边第二部分,“R1”表示右边第一部分,并且“R2”表示右边第二部分。
因此,如果应用非矩形窗口的上述特征,那么可将公式1归纳成以下。
[公式3]
未补偿信号=(-Cr(L1)r+D(L2))(L2)=D(L2)2-Cr(R2L2)(因为L1r=R2)
因此,为了使未补偿信号变成等于原始信号D,即,为了执行理想补偿,因此需要的信号如图7所示,并且可以表示如下。
[公式4-1]
理想补偿的所需信号
=原始信号-未补偿信号
=D-(D(L2)2-Cr(R2L2))
同时,利用在公式2中所示的特征,可将公式4-1归纳成以下。
[公式4-2]
理想补偿的所需信号
=D(R2)2+C(R2L2)(因为1-L2 2=R2 2)
在公式4-2中,第一个项(D(R2)2)与校正部分相对应,并且第二个项(Cr(R2L2))被称为混叠部分。
如果同类窗口(例如,非矩形窗口和非矩形窗口)彼此重叠,那么校正部分CP和混叠部分AP与按照通过执行时域混叠消除(TDAC)而增加的方式而将被删除的部分相对应。换句话说,因为异类窗口(即,矩形窗口和非矩形窗口)彼此重叠,则校正部分CP和混叠部分AP是残余误差而没有被消除。
具体地说,校正部分CP与非矩形窗口(具体地说R2)所应用到的当前块(例如块D)(即,窗口交叉点后面的块)的一部分相对应。并且,混叠部分AP与非矩形窗口(具体地说R2和L2)所应用到的先前块(例如块C)(即,窗口交叉点后面的块)(例如,矩形窗口和非矩形窗口彼此重叠处的块)的一部分相对应。
同时,因为解码器可利用先前块的数据重建先前块(例如,块C),因此可利用所重建的先前块产生对混叠部分的预测。这被表示为公式5。
[公式5]
混叠部分的预测=qCr(R2L2)
同时,可将作为混叠部分的预测与原始混叠部分之间的差异(或量化误差)的混叠部分的误差表示为公式6。
[公式6]
混叠部分的误差=er(R2L2)=Cr(R2L2)-qCr(R2L2)
利用公式5和公式6,将公式4-2归纳为公式7。
[公式7]
理想补偿的所需信号
=D(R2)2+Cr(R2L2)=D(R2)2+(qCr+er)(R2L2)
在公式(7)中,D(R2)2表示校正部分CP,qCr(R2L2)表示混叠部分AP的预测,并且er(R2L2)表示混叠部分的误差。
因此,如公式7所示,用于理想补偿所需的信号是校正部分CP与混叠部分AP之和。
在下面的描述中,参考图9对用于对校正部分CP和混叠部分AP进行补偿的三种方法进行说明。
图9是用于对校正部分和/或混叠部分进行补偿的补偿信号的实施例的示意图。
参考图9,图9(A)所示的第一实施例的补偿信号包括校正部分CP和混叠部分的误差,而图9(B)所示的第二实施例的补偿信号仅包括校正部分CP。根据图9(B)所示的第三实施例,不将补偿信号发送到解码器,而是通过解码器对校正部分CP和混叠部分AP进行估计。
[公式8-1]
方法A:补偿信号=D(R2)2+er(R2L2),其中“D”为重建信号。
在根据第一实施例的补偿信号的情况下,如在参考公式5的先前描述中所提到的,解码器根据先前块(即,与矩形窗口与非矩形窗口之间的重叠部分相对应的块)的数据可获得对混叠部分AP的预测,而无需从编码器到解码器的传送。即使补偿信号包括校正部分CP和混叠部分的误差,解码器也可产生对混叠部分的预测。因此,可获得用于理想补偿的信号(参照公式7)。根据第一实施例,通过传送误差而不是混叠部分AP本身可节省比特的数目。此外,通过对混叠部分AP的误差进行补偿可获得理想的补偿信号。
根据第二实施例,补偿信号包括仅与相应校正部分CP相对应的信号。
[公式8-2]
方法B:补偿信号=D(R2)2,其中,重建信号是D-er(R2L2)。
如在先前描述中所提到的(或与第一实施例相似),解码器产生对混叠部分AP的预测,并且此后利用与校正部分CP相对应的补偿信号与预测一起获得补偿的信号。根据第二实施例,因为混叠部分AP的误差保持在补偿信号中,因此重建率(reconstruction rate)或音质可能被恶化。然而,与第一实施例相比,补偿信号的压缩率可以更高地提高。
根据第三实施例,补偿信号没有被传送,而是解码器估计矫正部分CP和混叠部分AP。
[公式8-3]
方法C:补偿信号=未传送的、解码器中产生的补偿信号=qCr(L2R2)+D(R2)2,其中,重建信号是D-er(L2)/(R2)。
如在先前描述中所提到的(或与第一实施例和第二实施例相似),解码器可产生对混叠部分AP的预测。同时,可按照对与当前块(例如块D)相对应的信号的窗口形状进行补偿的方式而产生校正部分CP。尤其是,与公式1相似,将利用先前块(qC)的数据所产生的qCr(L2R2)添加到未补偿信号上。此后,通过使D(L2)2-er(L2R2)除以(L2)2(这与将D(R2)2加到D(L2)2-er(L2R2)上相对应),产生D(L2)2-er(L2R2),获得D-er(R2)/(L2)。在公式8-3中,没有表示当前块(块D)的量化误差。
第三实施例的重建率低于第一或第二实施例的重建率。然而,因为第三实施例根本不需要用于传送补偿信号的比特,因此第三实施例的压缩率相当高。
图10是图6所示的异类窗口(即,矩形窗口和非矩形窗口)的组合中的非矩形窗口的示例的示意图。在非矩形窗口的示例中,如图10(A)至图10(C)所示,每个角不是直角而是具有斜坡(slope)的上升线。可将与图10(A)至图10(C)相对应的非矩形窗口的形状表示为表格1。
[表格1]
  总长度   左边零部分   上升线   顶线(top line)   下降线   右边零部分
  (A)   N/4或256   0   N/4或256   0   N/4或256   0
  (B)   N/2或512   N/8或128   N/4或256   N/4或256   N/4或256   N/8或128
  (C)   N或1024   N3/8或384   N/4或256   3N/4或768   N/4或256   N/8或128
在表格1中,“N”表示帧长度,并且数字表示抽样数(例如“256”表示256个抽样)。
参考表格1和图10,三种类型的窗口中的每一个具有宽度分别被设置为N/4和N/4的上升和下降线。在这种情况下,“N”表示帧长度。
图10(A)至图10(C)所示的非矩形窗口可分别与B编译方案(例如TCX)的模式1、模式2、以及模式3中的窗口相对应,但是本发明并不受到此限制。如在参考图4的先前描述中所提到的,模式1与当将B编译方案应用到一个子帧上时的窗口相对应。模式2与当将B编译方案应用到两个连续子帧上时的窗口相对应。并且,模式3与当将B编译方案应用到四个连续子帧(即,一帧)上时的窗口相对应。
在上面的描述中,对与B编译方案相对应的非矩形窗口的示例进行说明。随后对与C编译方案(例如,MDCT)相对应的非矩形窗口的示例以及根据第二实施例的音频信号处理装置一起进行描述。
图11是矩形窗口之后的矩形窗口重叠的情况的示意图。尤其是,图11示出了在非矩形窗口之后矩形窗口重叠的情况,而图6示出了矩形窗口后面是非矩形窗口的情况。
参考图11(A),与图6所示的情况相似,可观察到从与非矩形窗口相对应的块产生了校正部分CP和混叠部分AP。因为与图6不同,非矩形与矩形窗口在其处重叠的块不是先前块而是随后块,因此可利用随后块的数据产生对混叠部分AP的预测。此外,通过对参考图9所描述的补偿信号的示例中的一个进行传送,可解决由于非矩形与矩形窗口之间的重叠所产生的缺陷(即,校正部分CP和混叠部分AP)。
参考图11(B),将矩形窗口的嵌入部分EP嵌入为根据与非矩形窗口相对应的编译方案来编译的数据中的混叠部分AP。假定将与矩形窗口相对应的整个信号设置为D,并且将嵌入部分EP设置为Crw,则可将嵌入部分EP表示为公式9。
[公式9]
Crw=Cr(L1)r+D(R2)
为了说明,信号是在解码器应用窗口之前的信号。
可由解码器来计算嵌入部分EP(Crw)。代替根据矩形编译方案来对整个信号D进行编译,可通过仅对“D-Crw”(即,如图所示的传输部分TP)进行编码来执行传输。并且,可将传输部分TP表示为公式10。
[公式10]
TP=D-Crw=-Cr(L1)r-D(1-R2)
解码器可按照使对应于非矩形编译方案的展开数据(unfoldeddata)和对应于矩形编译方案的数据相重叠的方式来重建原始信号。
在至此的上述描述中,参考图4至11对用于在异类编译方案和异类窗口(即,矩形窗口和非矩形窗口)的重叠的情况下,对缺陷进行补偿的内容进行了详细说明。在下面的描述中,再次参考图2和图3对根据第一实施例的音频信号处理装置和方法进行说明。
现在参考图2,在以下描述中说明了第N块和第(N+1)块分别与矩形编译方案和非矩形编译方案相对应的情况。当然,如在参考图10(A)的先前描述中所提到的,第N块和第(N+1)块分别与非矩形编译方案和矩形编译方案相对应的反转情况是适用的。
矩形方案编译部分122根据矩形编译方案对输入信号的第N块进行编码,并且此后将所编码的数据(为清楚起见,该数据被称为第一数据)递送到矩形方案合成部分124和复用器130。在这种情况下,如在先前描述中所提到的,矩形编译方案是用于应用矩形窗口的编译方案。ACELP属于矩形编译方案,但是本发明并不受到此限制。矩形方案编译部分122可输出通过图6中的A编译方案将矩形窗口应用到块B和块C上而编码的结果。
矩形方案合成部分124利用编码数据(即,第一数据)产生对混叠部分AP的预测。尤其是,矩形方案合成部分124通过利用矩形编译方案执行解码而产生输出信号。例如,通过A编译方案,将块C(以及块B)重建成其原始形式。利用输出信号和非矩形窗口,获得了对混叠部分AP的预测。在这种情况下,可将对混叠部分AP的预测表示为公式5。在公式5中,“qC”表示输出信号,并且“R2L2”表示非矩形窗口。并且,将对混叠部分AP的预测输入到补偿信息产生部分128。
非矩形方案编译部分126通过非矩形编译方案对第(N+1)块进行编码而产生编码数据(为清楚起见称为第二数据)。例如,第二数据与由于将非矩形窗口应用到块C至F,并且此后使块折叠所造成的结果相对应。如在先前描述中所提到的,非矩形编译方案可以与B编译方案(例如TCX)或C编译方案(例如MDCT)相对应,但是本发明并不受到此限制。并且,将第二数据递送到复用器130。
补偿信息产生部分124利用对混叠部分的预测以及原始输入信号产生补偿信号。在这种情况下,可根据图9所示的三种方法中的一个产生补偿信号。在利用方法A的情况下,使用对混叠部分的预测以及原始输入信号两者。在方法B的情况下,仅使用原始输入信号。在方法C的情况下,不产生补偿信号。可按照相同的方式将这三种方法中的每一个应用于整个帧或子帧。或者,考虑到每个帧的比特效率,可以将不同方法应用于每个帧。在参考图6至9的先前描述中对补偿信号的定义和产生过程进行说明,并且在以下描述中将不对其进行冗余地说明。同时,将补偿信息产生部分124所产生的补偿信号递送到复用器130。
复用器130通过将第一数据(例如,第N块的数据)、第二数据(例如,第(N+1)块的数据)、以及补偿信号一起进行复用而产生至少一个比特流,并且此后将所产生的至少一个比特流传送到编码器。当然,与图1所示的先前复用器130相似,在后复用器130可使编译方案信息等等包含在相应比特流之中。
参考图3,与图1所示的先前解码器200相似,根据本发明的第一实施例的解码器200A包括矩形解码单元220R和非矩形解码单元220N,并且可进一步包括解复用器210。在这种情况下,非矩形解码单元220N包括补偿部分228。尤其是,矩形解码单元220R可进一步包括矩形方案解码部分222以及混叠预测部分224。并且,非矩形解码单元220N可进一步包括非矩形方案解码部分226。
解复用器210从至少一个比特流中提取第一数据(例如,第N块的数据)、第二数据(例如,第(N+1)块的数据)、以及补偿信号。在这种情况下,补偿信号可与参考图9所述的三种类型中的一个相对应。
矩形方案解码部分222通过矩形编译方案对第一数据进行解码,而产生输出信号。这与获得图6所示的块C(以及块B)几乎一样。
与图2所示的矩形方案合成部分124相似,混叠预测部分224利用输出信号和非矩形窗口来产生对混叠部分的预测。在这种情况下,混叠部分的预测与公式5相对应。
非矩形方案解码部分226通过非矩形编译方案对第二数据进行解码而产生信号。因为所产生的信号是在对混叠等等的补偿之前的信号,因此它与在先前描述中所提到的未补偿信号相对应。因此,该信号可等于表示为公式1的先前信号。
补偿部分228产生利用从解复用器210递送的补偿信号、通过混叠预测部分224所获得的混叠部分的预测、以及非矩形方案解码部分226产生的未补偿信号所重建的信号。在这种情况下,重建信号与参考图9以及公式8-1至8-3所描述的相同。
在下面的描述中,参考图12和图13对根据第二实施例的音频信号处理装置进行说明。
首先,对于第一实施例,第N块与矩形编译方案(例如A编译方案)相对应,并且第(N+1)块与非矩形编译方案(例如B编译方案或C编译方案)相对应,并且反之亦然。相反地,对于第二实施例,当第(N+1)块与C编译方案相对应时,C编译方案的窗口类型根据第N块是否与矩形编译方案(例如A编译方案)而相对应地变化。在这种情况下,理所当然的是第N块和第(N+1)块可按顺序相互切换。
图12是根据本发明的第二实施例的编码器的方框图。
参考图12,与第一实施例相似,根据第二实施例的编码器100B包括矩形编译单元120R和非矩形编译单元120N。然而,非矩形编译单元120N进一步包括窗口类型确定部分127。其余部件(即,矩形方案编译部分122和矩形方案合成部分124、非矩形方案编译部分126、以及补偿信息产生部分128)具有与根据第一实施例的相同名称的先前部件相同的功能。并且在下面的描述中将不对相同部分进行描述。
在通过非矩形编译方案对第二块(即当前块)进行编码的情况下,窗口类型确定部分127根据是否通过矩形编译方案对第一块(例如先前块、随后块等等)进行编码来确定第二块的窗口类型。尤其是,如果通过属于非矩形编译方案的C编译方案来对第二块进行编码并且应用于第二块的窗口属于过渡窗口类别,那么窗口类型确定部分127根据是否通过矩形编译方案对第一块进行编码而确定出第二块的窗口类型(以及形状)。表格1示出了窗口类型的示例。
表格1:非矩形编译方案(尤其是C编译方案)中的窗口类型的示例
在表格1中,“N”表示1024或960个抽样等等的帧长度。
参考表格1,总共5个窗口当中的第2、第4、第5窗口(即,长_起始窗口、长_停止窗口、以及停止_起始窗口)属于过渡窗口类别。如表格所示,属于过渡窗口类别的窗口的形状根据先前或随后块与矩形窗口相对应而不同。在与矩形编译方案相对应的情况下,上升或下降线的宽度是N/4。然而,可观察到过渡窗口类别在与非矩形编译方案(例如C编译方案)相对应的情况下具有变为N/8的上升或下降线的宽度。
图13是根据本发明的第二实施例的解码器的方框图。
图14是根据是否将矩形编译方案应用于先前块的过渡窗口的形状的示意图。虽然图14(A)或图14(B)所示的右边非矩形与表格1中所示的长_停止窗口相对应,但是它可由长_停止窗口或停止_起始窗口替代。
参考图14(A),在先前块与矩形窗口相对应的情况下,当前块的过渡窗口的上升线具有第一斜坡。参考图14(B),在先前块与矩形窗口不对应的情况下(尤其是,先前块与C编译方案的窗口相对应的情况),当前块的过渡窗口的上升线具有第二斜坡。在这种情况下,第一斜坡比第二斜坡平缓。并且,第一斜坡的宽度可与比第二斜坡的两倍相对应。尤其是,第一斜坡的宽度是N/4,而第二斜坡的宽度是N/8。
换句话说,窗口类型确定部分127优先确定与当前块相对应的窗口类型,产生用于指定多个窗口当中的应用于当前块(例如,帧或子帧)上的特定窗口的窗口类型信息(即,用于表示窗口类型),并且此后将所产生的窗口类型信息递送到复用器130。在将与当前块相对应的窗口类型分类到过渡窗口的情况下,窗口类型确定部分127确定窗口的形状,并且更具体地,根据先前或随后块是否与矩形编译方案相对应来确定上升或下降线的宽度(以及相应顶线和左边或右边零部分的长度),并且此后将所确定的窗口形状应用于当前块。
同时,与第一实施例的先前补偿信息产生部分128相似,当异类窗口(例如,非矩形窗口和矩形窗口)相互重叠时(例如,与图14中的(A)相对应的情况)补偿信息产生部分128产生补偿信号。
如在先前描述中所提到的,因为可利用补偿信号对由于相互重叠的异类窗口所产生的缺陷进行校正,因此可以重叠异类窗口的50%,而不是100%。因为异类窗口不必相互重叠100%,因此不必使分类为过渡窗口的每个窗口的上升或下降线的宽度变窄。因此,窗口可具有比100%重叠的情况相对平缓的斜坡。
参考图13,在根据第二实施例的解码器200B中,除了第一实施例之外,非矩形解码单元220N进一步包括窗口形状确定部分127。在下面的描述中,将不对具有与第一实施例的先前部件相同名称的部件进行详细说明。
在当前块或第二块与非矩形编译方案(尤其是C编译方案)相对应的情况下,窗口形状确定部分127根据从解复用器210递送的窗口类型信息来确定多个窗口当中的应用于当前块的特定窗口(即,窗口类型)。在当前块的窗口属于过渡窗口类别的情况下,窗口形状确定部分127根据是否通过矩形编译方案对先前/随后块(即,第一块)进行编译来确定所确定的窗口类型的窗口形状。尤其是,如在先前描述中所提到的,如果通过矩形编译方案对先前/随后块进行编码,并且当前块的窗口属于过渡窗口类别,那么确定出窗口形状具有包含比第二斜坡平缓的第一斜坡的上升或下降线。例如,在长_起始窗口的情况下,确定出窗口形状为表格1中的平缓的长_起始窗口(具有包含第一斜坡(例如N/4)的下降线)。在长_停止窗口的情况下,确定出窗口形状为平缓的长_停止窗口(例如,具有(N/4)的第一斜坡的上升线)。并且,在停止_起始窗的情况下,按照相同的方式确定窗口形状。在这种情况下,如在先前描述中所提到的,第一斜坡(例如N/4)比第二斜坡平缓。尤其是,第二斜坡是陡峭的过渡窗口(例如,陡峭的长_停止窗口等等)的上升或下降线的斜坡。
将按照上述方式所确定的窗口类型和形状递送到非矩形方案解码部分226。随后,非矩形方案解码部分226通过根据所确定的窗口类型和形状通过非矩形方案对当前块进行解码而产生未补偿信号。
与第一实施例相似,在出现了异类窗口(例如,矩形窗口和非矩形窗口)重叠的情况下,补偿部分220利用未补偿信号和补偿信号(以及对混叠部分的预测)产生重建信号。
在下面的描述中,参考图15和图16对根据第三实施例的音频信号处理装置进行说明。第三实施例包括图1所示的先前音频信号处理装置中的第一编译单元120-1、第二编译单元120-2、第一解码单元220-1、以及第二解码单元220-2。尤其是,当通过第二编译方案(即C编译方案)对当前块(例如,第N块)进行编码时,根据是否通过第一编译方案(即,A编译方案或B编译方案)对随后块(例如,第(N+1)块)进行编码,第三实施例确定与当前块相对应的当前窗口的形状。
图15是根据本发明的第三实施例的编码器的方框图。
参考图15,在根据第三实施例的编码器100C中,第一编译单元120-1包括第一方案编译部分122-1,并且第二编译单元120-2包括第二方案编译部分126-2和窗口类型确定部分127-2。并且,编码器100可进一步包括复用器130。在这种情况下,通过以块为单元(例如帧、子帧等等)将输入信号输入到第一编译单元120-1或第二编译单元120-2。
第一方案编译部分122-1通过第一编译方案对输入信号进行编码,并且第二方案编译部分126-2通过第二编译方案对输入信号进行编码。在这种情况下,第一和第二编译方案与参考图1的描述几乎一样。尤其是,第一编译方案是基于线性预测域的编译方案,并且第二编译方案可与基于频域的方案相对应。同时,如在参考图1的先前描述中所提到的,第一编译方案可包括与矩形窗口方案相对应的A编译方案(例如ACELP),以及与非矩形窗口方案相对应的B编译方案(例如TCX),并且第二编译方案可包括与非矩形窗口方案相对应的C编译方案(例如,MDCT)。
在输入信号与第二编译方案相对应的情况下,窗口类型确定部分127-2参考先前或随后块的特征(以及,窗口类型)确定当前块的窗口类型和形状,产生表示与当前块(帧或子帧)相对应的窗口类型的窗口类型信息,并且此后将所产生的窗口类型信息递送到复用器130。
在下面的描述中,参考表格1对窗口类型进行详细说明,参考图17和图19对根据先前/随后块的编译方案的当前块的窗口类型以及形状进行说明,并且此后再次对图15和图16所示的部件进行说明。
首先,与第二编译方案相对应的窗口类型的一个示例与表格1相同。参考表格1,存在总共五个类型的窗口(例如,仅长、长_起始、短、长_停止、以及停止_起始)。在这种情况下,仅长窗口是应用于适合由于信号的不变的特征而导致的长窗口的信号的窗口,并且由于短窗口是应用于适合信号的过渡特征而导致的短窗口的信号的窗口。分类为过渡窗口的长_起始窗口、长_停止窗口、以及停止_起始窗口对于从仅长窗口过渡到短窗口(或者,具有第一编译方案的窗口)的处理或者用于从短窗口过渡到仅长窗口(或者,具有第一编译方案的窗口)的处理是必需的。停止_起始窗口是在如果先前/随后帧与短窗口(或者,具有第一编译方案的窗口)相对应的情况下所使用的窗口,尽管长窗口适用于当前块或帧。
下面对表格1中所示的五个类型的窗口的形状进行详细研究。首先,仅长窗口、短窗口、以及停止_起始窗口中的每一个具有水平对称性,而其余窗口具有水平不对称性。长_起始窗口仅在右半边包括零部分,而长_停止窗口仅在左半边包括零部分。
在下面的描述中,对用于根据先前帧或随后帧来确定当前帧的窗口形状的处理进行详细说明。首先,如果先前帧是仅长窗口,并且当前帧是长_起始窗口,那么可根据随后帧是与短窗口还是与具有第一编译方案的窗口相对应来确定当前的长_起始窗口的形状。尤其是,长起始窗口的下降线的斜坡可变化。将具有平缓斜坡的下降线的长_起始窗口称为平缓的长_起始窗口(参照,表格1中的每个形状的名称),并且将具有陡峭斜坡的下降线的长_起始窗口称为陡峭的长_起始窗口。如下参考图17对此进行详细的描述。
图17是与第一编译方案窗口或短窗口相结合的长_起始窗口的示意图。图17(A-1)/(A-2)示出了长_起始窗口与第一编译方案的窗口之间的组合。图17(B)示出了长_起始窗口与短窗口之间的组合。
尤其是,图17(A-1)所示的第一编译方案的窗口是与“A方案”(即,矩形窗口方案)相对应的窗口。并且,图17(A-2)示出了与第一编译方案窗口中的“B编译方案”(非矩形窗口方案)相对应的窗口。参考图17(A-1)和图17(A-2),在随后帧与第一编译方案相对应的情况下,当前长_起始窗口包括具有第一斜坡的下降线。参考图17(B),在随后帧与第二编译方案(即短窗口)相对应的情况下,当前长_起始窗口包括具有第二斜坡的下降线。第一斜坡的宽度可以是第二斜坡的两倍,并且可与N/4相对应,其中“N”是帧的长度。此外,第一斜坡的宽度总计为256个抽样,并且可与长_起始的总长度的1/8相对应。
与图17(A-1)中所示的情况相似,在矩形窗口与矩形窗口之后的长_起始窗口相重叠的情况下,如在第一和第二实施例的先前描述中所提到的,可利用所接收到的补偿信号对校正部分(CP)和混叠部分(AP)进行补偿。如果不执行该补偿,那么长_起始窗口与矩形窗口100%的重叠。因此,为了不浪费比特,应将与矩形窗口重叠的下降线的斜坡设置为陡峭的。然而,因为上述补偿是能够实现的,因此通过与矩形窗口的50%的重叠可避免音质失真。因此,下降线的斜坡可保持在图17(A-1)所示的第一斜坡。因此,当下降线平缓地保持第一斜坡时,两个窗口之间的交叉点变为在3N/2处的点。如果实现了100%重叠,那么两个窗口之间的交叉点将变为3N/2-N/16。尤其是,相应交叉点比图17(A-1)所示的情况提前N/16。
换句话说,在随后窗口是与第一编译方案相对应的窗口的情况下,50%的重叠是可以接受的。因此,具有第一斜坡的长_起始窗口的下降线保持平缓。其结果是,如果随后窗口在第一或第二编译方案之后或者与第一或第二编译方案无关,那么交叉点的位置变为相同位置(例如,距窗口起始点3N/2的点)。因此,当交叉点变为彼此一样时,窗口间过渡变为不同。这随后在该公开中与第四实施例一起描述。
参考图17(B),当第二斜坡与随后帧(即,第二编译方案)相对应的窗口的上升线的斜坡匹配时,满足RDAC的条件。在这种情况下,“匹配”的含义表示斜坡的绝对值是相同的。尤其是,下降线的斜坡的宽度是N/4,并且随后帧的上升线的斜坡也是N/4。
现在参考表格1,短窗口具有单个形状,而与先前或随后块的编译方案无关。如下参考图18对此进行说明。图18是与第一编译方案窗口(A)或第二编译方案窗口(B)重叠的短窗口的示意图。参考图18(A-1),第一编译方案并且进一步尤其是矩形编译方案(例如,A编译方案)出现在短窗口后面。参考图18(A-2),第一编译方案并且进一步尤其是非矩形编译方案(例如,B编译方案)出现在短窗口后面。与如图18(A-1)或图18(A-2)所示的短窗口与短窗口之后的第一编译方案的窗口相重叠的情况,或者如图18(B)所示的短窗口与短窗口之后的第二编译方案的窗口(尤其是,长_停止窗口)相重叠的情况无关,短窗口的下降线的斜坡(参照,图中的“斜坡A”)是相同的。因此,如下对相同形状的短窗口是可能的理由进行说明。首先,如在第一和第二实施例的先前描述中所提到的,即使矩形编译窗口出现在短窗口后面,也可利用补偿信号[图18(A-1)]对校正部分(CP)和混叠部分(AP)进行补偿。如果仅实现50%的重叠,这是可能的。并且,包含在短窗口之内的8个短部分(即,三角形形状)中的最后一个的下降线不必也具有陡峭的斜坡。因此,如图18(A-1)所示[与图17(A-1)所示的情况相似],可保持较平缓的斜坡(即,“斜坡A”)(例如,N/8的宽度,其中N是帧长)在与上升线相同的水平上。因此,可使用相同形状的短窗口,而与随后块是否与第一或第二编译方案相对应无关。
同时,如果当前帧是长_停止窗口并且随后帧是仅长窗口,那么可根据先前帧与第一编译方案的窗口相对应来确定当前长_停止窗口的形状。参考第四实施例对此进行详细说明。
现在参考图15,如在参考表格1的先前描述中所提到的,窗口类型确定部分127-2确定多个窗口当中的应用于当前块的特定窗口,产生表示所确定的特定窗口的窗口类型信息,并且此后将所产生的窗口类型信息递送到复用器。
之后,复用器130通过对通过第一编译方案所编码的数据(例如,第(N+1)块的数据)、通过第二编译方案所编码的数据(例如,第N块的数据)、以及窗口类型信息一起进行复用,而产生至少一个流。
参考图16,根据第三实施例的解码器200C包括第一解码单元220-1和第二解码单元220-2,并且可进一步包括解复用器210。第一解码单元220-1包括第一方案解码部分222-1,并且第二解码单元220-2包括第二方案解码部分226-2和窗口形状确定部分227-2。
解复用器210接收参考图1所描述的编译方案信息(例如,编译标识信息和子编译标识信息),并且此后对于每个块而言根据所接收到的编译方案信息将数据递送到第一解码单元220-1或第二解码单元220-2。此外,解复用器210提取窗口类型信息,并且此后将其递送到第二解码单元220-2。在这种情况下,窗口类型信息可包括表示与表格1相对应的五种窗口类型中的一个的信息。然而,如在先前描述中所提到的,由于先前或随后块的编译方案或窗口类型而导致当前块的窗口类型受到限制,而不是五种窗口类型全部都可用。因此,窗口类型信息可以包括下述信息,所述信息表示除了不可用的窗口类型之外的两种或三种类型中的一个,而不是表示总共五种类型中的一个。另外随后与第四实施例一起对该过渡限制进行说明。
第一方案解码部分222-1是被配置成执行与第一方案编译部分122-1的处理相反的处理的部件。第一方案解码部分222-1通过第一编译方案(例如,ACELP、TCX等等)对数据进行解码而产生输出信号(例如,第(N+1)块的输出信号)。并且,第二方案解码部分226-2通过第二编译方案(例如,MDCT等等)对数据进行解码,而产生输出信号(例如,第N块的输出信号)。
窗口形状确定部分227-1根据窗口类型信息标识出当前块的窗口类型,并且此后根据先前或随后块的编译方案来在窗口类型当中确定窗口类型。如在参考图17的先前描述中所提到的,如果当前窗口是长起始窗口并且先前窗口是仅长窗口,那么通过根据随后窗口是与第一编译方案还是第二编译方案相对应,而选择陡峭的长_起始窗口或平缓的长_起始窗口来确定窗口形状。在参考图18所述的示例中,如果当前块是短窗口,那么确定相同形状的短窗口,而不管随后块的窗口类型。
随后,第二方案解码部分226-2将通过窗口形状确定部分227-2所确定的形状的窗口应用于当前块。
在下面的描述中,参考图19至23对本发明的第四实施例进行说明。本发明的第四实施例根据先前块的编译方案来确定当前块的窗口形状,而第三实施例根据随后块的编译方案来确定当前块的窗口形状。由此,本发明的第四实施例与本发明的第三实施例几乎相同,只不过在确定窗口形状方面与第三实施例不同。并且,从以下描述中省去了对相同部分的冗余描述。
图19是根据本发明的第四实施例的编码器的方框图,图20是根据本发明的第四实施例的解码器的方框图。
参考图19和图20,根据本发明的第四实施例的编码器100D和解码器200D的部件与根据图15和图16所示的本发明的第三实施例的先前编码器和解码器100C和200C的相应部件几乎相同,但是本发明的第四实施例与本发明的第三实施例的不同之处在于分别通过第一编译方案和第二编译方案对第N块和第(N+1)块进行编码。因此,参考图15和图16所说明的相同部分的先前描述将应代替对本发明的第四实施例的描述。
考虑到块间窗口过渡(inter-block window transition),窗口类型确定部分127-2确定当前块的窗口。尤其是,窗口类型确定部分127-2根据是否通过第一编译方案对先前块(例如第N块)进行编译,来确定当前块[例如(N+1)块]的窗口类型和形状。尤其是,在通过第一编译方案对先前块进行编译的情况下,将表格1中所示的5种类型当中的除了仅长窗口和长_起始窗口之外的三种类型中的一个(例如,短窗口、长_停止窗口、以及停止_起始窗口)确定为窗口类型。由此,无需在第一编译方案中经过编译方案间过渡(inter-coding schemetransition)所需的过渡窗口,可直接移动到在第二编译方案中所使用的短窗口,或者用于在短窗口与长窗口之间进行过渡的过渡窗口(即,长_停止窗口或停止_起始窗口)。
图21示出了这种窗口间路径。图21是窗口间路径或过渡的表格。参考图21,行方向表示与先前块相对应的窗口,而列方向表示与当前块相对应的窗口。具有圆圈或星号标记的部分表示可用的窗口过渡路径。例如,在先前块与仅长窗口相对应的情况下,仅仅有仅长窗口或长_起始窗口可用于当前块。
参考星号标记,在先前块是与第一编译方案(例如ACELP或TCX)相对应的块的情况下,如在先前描述中所提到的,短窗口、长_停止窗口、以及停止_起始窗口中的一个可变为与第二编译方案相对应的窗口。尤其是,不必经过为从第一编译方案过渡到第二编译方案所单独提供的窗口(例如,与1152个抽样相对应的窗口)。如在对第三实施例的先前描述中所提到的,这是因为与编译方案无关地,交叉点占据同一位置。参考图22和图23进行以下描述。
图22是过渡到第一编译方案中的长_停止窗口的情况的示意图,其与图21所示的星号标记★(1)相对应。图23是过渡到第一编译方案中的短窗口的情况的示意图,其与图21所示的星号标记★(2)相对应。
首先,图22(A)示出了在与属于第一编译方案的矩形编译方案(例如,ACELP)相对应的窗口与长_停止窗口之间的交叉。图22(B)示出了在与属于第一编译方案的非矩形编译方案(例如TCX)相对应的窗口与长_停止窗口之间的交叉。在图22(A)和图22(B)中,可观察到从与第一编译方案相对应的块过渡到长_停止窗口是可能的。
如在对第一或第二实施例的先前描述中所提到的,因为图22(A)示出了矩形窗口,因此可对作为由于矩形窗口与非矩形窗口之间的重叠所引起误差的校正部分(CP)和混叠部分(AP)进行补偿。因此,如在参考图14(A)的先前描述中所提到的,50%的重叠是足够的,并且长_停止窗口的上升线可具有平缓斜坡(例如N/4宽度)。因此,因为窗口间交叉点位于N/2的距离,因此与需要100%的重叠不一样,与1024个抽样或2N的长度(其中,N表示帧)相对应的长_起始窗可直接相连。
图21未所示第三情况(即,过渡到停止_起始窗口)。与长_停止窗口或短窗口的情况一样,停止_起始窗口与1024个抽样相对应,或者具有2N长度。在这种情况下,可直接从与第一编译方案相对应的窗口过渡到停止_起始窗口。
在图22(A)的情况下,除了第二实施例之外还对长_停止窗口的上升线的斜坡进行描述。在当前帧和随后帧分别是长_停止窗口和仅长窗口的情况下,可根据先前帧是否与第一编译方案的窗口相对应,来确定当前长_停止窗口的形状。这与参考图14的先前描述几乎一样。尤其是,与图14(A)所示的情况相似,在先前帧与第一编译方案[例如图14(A)中的A编译方案(即,矩形编译方案)]相对应的情况下,当前长_停止窗口的上升线具有第一斜坡。与图14(B)的情况相似,在先前帧与第二编译方案[例如,图14(B)中的C编译方案(即,矩非形编译方案)]相对应的情况下,当前长_停止窗口的上升线具有第二斜坡。在这种情况下,第一斜坡比第二斜坡平缓。
现在参考第四实施例,如上面参考图21的描述中所提到的,在先前块和当前块分别与第一编译方案和第二编译方案相对应的情况下,确定短窗口、长_停止窗口、以及停止_起始窗口中的一个。
图19所示的窗口类型确定部分127-2通过参考先前和随后块的编译方案和窗口类型来确定当前块的窗口类型。这样做时,窗口类型确定部分127-2根据以上所说明的路径限制,来确定当前块的窗口类型。偶尔地,窗口类型确定部分127-2也确定当前块的窗口的形状。之后,窗口类型确定部分127-2将表示所确定的窗口类型的窗口类型信息递送到复用器130。
第二方案编译部分126-2利用所确定的窗口类型和形状来根据第二编译方案对当前块进行编码。并且,复用器130通过将先前块的数据、当前块的数据、以及当前块的窗口类型信息一起进行复用,而产生至少一个比特流。
参考图20,除了窗口形状确定部分227-2之外的部件具有与图16所示的先前部件相似的功能或作用,并且在下面的描述中将不会进行详细地描述。
窗口形状确定部分227-2根据窗口类型信息在多个窗口当中确定用于当前块的特定窗口。这样做时,可考虑到图21所示的过渡限制而确定多个窗口中的一个。如下进行详细说明。
参考图21,如果当前块与第二编译方案相对应,那么根据先前块的窗口类型,可用窗口类型的总数目不会超过3,[例如,按照从顶部开始的顺序2,3,3,2,3,和3个类型]。因此,可将窗口类型信息编码成具有2比特。表格2示出了窗口类型信息中的一个示例。
[表格2]:窗口类型信息
  窗口类型信息
  仅长窗口   0
  长_起始窗口   1
  短窗口   2
  长_停止窗口   3
  停止_起始窗口   1
如果将窗口类型信息设置为1,那么其表示长_起始窗口和停止_起始窗口,即,两个情况。同时,根据在图21中所公开的过渡限制,在先前块与第一编译方案相对应的情况下,仅仅有短窗口、长_停止窗口、以及停止_起始窗口可用于当前块。因此,在以上两个情况中,除了违反该限制的一个情况之外(即,长_起始窗口),将停止_起始窗口确定为当前块的窗口。
根据以上确定的窗口类型,窗口形状确定部分227-2根据先前或随后块的编译方案来确定诸如当前块的上升线的斜坡、当前块的下降线的斜坡等等这样的窗口形状。因此,至此已对第四实施例进行了描述。在下面的描述中,参考图24对用于解决在第一编译方案与第二编译方案之间的窗口过渡问题的另一方法进行说明。
图24是第一编译方案窗口与新形状的短窗口相重叠的情况的示意图。如在先前描述中所提到的,当第一编译方案的块与第二编译方案的块彼此相邻时,这两个块可能没有彼此重叠50%。相反,因为这两个块应该彼此重叠10%,交叉点位于点N/2的前面。为了解决该不匹配的问题,应在第一编译方案的块与第二编译方案的块之间提供具有1152长度的过渡块。尤其是,虽然必须越过到第一编译方案的块之后的属于第二编译方案的短窗口内,但是应经过具有1152长度的长窗口。因此,在这种情况下,将长窗口应用于应该利用短窗口来处理的当前块,并且将短窗口应用于随后块。因此,因为由于过渡问题而将被认为是应该利用短窗口来处理的当前块通过长窗口来处理,因此音质失真。
除了具有1152长度的长窗口之外,如图24所示,在使用具有1152长度的短窗口的情况下,音质失真的问题得到减小,所述短窗口包括含有短部分的总共9个短部分。然而,如在先前描述中所提到的,只有当由于50%的重叠所造成的交叉点变化以及相应的直接过渡(参照第三或第四实施例)是不可能的时,图24所示的具有1152的长度的短窗口才是可应用的。
在下面的描述中,参考图25和图26对本发明的第五实施例进行说明。根据本发明的第五实施例,在当前块(例如,第N块)与属于第一编译方案的非矩形编译方案(例如TCX)相对应的情况下,根据先前或随后块[例如第(N-1)或第(N+1)块]是否与第二编译方案的短窗口相对应,来确定当前块的窗口形状。图25是根据本发明的第五实施例的编码器的方框图。参考图25,因为除了模式确定部分123-2之外,根据本发明的第五实施例的编码器100E与第三/第四实施例的先前编码器100C/100D几乎相同,因此以下描述将省略冗余描述。
首先,当当前块与第一编译方案相对应时,模式确定部分123-1识别当前块是与矩形编译方案(例如,ACELP)或者是与非矩形编译方案(例如TCX)相对应。如果当前块与非矩形编译方案相对应,那么模式确定部分123确定模式1至3中的一个。当模式1至3中的每一个可与用于将非矩形方案应用于其上的长度相对应时,可确定单个子帧、两个连续子帧、以及四个连续子帧(即,单个帧)中的一个。此外,如图28所示,可将长度确定为256个抽样、512个抽样、以及1024个抽样中的一个。
因而,在非矩形编译方案的情况下,在确定了模式之后,根据先前或随后块的窗口是否是短窗口来确定当前块的窗口的形状。如下参考图27和图28对该处理进行详细说明。
图27(A)是与第一编译方案(例如,TCX)相对应的窗口与短窗口相重叠的情况的示意图。图27(A)是与第一编译方案(例如TCX)相对应的窗口与长_停止窗口相重叠的情况的示意图。尤其是,图27(A)示出了在第一编译方案的窗口当中的与模式1(参照图28中的形状1和形状2)相对应的窗口,并且图27(B)也示出了在第一编译方案的窗口当中的与模式1(参照图28中的形状1和形状2)相对应的窗口。更具体地,图27(A)与图23(B)相同,而图27(B)与图22(B)相同。
在与第一编译方案相对应的窗口与长_停止窗口相重叠的情况下,如图27(B)所示,该窗口与形状1相对应,并且具有其宽度等于长停止窗口的上升线的宽度(例如,N/4)的下降线。尤其是,形状1的下降线的第一斜坡与下一帧的非短窗口(例如,长_停止窗口)的上升线的斜坡匹配。在这种情况下,“匹配”的含义可表示斜坡的绝对值相同。
相反地,在与第一编译方案相对应的窗口与短窗口相重叠的情况下,如图27(A)所示,窗口与形状2相对应,并且具有其宽度等于短窗口的上升线的宽度(例如,N/5)的下降线。尤其是,形状2的下降线的第二斜坡与下一帧的短窗口的上升线的斜坡匹配。
因而,下降或上升线的宽度根据先前块或随后块是短窗口而发生变化。通过使宽度相等,可满足参考图8所描述的TDAC条件。因此,如果满足TDAC条件,那么音质失真可显著降低。
图28是在形状1至形状4之内变化的与第一编译方案当中的非矩形方案相对应的窗口的表格。
参考图28,根据先前块和/或随后块是否与短窗口相对应,可观察到通过属于第一编译方案的非矩形方案的窗口的形状从形状1变化到形状4。在先前块和随后块中的每一个与短窗口都不对应的情况下,形状1表示上升线L的宽度和下降线R的宽度分别与256个抽样(即,N/4)和256个抽样(即,N/4)相对应的情况。在形状2中,因为仅仅有随后块与短窗口相对应,因此下降线R的宽度降低到128,顶线M增加64,并且右边零部分ZR增加64。在形状3中,因为仅仅有先前块与短窗口相对应,因此上升线L的宽度仅降低到128,左边零部分ZL的长度增加了比形状1更大的64,并且顶线M的长度增加了比形状1更大的64。形状4表示先前块和随后块的每一个都与短窗口相对应的情况。在形状4中,上升线L与128相对应并且下降线R与128相对应,而与模式(例如,模式1、模式2、以及模式3)无关。
为了说明,与形状1中的模式1至3相对应的窗口分别可与图10(A)、图10(B)、以及图10(C)相等。
此外,先前块至少与先前帧的最后子帧相对应,并且随后块至少可与随后帧的第一子帧相对应。
现在参考图25,当应用第一编译方案(尤其是非矩形方案)时,模式确定部分123-1确定包括图28所示的模式1至3的多个模式中的一个。可将与所确定的模式相对应的信息与上述子编译标识信息编码在一起。例如,如果将子编译标识信息设置为0,那么可表示A编译方案(即,矩形编译方案作为第一编译方案)。如果将子编译标识信息设置为1至3,那么可分别表示B编译方案的模式1至3(即,非矩形编译方案作为第一编译方案)。
一旦确定了模式,模式确定部分123-1根据先前块和/或随后块是否与短窗口相对应来确定形状1至形状4当中的窗口的形状。
并且,复用器123-1通过将子编译标识信息、当前块的数据、以及先前块或随后块的数据一起进行复用,而产生至少一个比特流。
参考图26,窗口形状确定部分223-2利用子编译标识信息来确定是通过属于第一编译方案的A编译方案(即,矩形编译方案)还是B编译方案(即,非矩形编译方案)来对当前块进行编码。此外,在B编译方案的情况下,利用子编译标识信息,窗口形状确定部分223-2识别出模式1至3中的一个。
窗口形状确定部分223-2按照通过确定先前块和/或随后块是否与短窗口相对应而识别出形状1至4中的一个的方式,来为所确定的模式确定窗口的形状。
在以下描述将不对其余部件进行描述。
如下参考图29至32对根据本发明的第六实施例的编码器100F和解码器200F进行描述。根据本发明的第六实施例,根据先前块的编译方案来确定是否执行长期预测(LTP)。
图29是根据本发明的第六实施例的编码器方框图,并且图30是根据本发明的第六实施例的解码器的方框图。
参考图29和图30,根据本发明的第六实施例的编码器100F和解码器200F与本发明的第五实施例的先前编码器100E和解码器200E相似,但是不同之处在于包括长预测确定部分121-1和长预测控制部分221-2。长预测确定部分121-2根据是将第一编译方案(例如ACELP、TCX)还是第二编译方案(例如MDCT)应用于先前块,来确定是否对当前块执行长期预测。如下参考图31和图32对此进行详细说明。
图31示出了每个块(帧或子帧)的编译方案的示例。图31(A)至图31(B-3)分别示出的是,具有应用于其上的第一编译方案(例如ACELP)的块分别出现在具有应用于其上的第二编译方案(例如MDCT)的块后面。因而,在存在编译方案的变化的情况下[模式转换],第一编译方案(例如,ACELP)中的长期预测的效率显著降低了。图32是与长期预测有关的信号波形的一个示例的示意图。图32(A)示出了根据信号的特征,将第二编译方案(例如MDCT)和第一编译方案的矩形编译方案(例如ACELP)分别应用于先前块和随后块的示例。图32(B)示出了与第一编译方案相对应的块的信号,以及作为执行长期预测(LTP)的结果的信号的波形的一个示例。对于第二编译方案之后的块,原始信号存在于先前存储器中,以代替作为执行线性预测结果的残余信号。因为长期预测基于波形相关性,因此如果将长期预测应用于以上情况,那么不可避免的是编译效率显著降低了。参考图32(B),可观察到长期预测结果与原始信号之间的波形不存在很大差异。因此,在这种情况下,可节省分配给长期预测的比特,而无需应用使编译效率显著降低的长期预测。
参考图31(B-1),不能在应用了第二编译方案(例如MDCT)之后无条件地将长期预测(LTP)应用于第一个出现块(即第一帧)上。偶尔地,参考图31(B-2),可适应性地应用长期预测(LTP)。例如,只有当在应用长期预测(LTP)编译效率很好时,才执行长期预测(LTP)。因而,在有条件地执行长期预测的情况下,可设置表示是否已执行长期预测(LTP)的长期标志(LTP标志)。此外,参考图31(B-3),不是无条件地对块(例如第2至第4块)以及第一个出现块执行长期预测,或者也可以不是有条件地对其执行。从而,在不是有条件地使用长期预测的情况下,可对具有很小的长期预测效果的随机块设置长期标志,而不是仅对与第二编译方案相对应的块的边界上设置长期标志。例如,可以在沉默(voiceless)部分、静音部分、或者不存在音调的其它音乐部分中不执行长期预测,而是通过第一编译方案进行编译。
现在参考图29,如在先前描述中所提到的,长预测确定部分121-1根据先前块的编译方案,通过块单元来确定是否执行长期预测。如果不是有条件地执行长期预测,那么长期预测确定部分121-1将长期标志(LTP标志)递送到复用器130。
在与第一编译方案相对应的块的情况下,如果不执行长期预测(LTP),第一方案编译部分122-1产生下述新信息,所述新信息对在不执行长期预测的情况下所节省的比特进行总计。如下对新信息的示例进行描述。
1)可利用激励码本(excitation codebook)。尤其是,以过剩的比特(surplus bits)的大小来设计除了先前码本或者专用码本之外的更多的码本。在使用专用码本的情况下,通过对原始码本的激励与附加码本的激励进行组合来产生激励信号。在专用码本的情况下,与长期预测的功能相似,可使用被配置成编码音调分量(pitch component)的码本。
2)通过向线性预测编译[LPC]分配附加比特,可提高LPC系数的量化性能。
3)可对比特进行分配,以对第一或第二实施例的补偿信号进行编译(即,用于对由于第二编译方案的非矩形窗口与第一编译方案的矩形窗口之间的重叠所产生的校正和混叠部分进行补偿的信号)。
4)不执行总计达到所节省的比特的传输。尤其是,因为在音频编译的情况下,所使用的比特的数量是与帧一样多的变量,因此在其它帧中使用所节省的比特。
同时,第一方案编译部分122-1通过对不执行长期预测的块的新信息进行编码,而将附加比特递送到复用器130。
最终,复用器130通过将长期标志(LTP标志)、与新信息相对应的附加比特、以及与每个块相对应的数据在一起进行复用,而产生至少一个比特流。
参考图30,在不是有条件地执行长期预测的情况下,解复用器210提取长期标志(LTP标志),并且此后将其递送到长期预测控制部分221-2。如果考虑到先前块的编译方案,而不是无条件地执行长期预测,那么长期预测控制部分221-2确定先前块是否与第二编译方案相对应。如果尽管先前块的编译方案与第二编译方案相对应,但是也不是有条件地执行长期预测,那么长期预测控制部分221-2根据从复用器130所递送的长期标志(LTP标志)来确定是否执行长期预测。
如果这样的话,第一方案解码部分222-1根据长期预测控制部分222-1所进行的确定对变为长期预测的目标的块执行长期预测。在传送附加比特的情况下,第一方案解码部分222-1提取与附加比特相对应的新信息,并且此后根据所提取的新信息执行对相应块的解码。
在下面的描述中,对参考图1和图2所描述的根据本发明的编码器和解码器的应用进行说明。
图33是根据本发明的实施例的编码器所应用于的音频信号编码装置的示例的示意图,并且图34是根据本发明的实施例的解码器所应用于的音频信号解码装置的示例的示意图。
参考图33,音频信号编码装置300包括根据本发明的编码器100,并且进一步包括多声道编码器310、频带扩展编译单元320、以及解复用器330。在这种情况下,解复用器300可包括参考图1所描述的先前复用器130。
多声道编码器310接收多个声道信号(例如至少两个声道信号)(在下文中称为多声道信号)并且此后对多个所接收到的声道信号进行下混合(downmix),以产生单声道或立体声下混合信号。并且,多声道编码器310产生要将下混合信号上混合(upmix)成多声道信号所需的空间信息。在这种情况下,空间信息可包括声道电平差信息、声道间相关性信息、声道预测系数、下混合增益信息等等。选择性地,在音频信号编码装置300接收单声道信号的情况下,多声道编码器310不对所接收到的单声道信号进行下混合,而是单声道信号绕过多声道编码器310。
频带扩展编码器320通过将频带扩展方案应用于从多声道编码器310输出的下混合信号上,可产生与低频带相对应的频谱数据,以及用于高频带扩展的扩展信息。尤其是,排除下混合信号的部分频带的频谱数据,并且可产生用于对所排除的数据进行重建的频带扩展信息。
根据信号分类器(图中未示出)(例如,图1中所示的先前信号分类器110)所产生的编译方案信息,将通过频带扩展编译单元320所产生的信号输入到A编译单元120A、B编译单元120B、或者C编译单元120C。
A到C编译单元10A至120C与参考图1所述的先前编译单元相同,并且从以下描述省去冗余描述。如下对附加内容进行描述。
首先,在下混合信号的特定帧或段具有主导语音特征的情况下,A编译单元120A通过A编译方案(即,属于第一编译方案的矩形编译方案)对下混合信号进行编码。在这种情况下,A编译方案遵照AMR-WB(自适应多速率宽带)标准,但是本发明并不受到此限制。同时,A编译单元120A可进一步使用线性预测编译(LPC)方案。在谐波信号在时间轴上具有高冗余的情况下,可通过用于从过去信号来预测当前信号的线性预测来建模。在这种情况下,如果采用线性预测编译方案,那么可提高编码效率。同时,A编译单元120A可包括时域编码器。
其次,在下混合信号的特定帧或段中共存音频和语音特征的情况下,B编译单元120B通过B编译方案(即,属于第一编译方案的非矩形编译方案)对下混合信号进行编码。在这种情况下,B编译方案可以与TCX(变换码激励)(transform coded excitation)相对应,但是本发明并不受到此限制。在这种情况下,TCX可包括用于对从执行线性预测(LPC)所获得的激励信号执行频率变换的方案。在这种情况下,频率变换可包括MDCT(改进的离散余弦变换)。
第三,在下混合信号的特定帧或段具有主导音频特征(dominantaudio characteristic)的情况下,C编译单元120C通过C编译方案(即,属于第二编译方案的非矩形编译方案)对下混合信号进行编码。在这种情况下,C编译方案可遵照AAC(高级音频编码)标准或者HE-AAC(高效高级音频编码)标准,但是本发明并不受到此限制。同时,C编译单元120C可包括MDCT(改进的离散变换)编码器。
并且,解复用器330通过对空间信息、频带扩展信息、以及通过A到C编译单元120A至120C的每一个所编码的信号一起进行复用,而产生至少一个比特流。
参考图34,音频信号解码装置400包括解复用器410、A至C解码单元220A至220C、频带扩展解码单元420、以及多声道解码器430。
解复用器410从音频信号比特流提取通过A至C编译方案所编码的数据、频带扩展信息、以及空间信息。
A至C解码单元220A至220C分别与先前A至C编码单元120A至120C相对应,以执行与其相反的处理,并且从以下描述省去其细节。
频带扩展解码单元420通过对A至C解码单元220A至220C的每一个的输出信号执行频带扩展解码方案,来根据频带扩展信息重建高频带信号。
在所解码的音频信号是下混合信号的情况下,多声道解码器430利用空间信息产生多声道信号(包括立体声信号)的输出声道信号。
根据本发明的音频信号处理装置可用于各种产品以使用。可主要将这些产品分组成单机组和便携式组。TV、监视器、机顶盒等等可归入单机组中。并且,PMP、移动电话、导航系统等等可归入便携式组中。
图35示出了实现根据本发明的实施例的音频信号处理装置的产品之间的关系。
参考图35,有线/无线通信单元510通过有线/无线通信系统接收比特流。尤其是,有线/无线通信单元510可包括有线通信单元510A、红外单元510B、蓝牙单元510C、以及无线LAN单元510D中的至少一个。
用户认证单元520接收用户信息的输入,并且此后执行用户认证。用户认证单元520可包括指纹识别单元520A、虹膜识别单元520B、人脸识别单元520C、以及语音识别单元520D中的至少一个。指纹识别单元520A、虹膜识别单元520B、人脸识别单元520C、以及语音识别单元520D分别接收指纹信息、虹膜信息、人脸轮廓信息、以及语音信息,并且此后将它们转换成用户信息。确定每个用户信息是否与预先注册的用户数据匹配,以执行用户认证。
输入单元530是能够使用户输入各种命令的输入设备,并且可包括小键盘单元530A、触摸板单元530B、以及远程控制器单元530C中的至少一个,但是本发明并不受到此限制。
信号编译单元540对通过有线/无线通信单元510所接收到的音频信号和/或视频信号进行编码或解码,并且此后在时域中输出音频信号。信号编译单元540包括音频信号处理装置545。如在先前描述中所提到的,音频信号处理装置545与上述编码器100(第一至第六实施例所包括的)或者解码器200(第一至第六实施例所包括的)相对应。因而,通过至少一个或多个处理器可实现包括其的音频信号处理装置545和信号编译单元。
控制单元550接收来自输入设备的输入信号,并且对信号解码单元540和输出单元560的所有处理进行控制。尤其是,输出单元560是被配置成输出由信号解码单元540所产生的输出信号等等的元件,并且可包括扬声器单元560A和显示单元560B。如果输出信号是音频信号,那么将它输出到扬声器。如果输出信号是视频信号,那么通过显示器输出。
图36是具有根据本发明的实施例的音频信号处理装置的产品的关系的示意图。图36示出了与图35所示的产品相对应的终端和服务器之间的关系。
参考图36(A),可观察到第一终端500.1和第二终端500.2可通过有线/无线通信单元而彼此双向地交换数据或比特流。参考图36(B),可观察到服务器600和第一终端500.1可彼此执行有线/无线通信。
可将根据本发明的音频信号处理方法实现成计算机可执行程序,并且可存储在计算机可读记录介质中。并且,具有本发明的数据结构的多媒体数据可存储在计算机可读记录介质中。计算机可读介质包括存储计算机系统可读的数据的各种记录设备。计算机可读介质例如包括ROM、RAM、CD-ROM、磁带、软盘、光数据存储设备等等,并且还包括载波型实现(例如通过因特网传输)。并且,可将通过上述编码方法所产生的比特流存储在计算机可读记录介质中,或者可通过有线/无线通信网络传送。
工业实用性
因此,本发明适用于处理并输出音频信号。
虽然在这里参考其优选实施例已对本发明进行了描述和说明,但是对于本领域普通技术人员来说显而易见地是,在不脱离本发明的精神和范围的情况下可在其中做出各种修改和变化。因而,本发明的意图在于覆盖在所附权利要求及其等效物的范围之内的本发明的修改和变化。

Claims (16)

1.一种处理音频信号的方法,包括:
通过音频处理装置接收音频信号,所述音频信号包括以矩形编译方案编码的第一块的第一数据,以及以非矩形编译方案编码的第二块的第二数据;
接收与所述第二块相对应的补偿信号;
利用所述第一数据估计混叠部分的预测;以及
根据所述第二数据、所述补偿信号、以及所述混叠部分的预测获得所述第二块的重建信号。
2.根据权利要求1所述的方法,其中,所述矩形编译方案以矩形窗口来编码或解码,所述非矩形编译方案以非矩形窗口来编码或解码。
3.根据权利要求1所述的方法,其中,根据校正部分和混叠部分的误差来产生所述补偿信号,
其中,所述校正部分对应于和矩形窗口与非矩形窗口之间的不对称有关的差异,
其中,所述混叠部分的误差对应于所述混叠部分与所述混叠部分的预测之间的差异。
4.根据权利要求1所述的方法,其中,所述混叠部分对应于所述第一块与用于所述非矩形编译方案的非矩形窗口之间的重叠部分。
5.根据权利要求1所述的方法,其中,估计预测包括:
根据所述矩形编译方案,利用所述第一块的第一数据产生用于所述第一块的输出信号;
利用用于所述第一块的输出信号和所述非矩形编译方案获得所述混叠部分的预测。
6.根据权利要求1所述的方法,其中,所述重建信号近似于以矩形窗口处理的信号,所述矩形窗口与用于所述非矩形编译方案的非矩形窗口不同。
7.根据权利要求1所述的方法,其中,获得重建信号包括:
对所述第二数据进行逆频率变换,以产生时域第二信号;
对所述补偿信号进行逆频率变换,以产生时域补偿信号;以及
通过将所述时域补偿信号添加到所述时域第二信号和所述混叠部分的预测,获得重建信号。
8.根据权利要求1所述的方法,其中,所述第一块与帧和子帧中的一个相对应,并且所述第二块与帧和子帧中的一个相对应。
9.一种用于处理音频信号的装置,包括:
解复用器,用于接收音频信号,所述音频信号包括以矩形编译方案编码的第一块的第一数据,以及以非矩形编译方案编码的第二块的第二数据,并且用于接收与所述第二块相对应的补偿信号;
矩形解码单元,用于利用所述第一数据估计混叠部分的预测;以及
非矩形解码单元,用于根据所述第二数据、所述补偿信号、以及所述混叠部分的预测,获得用于所述第二块的重建信号。
10.根据权利要求9所述的装置,其中,所述矩形编译方案以矩形窗口来编码或解码,所述非矩形编译方案以非矩形窗口来编码或解码。
11.根据权利要求9所述的装置,其中,根据校正部分和混叠部分的误差来产生所述补偿信号,
其中,所述校正部分对应于和矩形窗口与非矩形窗口之间的不对称有关的差异,
其中,所述混叠部分的误差对应于所述混叠部分与所述混叠部分的预测之间的差异。
12.根据权利要求9所述的装置,其中,所述混叠部分对应于所述第一块和用于所述非矩形编译方案的非矩形窗口之间的重叠部分。
13.根据权利要求9所述的装置,其中,所述矩形解码单元被配置成:
根据所述矩形编译方案,利用所述第一块的第一数据产生用于所述第一块的输出信号;
利用用于所述第一块的输出信号和所述非矩形编译方案获得所述混叠部分的预测。
14.根据权利要求9所述的装置,其中,所述重建信号近似于以矩形窗口处理的信号,所述矩形窗口与用于所述非矩形编译方案的非矩形窗口不同。
15.根据权利要求9所述的装置,其中,所述非矩形解码单元被配置成:
对所述第二数据进行逆频率变换,以产生时域第二信号;
对所述补偿信号进行逆频率变换,以产生时域补偿信号;以及
通过将所述时域补偿信号添加到所述时域第二信号和所述混叠部分的预测,获得重建信号。
16.根据权利要求9所述的装置,其中,所述第一块与帧和子帧中的一个相对应,并且所述第二块与帧和子帧中的一个相对应。
CN2010800425406A 2009-07-27 2010-07-27 一种处理音频信号的方法和装置 Active CN102576540B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310579014.9A CN103761971B (zh) 2009-07-27 2010-07-27 一种处理音频信号的方法和装置

Applications Claiming Priority (11)

Application Number Priority Date Filing Date Title
US22895909P 2009-07-27 2009-07-27
US61/228,959 2009-07-27
US22897609P 2009-07-28 2009-07-28
US61/228,976 2009-07-28
US23200709P 2009-08-07 2009-08-07
US23200809P 2009-08-07 2009-08-07
US61/232,007 2009-08-07
US61/232,008 2009-08-07
US24351409P 2009-09-17 2009-09-17
US61/243,514 2009-09-17
PCT/KR2010/004918 WO2011013980A2 (en) 2009-07-27 2010-07-27 A method and an apparatus for processing an audio signal

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201310579014.9A Division CN103761971B (zh) 2009-07-27 2010-07-27 一种处理音频信号的方法和装置

Publications (2)

Publication Number Publication Date
CN102576540A CN102576540A (zh) 2012-07-11
CN102576540B true CN102576540B (zh) 2013-12-18

Family

ID=43529851

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201310579014.9A Active CN103761971B (zh) 2009-07-27 2010-07-27 一种处理音频信号的方法和装置
CN2010800425406A Active CN102576540B (zh) 2009-07-27 2010-07-27 一种处理音频信号的方法和装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201310579014.9A Active CN103761971B (zh) 2009-07-27 2010-07-27 一种处理音频信号的方法和装置

Country Status (6)

Country Link
US (7) US8892427B2 (zh)
EP (2) EP2460158A4 (zh)
JP (1) JP5547810B2 (zh)
KR (1) KR101410312B1 (zh)
CN (2) CN103761971B (zh)
WO (4) WO2011013982A2 (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2460158A4 (en) 2009-07-27 2013-09-04 METHOD AND APPARATUS FOR PROCESSING AUDIO SIGNAL
WO2011034375A2 (en) * 2009-09-17 2011-03-24 Lg Electronics Inc. A method and an apparatus for processing an audio signal
EP2581902A4 (en) * 2010-06-14 2015-04-08 Panasonic Corp HYBRID AUDIO ENCODING DEVICE AND HYBRID AUDIO DECODING DEVICE
US8924200B2 (en) * 2010-10-15 2014-12-30 Motorola Mobility Llc Audio signal bandwidth extension in CELP-based speech coder
WO2012070866A2 (ko) * 2010-11-24 2012-05-31 엘지전자 주식회사 스피치 시그널 부호화 방법 및 복호화 방법
CN103548080B (zh) * 2012-05-11 2017-03-08 松下电器产业株式会社 声音信号混合编码器、声音信号混合解码器、声音信号编码方法以及声音信号解码方法
KR20150032614A (ko) * 2012-06-04 2015-03-27 삼성전자주식회사 오디오 부호화방법 및 장치, 오디오 복호화방법 및 장치, 및 이를 채용하는 멀티미디어 기기
CA2900437C (en) 2013-02-20 2020-07-21 Christian Helmrich Apparatus and method for encoding or decoding an audio signal using a transient-location dependent overlap
JP6179122B2 (ja) * 2013-02-20 2017-08-16 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
CN103280222B (zh) * 2013-06-03 2014-08-06 腾讯科技(深圳)有限公司 音频编码、解码方法及其系统
CN105359210B (zh) 2013-06-21 2019-06-14 弗朗霍夫应用科学研究促进协会 Fdns应用前实现将mdct频谱衰落到白噪声的装置及方法
PL3011554T3 (pl) 2013-06-21 2019-12-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Szacowanie opóźnienia wysokości tonu
CN110931025A (zh) 2013-06-21 2020-03-27 弗朗霍夫应用科学研究促进协会 利用改进的脉冲再同步化的似acelp隐藏中的自适应码本的改进隐藏的装置及方法
EP3152286B1 (en) 2014-06-09 2020-01-22 Stepan Company Detergents for cold-water cleaning
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
FR3024581A1 (fr) 2014-07-29 2016-02-05 Orange Determination d'un budget de codage d'une trame de transition lpd/fd
JP6561499B2 (ja) * 2015-03-05 2019-08-21 ヤマハ株式会社 音声合成装置および音声合成方法
US9900636B2 (en) 2015-08-14 2018-02-20 The Nielsen Company (Us), Llc Reducing signature matching uncertainty in media monitoring systems
CN109389987B (zh) 2017-08-10 2022-05-10 华为技术有限公司 音频编解码模式确定方法和相关产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5890106A (en) * 1996-03-19 1999-03-30 Dolby Laboratories Licensing Corporation Analysis-/synthesis-filtering system with efficient oddly-stacked singleband filter bank using time-domain aliasing cancellation
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
CN101061533A (zh) * 2004-10-26 2007-10-24 松下电器产业株式会社 语音编码装置和语音编码方法
US20080052068A1 (en) * 1998-09-23 2008-02-28 Aguilar Joseph G Scalable and embedded codec for speech and audio signals

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5848391A (en) 1996-07-11 1998-12-08 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method subband of coding and decoding audio signals using variable length windows
US6233550B1 (en) * 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
ES2247741T3 (es) 1998-01-22 2006-03-01 Deutsche Telekom Ag Metodo para conmutacion controlada por señales entre esquemas de codificacion de audio.
BRPI0113271B1 (pt) * 2000-08-16 2016-01-26 Dolby Lab Licensing Corp método para modificar a operação da função codificadora e/ou da função decodificadora de um sistema de codificação perceptual de acordo com informação suplementar
US7424434B2 (en) * 2002-09-04 2008-09-09 Microsoft Corporation Unified lossy and lossless audio compression
JP2005083346A (ja) * 2003-09-11 2005-03-31 Hino Motors Ltd 排気浄化装置
US7325023B2 (en) * 2003-09-29 2008-01-29 Sony Corporation Method of making a window type decision based on MDCT data in audio encoding
US6980933B2 (en) * 2004-01-27 2005-12-27 Dolby Laboratories Licensing Corporation Coding techniques using estimated spectral magnitude and phase derived from MDCT coefficients
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US7516064B2 (en) * 2004-02-19 2009-04-07 Dolby Laboratories Licensing Corporation Adaptive hybrid transform for signal analysis and synthesis
BRPI0418839A (pt) * 2004-05-17 2007-11-13 Nokia Corp método para suportar e dispositivo eletrÈnico suportando uma codificação de um sinal de áudio, sistema de codificação de áudio, e, produto de programa de software
CN101124740B (zh) 2005-02-23 2012-05-30 艾利森电话股份有限公司 多声道音频信号编码和解码的方法和装置和音频传送系统
EP1952113A4 (en) 2005-10-05 2009-05-27 Lg Electronics Inc METHOD AND DEVICE FOR SIGNAL PROCESSING AND CODING AND DECODING METHOD AND DEVICE THEREFOR
WO2008071353A2 (en) 2006-12-12 2008-06-19 Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung E.V: Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream
PL2311032T3 (pl) 2008-07-11 2016-06-30 Fraunhofer Ges Forschung Koder i dekoder audio do kodowania i dekodowania próbek audio
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
US8352279B2 (en) 2008-09-06 2013-01-08 Huawei Technologies Co., Ltd. Efficient temporal envelope coding approach by prediction between low band signal and high band signal
JP5555707B2 (ja) 2008-10-08 2014-07-23 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン マルチ分解能切替型のオーディオ符号化及び復号化スキーム
KR101315617B1 (ko) 2008-11-26 2013-10-08 광운대학교 산학협력단 모드 스위칭에 기초하여 윈도우 시퀀스를 처리하는 통합 음성/오디오 부/복호화기
PL3246919T3 (pl) 2009-01-28 2021-03-08 Dolby International Ab Ulepszona transpozycja harmonicznych
US8655294B2 (en) * 2009-05-26 2014-02-18 Qualcomm Incorporated Method and apparatus for position signal assisted window placement
CA2763793C (en) * 2009-06-23 2017-05-09 Voiceage Corporation Forward time-domain aliasing cancellation with application in weighted or original signal domain
EP2460158A4 (en) 2009-07-27 2013-09-04 METHOD AND APPARATUS FOR PROCESSING AUDIO SIGNAL
EP2524374B1 (en) * 2010-01-13 2018-10-31 Voiceage Corporation Audio decoding with forward time-domain aliasing cancellation using linear-predictive filtering
US20130287109A1 (en) * 2012-04-29 2013-10-31 Qualcomm Incorporated Inter-layer prediction through texture segmentation for video coding

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5890106A (en) * 1996-03-19 1999-03-30 Dolby Laboratories Licensing Corporation Analysis-/synthesis-filtering system with efficient oddly-stacked singleband filter bank using time-domain aliasing cancellation
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
US20080052068A1 (en) * 1998-09-23 2008-02-28 Aguilar Joseph G Scalable and embedded codec for speech and audio signals
CN101061533A (zh) * 2004-10-26 2007-10-24 松下电器产业株式会社 语音编码装置和语音编码方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Jeremie Lecomte,et al..Efficient cross-fade windows for transitions between LPC-based and non-LPC based audio coding.《Audio Engineering Society,AES 126th Convention》.2009,1-9. *

Also Published As

Publication number Publication date
WO2011013981A3 (en) 2011-04-28
US9064490B2 (en) 2015-06-23
WO2011013982A2 (en) 2011-02-03
WO2011013980A3 (en) 2011-04-21
WO2011013983A2 (en) 2011-02-03
WO2011013980A4 (en) 2011-06-09
EP2460158A2 (en) 2012-06-06
CN103761971A (zh) 2014-04-30
US8892427B2 (en) 2014-11-18
KR101410312B1 (ko) 2014-06-27
EP2460158A4 (en) 2013-09-04
US20130325486A1 (en) 2013-12-05
WO2011013980A2 (en) 2011-02-03
USRE48916E1 (en) 2022-02-01
US9214160B2 (en) 2015-12-15
USRE47536E1 (en) 2019-07-23
CN102576540A (zh) 2012-07-11
US20130332149A1 (en) 2013-12-12
US20120185257A1 (en) 2012-07-19
US20130325487A1 (en) 2013-12-05
WO2011013982A3 (en) 2011-04-21
EP3474279A1 (en) 2019-04-24
JP5547810B2 (ja) 2014-07-16
WO2011013983A3 (en) 2011-04-28
USRE49813E1 (en) 2024-01-23
JP2013500506A (ja) 2013-01-07
US9082399B2 (en) 2015-07-14
CN103761971B (zh) 2017-01-11
KR20120061844A (ko) 2012-06-13
WO2011013981A2 (en) 2011-02-03

Similar Documents

Publication Publication Date Title
CN102576540B (zh) 一种处理音频信号的方法和装置
CN102498515B (zh) 处理音频信号的方法和设备
CN103493130B (zh) 用以利用正弦代换进行音频编码及译码的装置和方法
CN103109318B (zh) 利用前向混迭消除技术的编码器
CN101903943A (zh) 用于处理信号的方法和装置
CN104903956A (zh) 用于通过使用频谱模式有效合成正弦曲线和扫描的设备及方法
CN103548080A (zh) 声音信号混合编码器、声音信号混合解码器、声音信号编码方法以及声音信号解码方法
CN102460574A (zh) 用于使用层级正弦脉冲编码对音频信号进行编码和解码的方法和设备
Kim et al. Highly efficient audio coding with blind spectral recovery based on machine learning
CN102568489B (zh) 编码器
Cantzos et al. Quality enhancement of low bit rate MPEG1-layer 3 audio based on audio resynthesis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Free format text: FORMER OWNER: INDUSTRY-ACADEMIC COOPERATION FOUNDATION, YONSEI UNIVERSITY

Effective date: 20130605

Owner name: INDUSTRY-ACADEMIC COOPERATION FOUNDATION, YONSEI U

Free format text: FORMER OWNER: LG ELECTRONICS INC.

Effective date: 20130605

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20130605

Address after: Seoul, South Kerean

Applicant after: Ind Academic Coop

Address before: Seoul, South Kerean

Applicant before: LG Electronics Inc.

Applicant before: Ind Academic Coop

C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: YINGDI CO., LTD.

Free format text: FORMER OWNER: INDUSTRY-ACADEMIC COOPERATION FOUNDATION, YONSEI UNIVERSITY

Effective date: 20140402

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140402

Address after: Seoul, South Kerean

Patentee after: Neo Lab Convergence Inc.

Address before: Seoul, South Kerean

Patentee before: Ind Academic Coop

TR01 Transfer of patent right

Effective date of registration: 20180227

Address after: American California

Patentee after: Joint audio systems company

Address before: Seoul, South Kerean

Patentee before: Neo Lab Convergence Inc.

TR01 Transfer of patent right
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20180919

Address after: American California

Patentee after: Dolby Lab Licensing Corp.

Address before: American California

Patentee before: Joint audio systems company