CN102124517A - 具有共用预处理的低比特率音频编码/解码方案 - Google Patents

具有共用预处理的低比特率音频编码/解码方案 Download PDF

Info

Publication number
CN102124517A
CN102124517A CN2009801270946A CN200980127094A CN102124517A CN 102124517 A CN102124517 A CN 102124517A CN 2009801270946 A CN2009801270946 A CN 2009801270946A CN 200980127094 A CN200980127094 A CN 200980127094A CN 102124517 A CN102124517 A CN 102124517A
Authority
CN
China
Prior art keywords
signal
audio
branch
coding
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2009801270946A
Other languages
English (en)
Other versions
CN102124517B (zh
Inventor
伯恩哈特·格里尔
斯特凡·拜尔
纪尧姆·福斯
史蒂芬·盖尔斯贝尔格尔
拉尔夫·盖格
约翰内斯·希勒佩特
乌尔里克·克雷默
杰雷米·勒孔特
马库斯·马特拉斯
马克斯·诺伊恩多夫
哈拉尔德·波普
尼古拉斯·里特尔博谢
弗雷德里克·纳格尔
萨沙·迪施
于尔根·赫勒
横谷良和
史蒂芬·韦伯尼克
杰拉尔德·舒勒
詹斯·赫什飞尔德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN102124517A publication Critical patent/CN102124517A/zh
Application granted granted Critical
Publication of CN102124517B publication Critical patent/CN102124517B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0007Codebook element generation
    • G10L2019/0008Algebraic codebooks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一种音频编码器,包括:共用预处理阶段(100);基于信息汇集的编码分支(400),如频谱域编码分支;基于信息来源的编码分支(500),如LPC域编码分支;以及开关(200),用于通过决策阶段(300)的控制在这些分支的输入端或者这些分支的输出端处在这些分支之间切换。一种音频解码器,包括:频谱域解码分支,如LPC域解码分支;一个以上开关,用于在这些分支之间切换;以及共用后处理阶段,用于后处理时域音频信号以获得后处理的音频信号。

Description

具有共用预处理的低比特率音频编码/解码方案
技术领域
本发明涉及音频编码,特别地,涉及低比特率音频编码方案。
背景技术
在本领域中,频域编码方案如MP3或AAC是已知的。这些频域编码器基于时域/频域转换、随后的量化阶段、和编码阶段,在量化阶段中采用来自心理声学模块的信息控制量化误差,在编码阶段中采用编码表对量化的频谱系数及对应的边信息进行熵编码。
另一方面,有些编码器非常适合语音处理,例如,在3GPP TS 26.290中描述的AMR-WB+。这种语音编码方案进行时域信号的线性预测滤波。这种线性预测滤波从输入的时域信号的线性预测分析获得。然后,对生成的线性预测滤波系数进行编码并将其作为边信息传输。这个过程称作线性预测编码(LPC)。在滤波器的输出端,采用ACELP编码器的整合分析阶段对预测残余信号或预测误差信号进行编码,其中预测误差信号也称作激励信号,或者,可替换地,采用转换编码器对预测残余信号或预测误差信号进行编码,转换编码器采用具有重叠的傅立叶转换。采用闭环算法或开环算法确定进行ACELP编码或转换编码的激励编码,其中转换编码的激励编码也称作TCX编码。
也可将频域音频编码方案,例如高效AAC编码方案与联合立体声或多声道编码工具结合,多声道编码工具已知属于“MPEG环绕”项目,高效AAC编码方案将AAC编码方案和频带重现技术结合。
另一方面,语音编码器如AMR-WB+也具有高频加强阶段和立体声功能。
频域编码方案的优点是,它们对于音乐信号在低比特率展示高质量。但是,问题是在低比特率的语音信号的质量。
尽管语音编码方案在低比特率对于语音信号展示出高质量,但是在低比特率对于音乐信号展示不佳的质量。
发明内容
本发明的目的是提供一种改进的编码/解码概念。
上述目的可通过权利要求1的音频编码器、权利要求13的音频编码方法、权利要求14的音频解码器、权利要求24的音频解码方法、权利要求25的计算机程序或者权利要求26的已编码音频信号实现。
在本发明的一个方面中,采用控制开关的决策阶段来将共用预处理阶段的输出信号输入至两个分支中的任一个。一个分支主要通过来源模型和/或通过客观的测量如SNR激励,另一个分支通过汇集模型和/或心理声学模型激励,也就是通过听觉遮蔽激励。
举例来说,一个分支具有频域编码器,另一个分支具有LPC域编码器如语音编码器。来源模型通常是语音处理,因此经常采用LPC。因此,对于两个编码算法经常采用典型的预处理阶段,如联合立体声或多声道编码阶段和/或带宽扩展阶段,与对于相同的目的采用完全的音频编码器和完全的语音编码器的情况相比,这节省了相当数量的存储空间、芯片区域和能量消耗等。
在优选实施例中,音频编码器包括用于两个分支的共用预处理阶段,其中第一分支主要通过汇集模型和/或心理声学模型激励,也就是通过听觉遮蔽激励,并且其中第二分支主要通过来源模型和通过分段的SNR计算激励。音频编码器优选地具有通过决策阶段控制的一个以上开关,用于在这些分支的输入端或这些分支的输出端处在这些分支之间切换。在音频编码器中,第一分支优选地包括基于心理声学的音频编码器,并且其中第二分支包括LPC和SNR分析器。
在优选实施例中,音频解码器包括:基于信息汇集的解码分支,如频谱域解码分支;基于信息来源的解码分支,如LPC域解码分支;开关,用于在分支和共用后处理阶段之间切换;以及共用后处理阶段,用于后处理时域音频信号以获得后处理音频信号。
根据本发明的又一个方面的已编码音频信号包括:第一编码分支输出信号,其表示根据第一编码算法编码的音频信号的第一部分,第一编码算法具有信息汇集模型,第一编码分支输出信号具有表示音频信号的已编码频谱信息;第二编码分支输出信号,其表示与音频信号的第一部分不同的音频信号的第二部分,第二部分根据第二编码算法编码,第二编码算法具有信息来源模型,第二编码分支输出信号具有表示中间信号的用于信息来源模型的编码参数;以及共用预处理参数,其表示音频信号和音频信号的扩展版本之间的区别。
附图说明
下面结合附图描述本发明的优选实施例,其中:
图1a为根据本发明的第一方面的编码方案的模块图;
图1b为根据本发明的第一方面的解码方案的模块图;
图2a为根据本发明的第二方面的编码方案的模块图;
图2b为根据本发明的第二方面的解码方案的模块图;
图3a示出根据本发明的又一个方面的编码方案的模块图;
图3b示出根据本发明的又一个方面的解码方案的模块图;
图4a示出具有设置在编码分支之前的开关的模块图;
图4b示出具有设置在编码分支之后的开关的编码方案的模块图;
图4c示出用于优选的组合器实施例的模块图;
图5a示出作为准周期或脉冲状信号段的时域语音段的波形;
图5b示出图5a的所述段的频谱;
图5c示出作为对于平稳段和噪声状段的例子的无声语音的时域语音段;
图5d示出图5c的时域波形的频谱;
图6示出通过合成CELP编码器进行分析的模块图;
图7a至图7d示出作为对于脉冲状和平稳信号/噪声状信号的例子的有声/无声激励信号;
图7e示出提供短期预测信息和预测误差信号的编码器侧LPC阶段;
图8示出根据本发明的实施例的联合多声道算法的模块图;
图9示出带宽扩展算法的优选实施例;
图10a示出当进行开环决策时的开关的详细描述;
图10b示出当以闭环决策模式操作时的开关的实施例;
详细描述或优选实施例
将单声信号、立体声信号或多声道信号输入图1a中的共用预处理阶段100。共用预处理方案可具有联合立体声功能、环绕功能和/或带宽扩展功能。在块100的输出端,存在有输入至开关200或多个类型的开关200的单声声道、立体声声道或多声道。
当阶段100具有两个以上输出信号,即当阶段100输出立体声信号或多声道信号时,可存在开关200用于阶段100的每个输出。举例来说,立体声信号的第一声道可为语音声道,立体声信号的第二声道可为音乐声道。在这种情况下,决策阶段的决策在对于相同时间时刻的两个声道之间可为不同。
通过决策阶段300对开关200进行控制。决策阶段接收输入至块100的信号或通过块100输出的信号并将其作为输入信号。可替换地,决策阶段300也可接收边信息,该边信息包含在单声信号、立体声信号或多声道信号中,或者该边信息至少与其中存在有这样的信息的信号相关,例如,所述这样的信息为当最初产生单声信号、立体声信号或多声道信号时所产生的信息。
在一个实施例中,决策阶段不控制预处理阶段100,块300和块100之间的箭头不存在。在又一个实施例中,通过决策阶段300控制块100中的处理至一定程度,以便基于决策设置在块100中的一个以上参数。但是,这将不会影响在块100中的通用算法,从而使得在块100中的主要功能无论阶段300的决策如何都是有效的。
决策阶段300启动开关200,以便将共用预处理阶段的输出信号输入在图1a的上部分支所示出的频率编码部分400,或者将输出信号输入在图1a的下部分支示出的LPC域编码部分500。
在一个实施例中,开关200在两个编码分支400、500之间切换。在又一个实施例中,可存在有额外的编码分支,如第三编码分支或者甚至第四编码分支或者甚至更多的编码分支。在具有三个编码分支的实施例中,第三编码分支可与第二编码分支类似,但可包括不同于第二编码分支500中的激励编码器520的激励编码器。在这个实施例中,第二分支包括LPC阶段510和基于编码本的激励编码器如ACELP,且第三分支包括LPC阶段和基于LPC阶段的输出信号的频谱表示的激励编码器。
频域编码分支的关键元件是频谱转换器块410,其可操作用于将共用预处理阶段的输出信号转换至频谱域。频谱转换块可包括MDCT算法、QMF、FFT算法、小波分析或滤波器组,如具有一定数量的滤波器组声道的临界样本滤波器组,其中该滤波器组中的子带信号可为实数值的信号或复数值的信号。采用频谱音频编码器420对频谱转换块410的输出信号进行编码,频谱音频编码器420可包括多个处理块,如由ACC编码方案所知。
在下部的编码分支500中,关键元件是来源模型分析器如LPC 510,其输出两种类型的信号。一种信号是用于控制LPC合成滤波器的滤波器特性的LPC信息信号。将这个LPC信息传输至解码器。LPC阶段510的另一种输出信号是输入至激励编码器520的激励信号或LPC域信号。激励编码器520可来自任何来源滤波器模型编码器,例如CELP编码器、ACELP编码器或者处理LPC域信号的任何其他编码器。
另一个优选的激励编码器实例是激励信号的编码转换。在这个实施例中,不采用ACELP编码本机制编码激励信号,而是将激励信号转换成频谱表示且对频谱表示值进行编码以获得数据压缩,频谱表示值例如为滤波器组情况中的子带信号或者为转换情况如FFT情况中的频率系数。这种激励编码器的示例为由AMR-WB+已知的TCX编码模式。
决策阶段的决策可以是信号自适应的,以便决策阶段进行音乐/语音鉴别,并控制开关200使得音乐信号输入上部分支400,而语音信号输入下部分支500。在一个实施例中,决策阶段将其决策信息输入至输出比特流中,以便解码器可采用这个决策信息来进行正确的解码操作。
在图1b中示出了这类解码器。由频谱音频编码器420输出的信号经传输后被输入到频谱音频解码器430。将频谱音频解码器430的输出输入到时域转换器440。类似地,将图1a的激励编码器520的输出输入到激励解码器530,激励解码器530输出LPC域信号。将LPC域信号输入到LPC合成阶段540,LPC合成阶段540接收通过相应的LPC分析阶段510产生的LPC信息,将其作为又一个输入。将时域转换器440的输出和/或LPC合成阶段540的输出输入到开关600。通过开关控制信号控制开关600,开关控制信号例如为通过决策阶段300产生,或者由外部提供,例如由产生原始单声信号、立体声信号或多声道信号的产生器提供。
开关600的输出是完全的单声信号,随后将开关600的输出输入到共用后处理阶段700,共用后处理阶段700可进行联合立体声处理或带宽扩展处理等。可选择地,开关的输出也可为立体声信号或者甚至为多声道信号。当预处理包括声道减少至两个声道时,开关的输出为立体声信号。当进行声道减少至三个声道,或者根本不进行声道减少但只进行一次谱带复制时,开关的输出甚至可为多声道信号。
根据共用后处理阶段的特定功能,输出单声信号、立体声信号或多声道信号,当共用后处理阶段700进行带宽扩展操作时,共用预处理阶段的输出的单声信号、立体声信号或多声道信号具有比输入至块700的信号更大的带宽。
在一个实施例中,开关600在两个解码分支430、440和530、540之间切换。在又一个实施例中,可存在有额外的解码分支,如第三解码分支或者甚至第四解码分支或者甚至更多个解码分支。在具有三个解码分支的实施例中,第三解码分支可与第二解码分支类似,但可包括不同于第二解码分支530、540中的激励解码器530的激励解码器。在这个实施例中,第二分支包括LPC阶段540和基于编码本的激励解码器如ACLEP,第三分支包括LPC阶段和基于LPC阶段540的输出信号的频谱表示操作的激励解码器。
如上所述,图2a示出根据本发明的第二方面的优选解码方案。来自图1a的共用预处理方案100现在包括产生联合立体声参数和单声输出信号并作为输出的环绕/联合立体声块101,单声输出信号通过对具有两个以上声道的输入信号进行降混而产生。通常,在块101的输出端的信号也可为具有更多声道的信号,但是由于块101的降混特性,块101的输出端的声道数目将小于输入至块101的声道数目。
将块101的输出输入到带宽扩展块102,在图2a的编码器中,带宽扩展块102在其输出端输出限带宽信号如低频带信号或低通信号。此外,对于输入块102的高频带信号,产生带宽扩展参数,如频谱包络参数、反相滤波参数、噪声本征参数等,如由MPEG-4的HE-ACC简介所知,并前传至比特流多路复用器800。
优选地,决策阶段300接收输入到块100的信号或输入到块102的信号,以便进行决策,例如在音乐模式或语音模式之间进行决策。在音乐模式中,选定上部编码分支400,而在语音模式中,选定下部编码分支500。优选地,决策阶段还控制联合立体声块101和/或带宽扩展块102,以使这些块的功能至适应特定信号。因此,当决策阶段确定输入信号的某个时间部分属于第一模式如音乐模式时,则可通过决策阶段300控制块101和/或块102的具体特征。可选择地,当决策阶段300确定信号在语音模式中,或者通常地在LPC域编码模式中时,则可根据决策阶段的输出控制块101和块102的具体特征。
根据开关的决策,开关在频率编码分支400和LPC编码分支500之间切换,其中开关的决策可从开关200的输入信号得到或从任何外部来源得到,例如外部来源为原始音频信号的产生器,原始音频信号在输入阶段200的信号之下。频率编码分支400包括频谱转换阶段410和随后连接的量化/编码阶段421(如图2a中所示)。量化/编码阶段可包括由现代频域编码器如ACC编码器所知的任何功能。此外,可通过心理声学模块控制在量化/编码阶段421中的量化操作,心理声学模块产生输入至阶段421的心理声学信息,如心理声学频率遮蔽临界值。
优选地,采用MDCT操作进行频谱转换,甚至更优选地,MDCT操作为时间翘曲的MDCT操作,其中强度或者通常地称作时间翘曲强度,可被控制在零和高翘曲强度之间。在零翘曲强度中,块411中的MDCT操作是本领域所熟知的直通MDCT操作。可将时间翘曲强度连同时间翘曲边信息一起传输至/输入到比特流多路复用器800中作为边信息。因此,如果采用TW-MDCT,应该发送时间翘曲边信息至比特流,如通过图2a中的424所示,并且在解码器侧应该接收来自比特流的时间翘曲边信息,如通过图2b中的标号434所示。
在LPC编码分支中,LPC域编码器可包括ACELP核心,其计算音高增益、音高延迟和/或编码本信息如编码本索引和码增益。
在第一编码分支400中,频谱转换器优选地包括在量化/熵编码阶段之前的特别自适应的MDCT操作,该特别自适应的MDCT操作具有特定窗口函数,量化/熵编码阶段可为向量量化阶段,但优选为量化器/编码器,如指示为频域编码分支中的量化器/编码器,即图2a的标号421。
图2b示出了与图2a的编码方案相对应的解码方案。将通过图2a的比特流多路复用器800产生的比特流输入到比特流多路解复用器900。根据例如通过模式检测块601从比特流得到的信息,控制解码器侧开关600将来自上部分支的信号或者来自下部分支的信号前传至带宽扩展块701。带宽扩展块701接收来自比特流多路解复用器900的边信息,并基于这个边信息和模式检测601的输出基于由开关600输出的低频带重建的高频带。
将由块701产生的全频带信号输入到联合立体声/环绕处理阶段702,联合立体声/环绕处理阶段702重建两个立体声声道或几个多声道。通常,块702将输出比输入到这个块的声道更多的声道。根据应用情况,输入至块702的输入甚至可包括在例如立体声模式中的两个声道,并且甚至可包括更多声道,只要通过这个块的输出具有比输入到这个块的输入信号更多的声道即可。
通常,存在激励解码器530。在块530中实施的算法与在编码器侧的块520中采用的相应算法相适应。当阶段431输出从时域信号得到的频谱时,阶段530输出LPC域信号,其中采用频率/时间转换器440将频谱转换至时域。采用LPC合成阶段540将阶段530的输出数据转换回时域,LPC合成阶段540通过解码器侧产生和传输的LPC信息控制。然后,在块540之后,两个分支都具有时域信息,其根据开关控制信号切换以便最终获得音频信号,如单声信号、立体声信号或多声道信号。
已经示出了开关200以在两个分支之间切换,以便只有一个分支接收欲处理的信号,另一个分支不接收欲处理的信号。但是,在替换实施例中,开关也可配置在如音频编码器420和激励编码器520之后,这意味着,两个分支400和500并行处理相同的信号。但是,为了不加倍比特率,只选择通过这些分支400或500中的一个输出的信号写入输出比特流。然后,将进行决策阶段,从而使得写入比特流的信号将某些代价函数减至最少,其中代价函数可为产生的比特率或产生的感知失真或组合的比特率/失真代价函数。因此,在这个模式中或者在附图示出的模式中,决策阶段也可以闭环模式操作,以便保证最终只有这样的编码分支的输出被写入比特流,这样的编码分支的输出对于给定的感知失真而言具有最低的比特率,或者对于给定的比特率而言具有最低的感知失真。
通常,分支400中的处理为基于感知模型或信息汇集模型中的处理。因此,这个分支将接收声音的人类听觉系统模型化。相反地,分支500中的处理为产生激励、残余或LPC域中的信号。通常,分支500中的处理为语音模型或信息生成模型中的处理。对于语音信号,这个模型是产生声音的人类语音/声音生成系统的模型。但是,如果要对来自要求不同的声音生成模型的不同来源的声音进行编码,则分支500中的处理可不同。
尽管图1a至图2b是以装置的模块图形式示出的,但是这些附图同时也是方法的示例说明,其中块的功能相当于方法步骤。
图3a示出了用于在第一编码分支400和第二编码分支500的输出端产生已编码音频信号的音频编码器。此外,已编码音频信号优选地包括边信息,例如来自共用预处理阶段的预处理参数,或者如结合上述图所讨论的开关控制信息。
优选地,第一编码分支可操作用于根据第一编码算法编码音频中间信号195,其中第一编码算法具有信息汇集模型。第一编码分支400产生第一编码器输出信号,第一编码器输出信号为音频中间信号195的编码频谱信息表示。
此外,第二编码分支500适于根据第二编码算法编码音频中间信号195,第二编码算法具有信息来源模型并在第一编码器输出信号中产生用于表示中间音频信号的信息来源模型的编码参数。
音频编码器还包括共用预处理阶段,用于预处理音频输入信号99以获得音频中间信号195。特别地,共用预处理阶段可操作用于处理音频输入信号,从而使得音频中间信号195,即共用预处理算法的输出信号为音频输入信号的压缩版本。
一种用于产生已编码音频信号的优选音频编码方法,包括:步骤400,根据第一编码算法编码音频中间信号195,并且在第一输出信号中产生表示音频信号的编码频谱信息,第一编码算法具有信息汇集模型;步骤500,根据第二编码算法编码音频中间信号195,并在第二输出信号中产生用于表示中间信号195的信息来源模型的编码参数,第二编码算法具有信息来源模型;以及步骤100,共用地预处理音频输入信号99以获得音频中间信号195,其中,在共同预处理的步骤中,音频输入信号99被处理为使得音频中间信号195为音频输入信号99的压缩版本,其中对于某个部分的音频信号,已编码音频信号包括第一输出信号或第二输出信号。该方法优选地包括另一个步骤,采用第一编码算法或者采用第二编码算法对某个部分的音频中间信号进行编码,或者采用两个算法编码信号,并在已编码信号中输出第一编码算法的结果或者第二编码算法的结果。
通常,在第一编码分支400中采用的音频编码算法反映且模型化音频汇集的情况。音频信息的汇集点通常为人耳。人耳可以模型化为频率分析器。因此,第一编码分支输出编码频谱信息。优选地,第一编码分支还包括心理声学模型,用于额外地应用心理声学遮蔽阈值。当量化音频频谱值时,采用该心理声学遮蔽阈值,其中,优选地进行量化,从而通过量化隐藏在心理声学遮蔽阈值之下的音频频谱值引入量化噪声。
第二编码分支表示信息来源模型,信息来源模型反映音频声音的产生。因此,信息来源模型可包括语音模型,语音模型通过LPC阶段反映,也就是通过将时域信号转换至LPC域并通过随后处理LPC域残余信号,即激励信号反映。但是,替换的声音来源模型为用于表示某个仪器或任何其他声音产生器如存在于现实世界的特定声音来源的声音来源模型。当几个声音来源模型可利用时,可进行不同的声音来源模型之间的选择,基于SNR计算进行选择,也就是基于哪个来源模型为最适用于编码某个时间部分和/或频率部分的音频信号的模型的计算来进行选择。但是,优选地,编码分支之间的切换在时域中进行,也就是采用一种模型编码某个时间部分,而采用另一个编码分支编码中间信号的某个不同时间部分。
通过特定参数表示信息来源模型。关于语音模型,当考虑到现代语音编码器如AMR-WB+时,参数为LPC参数和编码激励参数。AMR-WB+包括ACELP编码器和TCX编码器。在这种情况下,编码激励参数可为通用增益码、噪声下限码和可变长度码。
通常,所有的信息来源模型将允许设定参数集合,其极其有效地反映原始音频信号。因此,第二编码分支的输出将为用于表示音频中间信号的信息来源模型的编码参数。
图3b示出了与图3a中所示的编码器相对应的解码器。通常,图3b示出了用于解码已编码音频信号以获得解码音频信号799的音频解码器。该解码器包括第一解码分支450,用于解码根据具有信息汇集模型的第一编码算法编码的已编码信号。音频解码器还包括第二解码分支550,用于解码根据具有信息来源模型的第二编码算法编码的已编码信息信号。音频解码器还包括组合器,用于组合来自第一解码分支450和第二解码分支550的输出信号以获得组合信号。将图3b中示出的作为解码音频中间信号699示出的组合信号输入到用于后处理解码音频中间信号699的共用后处理阶段,解码音频中间信号699为通过组合器600输出的组合信号,从而使得共用预处理阶段的输出信号为组合信号的扩展版本。因此,相比于解码音频中间信号699,解码音频信号799具有增强的信息内容。通过借助于预处理/后处理参数的共用后处理阶段提供信息扩展,其中预处理/后处理参数可从编码器传输至解码器,或者可从解码音频中间信号自身获得。但是,优选地,预处理/后处理参数从编码器传输至解码器,因为这个过程允许解码音频信号的性能改进。
图4a和图4b示出了两个不同的实施例,其区别在于开关200的位置。在图4a中,开关200定位在共用预处理阶段100的输出端和两个编码分支400、500的输入端之间。图4a的实施例保证音频信号仅输入一个编码分支中,而未连接至共用预处理阶段的输出端的的另一个编码分支不操作,因此另一个编码分支被切断或者处于休眠模式。这个实施例是优选的,因为未启动的编码分支不消耗电量和不消耗计算资源,其中电量对于移动设备是有用的,尤其是对于电池供电进而具有耗电量通用限制的移动设备。
但是,另一方面,当耗电量不成问题时,图4b的实施例可为优选的。在这个实施例中,两个编码分支400、500都是始终有效的,并且对于某个时间部分和/或某个频率部分,只有选定的编码分支的输出信号前传至比特流格式化器,比特流格式化器可实施为比特流多路复用器800。因此,在图4b的实施例中,两个编码分支都是始终有效的,并且通过决策阶段300选定的编码分支的输出信号进入至输出比特流,而另一个未被选定的编码分支的输出信号被抛弃,即不进入输出比特流,即已编码音频信号。
图4c示出了优选的解码器实施方式的又一个方面。在这种情况下,特别在第一解码器为时间混叠产生解码器或者通常所说频域解码器,且第二编码器为时域装置的情况下,为了避免听觉假信号,通过第一解码器450和第二解码器550输出的块或帧之间的边界不应该完全连续,尤其在切换情况下不应完全连续。因此,当第一解码器450的第一块为输出时,以及当对于随后的时间部分,第二解码器的块为输出时,优选地进行如交叉衰减块607示出的交叉衰减操作。为此,交叉衰减块607可如图4c中所示的607a、607b和607c实施。每个分支可具有归一化为0和1之间的加权因子m1的加权器,其中加权因子可如图609所指示的改变,这中交叉衰减规则保证进行连续平滑的交叉衰减,此外,还保证使用者不会察觉到任何音量变化。
在某些示例中,采用窗口产生第一解码器的最末块,其中该窗口实际上进行这个块的淡出。在这种情况下,块607a中的加权因子m1等于1,实际上,这个块根本不需要加权。
当发生从第二解码器至第一解码器的切换时,以及当第二解码器包括实际上将输出信号淡出至块的末端的窗口时,则不需要以“m2”指示的加权器,或者可将整个交叉衰减区内的加权参数设定为1。
当采用窗口操作产生切换后的第一块时,以及当这个窗口实际上进行淡入操作时,相对应的加权因子也可设定为1,因而实际上不需要加权器。因此,当最末块被窗口化以便通过解码器淡出时,以及当采用解码器窗口化切换之后的第一块以提供淡入时,根本不需要加权器607a、607b,通过加法器607c的加法操作足够。
在这种情况下,最末帧的淡出部分和下一个帧的淡入部分定义了在块609中指示的交叉衰减区。此外,优选地,在这种情况下,一个解码器的最末块与另一个解码器的第一块具有一定的时间重叠。
如果不需要或者不可能或者不期望交叉衰减操作,以及如果仅存在从一个解码器至另一个解码器的硬件开关时,则优选地在音频信号的静音通道或者至少在音频信号低能量通道中,即感知为静音或几乎静音的通道中进行此种切换。优选地,决策阶段300保证在这种实施例中,开关200只在切换事件之后的相对应时间部分具有下述能量时才被激活,该能量例如低于音频信号的平均能量,优选地低于与例如音频信号的两个或甚至更多个时间部分/帧相关的音频信号的平均能量的50%。
优选地,第二编码规则/解码规则为基于LPC的编码算法。在基于LPC的语音编码中,进行准周期性脉冲状激励信号段或信号部分与噪声状激励信号段或信号部分之间的区分。
准周期性脉冲状激励信号段,即具有特定音高的信号段,与噪声状激励信号采用不同的机制编码。当准周期性脉冲状激励信号与有声语音关联时,噪声状信号与无声语音相关。
例如,参考图5a至图5d。其中举例讨论了准周期性脉冲状信号段或信号部分和噪声状信号段或信号部分。具体地,将如图5a中所示的时域中的有声语音和如图5b中所示的频域中的语音作为准周期性脉冲状信号部分的例子来讨论,并结合图5c和图5d中的无声语音段作为噪声号信号部分的例子做讨论。通常可将语音分类为有声的、无声的或者混音的。图5a至图5d中示出了样本的有声段和无声段的时频域图。有声语音在时域中为准周期性的,在频域中为谐波结构,而无声语音为随机状且宽带的。另外,有声段的能量通常比无声段的能量高。有声语音的短时谱以其精细谐振共振峰结构为特征。精细谐振结构为语音的准周期性性的结果并可归因于声带的振动。共振峰结构(频谱包络)是由于来源和声带的交互作用的结果。声带由咽和口腔组成。“适合”有声语音的短时谱的频谱包络的形状与声道的传输特性和由声门脉冲导致的频谱倾斜(6dB/八度音阶)有关。频谱包络以一组称为共振峰的波峰为特征。共振峰为声道的共振模式。平均每个声道具有三个至五个低于5KHz的共振峰。通常发生在3KHz以下的前三个共振峰的振幅和位置在语音分析和感知中是非常重要的。较高的共振峰对于宽带及无声语音示例也相当重要。语音的质量与如下的物理语音生成系统有关。有声语音通过激励具有准周期性声门空气脉冲的声道而产生,准周期性性声门空气脉冲通过振动声带而产生。周期性脉冲的频率称作为基频或音高。无声语音通过推动空气通过声道的狭窄处而产生。鼻音是由于鼻道到声道的声学耦合而产生,而爆裂声是通过突然释放出累积在声道闭合处后方的空气压力而产生。
因此,音频信号的噪声状部分既不显示脉冲状时域结构,也不显示谐波频域结构,如图5c和图5d所示,其与图5a和图5b中举例示出的准周期性脉冲状部分不同。但是,如后面所概述的,噪声状部分和准周期性脉冲状部分之间的区别也可在用于激励信号的LPC之后观察得到。LPC是将声道模型化并从信号中提取声道激励的方法。
此外,准周期性脉冲状部分和噪声状部分可以以定时的方式发生,也就是表示,某个时间部分中的音频信号为噪声,另一个时间部分中的音频信号为准周期性的,也就是音调的。可替换地或者可附加地,信号的特征在不同的频带中可不同。因此,确定音频信号为噪声还是音调的也可频率选择性地进行,使得某个频带或某些频带被视为噪声,而其他频带可视为音调的。在这种情况下,某个时间部分的音频信号可包括音调组分和噪声组分。
图7a示出了语音生成系统的线性模型。这个系统假设两阶段式激励,即如图7c所示的有声语音的脉冲串行,以及如图7d所示的无声语音的随机噪声。将声道模型化为全极点滤波器70,其处理通过声门模型72产生的图7c或图7d的脉冲或噪声。全极点传输功能由表示共振峰的少数二极点共振器的级联形成。声门模型以二极点低通滤波器表示,唇辐射模型74以L(z)=1-z-1表示。最后,引入频谱修正因子76以补偿较高极点的低频效应。在个别语音表示中,频谱修正可忽略,唇辐射传输函数的0基本被声门极点之一所抵消。因此,图7a的系统可简化为图7b的全极点滤波器模型,其具有增益阶段77、前传路径78、反馈路径79和加法阶段80。在反馈路径79中存在预测滤波器81,并且图7b中示出的整个来源模型合成系统可采用如下的z域函数表示:
S(z)=g/(1-A(z))·X(z)
其中,g表示增益,A(z)是通过LPC分析确定的预测滤波器,X(z)是激励信号,S(z)是合成语音输出信号。
图7c和图7d给出采用线性来源系统模型的有声和无声语音合成的图解时域说明。这个系统和上述公式中的激励参数是未知的,必须由语音样本的有限集合确定。A(z)的系数采用输入信号的线性预测分析和滤波器系数的量化获得。在第p阶前传线性预测器中,语音序列的当前样本由p个过去的样本的线性组合预测。预测器系数可通过众所周知的算法如Levinson-Durbin算法或通常为自动修正法或反映法确定。通常通过LSF或LSP域中的多阶段向量量化进行已获得的滤波器系数的量化。
图7e示出了LPC分析块如图1a的510的更详细实施方式。音频信号输入确定滤波器信息A(z)的滤波器确定块。这个信息作为解码器需要的短期预测信息输出。在图4a的实施例中,也就是可能需要短期预测信息用于脉冲编码器输出信号。但是,当仅需要线84处的预测误差信号时,并不是必须输出短期预测信息。虽然如此,实际的预测滤波器85需要短期预测信息。在减法器86中,输入音频信号的当前样本并扣掉当前样本的预测值,使得对于这个样本,在线84处产生预测误差信号。在图7c或图7d中示意性地示出了这样的预测误差信号样本的序列,其中,为了简单起见,没有示出任何关于AC/DC组件等的问题。因此,图7c可视为一种已整流的脉冲状信号。
随后,将结合图6讨论合成分析CELP编码器,以便示出应用于这个算法的修改,如图10至图13所示。本CELP编码器在Andreas Spanias,IEEE论文集,82卷,第10期,1994年10月,1541-1582页的《语音编码:辅助教学综论》中详细讨论。如图6所示的CELP编码器包括长期预测组件60和短期预测组件62。此外,采用以64指示的编码本。在66应用感知加权滤波器W(z),并且在68提供误差最小化控制器。s(n)为时域输入信号。经过感知加权后,将加权信号输入到减法器69中,减法器69计算在块66的输出端的加权合成信号与原始加权信号sw(n)之间的误差。通常,通过LP分析阶段计算短期预测A(z)并量化其系数,如图7e所示。在于图7e中称作10a的LPC分析阶段的输出端基于预测误差信号计算包括长期预测增益g和向量量化索引的长期预测信息AL(z),即编码本参考值。然后,CELP算法采用例如高斯序列的编码本对在短期预测和长期预测后所获得的残余信号进行编码。ACELP算法具有特定代数设计的编码本,其中“A”表示“代数”。
编码本可包含更多或更少的向量,其中每个向量为数个样本长度。增益因子g按比例放大码向量,并且通过长期预测合成滤波器和短期预测合成滤波器滤波增益码。选定“最佳”码向量以便最小化在减法器69的输出端的感官式加权的均方差。通过如图6中所示的合成分析最优化完成CELP中的搜索处理。
对于特定情况,当帧为无声语音和有声语音的混合时,或者当出现语音超过音乐时,TCX编码可更适合用于编码LPC域中的激励。TCX编码直接处理频域中的加权信号,而不做任何激励产生的假设。因此,TCX编码比CELP编码更为通用,且不限于激励的有声或无声来源模型。TCX编码还是采用用于模型化语音状信号的共振峰的线性预测滤波器的来源滤波器模型编码。
在AMR-WB+状编码中,由AMR-WB+描述所知,进行不同的TCX模式与ACELP模式之间的选择。各种TCX模式之间的差异在于,对于不同的模式,分块快速傅立叶转换的长度是不同的,而且可通过合成分析方法或通过直接“前馈”模式选择最佳的模式。
如结合图2a和图2b所讨论的,共用预处理阶段100优选地包括联合多声道(环绕/联合立体声装置)101,此外,还包括带宽扩展阶段102。相对应地,解码器包括带宽扩展阶段701和随后连接的联合多声道阶段702。优选地,关于编码器,联合多声道阶段101连接在带宽扩展阶段102的前面,而在解码器侧,带宽扩展阶段701相对于信号处理方向而言连接在联合多声道阶段702的前面。但是,可替换地,共用预处理阶段可包括联合多声道阶段而无随后连接的带宽扩展阶段,或者包括带宽扩展阶段而无连接的联合多声道阶段。
图8的描述中示出了在编码器侧101a、101b和解码器侧702a、702b的联合多声道阶段的优选示例。将E个的原始输入声道输入降混器101a中,以便降混器产生K个传输声道,其中,数量K大于或等于1而小于E。
优选地,将E个输入声道输入产生参数信息的联合多声道参数分析器101b中。优选地,对这个参数信息进行熵编码,例如通过差别编码和随后的霍夫曼编码,或者可替换地通过随后的算术编码。将通过块101b输出的编码参数信息传输至可为图2b中的标号702的部分的参数解码器702b。参数解码器702b解码已传输参数信息,并将已解码参数信息前传至升混器702a。升混器702a接收K个已传输声道并产生L个输出声道,其中数目L大于K而小于或等于E。
参数信息可包括声道间位准差、声道间时间差、声道间相位差和/或声道间相干性测量值,如由BCC技术可知,或如由MPEG环绕标准可知且详细说明。已传输声道的数目可为用于超低比特率应用的单一单声声道,或者可包括可兼容的立体声应用,或者可包括可兼容的立体声信号,也就是两个声道。典型地,E个输入声道的数目可为5个或者可为甚至更多个。或者,E个输入声道也可为E个音频对象,如在空间音频对象编码(SAOC)的描述中所知。
在一个实施例中,降混器进行原始的E个输入声道的加权相加或不加权相加,或者E个输入音频对象的相加。在音频对象作为输入声道的情况下,联合多声道参数分析器101b将计算音频对象参数,例如音频对象之间的交互关联矩阵,优选地对各个时间部分计算,甚至更优地对各个频带计算。为此,整个频率范围可分割成至少10个频带,优选为32个或64个频带。
图9示出了图2a中的带宽扩展阶段102b和图2b中相对应的带宽扩展阶段701的实施方式的优选实施例。在编码器侧,带宽扩展块102优选地包括低通滤波块102b和高频带分析器102a。输入至带宽扩展块102的原始音频信号被低通滤波而产生低频带信号,然后将该低频带信号输入编码分支和/或开关。低通滤波器具有典型地在3kHz至10kHz的范围之间的截止频率。采用SBR可超过这个范围。此外,带宽扩展块102还包括高频带分析器,其用于计算带宽扩展参数,例如频谱包络参数信息、噪声本征参数信息、反相滤波参数信息,与高频带中的特定谐波线相关的进一步参数化信息以及如与频带复制相关的章节中的MPEG-4标准中详细讨论的附加参数。
在解码器侧,带宽扩展块701包括修补器701a、调整器701b和组合器701c。组合器701c对已解码低频带信号和通过调整器701b输出的已重建且已调整的高频带信号进行组合。由修补器提供调整器701b的输入信号,修补器被操作来从低频带信号导出高频带信号,例如通过频带复制或通常通过带宽扩展。通过修补器701a进行的修补可为以谐波方式或非谐波方式进行的修补。随后由调整器701b采用已传输的参数化的带宽扩展信息调整修补器701a产生的信号。
如图8和图9所示,所描述的这些块在优选实施例中可具有模式控制输入信号。这种模式控制输入信号来自决策阶段300的输出信号。在这种优选实施例中,相对应的块的特性可适于决策阶段的输出信号,即在优选实施例中,对音频信号的某个时间部分判定为语音或判定为音乐。优选地,模式控制只与这些块的功能中的一个以上有关,而不是与这些块的全部功能有关。例如,决策可只影响修补器701a而可不影响图9的其它块,或者例如可只影响图8中的联合多声道参数分析器101a而不影响图8中的其它块。优选地,本实施例通过共用预处理阶段提供的弹性,获得更高弹性且更高质量及较低位率的输出信号。但另一方面,在用于两种信号的共用预处理阶段中采用的算法允许实施有效的编码/解码方案。
图10a和图10b示出了决策阶段300的两种不同实施例。在图10a中指示开环决策。其中,决策阶段中的信号分析器300a具有特定的规则,以判定输入信号的特定时间部分或特定频率部分是否具有某个特性,该特性要求这个信号部分是通过第一编码分支400或通过第二编码分支500编码的。为此,信号分析器300a可分析输入共用预处理阶段的音频输入信号,或者可分析通过共用预处理阶段输出的音频信号,即音频中间信号,或者可分析在共用预处理阶段中的中间信号,如可为单声信号或可为图8中所示的具有k个声道的信号的降混信号的输出信号。在输出端,信号分析器300a产生切换决策用以控制在编码器侧的开关200以及在解码器侧的相对应的开关600或组合器600。
或者,决策阶段300可进行闭环决策,这意味着两个编码分支在音频信号的相同时间部分执行它们的任务,并通过相对应的解码分支300c、300d解码相同的已编码信号。装置300c和300d的输出信号输入至比较器300b,比较器300b将解码分支的输出信号与例如音频中间信号的相对应的部分进行比较。然后,根据代价函数如每个分支的信噪比,进行切换决策。这个闭环决策与开环决策相比具有更高的复杂性,但是这个复杂性只存在于编码器侧,而解码器不具有这个过程的任何缺点,因为解码器可有利地采用这个编码决策的输出信号。因此,从应用情况的复杂性和性能方面考虑,闭环模式是优选的,其中,例如在只有少数的编码器但有大量解码器,此外必须是智能且廉价的广播应用中,解码器的复杂性不成问题。
通过比较器300b应用的代价函数可为通过性能方面驱动的代价函数,或者可为通过噪声方面驱动的代价函数,或者可为通过比特率方面驱动的代价函数,或者可为通过比特率、性能、噪声(通过编码假信号引入,特别地,通过量化引入)的任何组合驱动的组合代价函数等。
优选地,第一编码分支和/或第二编码分支包括编码器侧和相对应的解码器侧的时间翘曲功能。在一个实施例中,第一编码分支包括:时间翘曲器模块,其根据部分的音频信号计算可变的翘曲特征;再采样器,其根据所确定的翘曲特征进行再采样;时域/频域转换器;以及熵编码器,其将时域/频域转换的结果转换成编码表示。可变的翘曲特征包含在已编码音频信号中。通过时间翘曲改进的解码分支读取并处理这个信息以最终获得无翘曲的时间标度的输出信号。例如,解码分支进行熵编码、解量化和从频域转换回时域。在时域中,可应用解翘曲并且在解翘曲后可进行相应的再采样操作以最后获得具有无翘曲的时间标度的离散音频信号。
根据本发明方法的若干实施例要求,本发明方法可在硬件中或者在软件中实施。实施例的操作可采用数字储存媒体,特别地,具有在其上储存的可电子读取的控制信号的盘片、DVD或CD,这些可电子读取的控制信号与可编程的计算机系统合作使得本发明的方法被操作。通常,本发明因此为具有储存在机读载体上的程序代码的计算机程序产物,当计算机程序产物在计算机上运行时,执行程序代码来操作本发明的方法。换句话说,本发明的方法因此为具有程序代码的计算机程序,程序代码用于计算机程序在计算机上运行时执行本发明方法中的至少一个。
本发明的已编码音频信号可储存在数字储存媒介上,或者可在传输媒介上传输,如无线传输媒介或者有线传输媒介如因特网。
上述实施例仅用于说明本发明的原理。应理解,本领域的其他技术人员显然可对此处描述的配置和细节进行修改和变化。因此,本发明的意图仅受附加的权利要求的范围的限制,而不受通过此处的实施例的说明及解释所呈现的具体细节的限制。

Claims (26)

1.一种用于产生已编码音频信号的音频编码器,包括:
第一编码分支(400),用于根据第一编码算法编码音频中间信号(195),并在第一编码分支输出信号中产生表示所述音频信号的已编码音频信息,所述第一编码算法具有信息汇集模型;
第二编码分支(500),用于根据第二编码算法编码音频中间信号(195),并在第二编码分支输出信号中产生用于表示所述中间信号(195)的信息来源模型的已编码参数,所述第二编码算法具有信息来源模型;以及
共用预处理阶段(100),用于预处理音频输入信号(99)以获得所述音频中间信号(195),其中所述共用预处理阶段(100)可操作用于处理所述音频输入信号(99)以使得所述音频中间信号(195)为所述音频输入信号(99)的压缩版本。
2.如权利要求1所述的音频编码器,还包括切换阶段(200),其连接在所述第一编码分支(400)和所述第二编码分支(500)的分支输入端或分支输出端之间,所述切换阶段通过开关控制信号控制。
3.如权利要求2所述的音频编码器,还包括决策阶段(300、300a、300b),用于在时域或频域中分析所述音频输入信号(99)或者所述音频中间信号(195)或者所述共用预处理阶段(100)中的中间信号,以便找到将在编码器输出信号中传输的信号的时间部分或频率部分,所述编码器输出信号为通过所述第一编码分支产生的已编码输出信号或者通过所述第二编码分支产生的已编码输出信号。
4.如前述任一项权利要求所述的音频编码器,其中所述共用预处理阶段(100)可操作用于计算共用预处理参数,并在所述已编码输出信号中引入所述预处理参数的编码表示,所述共用预处理参数用于不包含在所述音频中间信号(195)的第一部分和不同的第二部分中的部分所述音频输入信号,其中所述已编码输出信号还包括用于表示所述音频中间信号的第一部分的第一编码分支输出信号和用于表示所述音频中间信号的第二部分的第二编码分支输出信号。
5.如前述任一项权利要求所述的音频编码器,其中所述共用预处理阶段(100)包括联合多声道模块(101),所述联合多声道模块包括:
降混器(101a),用于产生多个降混声道,所述降混声道的数目大于或者等于1并且小于输入所述降混器(101a)的声道的数目;以及
多声道参数计算器(101b),用于计算多声道参数,以便采用所述多声道参数和所述降混声道的数目,所述原始声道的表示是可执行的。
6.如权利要求5所述的音频编码器,其中所述多声道参数为声道间位准差参数、声道间相关性或一致性参数、声道间相位差参数、声道间时间差参数、音频对象参数或方向或传播参数。
7.如前述任一项权利要求所述的音频编码器,其中所述共用预处理阶段(100)包括带宽扩展分析阶段(102),所述带宽扩展分析阶段(102)包括:
频带限制装置(102b),用于去除输入信号中的高频带,并用于产生低频带信号;以及
参数计算器(102a),用于计算被所述频带限制装置去除的所述高频带的带宽扩展参数,其中所述参数计算器(102)采用所述所计算的参数和所述低频带信号,使得带宽扩展输入信号的重建是可执行的。
8.如前述任一项权利要求所述的音频编码器,其中所述共用预处理阶段(100)包括联合多声道模块(101)、带宽扩展阶段(102)和用于在所述第一编码分支(400)和所述第二编码分支(500)之间切换的开关(200),
其中所述联合多声道阶段(101)的输出端连接至所述带宽扩展阶段(102)的输入端,所述带宽扩展阶段的输出端连接至所述开关(200)的输入端,所述开关的第一输出端连接至所述第一编码分支的输入端,所述开关的第二输出端连接至所述第二编码分支(500)的输入端,以及所述编码分支的输出端连接至比特流形成器(800)。
9.如权利要求3所述的音频编码器,其中所述决策阶段(300)可操作用于分析决策阶段输入信号,所述决策阶段输入信号用于搜索将通过所述第一编码分支(400)编码的部分,与所述第二编码分支(500)相比,所述第一编码分支(400)在某个比特率具有较佳的信噪比,其中所述决策阶段(300)可操作用于基于开环算法进行分析,或者基于闭环算法进行分析,所述开环算法没有已编码和再解码的信号,所述闭环算法采用已编码和再解码的信号。
10.如权利要求3所述的音频编码器,
其中所述共用预处理阶段具有特定数量的功能(101a、101b、102a、102b),并且其中至少一个功能通过决策阶段(300)的输出信号自适应,并且其中至少一个功能是非自适应的。
11.如前述任一项权利要求所述的音频编码器,
其中所述第一编码分支包括时间翘曲器模块,用于计算依赖于部分的所述音频信号的可变翘曲特征;
其中所述第一编码分支包括再采样器,用于根据预定的翘曲特征进行再采样;以及
其中所述第一编码分支包括时域/频域转换器和熵编码器,所述熵编码器用于将所述时域/频域转换的结果转换成编码表示;
其中所述可变翘曲特征包含在所述已编码音频信号中。
12.如前述任一项权利要求所述的音频编码器,其中所述共用预处理阶段可操作用于输出至少两个中间信号,并且其中,对于每个音频中间信号,设置所述第一编码分支、所述第二编码分支和用于在所述两个分支之间切换的开关。
13.一种用于产生已编码音频信号的音频编码方法,包括:
根据第一编码算法编码(400)音频中间信号(195),并在第一输出信号中产生表示所述音频信号的已编码频谱信息,所述第一编码算法具有信息汇集模型;
根据第二编码算法编码(500)音频中间信号(195),并在第二输出信号中产生用于表示所述中间信号(195)的信息来源模型的已编码参数,所述第二编码算法具有信息来源模型;以及
共用地预处理(100)音频输入信号(99)以获得所述音频中间信号(195),其中,在所述共用预处理的步骤中处理所述音频输入信号(99)以使得所述音频中间信号(195)为所述音频输入信号(99)的压缩版本,
其中,对于某个部分的所述音频信号,所述已编码音频信号包括第一输出信号或第二输出信号。
14.一种用于解码已编码音频信号的音频解码器,包括:
第一解码分支(430,440),用于解码根据具有信息汇集模型的第一编码算法编码的已编码信号;
第二解码分支(530,540),用于解码根据具有信息来源模型的第二编码算法编码的已编码信号;
组合器(600),用于组合来自所述第一解码分支(430,440)和所述第二解码分支(530,540)的输出信号以获得组合信号(699);以及
共用后处理阶段(700),用于处理所述组合信号(699)以使得所述共用后处理阶段的已解码输出信号(799)为所述组合信号(699)的扩展版本。
15.如权利要求14所述的音频解码器,其中所述组合器(600)包括开关,所述开关用于根据明显地或隐含地包含在所述已编码音频信号中的模式指示,切换来自所述第一解码分支(450)和所述第二解码分支(550)的已解码信号,使得所述组合音频信号(699)为连续的离散时域信号。
16.如权利要求14或15所述的音频解码器,其中所述组合器(600)包括交叉衰减器(607),用于在切换事件的情况下,在时域交叉衰减区内的一个解码分支(450,550)的输出信号和另一个解码分支(450,550)的输出信号之间交叉衰减。
17.如权利要求16所述的音频解码器,其中所述交叉衰减器(607)可操作用于加权在所述交叉衰减区内的所述解码分支输出信号的至少一个,并可操作用于将至少一个加权信号加至来自于另一个解码分支(607c)的加权信号或未加权信号,其中用于加权所述至少一个信号(607a、607b)的权值在所述交叉衰减区中为可变的。
18.如权利要求14至17任一项所述的音频解码器,其中所述共用预处理阶段包括联合多声道解码器(101)或带宽扩展处理器(102)的至少一个。
19.如权利要求18所述的音频解码器,
其中所述联合多声道解码器(702)包括参数解码器(702b)和通过参数解码器(702b)的输出信号控制的升混器(702a)。
20.如权利要求19所述的音频解码器,
其中所述带宽扩展处理器(702)包括:修补器(701a),用于产生高频带信号;调整器(701b),用于调整所述高频带信号;以及组合器(701c),用于组合所述已调整的高频带信号和低频带信号以获得带宽扩展信号。
21.如权利要求14至20任一项所述的音频解码器,其中所述第一解码分支(450)包括频域音频解码器,所述第二解码分支(550)包括时域语音解码器。
22.如权利要求14至20任一项所述的音频解码器,其中所述第一解码分支(450)包括频域音频解码器,所述第二解码分支(550)包括基于LPC的解码器。
23.如权利要求14至22任一项所述的音频解码器,
其中所述共用后处理阶段具有特定数量的功能(700、701、702),并且其中至少一个功能通过模式检测功能(601)自适应,并且其中至少一个功能是非自适应的。
24.一种用于解码已编码音频信号的音频解码方法,包括:
解码(450)根据具有信息汇集模型的第一编码算法编码的已编码信号;
解码(550)根据具有信息来源模型的第二编码算法编码的已编码信号;
组合(600)来自所述第一解码分支(430、440)和所述第二解码分支(530、540)的输出信号以获得组合信号(699);以及
共用地处理(700)所述组合信号(699),以便所述共用后处理阶段的已解码输出信号(799)为所述组合信号(799)的扩展版本。
25.一种计算机程序,用于当在计算机上运行时,执行权利要求14或权利要求24的方法。
26.一种已编码音频信号,包括:
第一编码分支输出信号,表示根据第一编码算法编码的音频信号的第一部分,所述第一编码算法具有信息汇集模型,所述第一编码分支输出信号具有表示所述音频信号的已编码频谱信息;
第二编码分支输出信号,表示所述音频信号的第二部分,与所述输出信号的第一部分不同,所述第二部分根据第二编码算法编码,所述第二编码算法具有信息来源模型,所述第二编码分支输出信号具有用于表示所述中间信号(195)的所述信息来源模型的已编码参数;以及
共用预处理参数,用于表示所述音频信号和所述音频信号的扩展版本之间的区别。
CN2009801270946A 2008-07-11 2009-07-06 具有共用预处理的低比特率音频编码/解码方案 Active CN102124517B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US7986108P 2008-07-11 2008-07-11
US61/079,861 2008-07-11
EP08017662 2008-10-08
EP08017662.1 2008-10-08
EP09002272A EP2144231A1 (en) 2008-07-11 2009-02-18 Low bitrate audio encoding/decoding scheme with common preprocessing
EP09002272.4 2009-02-18
PCT/EP2009/004873 WO2010003617A1 (en) 2008-07-11 2009-07-06 Low bitrate audio encoding/decoding scheme with common preprocessing

Publications (2)

Publication Number Publication Date
CN102124517A true CN102124517A (zh) 2011-07-13
CN102124517B CN102124517B (zh) 2012-12-19

Family

ID=40750900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009801270946A Active CN102124517B (zh) 2008-07-11 2009-07-06 具有共用预处理的低比特率音频编码/解码方案

Country Status (19)

Country Link
US (1) US8804970B2 (zh)
EP (2) EP2144231A1 (zh)
JP (1) JP5325294B2 (zh)
KR (3) KR101346894B1 (zh)
CN (1) CN102124517B (zh)
AR (1) AR072423A1 (zh)
AT (1) ATE540401T1 (zh)
AU (1) AU2009267432B2 (zh)
BR (4) BR122020025776B1 (zh)
CA (1) CA2730237C (zh)
CO (1) CO6341673A2 (zh)
ES (1) ES2380307T3 (zh)
HK (1) HK1156723A1 (zh)
MX (1) MX2011000383A (zh)
PL (1) PL2311035T3 (zh)
RU (1) RU2483365C2 (zh)
TW (1) TWI463486B (zh)
WO (1) WO2010003617A1 (zh)
ZA (1) ZA201009209B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105612577A (zh) * 2013-07-22 2016-05-25 弗朗霍夫应用科学研究促进协会 针对音频声道及音频对象的音频编码及解码的概念
CN105745705A (zh) * 2013-10-18 2016-07-06 弗朗霍夫应用科学研究促进协会 使用语音相关的频谱整形信息编码音频信号和解码音频信号的概念
CN105793924A (zh) * 2013-10-31 2016-07-20 弗朗霍夫应用科学研究促进协会 用于使用修改时域激励信号的错误隐藏提供经解码的音频信息的音频解码器及方法
CN107170458A (zh) * 2012-05-14 2017-09-15 杜比国际公司 压缩和解压缩高阶高保真度立体声响复制信号表示的方法及装置
CN107408389A (zh) * 2015-03-09 2017-11-28 弗劳恩霍夫应用研究促进协会 用于编码多声道信号的音频编码器及用于解码经编码的音频信号的音频解码器
CN109036457A (zh) * 2018-09-10 2018-12-18 广州酷狗计算机科技有限公司 恢复音频信号的方法和装置
CN109074812A (zh) * 2016-01-22 2018-12-21 弗劳恩霍夫应用研究促进协会 用于具有全局ild和改进的中/侧决策的mdct m/s立体声的装置和方法
US10262662B2 (en) 2013-10-31 2019-04-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder and method for providing a decoded audio information using an error concealment based on a time domain excitation signal
US10277998B2 (en) 2013-07-22 2019-04-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for low delay object metadata coding
US10304470B2 (en) 2013-10-18 2019-05-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information
CN109863555A (zh) * 2016-07-29 2019-06-07 弗劳恩霍夫应用研究促进协会 部分合成之前使用频谱分析的非均匀滤波器组的时域混叠降低
CN110164459A (zh) * 2013-06-21 2019-08-23 弗朗霍夫应用科学研究促进协会 Fdns应用前实现将mdct频谱衰落到白噪声的装置及方法
US10701504B2 (en) 2013-07-22 2020-06-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for realizing a SAOC downmix of 3D audio content
CN113129913A (zh) * 2019-12-31 2021-07-16 华为技术有限公司 音频信号的编解码方法和编解码装置
CN113994425A (zh) * 2019-06-24 2022-01-28 高通股份有限公司 基于为心理声学音频编解码确定的比特分配对空间分量进行量化

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2144231A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
AU2009267531B2 (en) * 2008-07-11 2013-01-10 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. An apparatus and a method for decoding an encoded audio signal
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
EP2311034B1 (en) * 2008-07-11 2015-11-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding frames of sampled audio signals
WO2010003544A1 (en) * 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft Zur Förderung Der Angewandtern Forschung E.V. An apparatus and a method for generating bandwidth extension output data
KR101797033B1 (ko) * 2008-12-05 2017-11-14 삼성전자주식회사 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법
AU2011237882B2 (en) 2010-04-09 2014-07-24 Dolby International Ab MDCT-based complex prediction stereo coding
KR101697550B1 (ko) 2010-09-16 2017-02-02 삼성전자주식회사 멀티채널 오디오 대역폭 확장 장치 및 방법
RU2596584C2 (ru) * 2010-10-25 2016-09-10 Войсэйдж Корпорейшн Кодирование обобщенных аудиосигналов на низких скоростях передачи битов и с низкой задержкой
US9037456B2 (en) 2011-07-26 2015-05-19 Google Technology Holdings LLC Method and apparatus for audio coding and decoding
EP2600343A1 (en) 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for merging geometry - based spatial audio coding streams
US9043201B2 (en) * 2012-01-03 2015-05-26 Google Technology Holdings LLC Method and apparatus for processing audio frames to transition between different codecs
US9489962B2 (en) * 2012-05-11 2016-11-08 Panasonic Corporation Sound signal hybrid encoder, sound signal hybrid decoder, sound signal encoding method, and sound signal decoding method
KR102561265B1 (ko) * 2012-11-13 2023-07-28 삼성전자주식회사 부호화 모드 결정방법 및 장치, 오디오 부호화방법 및 장치와, 오디오 복호화방법 및 장치
RU2612581C2 (ru) * 2012-11-15 2017-03-09 Нтт Докомо, Инк. Устройство кодирования аудио, способ кодирования аудио, программа кодирования аудио, устройство декодирования аудио, способ декодирования аудио и программа декодирования аудио
US9548056B2 (en) * 2012-12-19 2017-01-17 Dolby International Ab Signal adaptive FIR/IIR predictors for minimizing entropy
HUE032831T2 (en) 2013-01-08 2017-11-28 Dolby Int Ab Model-based prediction in a critically sampled filter block
MY177336A (en) * 2013-01-29 2020-09-12 Fraunhofer Ges Forschung Concept for coding mode switching compensation
JP6179122B2 (ja) * 2013-02-20 2017-08-16 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
EP2830058A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Frequency-domain audio coding supporting transform length switching
EP2830051A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
EP2830053A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
US9666202B2 (en) 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
RU2643646C2 (ru) 2013-11-13 2018-02-02 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Кодер для кодирования аудиосигнала, система передачи аудио и способ определения значений коррекции
FR3013496A1 (fr) * 2013-11-15 2015-05-22 Orange Transition d'un codage/decodage par transformee vers un codage/decodage predictif
US9564136B2 (en) * 2014-03-06 2017-02-07 Dts, Inc. Post-encoding bitrate reduction of multiple object audio
EP4336500A3 (en) 2014-04-17 2024-04-03 VoiceAge EVS LLC Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP2980797A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
CN104269173B (zh) * 2014-09-30 2018-03-13 武汉大学深圳研究院 切换模式的音频带宽扩展装置与方法
CN106205628B (zh) 2015-05-06 2018-11-02 小米科技有限责任公司 声音信号优化方法及装置
DE102016214693B4 (de) 2016-08-08 2018-05-09 Steinbeiss-Forschungszentrum, Material Engineering Center Saarland Elektrisch leitendes Kontaktelement für einen elektrischen Steckverbinder, elektrischer Steckverbinder, der ein solches Kontaktelement umfasst, und Verfahren zum Einschließen eines Hilfsstoffes unter der Kontaktoberfläche eines solchen Kontaktelements
US10825467B2 (en) * 2017-04-21 2020-11-03 Qualcomm Incorporated Non-harmonic speech detection and bandwidth extension in a multi-source environment
KR102623514B1 (ko) * 2017-10-23 2024-01-11 삼성전자주식회사 음성신호 처리장치 및 그 동작방법
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
CN111656442A (zh) * 2017-11-17 2020-09-11 弗劳恩霍夫应用研究促进协会 使用量化和熵编码来编码或解码定向音频编码参数的装置和方法

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3317470B2 (ja) * 1995-03-28 2002-08-26 日本電信電話株式会社 音響信号符号化方法、音響信号復号化方法
JP4132109B2 (ja) * 1995-10-26 2008-08-13 ソニー株式会社 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置
JPH10124092A (ja) * 1996-10-23 1998-05-15 Sony Corp 音声符号化方法及び装置、並びに可聴信号符号化方法及び装置
SE9700772D0 (sv) * 1997-03-03 1997-03-03 Ericsson Telefon Ab L M A high resolution post processing method for a speech decoder
US6447490B1 (en) * 1997-08-07 2002-09-10 James Zhou Liu Vagina cleaning system for preventing pregnancy and sexually transmitted diseases
EP0907258B1 (en) * 1997-10-03 2007-01-03 Matsushita Electric Industrial Co., Ltd. Audio signal compression, speech signal compression and speech recognition
EP1147514B1 (en) * 1999-11-16 2005-04-06 Koninklijke Philips Electronics N.V. Wideband audio transmission system
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
EP1374230B1 (en) * 2001-11-14 2006-06-21 Matsushita Electric Industrial Co., Ltd. Audio coding and decoding
US6785645B2 (en) * 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
TW564400B (en) * 2001-12-25 2003-12-01 Univ Nat Cheng Kung Speech coding/decoding method and speech coder/decoder
EP1489599B1 (en) * 2002-04-26 2016-05-11 Panasonic Intellectual Property Corporation of America Coding device and decoding device
WO2004082288A1 (en) * 2003-03-11 2004-09-23 Nokia Corporation Switching between coding schemes
US7756709B2 (en) * 2004-02-02 2010-07-13 Applied Voice & Speech Technologies, Inc. Detection of voice inactivity within a sound stream
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
ATE371926T1 (de) * 2004-05-17 2007-09-15 Nokia Corp Audiocodierung mit verschiedenen codierungsmodellen
US7596486B2 (en) * 2004-05-19 2009-09-29 Nokia Corporation Encoding an audio signal using different audio coder modes
US8423372B2 (en) * 2004-08-26 2013-04-16 Sisvel International S.A. Processing of encoded signals
US7411528B2 (en) * 2005-07-11 2008-08-12 Lg Electronics Co., Ltd. Apparatus and method of processing an audio signal
US7742913B2 (en) * 2005-10-24 2010-06-22 Lg Electronics Inc. Removing time delays in signal paths
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
KR100921453B1 (ko) * 2006-02-07 2009-10-13 엘지전자 주식회사 부호화/복호화 장치 및 방법
WO2008000316A1 (en) * 2006-06-30 2008-01-03 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and audio processor having a dynamically variable harping characteristic
US7873511B2 (en) * 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
KR101434198B1 (ko) * 2006-11-17 2014-08-26 삼성전자주식회사 신호 복호화 방법
KR100964402B1 (ko) * 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
KR100883656B1 (ko) * 2006-12-28 2009-02-18 삼성전자주식회사 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치
KR101379263B1 (ko) * 2007-01-12 2014-03-28 삼성전자주식회사 대역폭 확장 복호화 방법 및 장치
KR101452722B1 (ko) * 2008-02-19 2014-10-23 삼성전자주식회사 신호 부호화 및 복호화 방법 및 장치
EP2144231A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing

Cited By (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107170458A (zh) * 2012-05-14 2017-09-15 杜比国际公司 压缩和解压缩高阶高保真度立体声响复制信号表示的方法及装置
CN110164459A (zh) * 2013-06-21 2019-08-23 弗朗霍夫应用科学研究促进协会 Fdns应用前实现将mdct频谱衰落到白噪声的装置及方法
CN110164459B (zh) * 2013-06-21 2024-03-26 弗朗霍夫应用科学研究促进协会 Fdns应用前实现将mdct频谱衰落到白噪声的装置及方法
US11869514B2 (en) 2013-06-21 2024-01-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for improved signal fade out for switched audio coding systems during error concealment
US11776551B2 (en) 2013-06-21 2023-10-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for improved signal fade out in different domains during error concealment
US11337019B2 (en) 2013-07-22 2022-05-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for low delay object metadata coding
US11910176B2 (en) 2013-07-22 2024-02-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for low delay object metadata coding
US11984131B2 (en) 2013-07-22 2024-05-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for audio encoding and decoding for audio channels and audio objects
CN105612577B (zh) * 2013-07-22 2019-10-22 弗朗霍夫应用科学研究促进协会 针对音频声道及音频对象的音频编码及解码的概念
US10659900B2 (en) 2013-07-22 2020-05-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for low delay object metadata coding
US10701504B2 (en) 2013-07-22 2020-06-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for realizing a SAOC downmix of 3D audio content
US10715943B2 (en) 2013-07-22 2020-07-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for efficient object metadata coding
US11463831B2 (en) 2013-07-22 2022-10-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for efficient object metadata coding
US10277998B2 (en) 2013-07-22 2019-04-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for low delay object metadata coding
CN105612577A (zh) * 2013-07-22 2016-05-25 弗朗霍夫应用科学研究促进协会 针对音频声道及音频对象的音频编码及解码的概念
US11330386B2 (en) 2013-07-22 2022-05-10 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for realizing a SAOC downmix of 3D audio content
US11227616B2 (en) 2013-07-22 2022-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for audio encoding and decoding for audio channels and audio objects
US10304470B2 (en) 2013-10-18 2019-05-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information
CN105745705B (zh) * 2013-10-18 2020-03-20 弗朗霍夫应用科学研究促进协会 编码和解码音频信号的编码器、解码器及相关方法
US11798570B2 (en) 2013-10-18 2023-10-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information
US11881228B2 (en) 2013-10-18 2024-01-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information
US10373625B2 (en) 2013-10-18 2019-08-06 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information
US10909997B2 (en) 2013-10-18 2021-02-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information
US10607619B2 (en) 2013-10-18 2020-03-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information
CN105745705A (zh) * 2013-10-18 2016-07-06 弗朗霍夫应用科学研究促进协会 使用语音相关的频谱整形信息编码音频信号和解码音频信号的概念
US10249309B2 (en) 2013-10-31 2019-04-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal
US10283124B2 (en) 2013-10-31 2019-05-07 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung, E.V. Audio decoder and method for providing a decoded audio information using an error concealment based on a time domain excitation signal
US10249310B2 (en) 2013-10-31 2019-04-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal
US10381012B2 (en) 2013-10-31 2019-08-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder and method for providing a decoded audio information using an error concealment based on a time domain excitation signal
US10373621B2 (en) 2013-10-31 2019-08-06 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder and method for providing a decoded audio information using an error concealment based on a time domain excitation signal
US10339946B2 (en) 2013-10-31 2019-07-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal
US10262667B2 (en) 2013-10-31 2019-04-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal
US10262662B2 (en) 2013-10-31 2019-04-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder and method for providing a decoded audio information using an error concealment based on a time domain excitation signal
CN105793924A (zh) * 2013-10-31 2016-07-20 弗朗霍夫应用科学研究促进协会 用于使用修改时域激励信号的错误隐藏提供经解码的音频信息的音频解码器及方法
US10964334B2 (en) 2013-10-31 2021-03-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal
US10269358B2 (en) 2013-10-31 2019-04-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung, E.V. Audio decoder and method for providing a decoded audio information using an error concealment based on a time domain excitation signal
US10269359B2 (en) 2013-10-31 2019-04-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder and method for providing a decoded audio information using an error concealment based on a time domain excitation signal
US10276176B2 (en) 2013-10-31 2019-04-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung, E.V. Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal
US10290308B2 (en) 2013-10-31 2019-05-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal
CN105793924B (zh) * 2013-10-31 2019-11-22 弗朗霍夫应用科学研究促进协会 使用错误隐藏提供经解码的音频信息的音频解码器及方法
US11238874B2 (en) 2015-03-09 2022-02-01 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
US10777208B2 (en) 2015-03-09 2020-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
CN112634913B (zh) * 2015-03-09 2024-04-09 弗劳恩霍夫应用研究促进协会 用于编码的音频编码器及用于解码的音频解码器
US11107483B2 (en) 2015-03-09 2021-08-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
US11741973B2 (en) 2015-03-09 2023-08-29 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
US11881225B2 (en) 2015-03-09 2024-01-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
CN107408389A (zh) * 2015-03-09 2017-11-28 弗劳恩霍夫应用研究促进协会 用于编码多声道信号的音频编码器及用于解码经编码的音频信号的音频解码器
CN112634913A (zh) * 2015-03-09 2021-04-09 弗劳恩霍夫应用研究促进协会 用于编码的音频编码器及用于解码的音频解码器
CN107408389B (zh) * 2015-03-09 2021-03-02 弗劳恩霍夫应用研究促进协会 用于编码的音频编码器及用于解码的音频解码器
CN109074812A (zh) * 2016-01-22 2018-12-21 弗劳恩霍夫应用研究促进协会 用于具有全局ild和改进的中/侧决策的mdct m/s立体声的装置和方法
US11842742B2 (en) 2016-01-22 2023-12-12 Fraunhofer-Gesellschaft zur Foerderung der angewandten Forschung V. Apparatus and method for MDCT M/S stereo with global ILD with improved mid/side decision
CN109074812B (zh) * 2016-01-22 2023-11-17 弗劳恩霍夫应用研究促进协会 用于具有全局ild和改进的中/侧决策的mdct m/s立体声的装置和方法
CN109863555A (zh) * 2016-07-29 2019-06-07 弗劳恩霍夫应用研究促进协会 部分合成之前使用频谱分析的非均匀滤波器组的时域混叠降低
CN109863555B (zh) * 2016-07-29 2023-09-08 弗劳恩霍夫应用研究促进协会 用于处理音频信号的方法和音频处理器
CN109036457A (zh) * 2018-09-10 2018-12-18 广州酷狗计算机科技有限公司 恢复音频信号的方法和装置
US11315582B2 (en) 2018-09-10 2022-04-26 Guangzhou Kugou Computer Technology Co., Ltd. Method for recovering audio signals, terminal and storage medium
CN113994425A (zh) * 2019-06-24 2022-01-28 高通股份有限公司 基于为心理声学音频编解码确定的比特分配对空间分量进行量化
CN113129913A (zh) * 2019-12-31 2021-07-16 华为技术有限公司 音频信号的编解码方法和编解码装置
CN113129913B (zh) * 2019-12-31 2024-05-03 华为技术有限公司 音频信号的编解码方法和编解码装置

Also Published As

Publication number Publication date
BR122020025776B1 (pt) 2021-09-28
ATE540401T1 (de) 2012-01-15
ZA201009209B (en) 2011-09-28
MX2011000383A (es) 2011-02-25
EP2144231A1 (en) 2010-01-13
PL2311035T3 (pl) 2012-06-29
US8804970B2 (en) 2014-08-12
BR122021017287B1 (pt) 2022-02-22
KR101645783B1 (ko) 2016-08-04
JP2011527457A (ja) 2011-10-27
CA2730237A1 (en) 2010-01-14
EP2311035A1 (en) 2011-04-20
TW201007702A (en) 2010-02-16
TWI463486B (zh) 2014-12-01
KR20130014642A (ko) 2013-02-07
AR072423A1 (es) 2010-08-25
RU2011100133A (ru) 2012-07-20
JP5325294B2 (ja) 2013-10-23
CA2730237C (en) 2015-03-31
AU2009267432A1 (en) 2010-01-14
CO6341673A2 (es) 2011-11-21
KR20110040899A (ko) 2011-04-20
AU2009267432B2 (en) 2012-12-13
KR101346894B1 (ko) 2014-01-02
RU2483365C2 (ru) 2013-05-27
KR20130092604A (ko) 2013-08-20
HK1156723A1 (en) 2012-06-15
BR122020025711B1 (pt) 2021-10-13
BR122021017391B1 (pt) 2022-02-22
EP2311035B1 (en) 2012-01-04
US20110200198A1 (en) 2011-08-18
WO2010003617A1 (en) 2010-01-14
CN102124517B (zh) 2012-12-19
ES2380307T3 (es) 2012-05-10

Similar Documents

Publication Publication Date Title
CN102124517B (zh) 具有共用预处理的低比特率音频编码/解码方案
US11682404B2 (en) Audio decoding device and method with decoding branches for decoding audio signal encoded in a plurality of domains
US8959017B2 (en) Audio encoding/decoding scheme having a switchable bypass
CN102177426B (zh) 多分辨率切换音频编码/解码方案

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CI01 Publication of corrected invention patent application

Correction item: Figure 10A

Correct: Correct

False: Mo Hu

Number: 51

Volume: 28

CI03 Correction of invention patent

Correction item: Figure 10A

Correct: Correct

False: Mo Hu

Number: 51

Page: Description

Volume: 28

ERR Gazette correction

Free format text: CORRECT: FIGURE 10A; FROM: FUZZY TO: CORRECT

RECT Rectification