CN101405792A - 用于在音频解码器中对信号进行后处理的方法 - Google Patents
用于在音频解码器中对信号进行后处理的方法 Download PDFInfo
- Publication number
- CN101405792A CN101405792A CNA200780010053XA CN200780010053A CN101405792A CN 101405792 A CN101405792 A CN 101405792A CN A200780010053X A CNA200780010053X A CN A200780010053XA CN 200780010053 A CN200780010053 A CN 200780010053A CN 101405792 A CN101405792 A CN 101405792A
- Authority
- CN
- China
- Prior art keywords
- signal
- module
- frequency
- temporal envelope
- envelope
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000012805 post-processing Methods 0.000 title claims abstract description 14
- 230000002123 temporal effect Effects 0.000 claims abstract description 34
- 238000007493 shaping process Methods 0.000 claims abstract description 26
- 238000007906 compression Methods 0.000 claims abstract description 22
- 230000006835 compression Effects 0.000 claims abstract description 22
- 238000005086 pumping Methods 0.000 claims description 25
- 238000013459 approach Methods 0.000 claims description 2
- 238000004590 computer program Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims 1
- 230000001960 triggered effect Effects 0.000 claims 1
- 230000005284 excitation Effects 0.000 abstract description 7
- 230000006870 function Effects 0.000 description 12
- 238000005070 sampling Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 9
- 238000001914 filtration Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005469 granulation Methods 0.000 description 2
- 230000003179 granulation Effects 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及一种用于在音频解码器中对通过激励信号的时间和频率整形(805,807)而重构的信号进行后处理的方法,该激励信号根据第一频带中的估计的参数获得,所述时间和频率整形至少基于第二频带中的时间包络以及所接收和解码的(801,802)频率包络来执行。所述方法如下:一旦已经执行了所述整形(805,807),接下来进行将所述重构信号的幅度和所述所接收和解码的时间包络(σ)进行比较的步骤,以及,如果超出所述时间包络的至少一个门限,则向所述重构信号施加幅度压缩。本发明涉及一种用于实施本发明方法的后处理模块,并涉及音频解码器。它用于传送和存储诸如音频信号(语音、音乐等)的数字信号。
Description
技术领域
本发明涉及一种用于在音频解码器中对信号进行后处理(post-processing)的方法。
本发明发现了对于传送和存储诸如音频信号(语音、音乐等)的数字信号特别有益的应用。
背景技术
存在用于数字化和压缩音频语音、音乐等信号的各种技术。最通常的方法是诸如PCM和ADPCM编码的“波形编码”方法、诸如码激励线性预测(CELP:code excited linear prediction)编码的“参数合成分析编码(parametricanalysis by synthesis coding)”方法、和“子带或变换感知编码(sub-band ortransform perceptual coding)”方法。
例如,在″Vector Quantization and Signal Compression″,A.Gersho and R.M.Gray,Kluwer Academic Publisher,1992、和″Speech Coding and Synthesis″,B.Kleijn and K.K.Paliwal,Editors,Elsevier,1995中描述了这些用于对音频信号进行编码的经典技术。
在传统的语音编码中,编码器以固定的比特率生成比特流。这个固定比特率约束简化了编码器和解码器(编解码器)的实现和使用。这样的系统的示例是:以64kbps进行编码的ITU-T G.711、以8kbps进行编码的ITU-T G.729、和位于12.2kbps的GSM-EFR系统。
在诸如移动电话和基于IP的话音传输(voice over IP)的某些应用中,优选地生成可变比特率的比特流,比特率的值取自于预定义的设置。
比固定比特率编码更为灵活的多比特率编码技术包括:
·通过源和/或信道控制的多型编码,例如用于AMR-NB、AMR-WB、SMV、和VMR-WB系统中;
·生成因为其包括核心比特率和一个或更多增强层而被称为分级(hierarchical)的比特流的分级(“可伸缩”)编码。48kbps、56kbps和64kbps的G.722系统是比特率可伸缩编码的简单示例。MPEG-4CELP编解码器是比特率和带宽可伸缩的,这样的编码器的其他示例可以在B.Kovesi、D.Massaloux、A.Sollaud的论文“A Scalable Speech and Audio Coding Scheme withContinuous Bit rate Flexibility”,ICASSP 2004、和H.Taddei等人的论文“AScalable Three Bit rate(8,14.2 and 24kbps)Audio Coder”,107th ConventionAES,1999中发现;
·多描述编码。
本发明更具体地涉及分级编码。
例如,在Y.Hiwasaki、T.Mori、H.Ohmuro、J.Ikedo、D.Tokumoto和A.Kataoka的论文“Scalable Speech Coding Technology for High-QualityUbiquitous Communications”,NTT Technical Review,March 2004中图示了分级音频编码的基本概念。比特流包括基本层和一个或更多增强层。在确保最小编码质量的情况下,通过已知为“核心编解码器”的编解码器以固定的低比特率来生成基本层;解码器必须接收这个层以维持可接受的质量级别。增强层用于增强质量;解码器可以不接收它们的全部。分级编码的主要好处在于它简单地通过截短比特流来使得比特率能够被适应。可能的层数(即,可能的比特流的截短数)定义了编码粒度:如果比特流包括很少的层(两个到四个层的量级)且具有4kbps到8kbps的量级的增量,则使用表达“强粒度”;表达“精细粒度编码”是指具有1kbps量级的增量的大量层。
本发明更具体地涉及使用电话波段中的CELP核心编码器和一个或更多宽带增强层的比特率和带宽可伸缩编码技术。在上述H.Taddei等人的论文中给出了具有位于8kbps、14.2和24kbps的强粒度的这样的系统的示例,并且在上述B.Kovesi等人的论文中给出了位于6.4kbps到32kbps的精细粒度的这样的系统的示例。
在2004年,ITU-T发起了用于核心分级编码器的草案标准。这个G.729EV标准(EV代表“嵌入式可变比特率”)是对于著名的G.729编码器标准的补充。G.729EV标准的目标是获得用于以从8kbps到32kbps的比特率在从窄带(300赫兹(Hz)-3400Hz)到宽带(50Hz-7000Hz)的波段中产生信号以用于对话服务的G.729核心分级编码器。这个编码器固有地能够与G.729设备交互工作,这确保了与现有的基于IP的话音传输设备的兼容性。
响应于这个草案,已经具体地提出了三层编码系统,其包括以8kbps-12kbps的级联CELP编码、接下来的以14kpbs的参数波段扩充(expansion)、和然后的以14到32kbps的变换编码。这个编码器已知为ITU-TSG16/WP3 D214编码器(ITU-T,COM 16,D214(WP 3/16),“High leveldescription of the scalable 8kbps-32kbps algorithm submitted to the QualificationTest by Matsushita,Mindspeed and Siemens(由Matsushita、Mindspeed和Siemens向合格性测试提交的可伸缩8kbps到32kbps算法的高级描述)”,Q.10/16,Study Period 2005-2008,Geneva,26 July-5 August 2005)。
波段扩充概念涉及对信号的高波段进行编码。在本发明的上下文中,以在从50Hz到7000Hz的可用波段之上的16kHz对输入音频信号进行采样。对于上面所指的ITU-T SG16/WP3 D214编码器,高波段典型地与在3400Hz到7000Hz范围内的频率对应。在编码器中基于提取时间和频率包络使用波段扩充技术来对这个波段进行编码,所述包络然后在解码器中被施加到以8kHz进行采样的、根据在低波段(在50Hz到3400Hz范围内)中估计的参数而在高波段中重构的合成激励信号。低波段下面被称为“第一频带”,而高波段被称为“第二频带”。
图1是这个波段扩充技术的图。
在编码器中,通过带通滤波器100隔离位于3400Hz到7000Hz的原始信号的高波段分量。然后,通过模块101和102分别计算信号的时间和频率包络。在块103中以2kpbs对包络进行联合量化。
在解码器中,重构模块104根据级联CELP解码器的参数来重构合成激励。通过去量化器块105对时间和频率包络进行解码。然后通过伸缩模块106(时间包络)和滤波器模块107(频率包络)对来自重构模块104的合成激励信号进行整形。
因此,刚刚已经参考ITU-T SG16/WP3 D214编解码器描述的波段扩充机制依赖于通过时间和频率包络的方式形成合成激励信号。然而,若没有激励与整形之间的耦合,则很难应用这种模型,并且导致以由于严重超出上面幅度限制而非常容易听见的局部“卡嗒声”形式的典型后果(artifacts)。
发明内容
因此,本发明的主题要解决的技术问题在于提出一种用于在音频解码器中对通过激励信号的时间和频率整形而重构的信号进行后处理的方法,该激励信号根据第一频带中估计的参数获得,该方法应该防止通过对合成激励信号进行整形而引起的典型后果,基于第二频带中的时间包络以及所接收和解码的频率包络来进行所述时间和频率整形。
对于所陈述的技术问题,根据本发明的解决方案包括所述方法,该方法包括:将所述重构信号的幅度和所述所接收和解码的时间包络进行比较的步骤,以及,如果超出作为所述时间包络的函数的门限,则向所述重构信号施加幅度压缩。
因此,本发明的方法通过使用幅度压缩来后处理第二频带(高波段)中的由解码器供应的音频信号,而补偿了缺少在激励和整形之间的充分耦合。
在一个实施例中,如果所述幅度大于作为所述所接收和解码的时间包络的函数的触发门限,则所述幅度压缩包括向所述重构信号施加线性衰减。
要注意,除了限制了所述信号的幅度以及因此与高幅度相关联的典型后果之外,本发明的方法在触发门限可变的意义上具有自适应的优点,这是因为它跟踪所接收和解码的时间包络的值。
本发明还涉及一种包括程序代码指令的计算机程序,当在计算机中执行所述程序时,所述程序代码指令执行本发明的后处理方法。
本发明进一步涉及一种用于在音频解码器中对通过激励信号的整形而重构的信号进行后处理的模块,该激励信号根据第一频带中的估计的参数获得,所述时间和频率整形基于第二频带中的时间包络以及所接收和解码的频率包络实现,该模块值得注意的是其包括:比较器,用于将所述重构信号的幅度和所述所接收和解码的时间包络进行比较;以及幅度压缩装置,适用于如果比较结果为肯定的,则向所述重构信号施加幅度压缩。
本发明最后涉及一种音频解码器,包括:用于在第一频带中至少估计激励信号的参数的模块、用于根据所述参数重构激励信号的模块、用于对第二频带中的时间包络进行解码的模块、用于对第二频带中的频带包络进行解码的模块、用于至少通过所述所解码的时间包络对所述激励信号进行时间整形的模块、以及用于至少通过所述所解码的频率包络对所述激励信号进行频率整形的模块,值得注意的是,所述解码器包括根据本发明的后处理模块。
附图说明
通过非限制示例的方式提供的、参考附图的以下描述清楚地解释了本发明由什么组成以及如何可以使其变为实践。
图1是现有技术的高波段编码-解码级的图;
图2是8kbps、12kbps、13.65kbps的分级音频编码器的高级图;
图3是用于图2的编码器的13.65kbps模式的高波段编码器的图;
图4是示出了由图3的高波段编码器实现的到帧的划分的图;
图5是与图2的编码器相关联的8kbps、12kbps、13.65kbps的分级音频解码器的高级图;
图6是用于图5的解码器的13.65kbps模式的高波段解码器的图;
图7是幅度压缩函数的第一实施例的流程图;
图8是图7的幅度压缩函数的曲线图;
图9是幅度压缩函数的第二实施例的流程图;
图10是图9的幅度压缩函数的曲线图。
图11是幅度压缩函数的第三实施例的流程图;
图12是图11的幅度压缩函数的曲线图。
具体实施方式
应当记住的是,本发明的一般上下文是以三个比特率(8kbps、12kbps和13.65kbps)的子带分级音频编码和解码。实际上,编码器总是以13.65kbps的最大比特率进行操作,并且解码器可以接收8kbps的核心、和12kbps或13.65kbps的一个或全部两个的增强层。
图2是分级音频编码器的图。
首先,通过使用QMF(正交镜像滤波器组)技术对以16kHz采样的宽带输入信号进行滤波来将其划分为两个子带。通过低通(L)滤波400和抽取(decimation)401获得在0到4000Hz范围内的第一频带(低波段),并通过高通(H)滤波402和抽取403获得在4000Hz到8000Hz范围内的第二频带(高波段)。在优选实施例中,L和H滤波器长度为64,并符合在J.Johnston的论文“A filter family designed for use in quadrature mirror filter banks”,ICASSP,vol.5,pp.291-294,1980.中描述的那些事项。
通过高通滤波器404对低波段进行预处理,以在8kbps和12kbps的窄带CELP编码405之前消除低于50Hz的分量。这个高通滤波考虑宽带被定义为覆盖了50Hz-7000Hz范围的事实。在一个实施例中,窄带CELP编码器是ITU-T SG16/WP3 D135编码器(ITU-T,COM 16,D135(WP 3/16),″FranceTelecom G.729EV Candidate:High level description and complexity evaluation(法国电信G.729EV候选:高级描述和复杂性评估)″,Q.10/16,Study Period2005-2008,Geneva,26 July-5 August 2005);这实现了包括不具有预处理滤波器的修改后的G.729的8kbps的第一级编码(ITU-T Recommendation G.729,Coding of Speech at 8kbps using Conjugate Structure Algebraic Code ExcitedLinear Prediction (CS-ACELP),March 1996)、和使用附加的固定CELP词典的12kbps的第二级编码的级联CELP编码。CELP编码确定低波段中的激励信号的参数。
高波段首先经历抗混迭(anti-aliasing)处理406,以补偿由高通滤波402与抽取403共同导致的混迭。然后,通过低通滤波器407对高波段进行预处理,以消除在3000Hz到4000Hz范围内的高波段中的分量(即,在7000Hz到8000Hz范围内的原始信号的分量)。接下来进行以13.65kbps的波段扩充(高波段编码)408。
对编码模块405和408生成的比特流进行多路复用和构造,以作为在多路复用器409中的分级比特流。
在320个采样(20毫秒(ms)帧)的块上实现编码。分级编码比特率是8kbps、12kbps和13.65kbps。
图3更详细地示出了高波段编码器408。它的原理与ITU-T SG16/WP3D214编码器的参数波段扩充类似。
将高波段信号xhi编码为N/2个采样的帧,其中N是原始宽带帧的采样数目并且除以2是用因子2对高波段进行抽取的结果。在优选实施例中,N/2=160,其与以8kHz的采样频率的20ms帧对应。对于每个帧(即,每20ms),如同在ITU-T SG16/WP3 D214编码器中一样,模块600和601提取时间和频率包络。然后,在块602中对这些包络进行联合量化。
以下是对模块600所实现的频率包络提取的简要描述。
因为谱分析使用中心位于与将来帧重叠的当前帧的时间窗,所以这个操作需要“将来的”采样,通常称为“前瞻(lookahead)”。在优选实施例中,将高波段前瞻设置在L=16个采样(即,2ms)。可以通过以下方式来执行频率包络提取,例如:
·利用当前帧和前瞻的开窗(windowing)计算短期(short-term)谱以及进行离散傅立叶变换;
·将谱划分为子带;
·计算子带的短期能量以及转换为rms值。
因此,频率包络被定义为信号xhi的每个子带的rms值。
接下来,参考更详细地示出了信号xhi的时间划分的图4,来对模块601的时间包络提取进行说明。
每个20ms帧包括160个采样:
·xhi=[x0 x1...x159]
xhi的最后16个采样构成对于当前帧的前瞻。
以下方式对当前帧的时间包络进行计算:
·将xhi划分为10个采样的16个子帧;
·计算每个子帧的能量并且转换到rms值。
因此,时间包络被定义为信号xhi的16个子帧的每一个的rms值。
图5表示与刚刚参考图2和图3描述的编码器相关联的分级音频解码器。
解多路复用器500对定义了每个20ms帧的比特进行解多路复用。CELP解码模块501使用8kbps和12kbps层的比特流,以便在0到4000Hz范围内的低波段中生成激励信号的合成参数。块502然后对低波段合成语音信号进行后滤波。
波段扩充模块503对与13.65kbps层相关联的比特流的部分进行解码。
通过合成QMF滤波器组504、505、507、508和509以及抗混迭506来获得以16kHz采样的宽带输出信号。
参考图6对图5的高波段解码器503进行更详细地描述。
这个解码器使用为图1的编码器描述的高波段合成原理,但是具有两处修改:它包括频率包络内插模块806和后处理模块808。频率包络内插和后处理模块增强了高波段中的编码质量。模块806实现前一帧的频率包络和当前帧的频率包络之间的内插,从而这个包络每10ms而不是每20ms进行演变。
图6的解多路复用器800中的高波段解码器对在比特流中接收的参数进行解多路复用,并在解码模块801和802中对时间和频率包络信息进行解码。根据8kbps和12kbps层所接收的CELP激励参数在重构模块803中生成合成激励信号。在低通滤波器804中对这个激励进行滤波,以仅保留与原始信号的4000Hz到7000Hz频带对应的在0到3000Hz范围内的频率。如图1中的编码器一样,通过模块805和807对合成激励信号进行整形:
·时间整形模块805的输出理想地具有与解码后的时间包络对应的每个子帧的rms值;因此,模块805在时间上对应于自适应的增益应用。
·频率整形模块807的输出理想地具有与解码后的频率包络对应的每个子带的rms值;可以通过滤波器组或具有重叠的变换来实现模块807。
后处理模块808对通过整形激励信号而得到的信号x进行处理,以获得重构后的高波段y。
接下来,更详细地对后处理模块808进行描述。
模块808实现的后处理将幅度压缩施加到来自频率整形模块807的信号x上,以限制该信号的幅度,并因此预防否则由于缺少激励和整形之间的耦合而可能产生的典型后果。
通过以下形式写入后处理模块808的输出信号y,在该形式中σ指定解码后的时间包络:
·y=C(x)=σ.F(x/σ)
本发明提出的后处理的特性如下:
·它即时生效(即,逐采样地),而不生成任何处理延迟;
·由通过时间包络解码模块801解码的时间包络给出用于幅度压缩的触发门限;通过定义,σ≥0;
·因为σ的值以每个10个采样的子帧(即,每1.25ms)改变,所以后处理是自适应的;
·当前帧的解码后的时间包络与如图4所示的2ms的位移(即,16个采样)对应。因此,自适应后处理存储与前瞻相关联的两个子帧的rms值:这两个子帧与位于当前帧的起始处的两个子帧对应。
图7的流程图示出了第一后处理压缩函数C1(x)。通过块1000和1006标识了计算的开始和结束。首先将输出值y初始化为x(块1001)。然后,实现两个测试(块1002和1004)以验证y是否在范围[-σ,σ]内。三个可能的情况是:
·如果y在范围[-σ,σ]内,则y的计算完成:y=x并且C1(x)=x;F1(x/σ)=x/σ;
·如果y>σ,则如块1003中所定义地修改它的值;通过因子16对在y和+σ之间的差进行衰减;
·如果y<-σ,则如块1005中所定义地修改它的值;通过因子16对在y和-σ之间的差进行衰减。
为了清楚地示出操作y=C1(x)如何起作用,图8示出了作为x/σ的函数的y/σ的曲线。用σ对数据进行归一化,以使得输入/输出特性与σ的值独立。这个归一化后的特性表示为F1(x/σ);因此:C1(x)=σF1(x/σ)。
图8清楚地示出了函数C1(x)利用设置在+/-σ处的触发门限来实现对称幅度压缩。为了更加确切,在[-1,+1]的范围内,F1(x/σ)的斜率为1;在其他地方,F1(x/σ)的斜率为1/16。以等同的方式,在[-σ,+σ]的范围内,C1(x)的斜率为1;在其他地方,C1(x)的斜率为1/16。
参考图9到图12对后处理的两种变体进行描述。对应的函数被分别表示为C2(x)和C3(x)。
图9和10所示的后处理C2(x)与C1(x)相同,但是具有从+/-σ改变到+/-2σ的触发门限值。因此,在[-2σ,+2σ]的范围内,C2(x)的斜率为1;在其他地方,C2(x)的斜率为1/16。
后处理C3(x)是C1(x)的更加改进的变体,其中在两个连续的步骤中实现幅度压缩。如图11所示,触发范围仍设置在[-σ,+σ](块1402和1406),但是相反地,除非块1403和1407修改的y的值不在[-2.5σ,+2.5σ]的范围内,否则仅用1/2的因子对y的值进行衰减,在y的值不在[-2.5σ,+2.5σ]的范围内的情况下,块1405和1409再次对y的值进行修改。在图12中示出了C3(x)的函数,其中可以看出C3(x)的斜率:
·在[-∞,-4σ]和[4σ,+∞]的范围内,为1/16;
·在[-4σ,-σ]和[σ,+4σ]的范围内,为1/2;以及
·在[-σ,+σ]的范围内,为1。
Claims (8)
1.一种用于在音频解码器中对通过激励信号的时间和频率整形(805,807)而重构的信号进行后处理的方法,该激励信号根据第一频带中的估计的参数获得,所述时间和频率整形至少基于第二频带中的时间包络以及所接收和解码(801,802)的频率包络来实现,其特征在于,所述方法包括:在所述整形(805,807)之后,将所述重构信号的幅度和所述所接收和解码的时间包络(σ)进行比较的步骤,以及,如果超出作为所述时间包络的函数的门限,则向所述重构信号施加幅度压缩。
2.根据权利要求1的方法,其特征在于,所述所接收和解码的时间包络(σ)被定义为第二频带中的信号(xhi)的每个子帧的rms值。
3.根据权利要求1或权利要求2的方法,其特征在于,如果所述幅度大于作为所述所接收和解码的时间包络(σ)的函数的触发门限,则所述幅度压缩包括向所述重构信号的幅度施加线性衰减。
4.根据权利要求1至3中任一项的方法,其特征在于,根据线性衰减的定律,通过由作为所述所接收和解码的时间包络(σ)的函数的触发门限所触发的分段来实现所述幅度压缩。
5.一种包括程序代码指令的计算机程序,当在计算机中执行所述程序时,所述程序代码指令执行根据权利要求1至4中任一项的后处理方法。
6.一种用于在音频解码器中对通过激励信号的时间和频率整形而重构的信号进行后处理的模块,该激励信号根据第一频带中的估计的参数获得,所述时间和频率整形至少基于第二频带中的时间包络以及所接收和解码的频率包络来实现,其特征在于,所述后处理模块(808)包括:比较器,用于将所述重构信号的幅度和所述所接收和解码的时间包络(σ)进行比较;以及幅度压缩装置,适用于如果超出作为所述时间包络的函数的门限,则向所述重构信号施加幅度压缩。
7.一种音频解码器,包括:用于在第一频带中估计激励信号的参数的模块(501)、用于根据所述参数重构激励信号的模块(803)、用于对第二频带中的所接收和解码的时间包络(σ)进行解码的模块(801)、用于对第二频带中的频带包络进行解码的模块(802)、用于至少通过所述所接收和解码的时间包络(σ)对所述激励信号进行时间整形的模块(805)、以及用于至少通过所述所解码的频率包络对所述激励信号进行频率整形的模块(807),其特征在于,所述解码器还包括根据权利要求6的后处理模块(808)。
8.根据权利要求7的解码器,其特征在于,该解码器包括频率包络内插模块(806)。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0650954 | 2006-03-20 | ||
FR0650954 | 2006-03-20 | ||
PCT/FR2007/050959 WO2007107670A2 (fr) | 2006-03-20 | 2007-03-20 | Procede de post-traitement d'un signal dans un decodeur audio |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101405792A true CN101405792A (zh) | 2009-04-08 |
CN101405792B CN101405792B (zh) | 2012-09-05 |
Family
ID=37500047
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200780010053XA Expired - Fee Related CN101405792B (zh) | 2006-03-20 | 2007-03-20 | 用于在音频解码器中对信号进行后处理的方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20090299755A1 (zh) |
EP (1) | EP2005424A2 (zh) |
JP (1) | JP5457171B2 (zh) |
KR (1) | KR101373207B1 (zh) |
CN (1) | CN101405792B (zh) |
WO (1) | WO2007107670A2 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106133829A (zh) * | 2014-03-24 | 2016-11-16 | 株式会社Ntt都科摩 | 声音解码装置、声音编码装置、声音解码方法、声音编码方法、声音解码程序以及声音编码程序 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008022184A2 (en) * | 2006-08-15 | 2008-02-21 | Broadcom Corporation | Constrained and controlled decoding after packet loss |
JP4932917B2 (ja) | 2009-04-03 | 2012-05-16 | 株式会社エヌ・ティ・ティ・ドコモ | 音声復号装置、音声復号方法、及び音声復号プログラム |
EP2362375A1 (en) | 2010-02-26 | 2011-08-31 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Apparatus and method for modifying an audio signal using harmonic locking |
CN103069484B (zh) * | 2010-04-14 | 2014-10-08 | 华为技术有限公司 | 时/频二维后处理 |
JP5997592B2 (ja) | 2012-04-27 | 2016-09-28 | 株式会社Nttドコモ | 音声復号装置 |
EP3503095A1 (en) | 2013-08-28 | 2019-06-26 | Dolby Laboratories Licensing Corp. | Hybrid waveform-coded and parametric-coded speech enhancement |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07193548A (ja) * | 1993-12-25 | 1995-07-28 | Sony Corp | 雑音低減処理方法 |
US5945932A (en) * | 1997-10-30 | 1999-08-31 | Audiotrack Corporation | Technique for embedding a code in an audio signal and for detecting the embedded code |
GB2351889B (en) * | 1999-07-06 | 2003-12-17 | Ericsson Telefon Ab L M | Speech band expansion |
WO2001022401A1 (en) * | 1999-09-20 | 2001-03-29 | Koninklijke Philips Electronics N.V. | Processing circuit for correcting audio signals, receiver, communication system, mobile apparatus and related method |
JP3810257B2 (ja) * | 2000-06-30 | 2006-08-16 | 松下電器産業株式会社 | 音声帯域拡張装置及び音声帯域拡張方法 |
SE0004818D0 (sv) * | 2000-12-22 | 2000-12-22 | Coding Technologies Sweden Ab | Enhancing source coding systems by adaptive transposition |
US7590525B2 (en) * | 2001-08-17 | 2009-09-15 | Broadcom Corporation | Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform |
US7173966B2 (en) * | 2001-08-31 | 2007-02-06 | Broadband Physics, Inc. | Compensation for non-linear distortion in a modem receiver |
US6895375B2 (en) * | 2001-10-04 | 2005-05-17 | At&T Corp. | System for bandwidth extension of Narrow-band speech |
US6988066B2 (en) * | 2001-10-04 | 2006-01-17 | At&T Corp. | Method of bandwidth extension for narrow-band speech |
US20030187663A1 (en) * | 2002-03-28 | 2003-10-02 | Truman Michael Mead | Broadband frequency translation for high frequency regeneration |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
US8204261B2 (en) * | 2004-10-20 | 2012-06-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Diffuse sound shaping for BCC schemes and the like |
US7720230B2 (en) * | 2004-10-20 | 2010-05-18 | Agere Systems, Inc. | Individual channel shaping for BCC schemes and the like |
CN1937496A (zh) | 2005-09-21 | 2007-03-28 | 日电(中国)有限公司 | 可延展伪名证书系统和方法 |
-
2007
- 2007-03-20 WO PCT/FR2007/050959 patent/WO2007107670A2/fr active Application Filing
- 2007-03-20 JP JP2009500896A patent/JP5457171B2/ja not_active Expired - Fee Related
- 2007-03-20 CN CN200780010053XA patent/CN101405792B/zh not_active Expired - Fee Related
- 2007-03-20 EP EP07731774A patent/EP2005424A2/fr not_active Withdrawn
- 2007-03-20 KR KR1020087025600A patent/KR101373207B1/ko not_active IP Right Cessation
- 2007-03-20 US US12/225,462 patent/US20090299755A1/en not_active Abandoned
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106133829A (zh) * | 2014-03-24 | 2016-11-16 | 株式会社Ntt都科摩 | 声音解码装置、声音编码装置、声音解码方法、声音编码方法、声音解码程序以及声音编码程序 |
CN106133829B (zh) * | 2014-03-24 | 2017-11-10 | 株式会社Ntt都科摩 | 声音解码装置、声音编码装置、声音解码方法以及声音编码方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5457171B2 (ja) | 2014-04-02 |
JP2009530679A (ja) | 2009-08-27 |
WO2007107670A3 (fr) | 2007-11-08 |
US20090299755A1 (en) | 2009-12-03 |
KR20080109038A (ko) | 2008-12-16 |
KR101373207B1 (ko) | 2014-03-12 |
CN101405792B (zh) | 2012-09-05 |
EP2005424A2 (fr) | 2008-12-24 |
WO2007107670A2 (fr) | 2007-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101295729B1 (ko) | 비트 레이트규모 가변적 및 대역폭규모 가변적 오디오디코딩에서 비트 레이트 스위칭 방법 | |
JP5117407B2 (ja) | オーディオ符号化/復号化で知覚的に重み付けするための装置 | |
CN101622661B (zh) | 一种数字语音信号的改进编解码方法 | |
JP5112309B2 (ja) | 階層符号化/復号化装置 | |
KR100647336B1 (ko) | 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법 | |
CN100365706C (zh) | 解码语音的音调增强的方法和装置 | |
JP5520967B2 (ja) | 適応的正弦波コーディングを用いるオーディオ信号の符号化及び復号化方法及び装置 | |
CN101405792B (zh) | 用于在音频解码器中对信号进行后处理的方法 | |
CN101379551A (zh) | 在语音编解码器中用于有效帧擦除隐蔽的方法和装置 | |
CN101430880A (zh) | 一种背景噪声的编解码方法和装置 | |
CN108231083A (zh) | 一种基于silk的语音编码器编码效率提高方法 | |
CN101335001A (zh) | 一种dtx判决方法和装置 | |
Vaillancourt et al. | ITU-T EV-VBR: A robust 8-32 kbit/s scalable coder for error prone telecommunications channels | |
KR102138320B1 (ko) | 통신 시스템에서 신호 코덱 장치 및 방법 | |
CN101622667B (zh) | 用于分层编解码器的后置滤波器 | |
Geiser et al. | Candidate proposal for ITU-T super-wideband speech and audio coding | |
Ragot et al. | A 8-32 kbit/s scalable wideband speech and audio coding candidate for ITU-T G729EV standardization | |
Jelínek et al. | Itu-t G. EV-VBR baseline codec | |
Iao | Mixed wideband speech and music coding using a speech/music discriminator | |
Kövesi et al. | Pre-echo reduction in the ITU-T G. 729.1 embedded coder | |
Livshitz et al. | Perceptually Constrained Variable Bitrate Wideband Speech Coder |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120905 Termination date: 20170320 |