CN113450810A - 谐波滤波器工具的谐度依赖控制 - Google Patents

谐波滤波器工具的谐度依赖控制 Download PDF

Info

Publication number
CN113450810A
CN113450810A CN202110519799.5A CN202110519799A CN113450810A CN 113450810 A CN113450810 A CN 113450810A CN 202110519799 A CN202110519799 A CN 202110519799A CN 113450810 A CN113450810 A CN 113450810A
Authority
CN
China
Prior art keywords
temporal
pitch
measure
audio signal
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110519799.5A
Other languages
English (en)
Other versions
CN113450810B (zh
Inventor
戈兰·马尔科维奇
克里斯汀·赫姆瑞希
以马利·拉韦利
曼努埃尔·扬德尔
斯蒂芬·朵拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority to CN202110519799.5A priority Critical patent/CN113450810B/zh
Publication of CN113450810A publication Critical patent/CN113450810A/zh
Application granted granted Critical
Publication of CN113450810B publication Critical patent/CN113450810B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Abstract

本公开提供了对音频编解码器的谐波滤波器工具执行谐度依赖控制的装置和方法,所述装置包括:音调估计器,被配置为确定要被音频编解码器处理的音频信号的音调;谐度测量器,被配置为使用音调来确定音频信号的谐度的测量;时间结构分析器,被配置为根据音调确定对音频信号的时间结构的特性进行测量的至少一个时间结构测量;控制器,被配置为根据时间结构测量和谐度的测量控制谐波滤波器工具。本公开还提供了相应的音频编码器或音频解码器、系统、基于变换的编码器和计算机程序。

Description

谐波滤波器工具的谐度依赖控制
本申请是于2015年7月27日向国际局提交、并于2017年2月3日向国家知识产权局提交的申请号为No.201580042675.5、发明名称为“谐波滤波器工具的谐度依赖控制”的PCT发明专利申请的分案申请。
技术领域
本申请涉及对谐波滤波器工具(例如前置/后置滤波器或只有后置滤波器的方案)的控制的决定。该工具例如适用于MPEG-D统一语音和音频编码(USAC)和即将到来的3GPPEVS编解码器。
背景技术
基于变换的音频编解码器(例如AAC、MP3或TCX)通常在处理谐波音频信号、尤其是低比特率谐波音频信号时引入谐波间量化噪声。
当基于变换的音频编解码器以低延迟操作时,由于较短的变换大小和/或较差的窗口频率响应引入了较差的频率分辨率和/或选择性,该效果进一步变差。
这种谐波间噪声通常被感知为非常讨厌的“啸叫”伪声(artifact),当在对高音调音频素材(比如一些音乐或语音谈话)进行主观评估时,这显著地降低了基于变换的音频编解码器的性能。
这个问题的常见解决方案是采用基于预测的技术,优选地是使用基于在变换域或时域中增加或减去以前的输入或解码样本的自回归(AR)建模的预测。
然而,使用这样的技术再次改变了时间结构,导致不期望的效果,例如,打击乐事件的时间拖尾、或者语音爆音、甚至由于重复单个类脉冲瞬态而产生脉冲拖尾(impulsetrail)。因此,对包含瞬态和谐波分量的信号或者在瞬态和脉冲串之间存在模糊的信号要特别注意(后者属于由各个极短时脉冲组成的谐波信号;该信号是也称为脉冲串(pulse-train))。
存在几种解决方案来改善针对谐波音频信号的基于变换的音频编解码器主观质量。所有这些方案都利用了非常和谐的稳态的波形的长期周期性(音调(pitch)),并且以基于预测的技术为基础,无论在变换域或时域中。大多数解决方案被称为长期预测(LTP)或音调预测,其特征在于对信号应用一对滤波器:编码器中的前置滤波器(通常作为时域或频域中的第一步)和解码器中的后置滤波器(通常作为时域或频域中的最后一步)。然而,一些其它解决方案仅在解码器侧应用单个后置滤波处理,通常称为谐波后置滤波器或低音后置滤波器。所有这些方法,无论是前置后置滤波器对还是仅后置滤波器,在下文中将被表示为谐波滤波器工具。
变换域方法的示例是:
[1]H.Fuchs,“Improving MPEG Audio Coding by Backward Adaptive LinearStereo Prediction”,第99届AES大会,New York,1995,Preprint 4086。
[2]L.Yin,M.Suonio,M.
Figure BDA0003062894330000021
“A New Backward Predictor for MPEGAudio Coding”,第103届AES大会,New York,1997,Preprint 4521。
[3]Juha
Figure BDA0003062894330000022
Mauri
Figure BDA0003062894330000023
Lin Yin,“Long Term Predictor forTransform Domain Perceptual Audio Coding”,第107届AES大会,New York,1999,Preprint 5036。
同时应用前置和后置滤波的时域方法的示例是:
[4]Philip J.Wilson,Harprit Chhatwal,“Adaptive transform coder havinglong term predictor”,美国专利US 5,012,517,1991年4月30日。
[5]Jeongook Song,Chang-Heon Lee,Hyen-O Oh,Hong-Goo Kang,“HarmonicEnhancement in Low Bitrate Audio Coding Using an Efficient Long-TermPredictor”,EURASIP Journal on Advances in Signal Processing,2010年8月
[6]Juin-Hwey Chen,“Pitch-based pre-filtering and post-filtering forcompression of audio signals”,美国专利US 8,738,385,2014年5月27日。
[7]Jean-Marc Valin,Koen Vos,Timothy B.Terriberry,“Definition of theOpus Audio Codec”,ISSN:2070-1721,IETF RFC 6716,2012年9月。
[8]Rakesh Taori,Robert J.Sluijter,Eric Kathmann,“Transmission Systemwith Speech Encoder with Improved Pitch Detection”,美国专利US 5,963,895,1999年10月5日。
仅应用后置滤波的时域方法的示例是:
[9]Juin-Hwey Chen,Allen Gersho,“Adaptive Postfiltering for QualityEnhancement of Coded Speech”,IEEE Trans.on Speech and Audio Proc.,第三卷,1995年1月。
[10]Int.Telecommunication Union,“Frame error robust variable bit-ratecoding of speech and audio from 8-32kbit/s”,Recommendation ITU-T G.718,2008年6月.www.itu.int/rec/T-REC-G.718/e,第7.4.1节.
[11]Int.Telecommunication Union,“Coding of speech at 8kbit/s usingconjugate structure algebraic CELP(CS-ACELP)”,Recommendation ITU-T G.729,2012年6月.www.itu.int/rec/T-REC-G.729/e,第4.2.1节。
[12]Bruno Bessette et al.,“Method and device for frequency-selectivepitch enhancement of synthesized speech”,美国专利US7,529,660,2003年5月30日。
瞬态检测器的示例为:
[13]Johannes Hilpert et al.,“Method and Device for Detecting aTransient in a Discrete-Time Audio Signal”美国专利US 6,826,525,2004年11月30日。
心理声学的相关文献:
[14]Hugo Fastl,Eberhard Zwicker,“Psychoacoustics:Facts and Models”,第3版,Springer,2006年12月14日。
[15]Christoph Markus,“Background Noise Estimation”,欧洲专利EP 2,226,794,2009年3月6日。
所有前述技术基于单阈值判定(例如预测增益[5]或音调增益[4]或与归一化相关基本成比例的谐度(harmonicity)[6])来决定何时启用预测滤波器。此外,OPUS[7]采用了滞后性,该滞后性在音调正改变的情况下提高阈值,并在前一帧中的增益高于预定义的固定阈值的情况下减小阈值。如果在一些特定帧配置中检测到瞬态,OPUS[7]也禁用长期(音调)预测器。这种设计的原因似乎源于一种普遍观念,即在谐波和瞬态信号分量的混合中,瞬态信号分量占该混合的主导,并且如前所述,当其主观上造成的损减比改善更多时激活LTP或音调预测。然而,对于将在下文中讨论的一些波形混合,对瞬态音频帧激活长期或音调预测器显著地增加了编码质量或效率,因此是有益的。此外,当激活预测器时,基于瞬时信号特性而非预测增益来改变其强度会是有益的,这是现有技术中的唯一方法。
发明内容
因此,本发明的目的是提供一种对音频编解码器的谐波滤波器工具进行谐度依赖控制的构思,其产生改善的编码效率,例如,改善的目标编码增益或更好的感知质量等。
该目的通过本申请的独立权利要求的主题来实现。
本申请的基本发现是,可以通过使用除谐度测量外的时间结构测量对可控(可切换或甚至可调整的)谐波滤波器工具执行谐度依赖控制以便控制谐波滤波器工具,来改善使用该工具的音频编解码器的编码效率。具体地,以依赖于音调的方式评估音频信号的时间结构。这使得能够实现对谐波滤波器工具的情况自适应控制,使得在尽管使用谐波滤波器工具将增加编码效率、但是仅基于测量进行的控制将决定不使用或减少使用该工具的情况下,应用谐波滤波器工具;而在谐波滤波器工具可能低效或甚至具有破坏性的其他情况下,该控制适当地减少谐波滤波器工具的使用。
附图说明
下文中参考附图阐述了本发明的从属权利要求的主题的有利实现和本申请的优选实施例,在附图中:
图1示出了根据实施例的用于根据滤波器增益控制谐波滤波器工具的装置的框图;
图2示出了应用谐波滤波器工具的可能的预定条件的示例;
图3示出了示出决策逻辑的可能实现的流程图,决策逻辑可以被参数化以便实现图2的条件示例;
图4示出了用于对谐波滤波器工具执行谐度(及时间测量)相关控制的装置的框图;
图5示出了示出用于根据实施例确定时间结构测量的时间区域的时间位置的示意图;
图6示意性地示出了根据实施例对时间区域内的音频信号的能量进行时间采样的能量样本的曲线图;
图7示出了根据使用谐波前置/后置滤波器工具的实施例在音频编解码器中使用图4的装置的框图,其中,当解码器使用图4的装置时,分别示出了音频编解码器的编码器和解码器;
图8示出了根据使用谐波后置滤波器工具的实施例在音频编解码器中使用图4的装置的框图,其中,当解码器使用图4的装置时,分别示出了音频编解码器的编码器和解码器;
图9示出了根据实施例的图4的控制器的框图;
图10示出了系统的框图,其示出了图4的装置与瞬态检测器共享使用图6的能量样本的可能性;
图11示出了音频信号中的时域部分(波形波分)的曲线图作为低音调信号的示例,其附加地示出了用于确定至少一个时间结构测量的时间区域的音调依赖定位;
图12示出了音频信号中的时域部分的曲线图作为高音调信号的示例,其附加地示出了用于确定至少一个时间结构测量的时间区域的音调依赖定位;
图13示出了谐波信号内的脉冲和阶梯瞬变的示例性频谱图;
图14示出了示出对脉冲和阶梯瞬态的LTP影响的示例性频谱图;
图15分别依次示出了图14所示的音频信号的时域部分、以及其低通滤波和高通滤波的版本,以便示出根据图2、3、16和17的用于脉冲和阶梯瞬变的控制;
图16示出了用于脉冲状瞬态的能量段的时间序列(能量样本序列)的示例的条状图以及根据图2和图3用于确定至少一个时间结构测量的时间区域的布置;
图17示出了用于阶梯状瞬态的能量段的时间序列(能量样本序列)的示例的条状图以及根据图2和图3用于确定至少一个时间结构测量的时间区域的布置;
图18示出了脉冲串的示例性频谱图(使用短FFT频谱图摘录);
图19示出了脉冲串的示例性波形;
图20示出了脉冲串的原始短FFT频谱图;以及
图21示出了脉冲串的原始长FFT频谱图。
具体实施方式
以下描述从谐波滤波器工具控制的第一详细实施例开始。给出简要的想法概述,以引出第一实施例。然而,这些想法也适用于随后说明的实施例。下面,给出一般化实施例,接着是用于音频信号部分的具体实例,以便更具体地阐述本申请的实施例所产生的效果。
用于启用或控制例如基于预测的技术的谐波滤波器工具的决策机制基于谐度测量(例如归一化相关或预测增益)和时间结构测量(例如时间平坦度测量或能量变化)的组合。
如下所述,该决策不仅仅依赖于来自当前帧的谐度测量,而且依赖于来自先前帧的谐度测量和来自当前和可选地来自先前帧的时间结构测量。
该决策方案可以设计为使得还针对瞬态而启用基于预测的技术,只要使用它在心理声学上有益,如由相应模型所得出的。
在一个实施例中,用于启用基于预测的技术的阈值可依赖于当前音调而不是音调变化。
该决策方案允许例如避免特定瞬态的重复,但是针对一些瞬变和具有特定时间结构的信号允许基于预测的技术,其中瞬态检测器通常将发信号通知短变换块(即存在一个或多个瞬态)。
以下提出的决策技术可以应用于上述基于预测的方法中的任一个,无论在变换域还是时域中,也无论前置滤波器加后置滤波器、或是仅后置滤波器的方法。此外,其可以应用于操作带限(用低通)或在子带中操作(用带通特性)的预测器。
关于LTP激活、音调预测或谐波后置滤波的总体目标是实现以下两个条件:
-通过激活过滤器获得客观或主观的益处,
-通过激活所述滤波器不会引入显著的伪声。
通常通过对目标信号执行自相关和/或预测增益测量来确定使用滤波器是否存在客观益处,并且是公知的[1-7]。
由于通过听力测试获得的感知改善数据通常与相应的客观测量(即上述相关性和/或预测增益)成比例,因此主观益处的测量至少对于稳态信号来说也是直接的。
然而,识别或预测存在由滤波引起的伪声需要比现有技术的客观测量(如帧类型)的简单比较(稳态长变换vs.瞬态帧短变换)或到某些阈值的预测增益更为复杂的技术。基本上,为了防止伪声,必须确保滤波引起的目标波形的改变不会在任何时间或任何频率显著超过时变的频谱时间掩蔽阈值。因此,根据以下提出的一些实施例的决策方案使用以下滤波器决策和控制方案,其由针对要被编码和/或被滤波的音频信号的每一帧而顺序执行的三个算法块组成:
谐度测量块,其计算常用的谐波滤波器数据,例如归一化相关或增益值(以下称为“预测增益”)。如稍后再次指出的,词语“增益”意味着通常与滤波器的强度相关联的任何参数的概括,例如,显式增益因子或一个或多个滤波器系数的集合的绝对或相对幅度。T/F包络测量块,其利用预定义的频谱和时间分辨率(这还可以包括用于帧类型决定的帧瞬态的测量,如上所述)计算时间-频率(T/F)幅度或能量或平坦度数据。在谐度测量块中获得的音调被输入到T/F包络测量块,因为用于当前帧的滤波的音频信号的区域(通常使用过去的信号样本)依赖于音调(相应地,计算的T/F包络也依赖于音调)。
滤波器增益计算块,其执行关于使用哪个滤波器增益(并且因此在比特流中进行发送)进行滤波的最终决定。理想地,对于小于或等于预测增益的每个可发送滤波器增益,该块应当在用所述滤波器增益进行滤波之后对目标信号的类频谱时间激励样式包络进行计算,并且应当将该“实际”包络与原始信号的激励样式包络进行比较。然后,可以使用其所对应的频谱时间“实际”包络与“原始”包络的差别不超过一定量的最大滤波器增益,用于编码/传输。我们将该滤波器增益称为心理声学上最优。
在稍后描述的其他实施例中,对三块式结构稍微修改。
换句话说,在相应的块中获得谐度和T/F包络测量,其随后将其用于导出输入帧和滤波输出帧的心理声学激励样式,并且调整最终滤波器增益,使得由“实际”和“原始”包络之比给出的掩蔽阈值不被显著超过。为了理解这一点,应当注意,在该上下文下的激励样式非常类似于所检查的信号的类频谱图表示,但呈现在人类听觉的某些特征且证明听力本身是“后掩蔽”之后建模的时间平滑。
图1示出了上述三个块之间的连接。不幸的是,两个激励样式的逐帧导出和对最佳滤波器增益的穷举搜索通常是计算复杂的。因此,在以下描述中提出简化。
为了避免所提出的滤波器激活决策方案中的激励样式的昂贵计算,使用低复杂度包络测量作为激励样式的特性的估计。已发现在T/F包络测量块中,诸如分段能量(SE)、时间平坦度测量(TFM)、最大能量变化(MEC)或传统帧配置信息(例如帧类型(长/静态或短/瞬态))的数据足以导出心理声学标准的估计。然后,可以在滤波器增益计算块中利用这些估计,高精度地确定要用于编码或传输的最佳滤波器增益。为了防止对全局最优增益的高计算强度搜索,可以用一次条件运算符来代替所有可能的滤波器增益(或其子集)上的失真率循环。这种“廉价”运算符用于决定用来自谐度和T/F包络测量块的数据计算的滤波器增益应设置为零(决定不使用谐波滤波)还是不应设置为零(决定使用谐波滤波)。请注意,谐度测量块可以保持不变。下面描述这种低复杂度实施例的逐步实现。
如所指出的,用来自谐度和T/F包络测量块的数据导出经历一次条件运算符的“初始”滤波器增益。更具体地,“初始”滤波器增益可以等于时变预测增益(来自谐度测量块)和时变缩放因子(来自T/F包络测量块的心理声学包络数据)的乘积。为了进一步减少计算负荷,可以使用固定恒定的缩放因子(例如0.625)来替代信号自适应时变缩放因子。这通常保持了足够的质量,并且在下面的实现中也被考虑。
现在阐述用于控制过滤器工具的具体实施例的逐步描述。
1.瞬态检测和时间测量
输入信号sHP(n)被输入到时域瞬态检测器。输入信号sHP(n)被高通滤波。通过下式给出瞬态检测的HP滤波器的转换函数
HTD(z)=0.375-0.5z-1+0.125z-2 (1)
瞬态检测的HP滤波器滤波后的信号表示为:sTD(n)。HP滤波信号sTD(n)被分为相同长度的8个连续段。每个段的HP滤波信号sTD(n)的能量计算为:
Figure BDA0003062894330000091
其中,
Figure BDA0003062894330000092
是输入采样频率的2.5毫秒的段中的样本数。
使用下式计算累积能量:
EAcc=max(ETD(i-1),0.8125EAcc) (3)
如果段能量ETD(i)超过累积能量达到恒定因子attackRatio=8.5,则检测到攻击,并将攻击索引设置为i:
ETD(i)>attackRatio·EAcc (4)
如果基于上述标准没有检测到攻击,但是在段i中检测到强能量增长,则将攻击索引设置为i,不指示存在攻击。攻击索引基本上被设置为帧中最近一次攻击的位置,并具有一些附加限制。
每个段的能量改变被计算为:
Figure BDA0003062894330000101
时间平坦度测量被计算为:
Figure BDA0003062894330000102
最大能量改变被计算为:
MEC(Npast,Nnew)=max(Echng(-Npast),Echng(-Npast+1),...,Echng(Nnew-1)) (7)
如果Echng(i)或ETD(i)的索引为负,则其指示来自前一段的、相对于当前帧的段索引的值。
Npast是来自先前帧的段的数目。如果计算时间平坦度测量以用于在ACELP/TCX决策中使用,则其等于0。如果计算时间平坦度测量用于TCX LTP决策,则其等于:
Figure BDA0003062894330000103
Nnew是来自当前帧的段的数目。对于非瞬态帧,其等于8。针对瞬态帧,首先找到具有最大能量和最小能量的段的位置:
Figure BDA0003062894330000104
Figure BDA0003062894330000105
如果ETD(imin)>0.375ETD(imax),则Nnew被设置为imax-3,否则Nnew被设置为8。
2.变换块长度切换
重叠长度和TCX的变换块长度依赖于瞬态的存在及其位置。
表1:基于瞬态位置的重叠和变换长度的编码
Figure BDA0003062894330000106
Figure BDA0003062894330000111
上述瞬态检测器基本上返回最后一次攻击的索引,其限制是如果存在多个瞬变,那么最小重叠优于一半重叠,一半重叠优于完全重叠。如果位置2或6处的攻击不够强,则选择一半重叠,不选择最小重叠。
3.音调估计
估计每个帧(帧大小例如是20ms)的一个音调滞后(整数部分+分数部分)。其通过3个步骤来实现,以降低复杂性并提高估计精度。
a.对音调滞后的整数部分的第一估计
使用产生平滑音调演进轮廓的音调分析算法(例如ITU-T G.718建议书第6.6节中所述的开环音调分析)。该分析通常在子帧基础上(子帧大小例如是10ms)进行,且每个子帧产生一个音调滞后估计。注意,这些音调滞后估计没有任何分数部分,并且通常在下采样信号(采样率例如是6400Hz)上估计。所使用的信号可以是任何音频信号,例如,在ITU-TG.718第6.5节描述的LPC加权音频信号。
b.对音调滞后的整数部分的精细化
基于对以核心编码器采样率运行的音频信号x[n],估计音调滞后的最终整数部分,所述核心编码器采样率通常高于在a(例如12.8kHz、16kHz、32kHz...)中使用的下采样信号的采样率。信号x[n]可以是任何音频信号,例如LPC加权音频信号。
这时,音调滞后的整数部分是将自相关函数最大化的滞后Tint
Figure BDA0003062894330000121
其中,d位于步骤1.a所估计的音调滞后T的附近T-δ1≤d≤T+δ2
c.对音调滞后的分数部分的估计
通过对步骤2.b中计算的自相关函数C(d)进行插值并选择使插值后的自相关函数最大化的分数音调滞后Tfr,求出分数部分。可以使用如建议书ITU-T G.718第6.6.7节描述的低通FIR滤波器来执行插值。
4.决策位
如果输入音频信号不包含任何谐波内容,或者基于预测的技术将引入时间结构的失真(例如短瞬态重复),则不在比特流中对参数进行编码。只发送1位,使得解码器知道它是否必须将滤波器参数解码。
基于多个参数做出决策:
步骤3.b中估计的整数音调滞后的归一化相关性。
Figure BDA0003062894330000122
如果输入信号可完全由整数音调滞后预测,则归一化相关性为1,如果完全不可预测,则归一化相关性为0。高值(接近1)将指示谐波信号。对于更鲁棒的决策,除了当前帧的归一化相关性(norm_corr(curr))之外,还可以在决策中使用过去帧的归一化相关性(norm_corr(prev)),例如:
如果(norm_corr(curr)*norm_corr(prev))>0.25
如果max(norm_corr(curr),norm_corr(prev))>0.5,
则,当前帧包含一些谐波内容(bit=1)
a.由瞬态检测器计算出的瞬态检测器(例如时间平坦度测量(6)、最大能量改变(7)),用于避免对包含强瞬态或大时间改变的信号激活后置滤波器。对包含当前帧(Nnew个段)和达到音调滞后的过去帧(Npast个段)的信号计算时间特征。对于缓慢衰减的阶梯状瞬态,所有或一些特征仅计算到瞬态(imax-3)的位置,因为由LTP滤波引入的频谱的非谐波部分的失真将通过强持久瞬态(例如碎音钹)的掩蔽而被抑制。
b.低音调信号的脉冲串可以被瞬态检测器检测为瞬态。对于低音调信号,来自瞬态检测器的特征因此被忽略,并且替代地,存在用于归一化相关性的附加阈值,其依赖于音调滞后,例如:
如果norm_corr<=1.2-Tint/L,则设置bit=0,并且不发送任何参数。
图2中示出了一个示例决策,其中,b1是某个比特率,例如48kbps,TCX_20指示帧使用单个长块来编码,TCX_10指示帧使用2、3、4个或更多个短块来编码,其中TCX_20/TCX_10决策基于上述瞬态检测器的输出。tempFlatness是在(6)中定义的时间平坦度测量,maxEnergyChange是在(7)中定义的最大能量改变。条件norm_corr(curr)>1.2-Tint/L还可以写成(1.2-norm_corr(curr))*L<Tint
图3的框图中示出了决策逻辑的原理。应当注意,图3比图2更具一般性,因为阈值没有限制。其可以根据图2来设置或不同地设置。此外,图3示出了可以停用图2的示例性比特率依赖性。自然地,图3的决策逻辑可以改变为包括图2的比特率依赖性。此外,对于仅当前或过去的音调的使用,图3被保持为非特定。至此,图3示出了图2的实施例可以在这方面改变。
图3中的“阈值”对应于用于图2中的tempFlatness和maxEnergyChange的不同阈值。图3中的“阈值_1”对应于图2中的1.2-Tint/L。图3中的“阈值_2”对应于0.44或者图2中的max(norm_corr(curr),norm_corr(prev))>0.5或者(norm_corr(curr)*norm_corr_prev)>0.25。
从上面的示例显而易见的是,瞬态检测影响着将对长期预测使用什么决策机制以及信号的什么部分将在决策中用于测量,而不是其直接触发禁用长期预测。
用于变换长度决策的时间测量与用于LTP决策的时间测量可以完全不同,或者它们可以重叠,或者完全相同但在不同区域中计算。
对于低音调信号,如果达到了依赖于音调滞后的归一化相关性阈值,则完全忽略瞬态检测。
5.增益估计和量化
通常以核心编码器采样率对输入音频信号估计增益,但是它也可以是如LPC加权音频信号的任何音频信号。该信号记为y[n],并且可以与x[n]相同或不同。
首先通过使用以下滤波器对y[n]进行滤波来求出y[n]的预测yP[n]:
Figure BDA0003062894330000146
其中,Tint是音调滞后的整数部分(估计为0),B(z,Tfr)是其系数依赖于音调滞后Tfr的低通FIR滤波器(估计为0)。
当音调滞后的分辨率是1/4时,B(z)的一个示例如下:
Figure BDA0003062894330000141
Figure BDA0003062894330000142
Figure BDA0003062894330000143
Figure BDA0003062894330000144
然后,计算增益g如下:
Figure BDA0003062894330000145
并限制在0和1之间。
最后,用例如2个位,比如使用统一量化,将增益量化。
如果增益被量化为0,则比特流中没有编码参数,只有1个决策位(bit=0)。
此前的描述有动机地提出并概述了用于谐波滤波器工具的谐度依赖控制的本申请的优点,本申请还用于下文中表示上述逐步式实施例的一般性实施例。尽管此前的描述有时非常具体,但是谐度依赖控制的构思还可以有利地用于其他音频编解码器的框架中,并且可以相比上述具体细节而改变。为此,下文中以更一般的方式再次描述本申请的实施例。尽管如此,下文的描述时常返回参考上述具体描述以便使用上述细节,从而揭示可以如何根据另一些实施例来实现下面出现的、一般化描述的元件。在这样做时,应当注意,所有这些具体实现细节可以由上文描述单独地转移到下文描述的元件。因此,每当下文的描述参考此前的描述时,意味着该参考独立于对上述描述的另一些参考。
因此,图4中示出了由上述详细描述产生的更一般的实施例。具体地,图4示出了用于对音频编解码器的谐波滤波器工具(例如,谐波前置/后置滤波器或谐波后置滤波器工具)执行谐度依赖控制的装置。该装置通常使用附图标记10来表示。装置10接收要由音频编解码器处理的音频信号12,并输出控制信号14以实现装置10的控制任务。装置10包括被配置为确定音频信号12的当前音调滞后18的音调估计器16和被配置为使用当前音调滞后18确定音频信号12的谐度测量22的谐度测量器20。具体地,谐度测量可以是预测增益,或者可以通过一个(单个)或更多(多个)滤波器系数或最大归一化相关性来实现。图1的谐度测量计算块包括音调估计器16和谐度测量器20的任务。
装置10还包括时间结构分析器24,其被配置为以取决于音调滞后18的方式确定至少一个时间结构测量26,所述测量26测量音频信号12的时间结构的特性。例如,依赖性可以依赖于时间区域的定位,其中所述测量26在时间区域内测量音频信号12的时间结构的特性,如上所述以及稍后更详细的描述。然而,需要简要指出的是,为了完整性,测量26的确定对音调滞后18的依赖性也可以不同于上文和下文的描述。例如,代替以依赖于音调滞后的方式定位时间部分(即,确定窗口),依赖性可以仅随时间改变权重,其中,音频信号在窗口内的各时间间隔以所述权重构成测量26,所述窗口的位置相对于当前帧的位置独立于音调滞后。关于下面的描述,这可能意味着确定窗口36可以稳定定位以对应于当前帧和先前帧的连接,并且依赖于音调定位的部分仅用作增加的权重的窗口,音频信号的时间结构以该权重影响测量26。然而目前,假设根据音调滞后来定位时间窗口。时间结构分析器24对应于图1的T/F包络测量计算块。
最后,图4的装置包括控制器28,所述控制器被配置为根据时间结构测量26和谐度测量22输出控制信号14,从而控制谐波前置/后置滤波器或谐波后置滤波器。比较图4和图1,最佳滤波器增益计算块对应于或表示控制器28的可能实现。
装置10的操作模式如下。具体地,装置10的任务是控制音频编解码器的谐波滤波器工具,尽管上面参考图1至3的更详细揭示了对该工具在滤波器强度或滤波器增益方面上逐步控制或改变,但是例如控制器28不限于该类型的逐步控制。一般来说,控制器28的控制可以在0和最大值(含两端)之间逐步改变谐波滤波器工具的滤波器强度或增益,如在参考图1至3的具体示例的情况,但是不同的可能性也是可行的,例如,在两个非零滤波器增益值之间的逐步控制、逐步控制、或二元控制,例如启动(非零)或禁用(零增益)以接通或关断谐波滤波器工具的开关。
从上面的讨论可以清楚看出,图4中虚线30表示的谐波滤波器工具的目的在于改善音频编解码器(例如基于变换的音频编解码器)的主观质量,尤其在音频信号的谐波相位方面。具体地,这样的工具30在低比特率情况下特别有用,在低比特率情况下,没有工具30将引入的量化噪声,从而在该谐波相位中导致可听见的伪声。然而,重要的是,滤波器工具30不会对谐波不占主导的音频信号的其它时间相位造成不利影响。此外,如上所述,滤波器工具30可以是后置过滤器方案或者前置过滤器加后置过滤器方案。前置和/或后置滤波器可以在变换域或时域中工作。例如,工具30的后置滤波器可以例如具有传递函数,该传递函数具有布置在对应于音调延迟18或者被设置为依赖于音调延迟18的谱距离处的局部最大值。具有LTP滤波器形式(例如,FIR和IIR滤波器的形式)的前置滤波器和/或后置滤波器的实现也是可行的。前置滤波器可以具有实质上为后置滤波器的传递函数的逆的传递函数。实际上,前置滤波器希望通过增加音频信号的当前音调的谐波内的量化噪声来隐藏音频信号的谐波分量内的量化噪声,并且后滤波器相应地重新改变所发送的频谱。在仅后置滤波器的方案的情况下,后置滤波器实际上修改所发送的音频信号,以便滤除在音频信号的音调的谐波之间出现的量化噪声。
应当注意,图4在某种意义上以简化方式绘制。例如,图4提出了音调估计器16、谐度测量器20和时间结构分析器24直接对音频信号12或至少在音频信号12的相同版本上操作,即执行它们的任务,但不一定是这种情况。实际上,音调估计器16、时间结构分析器24和谐度测量器20可以对音频信号12的不同版本进行操作,例如,原始音频信号中的不同版本及其一些预修改版本,其中,这些版本可以在内部在元件16、20和24之间、并且还关于音频编解码器而改变,音频编解码器也可以对原始音频信号的某些修改版本进行操作。例如,时间结构分析器24可以以其输入采样率(即音频信号12的原始采样率)对音频信号12进行操作,或者可以对音频信号12的内部编码/解码版本进行操作。相应地,音频编解码器可以以通常低于输入采样率的某个内部核心采样率操作。相应地,音调估计器16可以对音频信号的预修改版本(例如,音频信号12的心理声学加权版本)执行其音调估计任务,以便在频谱分量方面改进音调估计,所述频谱分量在可感知性上比其它频谱分量更显著。例如,如上所述,音调估计器16可以被配置为在包括第一级和第二级的级中确定音调滞后18,其中,第一级产生音调滞后的初步估计,然后在第二级中精细化。例如,如上所述,音调估计器16可以在对应于第一采样率的下采样域确定音调滞后的初步估计,然后以高于第一采样率的第二采样率精细化音调滞后的初步估计。
关于谐度测量器20,由上面参考图1至3的讨论已清楚看出,其可以通过计算音调信号或其在音调滞后18的预修改版本的归一化相关来确定谐度测量22。应当注意,谐度测量器20甚至可以被配置为在除音调延迟18之外的多个相关性时间距离处(例如在包括音调延迟18且在音调延迟18附近的时间延迟间隔中)计算归一化相关性。这可能是有利的,例如,在滤波器工具30使用多抽头LTP或可能的分数音调LTP的情况下。在这种情况下,谐度测量器20可以分析或评估与实际音调滞后18相邻的滞后索引处的相关性,例如参考图1至3描述的具体示例中的整数音调滞后。
音调估计器16的更多细节和可能实现请参考上面提到的“音调估计”部分。以上参照norm.corr的公式讨论了谐度测量器20的可能实现。然而,如上所述,术语“谐度测量”不仅包括归一化相关性,而且包括测量谐度的提示,例如谐波滤波器的预测增益,其中,在使用前置/后置滤波器方案的情况下,该谐波滤波器可以等于或可以不同于滤波器230的前置滤波器,并且与使用该谐波滤波器的音频编解码器或者该谐波滤波器是否仅由谐波测量器20用来确定测量22无关。
如上面参考图1至3所描述,时间结构分析器24可以被配置为确定在根据音调滞后18时间布置的时间区域内的至少一个时间结构测量26。为了进一步说明这一点,参见图5。图5示出了音频信号的频谱图32,即,根据例如由时间结构分析器24内部使用的音频信号的版本的采样率,分解为一定的最高频率fH,其中,以一定变换块速率进行时间采样,该变换块速率可以与音频编解码器的变换块速率(如果有的话)一致或不一致。为了说明目的,图5示出了频谱图32被时间细分为帧单位,其中,控制器可以例如以帧为单位执行对滤波器工具30的控制,并且帧细分例如还可以与包括或使用滤波器工具30的音频编解码器所使用的帧细分一致。
目前,说明性地假设执行控制器28的控制任务所针对的当前帧是帧34a。如上所述并如图5所示,时间结构分析器确定器在其中确定至少一个时间结构测量26的时间区域36不一定与当前帧34a重合。而是,时间区域36的时间过去末端38和时间未来末端40可以偏离当前帧34a的时间过去末端和时间未来末端42和44。如上所述,时间结构分析器24可以根据由音调估计器16确定的音调滞后18来定位时间区域36的时间过去末端38,所述音调估计器16针对当前帧34a确定每个帧34的音调滞后18。如从上面的讨论可以清楚看出,时间结构分析器24可以定位时间区域的时间过去末端38,使得时间过去末端38相对于当前帧34a的过去末端42移位到过去的方向,例如,移位的时间量46随着音调滞后18的增加而单调增加。换句话说,音调滞后18越大,则移位的时间量46越大。从以上参考图1至3的讨论可以清楚地看出,可以根据公式8设置该移位的时间量,其中Npast是针对时间位移46的测量。
相应地,时间区域36的时间未来模块40可由时间结构分析器24根据时间候选区域48内的音频信号的时间结构来设置,所述时间候选区域48从时间区域36的时间过去末端38延伸到当前帧的时间未来末端44。具体地,如上所述,时间结构分析器24可以评估时间候选区域48内的音频信号的能量样本的差别(disparity)测量,以便确定时间区域36的时间未来末端40的位置。在上面参考图1至3给出的具体细节中,时间候选区域48内的最大和最小能量样本之间的差的测量被用作差别测量,例如其间的幅度比。具体地,在上述具体示例中,变量Nnew测量时间未来36的时间未来末端40相对于当前帧34a的时间过去末端42的位置,如图5的50所示。
从上面的讨论可以清楚地看出,时间区域36的移位依赖于音调滞后18是有利的,因为装置10正确识别出可有利地使用谐波滤波器工具30的情况的能力得到了增加。具体地,使这种情况的正确检测更可靠,即以更高的概率检测这种情况,而基本上不增加假阳性检测。
如上文参考图1至3所描述的,时间结构分析器24可以基于在时间区域36内的音频信号能量的时间采样来确定时间区域36内的至少一个时间结构测量。这在图6中示出,其中能量样本用在跨越任意时间和能量轴的时间/能量平面中绘制的点表示。如上所述,能量样本52可以通过以高于帧34的帧速率的采样速率对音频信号的能量进行采样而获得。在确定至少一个时间结构测量26时,如上所述,分析器24可以计算在时间区域36内紧接连续的能量样本52对之间的变化期间的一组能量改变值。在上述描述中,为此目的使用公式5。通过该措施,可以从每对紧接连续的能量样本52中获得能量改变值。分析器24然后可使从时间区域36内的能量样本52获得的一组能量改变值经历标量函数运算,以获得至少一个结构能量测量26。在上述具体示例中,例如,基于加数的和来确定时间平坦度测量,其中,每个加数恰好依赖于该组能量改变值之一。相应地,根据公式7,使用施加于能量改变值的最大值运算符来确定最大能量变化。
如上所述,能量样本52不一定测量原始未修改版本的音频信号12的能量。而是,能量样本52可以测量一些修改的域中的音频信号的能量。在上述具体示例中,例如,能量样本测量经高通滤波之后获得的音频信号的能量。因此,音频信号在频谱较低区域的能量对能量样本52的影响要小于音频信号的频谱较高分量对能量样本52的影响。然而,还存在其他可能性。具体地,应当注意,根据到目前为止提出的示例,时间结构分析器24针对每个采样时刻仅使用至少一个时间结构测量26中的一个值,但这仅是一个实施例,还存在其他备选方案,其中,所述时间结构分析器24以频谱辨别方式确定所述时间结构测量,以便针对多个频谱带的每个频谱带获得至少一个时间结构测量值中的一个值。因此,时间结构分析器24将向控制器28提供在时间区域36内确定的当前帧34a的至少一个时间结构测量26的多于一个的值,即每个这样的频谱带一个值,其中,所述频谱带例如分割频谱图32的总频谱区间。
图7示出了根据谐波前置/后置滤波器方案的装置10及其在支持谐波滤波器工具30的音频编解码器中的使用。图7示出了基于变换的编码器70以及基于变换的解码器72,其中,编码器70将音频信号12编码为数据流74,解码器72接收数据流74,以便在频谱域中(如76所示)者可选地在时域中(如78所示)重建音频信号。应当清楚,编码器和解码器70和72是离散/分离的实体,并且在图7中示出,仅用于说明目的。
基于变换的编码器70包括对音频信号12进行变换的变换器80。变换器80可以使用重叠变换,例如临界采样重叠变换,如MDCT。在图7的示例中,基于变换的音频编码器70还包括频谱整形器82,其对变换器80输出的音频信号的频谱进行频谱整形。频谱整形器82可以根据实质上是频谱感知函数的逆的传递函数来对音频信号的频谱进行频谱整形。频谱感知函数可以通过线性预测来导出,因此,关于频谱感知函数的信息可以以例如线性预测系数的形式(例如,线谱频率值的量化线谱对的形式)传送到数据流74内的解码器72。备选地,可以使用感知模型来确定频谱感知函数,所述频谱感知函数具有缩放因子的形式,每个缩放因子频带有一个缩放因子,所述缩放因子频带可以例如与巴克(bark)频带一致。编码器70还包括量化器84,其利用例如对于所有谱线都相等的量化函数来量化经频谱整形的频谱。在数据流74中将经频谱整形和量化的频谱传送到解码器72。
仅为了完整性,应当注意,在图7选择的变换器80和频谱整形器82之间的顺序仅用于说明目的。理论上,频谱整形器82可以产生事实上在时域内的频谱整形,即在变换器80的上游。此外,为了确定频谱感知函数,频谱整形器82可以访问时域的音频信号12,尽管在图7中未具体示出。在解码器侧,如图7所示,解码器包括频谱整形器86,频谱整形器86被配置为利用频谱整形器82的传递函数的逆,即实质上利用频谱感知函数,对从数据流74获得的输入的经频谱成形和量化的频谱进行整形,频谱整形器86之后是可选的逆变换器88。逆变换器88执行相对于变换器80的逆变换,并且可以例如为此执行基于变换块的逆变换,其后是重叠相加处理,以便执行时域混叠消除,从而重构时域的音频信号。
如图7所示,编码器70可以在变换器80上游或下游的位置处包括谐波前置滤波器。例如,除了传递函数或频谱整形器82,在变换器80上游的谐波前置滤波器90可以对时域内的音频信号12进行滤波,以便有效地衰减音频信号在谐波处频谱。备选地,谐波前置滤波器可以位于变换器80的下游,这种前置滤波器92在频域中执行或引起相同的衰减。如图7所示,对应的后置滤波器94和96位于解码器72内:在前置滤波器92的情况下,位于逆变换器88上游的频谱域后置滤波器94中,与前置滤波器92的传递函数相反地对音频信号的频谱进行反向整形,并且在使用前置滤波器90的情况下,后置滤波器96使用与前置滤波器90的传递函数相反的传递函数,在逆变换器88下游对时域的重建音频信号执行滤波。
在图7的情况下,装置10通过经由音频编解码器的数据流74向解码侧显式地发信号通知控制信号98来控制由90和96对或92和94对实现的音频编解码器的谐波滤波工具,用于控制相应的后置滤波器,并且与解码侧的后置滤波器的控制一致地,控制编码器侧的前置滤波器。
为了完整性起见,图8示出了使用基于变换的音频编解码器并且还涉及元件80、82、84、86和88的装置10的使用,然而,这里示出了音频编解码器支持只有谐波后置滤波器方案的情况。这里,谐波滤波器工具30可以通过解码器72内位于逆变换器88上游的后置滤波器100来实现,以便在频谱域中执行谐波后置滤波,或者通过使用位于逆变换器88下游的后置滤波器102来实现,以便在时域中在解码器72内执行谐波后置滤波。后置滤波器100和102的操作模式与后置滤波器94和96中的一个基本相同:这些后置滤波器的目的是衰减谐波之间的量化噪声。装置10经由数据流74内的显式信令(图8中使用附图标记104表示显式信令)来控制这些后置滤波器。
如上所述,例如,有规律地(例如每个帧34)发送控制信号98或104。针对帧,应注意,帧不必具有相等的长度。帧34的长度也可以改变。
以上描述,尤其是与图2至3有关的描述,揭示了控制器28如何控制谐波滤波器工具的可能性。从该讨论可以清楚看出,至少一个时间结构测量可以测量时间区域36内的音频信号的平均或最大能量变化。此外,控制器28可以在其控制选项内包括禁用谐波滤波器工具30。这在图9中示出。图9示出了控制器28,其包括逻辑120,逻辑120被配置为检测至少一个时间结构测量和谐度测量是否满足预定条件,以便获得检查结果122,所述检查结果122具有二值属性并指示是否满足预定条件。控制器28被示为包括开关124,开关124被配置为根据检查结果122在启用和禁用谐波滤波器工具之间切换。如果检查结果122指示逻辑120已认可满足预定条件,则开关124通过控制信号14直接指示该情况,或者开关124将该情况与谐波滤波器工具30的滤波器增益度一起指示。也就是说,在后一种情况下,开关124将不会在完全关闭谐波滤波器工具30和完全接通谐波滤波器工具30之间切换,而只是将谐波滤波器工具30设置为分别在滤波器强度或滤波器增益中变化的某个中间状态。在这种情况下,即,如果开关124还在完全关闭和完全接通工具30之间的某一处改变/控制谐波滤波器工具30,则开关124可以依赖于最后的时间结构测量26和谐度测量22,以便确定控制信号14的中间状态,即改变工具30。换句话说,开关124可以基于测量26和22来确定用于控制谐波滤波器工具30的增益因子或自适应因子。备选地,开关124对除指示谐波滤波器30的关闭状态外的控制信号14的所有状态直接使用音频信号12。如果检查结果122指示不满足预定条件,则控制信号14指示禁用谐波滤波器工具30。
从上述图2和图3的描述可以清楚地看出,如果至少一个时间结构测量小于预定的第一阈值且当前帧和/或前一帧的谐度测量高于第二阈值,则可以满足预定条件。还可以存在备选方案:附加地,如果当前帧的谐度测量高于第三阈值,且当前帧和/或前一帧的谐度测量高于随音调滞后增加而减小的第四阈值,则可以满足预定条件。
具体地,在图2和图3的示例中,实际上存在用于满足预定条件的三个备选方案,备选方案依赖于至少一个时间结构测量:
1.一个时间结构测量<阈值,且当前帧和前一帧的组合谐度>第二阈值;
2.一个时间结构测量<第三阈值,且(当前帧或前一帧的谐度>第四阈值;
3.(一个时间结构测量<第五阈值或所有时间测量<阈值)且当前帧的谐度>第六阈值。
因此,图2和图3揭示了逻辑124的可能的实现示例。
如上文参考图1至图3所述,可行地,装置10不仅用于控制音频编解码器的谐波滤波器工具。相反,装置10可以与瞬态检测一起,形成能够执行谐波滤波器工具的控制和检测瞬变的系统。图10示出了这种可能。图10示出了由装置10和瞬态检测器152组成的系统150,并且当装置10输出如上所述的控制信号14时,瞬态检测器152被配置为检测音频信号12中的瞬态。然而,为了做到这一点,瞬态检测器152利用在装置10内发生的中间结果:为其检测,瞬态检测器152使用在时间上或备选地在频谱时间上对音频信号的能量进行采样的能量样本52,然而,可选地评估除了时间区域36之外的时间区域内(例如当前帧34a内)的能量样本。基于这些能量样本,瞬态检测器152执行瞬态检测,并且通过检测信号154发出检测到瞬变的信号。在上述示例的情况下,瞬态检测信号基本指示满足公式4的条件的位置,即,时间连续的能量样本的能量变化超过某个阈值的位置。
从以上讨论也可以清楚看出,基于变换的编码器(例如图8所示的编码器)或变换编码激励编码器可以包括或使用图10的系统,以便根据瞬态检测信号154切换变换块和/或重叠长度。此外,附加地或备选地,包括或使用图10的系统的音频编码器可以是开关模式类型。例如,USAC和EVS使用在模式之间切换。因此,这种编码器可以被配置为支持变换编码激励样式和码激励线性预测模式之间的切换,并且编码器可以被配置为根据图10的系统的瞬态检测信号154执行切换。就变换编码激励样式而言,变换块和/或重叠长度的切换还可以依赖于瞬态检测信号154。
上述实施例的优点的示例
示例1:
计算用于LTP决策的时间测量的区域的大小依赖于音调(参见公式(8)),并且该区域不同于计算用于变换长度的时间测量的区域(通常是当前帧加未来帧)。
在图11的示例,瞬态在计算时间测量的区域内,因此影响LTP决策。如上所述,动机在于,利用来自用“音调滞后”表示的段的过去样本,当前帧的LTP将到达瞬态的一部分。
在图12的示例中,瞬态在计算时间测量的区域之外,因此不影响LTP决策。这是合理的,因为与前面的附图不同,当前帧的LTP不会到达瞬态。
在两个示例(图11和图12)中,仅对在当前帧内的时间测量(即标记有“帧长度”的区域)决定变换长度配置。这意味着在两个示例中,在当前帧中将检测不到瞬态,并且优选地,将采用单个长变换(而不是许多连续的短变换)。
示例2:
在这里我们讨论谐波信号内的脉冲和阶梯瞬变的LTP行为,其一个示例由图13的信号频谱图给出。
当信号编码包括用于完整信号的LTP(因为LTP决策仅基于音调增益)时,输出的频谱图看起来如图14所示。
信号的波形在图15中示出,该信号的频谱图在图14中示出。图15还包括经低通(LP)滤波和高通(HP)滤波的相同信号。在LP滤波信号中,谐波结构变得更清楚,并且在HP滤波信号中,脉冲状瞬态的位置及其拖尾更明显。为了演示目的,在图中修改了完整信号、LP信号和HP信号的电平。
对于短脉冲状的瞬态(如图13中的第一瞬态),长期预测产生瞬态的重复,如图14和图15中可见。在阶梯状的长瞬态(如图13中的第二瞬态)期间使用长期预测不会引入任何额外的失真,因为瞬态对于更长的周期是足够强的,并且因此掩蔽了(同时和后掩蔽)使用长期预测所构建的信号的部分。决策机制启用用于阶梯状瞬态(利用预测的好处)的LTP,并禁用用于短脉冲状的瞬态的LTP(以防止伪像)。
图16和图17中,示出了在瞬态检测器中计算的段的能量。图16示出了脉冲状瞬态,图17示出了阶梯状瞬态。对于图16中的脉冲状瞬态,对包含当前帧(Nnew个段)和直到音调滞后(Npast个段)为止的过去帧的信号计算时间特征,因为比率
Figure BDA0003062894330000251
高于阈值
Figure BDA0003062894330000252
对于图17中的阶梯状瞬态,比率
Figure BDA0003062894330000253
低于阈值
Figure BDA0003062894330000254
因此只有来自段-8、-7和-6的能量用于时间特征的计算。计算时间测量的段的这些不同选择导致针对脉冲状瞬态确定高得多的能量波动,并且因此禁用用于脉冲状瞬态的LTP,并启用用于阶梯状瞬态的LTP。
示例3:
然而,在一些情况下,时间测量的使用可能是不利的。图18中的频谱图和图19中波形示出了从Fatboy Slim的“Kalifornia”开始约35毫秒的片段。
依赖于时间平坦度度量和最大能量改变的LTP决策禁用用于这种类型信号的LTP,因为它检测到能量的巨大时间波动。
该样本是瞬态和形成低音调信号的脉冲串之间的模糊性的示例。
从图20可以看出,在图20中示出了来自相同信号的600毫秒片段,该信号包含了重复的非常短的脉冲状瞬态(使用短长度FFT产生频谱图)。
从图21中相同的600毫秒片段可以看出,信号看起来好像包含具有低且变化的音调的完全谐波信号(使用长长度FFT产生频谱图)。
这种信号受益于LTP,因为存在清晰的重复结构(等同于清晰的谐波结构)。由于存在明显的能量波动(图18、19和20中可以看出),由于超过用于时间平坦度测量或最大能量变化的阈值,LTP将被禁用。然而,在我们的提案中,由于归一化相关性超过依赖于音调滞后的阈值(norm_corr(curr)<=1.2-Tint/L),启用LTP。
因此,上述实施例等揭示了例如用于音频编码的更好的谐波滤波器决策构思。必须重申的是,与所述构思轻微偏差是可行的。具体地,如上所述,音频信号12可以是语音或音乐信号,并且可以被信号12的预处理版本所替代,用于音调估计、谐度测量、或者时间结构分析或测量的目的。此外,音调估计可以不限于音调滞后的测量,本领域技术人员应当知道,音调估计也可以通过测量基频在时域或频谱域执行,其可以容易地通过诸如“音调滞后=采样频率/音调频率”的公式转换成等效音调滞后。因此,一般来说,音调估计器16估计音频信号的音调,音调信号的音调本身在音调滞后和音调频率中表现。
虽然已经在装置的上下文中描述了一些方面,但是将清楚的是,这些方面还表示对相应方法的描述,其中,框或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方案也表示对相应块或项或者相应装置的特征的描述。可以由(或使用)硬件装置(诸如,微处理器、可编程计算机或电子电路)来执行一些或全部方法步骤。在一些实施例中,可以由这种装置来执行最重要方法步骤中的某一个或多个方法步骤。
新颖的编码音频信号可以存储在数字存储介质上,或者可以在诸如无线传输介质或有线传输介质(例如,互联网)等的传输介质上传输。
取决于某些实现要求,可以在硬件中或在软件中实现本发明的实施例。可以使用其上存储有电子可读控制信号的数字存储介质(例如,软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行实现,该电子可读控制信号与可编程计算机系统协作(或者能够与之协作)从而执行相应方法。因此,数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,该电子可读控制信号能够与可编程计算机系统协作从而执行本文所述的方法之一。
通常,本发明的实施例可以实现为具有程序代码的计算机程序产品,程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。
其他实施例包括存储在机器可读载体上的计算机程序,该计算机程序用于执行本文所述的方法之一。
换言之,本发明方法的实施例因此是具有程序代码的计算机程序,该程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。
因此,本发明方法的另一实施例是其上记录有计算机程序的数据载体(或者数字存储介质或计算机可读介质),该计算机程序用于执行本文所述的方法之一。数据载体、数字存储介质或记录介质通常是有形的和/或非瞬时性的。
因此,本发明方法的另一实施例是表示计算机程序的数据流或信号序列,所述计算机程序用于执行本文所述的方法之一。数据流或信号序列可以例如被配置为经由数据通信连接(例如,经由互联网)传递。
另一实施例包括处理装置,例如,计算机或可编程逻辑器件,所述处理装置被配置为或适于执行本文所述的方法之一。
另一实施例包括其上安装有计算机程序的计算机,该计算机程序用于执行本文所述的方法之一。
根据本发明的另一实施例包括被配置为向接收机(例如,以电子方式或以光学方式)传输计算机程序的装置或系统,该计算机程序用于执行本文所述的方法之一。接收机可以是例如计算机、移动设备、存储设备等。装置或系统可以例如包括用于向接收机传递计算机程序的文件服务器。
在一些实施例中,可编程逻辑器件(例如,现场可编程门阵列)可以用于执行本文所述的方法的功能中的一些或全部。在一些实施例中,现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常,方法优选地由任意硬件装置来执行。
上述实施例对于本发明的原理仅是说明性的。应当理解的是:本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此,旨在仅由所附专利权利要求的范围来限制而不是由借助对本文的实施例的描述和解释所给出的具体细节来限制。
示例性实施例
实施例1.一种对音频编解码器的谐波滤波器工具执行谐度依赖控制的装置(10),包括:
音调估计器(16),被配置为确定要被音频编解码器处理的音频信号(12)的音调(18);
谐度测量器(20),被配置为使用音调(18)来确定音频信号(12)的谐度的测量(22);
时间结构分析器(24),被配置为根据音调(18)确定对音频信号(12)的时间结构的特性进行测量的至少一个时间结构测量(26);
控制器(28),被配置为根据时间结构测量(26)和谐度的测量(22)控制谐波滤波器工具(30)。
实施例2.根据实施例1所述的装置,其中,谐度测量器(20)被配置为:通过在音调(18)的音调滞后处或音调滞后附近计算音频信号(12)或音频信号的预修改版本的归一化相关来确定谐度的测量(22)。
实施例3.根据实施例1所述的装置,其中,音调估计器(16)被配置为在包括第一级和第二级的级中确定音调(18)。
实施例4.根据实施例3所述的装置,其中,音调估计器(16)被配置为:在第一级中以第一采样率的下采样域确定音调的初步估计,并在第二级中以高于第一采样率的第二采样率精细化音调的初步估计。
实施例5.根据实施例1所述的装置,其中,音调估计器(16)被配置为使用自相关来确定音调(18)。
实施例6.根据实施例1所述的装置,其中,时间结构分析器(24)被配置为确定在根据音调(18)在时间上布置的时间区域内的所述至少一个时间结构测量(26)。
实施例7.根据实施例6所述的装置,其中,时间结构分析器(24)被配置为:根据音调(18)来定位时间区域或对时间结构测量(26)的确定更有影响的区域在时间上的过去末端(38)。
实施例8.根据实施例6所述的装置,其中,时间结构分析器(24)被配置为:定位时间区域或对时间结构测量的确定更有影响的区域在时间上的过去末端(38),使得时间区域或对时间结构测量的确定更有影响的区域在时间上的过去末端(38)移位到过去的方向上,移位的时间量随着音调(18)的降低而单调增加。
实施例9.根据实施例7所述的装置,其中,时间结构分析器(24)被配置为:根据时间候选区域内的音频信号(12)的时间结构,定位时间区域(36)或对时间结构测量(26)的确定更有影响的区域在时间上的未来末端(40),所述时间候选区域从时间区域或对时间结构测量的确定更有影响的区域在时间上的过去末端(38)延伸到当前帧(34a)在时间上的未来末端(44)。
实施例10.根据实施例9所述的装置,其中,时间结构分析器(24)被配置为:使用时间候选区域内的最大和最小能量样本之间的幅度或比率,以定位时间区域(36)或对时间结构测量(26)的确定更有影响的区域在时间上的未来末端(40)。
实施例11.根据实施例1所述的装置,其中,控制器(28)包括:
逻辑(120),被配置为检查所述至少一个时间结构测量(26)和谐度的测量(22)是否满足预定条件,以获得检查结果;以及
开关(124),被配置为根据检查结果在启用和禁用谐波滤波器工具(30)之间切换。
实施例12.根据实施例11所述的装置,其中,所述至少一个时间结构测量(26)测量时间区域内的音频信号的平均或最大能量变化,并且所述逻辑被配置为使得:
如果所述至少一个时间结构测量(26)小于预定第一阈值且针对当前帧和/或前一帧的谐度的测量(22)高于第二阈值,则满足预定条件。
实施例13.根据实施例12所述的装置,其中,所述逻辑(120)被配置为使得:
如果针对当前帧的谐度的测量(22)高于第三阈值且当前帧和/或前一帧的谐度的测量高于随音调(18)的音调滞后的增加而减小的第四阈值,则满足预定条件。
实施例14.根据实施例1所述的装置,其中,控制器(28)被配置为通过如下方式控制谐波滤波器工具(30):
经由音频编解码器的数据流显式地向解码侧发信号通知控制信号;或
经由音频编解码器的数据流显式地向解码侧发信号通知控制信号,用于控制解码侧的后置滤波器,并且与解码侧的后置滤波器的控制一致地,控制编码器侧的前置滤波器。
实施例15.根据实施例1所述的装置,其中,时间结构分析器(24)被配置为:以频谱上辨别的方式确定所述至少一个时间结构测量(26),以针对多个频谱带的每个频谱带获得所述至少一个时间结构测量的一个值。
实施例16.根据实施例1所述的装置,其中,控制器被配置为:以帧为单位控制谐波滤波器工具(30);并且时间结构分析器(24)被配置为:以比帧的帧速率高的采样率对音频信号(12)的能量进行采样,以获得音频信号的能量样本并基于能量样本确定所述至少一个时间结构测量(26)。
实施例17.根据实施例16所述的装置,其中,时间结构分析器(24)被配置为:确定在根据音调(18)在时间上布置的时间区域内的所述至少一个时间结构测量(26);并且时间结构分析器(24)被配置为:通过计算对时间区域内的能量样本之中紧接连续的能量样本对之间的变化进行测量的一组能量改变值,并使该组能量改变值经历包括最大运算符或将加数求和的标量函数运算,来基于能量样本来确定所述至少一个时间测量结构,其中每个加数恰好依赖于该组能量改变值之一。
实施例18.根据实施例16所述的装置,其中,时间频谱分析器(24)被配置为在高通滤波域内对音频信号(12)的能量进行采样。
实施例19.根据实施例1所述的装置,其中,音调估计器(16)、谐度测量器(20)和时间结构分析器(24)基于音频信号(12)的不同版本执行其确定,所述音频信号的不同版本包括原始音频信号及其预修改版本。
实施例20.根据实施例1所述的装置,其中,控制器(28)被配置为:在根据时间结构测量(26)和谐度的测量(22)控制谐波滤波器工具(30)的过程中,
在启用和禁用谐波滤波器工具(30)的前置滤波器和/或后置滤波器之间切换,或者
逐步调整谐波滤波器工具(30)的前置滤波器和/或后置滤波器的滤波器强度,
其中,谐波滤波器工具(30)采用前置滤波器加后置滤波器的方案,并且谐波滤波器工具(30)的前置滤波器被配置为增加音频信号的音调的谐波内的量化噪声,以及谐波滤波器工具(30)的后置滤波器被配置为相应地对发送的频谱进行重新整形;或者,谐波滤波器工具(30)采用仅后置滤波器的方案,并且谐波滤波器的后置滤波器被配置为滤除在音频信号的音调的谐波之间出现的量化噪声。
实施例21.一种音频编码器或音频解码器,包括谐波滤波器工具(30)和根据前述任一项实施例对谐波滤波器工具执行谐度依赖控制的装置。
实施例22.一种系统,包括:
根据实施例16至18中任一项所述的对谐波滤波器工具执行谐度依赖控制的装置(10),以及
瞬态检测器,被配置为基于能量样本来检测要被音频编解码器处理的音频信号中的瞬态。
实施例23.一种包括如实施例22所述的系统的基于变换的编码器,被配置为根据检测到的瞬态来切换变换块和/或重叠长度。
实施例24.一种包括如实施例22所述的系统的音频编码器,被配置为支持根据检测到的瞬态在变换编码激励样式和码激励线性预测模式之间的切换。
实施例25.根据实施例24所述的音频编码器,被配置为根据检测到的瞬态在变换编码激励样式中切换变换块和/或重叠长度。
实施例26.一种对音频编解码器的谐波滤波器工具执行谐度依赖控制的方法(10),包括:
确定要被音频编解码器处理的音频信号(12)的音调(18);
使用音调(18)来确定音频信号(12)的谐度的测量(22);
根据音调(18)来确定对音频信号的时间结构的特性进行测量的时间结构测量(26);
根据时间结构测量(26)和谐度的测量(22)来控制谐波滤波器工具(30)。
实施例27.一种具有程序代码的计算机程序,所述程序代码当在计算机上运行时用于执行根据实施例26所述的方法。

Claims (27)

1.一种对音频编解码器的谐波滤波器工具执行谐度依赖控制的装置(10),包括:
音调估计器(16),被配置为确定要被音频编解码器处理的音频信号(12)的音调(18);
谐度测量器(20),被配置为使用音调(18)来确定音频信号(12)的谐度的测量(22);
时间结构分析器(24),被配置为根据音调(18)确定对音频信号(12)的时间结构的特性进行测量的至少一个时间结构测量(26);
控制器(28),被配置为根据时间结构测量(26)和谐度的测量(22)控制谐波滤波器工具(30)。
2.根据权利要求1所述的装置,其中,谐度测量器(20)被配置为:通过在音调(18)的音调滞后处或音调滞后附近计算音频信号(12)或音频信号的预修改版本的归一化相关来确定谐度的测量(22)。
3.根据权利要求1所述的装置,其中,音调估计器(16)被配置为在包括第一级和第二级的级中确定音调(18)。
4.根据权利要求3所述的装置,其中,音调估计器(16)被配置为:在第一级中以第一采样率的下采样域确定音调的初步估计,并在第二级中以高于第一采样率的第二采样率精细化音调的初步估计。
5.根据权利要求1所述的装置,其中,音调估计器(16)被配置为使用自相关来确定音调(18)。
6.根据权利要求1所述的装置,其中,时间结构分析器(24)被配置为确定在根据音调(18)在时间上布置的时间区域内的所述至少一个时间结构测量(26)。
7.根据权利要求6所述的装置,其中,时间结构分析器(24)被配置为:根据音调(18)来定位时间区域或对时间结构测量(26)的确定更有影响的区域在时间上的过去末端(38)。
8.根据权利要求6所述的装置,其中,时间结构分析器(24)被配置为:定位时间区域或对时间结构测量的确定更有影响的区域在时间上的过去末端(38),使得时间区域或对时间结构测量的确定更有影响的区域在时间上的过去末端(38)移位到过去的方向上,移位的时间量随着音调(18)的降低而单调增加。
9.根据权利要求7所述的装置,其中,时间结构分析器(24)被配置为:根据时间候选区域内的音频信号(12)的时间结构,定位时间区域(36)或对时间结构测量(26)的确定更有影响的区域在时间上的未来末端(40),所述时间候选区域从时间区域或对时间结构测量的确定更有影响的区域在时间上的过去末端(38)延伸到当前帧(34a)在时间上的未来末端(44)。
10.根据权利要求9所述的装置,其中,时间结构分析器(24)被配置为:使用时间候选区域内的最大和最小能量样本之间的幅度或比率,以定位时间区域(36)或对时间结构测量(26)的确定更有影响的区域在时间上的未来末端(40)。
11.根据权利要求1所述的装置,其中,控制器(28)包括:
逻辑(120),被配置为检查所述至少一个时间结构测量(26)和谐度的测量(22)是否满足预定条件,以获得检查结果;以及
开关(124),被配置为根据检查结果在启用和禁用谐波滤波器工具(30)之间切换。
12.根据权利要求11所述的装置,其中,所述至少一个时间结构测量(26)测量时间区域内的音频信号的平均或最大能量变化,并且所述逻辑被配置为使得:
如果所述至少一个时间结构测量(26)小于预定第一阈值且针对当前帧和/或前一帧的谐度的测量(22)高于第二阈值,则满足预定条件。
13.根据权利要求12所述的装置,其中,所述逻辑(120)被配置为使得:
如果针对当前帧的谐度的测量(22)高于第三阈值且当前帧和/或前一帧的谐度的测量高于随音调(18)的音调滞后的增加而减小的第四阈值,则满足预定条件。
14.根据权利要求1所述的装置,其中,控制器(28)被配置为通过如下方式控制谐波滤波器工具(30):
经由音频编解码器的数据流显式地向解码侧发信号通知控制信号;或
经由音频编解码器的数据流显式地向解码侧发信号通知控制信号,用于控制解码侧的后置滤波器,并且与解码侧的后置滤波器的控制一致地,控制编码器侧的前置滤波器。
15.根据权利要求1所述的装置,其中,时间结构分析器(24)被配置为:以频谱上辨别的方式确定所述至少一个时间结构测量(26),以针对多个频谱带的每个频谱带获得所述至少一个时间结构测量的一个值。
16.根据权利要求1所述的装置,其中,控制器被配置为:以帧为单位控制谐波滤波器工具(30);并且时间结构分析器(24)被配置为:以比帧的帧速率高的采样率对音频信号(12)的能量进行采样,以获得音频信号的能量样本并基于能量样本确定所述至少一个时间结构测量(26)。
17.根据权利要求16所述的装置,其中,时间结构分析器(24)被配置为:确定在根据音调(18)在时间上布置的时间区域内的所述至少一个时间结构测量(26);并且时间结构分析器(24)被配置为:通过计算对时间区域内的能量样本之中紧接连续的能量样本对之间的变化进行测量的一组能量改变值,并使该组能量改变值经历包括最大运算符或将加数求和的标量函数运算,来基于能量样本来确定所述至少一个时间测量结构,其中每个加数恰好依赖于该组能量改变值之一。
18.根据权利要求16所述的装置,其中,时间频谱分析器(24)被配置为在高通滤波域内对音频信号(12)的能量进行采样。
19.根据权利要求1所述的装置,其中,音调估计器(16)、谐度测量器(20)和时间结构分析器(24)基于音频信号(12)的不同版本执行其确定,所述音频信号的不同版本包括原始音频信号及其预修改版本。
20.根据权利要求1所述的装置,其中,控制器(28)被配置为:在根据时间结构测量(26)和谐度的测量(22)控制谐波滤波器工具(30)的过程中,
在启用和禁用谐波滤波器工具(30)的前置滤波器和/或后置滤波器之间切换,或者
逐步调整谐波滤波器工具(30)的前置滤波器和/或后置滤波器的滤波器强度,
其中,谐波滤波器工具(30)采用前置滤波器加后置滤波器的方案,并且谐波滤波器工具(30)的前置滤波器被配置为增加音频信号的音调的谐波内的量化噪声,以及谐波滤波器工具(30)的后置滤波器被配置为相应地对发送的频谱进行重新整形;或者,谐波滤波器工具(30)采用仅后置滤波器的方案,并且谐波滤波器的后置滤波器被配置为滤除在音频信号的音调的谐波之间出现的量化噪声。
21.一种音频编码器或音频解码器,包括谐波滤波器工具(30)和根据前述任一项权利要求对谐波滤波器工具执行谐度依赖控制的装置。
22.一种系统,包括:
根据权利要求16至18中任一项所述的对谐波滤波器工具执行谐度依赖控制的装置(10),以及
瞬态检测器,被配置为基于能量样本来检测要被音频编解码器处理的音频信号中的瞬态。
23.一种包括如权利要求22所述的系统的基于变换的编码器,被配置为根据检测到的瞬态来切换变换块和/或重叠长度。
24.一种包括如权利要求22所述的系统的音频编码器,被配置为支持根据检测到的瞬态在变换编码激励样式和码激励线性预测模式之间的切换。
25.根据权利要求24所述的音频编码器,被配置为根据检测到的瞬态在变换编码激励样式中切换变换块和/或重叠长度。
26.一种对音频编解码器的谐波滤波器工具执行谐度依赖控制的方法(10),包括:
确定要被音频编解码器处理的音频信号(12)的音调(18);
使用音调(18)来确定音频信号(12)的谐度的测量(22);
根据音调(18)来确定对音频信号的时间结构的特性进行测量的时间结构测量(26);
根据时间结构测量(26)和谐度的测量(22)来控制谐波滤波器工具(30)。
27.一种具有程序代码的计算机程序,所述程序代码当在计算机上运行时用于执行根据权利要求26所述的方法。
CN202110519799.5A 2014-07-28 2015-07-27 谐波滤波器工具的谐度依赖控制 Active CN113450810B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110519799.5A CN113450810B (zh) 2014-07-28 2015-07-27 谐波滤波器工具的谐度依赖控制

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP14178810.9A EP2980798A1 (en) 2014-07-28 2014-07-28 Harmonicity-dependent controlling of a harmonic filter tool
EP14178810.9 2014-07-28
PCT/EP2015/067160 WO2016016190A1 (en) 2014-07-28 2015-07-27 Harmonicity-dependent controlling of a harmonic filter tool
CN202110519799.5A CN113450810B (zh) 2014-07-28 2015-07-27 谐波滤波器工具的谐度依赖控制
CN201580042675.5A CN106575509B (zh) 2014-07-28 2015-07-27 谐波滤波器工具的谐度依赖控制

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201580042675.5A Division CN106575509B (zh) 2014-07-28 2015-07-27 谐波滤波器工具的谐度依赖控制

Publications (2)

Publication Number Publication Date
CN113450810A true CN113450810A (zh) 2021-09-28
CN113450810B CN113450810B (zh) 2024-04-09

Family

ID=51224873

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202110519799.5A Active CN113450810B (zh) 2014-07-28 2015-07-27 谐波滤波器工具的谐度依赖控制
CN201580042675.5A Active CN106575509B (zh) 2014-07-28 2015-07-27 谐波滤波器工具的谐度依赖控制

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201580042675.5A Active CN106575509B (zh) 2014-07-28 2015-07-27 谐波滤波器工具的谐度依赖控制

Country Status (18)

Country Link
US (3) US10083706B2 (zh)
EP (4) EP2980798A1 (zh)
JP (3) JP6629834B2 (zh)
KR (1) KR102009195B1 (zh)
CN (2) CN113450810B (zh)
AR (1) AR101341A1 (zh)
AU (1) AU2015295519B2 (zh)
BR (1) BR112017000348B1 (zh)
CA (1) CA2955127C (zh)
ES (2) ES2836898T3 (zh)
MX (1) MX366278B (zh)
MY (1) MY182051A (zh)
PL (2) PL3396669T3 (zh)
PT (2) PT3175455T (zh)
RU (1) RU2691243C2 (zh)
SG (1) SG11201700640XA (zh)
TW (1) TWI591623B (zh)
WO (1) WO2016016190A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2980799A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an audio signal using a harmonic post-filter
EP3382701A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping
EP3396670B1 (en) * 2017-04-28 2020-11-25 Nxp B.V. Speech signal processing
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483883A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483884A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
JP6962268B2 (ja) * 2018-05-10 2021-11-05 日本電信電話株式会社 ピッチ強調装置、その方法、およびプログラム

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
JPH0677834A (ja) * 1992-08-25 1994-03-18 Sharp Corp ピッチ検出装置
JPH0981192A (ja) * 1995-09-14 1997-03-28 Toshiba Corp ピッチ強調方法および装置
US6138093A (en) * 1997-03-03 2000-10-24 Telefonaktiebolaget Lm Ericsson High resolution post processing method for a speech decoder
JP2004302257A (ja) * 2003-03-31 2004-10-28 Matsushita Electric Ind Co Ltd 長期ポストフィルタ
JP2008309956A (ja) * 2007-06-13 2008-12-25 Mitsubishi Electric Corp 音声符号化装置及び音声復号装置
CN101573751A (zh) * 2006-10-20 2009-11-04 法国电信 过浊音度的衰减,特别对于信息缺失时解码器激励的产生
US20100070270A1 (en) * 2008-09-15 2010-03-18 GH Innovation, Inc. CELP Post-processing for Music Signals
CN101925950A (zh) * 2008-01-04 2010-12-22 杜比国际公司 音频编码器和解码器
CN102150201A (zh) * 2008-07-11 2011-08-10 弗劳恩霍夫应用研究促进协会 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码
CN102195288A (zh) * 2011-05-20 2011-09-21 西安理工大学 一种有源调谐型混合滤波器及进行有源调谐的控制方法
CN102282612A (zh) * 2009-01-16 2011-12-14 杜比国际公司 叉积增强的谐波转置
US8095359B2 (en) * 2007-06-14 2012-01-10 Thomson Licensing Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
CN102411935A (zh) * 2005-04-01 2012-04-11 高通股份有限公司 用于带宽延伸语音预测激励信号的抗稀疏滤波的方法和设备
JP2013533983A (ja) * 2010-07-02 2013-08-29 ドルビー・インターナショナル・アーベー 選択的バスポストフィルタ

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5012517A (en) 1989-04-18 1991-04-30 Pacific Communication Science, Inc. Adaptive transform coder having long term predictor
US5469087A (en) * 1992-06-25 1995-11-21 Noise Cancellation Technologies, Inc. Control system using harmonic filters
CN1155942C (zh) * 1995-05-10 2004-06-30 皇家菲利浦电子有限公司 具有改进的音调检测的编码语音传输系统和方法
DE69628103T2 (de) * 1995-09-14 2004-04-01 Kabushiki Kaisha Toshiba, Kawasaki Verfahren und Filter zur Hervorbebung von Formanten
JP2940464B2 (ja) * 1996-03-27 1999-08-25 日本電気株式会社 音声復号化装置
JPH09281995A (ja) * 1996-04-12 1997-10-31 Nec Corp 信号符号化装置及び方法
CN1180677A (zh) 1996-10-25 1998-05-06 中国科学院固体物理研究所 纳米添加氧化铝陶瓷的改性方法
DE19736669C1 (de) 1997-08-22 1998-10-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Erfassen eines Anschlags in einem zeitdiskreten Audiosignal sowie Vorrichtung und Verfahren zum Codieren eines Audiosignals
JP2000206999A (ja) * 1999-01-19 2000-07-28 Nec Corp 音声符号伝送装置
US6691092B1 (en) * 1999-04-05 2004-02-10 Hughes Electronics Corporation Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system
CA2388352A1 (en) 2002-05-31 2003-11-30 Voiceage Corporation A method and device for frequency-selective pitch enhancement of synthesized speed
TW594674B (en) * 2003-03-14 2004-06-21 Mediatek Inc Encoder and a encoding method capable of detecting audio signal transient
US20050143979A1 (en) * 2003-12-26 2005-06-30 Lee Mi S. Variable-frame speech coding/decoding apparatus and method
EP1775717B1 (en) * 2004-07-20 2013-09-11 Panasonic Corporation Speech decoding apparatus and compensation frame generation method
CN101031963B (zh) * 2004-09-16 2010-09-15 法国电信 处理有噪声的声音信号的方法以及实现该方法的装置
UA94041C2 (ru) * 2005-04-01 2011-04-11 Квелкомм Инкорпорейтед Способ и устройство для фильтрации, устраняющей разреженность
US7548853B2 (en) * 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
US7546240B2 (en) * 2005-07-15 2009-06-09 Microsoft Corporation Coding with improved time resolution for selected segments via adaptive block transformation of a group of samples from a subband decomposition
WO2007088853A1 (ja) * 2006-01-31 2007-08-09 Matsushita Electric Industrial Co., Ltd. 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法
CN101496095B (zh) * 2006-07-31 2012-11-21 高通股份有限公司 用于信号变化检测的系统、方法及设备
US8036899B2 (en) * 2006-10-20 2011-10-11 Tal Sobol-Shikler Speech affect editing systems
US20100010810A1 (en) * 2006-12-13 2010-01-14 Panasonic Corporation Post filter and filtering method
EP2210427B1 (en) * 2007-09-26 2015-05-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for extracting an ambient signal
US9142221B2 (en) * 2008-04-07 2015-09-22 Cambridge Silicon Radio Limited Noise reduction
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
EP2226794B1 (en) 2009-03-06 2017-11-08 Harman Becker Automotive Systems GmbH Background noise estimation
CN102169694B (zh) * 2010-02-26 2012-10-17 华为技术有限公司 生成心理声学模型的方法及装置
EP2569767B1 (en) * 2010-05-11 2014-06-11 Telefonaktiebolaget LM Ericsson (publ) Method and arrangement for processing of audio signals
US8738385B2 (en) 2010-10-20 2014-05-27 Broadcom Corporation Pitch-based pre-filtering and post-filtering for compression of audio signals
BR112013016438B1 (pt) * 2010-12-29 2021-08-17 Samsung Electronics Co., Ltd Método de codificação, método de decodificação, e mídia de gravação legível por computador não transitória
TWI488177B (zh) * 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 使用頻譜域雜訊整形之基於線性預測的編碼方案
US8731911B2 (en) * 2011-12-09 2014-05-20 Microsoft Corporation Harmonicity-based single-channel speech quality estimation
CN103325384A (zh) 2012-03-23 2013-09-25 杜比实验室特许公司 谐度估计、音频分类、音调确定及噪声估计
EP2828855B1 (en) * 2012-03-23 2016-04-27 Dolby Laboratories Licensing Corporation Determining a harmonicity measure for voice processing
JP2015525374A (ja) * 2012-06-04 2015-09-03 サムスン エレクトロニクス カンパニー リミテッド オーディオ符号化方法及びその装置、オーディオ復号化方法及びその装置、並びにそれを採用するマルチメディア機器
DE102014113392B4 (de) 2014-05-07 2022-08-25 Gizmo Packaging Limited Verschlussvorrichtung für einen Behälter
RU2632151C2 (ru) * 2014-07-28 2017-10-02 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ выбора одного из первого алгоритма кодирования и второго алгоритма кодирования с использованием уменьшения гармоник
JP2017122908A (ja) * 2016-01-06 2017-07-13 ヤマハ株式会社 信号処理装置および信号処理方法
EP3483883A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
JPH0677834A (ja) * 1992-08-25 1994-03-18 Sharp Corp ピッチ検出装置
JPH0981192A (ja) * 1995-09-14 1997-03-28 Toshiba Corp ピッチ強調方法および装置
US6138093A (en) * 1997-03-03 2000-10-24 Telefonaktiebolaget Lm Ericsson High resolution post processing method for a speech decoder
JP2004302257A (ja) * 2003-03-31 2004-10-28 Matsushita Electric Ind Co Ltd 長期ポストフィルタ
CN102411935A (zh) * 2005-04-01 2012-04-11 高通股份有限公司 用于带宽延伸语音预测激励信号的抗稀疏滤波的方法和设备
CN101573751A (zh) * 2006-10-20 2009-11-04 法国电信 过浊音度的衰减,特别对于信息缺失时解码器激励的产生
JP2008309956A (ja) * 2007-06-13 2008-12-25 Mitsubishi Electric Corp 音声符号化装置及び音声復号装置
US8095359B2 (en) * 2007-06-14 2012-01-10 Thomson Licensing Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
CN101925950A (zh) * 2008-01-04 2010-12-22 杜比国际公司 音频编码器和解码器
CN102150201A (zh) * 2008-07-11 2011-08-10 弗劳恩霍夫应用研究促进协会 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码
US20100070270A1 (en) * 2008-09-15 2010-03-18 GH Innovation, Inc. CELP Post-processing for Music Signals
CN102282612A (zh) * 2009-01-16 2011-12-14 杜比国际公司 叉积增强的谐波转置
JP2013533983A (ja) * 2010-07-02 2013-08-29 ドルビー・インターナショナル・アーベー 選択的バスポストフィルタ
CN102195288A (zh) * 2011-05-20 2011-09-21 西安理工大学 一种有源调谐型混合滤波器及进行有源调谐的控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
F. VILLAVICENCIO等: "Improving Lpc Spectral Envelope Extraction Of Voiced Speech By True-Envelope Estimation", 《2006 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS SPEECH AND SIGNAL PROCESSING PROCEEDINGS》 *

Also Published As

Publication number Publication date
EP2980798A1 (en) 2016-02-03
MX2017001240A (es) 2017-03-14
US11581003B2 (en) 2023-02-14
WO2016016190A1 (en) 2016-02-04
AU2015295519B2 (en) 2018-08-16
AU2015295519A1 (en) 2017-02-16
RU2691243C2 (ru) 2019-06-11
PL3396669T3 (pl) 2021-05-17
RU2017105808A3 (zh) 2018-08-28
EP3779983A1 (en) 2021-02-17
CA2955127A1 (en) 2016-02-04
EP3175455A1 (en) 2017-06-07
EP3396669B1 (en) 2020-11-11
TWI591623B (zh) 2017-07-11
PT3175455T (pt) 2018-10-15
PT3396669T (pt) 2021-01-04
US10083706B2 (en) 2018-09-25
KR102009195B1 (ko) 2019-08-09
MX366278B (es) 2019-07-04
JP2017528752A (ja) 2017-09-28
JP2023015055A (ja) 2023-01-31
TW201618087A (zh) 2016-05-16
EP3396669A1 (en) 2018-10-31
JP2020052414A (ja) 2020-04-02
US20170133029A1 (en) 2017-05-11
SG11201700640XA (en) 2017-02-27
US20190057710A1 (en) 2019-02-21
US20200286498A1 (en) 2020-09-10
US10679638B2 (en) 2020-06-09
CN106575509A (zh) 2017-04-19
PL3175455T3 (pl) 2018-11-30
ES2685574T3 (es) 2018-10-10
ES2836898T3 (es) 2021-06-28
JP7160790B2 (ja) 2022-10-25
JP6629834B2 (ja) 2020-01-15
MY182051A (en) 2021-01-18
RU2017105808A (ru) 2018-08-28
CA2955127C (en) 2019-05-07
CN113450810B (zh) 2024-04-09
CN106575509B (zh) 2021-05-28
KR20170036779A (ko) 2017-04-03
AR101341A1 (es) 2016-12-14
BR112017000348A2 (pt) 2018-01-16
BR112017000348B1 (pt) 2023-11-28
EP3175455B1 (en) 2018-06-27

Similar Documents

Publication Publication Date Title
CN106575509B (zh) 谐波滤波器工具的谐度依赖控制
JP6086999B2 (ja) ハーモニクス低減を使用して第1符号化アルゴリズムと第2符号化アルゴリズムの一方を選択する装置及び方法
KR101698905B1 (ko) 정렬된 예견 부를 사용하여 오디오 신호를 인코딩하고 디코딩하기 위한 장치 및 방법
US9620129B2 (en) Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant