CN110870007A - 用于确定与音频信号的人工带宽限制处理有关的预定特性的装置和方法 - Google Patents

用于确定与音频信号的人工带宽限制处理有关的预定特性的装置和方法 Download PDF

Info

Publication number
CN110870007A
CN110870007A CN201880036538.4A CN201880036538A CN110870007A CN 110870007 A CN110870007 A CN 110870007A CN 201880036538 A CN201880036538 A CN 201880036538A CN 110870007 A CN110870007 A CN 110870007A
Authority
CN
China
Prior art keywords
frequency
audio signal
signal
spectrum
spectral
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880036538.4A
Other languages
English (en)
Other versions
CN110870007B (zh
Inventor
帕特里克·甘普
克里斯蒂安·乌勒
萨沙·迪施
安东尼奥·卡拉姆伯尼欧蒂斯
茱莉亚·哈文斯坦
奥利弗·赫尔穆特
于尔根·赫勒
彼得·普罗肯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN110870007A publication Critical patent/CN110870007A/zh
Application granted granted Critical
Publication of CN110870007B publication Critical patent/CN110870007B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control

Abstract

一种用于确定与音频信号的人工带宽限制处理有关的预定特征的装置包括被配置用于评估所述音频信号的频谱的斜率以获得斜率评估结果的斜率评估器。装置包括被配置用于评估音频信号的频率的截止频率以获得频率评估结果的频率评估器,以及包括用于取决于所述斜率评估结果的评估和频率评估结果的评估而提供指示音频信号包括所述预定特性的信息。

Description

用于确定与音频信号的人工带宽限制处理有关的预定特性的 装置和方法
背景技术
在多媒体应用中,音频信号通常使用专用感知编码方法,如MPEG1/2层3(“mp3”)、MPEG2/4高级音频编码(AAC)等被编码。当解码编码的音频信号时,可以应用各种处理方法以便重构初始被编码的音频信号。然而,由于诸如感知自适应量化的有损编码操作或诸如频谱带宽复制(SBR)的参数编码技术,有可能在解码的音频信号中获得可能是令人烦扰的伪像。
很长时间以来,已经开发了感知音频编码器以首先保持原始信号的感知质量。如果编码和非编码信号在感知上是不可区分的,则这个特性被称为“感知透明度”。
然而,只有在可用比特率(即,使用的数据量)足够高时才能实现透明度。近年来,认识到的是,在低比特率下,在透明意义上感知愉悦变得比接近原始信号更重要。因此,与以感知愉悦为目标的现代编码方法相比,诸如MP3或AAC等沿用已久的感知编码方案可能听起来不是最理想的。
下面,简要描述一些编码伪像。
鸟伪像
在低比特率转换编码中,通常必须将用于频谱线的编码的量化器设置为非常粗糙的精度,使得它们的动态范围适应于信号。结果,许多频谱线由量化器的死区量化为0,或量化为值1,对应于第一量化器步长。随着时间的过去,频谱线或线群可能在0和1之间切换,从而引入不希望的时间调制。这种伪像被称为“鸟”,使人联想到鸟的吱吱叫。因此,频谱空洞和频谱岛的这种强时变存在是导致令人反感的感知伪像的不希望的编解码器行为,参见[2]和[3]。
带宽限制
另一种熟知的编码伪像是带宽限制。如果在低比特率编码条件下,可用的比特预算不足以容纳透明度所需的精度,则传统编解码器通常引入静态低通以限制音频带宽。这可能导致单调和沉闷的声音印象,参见[2]和[3]。
音调尖峰伪像
当音调噪声比被高估时,这种伪像与诸如频带复制(SBR)的人工带宽扩展方法结合出现,参见[4]。在这种情况下,音调分量以太多的能量重新创造,这导致金属声音,参见[3]。
跳动伪像
除了音调尖峰伪像之外,跳动伪像与人工带宽扩展一起出现。跳动产生粗糙感,并从具有接近频率距离的两个音调分量中显现出来,这可能是由SBR中使用的复制引起的,参见[3]。
因此,目的是检测音频信号是否经受了能够引入伪像和/或减少这种伪像的处理。
可能是伪像的来源的处理方法的示例是频带复制(SBR),其是用于在解码器侧扩展音频信号的带宽的半参数方法。在第一步骤中,通过将频谱系数从较低频率区域复制到较高频率区域来复制发送的低通信号频谱的部分。在第二步骤中,调整频谱包络。执行频谱包络的调整,使得频谱的粗略形状与给定目标匹配,而精细结构保持不变。
SBR的检测是所希望的,因为从获得的信息可以得出结论:
1.信号已经通过感知音频编码而被压缩(即,有损)。因此,解决上述伪像类型的增强方法的应用是适当的。
2.信号的声音质量可以通过用于降低由SBR引入的伪像的可听度的专用方法来潜在地改进。这种方法受益于关于SBR在其处生效的开始频率的知识。
SBR在其处生效的开始频率针对通过减轻由SBR引入的伪像改善声音质量的后处理是令人感兴趣的。因此,需要检测SBR和估计SBR的开始频率。特别地,希望确定是否需要这种增强。例如,这针对高音质的信号是不合适的,因为当音频信号具有高音质时,增强会降低声音质量。
US9,117,440B2中描述了检测SBR的方法。描述的方法对使用滤波器组或时间-频率变换计算的子带信号进行操作。然后,通过互相关,即通过将相应的采样相乘并随着时间累加这些乘积,来量化多个子带之间的关系。
伪像的来源的另一示例是带宽减少(BR),其也被称为带宽限制(BL)。当带宽被严重限制时,感知到声音质量的劣化,并且期望质量增强。这种质量改善可以包括带宽扩展(BWE),其应当仅在需要时应用,即,当信号的自然带宽已经被人为地严重降低时应用。[1]中描述了一种用于BWE的方法,其使用带宽的估计。通过检测在任何给定时间存在于信号中的最高频率而估计带宽。方法易于出现假阳性检测错误,因为音频信号由于生成该信号的机制仅在较低频率生成能量而可能具有有限的带宽。
总之,当用于音频内容的存储空间或流带宽被限制时,感知音频编码器被广泛使用。如果应用的压缩率非常高(并且在压缩之后使用的数据率非常低),则引入了降低感知的音频质量的若干编码伪像。
发明内容
因此,本发明的目的是提供对包括由易于产生伪像的音频处理获得的特性的音频信号的增强识别,和/或提供通过对这种音频素材应用专用后处理减少这种伪像的概念。
该目的通过根据独立权利要求的主题实现。
根据第一方面,发明人已经发现,通过使用从音频信号得出的局部最大信号并且通过确定局部最大信号的段之间的相似性,可以获得与频谱增强处理有关的特性的安全且有效的识别,使得可以针对相应的音频信号实施相应的后处理,以便减少例如音调尖峰伪像和/或跳动伪像。基于对信号的评估,可以不需要指示实现的音频处理的边信息,使得模块的盲操作是可能的。
根据第一方面的实施例,一种用于确定与音频信号的频谱增强处理有关的预定特性的装置包括推导器,推导器被配置用于获得音频信号的频谱以及用于得出与频谱的精细结构有关的信息。装置包括被配置用于确定频谱的精细结构中的相似性的确定器。装置还包括处理器,处理器用于根据相似性的评估提供指示音频信号包括预定特性的信息。为了在与精细结构有关的信息的段之间比较相似性,可能需要少量的计算工作。此外,可以获得指示可能已经执行了频谱增强处理的相似段的精确和安全确定。
根据第一方面的进一步实施例,一种用于确定与音频信号的频谱增强处理有关的预定特性的方法包括:获得音频信号的频谱以及得出与频谱的精细结构有关的信息。方法包括确定精细结构中的相似性,诸如与精细结构有关的信息的段之间的相似性,以及包括依据相似性的评估提供指示音频信号包括预定特性的信息。
根据第一方面的进一步实施例,非暂时性存储介质具有其上存储的计算机程序,计算机程序具有用于当在计算机上运行时执行这样的方法的程序代码。
根据第二方面,发明人已经发现,通过相对于频谱的斜率评估音频信号的频谱,可以获得音频信号的安全和有效的特性描述,以便包括与人工带宽限制处理有关的特性,从而使得能够进行相应的后处理,例如,以减少或消除鸟伪像和/或带宽限制伪像。基于对信号的评估,可以不需要指示实施的音频处理的边信息,使得模块的盲操作是可能的。
根据第二方面的实施例,一种用于确定与音频信号的人工带宽限制处理有关的预定特性的装置包括斜率评估器,斜率评估器被配置用于评估音频信号的频谱的斜率以获得斜率评估结果。装置还包括处理器,处理器用于根据对斜率评估结果的评估提供指示音频信号包括预定特性的信息。通过将音频信号是否包括与人工带宽限制处理有关的特性的评估基于频谱的斜率,例如频谱的下降边缘,可以获得人工带宽限制处理的精确检测,同时使用低计算工作量。
根据第二方面的另一实施例,一种用于确定与音频信号的人工带宽限制处理有关的预定特性的方法包括:评估音频信号的频谱的斜率以获得斜率评估结果。方法包括根据对斜率评估结果的评估来提供指示音频信号包括预定特性的信息。
根据第二方面的实施例,非暂时性存储介质具有存储在其上的计算机程序,计算机程序具有用于当在计算机上运行时执行这样的方法的程序代码。
第一和第二方面都允许在正在经受相应处理的音频信号或其帧与已经未经受处理的音频信号或其帧之间进行区分,以便避免对未经受处理的帧的后处理。
根据第三方面,发明人已经发现,通过对具有音频信号的不同信号特性的不同部分不同地执行带宽扩展,可以彼此独立地执行不同部分和/或特性的增强,以便获得具有高质量的包括增强的第一部分和增强的第二部分的组合信号。不同地处理不同的信号特性可以允许基于相应的特性调整处理。
根据第三方面的实施例,一种用于处理音频信号的装置包括分离器,分离器用于将音频信号的频谱的第一部分与音频信号的频谱的第二部分分离。第一部分具有第一信号特性,第二部分具有第二信号特性。装置包括第一带宽扩展器,第一带宽扩展器用于使用与第一信号特性相关联的第一参数扩展第一部分的带宽,以获得第一扩展部分。装置包括第二带宽扩展器,第一带宽扩展器用于使用与第二信号特性相关联的第二参数扩展第二部分的带宽,以获得第二扩展部分。装置还包括组合器,组合器被配置用于使用第一扩展部分和第二扩展部分获得扩展组合音频信号。这可以允许增强具有彼此独立的不同信号特性的不同部分,以便获得具有高质量的组合音频信号。
根据第三方面的另一实施例,一种用于处理音频信号的方法包括将音频信号的频谱的第一部分与音频信号的频谱的第二部分分离,第一部分具有第一信号特性,第二部分具有第二信号特性。方法包括使用与第一信号特征相关联的第一参数扩展第一部分的带宽,以获得第一扩展部分。方法包括使用与第二信号特性相关联的第二参数扩展第二部分的带宽,以获得第二扩展部分。方法还包括使用第一扩展部分和第二扩展部分来获得扩展组合音频信号。
根据第三方面的另一实施例,非暂时性存储介质具有其上存储的计算机程序,计算机程序具有用于当在计算机上运行时执行这样的方法的程序代码。
根据第四方面,发明人已经发现,通过相对于音频信号的不同部分对音频信号的一部分进行相移,可以减小感知的粗糙度。特别地,当与未扩展频谱相比时,可以被生成或复制以扩展带宽的部分可以被相移。
根据第四方面的实施例,一种用于处理音频信号的装置包括抗粗糙滤波器,抗粗糙滤波器用于对音频信号的至少一部分进行相移以便获得相移信号。装置包括高通滤波器,高通滤波器被配置用于对相移信号进行滤波以便获得第一滤波信号。装置包括低通滤波器,低通滤波器被配置用于对音频信号进行滤波以便获得第二滤波信号。装置包括组合器,组合器被配置用于组合第一滤波信号和第二滤波信号,以便获得增强音频信号。与低通滤波器留下的部分相比,装置允许对高通滤波器留下的部分进行相移,使得当分别与音频信号、第二滤波信号相比时,第一滤波信号可以包括相移部分。这可以允许在组合信号中获得低粗糙度。
根据第四方面的另一实施例,一种用于处理音频信号的方法包括对音频信号的至少一部分进行相移,以便获得相移信号。方法包括使用高通滤波器对相移信号进行滤波,以便获得第一滤波信号。方法还包括使用低通滤波器对音频信号进行滤波,以便获得第二滤波信号。方法还包括组合第一滤波信号和第二滤波信号,以便获得增强音频信号。
根据第四方面的另一实施例,非暂时性存储介质具有其上存储的计算机程序,计算机程序具有用于当在计算机上运行时执行这样的方法的程序代码。
本发明的进一步实施例在从属权利要求中限定。
附图说明
为了更完整地理解本公开及其优点,现在结合附图参考以下描述,其中:
图1示出根据第一方面的实施例的用于确定与音频信号的频谱增强处理有关的预定特性的装置的示意性框图;
图2a示出根据第一方面的实施例的示例频谱的示意图,示例频谱可以从音频信号中得出,图1的频谱可以从音频信号中获得;
图2b示出根据第一方面的实施例的在与图2a中相同的频率横坐标上的局部最大信号的示意性示例图;
图3示出根据第一方面的实施例的用于使用确定规则确定相似性的示意图;
图4示出根据第一方面的实施例的后处理的相似性函数的示例,被示为其滤波值;
图5示出根据第一方面的实施例的包括频率估计器的装置的示意性框图;
图6a示出根据第一方面的实施例的示例局部相似性矩阵的示意性图形表示;
图6b示出根据第一方面的实施例的图6a中所示的矩阵的线的示意图;
图7示出根据第一方面的实施例的包括频谱计算器的装置的示意性框图;
图8示出根据第一方面的实施例的用于确定与音频信号的频谱增强处理相关的预定特性的方法的示意性流程图;
图9示出根据第二方面的实施例的装置的示意性框图;
图10示出说明与第二方面的实施例相关的示例频谱的示意图;
图11示出根据第二方面的实施例的频谱差函数的示例结果的示意图;
图12a示出根据第二方面的实施例的包括能量估计器的装置的示意性框图;
图12b示出根据第二方面的实施例的包括截止频率处的下降边缘的示例频谱;
图12c示出根据第二方面的实施例的被配置用于处理可以从解码器接收的音频信号的装置的示意性框图;
图12d示出根据第二方面的实施例的用于确定频谱权重的处理器的功能性的示意性框图;
图12e示出根据第二方面的实施例的被配置用于减少鸟伪像的信号增强器的示意性框图;
图12f示出根据第二方面的实施例的用于处理音频信号的方法的示意性流程图;
图13a示出根据第二方面的实施例的用于确定与音频信号的人工带宽限制处理有关的预定特性的方法的示意性流程图;
图13b示出根据第二方面的实施例的用于确定与音频信号的人工带宽限制处理有关的预定特性的另一方法的示意性流程图,方法还评估截止频率;
图14示出根据第三方面的实施例的装置的示意性框图;
图15示出根据第三方面的实施例的示出包括不同分量的示例频谱的示意图;
图16示出根据第三方面的实施例的装置的示意性框图;
图17a示出根据第三方面的实施例的音频信号的第一部分的示例频谱;
图17b示出根据第三方面的实施例的被扩展了两个复制部分的第一部分的示意图;
图17c示出根据第三方面的实施例的可以从被配置用于至少对图17b的扩展部分进行整形的包络整形器获得的示例幅度频谱;
图18示出根据第三方面的实施例的被配置用于白化音频信号的频谱白化器的示意性框图;
图19示出根据第三方面的实施例的可选块的功能,可选块是图16的装置的查找表和信号分析器;
图20示出根据第三方面的实施例的方法的示意性流程图;
图21示出根据第四方面的实施例的装置的示意图;
图22示出根据第四方面的实施例的包括分离器的装置的示意性框图;以及
图23示出根据第三方面的实施例的用于处理音频信号的方法的示意性流程图。
具体实施方式
即使在不同的图中出现,相同或等效的元件或具有相同或等效功能的元件在以下描述中也由相同或等效的附图标记表示。
还应注意的是,本文描述的实施例涉及数字信号处理。因此,由于采样,所有信号都被频带限制在采样频率的一半以下的频率。这里讨论的(人工)带宽限制指额外的带宽限制,使得信号的带宽小于数字表示允许的带宽。
第一方面和第二方面涉及识别音频信号内的指示相应音频信号经受了特定处理的信号特性。通过识别相应的特性和与其有关的参数,可以进行或执行适当的动作和处理,以便减少或消除响应于处理可能发生的伪像。因此,减少可能被插入到处理后的音频信号中的伪像可以被理解为分别与第一方面、第二方面有关。
第三方面和第四方面涉及后处理音频信号。为了后处理音频信号以便增强音频质量,可以使用与先前进行的音频信号的处理有关的信息,例如,根据第一和第二方面导出的信息,和/或可以结合不同的音频信号使用与先前进行的音频信号的处理有关的信息。
因此,在下文中,在参考第三和第四方面之前,将首先参考第一和第二方面。第一方面的范围是音频信号的声音质量的改进,特别是已经使用有损压缩或其他信号处理被编码的音频信号的声音质量的改进。频带复制(SBR)是用于参数音频编码的方法,用于合成来自较低频率的音频信号频谱的复制部分的高频内容,这通常由比特流中发送的边信息引导。关于SBR的存在和SBR在其处生效的开始频率(或同义词为在其处在SBR之前信号被带宽限制的截止频率)的知识被用于或需要用于增强或改善音频信号的声音质量。根据第一方面的实施例提供了一种分析概念,用于在音频信号被解码之后从音频信号中检索该信息而不使用比特流中的信息。描述的概念能够检测SBR和复制较低子带处的频谱的部分并将它们粘贴到较高频率的其它处理。除了SBR之外,用于这种方法的另一示例是,基于特定的配置,智能间隙填充(IGF)。
当与US9,117,440B2中公开的方法相比时,根据第一方面的实施例通过分析并且可能排他地分析频谱的精细结构来改进分析相对于频谱包络的修改的鲁棒性。此外,由于使用二进制数的和而不是乘法来计算关系,因此它具有较小的计算负荷。
图1示出用于确定与音频信号12的频谱增强处理(例如SBR和/或IGF)有关的预定特性的装置10的示意性框图。装置10包括推导器14,推导器14被配置用于获得音频信号12的频谱并且用于得出与频谱的精细结构有关的信息。精细结构可以与频谱内的频谱线的路线有关。例如,可以使用指示局部极值(例如,频谱内的最大值和/或最小值)的局部最大信号表示这样的信息。例如,局部最大值信号可以具有预定值,诸如在局部最大值的位置处的最大值或最小值,以及在其它位置处的不同值。例如,在其它位置,局部最大信号可以包括最小值。可替换地,局部最大信号可以包括局部最大值处的最小值,否则包括最大值。可替换地或额外地,局部最大值信号可以表示局部最大值和局部最小值两者。由此,可以在衰减或排除其他信息的同时保持频谱的精细结构。仅通过非限制性示例,本文所述的实施例可以指由推导器14得出的局部最大信号。
为了从频谱中得出局部最大信号,推导器14可以从音频信号12中得出或计算或确定频谱。可替换地,推导器14可以接收包括指示频谱的信息或频谱本身的信号。因此,所示信号12可以是时域或频域中的信号。由推导器14得出或由推导器14接收的频谱可以是例如幅度频谱或功率频谱。为了得出或计算这样的频谱,可以使用短时傅立叶变换(STFT)或其他合适的变换。通过使用STFT,音频信号12可以被分割或分离成多个适当的块,并且每个块都可以经受STFT。这可以允许获得音频信号的多个频谱,例如,每个块一个频谱。
例如,可以使用滤波器组计算子带信号。SBR是其中间频率谱的部分被复制的处理。针对谐波传输也是如此。在IGF中,例如包括高频范围的频谱的一些部分被衰减或设置为0,然后被重新填充。当提及SBR时,可以修改频谱包络,而可以保持频谱的精细结构。因此,根据第一方面的实施例提出了对频谱包络的修改鲁棒的概念。为此,推导器14被配置为从频谱中得出局部最大信号。例如根据频谱中的频率窗口(frequency bin),局部最大信号可以被定义为特定长度的向量,其元素在频谱具有局部最大值的索引处被设置为1,否则被设置为0。要提及的是,可以应用其他规则。例如,除了局部最大值之外,局部最小值可以被设置为特定值,例如1。可替换地或额外地,可以使用不同的值,例如0或不同于1的值,以便指示局部最大值和/或最小值。该处理可以类似于保持精细结构并去除所有其它信息的白化或平坦化操作。局部最大信号可以允许增强相似性的识别,因为可以实施比较以便集中于被比较的段的结构。
图2a示出说明示例频谱16的示意图,示例频谱16可以从信号12中得出或者可以是信号12。横坐标示出频率索引k,其中纵坐标示出频谱16的幅度值X(k)。
图2b示出在相同频率横坐标k上的局部最大信号Z的示意性示例图。在频谱16包括局部最大值181至187的频率窗口k1至k7处,局部最大值函数Z(k)被设置为诸如1的归一化最大值,并且在其他位置处也被设置为诸如0的归一化最小值。图2b中的三角形形状可以由不同频率窗口之间的内插产生,以便更好地理解附图。局部最大信号Z可以包括与频谱X(k)相同的长度。推导器14可以被配置用于提供包括指示从频谱16得出的局部最大信号Z(k)的信息的信号22。
装置10可以包括确定器24,确定器24被配置用于确定局部最大信号的段之间的相似性C(τ)。针对频谱增强处理的检测,向量Z(k)的第一段、k=k0…kl以及向量的第二段Z(k+τ)之间的相似性可以由推导器24确定或计算为滞后或偏移τ的函数。例如,相似性C(τ)可以计算为两个矢量(即局部最大值信号的段)的差的绝对值的和。
要比较的段可以具有相同的长度。长度取决于以其计算频谱和局部最大值信号的频率分辨率。频率分辨率取决于计算的频谱系数的数量。用于频谱和局部最大值信号的系数的数量至少为16或最大为16384,但是通常选择256和4096之间的值。可以取决于信号的采样速率选择确切值。第一段可以包括局部最大值信号向量的元素,其例如对应于2000和15000Hz之间的范围内的频率。
参数τ可以从1变化到信号中的最大可能值,例如,表示最大频率或最大搜索频率,例如,与音频信号12中的频率截止有关。这可以表示为确定规则
Figure BDA0002298564890000091
图3示出根据可以获得的示例的示意图,其中使用上面给出的确定规则确定相似性。图的横坐标示出滞后或偏移τ,其中纵坐标示出相似性函数C(τ)的值。
通过确定参数τ的多个值的相似性值C(τ),可以获得图3中所示的图。在区域261至263中,可以获得分别与参数τ的值τ1、τ2、τ3相关联的信号变化。那些变化可以包括相似性函数C(τ)内的局部最大值和/或局部最小值。即,通过移位或应用滞后τ1、τ2、τ3,相似性函数可示出局部最大值或最小值,并且因此指示,通过滞后τ1、τ2、τ3将相应的段移位,获得可作为用于频谱增强处理的指示的相似信号。在以上给出的示例中,最大滞后τ是20000Hz。
确定器可以被配置用于从相似性值中选择至少一个局部最大值和/或局部最小值和/或可以选择从其得出的值以用于确定相似性。特别地,区域261、262和263处的变化指示在分别由参数τ1、τ2、τ3指示的偏移处使用的段之间的高相似性。
再次参考图1,确定器24可以被配置用于提供指示相似性结果的信息或信号28,例如,参数τ的值τ1、τ2和/或τ3或从其得出的值。装置10可以包括处理器32,处理器32用于取决于对相似性的评估,例如通过评估信号28,提供指示音频信号12包括预定特性的信息34。可选地,例如,可以由确定器24和/或处理器32进一步处理获得的分析函数,即相似性函数。例如,可以执行带通滤波以衰减相似性函数中的偏移分量,并增加相似性函数C(τ)内的感兴趣的局部最大值的对比度。装置10(例如确定器24)可以包括滤波器,滤波器被配置用于对相似性值进行滤波,以便获得图4中所示的经滤波的相似性值。处理器32可以被配置为提供信息34,以便包括指示音频信号经受了频谱增强处理、频谱增强处理的开始频率和/或结束频率中的至少一个的信息。
图4示出经后处理的相似性函数的示例,被示为其滤波值,即在示出参数τ的横坐标上的纵坐标上的H(C(τ))。例如,滤波器被实施为具有滤波器系数h=[-1 2-1]的有限脉冲响应(FIR)滤波器。这意味着,通过用h(1)=-1、h(2)=2和h(3)=-1加权的索引k-1、k和k+1处的元素的线性组合计算滤波矢量的第k个输出元素。这可以基于确定规则来表示:
y(k)=h(1)x_{k-1}+h(2)x_{k}+h(3)x_{k+1}
参数值τ1、τ2和τ3处的最大三个局部最大值由频谱增强处理,例如,频带复制引起。例如,当函数中出现少量具有大幅度的局部最大值时,可以检测到SBR处理。少量可以指至多15、至多10或至多5个最大值。根据实施例,根据SBR的普通现有技术配置,研究至多13个局部最大值以检测SBR。
大幅度可以指与常规信号相比至少3dB、至少5dB或至少6dB的值。当再次参考图3时,区域261、262和263中的局部最大值可以将相应区域旁边的信号称为噪声。这种噪声可以通过后处理被衰减,以便增强结合图4所述的最大值确定。局部最大值的大幅度被定义为大于阈值。阈值的确切值可以例如手动地设置在0.1和10的范围内,这取决于已经用于计算相似性函数的值的数量。通常,可以使用值5。
即,处理器32可以被配置用于评估相似性值或从其得出的值的局部最大值26的数量,并且用于评估局部最大值26的幅度。处理器32可以被配置用于当包括至少幅度阈值27的最大值26的数量低于数量阈值时,即超过幅度阈值27的局部最大值的数量足够低时,提供指示音频信号12包括预定特性的信息34。
换句话说,图4示出后处理的相似性函数。局部最大值被显示为圆形,全局最大值由十字突出显示。确定器24可以被配置用于从经过滤的相似性值中选择至少一个局部最大值。谐波信号由一个或多个具有基频及其谐波(即频率近似为基频的整数倍的部分音调)的正弦信号组成。因此,一个或多个局部最大值可以出现在诸如自相关函数(ACF)的相似性函数中,以便在对应于谐波部分音调与SBR或其它频谱增强处理的局部最大值之间进行区分,搜索范围可以被设置为适当的值,例如对于SBR而言明显大于对于谐波部分项。因此,处理器32可以被配置用于从相似性的评估中排除音频信号的谐波。这可以通过选择音频信号的频谱中预期具有少量谐波或甚至没有谐波的那些部分来实现。
在参数值τ1、τ2和τ3处检测局部最大值可以是存在频谱增强处理的充分指示。然而,进一步估计频谱增强处理例如SBR的开始频率可能是有利的。相似性函数或局部最大值的结果可以描述频谱的一部分被复制并粘贴的偏移。为了完整性,关于源子带频谱或目的子带频谱的开始和停止频率的信息可以是感兴趣的。
图5示出根据实施例的装置50的示意性框图。装置50可以是装置10的扩展版本,并且还可以包括频率估计器36,频率估计器36被配置用于确定频谱增强处理的开始频率和/或停止频率。频率估计器36可以被配置用于提供包括指示开始频率和/或停止频率的相应信息的信息或信号38。频率估计器36可以被配置用于例如通过获取或接收信号22使用局部最大信号Z(k),以确定局部最大信号的第一段的元素与局部最大信号的第二段的对应元素之间的元素相似性。第二段可相对于第一段移位τ个样本。这可以被称为局部相似性分析(LSA)。输入可以是幅度频谱的精细结构的表示,例如局部最大信号Z(k)。当执行LSA时,频率估计器36可以以第一矢量Z(k)中的第k个元素与位置k+τ处的元素Z(k+τ)之间的元素相似性操作。为此,可以根据以下确定规则将局部相似性矩阵计算为两个二进制数Z(k)和Z(k+τ)之差的绝对值:
L(k,τ)=|Z(k)-Z(k+τ)| (2)
然后,可以通过时间上的递归平均来处理局部相似性矩阵的值L(k,τ)。这可以根据以下确定规则执行。
L(k,τ)=bL(k,τ)+(1-b)B(k,τ) (3)
其中B(k,τ)表示存储来自音频信号的先前时间步长(帧)的递归平均的输出的缓冲器,并且0<b<1是控制时间平均的时间常数。因此,频率估计器36可以被配置用于使第一和第二段的多个元素的元素相似性经受时间上的递归平均,以便获得平均的元素相似性,并且使用平均的元素相似性确定开始频率和/或结束频率。仅在当前帧不是静默时,即,其能量大于表征静默帧与非静默帧的阈值27时,可以可选地应用时间平均。
如果帧的能量小于阈值,则可以将该帧确定为静默,其中可以取决于帧的长度和表示样本值的范围设置阈值的确切值。通常,可以选择这样的阈值,使得它等于粉红噪声信号的能量,粉红噪声信号被缩放为当在平均到高音量设置下利用典型的声音再现设备(移动电话或电视机)回放时刚好可听。
即,频率估计器可以被配置用于使第一和第二段的多个元素的元素相似性在时间上进行递归平均,以便获得平均的元素相似性,并且用于使用平均的相似性来确定开始频率和/或结束频率。频谱的每个样本可以与帧相关联。频率估计器可以被配置用于从时间上的递归平均中排除具有低于能量阈值水平27的频谱能量的帧,能量阈值水平27与考虑帧或频谱是否是静默有关。因此,通过排除被认为是静默的帧,可以避免不一致的结果,因为那些帧也可以被认为是未经受音频处理的。
如结合图4所述,递归平均的结果L(k,τ)可以由带通滤波处理,以衰减偏移分量并增加感兴趣的局部最大值的对比度,例如通过将矩阵的每行与诸如h=[-1 2-1]的核进行卷积。
图6a示出示例性局部相似性矩阵L(k,τ)的示意性图形表示,其中横坐标示出频率窗口(位置)k,并且纵坐标表示滞后τ。为了更好的可视性,示出矩阵L的绝对值。用于位置k和滞后τ的单元是频率窗口。通过非限制性采样,一个频率窗口可以具有46.9Hz的值,其中可以获得任何其他更小或更大的值。因此,图4示出包括以下信息的经后处理的相似性矩阵的示例:
结合图4所述的全局相似性可以通过沿x轴(参数k)求和并取结果的绝对值而从L(k,τ)获得。给定的示例中的三条水平线381、382和383对应于图4的局部最大值。线381、382和383可以对应于这样的线,沿着这些线,函数L(k,τ)的相应值,即值的和超过某个阈值,例如,范围从0至1的值范围的0.1、0.2或0.3。水平线的开始位置和结束位置分别对应于频谱的重复部分的开始频率ks1、ks2、ks3和结束频率ke1、ke2、ke3
图6b示出图6a中所示的矩阵的线在参数τ2处的示意图。在图6b中,图42a示出例如未滤波值,其中图42b可以示出平均或滤波值。例如,将图42b与阈值27(例如0.2)进行比较。局部相似性矩L(k,τ),它们的平均值,分别超过阈值27的范围对应于索引τ2处的水平线382。可替换地或额外地,可以评估局部相似性矩阵的陡度(△L(k,τ)/k)。以某个值(例如至少0.5、至少1或至少1.5)上升的陡峭上升边缘可以被识别为识别开始频率ks2的边缘。因此,相应的陡峭和高下降边缘可以识别结束频率ke2。可替换地或额外地,可以对输入频谱、分别对多个输入频谱和对最终的一个或多个结果执行时间平均。这可以允许使用时间平均防止假阳性检测。输入频谱的时间平均可以被称为预处理,其中最终结果的时间平均可以被称为后处理。防止假阳性检测的原因是局部最大值典型地是由于部分音调而时变的。即,因为在旋律上播放不同的乐音,或者因为音乐中的谐波变化,所以局部最大值可能随时间而变化。与之相反,频谱增强处理诸如SBR的一些参数可能是典型地时不变的技术过程,例如,频谱被放大的边缘频率,例如,先前执行的滤波的截止频率,或者被复制的频率范围的开始和结束频率。
根据示例,为了估计开始频率,分析LSA矩阵L以识别每条水平线的开始位置和结束位置。开始位置ks可以对应于已经被复制的频谱的开始。结束位置ke可以对应于已经被复制的频谱的结束。已经用于复制的原始频谱的最大结束位置是在其处SBR生效的开始频率的估计值。这可以是例如图6a中的ke3
首先,全局相似性可以被计算为
Figure BDA0002298564890000131
其中v1和v2是确定值L(k,τ)的范围的参数,并且可以被选择,例如以便定义具有在至少500Hz和至多15kHz的范围内的值的L(k,τ)的范围。
然后,检测到大于阈值的局部最大值mi,即C(τ)中的26,参见例如图4。针对每个局部最大值,分析L(k,τ)中相应的行。例如,第二局部最大m2对行R2=L(k,τ2)进行索引,并且在图6b中示出。针对该局部最大值,τ=133的值可以是有效的,并且根据图5可以从k=74开始。
可以通过首先平滑相应的线Ri以便例如通过计算几个相邻值(例如至少3个、至少5个或至少10个值)的时间或移动平均值获得例如图42b,来计算开始索引ks和结束索引ke。然后,检测平滑的线具有最陡的上升和下降斜率的位置。可替换地或额外地,超过阈值(诸如0.2)的斜率可以是用于评估相应线的标准。即,频率估计器36可以被配置用于使第一和第二段的多个元素的元素相似性在时间上经受递归平均,以便获得平均的元素相似性42b,并且用于使用平均的元素相似性42b确定开始频率和/或结束频率。可替换地或额外地,装置可以被配置用于执行频谱、局部最大信号或从其得出的信号的时间平均,其中处理器可以被配置用于基于频谱、局部最大信号或从其得出的信号的时间平均信息提供指示音频信号包括预定特性的信息。
再次参考图6a,针对给定的示例,在索引τ1、τ2和τ3处存在三条突出的水平线381、382和383。在索引τ2处的线可以对应于已被复制为示出最早开始的频谱的第一部分,即最低参数ks。水平线开始于索引ks1并且可以对应于滞后τ2。因此,频谱的第一复制部分开始于ks2并且已经被复制到索引ks22。仅作为非限制性示例,τ1可以是104、τ2可以是133以及τ3可以是236。ks2可以包括例如值74。因此,频谱的第一复制部分开始于索引74处,并且可能已经被复制到索引74+133。因此,索引对应于频谱增强处理(SBR)生效处的频率。
结合图5描述的频率估计器36可以被配置用于计算局部相似性矩阵或不同的局部相似性描述。仅作为非限制性示例,具有预定结构的向量或值的其他行(诸如附接到前一行的每行)可以允许相同的信息。频率估计器36可以确定局部相似性描述(局部相似性矩阵L),并且可以被配置用于确定其中指示带宽扩展处理的部分,例如线。为了确定指示带宽扩展处理的部分,可以由频率估计器36评估达到或超过阈值27和/或局部相似性描述内的信号的陡度。
尽管已经被描述为评估行,但是清楚的是,局部相似性矩阵L可以包括不同的结构,例如,把行切换成列,反之亦然,等等。因此,频率估计器可以被配置用于将局部相似性矩阵L确定为局部相似性描述,并且用于使用行或列中的值(例如,行或列中的相邻值)之间的陡度和/或使用至少达到或甚至超过阈值27的行或列中的值的评估确定频谱增强处理的开始频率ks和/或结束频率ke
图7示出扩展装置10的装置70的示意性框图。尽管被解释为扩展装置10,但是结合图7给出的解释也可以用于扩展装置50。装置70可包括频谱计算器44,频谱计算器44被配置用于接收作为时域中的信号的音频信号12,并且被配置用于从音频信号12计算频谱,并且提供包括频谱的信号12'。基于此,推导器14可以被配置用于接收频谱12'。可替换地,推导器14可以被配置为自己得出频谱12'。
如结合图3和4所述的,确定器14可以包括滤波器46,滤波器46被配置用于对相似性值进行滤波,以便获得经滤波的相似性值。确定器14可以被配置用于从经过滤的相似性值中选择至少一个局部最大值用于进一步考虑,例如,作为相似性矩阵L(k,τ)中的行索引。即,从相似性值或从相似性值得出的值中选择局部最大值可以指其用于确定频谱增强处理的开始频率和/或结束频率的进一步使用。
装置70可包括信号增强器48,信号增强器48被配置用于接收音频信号12并接收已经执行了频谱增强处理的信息,例如通过接收信息34。信号增强器被配置用于使用信息34,即,取决于指示音频信号包括预定特性并且可选地包括诸如复制过程的开始频率和/或停止频率的进一步细节的信息,来减少由音频信号的频谱增强处理引起的伪像。
图8示出用于确定与音频信号的频谱增强处理有关的预定特性的方法1000的示意性流程图。方法1000包括步骤1100,其中获得音频信号的频谱,并且得出与频谱的精细结构有关的信息,例如局部最大信号。步骤1200包括确定局部最大信号的段之间的精细结构中的相似性。步骤1300包括取决于相似性的评估提供指示音频信号包括预定特性的信息。
下面将参考第二方面。根据第二方面,在改善音频信号的声音质量的范围内,特别是改善已经使用有损压缩被编码的音频信号的声音质量。描述的概念与在数字信号处理应用中受限的音频信号的带宽有关。概念提出了一种信号分析概念,其检测(人为)带宽减小(BR)的存在并且用于估计BL已经操作的截止频率。获得的结果被用于控制通过带宽扩展(BWE)恢复带宽的后续处理,并且还用于控制通过诸如滤波的其它手段改善声音质量。
为了增强声音质量,在最初具有低带宽的信号(例如,在盆地上播放的低音)和已经通过信号处理,例如,由于有损编码或下采样,而被频带限制的信号之间进行区分是至关重要的。通过分析信号“以找到信号中存在的最高频率”,即通过确定其上仅存在可忽略能量的频率(如[1]中所描述),这种区分是不可能的。相反,第二方面提出评估额外的信息,如下所述。
提出的人工带宽限制分析(ABLA)的目的是双重的:
1)检测输入信号中可能由有损压缩或其它信号处理引起的并因此将其视为伪像的带宽减少(BR)的存在。输出可以是例如二进制变量,这里称为D,其中如果已经检测到BL则D=1,否则为0。
2)估计带宽限制的截止频率。估计量称为fc
图9示出根据第二方面的实施例的装置的示意性框图。装置可以用于确定与音频信号的人工带宽限制处理有关的预定特性。装置90包括斜率评估器52,斜率评估器52被配置用于评估音频信号12的频谱,例如,频谱12',的斜率。斜率评估器52可以被配置用于提供斜率评估结果56。斜率评估结果56可以包括关于频谱的至少一部分的斜率(包络曲线)的最大值、最小值或平均值的信息,关于频谱内的上升边缘或下降边缘或其斜率的信息,或者与斜率54有关的其他信息。
装置90可以可选地进一步包括频率评估器58,频率评估器58被配置用于评估音频信号的频谱12'的截止频率fc以获得包括指示截止频率fc的信息的频率评估结果62。
装置90包括处理器64,处理器64用于提供指示音频信号包括与人工带宽限制处理有关的预定特性的信息。处理器被配置用于使用斜率评估结果提供指示音频信号包括预定特性的信息,即,处理器可以取决于斜率评估结果提供信息。例如,这可以允许例如根据是/否信息或二元判定来判定音频信号是否需要后处理。这可以允许从后处理中排除被评估为不包括相应特性的帧。那些帧可以被识别为未经受人工带宽限制,因此必须避免后处理。作为选择,装置可以包括用于确定截止频率的频率评估器58。这可以允许识别用于例如经受帧的后处理或例如经受帧的受处理需要的其他信息。因此,可选地,处理器可以被配置用于根据对斜率评估结果56和频率评估结果62的评估提供指示音频信号包括预定特性的信息。通过评估频谱12'和/或音频信号的产生其他频谱12'的其他帧的斜率评估结果56和频率评估结果62,处理器64可以得出从其得出频谱12'的音频信号是否经受人工带宽限制的信息。例如,斜率评估器52可以被配置用于评估频谱内的衰减的斜率。可以相对于斜率的陡度,即,如由角色偏离因子(role-off factor)所指示的,量化或评估频谱。
作为示例,斜率评估器52可以被配置用于评估频谱12'内的衰减,并且用于提供斜率评估结果56以便指示对衰减的测量。处理器64可以被配置用于如果衰减的测量至少是陡度阈值,则提供指示音频信号包括预定特性的信息66。可选地,装置可以包括例如作为处理器64的一部分或者单独实现的重采样评估器。重采样评估器可以被配置用于针对与上采样有关的预定特性评估音频信号。上采样可以通过使用采样频率来实现,例如,常见采样率可以是11,025Hz、22,050Hz和/或32,000Hz。装置90和/或120可以被配置为在检测到重采样的情况下基于采样频率适配斜率评估器52和/或频率评估器58的频率范围。通过使用重采样,可以适配或增加频谱的频率范围,其中根据奈奎斯特(Nyquist)准则,低采样率可以对应于低频率范围,并且高采样率可以允许频谱包括高频率范围。重采样评估器可以被配置用于观察或评估一组特定的期望采样率,并且可以评估在该频率处是否存在频谱的显著减小以及是否不存在以上的更显著能量。在存在如前所述的斜率中的陡峭边缘并且不存在高于能量阈值的显著能量的情况下,能量评估器可以将音频信号视为使用相应的重采样频率或采样率进行重采样。重采样评估器可以被配置为当在与采样率对应的确定或评估频率下应用确定规则
X(k)>阈值
时,获得否定评估结果,这意味着在频率k处的频谱值大于阈值,该阈值指示在点k处在频谱内存在显著能量。此外,确定规则
X(k)<X(k+1)-偏移参数
可以应用,这表示随着频率k+1的增加,频谱、其能量分别增加。这种考虑可以通过减去偏移参数(例如0.1、0.2、0.3、0.5或1dB或不同的值)来标准化,即,频谱必须增加超过偏移参数用于满足确定规则。这允许排除由噪声等引起的影响。因此,在超过带宽限制大于0.5dB的频点k处,幅度确实向更高频率增加。如上所述,阈值可以是例如-30dB、-40dB、-50dB或-60dB。这意味着,针对否定的判定,或者没有急剧的衰减,或者超过相应的频率值,幅度增大。
例如,当如上所述的频谱差函数s(k)或不同的适当函数提供超过或至少为阈值的值时,可以确定指示音频信号经受限制频率索引k处的带宽的上采样的肯定评估结果。因此,确定规则可应用
S(k)>阈值
频谱差函数可以指示陡峭且强的衰减,并且因此可以指示重采样。因此,当图11中的最大值72被布置在期望的重采样速率/重采样频率处或附近时,可以确定重采样的存在。
此外,可以相对于一定量,即,频谱内的下降边缘的一半,评估衰减。例如,斜率评估器52可以相对于例如100Hz、1kHz或2kHz的特定频率范围内的减小和/或下降边缘内的减小总量评估斜率54。
处理器64可以被配置用于决定频谱12'是否经受人工带宽限制,并且还可以被配置用于决定在哪个截止频率fc应用所述限制。因此,信息66可以包括变量D或类似信息,并且至少当处理器64确定频谱12'被应用人工带宽限制处理时,还可以包括指示截止频率的信息。
图10示出说明具有斜率54的示例频谱12'的示意图。斜率评估器52可以被配置用于分别相对于下降边缘68、频谱12'的陡度评估斜率54。斜率评估器52可以被配置用于提供斜率评估结果56,以便包括指示陡度的测量的信息。例如,可以通过将幅度X(f)的减小ΔX1与频率范围Δf链接获得陡度的测量,例如,作为每个频率范围Δf的减小ΔX1,或者用于获得减小ΔX1的频率范围Δf。
处理器64可以被配置用于如果陡度的测量值至少是陡度阈值,则提供指示音频信号包括预定特性的信息。陡度的测量可以随着项ΔX1/Δf的上升值而增加和/或可以随着项Δf/ΔX1的下降值而增加。例如,陡度阈值可以包括等于或正比于至少25dB/1kHz、30dB/1kHz、40dB/1kHz或50dB/1kHz或更高的值。
斜率评估器52可以被配置用于例如使用仅选择频谱12'的一部分用于评估的窗函数来确定频谱12'的频谱差函数。窗函数可以分别组合频谱12'、斜坡54的多个频率值,并且可以允许斜率评估器52使用窗函数的结果确定衰减的测量。这也可以称为窗滤波。通过组合,例如相减,不同窗的值,可以获得陡度的测量。可替换地,任何其它合适的处理可用于评估斜坡54的陡度。可替换地或额外地,频率评估器可以被配置用于评估频谱12'的第一频带的第一能量级与频谱的第二频带的第二能量级之间的衰减。
第一和第二能带可以是例如所谓的低频带和所谓的高频带。中间频率带可以是在被低通滤波之后预期是静默的频带,例如,高于3KHz的频率。低频区域可以指具有低于这种频率范围的频率的频率区域。因此,第一能带可以包括与第二频带的第二频率范围f2相比为低的第一频率范围f1。斜率评估器52可以被配置用于提供斜率评估结果56,以便指示对衰减的测量ΔX2。处理器64可以被配置用于如果衰减的测量至少是衰减阈值,提供信息66。衰减阈值可以是例如至少30dB、至少40dB、至少50dB或至少60dB或甚至更高。
换句话说,衰减可以被认为是高的,使得在高频带中滤波之后仅剩余可忽略的能量。例如,上频率区域f2中的幅度低于-60dB(衰减阈值),小于通带(即,频率区域f1)中的平均幅度。频谱陡度的评估和衰减量的评估的组合可以允许确定频谱12'的当前帧经受人工带宽限制。因此,如果至少一个评估或优选地两个评估给出用于这种处理的提示,则变量D可以被设置为1。如果评估标准中的至少一个或优选地两个评估标准被否定评估,则可以将变量D设置为0,即,可以确定没有应用人工带宽限制。
换句话说,通过比较频率索引k周围的较低子带f1中的频谱幅度和较高子带f2中的频谱幅度,并且对感兴趣范围中的所有频率索引重复此,可以量化衰减的陡度。示例是可以根据下式形成的频谱差函数S(k):
S(k)=maxX1-maxX2
频谱差函数S(k)可以将衰减量化为较低子带的最大幅度与较高子带的最大幅度的差。参数k可以指频率索引。X(k)可以表示幅度频谱。操作max可以返回向量的最大值,其中x1=(xk-a,...,xk-b)可以表示低于频率索引k的频谱的段,并且x2=(xk+b,...,xk+a)可以指高于频率索引k的频谱的段,其中a>b。向量的长度,即,将在向量X1和/或X2中使用的样本的数目,可以是例如3、5、8或10或甚至更多。在一个非限制性实施例中,长度7的第一段和长度7的第二段结合两个段之间的5个值的间隙使用。因此,确定元素1、2、3、4、5、6、7的最大值,并将其与元素13、14、15、16、17、18、19的最大值进行比较。
可替换地,可以使用其它函数,例如S2(k)=minX1-maxX2,或者从X1和X2的均值确定的差。
频率评估器58可以被配置用于确定对音频信号的频带中的能量的测量,并且用于基于能量确定截止频率fc。例如,频率评估器可以评估具有递减频率值的频带中的能量,即,在递减的频率范围内的能量。当参考图10到所示的最高频率时,频率评估器可以例如确定频率范围f2中的低能量。在评估几个频率窗口的相对小的频率范围或者甚至仅包括一个频率窗口时,频率评估器58可以如所指示的随着递减的频率f和能量中的增加确定斜率54。在截止频率fc处,频率评估器58可以确定能量的强烈增加,例如,当与频率范围f2中的低能级比较时,至少30dB、40dB、50dB或甚至60dB。基于此,即基于频率范围中能量的增加,频率评估器58可以确定截止频率fc。这也可以称为将截止频率fc确定为子带能量增加处的频率。
图11示出频谱差函数S(k)的示例结果的示意图。原点示出频谱差函数S(k)的结果,其中横坐标示出与图10中所示相同的频率轴。频谱差函数可以允许获得斜坡54的陡度的测量。频谱差函数S(k)的局部或甚至全局最大值72可指示斜坡54包括最陡变化处的频率,即在其处衰减非常陡的频率。因此,该测量可以替代地或额外地被频率评估器用作截止频率fc的测量。
斜率54的减小以及因此衰减可以沿着大量样本变动,使得使用相应矢量的最大值的差可以提供足够的精度。可替换地,可以针对单个频率值确定频谱差函数,即向量X1和X2可以具有长度1。
为了增强声音质量,在最初具有低带宽的信号(例如,在盆地上播放的低音)和已经通过信号处理,例如,由于有损编码或下采样,而带宽受限的信号之间进行区分是至关重要的。这对于防止具有高声音质量的信号受到任何后处理并且仅在需要时应用增强处理,即,仅应用后续带宽扩展(BWE)以恢复已经从信号中人为去除的高频能量而不处理天生具有低带宽的信号是重要的。为了这个目的,可以针对由衰减的陡度、衰减量和截止频率给出的三个特性分析信号。这可以通过例如由根据第二方面的装置执行的以下处理步骤执行。
图12a示出根据第二方面的实施例的装置120的示意性框图。当与装置90比较时,装置120被配置用于确定可以从音频信号的多个块中得出的多个频谱121'至123'的预定特性。即音频信号可以被分成块,并且从每个块可以得出频谱12'。斜率评估器52被配置用于评估频谱121'至123'中的每一个的斜率54。据此,频率评估器58被配置用于评估频谱121'至123'中的每一个。
处理器64可以被配置用于提供指示音频信号对于频谱121'至123'中的每一个包括预定特性的信息66。音频信号被划分为的块的数量可以是任意的。例如,每个块的时间长度可以是恒定的,使得块的数量可以取决于音频信号的长度。
装置120可包括与频率评估器58连接并被配置用于接收频率评估结果62的滤波器74。滤波器74可以被配置用于提供经滤波的频率评估结果62'。处理器可以被配置用于基于针对频谱121'至123'中的每一个的多个斜率评估结果56和/或其滤波版本以及与音频信号的多个频谱121'至123'相关联的经滤波的频率评估结果62',提供指示音频信号包括预定特性的信息66。用于编码音频信号的截止频率可以是基本上时不变的、时不变的或者可以是随时间很少或不频繁变化的参数,使得由滤波器74实现的低通滤波、移动最大值、移动平均值或移动中值滤波可以允许获得保持不变或恒定或者至少以低速率改变的滤波值62',以用于进一步处理,例如,当频率评估器58确定不同频谱121'至123'之间的略微不同的截止频率fc时。即,可以通过低通滤波或可替换地通过不同的滤波执行获得的值fc的后处理。
以类似的方式,通常对完整的音频信号或至少其大部分执行人工带宽限制,使得与人工带宽限制处理有关的特性的改变不太可能出现在一个帧中,并且将发生在后续帧中不出现或不存在。因此,处理器64可以例如使用针对多个帧,即针对多个频谱121'至123',的中值滤波等执行对变量D或对应结果或值的后处理。处理器可以被配置用于通过为音频信号的多个帧中的每一个提供相应的信息而提供指示音频信号包括预定特性的信息66,并且用于通过组合帧的结果而提供组合或滤波结果66',使得组合结果66'针对正经受滤波器并影响滤波器的输出的多个帧是有效的。例如,当使用中值滤波时,在相应的滤波器(例如,连接到处理器64或者作为处理器64的一部分或者由处理器64实现的滤波器76)内考虑多个帧和/或频谱121'至123'。滤波器76的输出66'可以是从考虑的帧中得出的组合中值滤波值。尽管被示为单独的块,但是滤波器76可以被实现为另一计算块或者可以是另一计算块的一部分。
可替换地或额外地,装置120可以包括确定器78,确定器78被配置用于确定频谱121'至123'的频带的能量E,并且用于提供指示相应频带内的能量E的存在和/或量的信号82。信号82或从其得到的信号可以被提供给处理器64,使得处理器64可以具有关于确定的能量的知识。可以对在所谓的高频区域fh中存在或不存在能量是感兴趣的。例如,高频区域fh可以是具有至少或高于1kHz、2kHz、3kHz、4kHz或不同值的频率值(即,不同的带宽限制频率)的频率区域。例如,编码器可以落下或丢弃高于一定频率值的频率。频率值可以根据特定应用,诸如用于语音有关应用的3kHz或4kHz。
确定器78可以确定频谱121'至123'在高于高频区域fh中是否包括能量或包括高于一定阈值的能量。在确定器78确定各个频谱121'至123'在高频区域fh中不包括能量E或包括少量能量的情况下,例如,因为各个帧不提供适当的斜率,所以截止频率和/或衰减的可靠确定可能是困难的或甚至不可能的。当仅作为非限制性示例考虑在完整频谱中没有能量的静默频谱时,可以既不确定截止频率也不确定斜率54的衰减。这种信息可以由信号82提供。处理器可以跳过评估实际帧或频谱121'至123',并且可以被配置用于如果能量E低于被认为在相关能量存在或不存在之间进行区分的能量阈值水平,则基于先前观察或评估的先前频谱提供信息66。换句话说,在实际频谱不能提供足够信息的情况下,处理器可以将其决定基于先前帧。
·在可选步骤中,可以执行将音频信号/输入信号划分为短块,即,可以获得多个块。块的长度可以是,例如,至少0.5ms、至少1ms或至少5ms以及至多1秒、500ms或100ms。一个示例性间隔包括至少2ms和至多80ms的值。
·可选地,例如通过变换或滤波器组计算每个块的幅度频谱。因此,装置19可以包括例如用于得出诸如幅度频谱的频谱以便提供频谱12'的频率推导器。针对每个块,可以得出根据图10中所示的频谱或与图10中所示的频谱类似的频谱。
·可选地,可以关于时间和频率执行频谱系数的低通滤波。例如,移动平均或递归平均可以例如由斜率评估器52和/或频率评估器58和/或实现斜率评估器52和频率评估器58两者的处理器执行。这可以允许减少计算负荷,因为衰减和衰减的陡度以及截止频率被布置在扩展到超过单个频率值的特定频率范围内,使得频率范围的评估可以允许足够的精度。
·可选地,当输入信号是静音的或者不包括高频区域中的能量时,可能难以获得或者不可能获得可靠的估计。因此,如果高于3kHz的最大子带能量低于阈值,则可以使用先前帧的检测结果,因为该帧不包括期望的信息。
·可选地,例如使用确定器78检测信号是否已经从较低采样频率被上采样。低比特率的编码信号通常以低采样频率被编码,低采样频率可以低于当前处理框架以其操作的采样频率。当检测到解码之后的向上采样或重采样时,可以修改根据第二方面的人工带宽限制分析(ABLA)的搜索范围,使得要检测的最高频率等于编码器采样频率。为了检测重采样,可以针对一组常用采样率,诸如11,025Hz、22,050Hz、32,000Hz和/或44,100Hz,执行重采样的检测。当在采样频率的一半以上的范围中的频谱系数的最大幅度低于阈值时,可以检测到重采样。这是基于奈奎斯特标准,当与采样率比较时,奈奎斯特标准允许获得具有半个频率值的频率。因此,当上半部的能量低于阈值时,这可能由使用的采样率引起。然后修改后面的ABLA处理,使得搜索范围被修改,使得要检测的最高频率等于检测到的编码器采样频率,并且因此允许仅搜索相应频谱的一部分。另一部分,例如上半部,可以被忽略,因为预期由向上采样引起另一部分。由于重采样而引起的衰减可能大于编码的衰减。重采样检测可以确保重采样不会被错误地检测为较低截止频率fc处的带宽限制。
·计算检测函数,例如,频谱差函数,其量化衰减对频率的陡度。可以使用频谱差函数或与图11比较的替代版本。检测功能可以提供相邻频带之间的级差的信息。
·使用评估频谱差函数和子带能量以及阈值参数的一组规则检测人工带宽限制(ABL)。从搜索范围的上端的频率索引k开始,可以相对于一组条件测试频谱系数和频谱差函数S(k)或类似函数或量的幅度X,直到条件有效或直到已经达到搜索范围的下端。所有阈值都是可以被调整以改变假阳性和假阴性检测之间的折衷的参数。条件:
1)x(k)>阈值;以及
2)X(k)<X(k+1)-偏移参数AND x(k)>阈值
即,当幅度大于阈值,例如-60dB时,幅度确实向BL以上的更高频率增加超过偏移参数,例如0.5dB,
可能导致阴性检测。条件根据:
1)S(k)>阈值
2)检测到重采样
可以导致阳性检测。
·例如使用频率评估器58将截止频率fc确定为子带能量增加处的频率。
·可选地,通过低通滤波,例如使用滤波器74,后处理fc
·可选地,通过中值滤波,例如通过使用滤波器76,后处理D。
装置90和/或装置120还可以包括信号增强器,例如,结合第一方面描述的信号增强器48。信号增强器48可以被配置用于取决于指示音频信号包括预定特性的信息66减少由音频信号的人工带宽限制处理所引起的伪像。即,信号增强器可以适应于由人工带宽限制引起的伪像。
在下文中,将参考根据第二方面的被配置用于抑制或至少减少鸟编码伪像以及用于改善感知的声音质量的装置。在已经得出音频信号包括与人工带宽限制和/或诸如频带复制的频谱增强处理有关的特性的信息的情况下,可以使用相应的装置或方法。例如,装置可以用于已经检测到人工带宽限制或频谱带复制中的至少一个的情况。
因此,当检测到人工带宽限制和频谱增强处理中的至少一个时,可以重新使用或者可以使用检测人工带宽限制的概念,以便检测频谱中陡峭且高度衰减的区域,其可以被称为频谱间隙。频谱间隙可包括第一和第二边缘。因此,频谱岛也可以包括第一和第二边缘,其中在相应边缘之间可以布置间隙或岛。
现在参考图12b,示出包括截止频率fc处的下降边缘68的示例频谱。此外,在低于截止频率fc的频率范围处,布置了示例频谱间隙202和示例频谱岛204。当从低频开始时,首先布置下降边缘2061,然后布置上升边缘2062,其中在其间的频率范围处,可以布置频谱间隙202。因此,频谱岛204可以布置在边缘2063和2064之间。可以使用这里公开的用于找到边缘68的教导来定位、量化和限定边缘,特别地,可以执行频率/能量评估。
与截止频率fc相比,间隙202和岛204的位置、存在和幅度以及它们的数量可以在音频信号的帧之间变化。简化地,如结合截止频率fc所述的,可以在使用概念找到边缘2061至2064之后执行间隙202的填充和/或岛204的衰减,除了各个频率是可变的之外。即,装置或信号增强器可以被配置用于填充频谱间隙和/或用于衰减频谱岛。因此,可以使用可以从音频信号本身确定的频谱权重,即,边信息可能仍然是不需要的。通过抑制鸟编码伪像,可以增强感知的声音质量。引入的概念可用作位于解码器之后的后处理概念。它可以盲目地工作,而不必访问未压缩的音频信号和其它边信息。
下面描述的减少鸟伪像的概念可以使用被称为频谱加权或短期频谱衰减的基本原理。因此,时域信号X[n]可被变换成其频域表示X[k,m],其中k和m分别表示频率和时间帧索引。在所述实施例中,可以应用短时傅立叶变换(STFT),但是也可以使用其它变换。频谱加权的输出信号Y可以由以下等式给出:
Y[k,m]=G[k,m]·X[k,m]。
可以通过逆变换(在实施例中,逆STFT)计算频域信号Y[n]的时域表示Y[n]。在下文中,时域信号将用小写字母表示,而频域信号将用大写字母表示。为了更好的可读性,将省略索引k和m或频域信号。
图12c示出被配置用于处理音频信号91的装置125的示意性框图,该音频信号91可以从解码器接收并且可以已经经受人工带宽限制和/或频谱增强(例如,频带复制)。装置125包括斜率评估器52和频率评估器58。斜率评估器52被配置为评估音频信号91的频谱的斜率以获得结合图9和/或图12a描述的斜率结果。频率评估器可以被配置用于评估例如在环绕、界定或包围相应伪像(即,间隙202和/或频谱岛204)的边缘2061和2062和/或边缘2063和/或2064处的至少第一和第二频率。
装置125包括处理器208,处理器208被配置用于确定频谱权重G和/或W,并且用于使用频谱权重G和/或W至少分别在相应边缘2061与2062、2063与2064之间的频谱区域中处理音频信号91。装置125可以被配置用于确定音频信号91的频率区域、频率窗口和/或帧中的每一个的频谱权重G和/或W。频谱权重G可以用于形成或整形要与音频信号组合的填充信号S,以便填充频谱间隙。可以使用频谱权重W以便衰减频谱岛。即,为了减少频谱间隙202内的伪像,可使用填充信号F。为了减少由频谱岛204引起的伪像,频谱权重W可以用于衰减岛的高度。针对相应频谱间隙202和相应频谱岛204内的多个频率值,可确定多个频谱权重。
图12d示出可由处理器208实现的用于确定频谱权重G的功能的示意性框图。频谱间隙可被定义为频谱幅度区域在频域和时域/方向上的突然减小,即至少30dB、至少40dB或至少50dB。随时间的额外评估示出音调信号的谐波之间的频谱区域没有被错误地检测为频谱间隙。在[5]中,检测方法在频谱域中搜索完美的零。这仅是可能的,因为方法位于解码器中,并且访问与编码器相同的滤波器组和阻塞。所述的实施例涉及解码器的后处理,其使用幅度频谱X及其平滑副本的差来评估突然的相对频谱改变。图12d中示出用于检测频谱间隙和频谱岛的信号流。STFT或不同的频谱计算器44可以用于获得音频信号91的频谱表示。绝对值形成器212可以被配置用于输出幅度频谱X。对数214被配置用于将幅度频谱X变换到对数域,以使用诸如以下的对数变换:
X'=20log10(X)。
获得的对数幅度频谱X'可以由两个并行的低通滤波器平滑,其中第一低通滤波器216a可以被配置用于在频域中平滑音频信号(即,音频信号12)的频谱,以便获得在频域中被平滑化的信号Y'。第二低通滤波器216b可以被配置用于在时域中平滑幅度频谱X',以便获得平滑信号Z'。尽管被描述为在对数域中被平滑,但是平滑也可以在线性域或不同的域中执行。即,对数214也可以不存在或者可以被安排在低通滤波器之后。即,对数幅度频谱X'可以在频率上和时间上由两个低通滤波器平滑,这可以分别导致信号Y'和Z'。针对特定权重G的计算,可以通过以下计算线性值:
Figure BDA0002298564890000251
这些线性值可以与幅度频谱X进行比较,以便获得频率差值和/或时间差值。例如,针对每个频谱系数和针对每帧,通过下式可以在对数域中计算将频谱幅度X与它们在时间和频率上的平滑版本Z'和Y'进行比较的相对差Δt和Δf
Δf=Y′-20log10(X)
以及
Δt=Z′-20log10(X)
其中Δf指频率差值,Δt指时间差值。
频谱权重计算器218可以被配置用于根据下式计算频谱权重G
Figure BDA0002298564890000252
即,如果频率差值Δf大于或等于频率差阈值Δf并且如果时间差值Δt大于或等于时间差阈值Δt,则将频谱权重G设置为非零值。尽管被描述为需要频率差值和时间差值Δf和Δt分别大于它们各自的阈值Δf、Δt,但是基于其它阈值或不同地选择的阈值也是可以的,当等于阈值时,增益参数也可以是Γ。可以应用以下确定规则:
Figure BDA0002298564890000253
其中Δf和Δt表示阈值参数。α、β和γ是影响频谱权重计算的特性的参数。所有参数都是可调谐参数。κ是用于增加加权影响的项,并且可以根据确定规则或基于确定规则计算:
Figure BDA0002298564890000254
例如,分别使用低通滤波器222a、222b,在时间和频率上平滑计算的频谱增益。频谱增益随后用于填充源信号S的频谱加权,如结合图12e所述。
图12e示出被配置用于减少鸟伪像的信号增强器200的示意性框图。例如,可以通过使用处理器208完成处理。装置200可包括组合器224,其用于,例如通过乘法将填充源信号S与频谱加权因子G组合,以便获得填充信号F。填充信号F可包括这样的结构,根据该结构,其仅包括在已经估计频谱间隙的位置处的非零值。另一组合器226可以被配置为例如通过求和将填充信号F与幅度频谱X组合。即,填充信号F被加到输入信号X。填充源信号S可以通过在时域中对音频信号91进行滤波而获得或生成,这延长了来自先前帧的信息。可替换地,可通过复制来自一个频谱帧内的其它位置的频谱系数、通过复制来自在响应位置处不展现频谱间隙的另一音频通道的频谱系数和/或通过复制来自不展现频谱间隙的先前频谱帧的频谱系数来获得填充源信号。
在已知的概念中,例如使用来自高级音频编码(AAC)的感知噪声替代(PNS)工具的噪声替代。在解码器中,用被缩放以匹配给定目标能量的伪随机值序列替代频谱的类噪声部分。过程由边信息控制。此外,称为噪声填充的技术是已知的。在统一语音和音频编码(USAC)编解码器中使用噪声填充来填充由在小比特预算的约束下操作的量化器的死区引起的频谱空洞。伪随机值序列被用于填充这些频谱零点。此外,从MPEG-H和3GPP EVS中已知称为智能间隙填充的技术。这里,频谱间隙被噪声或使用源自远程频谱位置的频谱片填充。过程由边信息控制。本文所述的实施例不同于噪声填充,从而使用来自先前时间帧的时间频率信息的分布来填充频谱空洞。与PNS相比,经滤波的输出信号仅被填充到频谱间隙中,而不是整个PNS频带中。与PNS和IGF(智能间隙填充)相比,这些实施例可以用作非指导的处理,即,不使用边信息。
装置200可包括频谱岛权重计算器228,其也可由处理器208实现。包括在信号Z中的频谱岛从组合器226接收,并且通过根据下式将输入频谱X和填充信号F相加而获得:
Z=X+F
并且可以通过频谱加权根据下式而被抑制:
Y=W·Z
G,W是为每个帧m和频谱系数k重新计算的频谱权重。为了尽可能多地保持带宽,在已经填充了频谱间隙之后进行频谱岛的抑制。最后仅抑制不能附着到频谱的主要部分的孤立频谱岛。为了实现部分增强,可以在没有频谱间隙填充的情况下执行频谱岛抑制。可替换地,可以在没有频谱权重计算的情况下执行频谱间隙填充。
为了抑制频谱权重计算和为了计算频谱权重W,可以实施以下教导。频谱岛可以被定义为由非常低的频谱幅度值环绕的频谱幅度区域在频率和时间方向上的突然增加。幅度的上升可以是例如至少30dB、至少40dB或至少50dB。频谱岛可以通过借助于频谱加权衰减相应的频谱系数而被抑制。为了得出频谱权重W,可以执行与结合图12d描述的处理类似的处理。如针对频谱权重G所述,可以确定时间差值和频率差值Δf和Δt。可以基于以下确定规则得出频谱权重W:
Figure BDA0002298564890000271
其中
Figure BDA0002298564890000272
ΔP是反映频谱岛被低能量的频谱系数环绕的假设的阈值。Δf和Δt是阈值参数。如上所述,α、β和γ是可调谐参数。考虑到上述确定规则,在频谱岛的范围处,确定频谱权重Ω以允许分别衰减信号Z、Y,即Ω是低于1的值。在频谱岛之外的范围中,W是值1,即不执行衰减。装置200可包括组合器232,以便例如使用乘法将频谱权重W与信号Z组合。可以使用信号变换器234以执行ISTFT,即,获得时域信号。
换句话说,鸟抑制概念可以被分成频谱间隙填充和频谱岛抑制。可以通过利用频谱权重G对宽带填充源信号S进行滤波来计算填充信号F。F仅包括非零值,其中已经在X中识别出频谱间隙,根据下式确定F:
F=G·S。
图12f示出用于处理音频信号的方法1500的示意性流程图。方法1500包括步骤1600,其中评估音频信号的频谱的斜率以获得斜率关系结果。步骤1700包括评估频谱包括边缘处的至少第一和第二频率边缘以便获得频率评估结果。步骤1800包括确定频谱权重,以及使用频谱权重处理第一和第二频率边缘之间的频谱区域中的音频信号。
图13a示出用于确定与音频信号的人工带宽限制处理有关的预定特性的方法2000的示意性流程图。方法2000包括步骤2100,步骤2100包括评估音频信号的频谱的斜率以获得斜率评估结果。步骤2200包括取决于斜率评估结果的评估来提供指示音频信号包括预定特性的信息。由处理器64提供的信息66可以包括此后称为D的变量,该变量可以用于激活带宽扩展处理,该带宽扩展处理被应用以例如使用信号增强器改善歌唱音频的声音质量。可选地,可以确定截止频率fc,即,可选步骤可以包括评估音频信号的频谱的截止频率以获得频率评估结果,使得可以取决于斜率评估结果并且取决于频率评估结果来提供指示音频信号包括预定特性的信息。通过确定BWE工作的频率范围,可以使用截止频率fc控制带宽扩展(BWE),使得BWE仅恢复丢失的频率区域。这在图13b中示出,图13b示出根据另一实施例的方法2500的示意性流程图,方法包括步骤2150,步骤2150包括评估音频信号的频谱的截止频率以获得频率评估结果。
可以使用或需要ABLA(即,相应特性的检测)的第二应用是将音频信号分类为由于有损压缩而导致的低声音质量的信号。这种分类可以仅基于所描述的分析,或者通过将其与可以从音频信号中提取的其他信息进行组合。可在此上下文中使用的额外信息的示例是立体声信号的宽度或频带复制(SBR)的存在,即,由有损编解码器应用的方法。然后,ABLA被用于激活其他改善利用有损压缩的信号的声音质量的处理,而不限于BWE处理。示例是用于增强立体声宽度和瞬态信号分量的滤波。
ABLA的结果,即参数D和截止频率fc,针对自动修复这样的伪像可以被使用或者甚至可以是必需的,而无需涉及人工操作员。将声音质量增强仅应用于具有降级的声音质量的信号可能是至关重要的。具有高质量的信号不应以这种方式被处理,因为声音质量可能被负面地影响。根据第二方面的实施例允许以高精度检测正经受人工带宽限制的音频帧或音频信号。音频信号具有由声音生成过程确定的自然带宽。带宽可由于各种技术过程而改变,包括应用于信号的捕获、存储、处理和传输的带宽限制。带宽限制是低通滤波,其具有如上所述的非常陡的衰减、非常高的衰减和截止频率的特性。
在下文中,将参考本发明的第三和第四方面,其参考第三方面中的对带宽受限信号进行带宽扩展的概念,例如,响应于根据第二方面已经确定了人工带宽限制。因此,根据第三方面的实施例可以用作与第二方面相结合的信号增强器。
根据第三方面的概念旨在抑制若干编码伪像以改进感知的声音质量。技术步骤可以被实现为后处理,并且可以部分地使用可以由解码器使用的软件实现。概念可以盲目地工作而不必访问未压缩音频信号和其他边信息。根据第三方面的低比特率编码增强处理包括后处理器或甚至基本上由后处理器组成,后处理器引入或增强与对已经由传统感知编码器预编码的音频材料的非导向后处理的概念有关的感知愉悦度。因此,经预编码的音频材料可以从感知愉悦的现代概念中获益。
结合第三和第四方面描述的实施例可以使用被称为频谱加权或短期频谱衰减的基本原理。因此,时域信号X[n]被变换为其频域表示X[k,m],其中k和m分别表示频率和时间帧索引。根据实施例,可以应用短时傅立叶变换(STFT),但是也可以使用其他变换。频谱加权的输出信号Y可以由以下等式给出
Y[k,m]=G[k,m]·X[k,m],
其中间频率域信号Y[k,m]的时域表示y[n]可通过逆变换(例如,逆STFT,即ISTFT)而被计算。在以下部分中,时域信号可以用小写字母表示,而频域信号可以用大写字母表示。为了更好的可读性,将省略索引k和m或频域信号。将结合被称为频谱加权(其中解释了频谱加权G[k,m]的细节)的方面更详细地解释频谱加权。
图14示出根据第三方面的实施例的装置140的示意性框图。装置140被配置用于处理音频信号,并且可以接收音频信号的频谱12'以用于处理。装置140可以被配置用于接收音频信号(即音频信号12)的时域表示,并且可以得出频谱12',例如,装置140可以包括用于这种目的的频谱计算器44。
装置140包括分离器92,分离器92用于将音频信号91的频谱91'的第一部分91'a与音频信号91的频谱91'的第二部分91'b分离。第一部分91'a具有第一信号特性,第二部分91'b具有第二信号特性。音频信号91可以由装置91在时域和/或频域中接收,并且可以是例如使用截止频率fc而带宽受限的,并且可以经受后处理。与带宽扩展有关的第三方面的一个主要特征是,输入信号可以被分成不同的特性,例如瞬态和持续信号部分,通过对每个部分中的模块应用不同的参数设置而独立地处理这些特性。
第一和第二信号特性可以通过不同的感知和/或通过频率范围中的不同特性而彼此不同。尽管实施例不限于此,但是第一和第二信号特性可以彼此互补,即,通过从公共频谱91'中去除、排除或减去一个信号特性,剩余部分形成另一个特性。作为非限制性示例,第一信号特性可以是频谱的中间频率范围,而第二信号特性可以是频谱的边频范围。可替换地,第一信号特性可以是音频信号的直接信号特性,并且第二信号特性可以是音频信号的环境信号特性。根据另一实施例,第一信号特性可以是音频信号的音调特性,并且第二信号特性可以是音频信号的持续信号特性,其可以被称为瞬态等。可替换地,第一信号特性可以是音频信号的语音特性,而第二信号特性可以是音频信号的非语音特性。其它信号特性也是可能的。此外,可以形成其组合,即,组合上述识别特性中的两个或更多个。第一和第二部分91'a和91'b可以包括相当的或相同的带宽、开始频率和停止频率,并且当彼此组合时,可以再次形成频谱91'。即,可以通过瞬态-持续信号分解完成分割或分离。可替换地或额外地,其它分解规则或方法也是可能的,诸如中间-边信号分解、直接-环境信号分解或前景/背景分解和/或语音-非语音分解等。
装置140可以包括第一带宽扩展器941,第一带宽扩展器941用于使用与第一信号特性相关联的第一参数961扩展第一部分91'a的带宽,以获得第一扩展部分98a。装置140还包括第二带宽扩展器942,第二带宽扩展器942用于使用与第二信号特性相关联的第二参数962扩展第二部分91'b的带宽,以获得第二扩展部分98b。带宽扩展可以包括在频谱中形成要与原始信号组合的额外部分或频率部分。这可以包括通过应用非线性的泛频的转置、频谱拉伸或生成来复制和/或产生这样的另外的频率区域。通过使用第一和第二带宽扩展器,存在于不同部分91'a和91'b中的不同信号特性可以被相应的带宽扩展器941和942不同地考虑。例如,复制部分的带宽、复制的数量、复制的交替、获得的信号的频谱整形和/或人工生成的频谱部分的频率特性可以在不同的信号特性之间变化,这可以通过结合不同的信号特性使用参数961和962的不同组考虑。这允许带宽扩展对信号特性的高度适应。
尽管已经将装置140描述为包括第一和第二带宽扩展器以考虑第一和第二信号特性,但是根据进一步实施例的装置可以被配置用于经受多于两个,例如三个、四个、五个或者甚至更多数量的带宽扩展。这种装置可以包括相应数量的带宽扩展器,但是例如当顺序处理不同的信号特性时,也可以使用一个带宽扩展器用于至少两个带宽扩展。因此,装置140可通过实现一个带宽扩展器94而被实现,并且用于在顺序地处理不同部分91'a和91'b时顺序地用不同参数961和962适配带宽扩展器。
装置140包括组合器102,组合器102被配置为使用第一和第二扩展部分98a和98b用于获得扩展组合音频信号104。扩展部分98a和98b可作为时域表示从组合器102接收,使得组合音频信号104也可在时域中。可替换地,扩展部分98a和98b可由组合器在频域中接收,使得组合音频信号104也可在频域中,以便随后转换到时域。可替换地,组合器102可以被配置为将单个部分98a和98b中的每一个或其组合版本变换到时域,并且用于在时域中提供组合音频信号104。
图15是示出包括不同分量106a和106b的示例频谱的示意图。例如,分量106a可以与例如由小鼓获得的频谱的瞬态信号有关。这种信号在一个频谱帧内可以具有较高的相关性,并且还可以具有比例如由频谱部分106指示的可能与人类声音有关的持续信号更高的带宽。在图15中,可以看到,瞬态部分106a具有比部分106b(例如歌声)大得多的带宽。
图16示出根据第三方面的实施例的装置160的示意性框图。下面将参考音频信号及从其得出的信号。音频信号可以在时域和/或频域中呈现和/或处理,其中可以通过频率到时间转换或时间到频率转换相对于彼此变换两个变量。因此,当提及音频信号时,这可以指时域表示和频域表示,它们是同义可接受的,除非另外明确地解释。
装置160包括分离器92,分离器92被配置用于接收音频信号91的频域表示91'。为此目的,装置160可以包括用于从时域表示获得频域表示91'的频谱计算器44。
分离器92可以包括瞬态抑制器108,瞬态抑制器108被配置用于接收音频信号,例如其频域表示,并且用于减少音频信号91中的瞬态部分,以便获得第一经修改的音频信号。分离器92可以被配置用于基于第一经修改的音频信号获得第一部分98a。根据实施例,第一部分98a对应于第一经修改的音频信号。根据另一实施例,执行第一经修改部分的处理,例如滤波、放大、衰减等。
分离器92可以包括减法器112,减法器112用于从音频信号91中减去第一经修改的音频信号,例如第一部分91'a,以便获得第二经修改的信号。根据实施例,第二经修改的信号是第二部分91'b。如针对第一部分91'a所述,也可基于对获得的减法结果的处理获得第二部分91'b。因此,通过从音频信号91中去除第一部分91'a,可以获得第二部分91'b。通过获得第一经修改的信号并通过将其从音频信号中减去以便获得第二经修改的信号,可以执行将音频信号分解为两个部分。
分离器92可以被配置为在频域或时域中操作,并且处理音频信号91,使得瞬态抑制器108减少或消除音频信号91的频谱的每个子带的瞬态和/或音调部分。这可能导致对包括小或非瞬态或小或非音调(即,噪声)部分的子带进行较少处理或甚至不进行处理。瞬态抑制器108可以包括瞬态处理级、音调处理级和/或组合级,以便通过抑制或放大要分离的特性而处理要分离的特性的一个。音频信号91的频域表示可以包括多个子带(频带),其中瞬态处理级和/或音调处理级被配置为处理每个频带。可替换地,可以减小(即,切割)通过音频信号91的频率变换获得的频谱,以便将某些频率范围或频带排除在进一步处理之外,诸如包括选择的特性或缺少选择的特性的频带。这可以允许减少的计算量,并因此允许更快和/或更精确的处理。
瞬态处理级可以被配置为针对每个处理的频带确定该频带是否包括瞬态部分。音调处理级可以被配置为针对每个频带确定音频信号91是否包括该频带中的音调部分。瞬态处理级可以被配置为至少针对包括瞬态部分的频带确定频谱加权因子,其中,频谱加权因子与相应频带相关联,并且可以允许衰减/排除或放大相应部分。瞬态和音调特性可以通过频谱处理被识别。瞬态和/或音调的等级可以由分离器92的瞬态处理级和/或音调处理级测量,并且可以被转化为频谱权重。分离器92可以被配置为至少为包括音调部分的频带确定频谱加权因子。频谱加权因子可以包括多个可能值,频谱加权因子的幅度指示频带中的瞬态和/或音调部分的量。
频谱加权因子可以包括绝对值或相对值。例如,绝对值可以包括频带中的瞬态声音和/或音调声音的能量的值。可替换地,频谱加权因子可以包括相对值,诸如0和1之间的值,值0指示频带不包括或几乎不包括瞬态或音调部分,而值1指示频带包括大量或完全瞬态和/或音调部分。频谱加权因子可以包括多个值中的一个,诸如3、5、10或更多个值(步长),例如(0、0.3和1)、(0.1、0.2、…、1)等。规模的大小、最小值和最大值之间的步数可以至少为零,但优选至少为一,更优选至少为五。优选地,多个频谱权重值包括包含最小值、最大值以及在最小值和最大值之间的值的至少三个值。最小值和最大值之间的更高数量的值可允许对每个频带进行更连续的加权。最小值和最大值可以被缩放到0和1之间的规模或其他值。最大值可以指示瞬态和/或音调的最高或最低等级。
分离器92的组合级可以被配置为将每个频带的频谱权重与音频信号组合。分离器92可以被配置为将组合的频谱权重应用于频带的每一个。例如,频谱权重可以与音频信号91在经处理的频带中的频谱值相乘。
通过抑制或排除音频信号91中的一些部分/特性,可以获得缺少相应特性但包括其它特性的第一经修改的信号。通过从音频信号中减去该信号,可以经由第二经修改的信号获得包括经抑制的特性和丢失第一经修改的信号的特性的逆信号。
在下文中,将参考带宽扩展器941和942的示例配置。带宽扩展器941和942中的每一个可以包括用于复制相应部分的至少一部分的复制器114,可以包括对由复制器生成的至少扩展部分进行整形的包络整形器116,可以包括用于均衡至少扩展部分的白化器118,和/或可以包括用于对扩展部分的至少一部分进行相移的抗粗糙滤波器122。这些元件中的每一个可以与其它提及的元件一起布置。可替换地,这些元件中的一些或全部可以不存在和/或可以由其它元件替代。例如,替代由复制器执行的复制,可以由带宽扩展器实现带宽的人工生成,使得带宽生成器可以替代复制器114。可替换地,可以消除频谱的整形或白化和/或可以使用其它处理。此外,抗粗糙滤波器122是可选的。尽管示出为通过被提供有正向短时傅立叶变换块124的输出而在时域中对相应信号进行滤波,但是抗粗糙滤波器可以被配置用于在频域中操作,并且因此可以被布置在相应的反向短时傅立叶变换块124之前。因此,除了所布置的块之外,其顺序也可以改变。
带宽扩展器941和942中的每一个可以包括相应的第一和第二复制器1141和1142。复制器1141和1142被配置用于复制相应的第一或第二部分91'a和91'b的至少一部分,并且用于将第一部分、第二部分的复制部分的至少一个版本分别与第一部分、第二部分91'a、91'b组合,以便分别获得相应的扩展部分126a、126b。
现在参考图17a,示出第一部分91'a的示例频谱,其中所给出的说明没有任何限制地涉及第二部分91'b。部分91'a在截止频率fc以下可以具有相关能量或幅度│X│,并且在截止频率fc以上可以包括低能量或甚至不包括能量。频谱可以随着频率的增加而减小。换句话说,图17a示出频带受限信号的幅度频谱│X│。截止频率表示为fc
图17b示出第一部分91'a被扩展了两个复制部分1281和1282的示意图。复制部分1281和1282中的每一个可以是第一部分91'a的频带w的副本,第一部分91'a被复制到未被部分91'a占用的频率范围,即,复制到高于截止频率fc的频率范围,其中优选地,复制部分1281和1282被组合以便直接对原始信号,即,第一部分91'a排序。因此,图17b示出如何执行复制。复数频谱系数从频率间隔[fc-w,fc]中的所谓源补丁w移位到间隔[fc,fc+w,fc+2w]等中的目的地补丁,即对于每个n,移位到[fc(n-1)w,fc+nw],其中n是范围从1到补丁数量或插入的复制的数量的变量。在图17b中,作为非限制性示例,数量n为2,并且复制部分的宽度Dfw可以由装置160针对带宽扩展器941和942中的每一个独立地进行调整。即源补丁w被移位的频率可以取决于期望的带宽和/或补丁的数量,其中两者都可以是可调谐参数。如关于频谱的减小的幅度,在补丁附着的位置处可能发生台阶或不连续性。
第一和第二部分的复制部分的范围可以从第一中间频率,例如第一部分91'a的fcopy1到第一部分的最大频率fc。因此,第二部分的复制部分可以包括第二频率范围,其范围从第二部分91'b的相同或不同的中间频率到第二部分的最大频率(其也可以是截止频率fc)。基于不同的中间频率,宽度Dfw可以是不同的。因此,为了获得相同的结果带宽,补丁的数量也可以在不同的带宽扩展器之间变化。
为了避免不想要的伪像,第一带宽扩展器可以包括第一包络整形器1161,并且第二带宽扩展器942可以包括第二包络整形器1162。包络整形器1161和1162可以被配置用于对至少扩展部分(即,截止频率fc以上的频率部分)进行整形。对包络进行整形,即执行频谱包络整形,可以频繁地使用,因为幅度频谱不是平坦的,它们趋向于在幅度上向更高频率下降,如图17a所示。图17b可视化了当执行复制而没有进一步的调整时的幅度频谱。幅度频谱中的突变可以出现在频率fc、fc+w、…、fc+kw处。这可以导致将由包络整形器1161和1162阻止的刺耳明亮的声音感知。
为了避免这种影响,如图17b所示的频谱倾斜T可以通过计算斜率│X│而被估计,斜率│X│已经通过线性回归拟合到包括频率间隔[fc-w,fc]的源补丁的对数频谱。每个补丁w可以被衰减值kT,即补丁被复制到越高的频率范围,衰减就越高。k可以是自然数,并且可以是所谓的补丁阶数,其从1开始,并且针对每个被移位的额外补丁增加,并且因此对应于前面提到的n。
换句话说,图17b示出没有包络整形的频谱系数的复制。复制的源是来自区间[fc-w,fc],其中w是补丁宽度。在模拟整形期间,区间[fc,fc+2w]中的复制目标补丁的幅度被衰减T倍,其代表频谱倾斜。
图17c示出可从被配置用于整形至少扩展部分1261的包络整形器1161获得的示例幅度频谱132a。基于内插,可以对复制的部分1281和1282的幅度进行整形或衰减,以便获得同质频谱。图17c示出具有补丁阶数2的包络整形的幅度频谱,其中补丁阶数可以包括1或更高的任何值。带宽扩展器491和492中的每一个可包括白化器,白化器用于分别均衡至少扩展的第一部分和扩展的第二部分。频谱白化可以通过提高频谱值和降低频谱峰值完成。
为了更好地理解,图18示出被配置用于独立地白化音频信号91的频谱白化器的示意性框图。白化器可以包括频谱计算器44,以便获得音频信号的频谱。白化器134可以被配置用于将每个频谱系数和时间帧的幅度X[k,m]与平滑版本Y[k,m]进行比较,其中k是频谱系数索引,m是帧索引。Y[k,m]可以通过在频率上平滑对数频谱幅度而得出。随后,可以使用根据下式的确定规则将这些对数值变换到线性域
Figure BDA0002298564890000341
实值频谱权重G[k,m]可如确定规则所述而被计算:
Figure BDA0002298564890000342
同样,为了更好的可读性,省略了索引k和m。α1、α2、β1、β2、γ1、γ2是可以独立地适配于白化器1181和1182中的每一个的可调谐参数。白化器可以包括用于计算频谱的绝对值的计算器126。这些值可以被称为X,其中这些值是提供给计算器138以计算任何频谱权重G的值,并且是提供给平滑路径142以便获得平滑版本Y的值。频率转换器144可以被配置用于将结果变换到时域。现在参考图16,可以看到白化器1181和1182可能已经在频域中操作,使得可以在没有频谱计算器44和/或频率转换器144等的情况下实现相应的白化器。
带宽扩展器941和942中的每一个可以分别包括相应的抗粗糙滤波器1221、1222,抗粗糙滤波器1221、1222用于分别对扩展的第一部分的至少一部分、扩展的第二部分的至少一部分进行相移。这可以分别作为对复制部分1281和1282和/或其整形版本128'1、128'2和/或白化版本146a和146b的相移而执行。即,抗粗糙滤波器被配置用于对相应的扩展部分或其右边的信号进行相移,以便获得相移信号。抗粗糙滤波器1221和1222可以被配置用于对要滤波的相应信号施加不同的相移。通过使用相移,可以获得复制部分或扩展部分相对于原始信号的相移。可替换地,抗粗糙滤波器可以对所提供的完整信号执行相移。例如,当相应核心部分随后被非相移部分替代(如将在下面描述的)时,这可以被实现。抗粗糙滤波器1221和1222可被实现为在时域中对相应的信号进行滤波。因此,ISTFT块1241、1242可以被布置成在时域中提供相应的信号。可替换地,抗粗糙滤波器1221和1222可被实现为在频域中滤波。在这种情况下,ISTFT模块1241和1242可以不存在,或者可以分别布置在抗粗糙滤波器1221、1222之后。可以执行抗粗糙滤波以降低主要由复制引起的感知的粗糙。不影响信号音质但主要改变信号相位的滤波器在此可能是合适的。例如,两个嵌套全通滤波器可以并行布置,并且可以在时域中被计算。全通滤波器的嵌套可以被理解为H1(z)和H2(z)表示相应滤波器的单位增益全通传递函数,则H1(H2(z))和H2(H1(z))都是全通滤波器。
可选地,带宽扩展器941和942中的每一个可以分别包括放大器/衰减器1481、1482,用于分别施加增益gt、gs以放大持续或瞬态部分。结果可以是被提供给组合器102的扩展部分98a和98b。如上所述,扩展部分98a和98b可以不同地被获得和/或通过仅执行解释的信号修改中的一些被获得。
与粗糙滤波器相结合,装置160可以包括高通滤波器152,高通滤波器152用于分别且同义地对第一扩展部分98a和第二扩展部分98b、组合信号102进行滤波,以便获得滤波信号154。与带宽扩展器941和942并行地,音频信号91可经受延迟156以用于补偿由块44中的时间到频率转换和块1241和1242中的频率到时间变换引起的时间延迟。装置160还可以包括被配置用于对经延迟的音频信号进行滤波的低通滤波器158。装置160还可以包括被配置用于组合经低通滤波的音频信号和信号154的组合器162。根据实施例,装置160被配置为使低通滤波器158的上频率(截止频率Xc)与高通滤波器152的下边缘频率匹配,以便获得组合的均匀信号。特别地,装置160可以被配置为响应于并且根据音频信号91的确定的截止频率来调适高通滤波器152的相应较低频率以及低通滤波器158的上边缘频率(截止频率)。因此,基于高通滤波器152,可以消除或强烈衰减截止频率fc以下的信号部分,使得仅保留扩展和相移部分。与此相反,低通滤波器158可以用于消除、丢弃或强烈衰减音频信号91的其部分分别延伸超过截止频率fc的部分。这允许获得相对于仅被延迟的原始音频信号91相移的扩展和复制版本,以便补偿带宽扩展器内的除抗粗糙滤波器1221和1222之外的其它延迟。获得的音频信号164可以是扩展的和优化的音频信号。
因为抗粗糙滤波应仅应用于频谱的经带宽扩展的区域,所以所得信号可被高通滤波且添加到被低通滤波且延迟的输入信号。延迟被用于或需要用于补偿由STFT引入的延迟。上述高通和低通滤波器的截止频率可以对应于例如图17a所示的截止频率fc
关于图19并结合图16,示出作为信号分析器的可选块166和作为装置160的查找表的可选块168的功能。装置160可以是盲带宽扩展。其目的可以是恢复如所述的丢失的带宽,而不需要其他知识,例如,基于边信息。信号分析器166可以被配置用于检测信号是否已经被人为地频带限制和/或可以估计音频信号91的截止频率fc。两个步骤都可以如结合人工带宽限制分析所述的那样执行。可以为每个帧更新这两个值。因此,音频信号91可以包括多个帧。装置160可以包括信号分析器166,信号分析器166被配置用于针对每个帧分析音频信号91的频谱以获得与音频信号91的人工带宽限制有关的特性,并且用于确定音频信号91中的截止频率fc
基于在图19中分别示意性地称为f0、f1、f2、f3、f4的不同截止频率,用于调适复制器114、整形器116、白化器118和/或抗粗糙滤波器122的功能的不同参数可以变化。例如,参数p可以用于调适相应的块。如图19所示,不同的截止频率可以与不同的参数或相同参数的不同值相关联。这些值可以存储在查找表168中,用于向相应块提供相应参数。在图16中,虚线连接表示模块例如被实时控制。示例参数可以是但在此是示例:一个参数可以是源补丁w的带宽。该参数可能影响人工创建的带宽。另一示例参数可以是平滑滤波器的时间常数,其针对不同的编解码器可以是不同的。多个其它示例可用于在频域和/或时域中控制块114、116、118和/或122。
查找表可以取决于信号分析结果保持对一些或所有控制参数的调谐。在估计截止频率fc的情况下,针对每个选择的频率fi,可以执行相应参数的感知调谐,这可以导致控制值pi。注意,针对不同的带宽扩展器,选择的值pi可以不同,即,装置160可以被配置为不同地适配相应的块。例如,可以将用于带宽扩展器941或942的查找表采样点si给出为根据下式的元组
si=(fi,pi)。
在图19中,示出针对五个截止频率f0到f4的一个控制参数p的调谐的示例。根据一些示例,当中间值是适当的时,可以对参数进行插值。在这种情况下,在区间[fi,fi+1]中的两个采样点之间,可以根据下式执行线性内插:
Figure BDA0002298564890000371
这种内插值的示例可以是例如结合图17a-17c解释的相应补丁的宽度w。可以保持不经受内插的参数可以是例如被限制为例如整数值的补丁的数量。
装置可以被配置用于针对具有与人工带宽限制有关的特性的帧使用第一和第二参数。针对其它帧,装置可以被配置用于使用第一带宽扩展器的第三参数和第二带宽扩展器的第四参数,例如,针对具有与和人工带宽限制相关的特性不同的特性的帧。可替换地,装置可以被配置为针对具有与和人工带宽限制相关的特性不同的特性的帧,去激活第一和第二带宽扩展器。因此,装置可以被配置用于对被认为包括相应特性的帧执行带宽扩展,并且可以通过使用第三和第四参数不同地对待被认为不包括该特性的帧,或者使相应帧不被处理。
因此,装置可包括查找表168,查找表168包括与对应的多个信号修改参数(诸如截止频率fc)相关联的多个参数,以及与分别用于第一带宽扩展器941及第二带宽扩展器942的对应的多个信号修改参数fc相关联的多个其它参数。装置可以包括信号分析器166,信号分析器166用于分析频谱以寻找应用于音频信号91的修改。装置160可以被配置用于得出与修改相关联的修改参数,例如,截止频率fc和/或与斜坡的陡度有关的参数。装置可以被配置为使用查找表和使用修改参数得出相应的第一和/或第二参数。根据一个示例,装置可以得出修改参数截止频率,并且可以针对第一带宽扩展器确定参数p一次,并且针对第二带宽扩展器确定参数p一次。
在已知的概念中,人工带宽扩展是公知的音频编码技术。此外,非引导带宽扩展是公知的。然而,带宽扩展计算之前的语义分解是未知的。语义解相关可以用于空间上混的目的,不包括如在带宽扩展应用中不可避免地发现的复制或转置功能。因此,根据第三方面的实施例不同。从解相关的带宽扩展中已知另一种技术。这里,所有高频带目标频谱区域通过专用解相关器或通过插入随机噪声的解相关实例而被解相关,以便相互独立。根据第三方面的本实施例教导了语义分解的信号部分的相互解相关,而已知的概念仅包括不同频谱目标区域的解相关。
图20示出根据第三方面的实施例的方法3000的示意性流程图。方法3000包括步骤3100,步骤3100包括将音频信号的频谱的第一部分与音频信号的频谱的第二部分分离,第一部分具有第一信号特性,第二部分具有第二信号特性。步骤3200包括使用与第一信号特性相关联的第一参数扩展第一部分的带宽,以获得第一扩展部分。步骤3300包括使用与第二信号特性相关联的第二参数扩展第二部分的带宽,以获得第二扩展部分。步骤3400包括使用第一扩展部分和第二扩展部分获得扩展组合音频信号。
根据第四方面,例如,在已经以不同的概念执行了带宽扩展之后,可以作为后处理执行抗粗糙抑制。因此,当确定已经执行了人工带宽限制并且也已经执行了相应的扩展时,可以使用抗粗糙抑制或抗粗糙滤波,以便例如与信号增强器48相结合地减少伪像。
图21示出根据第四方面的实施例的装置210的示意图。装置210可以用于例如处理经受人工带宽扩展的音频信号12。装置210可以包括抗粗糙滤波器122,抗粗糙滤波器122用于对音频信号12的至少一部分进行相移,以便获得相移信号172。抗粗糙滤波器122可例如在时域中或可替换地在频域中操作。根据实施例,抗粗糙滤波器122可以被配置用于对完整的音频信号12进行相移。装置210包括高通滤波器,例如高通滤波器152,用以对相移信号173进行滤波,以得到第一滤波信号174。装置210包括低通滤波器,例如低通滤波器158,用以对音频信号12进行滤波以得到第二滤波信号176。装置210还包括组合器162,组合器162用于组合信号154和156,以便获得增强的音频信号178,其中,减小了感知的粗糙度。如结合装置160所述的,经扩展的带宽相对于音频信号12被相移。一个方面是使用低通滤波器158对音频信号12进行滤波,以便消除分别在选择的滤波器频率、截止频率fc之上的任何信号部分。这允许减少或限制组合信号178中不同信号部分的影响或叠加。
图22示出根据第四方面的实施例的装置220的示意性框图。如结合图16所述,装置220可以包括分离器92,分离器92用于在频域中提供音频信号12的第一和第二部分12'a和12'b。装置220可包括不同的路径,在非限制性示例中,每个路径分别包括白化器1181、1182以及抗粗糙滤波器1221、1222,仅作为非限制性示例,它们在时域中操作。可替换地或额外地,每个路径可以包括放大器/衰减器148。因此,装置220可以被配置用于通过彼此独立地增强不同部分12'a和12'b而增强音频信号12。为了这种目的,装置220可以包括如结合图16所述的信号分析器166和查找表168。
特别地,装置220可以包括信号分析器166,信号分析器166被配置用于确定音频信号12中的带宽扩展的开始频率,带宽扩展的开始频率被布置在音频信号12的扩展带宽(例如,根据图70a-c的添加的补丁w或其处理版本)与核心带宽(即,诸如音频信号91的带宽的原始带宽)之间。
与此相结合,装置可以被配置为根据音频信号12中的带宽扩展的开始频率适配高通滤波器152的下频率和/或低通滤波器158的上频率。带宽扩展的开始频率可以由其他信道接收,或者可以由信号分析器166确定。
根据可与装置210的独立实施例以及第四方面的其它实施例中的每一个相组合的实施例,装置可被配置为使用音频信号中的带宽扩展的开始频率适配粗糙滤波器和/或用于增强音频信号12的信号增强器(例如包括白化器118、包络整形器等)。例如,基于音频信号12中的带宽扩展的开始频率,查找表可为待调整的块(例如白化器118及/或抗粗糙滤波器122和/或其它块)中的每一个提供四个不同参数。
根据可与根据第四方面的其它实施例中的每一个相组合的实施例,抗粗糙滤波器122可布置在第一路径中,并且其中低通滤波器158可布置在第二路径中。第二路径可包括白化器118,白化器118用于根据提供至抗粗糙滤波器的信号或从抗粗糙滤波器接收的信号来均衡信号,即,白化器与抗粗糙滤波器的顺序或次序可改变。
根据可与其它实施例中的每一个组合的第四方面的另一实施例,抗粗糙滤波器122可布置在第一路径中,低通滤波器158可布置在第二路径中。装置220可以包括信号增强器,信号增强器被配置为例如使用白化器118和/或整形器116增强第一路径中的并且至少部分地在频域中的音频信号。第二路径可以包括延迟块,诸如延迟器156,用于将音频信号12延迟与第一路径中的由时间到频率变换和频率到时间变换引起的延迟相对应的延迟,延迟在至多±10%、±5%或±2%的容差范围内,并且可能排除抗粗糙滤波器延迟。
根据可与根据第四方面的其它实施例的每一个组合的另一实施例,抗粗糙滤波器122是第一抗粗糙滤波器。装置包括分离器,分离器用于接收音频信号12的频谱,并用于将音频信号12的频谱12'的第一部分12'a与音频信号12的频谱的第二部分12'b分离。第一部分12'a具有第一信号特性,第二部分12'b具有第二信号特性。装置220可被配置用于将第一部分12'a提供给具有第一抗粗糙滤波器1221的第一路径,并将第二部分12'b提供给具有第二抗粗糙滤波器1222的第三路径。
根据可以与先前提到的实施例组合的进一步实施例,装置可以被配置为将第一增益gt应用于第一路径,并且将第二增益gs应用于第三路径。
根据可与先前和倒数第二实施例组合的第四方面的进一步实施例,装置可被配置用于使用音频信号12的带宽扩展的开始频率而彼此不同地调节第一抗粗糙滤波器1221和第二抗粗糙滤波器1222
根据可以与第四方面的最后三个实施例组合的第四方面的进一步实施例,分离器包括瞬态抑制器,诸如瞬态抑制器108,瞬态抑制器108被配置用于接收音频信号12并且用于减少音频信号12中的瞬态部分,以便获得第一修改的音频信号。分离器92被配置用于基于第一修改的音频信号获得第一部分12'a,例如,通过使用第一修改的音频信号作为第一部分12'a。分离器92还包括减法器112,减法器112用于从音频信号12中减去第一修改的音频信号,以便获得第二修改的信号。分离器92被配置用于基于第二修改的音频信号获得第二部分,例如,通过将第二修改的音频信号作为第二部分12'b。
根据可以与最后四个实施例组合的第四方面的进一步实施例,第一信号特性是以下中的一个:a)频谱的中间频率范围;b)音频信号的直接信号特性;c)音频信号的音调特性;以及d)音频信号的语音特性。第二信号特性根据使用的字母:a)频谱的边频范围;b)音频信号的环境信号特性;c)音频信号的持续信号特性;以及d)音频信号的非语音特性。
根据可以与第四方面的其他实施例中的每一个组合的第四方面的进一步实施例,增强音频信号164包括与第一滤波信号相比被相移的第二滤波信号,即,与下频率区域相比,上频率区域被相移。
图23示出用于处理音频信号的方法4000的示意性流程图。方法4000包括步骤4100,步骤4100包括对音频信号的至少一部分进行相移以便获得相移信号。步骤4200包括使用高通滤波器对相移信号进行滤波以便获得第一滤波信号。步骤4300包括使用低通滤波器对音频信号进行滤波以便获得第二滤波信号。步骤4400包括组合第一滤波信号和第二滤波信号以便获得增强音频信号。换句话说,人工带宽扩展粗糙抑制(ARS)的目标是减少伪像,诸如如前所述的音调尖峰伪像和跳动伪像。如图22所示,ARS方法或块的一些也被前面已经描述的BWE概念使用。还必须注意的是,这些常用方法或概念可以与不同的参数调谐一起使用。在以下部分中,将概述装置160和装置220之间的差异。
信号分析器用于通过一方面检测信号是否已经被人为地带宽扩展来激活图22中的ARS。另一方面,可以执行已经应用于当前信号的人工带宽扩展的开始频率(截止频率)的实时估计。信号的描述分析是否可以根据本文描述的其它方面执行概念。信号分析器结果被转发到查找表168,以获得其输出,该输出包括影响图22所示模块的控制参数。查找表168可包括针对若干开始频率被感知地调谐的参数调谐。
ARS的查找表可以基于与结合图16描述的BWE查找表相同的原理,不同之处在于,因变量可以是BWE开始频率的估计。而且,被控制的参数可以不同。
尽管在装置的上下文中描述了一些方面,但是清楚的是,这些方面还表示对应方法的描述,其中块或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方面还表示对相应装置的相应块或项目或特征的描述。
本发明的编码音频信号可以存储在数字存储介质上,或者可以在诸如无线传输介质或诸如因特网的有线传输介质的传输介质上传输。
取决于特定的实现要求,本发明的实施例可以以硬件或软件实现。可以使用其上存储有电可读控制信号的数字存储介质执行该实现,例如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存,电子可读控制信号与可编程计算机系统协作(或能够协作),从而执行相应的方法。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,电子可读控制信号能够与可编程计算机系统协作,从而执行本文所述的方法中的一个。
通常,本发明的实施例可以被实现为具有程序代码的计算机程序产品,当计算机程序产品在计算机上运行时,该程序代码可操作用于执行所述方法中的一个。程序代码例如可以存储在机器可读载体上。
其它实施例包括存储在机器可读载体上的用于执行本文所述的方法中的一个的计算机程序。
换句话说,本发明方法的实施例因此是具有程序代码的计算机程序,当计算机程序在计算机上运行时,程序代码用于执行本文所述的方法中的一个。
因此,本发明方法的进一步实施例是数据载体(或数字存储介质,或计算机可读介质),包括记录在其上的用于执行本文所述的方法中的一个的计算机程序。
因此,本发明方法的进一步实施例是表示用于执行本文所述的方法中的一个的计算机程序的数据流或信号序列。数据流或信号序列例如可以被配置为经由数据通信连接(例如经由因特网)传送。
进一步实施例包括处理装置,例如计算机或可编程逻辑器件,其被配置为或适于执行本文所述的方法中的一个。
进一步实施例包括计算机,其上安装有用于执行本文所述的方法中的一个的计算机程序。
在一些实施例中,可编程逻辑器件(例如现场可编程门阵列)可以用于执行本文所述的方法的一些或全部功能。在一些实施例中,现场可编程门阵列可以与微处理器协作,以便执行本文所述的方法中的一个。通常,优选地,通过任何硬件装置执行所述方法。
上述实施例仅是对本发明原理的说明。应当理解,对本文所述的布置和细节的修改和变化对于本领域的其他技术人员来说是显而易见的。因此,意图仅由即将到来的专利权利要求的范围来限制,而不是由通过这里的实施例的描述和解释而呈现的具体细节来限制。
参考文献
[1]M.Arora,J.Lee,and S.Park,"High quality blind bandwidth extensionof audio for portable player applications,"in Proc.of the AES 120th Conv.,2006.
[2]Markus Erne,"Perceptual audio coders"what to listen for?","inAudio Engineering Society Convention 111,2001年9月.
[3]Chia-Ming Chang,Han-Wen Hsu,Kan-Chun Lee,Wen-Chieh Lee,Chi-MinLiu,Shou-Hung Tang,Chung-Han Yang,and Yung-Cheng Yang,"Compression artifactsin perceptual audio coding,"in Audio Engineering Society Convention 121,2006年10月.
[4]Martin Dietz,Lars Liljeryd,Kristofer Kjorling,and Oliver Kunz,"Spectral band replication,a novel approach in audio coding,"in AudioEngineering Society Convention 112,2002年4月.
[5]Sascha Disch,Andreas Niedermeier,Christian R.Heimrich,ChristianNeukam,Konstantin Schmidt,Ralf Geiger,Jeremie Lecomte,Florin Ghido,FrederikNagel and Bernd Edler,"Intelligent gap filling in perceptual transform codingof audio,"in Audio Engineering Society Convention 141,2016年9月.

Claims (27)

1.一种用于确定与音频信号的人工带宽限制处理有关的预定特性的装置,所述装置包括:
斜率评估器(52),被配置用于评估所述音频信号的频谱的斜率(54)以获得斜率评估结果(56);以及
处理器(64),用于取决于所述斜率评估结果(56)的评估而提供指示音频信号(12)包括所述预定特性的信息(66)。
2.如权利要求1所述的装置,还包括频率评估器(58),所述频率评估器(58)被配置用于评估所述音频信号(12)的频谱的截止频率(fc)以获得频率评估结果(62);
其中所述处理器(64)被配置用于取决于所述斜率评估结果(56)的评估和所述频率评估结果(62)的评估而提供指示所述音频信号(12)包括所述预定特性的所述信息(66)。
3.如权利要求1或2所述的装置,其中所述装置被配置用于针对所述音频信号(12)的多个频谱(12'1,12'2,12'3)确定所述预定特性,其中所述斜率评估器(52)被配置用于评估所述频谱(12'1,12'2,12'3)中的每一个的斜率(54),其中所述频率评估器(58)被配置用于评估所述频谱(12'1,12'2,12'3)中的每一个,以及其中所述处理器被配置用于针对所述频谱(12'1,12'2,12'3)中的每一个而提供指示所述音频信号包括所述预定特性的所述信息。
4.如权利要求3所述的装置,还包括:
确定器(78),被配置用于确定所述频谱(12')的频带(fh)的能量(E)以及向所述处理器(64)提供包括指示所述频带(fh)的所述能量(E)的信息的信号(82),其中所述处理器(64)被配置用于如果所述频谱(12')的所述能量(E)低于能量阈值水平,基于先前频谱提供指示所述音频信号(12)包括所述预定特性的所述信息(66)。
5.如前述权利要求中任一项所述的装置,其中所述斜率评估器(52)被配置用于评估所述频谱(12')内的衰减,以及用于提供所述斜率评估结果(56)以便指示所述衰减的测量,其中所述处理器(64)被配置用于如果所述衰减的测量至少是陡度阈值,提供指示所述音频信号包括所述预定特性的所述信息(66)。
6.如前述权利要求中任一项所述的装置,其中所述斜率评估器(52)被配置用于评估所述频谱(12')的陡度,以及用于提供所述斜率评估结果(56)以便指示对所述陡度的测量,其中所述处理器(64)被配置用于如果对所述陡度的测量是至少陡度阈值,提供指示所述音频信号(12)包括所述预定特性的所述信息(66)。
7.如权利要求5或6所述的装置,其中所述斜率评估器(52)被配置用于使用窗函数确定所述频谱(12)的频谱差函数(S(h)),所述窗函数组合所述频谱(12')的多个频率值,以及使用所述窗函数的结果确定所述衰减的测量。
8.如前述权利要求中任一项所述的装置,其中所述斜率评估器(52)被配置用于评估所述频谱的第一频带(f1)的第一能量水平与所述频谱(12')的第二频带(f2)的第二能量水平之间的衰减,其中所述第一频带(f1)包括与所述第二频带(f2)的第二频率范围相比更低的第一频率范围,并且所述斜率评估器(52)被配置用于提供所述斜率评估结果(56)以便指示所述衰减的测量,其中所述处理器(64)被配置用于如果所述衰减的测量至少是衰减阈值,提供指示所述音频信号(12)包括所述预定特性的所述信息(66)。
9.如前述权利要求中任一项所述的装置,其中所述频率评估器被配置用于确定所述音频信号的频带中的能量(E)的测量,以及用于基于递减的频率范围中的能量和基于所述频率范围中的能量的增加来确定所述截止频率(fc)。
10.如前述权利要求中任一项所述的装置,还包括滤波器(74),所述滤波器(74)被配置用于接收所述频率评估结果(62)以及用于提供经滤波的频率评估结果(62'),其中所述处理器被配置用于基于与所述音频信号(12)的多个频谱(12'1,12'2,12'3)相关联的多个斜率评估结果(56)和经滤波的频率评估结果(62')来提供指示所述音频信号(12)包括所述预定特性的所述信息(66)。
11.如前述权利要求中任一项所述的装置,其中所述处理器(64)被配置用于通过为所述音频信号(12)的多个帧中的每一个提供多个帧的相应信息而提供指示所述音频信号(12)包括所述预定特性的所述信息(66),其中所述处理器(64)被配置用于基于所述多个帧获得多个帧结果,以及组合所述帧结果以便获得对于所述多个帧有效的组合结果(66')。
12.如权利要求11所述的装置,其中所述处理器被配置用于使用所述多个帧结果执行中值滤波以获得所述组合结果(66')。
13.如前述权利要求中任一项所述的装置,还包括重采样评估器,所述重采样评估器被配置用于使用采样频率而针对与上采样有关的预定特性来评估所述音频信号(12),其中所述装置被配置用于基于所述采样频率适配所述斜率评估器(52)和/或所述频率评估器(58)的频率范围。
14.如权利要求13所述的装置,其中所述重采样评估器被配置用于当应用以下确定规则时获得否定评估结果
X(k)>阈值
以及
X(k)<X(k+1)-offsetparameter
其中X(k)是频率索引k处的频谱的值X,offsetparameter是噪声抑制值。
15.如权利要求13或14所述的装置,其中所述重采样评估器被配置用于当应用以下确定规则时,获得指示所述音频信号(12)经受过限制频率索引k处的带宽的上采样的肯定评估结果
S(k)>阈值
其中S(k)是与所述频率索引k处的与所述频谱有关的频谱差函数。
16.如前述权利要求中任一项所述的装置,还包括信号增强器(48,125,200),所述信号增强器(48,125,200)被配置用于取决于指示所述音频信号(12)包括所述预定特性的所述信息或者取决于指示所述音频信号包括与频谱增强处理有关的特性的信息而减少由音频信号(12)的人工带宽限制处理引起的伪像。
17.如权利要求16所述的装置,其中所述信号增强器被配置用于使用加权填充信号(F)填充频谱间隙(202)和/或使用加权因子(G,W)衰减频谱岛(204)。
18.一种用于处理音频信号(91)的装置,所述装置包括:
斜率评估器(52),被配置用于评估所述音频信号(91)的频谱(91',x')的斜率(54)以获得斜率评估结果(56);
频率评估器(58),被配置用于评估所述频谱(91',x')包括边缘处的至少第一频率边缘和第二频率边缘(2061-2064);以及
处理器(208,228),被配置用于确定频谱权重(G,W)以及用于使用所述频谱权重处理所述第一频率边缘和第二频率边缘(2061-2064)之间的频谱区域中的所述音频信号(91,X)。
19.如权利要求18所述的装置,其中
在第一边缘(2061)和第二边缘(2062)之间布置频谱间隙(202),其中所述处理器(208)被配置用于确定频谱权重(G),以将频谱权重(G)与填充信号(S)组合以便获得加权填充信号(F);
其中所述装置包括组合器(226),所述组合器(226)被配置用于将所述音频信号(91)或从其得出的信号与所述加权填充信号(F)组合。
20.如权利要求19所述的装置,其中所述处理器(208,228)被配置用于在频率上平滑所述音频信号(91,X)或从其得出的信号,以便获得第一滤波信号(Y'),以及在时间上平滑所述音频信号(91,X)或从其得出的信号,以便获得第二滤波信号(Z);以及
用于将所述第一滤波信号(Y')与所述音频信号(91,X)或从其得出的信号进行比较以获得频率差值(Δf),以及用于将所述第二滤波信号(Z')与音频信号(91,X)或从其得出的信号进行比较以获得时间差值(Δt);
用于如果频率差值(Δf)大于或等于频率差阈值(Sf)以及如果所述时间差值(Δt)大于或等于时间差阈值(St),将所述频谱权重(G)设置为非零值。
21.如权利要求19或20所述的装置,其中所述装置被配置用于生成所述填充信号(S),所述填充信号(S)评估所述音频信号(91,X)或从其得出的信号的至少一个先前帧。
22.如权利要求18至21中任一项所述的装置,其中所述处理器(208)被配置用于基于以下确定规则确定所述频谱权重:
Figure FDA0002298564880000041
其中Γ是所述频谱权重,X是音频信号或从其得出的信号的幅度频谱,Y是从所述音频信号或从其得出的信号的平滑版本得出的值,α、β、γ是可调谐参数,κ是用于缩放加权影响的影响参数。
23.如权利要求22所述的装置,其中,所述影响参数(κ)基于以下确定规则:
Figure FDA0002298564880000042
其中δf表示频率差阈值。
24.如权利要求18至23中任一项所述的装置,其中
在第一边缘(2063)和第二边缘(2064)之间设置频谱岛(204);其中所述处理器(228)被配置用于确定所述频谱权重(W)以及将所述频谱权重(W)与所述音频信号(91,X)或从其得出的信号(Z)组合以便减少所述频谱岛(204)。
25.一种用于确定与音频信号的人工带宽限制处理有关的预定特性的方法(2000),所述方法包括:
评估所述音频信号的频谱的斜率以获得斜率评估结果(2100);以及
取决于所述斜率评估结果的评估而提供指示所述音频信号包括所述预定特性的信息(2300)。
26.一种用于处理音频信号的方法(1500),所述方法包括:
评估所述音频信号的频谱的斜率以获得斜率评估结果(1600);
评估所述频谱包括边缘处的至少第一频率边缘和第二频率边缘以便获得频率评估结果(1700);以及
确定频谱权重以及使用所述频谱权重处理所述第一频率边缘和第二频率边缘之间的频谱区域中的所述音频信号(1800)。
27.一种非暂时性存储介质,其上存储有计算机程序,所述计算机程序具有用于当在计算机上运行时,执行根据权利要求24或25的方法的程序代码。
CN201880036538.4A 2017-03-31 2018-03-29 确定与音频信号的人工带宽限制有关的特性的装置和方法 Active CN110870007B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP17164360.4 2017-03-31
EP17164360 2017-03-31
EP17189992.5 2017-09-07
EP17189992.5A EP3382702A1 (en) 2017-03-31 2017-09-07 Apparatus and method for determining a predetermined characteristic related to an artificial bandwidth limitation processing of an audio signal
PCT/EP2018/025081 WO2018177610A1 (en) 2017-03-31 2018-03-29 Apparatus and method for determining a predetermined characteristic related to an artificial bandwidth limitation processing of an audio signal

Publications (2)

Publication Number Publication Date
CN110870007A true CN110870007A (zh) 2020-03-06
CN110870007B CN110870007B (zh) 2023-10-13

Family

ID=58632740

Family Applications (3)

Application Number Title Priority Date Filing Date
CN201880036538.4A Active CN110870007B (zh) 2017-03-31 2018-03-29 确定与音频信号的人工带宽限制有关的特性的装置和方法
CN201880036584.4A Active CN110914902B (zh) 2017-03-31 2018-03-29 用于确定与音频信号的频谱增强处理有关的预定特性的装置和方法
CN201880036527.6A Active CN110832582B (zh) 2017-03-31 2018-03-29 用于处理音频信号的装置和方法

Family Applications After (2)

Application Number Title Priority Date Filing Date
CN201880036584.4A Active CN110914902B (zh) 2017-03-31 2018-03-29 用于确定与音频信号的频谱增强处理有关的预定特性的装置和方法
CN201880036527.6A Active CN110832582B (zh) 2017-03-31 2018-03-29 用于处理音频信号的装置和方法

Country Status (13)

Country Link
US (3) US20200020347A1 (zh)
EP (6) EP3382704A1 (zh)
JP (4) JP6968191B2 (zh)
KR (3) KR102517285B1 (zh)
CN (3) CN110870007B (zh)
AU (4) AU2018246838A1 (zh)
BR (3) BR112019020523A2 (zh)
CA (3) CA3058353C (zh)
ES (3) ES2933500T3 (zh)
MX (3) MX2019011519A (zh)
PL (3) PL3602553T3 (zh)
RU (3) RU2733533C1 (zh)
WO (3) WO2018177611A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220375485A1 (en) * 2019-09-24 2022-11-24 Sony Group Corporation Signal processing apparatus, signal processing method, and program
CN112927710B (zh) * 2021-01-21 2021-10-26 安徽南瑞继远电网技术有限公司 一种基于无监督方式的电力变压器工况噪声分离方法
CN113299313B (zh) * 2021-01-28 2024-03-26 维沃移动通信有限公司 音频处理方法、装置及电子设备
CN115512711A (zh) * 2021-06-22 2022-12-23 腾讯科技(深圳)有限公司 语音编码、语音解码方法、装置、计算机设备和存储介质
CN114070679B (zh) * 2021-10-25 2023-05-23 中国电子科技集团公司第二十九研究所 一种面向脉冲智能分类的频相特征分析方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060106619A1 (en) * 2004-09-17 2006-05-18 Bernd Iser Bandwidth extension of bandlimited audio signals
AR072703A1 (es) * 2008-07-11 2010-09-15 Fraunhofer Ges Forschung Aparato y metodo para calcular datos de ampliacion de ancho de banda utilizando un encuadre controlado por pendiente espectral
CN102103860A (zh) * 2004-09-17 2011-06-22 松下电器产业株式会社 频谱包络信息量化装置及方法、频谱包络信息解码装置及方法
CN102646419A (zh) * 2007-11-29 2012-08-22 摩托罗拉移动公司 音频信号的带宽扩展的方法和设备
EP2544465A1 (en) * 2011-07-05 2013-01-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for decomposing a stereo recording using frequency-domain processing employing a spectral weights generator
EP2806423A1 (en) * 2012-01-20 2014-11-26 Panasonic Intellectual Property Corporation of America Speech decoding device and speech decoding method

Family Cites Families (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4230414B2 (ja) * 1997-12-08 2009-02-25 三菱電機株式会社 音信号加工方法及び音信号加工装置
US7272551B2 (en) * 2003-02-24 2007-09-18 International Business Machines Corporation Computational effectiveness enhancement of frequency domain pitch estimators
JP4679049B2 (ja) * 2003-09-30 2011-04-27 パナソニック株式会社 スケーラブル復号化装置
KR100552693B1 (ko) * 2003-10-25 2006-02-20 삼성전자주식회사 피치검출방법 및 장치
CN101273404B (zh) * 2005-09-30 2012-07-04 松下电器产业株式会社 语音编码装置以及语音编码方法
US8073704B2 (en) * 2006-01-24 2011-12-06 Panasonic Corporation Conversion device
US8798172B2 (en) 2006-05-16 2014-08-05 Samsung Electronics Co., Ltd. Method and apparatus to conceal error in decoded audio signal
US8725499B2 (en) * 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
US7881459B2 (en) * 2007-08-15 2011-02-01 Motorola, Inc. Acoustic echo canceller using multi-band nonlinear processing
CN101939782B (zh) * 2007-08-27 2012-12-05 爱立信电话股份有限公司 噪声填充与带宽扩展之间的自适应过渡频率
DE102007048973B4 (de) * 2007-10-12 2010-11-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung
US8005233B2 (en) * 2007-12-10 2011-08-23 Dts, Inc. Bass enhancement for audio
DE102008015702B4 (de) 2008-01-31 2010-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals
US8433582B2 (en) 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
KR101518532B1 (ko) * 2008-07-11 2015-05-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 인코더, 오디오 디코더, 오디오 신호, 오디오 스트림을 부호화 및 복호화하는 장치 및 컴퓨터 프로그램
ATE539433T1 (de) * 2008-07-11 2012-01-15 Fraunhofer Ges Forschung Bereitstellen eines zeitverzerrungsaktivierungssignals und codierung eines audiosignals damit
EP2154911A1 (en) 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
EP4224474B1 (en) 2008-12-15 2023-11-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio bandwidth extension decoder, corresponding method and computer program
EP2214165A3 (en) * 2009-01-30 2010-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for manipulating an audio signal comprising a transient event
JP4945586B2 (ja) * 2009-02-02 2012-06-06 株式会社東芝 信号帯域拡張装置
US8515768B2 (en) * 2009-08-31 2013-08-20 Apple Inc. Enhanced audio decoder
JP5493655B2 (ja) * 2009-09-29 2014-05-14 沖電気工業株式会社 音声帯域拡張装置および音声帯域拡張プログラム
US8447617B2 (en) * 2009-12-21 2013-05-21 Mindspeed Technologies, Inc. Method and system for speech bandwidth extension
TWI444989B (zh) * 2010-01-22 2014-07-11 Dolby Lab Licensing Corp 針對改良多通道上混使用多通道解相關之技術
AU2016204672B2 (en) 2010-07-02 2016-08-18 Dolby International Ab Audio encoder and decoder with multiple coding modes
SG187950A1 (en) * 2010-08-25 2013-03-28 Fraunhofer Ges Forschung Apparatus for generating a decorrelated signal using transmitted phase information
CN103339670B (zh) * 2011-02-03 2015-09-09 瑞典爱立信有限公司 确定多通道音频信号的通道间时间差
CA2827249C (en) * 2011-02-14 2016-08-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing a decoded audio signal in a spectral domain
WO2012119140A2 (en) * 2011-03-03 2012-09-07 Edwards Tyson Lavar System for autononous detection and separation of common elements within data, and methods and devices associated therewith
US9117440B2 (en) 2011-05-19 2015-08-25 Dolby International Ab Method, apparatus, and medium for detecting frequency extension coding in the coding history of an audio signal
WO2012158705A1 (en) * 2011-05-19 2012-11-22 Dolby Laboratories Licensing Corporation Adaptive audio processing based on forensic detection of media processing history
US9685921B2 (en) * 2012-07-12 2017-06-20 Dts, Inc. Loudness control with noise detection and loudness drop detection
ES2549953T3 (es) 2012-08-27 2015-11-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para la reproducción de una señal de audio, aparato y método para la generación de una señal de audio codificada, programa de ordenador y señal de audio codificada
EP2709106A1 (en) * 2012-09-17 2014-03-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a bandwidth extended signal from a bandwidth limited audio signal
EP3067890B1 (en) * 2013-01-29 2018-01-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, method for providing an encoded audio information, method for providing a decoded audio information, computer program and encoded representation using a signal-adaptive bandwidth extension
US9601125B2 (en) * 2013-02-08 2017-03-21 Qualcomm Incorporated Systems and methods of performing noise modulation and gain adjustment
US10424321B1 (en) * 2013-02-12 2019-09-24 Google Llc Audio data classification
CA2964368C (en) * 2013-06-21 2020-03-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Jitter buffer control, audio decoder, method and computer program
FR3007563A1 (fr) * 2013-06-25 2014-12-26 France Telecom Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
EP2830065A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
US9666202B2 (en) * 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
JP6186503B2 (ja) * 2013-10-03 2017-08-23 ドルビー ラボラトリーズ ライセンシング コーポレイション アップミキサーにおける適応的な拡散性信号生成
WO2015105775A1 (en) * 2014-01-07 2015-07-16 Harman International Industries, Incorporated Signal quality-based enhancement and compensation of compressed audio signals
FR3017484A1 (fr) * 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
US9564141B2 (en) * 2014-02-13 2017-02-07 Qualcomm Incorporated Harmonic bandwidth extension of audio signals
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
JP6668372B2 (ja) * 2015-02-26 2020-03-18 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 目標時間領域エンベロープを用いて処理されたオーディオ信号を得るためにオーディオ信号を処理するための装置および方法
US9741360B1 (en) * 2016-10-09 2017-08-22 Spectimbre Inc. Speech enhancement for target speakers
US20190051286A1 (en) 2017-08-14 2019-02-14 Microsoft Technology Licensing, Llc Normalization of high band signals in network telephony communications

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060106619A1 (en) * 2004-09-17 2006-05-18 Bernd Iser Bandwidth extension of bandlimited audio signals
CN102103860A (zh) * 2004-09-17 2011-06-22 松下电器产业株式会社 频谱包络信息量化装置及方法、频谱包络信息解码装置及方法
CN102646419A (zh) * 2007-11-29 2012-08-22 摩托罗拉移动公司 音频信号的带宽扩展的方法和设备
AR072703A1 (es) * 2008-07-11 2010-09-15 Fraunhofer Ges Forschung Aparato y metodo para calcular datos de ampliacion de ancho de banda utilizando un encuadre controlado por pendiente espectral
EP2544465A1 (en) * 2011-07-05 2013-01-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for decomposing a stereo recording using frequency-domain processing employing a spectral weights generator
EP2806423A1 (en) * 2012-01-20 2014-11-26 Panasonic Intellectual Property Corporation of America Speech decoding device and speech decoding method

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
""R4-1700118 [5G] TP for 38.803 Emission mask for mmWave bands"", 《3GPP TSG_RAN\WG4_RADIO》 *
PATRICK GAMPP 等: "Methods for Low Bitrate Coding Enhancement Part I:Spectral Restoration", 《2017 AES INTERNATIONAL CONFERENCE ON AUTOMOTIVE AUDIO》 *
SASCHA DISCH: "Intelligent gap filling in perceptual transform coding of audio", 《AUDIO ENGINEERING SOCIETY CONVENTION 141》 *
段盼爽: "人工语音带宽扩展算法研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *

Also Published As

Publication number Publication date
CA3057739A1 (en) 2018-10-04
AU2021203677B2 (en) 2022-10-13
EP3602552A1 (en) 2020-02-05
MX2019011515A (es) 2019-12-19
KR20190134708A (ko) 2019-12-04
EP3382703A1 (en) 2018-10-03
US20200027474A1 (en) 2020-01-23
JP2022097514A (ja) 2022-06-30
KR20190134707A (ko) 2019-12-04
KR102426636B1 (ko) 2022-07-29
CA3058353C (en) 2023-03-07
RU2733278C1 (ru) 2020-10-01
KR102563915B1 (ko) 2023-08-04
EP3602553B1 (en) 2022-04-27
JP2020512593A (ja) 2020-04-23
BR112019020357A2 (pt) 2020-04-28
KR20190134709A (ko) 2019-12-04
AU2018246837B2 (en) 2020-12-24
MX2019011519A (es) 2019-12-19
MX2019011522A (es) 2019-12-19
RU2733533C1 (ru) 2020-10-05
AU2018246838A1 (en) 2019-10-24
BR112019020523A2 (pt) 2020-05-05
US11170794B2 (en) 2021-11-09
JP6968191B2 (ja) 2021-11-17
EP3602555B1 (en) 2022-10-12
PL3602553T3 (pl) 2022-08-22
CN110870007B (zh) 2023-10-13
JP2020512591A (ja) 2020-04-23
WO2018177612A1 (en) 2018-10-04
US20200020346A1 (en) 2020-01-16
ES2923098T3 (es) 2022-09-23
EP3382702A1 (en) 2018-10-03
JP7059301B2 (ja) 2022-04-25
CN110914902A (zh) 2020-03-24
AU2018241963A1 (en) 2019-10-24
KR102517285B1 (ko) 2023-04-03
AU2018241963B2 (en) 2021-08-12
AU2021203677A1 (en) 2021-07-01
CN110832582B (zh) 2023-10-24
CN110832582A (zh) 2020-02-21
WO2018177611A1 (en) 2018-10-04
PL3602552T3 (pl) 2022-11-21
WO2018177610A1 (en) 2018-10-04
EP3602553A1 (en) 2020-02-05
EP3602552B1 (en) 2022-07-20
ES2927808T3 (es) 2022-11-11
EP3602555B8 (en) 2023-06-14
BR112019020578A2 (pt) 2020-05-19
JP7455890B2 (ja) 2024-03-26
US20200020347A1 (en) 2020-01-16
JP6896881B2 (ja) 2021-06-30
AU2018246837A1 (en) 2019-10-17
JP2020512594A (ja) 2020-04-23
PL3602555T3 (pl) 2023-05-08
CA3057897C (en) 2022-05-17
EP3382704A1 (en) 2018-10-03
CA3058353A1 (en) 2018-10-04
EP3602553B8 (en) 2022-11-02
CA3057897A1 (en) 2018-10-04
CN110914902B (zh) 2023-10-03
RU2719543C1 (ru) 2020-04-21
ES2933500T3 (es) 2023-02-09
EP3602555A1 (en) 2020-02-05

Similar Documents

Publication Publication Date Title
CN110870007B (zh) 确定与音频信号的人工带宽限制有关的特性的装置和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant