CN117751405A - 用于去除不期望的听觉粗糙度的装置和方法 - Google Patents

用于去除不期望的听觉粗糙度的装置和方法 Download PDF

Info

Publication number
CN117751405A
CN117751405A CN202180099837.4A CN202180099837A CN117751405A CN 117751405 A CN117751405 A CN 117751405A CN 202180099837 A CN202180099837 A CN 202180099837A CN 117751405 A CN117751405 A CN 117751405A
Authority
CN
China
Prior art keywords
signal
information
audio
spectral bands
peak
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180099837.4A
Other languages
English (en)
Inventor
萨沙·迪施
史蒂文·范德帕
安德鲁斯·尼德梅尔
贝恩德·埃德勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN117751405A publication Critical patent/CN117751405A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

一种根据实施例的用于处理音频输入信号以获得音频输出信号的装置(100)。该装置(100)包括信号分析器(110),该信号分析器(110)被配置用于确定关于音频输入信号的一个或多个频谱带的听觉粗糙度的信息。此外,装置(100)包括信号处理器(120),该信号处理器(120)被配置用于取决于关于一个或多个频谱带的听觉粗糙度的信息来处理音频输入信号。

Description

用于去除不期望的听觉粗糙度的装置和方法
技术领域
本发明涉及一种用于去除不期望的听觉粗糙度的装置和方法。
背景技术
在非常低的比特率下的感知音频编解码中,有时会在包含清晰音调分量的音频信号中引入调制伪音。这些调制伪音通常被感知为听觉粗糙度(auditory roughness)。这可以是由于量化误差或由于音频带宽扩展造成的,其中音频带宽扩展导致复制频谱带的边缘处的不规则谐波结构。特别地,在对音调分量进行编码时不投入相当多的比特的情况下,难以克服由于量化误差而引起的粗糙度伪音。
在低比特率音频编解码中,使用音频信号的高效表示,与原始的、未压缩的16比特采样PCM音频信号相比,音频信号的高效表示需要少得多的数字信息。对于现代变换编码器(如xHE-AAC和MPEG-H),通过使用MDCT将原始输入音频信号变换为时频域表示来部分地获得效率,其中,每个音频帧可以用由心理声学模型监督并受到可用比特预算约束的可变精度来表示。通过在编码过程期间应用这两种控制机制,结果将是其中量化噪声跨时间帧和频谱带变化的音频比特流。
在理想情况下,在编码器侧,量化噪声被整形为使得由于听觉掩蔽而导致其变得听不见。然而,对于非常低的比特率,量化噪声将在某个时间点变得可听见,特别是如果音频信号中存在具有长持续时间的音调分量。原因是:对这些音调分量进行量化可能引起跨音频帧的幅度变化,这可以导致可听见的幅度调制。对于43Hz的典型变换编码器音频帧速率,这些调制将以该速率的最多一半的速率被添加到信号中。这低于引起粗糙度感知但在引起(慢)r-粗糙度的范围内的调制速率。此外,由于用于将时域音频帧变换到频域的短期加窗,完美的、固定的音调分量将在一系列相邻频率区间内表示,其中,该一系列相邻频率区间中的一些很容易被量化为零,尤其是在非常低的比特率下。
通过附加的半参数化技术(如与xHE-AAC一起使用的频谱带复制(SBR)[1]、或与MPEG-H一起使用的智能间隙填充(IGF)[2]),可以将比特率降低到对于纯变换编码器的良好音频质量所需的范围以下。使用低频频谱的移位副本和频谱包络整形来重建高频分量。分别利用SBR或IGF,可以保持良好的音频质量。
然而,由于音调频率分量与已经存在的时间调制一起被复制,因此SBR和IGF可能会放大粗糙度伪音。
此外,这些技术可能会引入新的粗糙度伪音,特别是在复制频谱带之间的过渡区域中:在许多音频帧中,原始信号中存在的规则谐波网格可能存在偏差。最近的研究表明,使用心理声学模型来自适应地决定最佳复制映射可以提高音频质量[5]。
用于抑制音调信号中的噪声的后滤波方法部分地去除信号中的粗糙度。所述方法依赖于基频的测量并通过应用调谐到基频的梳状滤波器来去除噪声,或者依赖于预测编解码,例如长期预测器(LTP)。所有这些方法仅适用于单音高信号,并且无法对展现出许多音高的复调或非谐波内容进行降噪。此外,该方法无法区分存在于原始信号中的噪声或由于编码-解码过程而引入的噪声。
因此,非常期望能够提供用于听觉粗糙度去除的改进构思。
发明内容
本发明的目的在于提供用于听觉粗糙度去除的改进构思。通过根据权利要求1的装置、通过根据权利要求27的音频编码器、通过根据权利要求38的方法、通过根据权利要求39的方法、以及通过根据权利要求40的计算机程序来实现本发明的目的。
一种根据实施例的用于处理音频输入信号以获得音频输出信号的装置。该装置包括信号分析器,其被配置用于确定关于音频输入信号的一个或多个频谱带的听觉粗糙度的信息。此外,该装置包括信号处理器,其被配置用于根据关于一个或多个频谱带的听觉粗糙度的信息来处理音频输入信号。
此外,一种根据实施例的用于对初始音频信号进行编码以获得编码音频信号和辅助信息的音频编码器。该音频编码器包括用于对初始音频信号进行编码以获得编码音频信号的编码模块。此外,该音频编码器包括辅助信息生成器,其用于根据初始音频信号并进一步根据编码音频信号来生成并输出辅助信息。辅助信息包括指示,该指示对多个频谱带中的一个或多个频谱带进行指示,其中针对该一个或多个频谱带将在解码器侧确定关于听觉粗糙度的信息。
此外,提供了一种根据实施例的用于处理音频输入信号以获得音频输出信号的方法。该方法包括:
-确定关于音频输入信号的一个或多个频谱带的听觉粗糙度的信息;以及
-根据关于一个或多个频谱带的听觉粗糙度的信息来处理音频输入信号。
此外,一种用于对初始音频信号进行编码以获得编码音频信号和辅助信息的方法。该方法包括:
-对初始音频信号进行编码以获得编码音频信号;以及
-根据初始音频信号并进一步根据编码音频信号来生成并输出辅助信息。
辅助信息包括指示,该指示对多个频谱带中的一个或多个频谱带进行指示,其中针对该一个或多个频谱带将在解码器侧确定关于听觉粗糙度的信息。
此外,提供了计算机程序,其中每个计算机程序被配置为当在计算机或信号处理器上执行时实现上述方法之一。
除此之外,本发明还基于如下发现:特别是在对音调分量进行编码时不投入相当多的比特的情况下,难以缓解由于量化误差而引起的粗糙度伪音。实施例提供了新颖且具有创造性的概念来去除在解码器侧的由编码器发送的少量引导信息所控制的这些粗糙度伪音。
一些实施例基于如下发现:在逐帧的基础上,很难看到跨连续帧发生的幅度调制,人类听觉系统仍然将它们感知为粗糙度伪音,因为它跨比音频编解码中使用的典型帧长度长的时间跨度来评估音频信号。在一些实施例中,可以例如利用更长的帧长度来分析解码音频信号,使得音调分量中存在的幅度调制伪音在幅度频谱中作为在主音调分量旁边出现的侧频谱带或者甚至侧峰值而变得更加可见。
考虑到这种侧峰值的出现,原则上将可以检测这些侧峰值并将它们从频谱中去除。初始实验已经表明,这确实是可以完成的,并且作为结果,极大地减少了粗糙度伪音。
然而,盲目地去除这种侧峰值可能导致对音频信号引入不期望的可听变化。例如,考虑包括本身非常粗糙的信号部分的原始音频信号。在这种情况下,不应去除粗糙度。确实发现,盲目应用侧峰值去除确实会导致音频信号部分中出现清晰可听见的“管状”伪音,这些伪音具有非常类似噪声或密集填充的频谱。
为了克服上述问题,似乎需要选择性地进行侧峰值去除,即仅在音频信号的其中编码和解码过程导致粗糙度伪音的那些部分中进行侧峰值去除。由于该决策与这种伪音的感知相关,因此这种决策可以由心理声学模型驱动,该心理声学模型将原始信号和解码信号进行比较以确定在哪些时频区域中引入了粗糙度伪音。
为了去除上述粗糙度伪音,提供了一种使用对幅度调制敏感的心理声学模型的方法。该模型基于Dau等人的[3]模型,但包括已经在[4]中描述并稍后将详细介绍的多个修改。心理声学模型做出的关于是否应去除粗糙度伪音的决策可能例如需要访问原始信号,并且因此需要在音频编码/解码链的编码器侧完成。这意味着辅助信息需要从编码器发送给解码器。尽管这将增加比特率,但事实证明增量非常小,并且可以很容易地从变换编码器的比特预算中获取。
实施例去除了解码器处的由比特流中从编码器发送的少量引导信息所控制的粗糙度伪影。
实施例提供了用于去除听觉粗糙度的构思。
一些实施例基于音调分量的调制创建与主音调相邻的频谱侧峰值的概念来减少或去除解码器侧的粗糙度伪音。例如,当频谱分析基于长时间窗口时,可以更好地观察到这些侧峰值。在一些特定实施例中,分析窗口可以例如被延伸超过典型编码帧的长度。
原则上,可以从频谱中去除频谱侧峰值,并且以这种方式,也将去除粗糙度伪音。算法可以例如基于与更强的主音调分量的频谱接近度来选择需要去除的侧峰值。当盲目地将这种粗糙度去除应用于音频信号时,它也将去除原始音频信号中存在的粗糙度。
在实施例中,心理声学模型分析低比特率编解码器在什么频谱时间间隔中引入粗糙度。然后在比特流的辅助部分中用信号通知应从其去除粗糙度的频谱时间间隔,并且将其发送给解码器。
根据实施例,由比特流馈送的解码器的后处理器可以例如包括用于控制粗糙度去除的少量引导信息。
在另一实施例中,可以例如在解码器侧估计引导信息。
附图说明
在下文中,将参考附图更详细地描述本发明的实施例,在附图中:
图1示出了根据实施例的用于处理音频输入信号以获得音频输出信号的装置。
图2示出了用于生成音频输出信号的装置,该装置包括音频解码器和图1的用于处理的装置。
图3示出了根据实施例的用于对初始音频信号进行编码以获得编码音频信号和辅助信息的音频编码器。
图4示出了根据实施例的系统,其中,该系统包括图3的音频编码器和图2的用于从编码音频信号生成音频输出信号的装置。
图5示出了根据实施例的粗糙度降低的整个处理链的概览。
图6示出了根据实施例的粗糙度降低(RR)的编码器处理概览。
图7示出了根据实施例的粗糙度降低的解码器处理概览。
图8示出了根据实施例的稀疏化过程的详细图。
图9示出了根据实施例的对粗糙度去除解码器算法进行逐帧处理的概述。
图10示出了蓝色的未平滑幅度频谱样本以及平滑幅度频谱。
图11示出了由基底膜滤波器组、毛细胞模型、适配循环和调制滤波器组构成的心理声学模型。
图12示出了使用Web-MUSHRA工具进行的听力测试的由立体声信号组成的第一项目集的结果。
图13示出了使用Web-MUSHRA工具进行的听力测试的由单声道信号组成的第二项目集的结果。
具体实施方式
图1示出了根据实施例的用于处理音频输入信号以获得音频输出信号的装置100。
装置100包括信号分析器110,其被配置用于确定关于音频输入信号的一个或多个频谱带的听觉粗糙度的信息。
此外,装置100包括信号处理器120,其被配置用于根据关于一个或多个频谱带的听觉粗糙度的信息来处理音频输入信号。
根据实施例,音频输入信号的一个或多个频谱带的听觉粗糙度可以例如取决于通过对原始音频信号进行编码以获得编码音频信号而引入的编解码误差(coding error)和/或通过对编码音频信号进行解码以获得音频输入信号而引入的编解码误差。
在实施例中,信号分析器110被配置为确定一个或多个频谱带中的多个音调分量。信号分析器110可以例如被配置为根据多个音调分量中的每一个与多个音调分量中的另一个的频谱接近度而从多个音调分量中选择一个或多个音调分量。此外,信号处理器120可以例如被配置为去除和/或衰减和/或修改一个或多个音调分量。
例如,处理器还可以例如修改被去除或衰减的峰值的频谱邻域,例如在峰值操纵之后保留频带能量或移动其余主峰值以保留局部频谱重心。这需要对频谱邻域应用复杂因子。
根据实施例,信号分析器110可以例如被配置为接收包括引导信息的比特流。此外,信号分析器110可以例如被配置为进一步根据该引导信息从一组音调分量中选择一个或多个音调分量。
在实施例中,该引导信息可以例如在第一时频域中或在第一频域中被表示,其中,该引导信息具有第一频谱分辨率。信号分析器110可以例如被配置为确定具有第二频谱分辨率的第二时频域中的多个音调分量,第二频谱分辨率是与第一频谱分辨率不同的频谱分辨率。在实施例中,第二频谱分辨率可以例如比第一频谱分辨率粗糙。在另一实施例中,第二频谱分辨率可以例如比第一频谱分辨率精细。
根据实施例,信号处理器120可以例如被配置为通过采用时间平滑或通过采用时间衰减来去除和/或衰减和/或修改一个或多个音调分量。
在实施例中,信号处理器120可以例如被配置为通过从音频输入信号的幅度频谱中去除或衰减一个或多个侧峰值来处理音频输入信号,其中,一个或多个侧峰值中的每个侧峰值可以例如是幅度频谱内的局部峰值,该局部峰值位于距幅度频谱内的另一局部峰值的预定义频率距离内并且具有比所述另一局部峰值小的幅度。
根据实施例,信号分析器110可以例如被配置为确定音频输入信号的一个或多个频谱带的初始幅度频谱中的多个局部峰值以获得关于听觉粗糙度的信息。
在实施例中,多个局部峰值是第一组多个局部峰值。信号分析器110可以例如被配置为对一个或多个频谱带的初始幅度频谱进行平滑以获得平滑幅度频谱。此外,信号分析器110可以例如被配置为确定平滑幅度频谱中的第二组一个或多个局部峰值。此外,信号分析器110可以例如被配置为将第三组一个或多个局部峰值确定为关于听觉粗糙度的信息,该第三组一个或多个局部峰值包括第一组多个局部峰值中的在第二组局部峰值内不具有对应峰值的所有局部峰值,使得第三组一个或多个局部峰值不包括第二组一个或多个局部峰值中的任何局部峰值。
根据实施例,信号分析器110可以例如被配置为针对第一组的多个峰值中的每个峰值确定第二组是否包括与所述峰值相关联的峰值,使得第二组的位于与所述峰值相同频率处的峰值可以例如与所述峰值相关联,使得第二组的位于距所述峰值的预定义频率距离之内的峰值可以例如与所述峰值相关联,并且使得第二组的位于距所述峰值的预定义频率距离之外的峰值可以例如不与所述峰值相关联。
在实施例中,信号处理器120可以例如被配置为通过在一个或多个频谱带的初始幅度频谱中去除或衰减第三组的一个或多个局部峰值来处理音频输入信号,以获得音频输出信号的一个或多个频谱带的幅度频谱。
根据实施例,为了去除或衰减一个或多个侧峰值或第三组的一个或多个局部峰值中的每个峰值,信号处理器120可以例如被配置为衰减所述峰值以及所述峰值的周围区域。
在实施例中,信号处理器120可以例如被配置为确定所述峰值的周围区域,使得紧接在所述峰值之前的局部最小值和紧接在所述峰值之后的局部最小值限定所述周围区域。
根据实施例,音频输入信号的频谱包括多个频谱带。此外,信号分析器110可以例如被配置为接收或确定多个频谱带中的一个或多个频谱带,其中针对该一个或多个频谱带将确定关于听觉粗糙度的信息。此外,信号分析器110可以例如被配置为针对音频输入信号的所述一个或多个频谱带确定关于听觉粗糙度的信息。此外,信号分析器110可以例如被配置为不针对音频输入信号的多个频谱带中的任何其他频谱带确定关于听觉粗糙度的信息。
在实施例中,信号分析器110可以例如被配置为从编码器侧接收关于一个或多个频谱带的信息,其中针对该一个或多个频谱带将确定关于听觉粗糙度的信息。
根据实施例,信号分析器110可以例如被配置为接收关于一个或多个频谱带的信息作为二进制掩码或作为压缩的二进制掩码,其中针对该一个或多个频谱带将确定关于听觉粗糙度的信息。
在实施例中,装置100可以例如被配置为接收选择滤波器。信号分析器110可以例如被配置为根据选择滤波器来确定多个频谱带中的将针对其确定关于听觉粗糙度的信息的一个或多个频谱带。
根据实施例,信号分析器110可以例如被配置为确定多个频谱带中的将针对其确定关于听觉粗糙度的信息的一个或多个频谱带。
在实施例中,信号分析器110可以例如被配置为确定多个频谱带中的将针对其确定关于听觉粗糙度的信息的一个或多个频谱带,而无需信号分析器110接收辅助信息,所述辅助信息指示关于将针对其确定关于听觉粗糙度的信息的一个或多个频谱带的所述信息。
根据实施例,信号分析器110可以例如被配置为通过采用人工智能概念来确定多个频谱带中的将针对其确定关于听觉粗糙度的信息的一个或多个频谱带。
在实施例中,信号分析器110可以例如被配置为通过采用神经网络作为由信号分析器110采用的人工智能概念来确定多个频谱带中的将针对其确定关于听觉粗糙度的信息的一个或多个频谱带。神经网络可以例如是卷积神经网络。
根据实施例,信号分析器110可以例如被配置为(例如,在用以去除粗糙度峰值的滤波器中)不使用关于多个频谱带中的包括一个或多个瞬态的那些频谱带的听觉粗糙度的信息。例如,在该算法中,可以在包括瞬态的帧期间简单地不应用滤波器。
图2示出了根据实施例的用于从编码音频信号生成音频输出信号的装置200。
图2的装置200包括音频解码器210,其被配置为对编码音频信号进行解码以获得解码音频信号。
此外,图2的装置200还包括图1的用于处理的装置100。
音频解码器210被配置为将解码音频信号作为音频输入信号馈送到用于处理的装置100中。
用于处理的装置100被配置为处理解码音频信号以获得音频输出信号。
根据实施例,音频解码器210可以例如被配置为使用具有第一帧长度的第一逐时间块处理来对编码音频信号进行解码。
用于处理的装置100的信号分析器110可以例如被配置为使用具有第二帧长度的第二逐时间块处理来确定关于听觉粗糙度的信息,其中,第二帧长度可以例如长于第一帧长度。
在实施例中,音频解码器210可以例如被配置为对编码音频信号进行解码以获得解码音频信号,该解码音频信号是包括中声道和侧声道的中-侧信号。用于处理的装置100可以例如被配置为处理该中-侧信号以获得用于处理的装置100的音频输出信号。用于生成的装置200例如还可以包括变换模块,该变换模块对音频输出信号进行变换,使得在变换之后,音频输出信号包括立体声信号的左声道和右声道。
图3示出了根据实施例的用于对初始音频信号进行编码以获得编码音频信号和辅助信息的音频编码器300。
音频编码器300包括编码模块310,其用于对初始音频信号进行编码以获得编码音频信号。
此外,音频编码器300包括辅助信息生成器320,其用于根据初始音频信号并进一步根据编码音频信号来生成并输出辅助信息。
辅助信息包括指示多个频谱带中的一个或多个频谱带的指示,其中针对该一个或多个频谱带将在解码器侧确定关于听觉粗糙度的信息。
根据实施例,辅助信息生成器320可以例如被配置为根据感知分析模型或心理声学模型来生成附加信息。
在实施例中,辅助信息生成器320可以例如被配置为使用感知分析模型或心理声学模型来估计编码音频信号中的听觉粗糙度的感知变化。
根据实施例,辅助信息生成器320可以例如被配置为生成作为辅助信息的二进制掩码,该二进制掩码指示多个频谱带中的展现出增加的粗糙度的一个或多个频谱带,并且针对该一个或多个频谱带将在解码器侧确定关于听觉粗糙度的信息。
在实施例中,辅助信息生成器320可以例如被配置为生成二进制掩码作为压缩的二进制掩码。
根据实施例,辅助信息生成器320可以例如被配置为通过采用时间调制处理来生成辅助信息。
在实施例中,辅助信息生成器320可以例如被配置为通过生成选择滤波器来生成辅助信息。
根据实施例,辅助信息生成器320可以例如被配置为通过采用时间平滑来生成选择滤波器。
在实施例中,辅助信息生成器320可以例如被配置为通过采用神经网络来生成辅助信息的指示,该指示对多个频谱带中的一个或多个频谱带进行指示,其中针对该一个或多个频谱带将在解码器侧确定关于听觉粗糙度的信息。神经网络可以例如是卷积神经网络。
图4示出了根据实施例的系统。
该系统包括图3的音频编码器300,其用于对初始音频信号进行编码以获得编码音频信号和辅助信息。
此外,该系统包括图2的用于从编码音频信号生成音频输出信号的装置200。
用于生成音频输出信号的装置200被配置为根据编码音频信号并且根据辅助信息来生成音频输出信号。
在下文中,描述了本发明的一些实施例。
图5示出了根据实施例的粗糙度降低(RR)的整个处理链的概览。绿色块表示本发明的粗糙度降低,蓝色块涉及通常存在于音频编解码器中的处理块。
图6示出了根据实施例的粗糙度降低(RR)的编码器处理概览。在编码器中,粗糙度降低编码器部分使用感知分析(PA)模型将原始PCM信号和编码信号进行比较。为了让该方法发挥作用,使用先进的基于调制的心理声学模型是一个好的选项。PA模型估计信号的听觉粗糙度的感知变化,并且导出二进制掩码,该二进制掩码指示展现出增加的粗糙度的频谱带。将该二进制掩码压缩并作为辅助信息添加到感知编码器的比特流。实验已经表明,对于单声道信号和立体声信号,该辅助信息需要仅大约0.4kbps的附加比特率。信号流程如图6所示。
图7示出了根据实施例的粗糙度降低(RR)的解码器处理概览。在解码器处,粗糙度降低解码器部分从比特流中提取辅助信息并将其馈送到被表示为“稀疏化”的处理块。该块去除由二进制掩码指示的具有增加的粗糙度的频谱带中的不期望的音调侧峰值。信号流程如图7所示。对于立体声信号,在M/S表示中发生稀疏化,以避免所感知到的空间波动。
图8示出了根据实施例的稀疏化过程的详细图。
在下文中,更详细地描述本发明的实施例。
首先,描述根据实施例的用于音频编解码器的引导听觉粗糙度去除概念。
具体地,将说明粗糙度去除(RR)算法。在一些实施例中,可能例如需要在编码器侧提取辅助信息以引导在音频信号已经被解码之后将执行的粗糙度去除。
返回到图5,示出了标准音频编码器和解码器如何连接到RR编码器的方案,该RR编码器在RR比特流内向RR解码器发送辅助信息。具体地,图5示出了粗糙度去除编解码器的应用上下文的概述。粗糙度去除编解码器是围绕常规音频编码器-解码器对(以蓝色表示)构建的。
为了说明所使用的方法,首先描述算法的核心,其中,改变频谱分量以去除粗糙度(在RR解码器侧),然后继续说明心理声学模型如何选择信号的其中引入了粗糙度伪音的部分(RR编码器侧)。
在下文中,更详细地描述粗糙度去除。
图9示出了根据实施例的对粗糙度去除解码器算法进行逐帧处理的概述。将时域帧和辅助信息用作输入。生成时域输出帧,其中从该时域输出帧去除了导致粗糙度伪音的频谱分量。
粗糙度去除解码器逐帧地操作。每帧内的处理如图9所概述。可以看出,时间帧被转换为频谱表示(spectral representation)。原则上,在该频谱上进行的唯一操作是:对频谱应用衰减滤波器(H),并且然后转换回时域帧。滤波器H应被设计为使得引起粗糙度伪音的频谱峰值被衰减。
对于衰减滤波器的推导,首先导出如图9的两个下分支所示的两个分离的滤波器。首先,基于信号频谱,算法确定与粗糙度相关联的所有峰值。基于这些特定峰值,导出具有高频谱分辨率的衰减掩码Hs。该衰减掩码将简单地去除引起粗糙度的所有峰值,包括原始编码信号中存在的峰值。鉴于此,拾取在粗糙度去除编码器处获得的辅助信息来确定其中已经由音频编码算法引入可感知的粗糙度伪音的频谱带。针对这些频谱带,导出第二衰减掩码(Ha),该第二衰减掩码对于具有可感知的粗糙度伪音的频谱带具有低增益。由于感知模型仅提供是-否决策,因此发现对Ha的输出应用低通滤波器是有益的。然后将这两个衰减滤波器组合成单个衰减滤波器H。该滤波器的输出用作应用于下一帧中的Ha的低通滤波器的先前状态。这意味着先前帧的衰减Hs也将继续在当前帧中具有影响。
由于r-粗糙度和粗糙度与幅度调制相关联,因此听起来粗糙的音频分量应由主频谱峰值表示,其中附近侧峰值可以被分离达小至10Hz。为了能够观察这种侧峰值,需要使用足够长的分析窗口。在本文提出的算法中,使用了44.1kHz下的5644个样本的分析窗口、或取决于采样频率的适配样本长度。
在下文中,参考图9描述寻找粗糙度峰值的阶段。可以考虑许多方法来去除表示被引入的r-粗糙度伪音的侧峰值。这里,提供了一种考虑引入粗糙度伪音的方式的方法。首先,在从5644个样本间隔获得的频谱内,选择所有局部峰值并将其表示为在图3中,频谱以蓝色示出,峰值用蓝色圆圈标记。(注意,出现了具有低幅度的许多小峰值。)其次,使用10样本长的Hann窗口(以红色示出)对幅度频谱进行平滑;红色圆圈指示被找到的峰值。在该平滑频谱中,可以认为:如在样本编号620处的最左峰值中可以看到的,由于编码过程而引入的侧峰值将在很大程度上被去除,其中,未平滑频谱(蓝色)中的明显的侧峰值不再存在于平滑频谱(红色)中。在该平滑频谱中,再次选择所有局部峰值并将其表示为/>
原则上,现在可以通过检查并且通过确定在/>中未找到哪些元素来确定被去除的侧峰值。然而,需要注意的是,原始频谱中出现的强峰值(并且是/>中的元素)可能并不在平滑频谱(具有/>中表示的峰值)中的完全相同的频谱位置处。当周围频谱倾斜时,在平滑之后可能对主峰值的位置产生偏差。鉴于此,首先导出映射,该映射指示/>中的哪些分量仍然存在于/>中,尽管频谱位置发生了移位。然后将其余峰值分类为需要被去除的侧峰值,并且表示为/>
对于中指示的侧峰值的去除,首先针对要去除的每个峰值选择周围频谱范围。该范围由在未平滑频谱中的峰值的任一侧找到的第一局部最小值来界定。在该范围内,然后将20dB的衰减插入最初具有单位增益的频域滤波器Hs中。针对要去除的每个峰值重复该过程。如上所述,由于该滤波器Hs还将去除原始信号中已经存在并引起粗糙度的峰值,因此它不能直接应用于频谱。
鉴于此,基于来自编码器侧的辅助信息来确定第二滤波器Ha,其应当用作选择滤波器,该选择滤波器确定侧峰值去除滤波器Hs中的哪些区域确实应当应用于滤波。经由创建新滤波器的以下等式来获得该选择:
H=1-(1-Hs)(1-Ha) (1)
该组合的效果是:Hs和Ha两者都应已经提供衰减,以便引起新滤波器H中的衰减。尽管该新衰减滤波器H现在可以应用于频谱以去除引起由编码过程引入的侧峰值的粗糙度,但可以发现,这可能导致声音片段中出现一些可感知的不稳定性。这可能是由于编码器侧的关于哪些频谱带包含粗糙度伪音的决策过程存在不确定性。此外,编码器侧的决策是全有或全无决策,通过保持用于发送辅助信息的比特率非常有限来激发该全有或全无决策。为了减少不稳定性,对滤波器Ha应用一些时间平滑。为此,将先前帧中获得的滤波器H与分别使用0.4和0.6的系数而新计算的滤波器Ha相结合。
图10示出了蓝色的未平滑幅度频谱样本以及红色的平滑幅度频谱。相应颜色的圆圈表示频谱中的局部峰值。
在图10中,衰减滤波器应用于原始频谱(蓝色),导致仅在产生相当大衰减的频谱区域中可见的绿色曲线。现在可以看出:在样本620周围,原始频谱(蓝色)具有峰值,但平滑频谱(红色)没有峰值,蓝色频谱中的峰值被极大地衰减,以这种方式减少了潜在可听见的调制伪音。
在下文中,描述了用于引导粗糙度去除的心理声学模型。
如前一节中提到的,仅当音频编码过程产生引起侧峰值的粗糙度时,才应去除引起侧峰值的粗糙度。该信息例如可能需要访问原始信号,并因此仅可以在编码器侧获得。在本节中,将描述如何使用可以检测音频信号的粗糙度的心理声学模型来实现此目的。
用于该目的的心理声学模型先前已用于引导参数化音频编码器[5]中的编码决策,并且已在稍后被证明非常适合于对由于各种音频编码方法而导致的感知劣化进行预测[4]。该模型是Dau等人的模型[3]的扩展,其假设对于每个听觉滤波器通道,调制滤波器组提供对音频信号在时间调制方面的分析。
图11中示意性地示出了该模型。具体地,图11示出了遵循Dau等人[3]的由基底膜滤波器组、毛细胞模型、适配循环和调制滤波器组构成的心理声学模型。
首先,音频信号由多个并行的伽马音调滤波器进行处理,除了伽马音调滤波器组提供从其获取幅度的复值输出,从而有效地提取伽马音调输出的希尔伯特(Hilbert)包络之外,这些伽马音调滤波器的带通特性近似于人类耳蜗中的频率选择性处理并且与Dau等人[3]和先前的公开[4]、[5]的原始模型一致。包括该修改是因为在讨论适配循环时要说明的与模型的下一阶段(适配循环)的相互作用。
适配循环包括在Dau模型中以对听觉通路(例如,听觉神经)中的适配过程进行建模。每个适配循环被建模为衰减阶段,其中衰减因子是该循环的输出的低通滤波版本。因此,在信号开始之后,适配循环将具有降低的增益,即使在输入信号偏移之后,该降低的增益也将持续存在。该属性用于对听力测试中观察到的前向掩蔽效应进行建模。Dau模型中总共提出了具有不同时间常数的五个适配循环。在稳定状态下(即,在开始之后的很长时间),适配循环可以显示为近似于对数变换的形状。
在信号开始时,适配循环的增益尚未像稳态情况那样减小,这会导致显著的过冲,该显著的过冲将对于信号开始所做的任何变化导致不相称的敏感度,这与心理声学观察不一致。鉴于此,根据对数规则,适配循环的最大增益取决于输入电平。
对于非常低频的信号(<100Hz),适配循环的时间常数将允许在一定程度上减少两个周期之间的衰减。这有效地使得平均衰减更小,从而提高对低频输入信号的任何变化的整体灵敏度。因此,在适配循环之前提取希尔伯特包络。该希尔伯特包络替代原始Dau模型中使用的毛细胞处理,该原始Dau模型在半波整流之后包括低通滤波器。
在每个听觉声道中的适配循环之后,将输出馈送到调制滤波器组中,该调制滤波器组与Dau等人提出的滤波器组相当,并且具有从滤波器中去除DC分量的附加阶段(参考[4])。这很重要,因为希尔伯特包络的DC分量可能比调制分量高得多。由于调制滤波器的浅滤波器形状,调制滤波器输出可能由DC分量主导(参考[5])。尽管由于Dau等人的原始模型仅处理刺激中的显著差异而导致该属性在该模型中并不那么重要,但在当前设置中,感兴趣的是知道强基线调制是否已经存在于原始音频信号中。在这种情况下,听力测试表明任何添加的调制都将不太被检测到。调制滤波器的输出处存在强DC分量将导致难以获得基线调制。
最后,调制滤波器组的输出产生内部表示(internal representation),该内部表示是时间t、听觉滤波器编号k、调制滤波器编号m的函数并且取决于输入信号x。处理该内部表示以决定是否引入与粗糙度相关联的调制频率范围内的显著附加调制。为此目的,计算调制滤波器中的以5至35Hz为中心的调制强度的增加与原始音频信号的相同滤波器中的基线调制强度之间的比率。
以这种方式,确定调制强度的相对增加。当相对增加超过标准值0.6时,对应的时间和频率间隔将作为其中需要去除侧峰值的间隔被用信号通知给编码器。在算法的标准设置中,还在两个相邻频谱带上对值进行平均,以降低辅助信息的比特率。然而,在听力测试中,添加忽略了在邻域上的该平均的条件,以调查对质量的影响。
在下文中,描述粗糙度去除编码器和/或解码器属性。
如图5所示,粗糙度去除算法是围绕正常的编码器-解码器组合而构建的;即,该算法可以独立于编解码器进行应用,但也可以与编解码器集成。在编码器侧,首先对音频信号进行编码,从而产生发送给解码器侧的比特流。
粗糙度去除编码器着手处理原始输入信号和比特流,以便再次直接对音频信号进行解码。使用前一节中概述的心理声学模型,对解码器侧的哪些时频间隔可以经受第2.1节中概述的粗糙度去除算法做出决策。在输入信号是立体声的情况下,基于输入信号的单声道下混频(downmix)来做出这些决策,这进一步限制了该方法所需的比特率的相对增加。
辅助信息(RR比特流)被发送给粗糙度去除解码器,该粗糙度去除解码器使用在解码器侧可用的解码信号,以从适当的信号部分去除引起侧峰值的粗糙度。
已发现,包括瞬态的帧中的侧峰值的去除可以导致相当大的前回声。
这是由与侧峰值去除一起进行的窄带频谱修改引起的。为了避免引入前回声,在解码器侧,瞬态检测器用信号通知不应进行侧峰值去除的帧。注意,在这种瞬态帧期间,用于侧峰值去除的滤波器计算仍然将继续,只是它将不应用于信号。
对于立体声信号,原则上,粗糙度去除算法可以独立地应用于两个声道。
可以认为,首先将立体声信号转换为中-侧表示并独立地在中声道和侧声道上都应用该算法两次可能是有益的。
在听力测试中,评估两个选项。在编码过程中,帧速率相当慢是有益的,多个帧在44.1kHz采样频率下被2822个样本分离(15.6Hz)。另外,在标准设置中,总共针对21对的42个频谱带提供辅助信息。
由对于每个决策的单个比特组成的辅助信息被分组为6个听觉频谱带,并且通过霍夫曼编码器被存储为一个数字,以利用频率上彼此接近的频谱带之间的可能相关性。当针对每对频谱带发送决策时,针对听力测试中使用的项目获得0.30千比特/秒的平均比特率,而当发送对于单个频谱带的信息时,针对听力测试中使用的项目获得0.65比特/秒的平均比特率。
已经进行了非正式听力实验。听力测试评估通过采用实施例的上述概念而可以获得的质量增益。特别地,听力测试表明,针对使用波形和参数化编码器以约14kbps立体声进行编码的项目获得了音频质量的明显改善。此外,对于使用纯波形编码器以32kbps单声道进行编码的项目,在应用了所提出的算法时也显示出改善。在这两种情况下,质量改善都是由于去除了粗糙度伪音。
为了调查所提出的方法是否确实提供了音频质量的增益,进行了MUSHRA列表测试。在聆听中使用了两个不同的项目集,第一集合是以立体声(stereo)进行编码的项目,第二集合是以单声道(mono)进行编码的项目。大多数立体声项目使用实验波形编码器(waveform)进行了编码,该实验波形编码器独立地对左耳信号和右耳信号进行编码,每个信号的比特率为32千比特/秒。
此外,使用基于IGF的方法对一个项目进行了编码。使用基于IGF的方法对第二项目集全部进行了编码。在表1中,给出了这些项目的总结。
表1:听力测试中使用的项目。
在该算法内,存在包括中-侧编解码(默认)的选项,但也可以独立地对左耳信号和右耳信号进行编码。因此,在第一项目集中,两个选项都包括在MUSHRA测试中。此外,可以针对每对听觉频谱带(默认)或独立地针对每个听觉频谱带发送辅助信息。第二项目集中包括了这两个选项。表2中列出了所有测量条件。
表2:听力测试中使用的条件。
隐藏参考(Hidden Reference)是原始音频信号,锚(Anchor)是原始信号的3.5kHz低通滤波版本,未处理解码(Unprocessed Decoded)信号表示没有粗糙度去除的信号,RR表示应用了粗糙度去除算法的各种条件,具有中-侧处理、或独立的左右处理、或针对辅助信息的每个比特使用2个频谱带或单个频谱带。
总共N个受试者参加了听力测试。使用高质量耳机,在家庭办公室中使用Web-MUSHRA工具执行听力测试。
结果如图12和图13所示。
具体地,图12示出了使用Web-MUSHRA工具进行的听力测试的由立体声信号组成的第一项目集的结果。
图13示出了使用Web-MUSHRA工具进行的听力测试的由单声道信号组成的第二项目集的结果。
在下文中,描述了另外的实施例。
根据实施例,提供了一种例如基于与邻近分量的频谱接近度来识别并去除或衰减(经解码的)音频信号中的音调分量的(例如,后处理)装置/方法。
在实施例中,提供了一种去除或衰减由在比特流中发送的信息(部分地)引导的解码信号中的音调分量的(例如,后处理)装置/方法。
根据实施例,提供了一种使用来自比特流的粗略t/f分辨率信息和在解码器侧导出的更精细频谱分辨率信息的(例如,后处理)装置/方法。
在实施例中,例如,可以采用例如使用比在音频解码器中使用的帧长度长的帧长度的逐时间块处理。
根据实施例,例如,可以采用例如时间平滑或时间衰减。
在实施例中,例如,可以在后处理中例如采用瞬态引导切换窗口或跳过具有瞬态的块。
根据实施例,例如,可以采用例如使用中-侧同步或编解码的立体声信号。
在实施例中,例如,可以在编码器侧基于听觉模型采用例如时间调制处理来确定比特流中的信息。
根据实施例,例如,可以采用例如由针对其去除或衰减音调分量的比特流选择区域驱动的附加选择滤波器。
在实施例中,例如,可以采用例如在频谱域中具有平滑过渡的选择滤波器。
根据实施例,例如,滤波器也可以例如经历时间平滑。
尽管已经在装置的上下文中描述了一些方面,但清楚的是,这些方面也表示对应方法的描述,其中,块或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的各方面也表示对应装置的对应块或项或特征的描述。可以由(或使用)硬件装置(诸如,微处理器、可编程计算机或电子电路)来执行一些或全部方法步骤。在一些实施例中,可以由这种装置来执行最重要方法步骤中的一个或多个方法步骤。
根据某些实现要求,本发明的实施例可以用硬件或软件实现,或者至少部分用硬件实现,或至少部分用软件实现。可以使用其上存储有电子可读控制信号的数字存储介质(例如,软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行实现,该电子可读控制信号与可编程计算机系统协作(或者能够与之协作)从而执行相应方法。因此,数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,该电子可读控制信号能够与可编程计算机系统协作,使得执行本文所描述的方法之一。
通常,本发明的实施例可以实现为具有程序代码的计算机程序产品,该程序代码可操作用于当该计算机程序产品在计算机上运行时执行方法之一。该程序代码可以例如存储在机器可读载体上。
其他实施例包括存储在机器可读载体上的计算机程序,该计算机程序用于执行本文所描述的方法之一。
换言之,本发明方法的实施例因此是具有程序代码的计算机程序,该程序代码用于当该计算机程序在计算机上运行时执行本文所描述的方法之一。
因此,本发明方法的另一实施例是其上记录有计算机程序的数据载体(或数字存储介质或计算机可读介质),该计算机程序用于执行本文所描述的方法之一。数据载体、数字存储介质或记录介质通常是有形的和/或非暂时性的。
因此,本发明方法的另一实施例是表示计算机程序的数据流或信号序列,该计算机程序用于执行本文所描述的方法之一。数据流或信号序列可以例如被配置为经由数据通信连接(例如,经由互联网)被传送。
另一实施例包括处理装置,例如,计算机或可编程逻辑器件,该处理装置被配置为或适于执行本文所描述的方法之一。
另一实施例包括其上安装有计算机程序的计算机,该计算机程序用于执行本文所描述的方法之一。
根据本发明的另一实施例包括被配置为向接收机(例如以电子方式或以光学方式)传送计算机程序的装置或系统,该计算机程序用于执行本文所描述的方法之一。接收机可以是例如计算机、移动设备、存储设备等。该装置或系统可以例如包括用于向接收机传送计算机程序的文件服务器。
在一些实施例中,可编程逻辑器件(例如,现场可编程门阵列)可以用于执行本文所描述的方法的功能中的一些或全部。在一些实施例中,现场可编程门阵列可以与微处理器协作以执行本文所描述的方法之一。通常,这些方法优选地由任何硬件装置执行。
本文描述的装置可以使用硬件装置、或者使用计算机、或者使用硬件装置和计算机的组合来实现。
本文描述的方法可以使用硬件装置、或者使用计算机、或者使用硬件装置和计算机的组合来执行。
上述实施例对于本发明的原理仅是说明性的。应当理解,对本文所描述的布置和细节的修改和变形将对于本领域其他技术人员而言是显而易见的。因此,旨在仅由所附专利权利要求书的范围来限制而不是由借助对本文的实施例的描述和解释所给出的具体细节来限制。
参考文献
[1]Dietz,M.,Liljeryd,L.,Kjorling,K.,and Kunz,O.,“Spectral BandReplication,a Novel Approach in Audio Coding,”in Audio Engineering SocietyConvention 112,2002.
[2]Disch,S.,Niedermeier,A.,Helmrich,C.R.,Neukam,C.,Schmidt,K.,Geiger,R.,Lecomte,J.,Ghido,F.,Nagel,F.,and Edler,B.,“Intelligent Gap Filling inPerceptual Transform Coding of Audio,”in Audio Engineering Society Convention141,2016.
[3]Dau,T.,Kollmeier,B.,and Kohlrausch,A.,“Modelling auditoryprocessing of amplitude modulation.I.Detection and masking with narrow-bandcarriers,”J.Acoust.Soc.Am.,102,pp.2892–2905,1997.
[4]van de Par,S.,Disch,S.,Niedermeier,A.,Burdiel Pérez,E.,and Edler,B.,“Temporal Envelope-Based Psychoacoustic Modelling for Evaluating Non-Waveform Preserving Audio Codecs,”in Audio Engineering Society Convention147,2019.
[5]Disch,S.,van de Par,S.,Niedermeier,A.,Burdiel Pérez,E.,BerasateguiCeberio,A.,and Edler,B.,“Improved Psychoacoustic Model for EfficientPerceptual Audio Codecs,”in Audio Engineering Society Convention 145,2018.

Claims (40)

1.一种用于处理音频输入信号以获得音频输出信号的装置(100),其中,所述装置(100)包括:
信号分析器(110),被配置用于确定关于所述音频输入信号的一个或多个频谱带的听觉粗糙度的信息;以及
信号处理器(120),被配置用于根据关于所述一个或多个频谱带的听觉粗糙度的信息来处理所述音频输入信号。
2.根据权利要求1所述的装置(100),
其中,所述音频输入信号的所述一个或多个频谱带的听觉粗糙度取决于通过对原始音频信号进行编码以获得编码音频信号而引入的编解码误差和/或通过对所述编码音频信号进行解码以获得所述音频输入信号而引入的编解码误差。
3.根据权利要求1或2所述的装置(100),
其中,所述信号分析器(110)被配置为确定所述一个或多个频谱带中的多个音调分量,并且
其中,所述信号分析器(110)被配置为根据所述多个音调分量中的每一个与所述多个音调分量中的另一个的频谱接近度而从所述多个音调分量中选择一个或多个音调分量,并且
其中,所述信号处理器(120)被配置为去除和/或衰减和/或修改所述一个或多个音调分量。
4.根据权利要求3所述的装置(100),
其中,所述信号分析器(110)被配置为接收包括引导信息的比特流,并且
其中,所述信号分析器(110)被配置为进一步根据所述引导信息而从一组音调分量中选择所述一个或多个音调分量。
5.根据权利要求4所述的装置(100),
其中,所述引导信息在第一时频域中或在第一频域中被表示,其中,所述引导信息具有第一频谱分辨率,
其中,所述信号分析器(110)被配置为确定第二时频域中的具有第二频谱分辨率的所述多个音调分量,所述第二频谱分辨率是与所述第一频谱分辨率不同的频谱分辨率。
6.根据权利要求3至5之一所述的装置(100),
其中,所述信号处理器(120)被配置为通过采用时间平滑或通过采用时间衰减来去除和/或衰减和/或修改所述一个或多个音调分量。
7.根据前述权利要求之一所述的装置(100),
其中,所述信号处理器(120)被配置为通过从所述音频输入信号的幅度频谱中去除或衰减一个或多个侧峰值来处理所述音频输入信号,其中,所述一个或多个侧峰值中的每个侧峰值是所述幅度频谱内的局部峰值,所述局部峰值位于距所述幅度频谱内的另一局部峰值的预定义频率距离内并且具有比所述另一局部峰值小的幅度。
8.根据前述权利要求之一所述的装置(100),
其中,所述信号分析器(110)被配置为确定所述音频输入信号的所述一个或多个频谱带的初始幅度频谱中的多个局部峰值以获得关于所述听觉粗糙度的信息。
9.根据权利要求8所述的装置(100),
其中,所述多个局部峰值是第一组多个局部峰值,
其中,所述信号分析器(110)被配置为对所述一个或多个频谱带的所述初始幅度频谱进行平滑以获得平滑幅度频谱,
其中,所述信号分析器(110)被配置为确定所述平滑幅度频谱中的第二组一个或多个局部峰值,
其中,所述信号分析器(110)被配置为将第三组一个或多个局部峰值确定为关于所述听觉粗糙度的信息,所述第三组一个或多个局部峰值包括所述第一组多个局部峰值中的在所述第二组局部峰值内不具有对应峰值的所有局部峰值,使得所述第三组一个或多个局部峰值不包括所述第二组一个或多个局部峰值中的任何局部峰值。
10.根据权利要求9所述的装置(100),
其中,所述信号分析器(110)被配置为针对所述第一组的所述多个峰值中的每个峰值确定所述第二组是否包括与所述峰值相关联的峰值,使得所述第二组的位于与所述峰值相同频率处的峰值与所述峰值相关联,使得所述第二组的位于距所述峰值的预定义频率距离之内的峰值与所述峰值相关联,并且使得所述第二组的位于距所述峰值的所述预定义频率距离之外的峰值不与所述峰值相关联。
11.根据权利要求9或10所述的装置(100),
其中,所述信号处理器(120)被配置为通过在所述一个或多个频谱带的所述初始幅度频谱中去除或衰减所述第三组的所述一个或多个局部峰值来处理所述音频输入信号,以获得所述音频输出信号的所述一个或多个频谱带的幅度频谱。
12.根据权利要求7或根据权利要求10或11所述的装置(100),
其中,为了去除或衰减所述一个或多个侧峰值或所述第三组的所述一个或多个局部峰值中的每一个,所述信号处理器(120)被配置为衰减所述峰值以及所述峰值的周围区域。
13.根据权利要求12所述的装置(100),
其中,所述信号处理器(120)被配置为确定所述峰值的周围区域,使得紧接在所述峰值之前的局部最小值和紧接在所述峰值之后的局部最小值限定所述周围区域。
14.根据前述权利要求之一所述的装置(100),
其中,所述音频输入信号的频谱包括多个频谱带,
其中,所述信号分析器(110)被配置为接收或确定所述多个频谱带中的所述一个或多个频谱带,其中针对所述一个或多个频谱带将确定关于所述听觉粗糙度的信息,
其中,所述信号分析器(110)被配置为确定关于所述音频输入信号的所述一个或多个频谱带的听觉粗糙度的信息,并且
其中,所述信号分析器(110)被配置为不确定关于所述音频输入信号的所述多个频谱带中的任何其他频谱带的听觉粗糙度的信息。
15.根据权利要求14所述的装置(100),
其中,所述信号分析器(110)被配置为从编码器侧接收关于针对其将确定关于所述听觉粗糙度的信息的所述一个或多个频谱带的信息。
16.根据权利要求1 4或15所述的装置(100),
其中,所述信号分析器(110)被配置为接收关于针对其将确定关于所述听觉粗糙度的信息的所述一个或多个频谱带的信息,作为二进制掩码或作为压缩的二进制掩码。
17.根据权利要求14至16之一所述的装置(100),
其中,所述装置(100)被配置为接收选择滤波器,
其中,所述信号分析器(110)被配置为根据所述选择滤波器来确定所述多个频谱带中的针对其将确定关于所述听觉粗糙度的信息的所述一个或多个频谱带。
18.根据权利要求14所述的装置(100),
其中,所述信号分析器(110)被配置为确定所述多个频谱带中的针对其将确定关于所述听觉粗糙度的信息的所述一个或多个频谱带。
19.根据权利要求18所述的装置(100),
其中,所述信号分析器(110)被配置为确定所述多个频谱带中的针对其将确定关于所述听觉粗糙度的信息的所述一个或多个频谱带,而无需所述信号分析器(110)接收辅助信息,所述辅助信息指示关于针对其将确定关于所述听觉粗糙度的信息的所述一个或多个频谱带的所述信息。
20.根据权利要求18和19所述的装置(100),
其中,所述信号分析器(110)被配置为通过采用人工智能概念来确定所述多个频谱带中的针对其将确定关于所述听觉粗糙度的信息的所述一个或多个频谱带。
21.根据权利要求20所述的装置(100),
其中,所述信号分析器(110)被配置为通过采用神经网络作为由所述信号分析器(110)采用的所述人工智能概念来确定所述多个频谱带中的针对其将确定关于所述听觉粗糙度的信息的所述一个或多个频谱带。
22.根据权利要求21所述的装置(100),
其中,所述神经网络是卷积神经网络。
23.根据权利要求14至22之一所述的装置(100),
其中,所述信号分析器(110)被配置为不使用关于所述多个频谱带中的包括一个或多个瞬态的那些频谱带的听觉粗糙度的信息。
24.一种用于从编码音频信号生成音频输出信号的装置(200),其中,所述装置(200)包括:
音频解码器(210),被配置用于对所述编码音频信号进行解码以获得解码音频信号;以及
根据前述权利要求之一所述的用于处理的装置(100),
其中,所述音频解码器(210)被配置为将所述解码音频信号作为所述音频输入信号馈送到根据前述权利要求之一所述的用于处理的装置(100)中,
其中,根据前述权利要求之一所述的用于处理的装置(100)被配置为处理所述解码音频信号以获得所述音频输出信号。
25.根据权利要求24所述的装置(200),
其中,所述音频解码器(210)被配置为使用具有第一帧长度的第一逐时间块处理来对所述编码音频信号进行解码,
其中,所述用于处理的装置(100)的所述信号分析器(110)被配置为使用具有第二帧长度的第二逐时间块处理来确定关于所述听觉粗糙度的信息,其中,所述第二帧长度长于所述第一帧长度。
26.根据权利要求24或25所述的装置(200),
其中,所述音频解码器(210)被配置为对所述编码音频信号进行解码以获得所述解码音频信号,所述解码音频信号是包括中声道和侧声道的中i侧信号,
其中,所述用于处理的装置(100)被配置为处理所述中-侧信号以获得所述用于处理的装置(100)的所述音频输出信号,并且
其中,用于生成的装置(200)还包括变换模块,所述变换模块对所述音频输出信号进行变换,使得在所述变换之后,所述音频输出信号包括立体声信号的左声道和右声道。
27.一种音频编码器(300),用于对初始音频信号进行编码以获得编码音频信号和辅助信息,其中,所述音频编码器(300)包括:
编码模块(310),用于对所述初始音频信号进行编码以获得所述编码音频信号;以及
辅助信息生成器(320),用于根据所述初始音频信号并进一步根据所述编码音频信号来生成并输出所述辅助信息,
其中,所述辅助信息包括指示,所述指示对多个频谱带中的一个或多个频谱带进行指示,其中针对所述一个或多个频谱带将在解码器侧确定关于听觉粗糙度的信息。
28.根据权利要求27所述的音频编码器(300),
其中,所述辅助信息生成器(320)被配置为根据感知分析模型或心理声学模型来生成附加信息。
29.根据权利要求28所述的音频编码器(300),
其中,所述辅助信息生成器(320)被配置为使用所述感知分析模型或所述心理声学模型来估计所述编码音频信号中的听觉粗糙度的感知变化。
30.根据权利要求27至29之一所述的音频编码器(300),
其中,所述辅助信息生成器(320)被配置为生成作为所述辅助信息的二进制掩码,所述二进制掩码指示所述多个频谱带中的展现出增加的粗糙度并且针对其将在解码器侧确定关于所述听觉粗糙度的信息的所述一个或多个频谱带。
31.根据权利要求30所述的音频编码器(300),
其中,所述辅助信息生成器(320)被配置为生成所述二进制掩码作为压缩的二进制掩码。
32.根据权利要求27至31之一所述的音频编码器(300),
其中,所述辅助信息生成器(320)被配置为通过采用时间调制处理来生成所述辅助信息。
33.根据权利要求27至32之一所述的音频编码器(300),
其中,所述辅助信息生成器(320)被配置为通过生成选择滤波器来生成所述辅助信息。
34.根据权利要求33所述的音频编码器(300),
其中,所述辅助信息生成器(320)被配置为通过采用时间平滑来生成所述选择滤波器。
35.根据权利要求27至34之一所述的音频编码器(300),
其中,所述辅助信息生成器(320)被配置为通过采用神经网络来生成所述辅助信息的指示,所述指示对所述多个频谱带中的针对其将在解码器侧确定关于听觉粗糙度的信息的所述一个或多个频谱带进行指示。
36.根据权利要求35所述的音频编码器(200),
其中,所述神经网络是卷积神经网络。
37.一种系统,包括:
根据权利要求27至36之一所述的音频编码器(300),用于对初始音频信号进行编码以获得编码音频信号和辅助信息;以及
根据权利要求24至26之一所述的装置(200),用于从编码音频信号生成音频输出信号,
其中,根据权利要求24至26之一所述的装置(200)被配置为根据编码音频信号并且根据所述辅助信息来生成所述音频输出信号。
38.一种用于处理音频输入信号以获得音频输出信号的方法,其中,所述方法包括:
确定关于所述音频输入信号的一个或多个频谱带的听觉粗糙度的信息;以及
根据关于所述一个或多个频谱带的听觉粗糙度的信息来处理所述音频输入信号。
39.一种用于对初始音频信号进行编码以获得编码音频信号和辅助信息的方法,其中,所述方法包括:
对所述初始音频信号进行编码以获得所述编码音频信号;以及
根据所述初始音频信号并进一步根据所述编码音频信号来生成并输出所述辅助信息,
其中,所述辅助信息包括指示,所述指示对多个频谱带中的一个或多个频谱带进行指示,其中针对所述一个或多个频谱带将在解码器侧确定关于听觉粗糙度的信息。
40.一种计算机程序,用于当在计算机或信号处理器上执行时实现根据权利要求38或39所述的方法。
CN202180099837.4A 2021-06-24 2021-09-20 用于去除不期望的听觉粗糙度的装置和方法 Pending CN117751405A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP21181590 2021-06-24
EP21181590.7 2021-06-24
PCT/EP2021/075816 WO2022268347A1 (en) 2021-06-24 2021-09-20 Apparatus and method for removing undesired auditory roughness

Publications (1)

Publication Number Publication Date
CN117751405A true CN117751405A (zh) 2024-03-22

Family

ID=76601171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180099837.4A Pending CN117751405A (zh) 2021-06-24 2021-09-20 用于去除不期望的听觉粗糙度的装置和方法

Country Status (7)

Country Link
US (1) US20240194209A1 (zh)
EP (1) EP4360088A1 (zh)
KR (1) KR20240033691A (zh)
CN (1) CN117751405A (zh)
BR (1) BR112023026799A2 (zh)
CA (1) CA3223734A1 (zh)
WO (1) WO2022268347A1 (zh)

Also Published As

Publication number Publication date
WO2022268347A1 (en) 2022-12-29
BR112023026799A2 (pt) 2024-03-12
US20240194209A1 (en) 2024-06-13
EP4360088A1 (en) 2024-05-01
KR20240033691A (ko) 2024-03-12
CA3223734A1 (en) 2022-12-29

Similar Documents

Publication Publication Date Title
EP2207169B1 (en) Audio decoding with filling of spectral holes
KR101807836B1 (ko) 적응적 스펙트럼 타일 선택을 사용하는 오디오 신호의 디코딩 및 인코딩을 위한 장치 및 방법
US7991621B2 (en) Method and an apparatus for processing a signal
KR100949232B1 (ko) 인코딩 장치, 디코딩 장치 및 그 방법
JP5108960B2 (ja) オーディオ信号処理方法及び装置
KR101376762B1 (ko) 디코더 및 대응 디바이스에서 디지털 신호의 반향들의 안전한 구별과 감쇠를 위한 방법
JP6026678B2 (ja) 高度なスペクトラム拡張を使用して量子化ノイズを低減するための圧縮伸張装置および方法
US20050096917A1 (en) Methods for improving high frequency reconstruction
KR102299193B1 (ko) 상부 주파수 대역에서 검출된 피크 스펙트럼 영역을 고려하여 오디오 신호를 부호화하는 오디오 인코더, 오디오 신호를 부호화하는 방법, 및 컴퓨터 프로그램
AU2005280392A1 (en) Temporal envelope shaping for spatial audio coding using frequency domain wiener filtering
JP2020512598A (ja) トランジェント位置検出を使用したオーディオ信号の後処理のための装置
EP1514263B1 (en) Audio coding system using characteristics of a decoded signal to adapt synthesized spectral components
JP2009534713A (ja) 低減ビットレートを有するデジタル音声データを符号化するための装置および方法
EP1631954B1 (en) Audio coding
CN111587456B (zh) 时域噪声整形
RU2752520C1 (ru) Управление полосой частот в кодерах и/или декодерах
CN117751405A (zh) 用于去除不期望的听觉粗糙度的装置和方法
JP2020512597A (ja) 予測に基づく整形を使用したオーディオ信号の後処理のための装置および方法
Boland et al. A new hybrid LPC-DWT algorithm for high quality audio coding
Bayer Mixing perceptual coded audio streams

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination