CN112771610A - 用压扩对密集瞬态事件进行译码 - Google Patents

用压扩对密集瞬态事件进行译码 Download PDF

Info

Publication number
CN112771610A
CN112771610A CN201980062591.6A CN201980062591A CN112771610A CN 112771610 A CN112771610 A CN 112771610A CN 201980062591 A CN201980062591 A CN 201980062591A CN 112771610 A CN112771610 A CN 112771610A
Authority
CN
China
Prior art keywords
companding
audio signal
index
transient
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980062591.6A
Other languages
English (en)
Inventor
A·比斯瓦斯
H·蒙特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Publication of CN112771610A publication Critical patent/CN112771610A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/50Conversion to or from non-linear codes, e.g. companding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3059Digital compression and data reduction techniques where the original information is represented by a subset or similar information, e.g. lossy compression

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Nonlinear Science (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

实施例涉及用于降低音频编解码器中的译码噪声的压扩方法及系统。一种处理音频信号的方法包含以下操作。系统接收音频信号。所述系统确定所述音频信号的第一帧包含稀疏瞬态信号。所述系统确定所述音频信号的第二帧包含密集瞬态信号。所述系统使用压扩规则压缩/扩展(压扩)所述音频信号,所述压扩规则将第一压扩指数应用于所述音频信号的所述第一帧并且将第二压扩指数应用于所述音频信号的所述第二帧,每一压扩指数用于导出针对对应帧的相应动态范围压缩及扩展程度。所述系统接着将所述经压扩音频信号提供到下游装置。

Description

用压扩对密集瞬态事件进行译码
相关申请案的交叉参考
本申请案主张以下优先权申请案的优先权:在2018年8月21日申请的美国临时申请案62/720,447(参考:D18075USP1),所述申请案特此以引用的方式并入本文中。
技术领域
一或多个实施例大体上涉及音频信号处理,且更具体地说,涉及在数字音频编码期间以依赖于信号的方式最优地使用压缩/扩展(压扩)技术。
版权声明
此专利文献的揭示的一部分含有受版权保护的材料。版权所有者不反对任何人以传真方式复制专利文件或专利揭示内容(如在专利商标局专利文件或记录中所出现),但无论如何以其它方式保留所有版权。
背景技术
许多流行数字声音格式利用有损数据压缩技术,其丢弃一些数据以降低存储或数据速率要求。有损数据压缩的应用不仅降低源内容(例如音频内容)的保真度,而且还可能引入呈压缩伪影的形式的明显失真。在音频译码系统的上下文中,这些声音伪影被称为译码噪声或量化噪声。数字音频系统采用编解码器(编码器-解码器组件)根据定义音频文件格式或流媒体音频格式来压缩及解压缩音频数据。编解码器实施的算法试图用最少数目个位来表示音频信号,同时保留尽可能高的保真度。通常用于音频编解码器中的有损压缩技术作用于人类听觉感知的心理声学模型。音频格式通常涉及使用时域/频域变换(例如,经修改离散余弦变换-MDCT),并且使用掩蔽效应,例如频率掩蔽或时间掩蔽,使得某些声音,其包含任何明显量化噪声,被实际内容隐藏或掩蔽。
众所周知,音频编解码器通常在频域中对译码噪声进行整形,使得其变得在最低程度上可听见。在基于帧的编码器中,译码噪声在帧的低强度部分期间可在最大程度上可听见,并且可作为预回声失真被听到,其中高强度段之前的静默(或低电平信号)被解码音频信号中的噪声淹没。此效应在来自打击乐器的瞬态声音或脉冲中可能最为明显,例如响板或其它尖锐的打击声源,并且通常由在频域中引入的量化噪声在时域中遍布于编解码器的整个变换窗口内而引起。
尽管滤波器已用于最小化预回声伪影,但此类滤波器通常引入相位失真及时间拖尾。使用较小变换窗口也是一种方法,但这可显著降低频率分辨率,并且在帧中使用多个较小的变换窗口增加“边信息”位率。
已经开发一个系统以通过使用压扩技术来实现音频编解码器中量化噪声的时间噪声整形来克服预回声伪影的影响。此类实施例包含使用在QMF域中实施的压扩算法来结合掩蔽阈值计算策略实现量化噪声的时间整形。然而,猜测需要针对特定信号类型应用的压扩类型通常并不简单。一般来说,压扩在时域(时间)噪声整形中提供益处,但其通常也可在频域噪声整形中提供益处。然而,计算掩蔽阈值以及满足位率约束的阈值降低策略是高度非线性操作,并且很难预测频域噪声整形的最终结果。因为这个原因以及压扩的固有非线性操作,预测需要以依赖内容的方式应用的压扩类型是极其困难的。通过某些数据收集努力,已经发现压扩针对完全或主要由语音或掌声组成的音频内容是有利的。尽管可能设计出针对语音及掌声独立地起作用的检测器,但设计出特征为低复杂性并且没有任何延迟的能够检测语音及掌声两者的简单检测器并不容易。此外,目前的检测器并不总是100%准确。
因此,需要一种依赖于信号的压扩系统,其可基于输入信号内容自适应地应用压扩。进一步需要一种能够更好地区分语音/掌声及更多音调音频内容以将压扩适当地应用于复杂音频信号的检测器电路。
背景部分中论述的标的物不应仅仅因为在背景部分提及而被假定为现有技术。类似地,在背景部分中提及的问题或与背景部分的标的物相关联的问题不应假定为先前在现有技术中已经被认识到。背景部分中的标的物仅代表不同方法,其自身也可能是发明。
发明内容
实施例涉及一种通过以下操作来处理音频信号的方法:接收音频信号;使用两个定义阈值将音频信号分类为纯正弦、混合或纯瞬态信号中的一者;以及使用在正交调制滤波器(QMF)域中使用时间锐度度量的压扩规则将选择性压扩(压缩/扩展)操作应用于经分类混合信号。选择性压扩操作包括以下中的一者:压扩关闭模式、压扩开启模式及平均压扩模式。平均压扩模式是通过测量音频信号的多个帧中的每一帧的增益因子并将恒定增益因子应用于每一帧而导出,其中与针对压扩关闭模式的邻近帧的1.0的增益因子相比,增益因子更接近针对压扩开启模式的邻近帧的增益因子。所述方法可进一步包括通过对一个帧中的多个时隙上的平均绝对能级求平均值来计算增益因子。针对经分类混合信号,选择性压扩操作包括以下中的一者:压扩开启模式及平均压扩模式中的一者。
在实施例中,所述方法进一步包括针对经分类纯正弦信号关闭压扩,以及针对经分类纯瞬态信号开启压扩。经分类混合信号可包含掌声或语音内容。压扩规则可进一步使用正交调制滤波器(QMF)域中的频谱锐度度量。在实施例中,所述方法进一步包括产生对选择性压扩操作进行编码的控制信息,以及在位流中传输控制信息,所述位流与从音频编码器输出的数字音频一起传输到音频解码器。经分类混合信号至少包括部分正弦及部分瞬态信号的组合,并且进一步处理以区分部分正弦及部分瞬态信号,以基于混合信号的主要分量应用选择性压扩操作,以便于提供在压缩中应用的增益的连续性并减少由切换伪影引起的音频失真。压扩规则使用具有时间锐度的频带的数目大于第一阈值数目的第一度量,以及基于时间锐度值的平均值小于第一阈值数目的第二度量。
实施例进一步涉及一种系统,其包括:编码器,所述编码器应用压缩以通过宽带增益值修改正交调制滤波器(QMF)时隙,其中增益值较大导致相对低强度的时隙的放大,或较小导致相对高强度的时隙的衰减;接口,所述接口用于将从编码器输出的音频传输到解码器,所述解码器经配置以在压扩操作中应用扩展以反转压缩;及压扩控制器,所述压扩控制器具有经配置以接收输入音频信号并基于信号特性对输入音频信号进行分类的检测器;及开关,所述开关经配置以基于经分类输入音频信号在多个压扩模式当中切换。
实施例还进一步涉及一种音频解码器,其包括:第一接口,所述第一接口从编码器接收经编码压缩音频信号,所述编码器应用压缩以通过宽带增益值修改正交调制滤波器(QMF)时隙,其中增益值较大导致相对低强度的时隙的放大或较小导致相对高强度的时隙的衰减;扩展器组件,所述扩展器组件应用扩展以在压扩操作中反转压缩;及第二接口,所述第二接口从基于信号特性对输入音频信号进行分类的控制器接收对压扩控制模式进行编码的位流,并基于经分类输入音频信号在多个压扩模式当中切换。
另一实施例涉及方法、系统、装置及存储经配置以处理音频信号的指令的非暂时性计算机可读媒体。在一个实施例中,接收音频。针对音频信号的时间段(例如,帧),分析音频信号的时间段以确定音频信号的时间段是包含稀疏瞬态信号还是密集瞬态信号。基于确定的结果对音频信号的时间段进行压扩(动态范围压缩或扩展)。输出音频信号的压扩时间段。其中,压缩音频信号的时间段包扩基于压缩指数压缩或扩展音频信号的时间段的动态范围。如果确定音频信号的时间段包含稀疏瞬态信号(例如,包含第一瞬态类型的信号),那么在压扩中使用第一压扩指数。如果确定音频信号的时间段包含密集瞬态信号(例如,包含第二瞬态类型的信号),那么在压扩中使用与第一压扩指数不同的第二压扩指数。
根据另一实施例,一种系统接收音频信号。所述系统确定音频信号的第一帧包含稀疏瞬态信号(例如,第一瞬态类型的信号)。所述系统确定音频信号的第二帧包含密集瞬态信号(例如,第二瞬态类型的信号)。所述系统使用将第一压扩指数应用于音频信号的第一帧并且将第二压扩指数应用于音频信号的第二帧的压扩规则将压缩/扩展(压扩)操作应用于音频信号。每一压扩指数用于导出针对对应帧的相应动态范围压缩程度。所述系统接着将经压扩音频信号以及相应压扩指数提供到下游装置用于消耗。
可实施此说明书中揭示的技术以实现优于常规音频处理技术的一或多个优点。举例来说,常规上,压扩工具的焦点是改进低位率下的语音质量。因此,在用语音调谐后,使用压扩工具中的固定压扩指数α=0.65,并对其进行标准化。压扩指数α=0.65似乎也改进掌声。此说明书中揭示的技术通过改进“难以译码”密集瞬态信号(例如,掌声、火噼啪声或雨)来改进常规技术。通过基于内容的瞬态类型针对压扩指数选择不同值,所揭示技术可针对所述密集瞬态信号产生质量更好的声音。
所揭示技术在音频编码中添加最小开销。如下面更详细描述,所揭示技术可通过在音频压缩编码方案(例如,数字音频压缩(AC-4)标准)中的压扩控制数据结构中仅添加一个位来改进瞬态类型内容的声音。因此,所揭示技术简单且高效。
实施例还进一步涉及制作及使用或部署电路及设计的方法,所述电路及设计体现或实施可用作编码器、解码器或组合编码器/解码器系统的部分的依赖信号的压扩系统。
以引用的方式并入
在此说明书中提及的每一技术规范、公开案、专利及/或专利申请案的全部内容以引用的方式并入本文中,其程度与每一个别公开案及/或专利申请案以引用的方式被具体及个别地指示并入的程度相同。
附图说明
在以下图式中,相似参考数字用于指代相似元件。尽管以下图式描绘各种实例,但一或多个实施方案不限于图中所描绘的实例。
图1说明在一些实施例下的用于减少在可与内容检测器一起使用的基于编解码器的音频处理系统中的量化噪声的压扩系统。
图2A说明在实施例下的划分为多个短时间段的音频信号。
图2B说明在实施例下的在短时间段中的每一者内应用宽带增益之后的图2A的音频信号。
图3A是说明在实施例下的压缩音频信号的方法的流程图。
图3B是说明在实施例下扩展音频信号的方法的流程图。
图4是说明在实施例下的用于压缩音频信号的系统的框图。
图5是说明在实施例下的用于扩展音频信号的系统的框图。
图6说明在实施例下的将音频信号划分为多个短时间段。
图7说明实例实施例中的用于和弦的帧的实例QMF时隙。
图8是说明在一些实施例下的使用信号自适应压扩器对音频内容进行分类的方法的流程图。
图9是说明在一些实施例下的使用频谱锐度从音调信号区分语音或掌声的方法的流程图。
图10说明基于内容选择压扩指数的实例技术。
图11是指示压扩指数的实例值及对应压扩状态的表。
图12是说明基于瞬态密度的压扩的第一实例过程的流程图。
图13是说明基于瞬态密度的压扩的第二实例过程的流程图。
图14是说明基于瞬态密度的压扩的第三实例过程的流程图。
具体实施方式
用于使用对压扩技术的某些改进来通过使用在QMF域中实施的压扩算法以实现量化噪声的时间整形来实现音频编解码器中的量化噪声的时间噪声整形的系统及方法。实施例包含针对音频内容内的信号内容(例如,语音及掌声)的检测器,并基于检测到的内容应用适当类型或数量的压扩,从而以依赖于信号的方式提供最优压扩。
本文所描述的一或多个实施例的方面可在音频系统中实施,所述音频系统处理音频信号以用于跨越包含执行软件指令的一或多个计算机或处理装置的网络传输。所描述实施例中的任一者可单独使用或以任何组合彼此一起使用。尽管各种实施例可能已受到可在说明书中的一或多个地方论述或提及的现有技术的各种缺陷激发,但实施例不一定解决这些缺陷中的任一者。换句话说,不同实施例可解决说明书中可能论述的不同缺陷。一些实施例可能仅部分地解决可在说明书中论述的一些缺陷或仅一个缺陷,并且一些实施例可不解决这些缺陷中的任一者。
图1说明在一些实施例下用于减少在可与内容检测器一起使用的基于编解码器的音频处理系统中的量化噪声的压扩系统。图1说明围绕包括编码器(或“核心编码器”)106及解码器(或“核心解码器”)112的音频编解码器构建的音频信号处理系统。编码器106将音频内容编码成数据流或信号以用于通过网络110传输,其中所述数据流或信号由解码器112解码以用于回放或进一步处理。在实施例中,编解码器的编码器106及解码器112实施有损压缩方法以降低数字音频数据的存储及/或数据速率要求,并且此编解码器可实施为MP3、Vorbis、杜比数字(AC-3或AC-4)、AAC或类似编解码器。编解码器的有损压缩方法产生译码噪声,其在由编解码器定义的帧的演化中通常在电平上是静止的。此译码噪声通常在帧的低强度部分期间最容易听到。系统100包含通过在编解码器的核心编码器106之前提供压缩前步骤组件104及对核心解码器112输出进行操作的扩展后步骤组件114来降低现有译码系统中的感知译码噪声的组件。压缩组件104经配置以使用定义窗口形状将原始音频输入信号102划分为多个时间段,使用初始音频信号的频域样本的基于非能量的平均值来计算及应用频域中的宽带增益,其中应用于每一时间段的增益值放大相对低强度的段,并衰减相对高强度的段。此增益修改具有压缩或显著减小输入音频信号102的原始动态范围的效果。经压缩音频信号接着在编码器106中译码、通过网络110传输并在解码器112中解码。经解码压缩信号被输入到扩展组件114,其经配置以通过将逆增益值应用于每一时间段以将经压缩音频信号的动态范围扩展回原始输入音频信号102的动态范围来执行压缩前步骤104的逆操作。因此,音频输出信号116包括具有原始动态范围的音频信号,其中通过前及后步骤压扩过程去除译码噪声。
系统100在QMF域中执行压缩及扩展(压扩),以实现数字译码器(即音频或语音频谱前端)量化噪声的量化噪声的时间整形。编码器可为杜比数字AC-3或AC-4核心编码器,或任何其它类似系统。其执行某些预处理功能,其包括在核心编码器之前的压缩;以及后处理功能,其包括核心解码器输出的扩展,所述核心解码器输出准确地执行预处理的逆操作。所述系统包含期望解码器压扩级别的依赖信号的编码器控制及依赖信号的立体声(及多信道)压扩过程。如在图1中所展示,编码器106编码器,且压缩组件104包含检测压扩决策的状态的压扩检测器105。在编码器106中检测压扩开启/关闭/平均化决策,并将其传输到解码器112,使得能够在相同QMF时隙处开启/关闭/平均化压缩器及扩展器,其中下面更详细描述QMF时隙处理。
如在图1中进一步展示,压缩组件或压缩前步骤104经配置以减小输入到核心编码器106的音频信号102的动态范围。输入音频信号被划分成数个短段。每一短段的大小或长度是由核心编码器106使用的帧大小的一小部分。举例来说,核心译码器的典型帧大小可在40到80毫秒的数量级上。在此情况下,每一短段可能在1到3毫秒的数量级上。压缩组件104计算适当宽带增益值以基于每段来压缩输入音频信号。这通过用针对每一段的适当增益值修改信号的短段来实现。选择相对大增益值来放大相对低强度的段,并且选择小增益值来衰减高强度的段。
图2A说明在实施例下的划分为多个短时间段的音频信号,且图2B说明通过压缩组件应用宽带增益之后的相同音频信号。如在图2A中所展示,音频信号202表示瞬态(瞬态事件)或声音脉冲,例如可由打击乐器(例如,响板)产生。信号的特征是振幅中的尖峰,如在电压V与时间t的标绘图中所展示。一般来说,信号的振幅与声音的声能或强度相关,并表示在任何时间点的声音的功率的度量。当通过基于帧的音频编解码器处理音频信号202时,在变换(例如,MDCT)帧204内处理信号的部分。典型当前数字音频系统利用相对长持续时间的帧,使得对于尖锐瞬态或短脉冲声音,单个帧可包含低强度以及高强度的声音。因此,如在图2中所展示,单个MDCT帧204包含音频信号的脉冲部分(尖峰)以及在尖峰之前及之后的相对大量的低强度信号。在实施例中,压缩组件104将信号划分为数个短时间段206,并对每一段应用宽带增益以便压缩信号202的动态范围。每一短段的数目及大小可基于应用需求及系统约束来选择。相对于个别MDCT帧的大小,短段的数目的范围可从12段到64段,并且通常可包括32段,但实施例并不如此受限制。
图2B说明在实施例下的在短时间段中的每一者内应用宽带增益之后的图2A的音频信号。如在图2B中所展示,音频信号212具有与原始信号202相同的相对形状,然而,已通过应用放大增益值增大低强度段的振幅,并且已通过应用衰减增益值降低高强度段的振幅。
核心解码器112的输出是具有减小的动态范围(例如,信号212)加上由核心编码器106引入的量化噪声的输入音频信号。此量化噪声的特征是跨越每一帧内的时间的几乎均匀的电平。扩展组件114作用于经解码信号以恢复原始信号的动态范围。其基于短段大小206使用相同短时间分辨率,并且反转在压缩组件104中应用的增益。因此,扩展组件114对原始信号中具有低强度且已由压缩器放大的段应用小增益(衰减),并且对原始信号中具有高强度且已由压缩器衰减的段应用大增益(放大)。因此,由核心编码器添加的具有统一时间包络的量化噪声由后处理器增益同时整形,以大致跟随原始信号的时间包络。此处理有效地使得量化噪声在安静通过期间较不可听。尽管噪声可在高强度的通过期间被放大,但由于音频内容自身的响亮信号的掩蔽效应,噪声仍然较不可听。
如在图2A中所展示,压扩过程用相应增益值个别地修改音频信号的离散段。在某些情况下,这可导致压缩分量的输出处的不连续性,其可导致核心编码器106中的问题。同样地,在扩展组件114处的增益的不连续性可导致整形噪声的包络中的不连续性,这可导致音频输出116中可听见的咔哒声。与将个别增益值应用于音频信号的短段相关的另一问题是基于这样一个事实,即典型音频信号是许多个别源的混合物。这些源中的一些可能跨越时间是静止的,并且一些可能是瞬态的。静止信号的统计参数随着时间的推移通常是恒定的,而瞬态信号通常不是恒定的。考虑到瞬态的宽频性质,其在此混合物中的指纹通常在更高频率下更可见。基于信号的短期能量(RMS)的增益计算倾向于偏向较强的低频,并因此由静止源支配,并且跨越时间变化很小。因此,此基于能量的方法在整形由核心编码器引入的噪声时通常是无效的。
在实施例中,系统100用短原型滤波器在滤波器组中的压缩及扩展分量处计算并应用增益,以便解决与应用个别增益值相关联的潜在问题。首先由滤波器组分析待修改的信号(在压缩组件104处的原始信号及扩展组件114中的核心解码器112的输出),并且直接在频域中应用宽带增益。时域中的对应效果是根据原型滤波器的形状自然地平滑增益应用。这解决上文描述的不连续性的问题。接着,经由对应合成滤波器组将经修改频域信号转换回时域。用滤波器组分析信号提供对其频谱内容的存取,并允许计算由于高频而优先增加贡献的增益(或由于任何较弱的频谱内容而增加贡献),提供不受信号中最强分量支配的增益值。这解决与包括不同源的混合物的音频源相关联的问题,如上文描述。在实施例中,系统使用频谱量值的p-范数来计算增益,其中p通常小于2(p<2)。与基于能量(p=2)时相比,这使得更强调弱频谱内容。
如上文陈述,所述系统包含用以平滑增益应用的原型滤波器。一般来说,原型滤波器是滤波器组中的基本窗口形状,其通过正弦波形进行调制以得到针对滤波器组中不同子带滤波器的脉冲响应。例如,短时傅里叶变换(STFT)是滤波器组,并且此变换的每一频率线是滤波器组的子带。短时傅里叶变换通过将信号与窗口形状(N采样窗口)相乘来实施,所述窗口形状可为矩形、Hann、Kaiser-Bessel导出(KBD)或一些其它形状。接着,对窗口化信号进行离散傅里叶变换(DFT)运算以获得STFT。在此情况下的窗口形状是原型滤波器。DFT由各自具有不同频率的正弦基函数组成。乘以正弦函数窗口形状接着提供针对对应于所述频率的子带的滤波器。因为窗口形状在所有频率下都是相同的,所以其被称为“原型”。
在实施例中,系统将QMF(正交调制滤波器)组用于滤波器组。在特定实施方案中,QMF组可具有64-pt窗口,其形成原型。由余弦及正弦函数(对应于64个等间隔频率)调制的此窗口形成针对QMF组的子带滤波器。在每次应用QMF函数之后,窗口被移动64个样本,即,在此情况下,时间段之间的重叠是640–64=576个样本。然而,尽管窗口形状在此情况下横跨十个时间段(640=10*64),但窗口的主瓣(其中其样本值非常重要)大约为128个样本长。因此,窗口的有效长度仍然相对短。
在实施例中,扩展组件114理想地反转由压缩组件104应用的增益。尽管可能通过位流将由压缩组件应用的增益传输到解码器,但此方法通常将消耗显著位率。在实施例中,系统100代替地直接从可用于扩展组件114的信号(即解码器112的输出)估计扩展组件114所需的增益,其实际上不需要额外位。将压缩及扩展组件处的滤波器组选择为等同,以便计算彼此互逆的增益。另外,这些滤波器组是时间同步的,使得压缩组件104的输出与到扩展组件114的输入之间的任何有效延迟是滤波器组的步幅的倍数。如果核心编码器-解码器是无损的,并且滤波器组提供完美重构,那么压缩及扩展组件处的增益将是彼此的精确逆,因此允许对原始信号的精确重构。然而,在实践中,由扩展组件114应用的增益仅为由压缩组件104应用的增益的逆的近似值。
在实施例中,压缩及扩展组件中使用的滤波器组是QMF组。在典型使用应用中,核心音频帧可为4096个样本长,与相邻帧的重叠为2048。在48kHz下,此帧将为85.3毫秒长。相比之下,所使用的QMF组可具有64个样本的步幅(其为1.3毫秒长),这提供针对增益的良好时间分辨率。此外,QMF具有640个样本长的平滑原型滤波器,从而确保增益应用跨越时间平滑变化。用此QMF滤波器组进行分析可提供信号的时频平铺表示。每一QMF时隙等于一个步幅,并且在每一QMF时隙中有64个均匀间隔子带。替代地,可采用其它滤波器组,例如短时傅里叶变换(STFT),并且仍然可获得此时频平铺表示。
在实施例中,压缩组件104执行缩放编解码器输入的预处理步骤。针对此实施例,St(k)是时隙t及频率槽k处的复数值滤波器组样本。图6说明在实施例下将音频信号划分为针对一系列频率的数个时隙。针对图600的实施例,存在64个频率槽k及32个时隙t,其产生如所展示的多个时频分片(尽管不一定按比例绘制)。压缩前步骤将编解码器输入缩放为变成S’t(k)=St(k)/gt。在此等式中,
Figure BDA0002990022060000091
is是归一化时隙平均值。
在以上等式中,表达式
Figure BDA0002990022060000092
是平均绝对电平/1-范数,且S0是合适常数。在此上下文中通用p-范数定义如下:
Figure BDA0002990022060000093
已展示1-范数可给出比使用能量(RMS/2-范数)好得多的结果。指数项γ的值通常在0及1之间的范围中,并且可选择为1/3。常数S0确保独立于实施平台的合理增益值。例如,当在所有St(k)值的绝对值可能被限制为1的平台中实施时,其可为1。在St(k)可能具有不同最大绝对值的平台中,其可能是不同的。其还可用以确保跨越大量信号的平均增益值接近1。也就是说,其可为从大量内容确定的最大信号值与最小信号值之间的中间信号值。
在由扩展组件114执行的后步骤过程中,通过由压缩组件104应用的逆增益来扩展编解码器输出。这需要压缩组件的滤波器组的精确或接近精确的副本。在此情况中,
Figure BDA0002990022060000101
表示此第二滤波器组的复数值样本。扩展组件114将编解码器输出缩放为变成
Figure BDA0002990022060000102
Figure BDA0002990022060000103
在以上等式中,
Figure BDA0002990022060000104
是归一化时隙平均值,给出为:
Figure BDA0002990022060000105
Figure BDA0002990022060000106
一般来说,扩展组件114将使用与压缩组件104中使用的相同的p-范数。因此,如果平均绝对电平用于在压缩分量104中定义
Figure BDA0002990022060000107
那么
Figure BDA0002990022060000108
也使用上文等式中的1-范数(p=1)来定义。
当在压缩及扩展分量中使用例如STFT或复数QMF的复数滤波器组(由余弦及正弦基函数组成)时,量值或复数子带样本的
Figure BDA0002990022060000109
Figure BDA00029900220600001010
的计算需要计算密集的平方根运算。这可通过以各种方式近似复数子带样本的量值来避免,例如,通过将其实部及虚部的量值相加。
在以上等式中,值K等于或小于滤波器组中的子带的数目。一般来说,p-范数可使用滤波器组中的子带的任何子集来计算。然而,应在编码器106及解码器112两者处采用相同子集。在实施例中,可用高级频谱延伸(A-SPX)工具对音频信号的高频部分(例如,6kHz以上的音频分量)进行译码。另外,可能希望仅使用高于1kHz(或类似频率)的信号来引导噪声整形。在此情况下,只有范围1kHz到6kHz中的那些子带可用于计算p-范数,且因此计算增益值。此外,尽管增益是从子带的一个子集计算的,但其仍然可应用于不同的且可能更大的子带的子集。
如在图1中所展示,在两个单独组件104及114执行某些前编码器压缩功能及后解码器扩展功能时,执行用以整形由音频编解码器的核心编码器106引入的量化噪声的压扩功能。图3A是说明在实施例下的在预编码器压缩组件中压缩音频信号的方法的流程图,且图3B是说明在实施例下的在后解码器扩展组件中扩展音频信号的方法的流程图。
如在图3A中所展示,过程300从压缩组件接收输入音频信号开始(302)。此组件接着将音频信号划分为短时间段(304),并通过将宽带增益值应用于短段中的每一者来将音频信号压缩到减小的动态范围(306)。压缩组件还实施某些原型滤波及QMF滤波器组组件,以减少或消除通过将不同增益值应用于邻近段而引起的任何不连续性,如上文所描述(308)。在某些情况下,例如基于音频内容的类型或音频内容的某些特性,在音频编解码器的编码/解码级之前及之后的音频信号的压缩及扩展可能降级而不是增强输出音频质量。在此类例子中,可关闭或修改压扩过程以返回不同压扩(压缩/扩展)级别。因此,除其它变量外,压缩组件确定针对特定信号输入及音频回放环境所需的压扩函数的适当性及/或压扩的最优级别(310)。此确定步骤310可发生在过程300的任何实际点处,例如在音频信号304的划分或音频信号306的压缩之前。如果压扩被认为是适当的,那么应用增益(306),并且编码器接着根据编解码器的数据格式对信号进行编码以用于传输到解码器(312)。某些压扩控制数据,例如激活数据、同步数据、压扩级别数据及其它类似控制数据可作为位流的部分进行传输以用于由扩展组件处理。
图3B是说明在实施例下的在后解码器扩展组件中扩展音频信号的方法的流程图。如在过程350中所展示,编解码器的解码器级从编码器级接收对音频信号进行编码的位流(352)。解码器接着根据编解码器数据格式对经编码信号进行解码(353)。扩展组件接着处理位流并应用任何经编码控制数据以基于控制数据来关闭扩展或修改扩展参数(354)。扩展组件使用合适窗口形状将音频信号划分为时间段(356)。在实施例中,时间段对应于由压缩组件使用的相同时间段。扩展组件接着计算针对频域中每一段的适当增益值(358),并将增益值应用于每一时间段以将音频信号的动态范围扩展回原始动态范围或任何其它适当动态范围(360)。
压扩控制
包括系统100的压扩器的压缩及扩展组件可经配置以仅在音频信号处理期间的某些时间应用前处理及后处理步骤,或仅针对某些类型的音频内容应用前处理及后处理步骤。举例来说,压扩可表现出针对语音(其由伪静止系列的类脉冲事件组成)及音乐瞬态信号的益处。然而,针对其它信号,例如静止信号,压扩可降级信号质量。因此,如在图3A中所展示,提供压扩控制机制作为块310,并且控制数据从压缩组件104传输到扩展组件114以协调压扩操作。此控制机制的最简单形式是关闭针对音频样本的块的压扩功能,其中应用压扩正降级音频质量。在实施例中,在编码器中检测压扩开启/关闭决策,并将其作为位流元素传输到解码器,使得能够在同一QMF时隙开启/关闭压缩器及扩展器。
两种状态之间的切换通常将导致应用增益的不连续性,从而导致可听切换伪影或咔哒声。实施例包含减少或消除这些伪影的机制。在第一实施例中,系统允许仅在增益接近1的帧处关闭及开启压扩功能。在此情况下,在开启/关闭压扩功能之间仅存在小不连续性。在第二实施例中,在开启及关闭模式之间的第三弱压扩模式被应用于开启及关闭帧之间的音频帧中,并且在位流中用信号报告。弱压扩模式缓慢地将指数项γ从压扩期间的其默认值转变为0,这相当于没有压扩。作为中间弱压扩模式的替代方案,系统可实施开始帧及停止帧,其在音频样本的块上平滑地淡入不压扩模式,而不是突然关闭压扩功能。在另一实施例中,系统经配置以不简单地关闭压扩,而是应用平均增益。在某些情况下,如果将比压扩关闭情况下的恒定增益因子1.0更类似于邻近压扩开启帧的增益因子的恒定增益因子应用于音频帧,那么可增加音调静止信号的音频质量。此恒定平均压扩增益因子可通过求平均一个帧上每时隙计算的所有平均绝对级别/1-范数的平均值来计算。因此,含有恒定平均压扩增益的帧在位流中用信号报告。
尽管在单声道音频信道的上下文中描述实施例,但应注意,在简单延伸中,可通过在每一信道上个别地重复方法来处置多个信道。然而,包括两个或更多个信道的音频信号呈现由图1的压扩系统的实施例所解决的某些额外复杂性。压扩策略应依赖于信道之间的类似性。
举例来说,在立体摇摄瞬态信号的情况下,已经观察到个别信道的独立压扩可能导致可听立体图像伪影。在实施例中,系统从两个信道的子带样本确定针对每一时间段的单个增益值,并使用相同增益值来压缩/扩展两个信号。例如,当两个信道具有非常类似的信号时,此方法通常是合适的,其中类似性是使用互相关来定义。检测器计算信道之间的类似性,并在使用信道的个别压扩或联合压扩信道之间切换。延伸到更多的信道将使用类似性准则将信道划分为多个信道群组,并对所述群组应用联合压扩。接着,可通过位流传输此分组信息。
系统实施方案
图4是说明在实施例下的用于结合编解码器的编码器级来压缩音频信号的系统的框图。图4说明实施用于在图3A中所展示的基于编解码器的系统中的压缩方法的至少一部分的硬件电路或系统。如在系统400中所展示,时域中的输入音频信号401被输入到QMF滤波器组402。此滤波器组执行分析操作,其将输入信号分成多个分量,其中每一带通滤波器携载原始信号的频率子带。在由QMF滤波器组410执行的合成操作中执行信号的重构。在图4的实例实施例中,分析及合成滤波器组处置64个频带。核心编码器412从合成滤波器组410接收音频信号,并通过以适当数字格式(例如,MP3、AAC、AC-4等)对音频信号进行编码来产生频域中的位流414。
系统400包含压缩器406,其将增益值应用于音频信号被划分成的短段中的每一者。这产生经压缩动态范围音频信号,例如在图2B中所展示。压扩控制单元404基于信号的类型(例如,语音)或信号的特性(例如,静止与瞬态)或其它相关参数来分析音频信号以确定是否应应用压缩或应应用多少压缩。控制单元404可包含用以检测音频信号的时间尖峰特性的检测机制。基于音频信号的检测特性及某些预定义准则,控制单元404向压缩器406发送适当控制信号,以关闭压缩功能或修改应用于短段的增益值。
应注意,术语“尖峰”也可被称为“锐度”(例如,Tp或Ts),并且两者都是指相对于最近过去及未来时间的特定时间的信号的瞬态能量,使得尖峰或尖锐信号表现为能量中的脉冲或尖峰。
除压扩之外,许多其它译码工具也可在QMF域中操作。一个此工具是A-SPX,其在图4的框408中展示。A-SPX是一种技术,其用于允许用比更重要频率更粗糙的译码方案对感知上不太重要的频率进行译码。举例来说,在解码器端处的A-SPX中,来自较低频率的QMF子带样本可在较高频率下被复制,并且接着使用从编码器传输到解码器的边信息来整形高频带中的频谱包络。举例来说,由某些高级代码(例如AC-4)使用A-SPX,并且也可使用其它类似工具。
在其中在QMF域中执行压扩及A-SPX编码两者的系统中,在编码器处,可从尚未压缩的子带样本提取针对更高频率的包络数据,如在图4中所展示,并且压缩可仅应用于对应于由核心编码器412编码的信号的频率范围的较低频QMF样本。在图5的解码器502处,在经解码信号的QMF分析504之后,首先应用扩展过程506,并且A-SPX操作508随后在较低频率中从经扩展信号再现较高子带样本。
在此实例实施方案中,在编码器处的QMF合成滤波器组410及在解码器处的QMF分析滤波器组一起引入640–64+1样本延迟(~9QMF时隙)。在此实例中的核心编解码器延迟为3200个样本(50个QMF时隙),因此总延迟为59个时隙。通过将控制数据嵌入位流并在解码器处使用来考虑此延迟,使得编码器压缩器及解码器扩展器两者操作同步。
替代地,在编码器处,可对原始信号的整个带宽应用压缩。随后可从经压缩子带样本提取包络数据。在此情况下,解码器在QMF分析之后,首先运行工具来首先重构全带宽压缩信号。接着,应用扩展级来恢复具有其原始动态范围的信号。
可在QMF域中操作的又一工具可为图4中的参数立体声(PS)工具(未展示)。在参数立体声中,两个信道被编码为具有额外参数空间信息的单声道下混,所述信息可在解码器处应用在QMF域中以重构立体声输出。举例来说,另一此工具是高级耦合(A-CPL)工具集,其由某些高级代码(例如AC-4)使用。当参数立体声(或A-CPL)及压扩彼此结合使用时,参数立体声工具可被放置在编码器处的压缩级406之后,在此情况下,其将被应用在解码器处的扩展级506之前。替代地,可从未压缩立体声信号提取参数立体声边信息,在此情况下,参数立体声工具将在解码器处的扩展级506之后操作。
如在图3A及3B中所展示,在编解码器的编码器级及解码器级之间传输的位流包含某些控制数据。此控制数据构成允许系统在不同压扩模式之间切换的边信息。切换控制数据(用于切换压扩开启/关闭)加上一些潜在的中间状态可添加每信道1或2位的数量级。其它控制数据可包含信号以确定离散立体声或多信道配置的所有信道是否将使用共同压扩增益因子,或是否应针对每一信道而独立地对其进行计算。此数据可仅需要单个额外的位。取决于系统要求及约束,可使用其它类似控制数据元素及其适当位权重。
检测机制
在实施例中,压扩控制机制包含为压缩组件104的部分以提供对QMF域中的压扩的控制。压扩控制可基于数个因素来配置,例如音频信号类型。举例来说,在大多数应用中,应针对语音信号及瞬态信号或时间尖峰信号(例如掌声)的类别内的任何其它信号开启压扩。所述系统包含检测机构405以检测信号的尖峰以便帮助产生用于压扩器功能的适当控制信号。检测机制405可被认为是用于分析信号以例如确定信号是稀疏瞬态信号还是密集瞬态信号。在此意义上,信号的时间尖峰可用于导出信号中瞬态(瞬态事件)密度的度量。
在实施例中,归一化第4矩用于测量包络信号中的波动程度。在针对给定核心编解码器的频率槽k上计算针对时间尖峰TP(k)frame的度量,并使用以下公式进行计算:
Figure BDA0002990022060000141
类似地,可在时隙t上计算频谱尖峰度量。在以上等式中,St(k)是子带信号,且T是对应于一个核心编码器帧的QMF时隙的数目。在实例实施方案中,T的值可为32。每带计算的时间尖峰可用于将声音内容分为大体两类:静态音乐信号及音乐瞬态信号或语音信号。如果TP(k)frame的值小于定义值(例如,1.2),那么帧的所述子带中的信号很可能是静止音乐信号。如果TP(k)frame的值大于此值,那么所述信号很可能是音乐瞬态信号或语音信号。如果所述值大于甚至更高阈值(例如,1.6),那么所述信号很可能是纯音乐瞬态信号,例如,响板。此外,已经观察到,针对自然发生信号,在不同带中获得的时间尖峰的值或多或少类似,并且可采用此特性来减少待计算其时间尖峰的子带的数目。
应注意,由于尖峰(锐度)与平面度相反,因此任何基于平面度的度量可以类似的方式使用。针对如在AC-4中使用的复数值变换,使用St(k)的复数值的量值。以上时间锐度度量也可应用于实值变换。在以上表达式中,针对AC-4/A-SPX实施例,T是帧中QMF时隙的总数目,其最终值(取决于静止或瞬态内容)由A-SPX帧产生器确定。针对2048帧长度,针对静止内容,T是2048/64=32。因为AC-4支持各种帧长度(以支持视频帧同步音频译码);针对不同帧长度,T的值是不同的。如上文陈述,计算复数子带样本的量值需要计算密集的平方根运算,这可通过以各种方式近似复数子带样本的量值来避免,例如通过将其实部及虚部的量值相加。
参考图4,应注意,针对QMF矩阵,时隙的数目可基于A-SPX分析而改变,并且可随信号而改变,因此时间边界数据必须来自A-SPX分析组件。
压扩开关
在实施例中,上文描述的系统在核心编码器之前减小输入信号的动态范围。在此意义上,在核心编码之前的压扩可对应于输入信号的动态范围的压缩。系统通过用宽带增益值修改QMF时隙(在核心编码中或等效地在非A-SPX频率范围中)来如此做。针对相对低强度的时隙,增益值较大(即,放大),且针对高强度的时隙,增益值较小(即,衰减)。
一般来说,已发现压扩帮助处理例如掌声或语音的内容,或具有尖锐撞击(例如,打击效果)的信号,并且对其它类型的内容(例如音调音频)没有帮助。因此,信号自适应压扩取决于所检测到的信号来应用压扩。在实施例中,图1的编码器/解码器系统100执行信号自适应或依赖信号的压扩以实施压扩模式切换过程,其基于信号内容提供最优压扩量。如上文陈述,压扩提供时间噪声整形,并且已被观察到提供感知上有益的频域噪声整形(其中感知上有益的意味着量化噪声被更好地整形为(跟随并且)保持在掩蔽曲线之下)。然而,由于压扩是一种非线性操作,通常难以结合心理声学模型(也是一种非线性模型)预测其频域益处。不正确地应用压扩,例如通过次优切换策略,可导致切换伪影并增加系统复杂性及延迟。在某些实施例下的压扩切换过程确定压扩何时有帮助,以及如何最好地应用信号自适应压扩。
图4展示用于结合编解码器的编码器级压缩音频信号且包含压扩器切换组件或功能407的系统。开关407经配置以通过不简单地突然关闭压扩而是将比压扩关闭情况下的1.0的恒定增益因子更类似于邻近压扩开启帧的增益因子的恒定增益因子应用于音频帧来促进优化压扩选择。此增益因子是通过在一个帧内对时隙上的平均绝对电平求平均值来计算。采用平均压扩的帧在位流中用信号报告(例如,b_compand_avg)。在此上下文中的就平均值意指平均绝对电平的平均值。
在一个实施例中,开关407经配置以在三种压扩状态中的一者之间切换:无压扩(Compand_Off)、正常压扩(Compand_On)及平均压扩(Compand_Ave)。在某些实施例中,Compand_Off模式仅用于纯正弦信号,并且针对所有其它信号,系统在开启模式及平均模式之间切换。
针对正常压扩:如果St(k)是时隙t及频带k处的复数值滤波器组样本,那么预处理步骤将核心编解码器输入缩放为SCt(k)=St(k)gt,其中gt=(SMt)α-1并且是归一化时隙平均值(或增益);其中SMt是平均绝对电平(1-范数),由在k=1到K的范围内求和的SMt(k)=1/K∑|St(k)|给出;且α=0.65。此处,α可被称为压扩指数。在实施例中,压扩检测器经设计用于其量值在±64之间的复数值St(k)。如果复数值的范围不同,那么需要相应地缩放设计,因此其它实施例可视情况以不同值为特征。
针对平均压扩,在实例实施例中,图7说明用于和弦的帧的实例QMF时隙。图7的图700展示在适当乐器(例如,钢琴或吉他)上演奏的实例多音符和弦的音调/和声内容。如在图7中所展示,展示三种不同压扩设置的所得增益。companding_off轨迹702展示平坦增益,而压扩开启轨迹706展示增益中相对突然的不连续性。在后处理器(即,压扩解码器)处的此不连续性导致整形噪声的包络中的不连续性,其导致可被视为恼人的爆裂噪声的可听见咔哒声。压扩平均轨迹704展示采用平均压扩代替正常压扩(如上文刚刚描述)消除了可听见咔哒声。类似观察展示这也适用于其它音调/及和声内容(例如,大键琴或类似乐器)。换句话说,压扩对音调/和声内容有害,且针对音调/和声内容,压扩应被关闭或应采用平均压扩。
如果在编码器中应用压扩,那么核心解码器的输出是具有减小的动态范围的此信号,并且在每一帧内跨越时间添加几乎均匀电平(时间包络)的量化噪声。小增益(衰减)应用于原始信号中强度较低且已由前处理器放大的时隙,且大增益(放大)应用于原始信号中强度较高且已由前处理器衰减的时隙。因此,量化噪声由后处理器增益同时整形以大致跟随原始信号的时间包络。在编码器中应用平均压扩的情况下,还需要在解码器中应用平均压扩,即,对音频帧应用恒定增益因子。
在实施例中,每带计算的时间尖峰(或锐度)可用于将音频内容粗略地分类为如由两个阈值定义的以下类别:
(1)纯正弦,静止音乐:(TP(k)frame<1.2)
(2)静止/音调/瞬态音乐+演讲+掌声:(1.2<TP(k)frame<1.6)
(3)纯瞬态(例如,打击):(TP(k)frame>1.6)
区分三类纯正弦/音调/纯瞬态音频的阈值1.2及1.6是从实验数据导出,并可取决于测量的整个范围及单位而不同。针对其量值在±64之间的复数值St(k)设计的压扩检测器,导出1.2及1.6的特定值。如果复数值的范围不同,那么将使用不同的阈值。
图8是说明在一些实施例下的使用信号自适应压扩器对音频内容进行分类的方法的流程图。所述方法在步骤802中开始,定义区分三个主要内容类别的阈值:(1)纯正弦;(2)静止/音调;及(3)纯瞬态。第二类,静止/音调可为包括正弦、瞬态、音调、部分音调信号等的混合的任何信号,并且通常包括音频节目中存在的绝大多数信号。因此,此内容表示瞬态信号及正弦信号的混合,并且被称为“混合”信号。为分类成三个主要类别,定义两个阈值。阈值是关于某些压扩检测器参数定义的,例如复数值的量值,如上文描述,例如1.2及1.6,尽管任何其它值也是可能的。基于这些阈值,在步骤804,将输入音频粗略分类为三个类别,并且在决策块806中确定信号是否是混合的。如果信号不是混合的,那么其为纯正弦或纯瞬态,在此情况下,可应用适当压扩规则,例如针对纯正弦信号关闭压扩,且针对纯瞬态信号开启压扩,框808。如果信号是混合的,其包括正弦及瞬态信号,并且开启或关闭压扩设置可能不是最优的。在此情况下,需要进一步处理以将音调信号与瞬态或部分瞬态信号(例如由于语音或掌声)或类似效果(例如打击乐器或类似乐器)区分开。在实施例中,时间锐度特性用于导出有助于将音调信号与此类语音/掌声信号区分开的剩余度量,框810。下面参照图9提供所述处理此步骤的细节。
因此,在实施例中,检测组件405经配置以基于与定义阈值相比的输入信号的值来检测信号的类型。这允许系统区分静止/音调音乐与语音,语音也可具有音调部分。检测器还使用频谱锐度度量来进行更好的区分。其使用以下事实从时间锐度度量导出剩余度量:明显不是时间尖锐的任何事物都是频谱尖锐的。因此,在将信号粗略分类为纯音调或纯瞬态(以上类别1或3)而不是静止或瞬态(以上类别2)之后,使用频谱锐度来进一步区分信号。频谱锐度不是直接计算的,而是从其它计算导出为剩余度量。
关于剩余值导出,图9是说明在一些实施例下的使用频谱锐度来区分语音与音调信号的方法的流程图。在步骤902中,过程采取度量1,其是具有大于1.2的时间锐度的带的数目。在步骤904中,过程采取度量2,其是小于1.2的时间锐度值的平均值,其为剩余测量。接着,所述过程应用定义规则以将压扩关闭或求压扩的平均值,框906。这允许系统取决于内容自适应地采用压扩,并考虑到这样一个事实,即一般来说,压扩对音调/和声内容有害,并且应关闭压扩或求压扩的平均值,如在图7中所展示。
下面的代码段说明开启压扩或求压扩的平均值的实例规则,且[1]指示度量1,且[2]指示度量2:
Figure BDA0002990022060000181
此规则产生一系列一及零。值一指示压扩模式设置为开启,值零指示压扩模式关闭,但关闭可导致使用平均模式。因此,在以上代码实例中,0意指平均模式,且因此代码段使得能够在压扩开启与压扩平均之间切换。
在以上规则中,度量2尝试进行另一轮分类,以区分音调信号与语音。适当地定义阈值(例如,基于总体测量尺度),使得高于1.18的任何事物都是纯瞬态,且低于1.1的任何事物都是纯音调信号。但此纯瞬态或纯音调信号很可能已经被最外if条件分类。因此,内部if语句尝试进一步微调分类。针对在1.1到1.18之间的区,已发现语音的大部分音调分量在范围1.12到1.18内,且音乐的音调分量在1.1到1.12之间。
针对以上规则可看出,在一个实施例中,“开启”及“平均”序列产生检测器,所述检测器关于压扩模式的开启/关闭或开启/平均设置而经配置为1111 0100。替代检测器可能看起来像:1011 1000。针对以上实例,“开启”压扩或“求压扩的平均值”的八种可能性。一般来说,例如1111 0100及1011 1000的位指派是通过关键侦听及/或使用某些侦听工具来找到的。替代配置代表以针对语音稍微更多地关闭压扩为代价针对音调信号稍微更频繁地关闭压扩的权衡。这些可能代表“第二好”替代,因为语音质量略有降级。可基于系统要求及最优与次最优声音的主观度量以及语音/掌声与音调声音之间的期望权衡来改变或修改配置。
针对极端情况,例如纯正弦,压扩被“关闭”,如图8的框808及下面所展示的代码段中所展示。
Figure BDA0002990022060000191
在一些实施例下,上文代码段说明切换方法的实施方案。应理解,代码段说明实例软件实施方案,并且还可使用变体及额外或不同代码结构。
时间锐度及频谱锐度之间的关系是基于这样一个事实,即观测已展示,除影响时间噪声整形外,压扩还可在频域中提供某些感知上有益的噪声整形效果。参考图6,在QMF域中,QMF的输出是矩阵,其中y轴是频率,且x轴是时隙。每一时隙由样本的数目组成,且每一带由频率的数目组成。此频率乘时间矩阵可用于检测每频带的时间锐度,其中x轴给出时间锐度。同样地,y轴给出频率锐度,并且尽管这不一定被计算出,但频率锐度可从此矩阵导出。
图4说明基于杜比AC-4音频传送系统及格式的系统,其由欧洲电信标准协会(ETSI)标准化为TS 103 190,并由TS 101 154中的数字视频广播(DVB)采用。还针对用于在低位率下对高频进行有效译码的高级频谱延伸(A-SPX)译码工具来描述实施例。应注意,实施例不如此受限制,并且可使用任何适当编解码器设计及音频译码及传送方法。
在实施例中,在编码器处(针对仅A-SPX的情况或A-SPX+A-CPL的情况),压缩器是QMF合成之前的最后步骤。针对A-SPX+A-CPL情况,编码器处的混合分析/合成在压缩器之前起作用。取决于压扩控制器404的输出,压缩器406可基于开关407功能执行正常压扩模式或平均压扩模式。
通过各种实验,测试不同音频片段的压扩模式,并使用监听工具依照由于音频译码过程导致的降级评估音频输出的质量,发现在使用平均压扩时,伴随压扩开启降级的片段改进;并且在使用平均压扩时,伴随压扩“开启”改进的片段非常轻微的降级。这两点意味着系统可在大多数时间在压扩开启与平均压扩之间切换。这提供了在应用增益中具有更多连续性的切换的优点,并且避免潜在切换伪影。其还导致低复杂性及无延迟检测器并入压扩控制。
尽管到目前为止描述的实施例包含用于减少由编解码器中的编码器引入的量化噪声的压扩过程,但应注意,此压扩过程的方面也可应用于不包含编码器及解码器(编解码器)级的信号处理系统中。此外,在压扩过程结合编解码器使用的情况下,编解码器可为基于变换的或非基于变换的。
图10说明基于内容(音频内容)选择压扩指数(α)的实例技术。值得注意的是,在下文中将参考将被理解为音频信号的时间段的非限制性实例的音频信号的帧。本发明不应被理解为限于帧,而是同样适用于时间段的所有可能实施方案。
包含一或多个计算机处理器的系统接收(1004)一或多个音频信号。所述系统确定所述信号的第一帧F0包含第一瞬态类型的信号,例如,其中瞬态间隔较宽的稀疏瞬态信号。这可能意味着瞬态可个别感知及区分,在瞬态之间有(短)静默周期。第一瞬态类型的信号的一些实例是响板、电子音乐、演讲或一些掌声。作为响应,系统将压扩指数值指定为针对第一帧F0的第一值(例如,α=0.65)。
系统可确定音频信号的第二帧F1包含第二瞬态类型的内容。第二瞬态类型的内容包含密集瞬态信号。第二瞬态类型的内容的实例是具有比第一种类型的内容更密集的瞬态的掌声。作为响应,系统将压扩指数值指定为针对第二帧的第二值(例如,α=0.5)。
系统确定音频信号的第三帧F2包含第三瞬态类型的内容。第三瞬态类型的内容包含具有比第二瞬态类型的内容更密集的瞬态的瞬态信号。第三瞬态类型的内容的实例是具有高拍击密度的密集掌声。作为响应,系统将压扩指数值指定为针对第三帧的第三值(例如,α=0.35)。一般来说,第一到第三值可在值方面从第一值降低到第三值,例如,从α=0.65,经由α=0.5,到α=0.35。
系统确定音频信号的第四帧F3包含第四瞬态类型的内容。第四瞬态类型的内容包含瞬态信号,其在瞬态中是如此密集以至于被认为是噪声。作为响应,系统将压扩指数值指定为针对第四帧的第四值。第四个值可等于第一个值(例如,α=0.65)。替代地,系统可关闭针对第四帧的压扩。将压扩指数值指定为具有值1.0会关闭压扩。
因此,系统可分析音频信号的帧(作为时间段的非限制性实例),以针对每一帧确定,相应帧是否包含第一到第四瞬态内容类型的信号。在一些实施方案中,系统可能仅区分两种(或三种)瞬态类型的内容,例如稀疏瞬态类型(第一瞬态类型)及密集瞬态类型(第二或第三瞬态类型)。接着,系统可将相应瞬态类型的帧视为属于相应帧集合(例如,第一到第四帧集合),并将相应压扩指数指派给每一帧集合。举例来说,可将压扩指数的第一值指派到由包含第一瞬态类型的信号的所有所述帧组成的第一帧集合,可将压扩指数的第二值指派到由包含第二瞬态类型的信号的所有所述帧组成的第二帧集合,可将压扩指数的第三值指派到由包含第三瞬态类型的信号的所有所述帧组成的第三帧集合,且可将压扩指数的第四值指派到由包含第四瞬态类型的信号的所有所述帧组成的第四帧集合。
图11是指示压扩指数的实例值及对应压扩状态的表。常规上,压扩控制数据结构中的一位值确定压扩是开启还是关闭。如果系统确定压扩开启,那么系统使用固定压扩指数值α=0.65。在如此说明书所揭示的基于瞬态密度的压扩中,两个新压扩指数值α=0.5及α=0.35用于如参考图10所揭示的第二及第三类型的内容。取决于用于在编码侧与解码侧之间发信号报告压扩指数值的位的数目,可使用不同的压扩指数集合。例如,如果使用一个位来发信号报告压扩指数的值,那么可在稀疏瞬态事件与密集瞬态事件之间进行区分(例如,在瞬态事件的密度方面具有用于将备用瞬态类型及密集瞬态类型彼此分隔开的预定义阈值)。接着,第一值α=0.65可用于稀疏瞬态事件帧,且第二值α=0.5或α=0.35可用于密集瞬态事件帧。如果使用两个位来发信号报告压扩指数的值,那么其可使用例如上文给出的压扩指数的第一到第四值在四种不同类型的帧之间进行区分。
压扩α的较低值对应于压扩中较高程度的动态范围压缩(例如,在核心编码之前)。值α=1指示没有压扩。对应地,压扩α的较低值对应于压扩中的较高程度的动态范围扩展(例如,在核心解码之后)。较高程度的动态范围压缩意味着低强度信号将被更多地增强,且高强度信号将被更多地衰减。
系统可指示压扩控制数据结构中压扩指数α的值,如下面所展示。
在数据结构中,b_compand_on[ch]包含针对特定companding_control(num_chan)
Figure BDA0002990022060000211
信道ch的两位值。b_compand_on[ch]可具有二进制值00、01、10或11,指示针对特定帧,压扩指数α的值分别为1、0.65、0.5及0.35。值的其它组合是可能的。
图12是说明基于瞬态密度的压扩的实例过程1200的流程图。过程1200是参考图10及图11描述的技术的实例实施方案。过程1200可由包含一或多个计算机处理器的系统来执行。所述系统可为音频编码器、音频解码器或两者。
系统接收(1202)音频信号。系统确定(1204)音频信号的第一帧包含稀疏瞬态信号。稀疏瞬态信号包含具有第一瞬态密度的瞬态类型的音频信号。系统确定(1206)音频信号的第二帧包含密集瞬态信号。密集瞬态信号包含具有高于第一密度的第二瞬态密度的瞬态类型的音频信号。瞬态类型的音频信号包含掌声、雨或噼啪作响的火中的至少一者。一般来说,针对音频信号的时间段(例如,帧),系统可分析时间段以确定音频信号的时间段是包含稀疏瞬态信号还是密集瞬态信号。
系统压缩(1208)音频信号。压扩音频信号包含使用压扩规则将压扩操作应用于音频信号,所述压扩规则将第一压扩指数应用于音频信号的第一帧并且将第二压扩指数应用于音频信号的第二帧。一般来说,系统基于上述确定的结果将压扩应用于音频信号的时间段。所述时间段的此压扩可包括基于压扩指数压缩或扩展音频信号的时间段的动态范围。如果已经确定音频信号的时间段包含稀疏瞬态信号,那么第一压扩指数(例如,α=0.65)可用于压扩,并且如果已经确定音频信号的时间段包含密集瞬态信号,那么与第一压扩指数不同的第二压扩指数(例如,α=0.5或α=0.35)可用于压扩。每一压扩指数用于导出针对对应帧的相应动态范围压缩及扩展程度。第二压扩指数在值方面低于第一压扩指数,并且对应于比第一压扩指数更高的动态范围压缩及扩展程度。举例来说,动态范围压缩可通过根据SC(k)t=St(k)gt对时隙t及频带k处的复数值样本St(k)进行音频样本缩放来执行,其中gt=(SMt)α-1并且是归一化时隙平均值(或增益),其中SMt是平均绝对电平(1-范数),由SMt(k)=1/K∑|St(k)|在k=1到K的范围内求和得出。
系统向下游装置提供(1208)经压扩音频信号,即输出经压缩音频信号。下游装置可为编码器、解码器、输出装置或存储装置中的至少一者。
图13是说明基于瞬态密度的压扩的实例过程1300的流程图。过程1300是参考图10及图11描述的技术的实例实施方案。过程1300可由包含一或多个计算机处理器的系统来执行。所述系统可包含音频编码器、音频解码器或压扩编码装置中的至少一者。特定来说,可在编码侧执行过程1300,在此情况下,压扩可包括压缩音频信号的动态范围。
系统接收(1302)音频信号。音频信号可包含一系列帧(作为时间段的非限制性实例)。
系统基于对应帧中的音频信号的内容来确定(1304)针对音频信号的每一帧的相应压扩指数。这可能涉及分析音频信号的帧,例如关于其内容进行分析。每一压扩指数用于导出对应帧的相应动态范围压缩及扩展程度。确定压扩指数包含以下操作。系统为确定为包含稀疏瞬态信号的音频信号的第一帧指定第一压扩指数。系统为确定为包含密集瞬态信号的音频信号的第二帧指定第二压扩指数。第一压扩指数在值方面高于第二压扩指数,指示较低的动态范围压缩及扩展程度。如上文参考图10所揭示,压扩指数控制压扩中使用的动态范围压缩量。压扩指数的较低值对应于较高动态范围压缩及扩展。
一般来说,这可对应于将第一压扩指数指派到第一组时间段(例如,帧),其由确定为包含稀疏瞬态信号的音频信号的所有那些时间段组成,并将与第一压扩指数不同的第二压扩指数指派到第二组时间段(例如,帧),其由确定为包含密集瞬态信号的音频信号的所有那些时间段组成。
稀疏瞬态信号包含具有第一密度的瞬态类型的音频信号。密集瞬态信号包含具有高于第一密度的第二密度的瞬态类型的信号。举例来说,可基于针对瞬态的密度的预定义阈值来区分稀疏瞬态事件与密集瞬态事件。举例来说,可使用信号的频谱或时间尖峰来导出密度的度量。瞬态类型的音频信号包含掌声、雨或噼啪作响的火中的至少一者。
系统执行(1306)压扩的压缩部分(即,执行压扩的编码侧部分,其对应于压缩),其包含根据第一压扩指数压缩第一帧及根据第二压扩指数压缩第二帧。这相当于将压扩操作应用于音频信号,其包含根据第一压扩指数压缩第一组时间段及根据第二压扩指数压缩第二组时间段。
系统向核心编码器提供(1308)经压缩音频信号。
系统向与经压缩音频信号相关联的位流提供(1310)第一压扩指数及第二压扩指数的相应指示符。指示符可为参照图11描述的压扩控制数据结构中的值。每一指示符可包含用于音频信号中的每一相应信道或相应对象的相应数据位,每一指示符存储在压扩控制数据结构中。指示符的总大小可为两位数据结构,其中每一指示符包含相应压扩状态数据的至少两个位,所述至少两个位确定压扩的至少四个状态,所述四个状态中的每一者对应于相应类型的内容。
图14是说明基于瞬态密度的压扩的第三实例过程的流程图。过程1400是参考图10及图11描述的技术的实例实施方案。过程1400可由包含一或多个计算机处理器的系统来执行。所述系统可包含音频编码器、音频解码器或压扩编码装置中的至少一者。特定来说,可在解码侧执行过程1400,在此情况下,压扩可包含扩展音频信号的动态范围。
系统接收(1402)与多个指示符相关联的压缩音频信号。每一指示符指示用于导出应用于压缩音频信号的对应帧的动态范围压缩程度的相应压扩指数。也就是说,系统可接收音频信号以及用于音频信号的每一时间段的至少一个相关联指示符,每一至少一个相关联指示符指示对应于已在编码之前的压扩操作期间应用于音频信号的相应时间段的压缩或扩展程度的相应压扩指数。
系统确定(1404)经压缩音频信号中的内容的第一帧与第一指示符相关联,且经压缩音频信号中的内容的第二帧与第二指示符相关联。每一指示符对应于经压缩音频信号中的相应信道或对象。每一指示符包含在与经压缩音频信号相关联的元数据中的压扩控制数据结构中的一位值。特定来说,如在图11中的额外细节中所描述,每一指示符包含经配置以指示各种压扩指数的压扩状态数据的至少两个位。所述至少两个位对应于至少四个压扩状态,其各自对应于相应瞬态类型的内容。一般来说,系统可确定由与第一指示符相关联的音频信号的所有那些时间段组成的第一组时间段,并且确定由与第二指示符相关联的音频信号的所有那些时间段组成的第二组时间段。
系统基于第一指示符及第二指示符确定(1406)第一压扩指数应用于扩展内容的第一帧,且第二压扩指数应用于扩展内容的第二帧。一般来说,系统可针对音频信号的每一时间段确定用于针对相应时间段的扩展操作的相应压扩指数。其中,可确定第一压扩指数应用于第一组时间段,且第二压扩指数应用于第二组时间段。第一压扩指数可与第二压扩指数不同。
系统对经压缩音频信号执行(1408)压扩的扩展部分(即,执行压扩的解码侧部分,其对应于扩展)。操作包含根据从第一压扩指数导出的第一动态范围扩展程度来扩展经压缩音频信号的内容的第一帧,以及根据从第二压扩指数导出的第二动态范围扩展程度来扩展经压缩音频信号的内容的第二帧。一般来说,系统可将扩展操作(压缩扩频的解码侧部分)应用于音频信号,其包含根据从第一压扩指数导出的第一动态范围扩展程度来扩展第一组时间段,以及根据从第二压扩指数导出的第二动态范围扩展程度来扩展所述第二组时间段。
系统提供(1410)经扩展音频信号,例如到输出装置。输出装置包含存储装置、流媒体服务器、音频处理器或放大器中的至少一者。
应理解,过程1200及1300可在以上描述的压缩组件104处(例如,在编码侧处)执行。过程1200及1400可在扩展组件114处(例如,在解码侧处)执行。
值得注意的是,尽管过程1200、1300及1400涉及第一及第二压扩指数,但同样可应用于在两种以上瞬态类型之间执行区分的情况。举例来说,上述过程可指派/使用压扩指数的第一到第四值。
本文所描述的系统的方面可在用于处理数字或数字化音频文件的适当的基于计算机的声音处理网络环境中实施。自适应音频系统的部分可包含一或多个网络,其包括任何期望数目的个别机器,其包含用于缓冲及路由在计算机当中传输的数据的一或多个路由器(未展示)。此网络可建立在各种不同网络协议上,并且可为因特网、广域网(WAN)、局域网(LAN)或其任一组合。
组件、块、过程或其它功能组件中的一或多者可通过控制系统的基于处理器的计算装置的执行的计算机程序来实施。还应注意,可使用硬件、固件的任何数目个组合及/或作为在各种机器可读或计算机可读媒体中体现的数据及/或指令依照其行为、寄存器转移、逻辑组件及/或其它特性来描述本文揭示的各种功能。可在其中体现此格式化数据及/或指令的计算机可读媒体包含(但不限于)各种形式的物理(非暂时性)、非易失性存储媒体,例如光学、磁性或半导体存储媒体。
除非上下文另有明确要求,否则贯穿描述及权利要求书,词语“包括(comprise)”、“包括(comprising)”及类似者应以包含性意义来解释,而不是排他性或详尽性意义;也就是说,在“包含,但不限限于”的意义上,使用单数或复数的词语也分别包含复数或单数。另外,词语“本文”、“下文”、“上文”、“下面”及具有类似含义的词语指代作为一个整体的本申请案,而不是指代本申请案的任何特定部分。当参考两个或更多个项目的列表使用词语“或”时,所述词语覆盖对所述词的以下所有解释:列表中的任何项目、列表中的所有项目以及列表中项目的任一组合。
尽管已通过实例及就特定实施例描述了一或多个实施例,但应理解,一或多个实施方案不限于所揭示实施例。相反,希望涵盖对所属领域的技术人员显而易见的各种修改及类似布置。因此,应对所附权利要求书的范围给予最广泛解释,以便于涵盖所有此类修改及类似布置。
本发明的各种方面及实施方案也可从下面叙述的列举实例实施例(EEE)了解。
EEE 1.一种处理音频信号的方法,其包括:
接收音频信号;
确定所述音频信号的第一帧包含稀疏瞬态信号;
确定所述音频信号的第二帧包含密集瞬态信号;
对所述音频信号进行压扩,其包含使用压扩规则将压缩/扩展(压扩)操作应用于所述音频信号,所述压扩规则将第一压扩指数应用于所述音频信号的所述第一帧,并将第二压扩指数应用于所述音频信号的所述第二帧,每一压扩指数用于导出针对对应帧的动态范围压缩及扩展的相应程度;及
向下游装置提供所述经压扩音频信号。
EEE 2.根据EEE 1的方法,其中所述稀疏瞬态信号包含具有第一瞬态密度的瞬态类型的所述音频信号,并且所述密集瞬态信号包含具有高于所述第一密度的第二瞬态密度的瞬态类型的所述音频信号,且
其中所述瞬态类型的音频信号包含掌声、雨或噼啪作响的火中的至少一者。
EEE 3.根据EEE 1所述的方法,其中所述第二压扩指数在值方面低于所述第一压扩指数,并且对应于比所述第一压扩指数更高的动态范围压缩及扩展程度。
EEE 4.一种处理音频信号的方法,所述方法包括:
通过压缩/扩展(压扩)编码装置接收音频信号;
通过所述压扩装置基于在对应帧中的所述音频信号的内容来确定针对所述音频信号的每一帧的相应压扩指数,每一压扩指数用于导出所述对应帧的动态范围压缩及扩展的相应程度,所述确定包括:
指定针对经确定为包含稀疏瞬态信号的所述音频信号的第一帧的第一压扩指数;及
指定针对经确定为包含密集瞬态信号的所述音频信号的第二帧的第二压扩指数,所述第一压扩指数在值方面高于所述第二压扩指数;
执行所述压扩的压缩部分,其包含根据所述第一压扩指数压缩所述第一帧及根据所述第二压扩指数压缩所述第二帧;
向核心编码器提供所述经压缩音频信号;及
向与所述经压缩音频信号相关联的位流提供所述第一压扩指数及所述第二压扩指数的相应指示符。
EEE 5.根据EEE 4所述的方法,其中所述压扩指数控制所述压扩中使用的动态范围压缩量,其中所述压扩指数的较低值对应于较高动态范围压缩。
EEE 6.根据EEE 4所述的方法,其中所述稀疏瞬态信号包含具有第一密度的瞬态类型的音频信号,且所述密集瞬态信号包含具有高于所述第一密度的第二密度的所述瞬态类型的信号,所述瞬态类型的音频信号包含掌声、雨或噼啪作响的火中的至少一者。
EEE7.根据EEE 4所述的方法,其中每一指示符包含针对所述音频信号中的每一相应信道或相应对象的相应数据位,每一指示符存储在压扩控制数据结构中。
EEE8.根据EEE 7所述的方法,其中每一指示符包含指示压扩是开启还是关闭的相应的第二数据位。
EEE9.根据EEE 8所述的方法,其中每一指示符包含相应压扩状态数据的至少两个位,所述至少两个位确定压扩的至少四个状态,所述四个状态中的每一者对应于相应类型的内容。
EEE10.一种解码音频信号的方法,其包括:
通过解码器装置接收与多个指示符相关联的经压缩音频信号,每一指示符指示用于导出应用于所述经压缩音频信号的对应帧的动态范围压缩程度的相应压缩/扩展(压扩)指数;
确定所述经压缩音频信号中的内容的第一帧与第一指示符相关联,并且所述经压缩音频信号中的所述内容的第二帧与第二指示符相关联;
通过所述解码器装置并基于所述第一指示符及所述第二指示符,确定应使用第一压扩指数来扩展所述内容的所述第一帧,并且应使用第二压扩指数来扩展所述内容的所述第二帧;
对所述经压缩音频信号执行所述压扩的扩展操作,其包含根据从所述第一压扩指数导出的第一动态范围扩展程度来扩展所述经压缩音频信号的所述内容的所述第一帧,以及根据从所述第二压扩指数导出的第二动态范围扩展程度来扩展所述经压缩音频信号的所述内容的所述第二帧;及
向输出装置提供所述经扩展音频信号。
EEE 11.根据EEE 10所述的方法,其中每一指示符对应于所述经压缩音频信号中的相应信道或对象。
EEE12.根据EEE 10所述的方法,其中每一指示符包含与所述经压缩音频信号相关联的元数据中的压扩控制数据结构中的一位值。
EEE13.根据EEE 12所述的方法,其中每一指示符包含经配置以指示各种压扩指数的压扩状态数据的至少两个位,所述至少两个位对应于至少四个压扩状态,其各自对应于相应瞬态类型的内容。
EEE14.根据EEE 10所述的方法,其中所述输出装置包含存储装置、流媒体服务器、音频处理器或放大器中的至少一者。
EEE15.一种系统,其包括:
一或多个处理器;及
非暂时性计算机可读存储媒体,其存储指令,所述指令在由所述一或多个处理器执行时,致使所述一或多个处理器执行根据EEE 1到14中任一者所述的操作。
EEE16.一种非暂时性计算机可读存储媒体,其存储指令,所述指令在由一或多个处理器执行时,致使所述一或多个处理器执行根据EEE 1到14中任一者所述的操作。

Claims (23)

1.一种处理音频信号的方法,其包括:
接收音频信号;
针对所述音频信号的时间段,分析所述音频信号的所述时间段以确定所述音频信号的所述时间段是包含稀疏瞬态信号还是密集瞬态信号;及
基于所述确定的结果对所述音频信号的所述时间段进行压扩;及
输出所述音频信号的所述经压扩时间段,
其中压扩所述音频信号的所述时间段包括基于压扩指数压缩或扩展所述音频信号的所述时间段的动态范围;
其中如果确定所述音频信号的所述时间段包含所述稀疏瞬态信号,那么在所述压扩中使用第一压扩指数;且
其中如果确定所述音频信号的所述时间段包含所述密集瞬态信号,那么在所述压扩中使用与所述第一压扩指数不同的第二压扩指数。
2.根据权利要求1所述的方法,其中所述稀疏瞬态信号包含具有第一瞬态事件密度的瞬态事件,并且所述密集瞬态信号包含具有高于所述第一瞬态事件密度的第二瞬态事件密度的瞬态事件。
3.根据权利要求1所述的方法,其中所述稀疏瞬态信号包含具有低于预定义阈值的第一瞬态事件密度的瞬态事件,并且所述密集瞬态信号包含具有高于所述预定阈值的第二瞬态事件密度的瞬态事件。
4.根据前述权利要求中任一权利要求所述的方法,其中所述稀疏瞬态信号涉及掌声、雨或噼啪作响的火中的至少一者。
5.根据前述权利要求中任一权利要求所述的方法,其中所述第二压扩指数对应于比所述第一压扩指数更高程度的动态范围压缩或扩展。
6.根据前述权利要求中任一权利要求所述的方法,其中所述第二压扩指数在值方面低于所述第一压扩指数。
7.根据前述权利要求中任一权利要求所述的方法,其进一步包括:
产生并输出已用于对所述音频信号的所述时间段进行压扩的所述压扩指数的指示。
8.一种处理音频信号的方法,所述方法包括:
接收音频信号;
基于在每一时间段中的所述音频信号的内容来确定针对所述音频信号的所述相应时间段的相应压扩指数,每一压扩指数对应于所述相应时间段的动态范围压缩或扩展的相应程度,所述确定包括:
将第一压扩指数指派到第一组时间段,其由经确定为包含稀疏瞬态信号的所述音频信号的所有那些时间段组成;及
将与所述第一压扩指数不同的第二压扩指数指派到第二组时间段,其由经确定为包含密集瞬态信号的所述音频信号的所有那些时间段组成;
将压扩操作应用于所述音频信号,其包含根据所述第一压扩指数压缩所述第一组时间段及根据所述第二压扩指数压缩所述第二组时间段;
向核心编码器提供所述经压缩音频信号;及
向与所述经压缩音频信号相关联的位流提供所述第一压扩指数及所述第二压扩指数的相应指示符。
9.根据权利要求8所述的方法,其中所述第一压扩指数在值方面高于所述第二压扩指数。
10.根据权利要求8或9所述的方法,其中所述压扩指数控制所述压扩中使用的动态范围压缩程度,且其中所述压扩指数的较低值对应于较高动态范围压缩程度。
11.根据权利要求8到10中任一权利要求所述的方法,其中所述稀疏瞬态信号包含具有第一瞬态事件密度的瞬态事件,且所述密集瞬态信号包含具有高于所述第一瞬态事件密度的第二瞬态事件密度的瞬态事件。
12.根据权利要求8到10中任一权利要求所述的方法,其中所述稀疏瞬态信号包含具有低于预定义阈值的第一瞬态事件密度的瞬态事件,且所述密集瞬态信号包含具有高于所述预定阈值的第二瞬态事件密度的瞬态事件。
13.根据权利要求8到12中任一权利要求所述的方法,其中所述稀疏瞬态信号涉及掌声、雨或噼啪作响的火中的至少一者。
14.根据权利要求8到13中任一权利要求所述的方法,其中每一指示符包含用于所述音频信号的每一时间段的相应指示符位。
15.根据权利要求14所述的方法,其中每一指示符包含指示压扩是开启还是关闭的针对每一时间段的相应第二指示符位。
16.根据权利要求14或15所述的方法,其中每一指示符包含至少两个指示符位,所述至少两个指示符位指示至少四个压扩状态,所述四个状态中的每一者对应于所述音频信号的所述相应时间段的相应类型的内容。
17.一种解码音频信号的方法,其包括:
接收音频信号以及针对所述音频信号的每一时间段的至少一个相关联指示符,每一至少一个相关联指示符指示对应于在编码之前的压扩操作期间已应用于所述音频信号的所述相应时间段的压缩或扩展程度的相应压扩指数;
确定由与第一指示符相关联的所述音频信号的所有那些时间段组成的第一组时间段,及确定由与第二指示符相关联的所述音频信号的所有那些时间段组成的第二组时间段;
针对所述音频信号的每一时间段,确定用于针对所述相应时间段的扩展操作的相应压扩指数,其中确定第一压扩指数应用于所述第一组时间段,且第二压扩指数应用于所述第二组时间段,其中所述第一压扩指数与所述第二压扩指数不同;
将扩展操作应用于所述音频信号,其包含根据从所述第一压扩指数导出的第一动态范围扩展程度扩展所述第一组时间段及根据从所述第二压扩指数导出的第二动态范围扩展程度扩展所述第二组时间段;及
输出所述经扩展音频信号。
18.根据权利要求17所述的方法,其中每一指示符对应于所述所接收音频信号中的相应信道或对象。
19.根据权利要求17或18所述的方法,其中每一指示符在与所述所接收音频信号相关联的元数据中的压扩控制数据结构中包含一位值。
20.根据权利要求19所述的方法,其中每一指示符包含经配置以指示各种压扩指数的压扩状态数据的至少两个位,所述至少两个位对应于至少四个压扩状态,其各自对应于所述音频信号的相应瞬态类型的内容。
21.根据权利要求17到20中任一权利要求所述的方法,其中所述经扩展音频信号经输出到存储装置、流媒体服务器、音频处理器或放大器中的至少一者。
22.一种设备,其包括:
一或多个处理器;及
非暂时性计算机可读存储媒体,其存储指令,所述指令在由所述一或多个处理器执行时,致使所述一或多个处理器执行根据前述权利要求中任一权利要求所述的操作。
23.一种非暂时性计算机可读存储媒体,其存储指令,所述指令在由一或多个处理器执行时,致使所述一或多个处理器执行根据权利要求1到21中任一权利要求所述的操作。
CN201980062591.6A 2018-08-21 2019-08-21 用压扩对密集瞬态事件进行译码 Pending CN112771610A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862720447P 2018-08-21 2018-08-21
US62/720,447 2018-08-21
PCT/EP2019/072377 WO2020039000A1 (en) 2018-08-21 2019-08-21 Coding dense transient events with companding

Publications (1)

Publication Number Publication Date
CN112771610A true CN112771610A (zh) 2021-05-07

Family

ID=67902492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980062591.6A Pending CN112771610A (zh) 2018-08-21 2019-08-21 用压扩对密集瞬态事件进行译码

Country Status (5)

Country Link
US (1) US11830507B2 (zh)
EP (1) EP3841572A1 (zh)
JP (1) JP7447085B2 (zh)
CN (1) CN112771610A (zh)
WO (1) WO2020039000A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX342965B (es) * 2013-04-05 2016-10-19 Dolby Laboratories Licensing Corp Sistema y método de compansión para reducir el ruido de cuantificación usando extensión espectral avanzada.

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5381143A (en) * 1992-09-11 1995-01-10 Sony Corporation Digital signal coding/decoding apparatus, digital signal coding apparatus, and digital signal decoding apparatus
US20070094027A1 (en) * 2005-10-21 2007-04-26 Nokia Corporation Methods and apparatus for implementing embedded scalable encoding and decoding of companded and vector quantized audio data
CN101048939A (zh) * 2004-10-27 2007-10-03 森海塞尔电子股份有限及两合公司 用于无线音频传输系统的发射机和接收机
CN101105940A (zh) * 2007-06-27 2008-01-16 北京中星微电子有限公司 音频编解码的量化方法、反变换方法及音频编解码装置
WO2017080835A1 (en) * 2015-11-10 2017-05-18 Dolby International Ab Signal-dependent companding system and method to reduce quantization noise
CN108269585A (zh) * 2013-04-05 2018-07-10 杜比实验室特许公司 使用高级频谱延拓降低量化噪声的压扩装置和方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001039370A2 (en) 1999-11-29 2001-05-31 Syfx Signal processing system and method
EP1873753A1 (en) 2004-04-01 2008-01-02 Beijing Media Works Co., Ltd Enhanced audio encoding/decoding device and method
WO2005096274A1 (fr) 2004-04-01 2005-10-13 Beijing Media Works Co., Ltd Dispositif et procede de codage/decodage audio ameliores
US7587254B2 (en) 2004-04-23 2009-09-08 Nokia Corporation Dynamic range control and equalization of digital audio using warped processing
US9276602B1 (en) 2009-12-16 2016-03-01 Syntropy Systems, Llc Conversion of a discrete-time quantized signal into a continuous-time, continuously variable signal
CN103069484B (zh) 2010-04-14 2014-10-08 华为技术有限公司 时/频二维后处理
US8886523B2 (en) 2010-04-14 2014-11-11 Huawei Technologies Co., Ltd. Audio decoding based on audio class with control code for post-processing modes
US8392201B2 (en) 2010-07-30 2013-03-05 Deutsche Telekom Ag Method and system for distributed audio transcoding in peer-to-peer systems
US9654876B2 (en) 2012-08-06 2017-05-16 Father Flanagan's Boys' Home Multiband audio compression system and method
US10134403B2 (en) * 2014-05-16 2018-11-20 Qualcomm Incorporated Crossfading between higher order ambisonic signals
EP3627507A1 (en) * 2016-02-17 2020-03-25 Fraunhofer Gesellschaft zur Förderung der Angewand Post-processor, pre-processor, audio encoder, audio decoder and related methods for enhancing transient processing
WO2018053518A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5381143A (en) * 1992-09-11 1995-01-10 Sony Corporation Digital signal coding/decoding apparatus, digital signal coding apparatus, and digital signal decoding apparatus
CN101048939A (zh) * 2004-10-27 2007-10-03 森海塞尔电子股份有限及两合公司 用于无线音频传输系统的发射机和接收机
US20070094027A1 (en) * 2005-10-21 2007-04-26 Nokia Corporation Methods and apparatus for implementing embedded scalable encoding and decoding of companded and vector quantized audio data
CN101105940A (zh) * 2007-06-27 2008-01-16 北京中星微电子有限公司 音频编解码的量化方法、反变换方法及音频编解码装置
CN108269585A (zh) * 2013-04-05 2018-07-10 杜比实验室特许公司 使用高级频谱延拓降低量化噪声的压扩装置和方法
WO2017080835A1 (en) * 2015-11-10 2017-05-18 Dolby International Ab Signal-dependent companding system and method to reduce quantization noise

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孔俊宝: "用微处理机对音频信号的数字处理", 数字通信, no. 01, 24 March 1997 (1997-03-24) *
翁海波;梁维谦;: "噪声鲁棒的动态范围压扩算法", 电声技术, no. 06, 17 June 2010 (2010-06-17) *

Also Published As

Publication number Publication date
JP2021535426A (ja) 2021-12-16
US20220270624A1 (en) 2022-08-25
JP7447085B2 (ja) 2024-03-11
EP3841572A1 (en) 2021-06-30
US11830507B2 (en) 2023-11-28
WO2020039000A1 (en) 2020-02-27

Similar Documents

Publication Publication Date Title
US11423923B2 (en) Companding system and method to reduce quantization noise using advanced spectral extension
US10861475B2 (en) Signal-dependent companding system and method to reduce quantization noise
US11830507B2 (en) Coding dense transient events with companding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination