CN105933030B - 使用高级频谱延拓降低量化噪声的压扩装置和方法 - Google Patents
使用高级频谱延拓降低量化噪声的压扩装置和方法 Download PDFInfo
- Publication number
- CN105933030B CN105933030B CN201610364036.7A CN201610364036A CN105933030B CN 105933030 B CN105933030 B CN 105933030B CN 201610364036 A CN201610364036 A CN 201610364036A CN 105933030 B CN105933030 B CN 105933030B
- Authority
- CN
- China
- Prior art keywords
- audio signal
- segment
- original
- filter group
- definition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000001228 spectrum Methods 0.000 title abstract description 8
- 230000005236 sound signal Effects 0.000 claims abstract description 141
- 238000007906 compression Methods 0.000 claims abstract description 66
- 230000006835 compression Effects 0.000 claims description 56
- 230000008569 process Effects 0.000 claims description 31
- 230000001052 transient effect Effects 0.000 claims description 17
- 239000003638 chemical reducing agent Substances 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 10
- 230000003321 amplification Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 6
- 230000008901 benefit Effects 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 239000012634 fragment Substances 0.000 claims description 2
- 230000006870 function Effects 0.000 description 18
- 238000012545 processing Methods 0.000 description 13
- 238000007493 shaping process Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 7
- 230000002123 temporal effect Effects 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 6
- 230000007547 defect Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000000873 masking effect Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000001276 controlling effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000013144 data compression Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 239000004615 ingredient Substances 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000009527 percussion Methods 0.000 description 2
- 238000002203 pretreatment Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 244000187801 Carpobrotus edulis Species 0.000 description 1
- 206010019133 Hangover Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 238000010009 beating Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000005389 magnetism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/66—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/034—Automatic adjustment
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G7/00—Volume compression or expansion in amplifiers
- H03G7/007—Volume compression or expansion in amplifiers of digital or coded signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Computer Networks & Wireless Communication (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Liquid Crystal Substances (AREA)
- Stereophonic System (AREA)
Abstract
本发明涉及使用高级频谱延拓降低量化噪声的压扩装置和方法。实施例针对用于降低音频编解码器中的编码噪声的压扩方法和系统。压缩过程通过如下压缩过程来减小初始音频信号的原始动态范围:使用定义的窗形状将初始音频信号分成多个片段,使用初始音频信号的频域样本的基于非能量的平均在频域中计算宽带增益,以及施加个体增益值以放大相对低强度的片段和衰减相对高强度的片段。被压缩的音频信号然后通过施加逆增益值以放大相对高强度的片段和衰减相对低强度的片段,而被扩展回基本上原始动态范围。使用QMF滤波器组来分析初始音频信号以获得频域表示。
Description
本申请是申请号201480008819.0、申请日为2014年4月1日、发明名称为“使用高级频谱延拓降低量化噪声的压扩装置和方法”的发明专利申请的分案申请。
相关申请的交叉引用
本申请要求在2013年4月5日提交的美国临时专利申请No.61/809028以及在2013年9月12日提交的No.61/877167的优先权,其全文内容通过引用并入于此。
技术领域
一个或更多个实施例一般涉及音频信号处理,更具体地说,涉及使用压缩/扩展(压扩(companding))技术降低音频编解码器中的编码噪声。
背景技术
许多流行的数字声音格式利用丢弃数据中的一些来降低存储或数据速率要求的有损数据压缩技术。有损数据压缩的应用不仅降低源内容(例如,音频内容)的保真度,而且它也可能引入压缩伪影(artifact)形式的可察觉失真。在音频编码系统的背景下,这些声音伪影被称为编码噪声或量化噪声。
数字音频系统根据定义的音频文件格式或流媒体音频格式,利用编解码器(编码器-解码器组件)来压缩和解压缩音频数据。编解码器实现试图以最小的比特数表示音频信号同时保持尽可能高的保真度的算法。在音频编解码器中典型地使用的有损压缩技术在人类听觉感知的心理声学模型上工作。音频格式通常涉及时/频域变换(例如,修正离散余弦变换-MDCT)的使用,并且使用诸如频率掩蔽或时间掩蔽之类的掩蔽效应,使得包括任何明显的量化噪声的某些声音被实际内容隐藏或掩蔽。
大多数音频编码系统是基于帧的。在帧内,音频编解码器通常在频域中对编码噪声进行整形,使得它变得最难听得见。几种目前的数字音频格式利用这种长持续时间的帧,使得帧可以包含几个不同级别或强度的声音。因为编码噪声随着帧的演变在级别上通常是平稳的,所以编码噪声在帧的低强度部分期间可能是最能听得见。这种效应可以表现为预回声(pre-echo)失真,在该预回声失真中,高强度片段之前的静寂(或低级别信号)被解码的音频信号中的噪声淹没。这种效应可能在来自诸如响板或其他尖锐的打击声源之类的打击乐器的瞬态声音或脉冲中最显著。这种失真典型地由在频域中引入、在时域中遍布于编解码器的整个变换窗的量化噪声引起。
目前用于避免或最小化预回声伪影的措施包括使用滤波器。但是,这种滤波器引入相位失真和时间拖尾(temporal smearing)。另一种可能的解决方案包括使用较小的变换窗,但是这种方法可能显著地减小频率分辨率。
在背景技术部分中讨论的主题不应当仅仅因为在背景技术部分中提到了而被认为是现有技术。类似地,在背景技术部分中提及的或者与背景技术部分的主题相关联的问题不应当被认为在现有技术中已预先认识到。背景技术部分中的主题仅代表不同的方法,其自身也可以是发明。
发明内容
本申请的实施例旨在通过使用压缩/扩展技术降低编码噪声或量化噪声。
实施例针对一种通过经由如下过程将音频信号扩展到扩展的动态范围来处理接收到的音频信号的方法,所述过程包括:使用定义的窗形状将接收到的音频信号分成多个时间片段,使用音频信号的频域表示的基于非能量的平均来在频域中计算用于每个时间片段的宽带增益,以及将增益值施加到每个时间片段以获得扩展的音频信号。对施加到每个时间片段的宽带增益的增益值进行选择以具有放大相对高强度的片段和衰减相对低强度的片段的效果。对于该方法,接收到的音频信号包括经由如下压缩过程从原始动态范围压缩的原始音频信号,所述压缩过程包括使用定义的窗形状将原始音频信号分成多个时间片段,使用原始音频信号的频域样本的基于非能量的平均来在频域中计算宽带增益,以及将宽带增益施加到原始音频信号。在该压缩过程中,对施加给每个时间片段的宽带增益的增益值进行选择以具有放大相对低强度的片段和衰减相对高强度的片段的效果。扩展过程被配置为基本上恢复初始音频信号的动态范围,并且扩展过程的宽带增益可以基本上是压缩过程的宽带增益的逆。
在实现通过扩展过程处理接收到的音频信号的方法的系统中,可以使用滤波器组(filterbank)组件来分析音频信号以获得其频域表示,并且所定义的用于分段成多个时间片段的窗形状可以与用于滤波器组的原型滤波器(prototype filter)相同。类似地,在实现通过压缩过程处理接收到的音频信号的方法的系统中,可以使用滤波器组组件来分析原始音频信号以获得其频域表示,并且所定义的用于分段成多个时间片段的窗形状可以与用于滤波器组的原型滤波器相同。任一情况下的滤波器组可以是QMF组或短时傅里叶变换中的一个。在该系统中,在通过产生比特流的音频编码器和对比特流进行解码的解码器修正被压缩的信号之后,获得用于所述扩展过程的接收到的信号。编码器和解码器可以包括基于变换的音频编解码器的至少一部分。该系统还可以包括处理通过比特流接收到的并且确定所述扩展过程的激活状态的控制信息的组件。
附图说明
在下面的附图中,相同的附图标记用来表示相同的要素。虽然下面的附图描绘了各种示例,但是一种或更多种实现并不局限于附图中所描绘的示例。
图1例示了在一个实施例下,用于在基于变换的音频编解码器中压缩和扩展音频信号的系统。
图2A例示了在一个实施例下,被分成多个短时间片段的音频信号。
图2B例示了在一个实施例下,图2A的在每个短时间片段上施加宽带增益之后的音频信号。
图3A是例示了在一个实施例下压缩音频信号的方法的流程图。
图3B是例示了在一个实施例下扩展音频信号的方法的流程图。
图4是例示了在一个实施例下用于压缩音频信号的系统的框图。
图5是例示了在一个实施例下用于扩展音频信号的系统的框图。
图6例示了在一个实施例下音频信号到多个短时间片段的分割。
具体实施方式
描述使用压扩技术实现音频编解码器中的量化噪声的时间噪声整形的系统和方法。这些实施例包括使用在QMF域中实现的压扩算法来实现量化噪声的时间整形。所述过程包括期望的解码器压扩等级的编码器控制,以及超越单音调应用而延伸到立体声和多声道的压扩。
在此描述的一个或更多个实施例的方面可以在处理用于穿过网络传输的音频信号的音频系统中实现,所述网络包括执行软件指令的一个或更多个计算机或处理设备。所描述的实施例的任何一个可以单独使用或者在任意组合中彼此一起使用。虽然各种实施例可能受在说明书中一个或更多个地方可能讨论或略为提及的现有技术的各种缺陷的启发,实施例不一定解决这些缺陷的任何一个。换句话说,不同的实施例可以解决在说明书中可能讨论的不同缺陷。一些实施例可以仅部分地解决在说明书中可能讨论的一些缺陷或仅一个缺陷,并且一些实施例可以不解决这些缺陷中的任何一个。
图1例示了在一个实施例下,用于在基于编解码器的音频处理系统中降低量化噪声的压扩系统。图1例示了围绕包括编码器(或“核心编码器”)106和解码器(或“核心解码器”)112的音频编解码器建立的音频信号处理系统。编码器106将音频内容编码成用于在网络110上传输的数据流或信号,在那里它被解码器112解码以用于回放或进一步的处理。在一个实施例中,编解码器的编码器106和解码器112实现有损压缩方法以降低数字音频数据的存储和/或数据速率要求,并且这种编解码器可以实现为MP3、Vorbis、杜比数字(AC-3)、AAC或类似的编解码器。编解码器的有损压缩方法产生编码噪声,其中编码噪声通常随着由编解码器定义的帧的演变而具有平稳的级别。这种编码噪声经常在帧的低强度部分期间最能听得见。通过提供在编解码器的核心编码器106之前的压缩前步骤组件104以及对核心解码器112的输出进行操作的扩展后步骤组件114,系统100包括降低现有编码系统中的感知到的编码噪声的组件。压缩组件104被配置为使用定义的窗形状将原始音频输入信号102分成多个时间片段,使用初始音频信号的频域样本的基于非能量的平均在频域中计算并施加宽带增益,其中施加给每个时间片段的增益值放大相对低强度的片段并且衰减相对高强度的片段。该增益修正具有压缩并显著减小输入音频信号102的原始动态范围的效果。然后,经压缩的音频信号在编码器106中被编码,在网络上110上传输,并在解码器112中被解码。解码后的压缩信号被输入到扩展组件114,其中扩展组件114被配置为通过向每个时间片段施加逆增益值而将压缩的音频信号的动态范围扩展回到原始输入音频信号102的动态范围来执行压缩前步骤104的逆操作。因此,音频输出信号116包括具有原始动态范围的音频信号,而编码噪声通过所述前步骤和后步骤压扩过程被去除。
如图1中所示,压缩组件或压缩前步骤104被配置为减小被输入到核心编码器106的音频信号102的动态范围。输入音频信号被分成许多短片段。每个短片段的大小或长度是核心编码器106所使用的帧大小的一小部分。例如,核心编码器的典型的帧大小可能为大约40至80毫秒。在这种情况下,每个短片段可以为大约1至3毫秒。压缩组件104计算适当的宽带增益值以逐片段地压缩输入音频信号。这通过用针对每个片段的适当的增益值修正信号的短片段来实现。选择相对大的增益值来放大相对低强度的片段,并且选择小的增益值来衰减高强度的片段。
图2A例示了在一个实施例下,被分成多个短的时间片段的音频信号,并且图2B例示了在通过压缩组件施加宽带增益之后的同一音频信号。如图2A中所示,音频信号202代表例如可能由打击乐器(例如响板)产生的瞬态或声音脉冲。如电压V对时间t的绘图中所示,信号以振幅的尖峰为特征。一般而言,信号的振幅与声音的声能或强度有关,并且代表任何时间点处的声音功率的量度。当通过基于帧的音频编解码器处理音频信号202时,信号的部分在变换(例如MDCT)帧204内处理。目前典型的数字音频系统利用相对长持续时间的帧,使得对于尖锐的瞬态或短脉冲声音,单个帧可以包括低强度以及高强度的声音。因此,如图1中所示,单个MDCT帧204包括音频信号的脉冲部分(峰)以及在峰前或峰后的相对大量的低强度信号。在一个实施例中,压缩组件104将信号分成许多短的时间片段206,并且向每个片段施加宽带增益,以压缩信号202的动态范围。可以基于应用需求和系统约束来选择每个短片段的数量和大小。相对于单个MDCT帧的大小,短片段的数量可以在从12至64个片段的范围内变化,并且可以典型地包括32个片段,但是实施例并不限于此。
图2B例示了在一个实施例下,在每个短的时间片段上施加宽带增益之后的图2A的音频信号。如图2B中所示,音频信号212具有与原始信号202相同的相对形状,但是低强度片段的振幅已经通过施加放大增益值而增大,而高强度片段的振幅已经通过施加衰减增益值而减小。
核心解码器112的输出是具有减小的动态范围的输入音频信号(例如,信号212)加上由核心编码器106引入的量化噪声。该量化噪声以在每个帧内在时间上几乎均一的级别为特征。扩展组件114作用于解码后的信号以恢复原始信号的动态范围。它使用基于短片段大小206的相同的短时间分辨率,并且逆变在压缩组件104中施加的增益。因此,扩展组件114在原始信号中具有低强度并已由压缩器放大的片段上施加小的增益(衰减),而在原始信号中具有高强度并已由压缩器衰减的片段上施加大的增益(放大)。由核心编码器添加且具有均一的时间包络的量化噪声因此被后处理器增益同时整形,以近似地符合原始信号的时间包络。该处理有效地使得量化噪声在安静的节段期间较难听得见。虽然噪声可能在高强度的节段期间被放大,但是由于音频内容自身的高声信号的掩蔽效应,它仍然较难听得见。
如图2A中所示,压扩过程用各增益值来单独地修正音频信号的离散片段。在某些情况下,这可能导致压缩组件的输出处的不连续,从而可能在核心编码器106中产生问题。类似地,扩展组件114处的增益的不连续可能导致整形后的噪声的包络的不连续,从而可能在音频输出116中导致听得见的咔哒声。与向音频信号的短片段施加个体增益值相关的另一个问题基于这一事实:典型的音频信号是许多单独的源的混合。这些源中的一些可能在时间上是平稳的,而一些可能是瞬态的。平稳信号在统计参数方面通常在时间上是恒定的,然而瞬态信号通常不是恒定的。给定瞬态的宽带性质,它们在这种混合中的特色在较高的频率通常更可见。基于信号的短期能量(short-term energy,RMS)的增益计算易于偏向更强的低频率,因此被平稳源主导,并且呈现为几乎不随时间变化。因此,该基于能量的方法在对由核心编码器引入的噪声进行整形时通常是无效的。
在一个实施例中,系统100在具有短的原型滤波器的滤波器组中的压缩和扩展组件处计算和施加增益,以便解决与施加个体增益值相关联的潜在问题。首先由滤波器组分析待修正的信号(压缩组件104处的原始信号,以及扩展组件114中的核心解码器112的输出),并且直接在频域中施加宽带增益。时域中的相应效果是根据原型滤波器的形状自然地平滑增益施加。这解决了上述不连续的问题。修正后的频域信号然后经由相应的合成滤波器组转换回到时域。用滤波器组来分析信号提供对其频谱内容(spectral content)的访问,并且允许由于高频率而优先增加贡献(或者由于弱的任何频谱内容而增加贡献)的增益的计算,提供不被信号中的最强成分主导的增益值。这解决了如上所述的与包括不同源的混合的音频源相关联的问题。在一个实施例中,系统使用频谱幅度的p-范数来计算增益,其中p典型地小于2(p<2)。与基于能量时(p=2)相比,这使得能够更加强调弱的频谱内容。
如上所述,所述系统包括原型滤波器以平滑增益施加。一般而言,原型滤波器是滤波器组中的基本窗形状,其由正弦波形调制以针对滤波器组中的不同子带滤波器获得脉冲响应。例如,短时傅里叶变换(STFT)是滤波器组,并且该变换的每个频率线是滤波器组的子带。短时傅里叶变换通过将信号乘以窗形状(N采样窗)来实现,窗形状可以是矩形、Hann、Kaiser-Bessel导出(KBD)或一些其他形状。被加窗的信号然后经历离散傅里叶变换(DFT)操作,以获得STFT。该情况下的窗形状是原型滤波器。DFT由正弦基函数组成,每个正弦基函数均具有不同的频率。然后,与正弦函数相乘的窗形状为与该频率对应的子带提供滤波器。因为窗形状在所有频率是相同的,所以被称为“原型”。
在一个实施例中,系统针对滤波器组使用QMF(正交调制滤波器)组。在特定的实现方式中,QMF组可以具有形成原型的64点窗(64-pt window)。由余弦和正弦函数调制的该窗(与64个等间隔的频率相对应)为QMF组形成子带滤波器。在每次施加QMF函数之后,窗移动64个样本,即,在这种情况下时间片段之间的重叠是640-64=576个样本。但是,虽然在这种情况下窗形状跨越十个时间片段(640=10*64),但是窗的主瓣(在此处其样本值非常显著)大约为128个样本长。因此,窗的有效长度仍然相对较短。
在一个实施例中,扩展组件114理想地逆变由压缩组件104施加的增益。虽然可以通过比特流把由压缩组件施加的增益传输到解码器,但是这种方法典型地会消耗显著的比特速率。在一个实施例中,系统100却是直接从它可用的信号,即解码器112的输出中估计扩展组件114所需的增益,这有效地不需要附加比特。压缩和扩展组件处的滤波器组被选择为完全相同,以便计算互为逆的增益。另外,这些滤波器组时间同步,使得压缩组件104的输出与扩展组件114的输入之间的任何有效延迟是滤波器组的步幅的倍数。如果核心编码器-解码器是无损的,并且滤波器组提供完美的重构,则压缩和扩展组件处的增益将是彼此的精确的逆,从而允许精确地重构原始信号。但是,在实践中,由扩展组件114施加的增益仅是由压缩组件104施加的增益的逆的近似。
在一个实施例中,在压缩和扩展组件中使用的滤波器组是QMF组。在典型的使用应用中,核心音频帧可以是4096个样本长,并且与相邻的帧重叠2048个样本。在48kHz的情况下,这种帧的长度是85.3毫秒。与此相反,所使用的QMF组可具有64个样本的步幅(其长度是1.3毫秒),其为增益提供精细的时间分辨率。而且,QMF具有长度为640个样本的平滑的原型滤波器,保证增益施加在时间上平滑地变化。使用该QMF滤波器组的分析提供信号的时频平铺式表示。每个QMF时隙等于步幅,并且在每个QMF时隙中,存在64个均匀间隔的子带。可替代地,可以使用诸如短期傅里叶变换(STFT)之类的其他滤波器组,并且仍然可以获得这种时频平铺式表示。
在一个实施例中,压缩组件104执行缩放编解码器输入的预处理步骤。对于该实施例,St(k)是在时隙t和频率区间k处的复值滤波器组样本。图6例示了在一个实施例下对于一系列的频率,音频信号到许多时隙的分割。对于图600的实施例,存在64个频率区间k以及32个时隙t,其如所示产生多个时频块(虽然不一定按比例绘制)。压缩前步骤对编解码器输入进行缩放以变成S’t(k)=St(k)/gt。在该等式中,是经归一化的时隙平均值。
在上面的等式中,表达式是平均绝对级别/1-范数,并且S0是合适的常数。通用的p-范数在该上下文中定义如下:
已经示出,1-范数可以给出比使用能量(rms/2-范数)明显更好的结果。指数项γ的值典型地在0到1之间的范围内,并且可以被选为1/3。常数S0保证独立于实现平台的合理的增益值。例如,当在所有St(k)值的绝对值可能限制为1的平台中实现时,它可能是1。在St(k)可能具有不同的最大绝对值的平台中,它可能不同。它也可以用来确保一大组信号的平均增益值接近1。也就是说,它可以是介于根据内容的大型语料库确定的最大信号值与最小信号值之间的中间信号值。
在由扩展组件114执行的后步骤过程中,编解码器输出由压缩组件104所施加的逆增益来扩展。这需要精确地或近似精确地复制压缩组件的滤波器组。在这种情况下,表示该第二滤波器组的复数值样本。扩展组件114对编解码器输出进行缩放以变成
在上面的等式中,是经归一化的时隙平均值,如下给出:
以及
一般而言,扩展组件114将使用与在压缩组件104中所使用的p-范数相同的p-范数。因此,如果使用平均绝对级别来定义压缩组件104中的在上面的等式中也使用1-范数(p=1)来定义。
当在压缩和扩展组件中使用诸如STFT或复数QMF之类的复数滤波器组(包含余弦和正弦基函数这两者)时,复数子带样本的幅度或|St(k)|的计算需要计算密集型的平方根运算。这可以通过以多种方式求复数子带样本的幅度的近似,例如通过计算其实部和虚部的总和来回避。
在上面的等式中,值K等于或小于滤波器组中子带的数量。一般而言,可以使用滤波器组中的子带的任何子集来计算p-范数。但是,应当在编码器106和解码器112这两者处使用相同的子集。在一个实施例中,可以使用高级频谱延拓(A-SPX)工具来对音频信号的高频部分(例如,高于6kHz的音频成分)进行编码。另外,仅使用高于1kHz(或类似频率)的信号来引导噪声整形可能是期望的。在这种情况下,只有那些在1kHz至6kHz范围内的子带可以用来计算p-范数,从而计算增益值。此外,虽然增益是根据子带的一个子集计算的,它仍然可以被施加给不同的且可能更大的子带的子集。
如图1中所示,用于对由音频编解码器的核心编码器106引入的量化噪声进行整形的压扩功能由执行某些编码器前的压缩功能和解码器后的扩展功能的两个单独的组件104和114执行。图3A是例示了在一个实施例下的在编码器前的压缩组件中压缩音频信号的方法的流程图,并且图3B是例示了在一个实施例下的在解码器后的扩展组件中扩展音频信号的方法的流程图。
如图3A中所示,过程300从压缩组件接收到输入音频信号(302)开始。该组件然后将音频信号分成短的时间片段(304),并通过向每个短片段施加宽带增益值来将音频信号压缩到减小的动态范围(306)。压缩组件也实现某种原型滤波和QMF滤波器组件以减少或消除由于将不同的增益值施加给连续的片段而引起的任何不连续,如上所述(308)。在某些情况下,诸如基于音频内容的类型或音频内容的某些特性,在音频编解码器的编码级/解码级之前和之后对音频信号进行的压缩和扩展可能会劣化而不是增强输出音频质量。在这种情况下,可以关闭或修改压扩过程以返回不同的压扩(压缩/扩展)等级。因此,除了其他变量之外,压缩组件还确定具体的信号输入和音频回放环境所需的压扩功能的适当性和/或压扩的最佳等级(310)。该确定步骤310可以发生在过程300的任何实践点,诸如在音频信号的划分304或者音频信号的压缩306之前。如果压扩被认为是适当的,则施加增益(306),并且编码器然后根据编解码器的数据格式来编码用于传输到解码器的信号(312)。某些压扩控制数据,诸如激活数据、同步数据、压扩等级数据以及其他类似的控制数据,可以作为比特流的一部分进行传输以用于扩展组件的处理。
图3B是例示了在一个实施例下的在解码器后的扩展组件中扩展音频信号的方法的流程图。如过程350中所示,编解码器的解码器级从编码器级接收编码音频信号的比特流(352)。解码器然后根据编解码器数据格式来对经编码的信号进行解码(353)。然后扩展组件处理比特流并应用任何经编码的控制数据来基于控制数据关闭扩展或修改扩展参数(354)。扩展组件使用合适的窗形状将音频信号分成时间片段(356)。在一个实施例中,时间片段对应于由压缩组件使用的相同的时间片段。扩展组件然后在频域上针对每个片段计算适当的增益值(358),并向每个时间片段施加增益值以将音频信号的动态范围扩展回到原始的动态范围或任何其他适当的动态范围(360)。
压扩控制
包括系统100的压扩器的压缩和扩展组件可以被配置为仅在音频信号处理期间的某个时间,或者仅针对某些类型的音频内容,施加所述前处理和后处理步骤。例如,对于语音和音乐瞬态信号,压扩可能表现出益处。但是,对于诸如平稳信号之类的其他信号,压扩可能会使信号质量劣化。因此,如图3A中所示,压扩控制机制被提供为块310,并且控制数据被从压缩组件104传输到扩展组件114以协调压扩操作。这种控制机制的最简单形式是对于其中施加压扩会使音频质量劣化的音频样本的块关闭压扩功能。在一个实施例中,压扩开/关决定在编码器中被检测并且作为比特流元素传输到解码器,使得压缩器和扩展器能够在同一QMF时隙打开/关闭。
两种状态之间的切换通常会导致所施加的增益的不连续,从而导致听得见的切换伪影或咔哒声。实施例包括用于减少或消除这些伪影的机制。在第一实施例中,系统仅在增益接近1的帧处允许压扩功能关和开的切换。在这种情况下,在打开/关闭压扩功能之间仅存在小的不连续。在第二实施例中,在开和关的帧之间的音频帧中施加介于开和关模式之间的第三种弱压扩模式,并且在比特流中以信号告知。弱压扩模式使指数项γ从它在压扩期间的默认值缓慢地过渡到相当于不压扩的0。作为介于中间的弱压扩模式的替代,系统可以实现开始帧和停止帧,其在一块音频样本上平滑地淡入到(fadeinto)不压扩的模式,而不是突然地关闭压扩功能。在另一个实施例中,系统被配置为不是简单地关闭压扩,而是施加平均增益。在某些情况下,如果向音频帧施加这样的恒定增益因子:该恒定增益因子比压扩关闭情况下的恒定增益因子1.0更像相邻的压扩打开的帧的增益因子,则可以提高音调平稳的信号的音频质量。可以通过在一个帧上平均所有压扩增益来计算这种增益因子。包含恒定的平均压扩增益的帧从而在比特流中被以信号告知。
虽然实施例是在单音调的音频声道的背景下描述的,但是应当注意,在直接的延伸中,可以通过在每个声道上分别重复该方法来处理多个声道。但是,包含两个或多个声道的音频信号表现出由图1的压扩系统的实施例解决的某些附加的复杂性。压扩策略应当取决于声道之间的相似度。
例如,在立体声漂移(stereo-panned)的瞬态信号的情况下,已经观察到个体声道的独立压扩可能导致听得见的图像伪影。在一个实施例中,系统根据两个声道的子带样本来为每个时间片段确定单个增益值,并且使用相同的增益值来压缩/扩展两个信号。无论何时两个声道具有非常相似的信号,该方法通常都是合适的,其中相似度是例如通过使用互相关来定义的。检测器计算声道之间的相似度并且在使用声道的单独压扩或共同地压扩声道之间转换。延伸到多个声道的话可以通过使用相似度标准将声道分成声道组,并对组施加共同压扩。然后该分组信息可以通过比特流进行传输。
系统实现
图4是例示在一个实施例下,用于与编解码器的编码器阶段联合地压缩音频信号的系统的框图。图4例示了实现用于图3A中所示的基于编解码器的系统的压缩方法的至少一部分的硬件电路或系统。如系统400中所示,时域中的输入音频信号401被输入到QMF滤波器组402。该滤波器组执行将输入信号分离成多个成分的分析操作,其中每个带通滤波器承载原始信号的频率子带。信号的重构在由QMF滤波器组410执行的合成操作中执行。在图4的示例性实施例中,分析和合成滤波器组这两者均处理64个频带。核心编码器412从合成滤波器组410接收音频信号,并且通过以适当的数字格式(例如MP3、AAC等)编码音频信号来产生比特流414。
系统400包括压缩器406,压缩器406将增益值施加给音频信号已经分成的每个短片段。这产生压缩的动态范围的音频信号,诸如图2B中所示。压扩控制单元404对音频信号进行分析,以基于信号的类型(例如,语音)或者信号的特性(例如,平稳对瞬态)或其他相关参数,确定是否应施加压缩或应施加多少压缩。控制单元404可以包括检测机制,以检测音频信号的时间峰度特性。基于音频信号的所检测的特性和某种预先定义的标准,控制单元404将适当的控制信号发送到压缩器406,以关闭压缩功能或修正施加给短片段的增益值。
除了压扩之外,许多其他编码工具也可以在QMF域中操作。一种此类工具是图4的块408中所示的A-SPX(高级频谱延拓)。A-SPX是一种用来允许相比于在感知上较重要的频率以较粗糙的编码方案来对较不重要的频率进行编码的技术。例如,在解码器端的A-SPX中,来自较低频率的QMF子带样本可以在较高频率处重复,然后使用从编码器传输到解码器的辅助信息来对高频带中的频谱包络进行整形。
在压扩和A-SPX都在QMF域中执行的系统中,如图4中所示,在编码器处,可以从尚未压缩的子带样本中提取用于较高频率的A-SPX包络数据,并且可以对与由核心编码器412编码的信号的频率范围对应的较低频率QMF样本施加压缩。在图5的解码器502处,在对解码后的信号进行QMF分析504之后,扩展过程506首先被施加,并且A-SPX操作508随后从较低频率的扩展信号中再现较高子带样本。
在该示例性实现中,编码器处的QMF合成滤波器组410和解码器504处的QMF分析滤波器组一起引入640-64+1个样本延迟(~9个QMF时隙)。该示例中的核心编解码器延迟是3200个样本(50个QMF时隙),所以总延迟是59个时隙。该延迟由如下导致:将控制数据嵌入到比特流中并且在解码器处使用它,使得编码器压缩器和解码器扩展器操作同步。
可替代地,在编码器处,可以在原始信号的整个带宽上施加压缩。随后可以从被压缩的子带样本中提取A-SPX包络数据。在这种情况下,在QMF分析之后,解码器首先运行A-SPX工具以首先重构全带宽的压缩信号。然后应用扩展阶段以恢复具有其原始动态范围的信号。
在图4中,可以在QMF域中进行操作的另一种工具可以是高级耦合(advancedcoupling,AC)工具(未示出)。在高级耦合系统中,使用可以在解码器处在QMF域中应用以重构立体声输出的附加参数化空间信息将两个声道编码成单声道下混(mono downmix)。当AC和压扩彼此联合使用时,AC工具可以置于编码器处的压缩级406之后,在该情况下,它将在解码器处的扩展级506之前应用。作可替代地,AC辅助信息可以从未压缩的立体声信号中提取,在该情况下,AC工具将在解码器处的扩展级506之后操作。也可以支持混合AC模式,在该混合AC模式中,在某频率以上使用AC,而在该频率之下使用离散立体声;或者可替代地,在某频率以上使用离散立体声,而在该频率之下使用AC。
如图3A和3B中所示,在编解码器的编码器级与解码器级之间传输的比特流包括某种控制数据。这种控制数据构成允许系统在不同压扩模式之间切换的辅助信息。切换控制数据(用于打开/关闭压扩)可能再加上一些中间状态可以每个声道增加大约1或2比特。其他控制数据可以包括信号以确定是否离散立体声或多声道配置的所有声道都将使用共同的压扩增益因子,或者它们是否应当针对每个声道独立地计算。这种数据可以每个声道仅需要单个额外的比特。可以取决于系统需求和约束而使用其他类似的控制数据元素及其适当的比特权重。
检测机制
在一个实施例中,压扩控制机制被包括作为压缩组件104的一部分,以提供对QMF域中压扩的控制。可以基于诸如音频信号类型之类的许多因素来配置压扩控制。例如,在大多数应用中,对于语音信号和瞬态信号或者在时间上多峰的信号类别内的任何其他信号,应该打开压扩。系统包括检测机制以检测信号的峰度(peakness),以便帮助产生用于压扩器功能的适当控制信号。
在一个实施例中,对于给定的核心编解码器,时间峰度的量度TP(k)frame在频率区间k上计算,并且使用下面的公式计算:
在上面的等式中,St(k)是子带信号,并且T是与一个核心编码器帧相对应的QMF时隙的数量。在示例性实现中,T的值可以是32。每个频带计算的时间峰度可以用来将声音内容分类成一般两个种类:平稳的音乐信号,以及音乐瞬态信号或语音信号。如果TP(k)frame的值小于定义的值(例如1.2),则帧的该子带中的信号有可能是平稳的音乐信号。如果TP(k)frame的值大于该值,则信号有可能是音乐瞬态信号或语音信号。如果值大于甚至更高的阈值(例如1.6),信号很有可能是纯音乐瞬态信号,例如响板。而且,已经观察到,对于自然发生的信号,在不同的带中获得的时间峰度的值或多或少是相似的,并且该特性可以用来减小要计算时间峰度值的子带数量。基于该观察,系统可以实现下面两个之一。
在第一实施例中,解码器执行下面的过程。作为第一步骤,它计算时间峰度大于1.6的带的数量。作为第二步骤,它然后计算时间峰度值小于1.6的带的时间峰度值的平均值。如果在第一步骤中发现的带的数量大于51,或者如果在第二步骤中确定的平均值大于1.45,则该信号被确定是音乐瞬态信号,因此压扩应当打开。否则被确定是压扩不应当打开的信号。这种检测器对于语音信号将关闭大部分时间。在一些实施例中,语音信号通常将由单独的语音编码器编码,所以这一般不是问题。但是,在某些情况下,可能期望对于语音也打开压扩功能。在这种情况下,第二类型的检测器可能是优选的。
在一个实施例中,该第二类型的检测器执行下面的过程。作为第一步骤,它计算时间峰度值大于1.2的带的数量。在第二步骤中,它然后计算时间峰度小于1.2的带的时间峰度值的平均值。然后它应用下面的规则:如果第一步骤的结果大于55,则打开压扩,如果第一步骤的结果小于15,则关闭压扩;如果第一步骤的结果介于15至55之间并且第二步骤的结果大于1.16,则打开压扩;并且如果第一步骤的结果位于15至55之间并且第二步骤的结果小于1.16,则关闭压扩。应当注意,这两种类型的检测器仅描述检测器算法的许多可能解决方法中的两个示例,并且也可以使用或者替代地使用其他类似的算法。
由图4的元件404提供的压扩控制功能可以任何适当的方式实现,以允许基于某些操作模式使用或不使用压扩。例如,在环绕声系统的LFE(低频效果)声道上通常不使用压扩,以及当没有实现A-SPX(即,非QMF)功能时也不使用压扩。在一个实施例中,压扩控制功能可以由电路或诸如压扩控制元件404之类的基于处理器的元件执行的程序来提供。下面是在一个实施例下,可以实现压扩控制的程序片段的一些示例性语法:
sync_flag,b_compand_on[ch],以及b_compand_avg标记或程序元素可以长约1个比特,或者是取决于系统约束和需求的任何其他长度。应当注意,上面所例示的程序代码是实现压扩控制功能的一种方法的示例,并且根据一些实施例可以使用其他程序或硬件组件来实现压扩控制。
虽然所述实施例到目前为止包括用于降低由编解码器中的编码器引入的量化噪声的压扩过程,但应当注意,这种压扩过程的方面也可以在不包括编码器和解码器(编解码器)级的信号处理系统中应用。而且,如果压扩过程与编解码器联合使用,则编解码器可以基于变换或非基于变换。
这里描述的系统的方面可以在用于处理数字或数字化音频文件的适当的基于计算机的声音处理网络环境中实现。自适应音频系统的部分可以包括一个或更多个网络,网络包括任何期望数量的个体机器,包括用来缓冲并路由在计算机之间传输的数据的一个或更多个路由器(未示出)。这种网络可以基于各种不同的网络协议构建,并且可以是因特网、广域网(WAN)、局域网(LAN)或其任何组合。
组件、块、过程或其他功能组件的一个或更多个可以通过对系统的基于处理器的计算设备的执行进行控制的计算机程序来实现。还应当注意,这里公开的各种功能可以按照它们的行为、寄存器传送、逻辑组件和/或其他特性,使用硬件、固件和/或包含在各种机器可读或计算机可读介质中的数据和/或指令的任何数量的组合来描述。其中包含这种格式化的数据和/或指令的计算机可读介质包括但不限于各种形式的物理(非暂态)、非易失性存储介质,诸如光学、磁性或半导体存储介质。
除非上下文另外明确要求,否则在整个说明书和权利要求书中,单词“包括”、“包含”等应被解释为包括的意义,与排除或穷举的意义截然相反;即,“包括但不限于”的意义。使用单数或复数的单词也分别包括复数或单数。另外,单词“在这里”、“在下面”、“上面”、“下面”以及类似含义的单词是指整个申请,而不是指该申请的任何特定部分。当在提及两个或更多个项的列表时使用单词“或者”时,该单词覆盖单词的以下所有解释:列表中的任何项、列表中的全部项以及列表中的项的任何组合。
虽然已经以示例的方式依据具体的实施例描述了一个或更多个实现,但应当理解,一个或更多个实现并不限于所公开的实施例。相反,其意在覆盖对本领域技术人员显然的各种变型和类似的布置。因此,所附权利要求的范围应被赋予最宽泛的解释,以涵盖所有这种变型和类似的布置。
Claims (23)
1.一种扩展音频信号的方法,包括:
接收音频信号;以及
通过扩展过程将音频信号扩展到扩展的动态范围,所述扩展过程包括:使用定义的窗形状将接收到的音频信号分成多个时间片段,使用音频信号的频域表示的基于非能量的平均来在频域中计算用于每个时间片段的宽带增益,以及向每个时间片段施加相应的宽带增益以获得扩展的动态范围音频信号,其中所述宽带增益的施加放大相对高强度的时间片段并且衰减相对低强度的时间片段,
其中时间片段是重叠的,
其中使用第一滤波器组来分析音频信号以获得频域表示,并且所述定义的窗形状对应于第一滤波器组的原型滤波器,
其中使用相应时间片段中的子带的子集中的子带样本来计算所述用于每个时间片段的宽带增益,并且
其中所述子带的子集对应于第一滤波器组跨越的整个频率范围。
2.根据权利要求1所述的方法,其中根据每个时间片段中子带样本的p-范数来导出每个相应的时间片段的宽带增益,其中p是不等于2的正实数。
3.根据权利要求1所述的方法,其中宽带增益在第一滤波器组的域中施加。
4.根据权利要求3所述的方法,其中每个宽带增益根据第一滤波器组的子带的第一子集来计算,并被施加给第一滤波器组的子带的第二子集,其中所述子带的第二子集包括所述子带的第一子集。
5.根据权利要求4所述的方法,其中所述子带的第一子集和第二子集完全相同并且对应于音频信号的低频区域。
6.一种压缩音频信号的方法,包括:
接收初始音频信号;以及
通过压缩过程对初始音频信号进行压缩,以大幅减小初始音频信号的原始动态范围,该压缩过程包括使用定义的窗形状将初始音频信号分成多个片段,使用初始音频信号的频域样本的基于非能量的平均来在频域中计算宽带增益,以及向所述多个片段的每个片段施加相应的宽带增益,以放大相对低强度的片段和衰减相对高强度的片段,
其中片段是重叠的,并且其中使用第一滤波器组来分析音频信号以获得频域表示,并且所述定义的窗形状对应于第一滤波器组的原型滤波器,
其中使用相应片段中的子带的子集中的子带样本来计算每个宽带增益,并且
其中所述宽带增益根据第一滤波器组的子带的第一子集来计算,并被施加给第一滤波器组的子带的第二子集,其中所述子带的第二子集包括所述子带的第一子集。
7.根据权利要求6所述的方法,其中所述子带的第一子集和第二子集完全相同并且对应于音频信号的低频区域。
8.根据权利要求6所述的方法,其中所述子带的第一子集对应于音频信号的低频区域,而所述子带的第二子集对应于第一滤波器组跨越的整个频率范围。
9.根据权利要求6所述的方法,还包括:
将初始音频信号的压缩版本传输到执行扩展过程的扩展组件,该扩展过程包括接收音频信号的压缩版本;以及
通过包括以下的过程对音频信号的压缩版本进行扩展以将其基本上恢复到初始音频信号的原始动态范围:使用所述定义的窗形状将初始音频信号分成多个时间片段,使用初始音频信号的频域样本的基于非能量的平均来在频域中计算用于每个时间片段的宽带增益;以及向每个时间片段施加相应的宽带增益,以放大相对高强度的时间片段和衰减相对低强度的时间片段。
10.根据权利要求9所述的方法,其中由压缩步骤计算出的宽带增益是由扩展步骤为同一时间片段计算的宽带增益的逆。
11.一种用于压缩音频信号的装置,包括:
第一接口,接收初始音频信号;以及
压缩器,通过以下来对初始音频信号进行压缩以大幅减小初始音频信号的原始动态范围:使用定义的窗形状将初始音频信号分成多个片段,使用初始音频信号的频域样本的基于非能量的平均来在频域中计算宽带增益,以及向所述多个片段的每个片段施加相应的宽带增益,以放大相对低强度的片段和衰减相对高强度的片段,
第一滤波器组,分析音频信号以获得频域表示,其中所述定义的窗形状对应于第一滤波器组的原型滤波器,并且进一步地,其中第一滤波器组是正交调制滤波器(QMF)组和短时傅里叶变换中的一个,以及
第二接口,将初始音频信号的压缩版本传输到扩展器,所述扩展器接收音频信号的压缩版本,并且通过以下来对音频信号的压缩版本进行扩展以将其基本上恢复到初始音频信号的原始动态范围:使用所述定义的窗形状将初始音频信号分成多个片段,使用初始音频信号的频域样本的基于非能量的平均来在频域中计算宽带增益;以及向所述多个片段中的每个片段施加相应的宽带增益,以放大相对高强度的片段和衰减相对低强度的片段,
其中由扩展器计算出的宽带增益是由压缩器为同一时间片段计算的宽带增益的逆。
12.根据权利要求11所述的装置,还包括分析初始音频信号以获得其频域表示的第二滤波器组,并且其中用于分段的所述定义的窗形状与该滤波器组的原型滤波器相同,并且进一步地,其中第二滤波器组与第一滤波器组相同。
13.根据权利要求11所述的装置,还包括被配置为将音频信号的压缩版本的比特流从压缩器传输至扩展器的音频编解码器的编码器和解码器级,并且其中编码器和解码器这两者都是基于变换的。
14.根据权利要求13所述的装置,还包括控制组件,该控制组件产生确定扩展器的激活状态的控制信息并在比特流中传输该控制信息,并且其中,用于扩展过程的控制信息由压缩器基于初始音频信号的一个或更多个特性确定,所述初始音频信号的一个或更多个特性包括音频信号的内容类型以及音频信号的平稳对瞬态性质中的至少一个。
15.根据权利要求11所述的装置,还包括参数化空间信息组件,该参数化空间信息组件在第一滤波器组域中应用参数化空间信息以重构立体声输出,并且其中:在定义的频率以上使用所述参数化空间信息,在该定义的频率以下使用离散立体声信息;或者在定义的频率以下使用所述参数化空间信息,在该定义的频率以上使用离散立体声信息。
16.一种用于扩展音频信号的装置,包括:
第一接口,接收被压缩的音频信号;
扩展器,通过以下来对被压缩的音频信号进行扩展以基本上恢复其原始未压缩的动态范围:使用定义的窗形状将初始音频信号分成多个片段,使用初始音频信号的频域样本的基于非能量的平均来在频域中计算宽带增益,以及向所述多个片段中的每个片段施加相应的宽带增益,以放大相对高强度的片段和衰减相对低强度的片段,
第一滤波器组,分析音频信号以获得频域表示,其中所述定义的窗形状对应于第一滤波器组的原型滤波器,并且进一步地,其中第一滤波器组是正交调制滤波器(QMF)组和短时傅里叶变换中的一个,以及
第二接口,从压缩器接收被压缩的音频信号,所述压缩器接收初始音频信号,并且通过以下来对初始音频信号进行压缩以大幅减小初始音频信号的原始动态范围:使用所述定义的窗形状将初始音频信号分成多个片段,使用初始音频信号的频域样本的基于非能量的平均来在频域中计算宽带增益;以及向所述多个片段中的每个片段施加相应的宽带增益,以放大相对低强度的片段和衰减相对高强度的片段,并且
其中由压缩器计算出的宽带增益是由扩展器为同一时间片段计算的宽带增益的逆。
17.根据权利要求16所述的装置,还包括分析初始音频信号以获得其频域表示的第二滤波器组,并且其中用于分段的所述定义的窗形状与该滤波器组的原型滤波器相同,并且进一步地,其中第二滤波器组与第一滤波器组相同。
18.根据权利要求16所述的装置,还包括被配置为将音频信号的压缩版本的比特流从压缩器传输至扩展器的音频编解码器的编码器和解码器级,并且其中编码器和解码器这两者都是基于变换的。
19.根据权利要求18所述的装置,还包括控制组件,该控制组件产生确定扩展器的激活状态的控制信息并在比特流中传输该控制信息,并且其中,用于扩展过程的控制信息由压缩器基于初始音频信号的一个或更多个特性确定,所述一个或更多个特性包括音频信号的内容类型以及音频信号的平稳对瞬态性质中的至少一个。
20.根据权利要求16所述的装置,还包括参数化空间信息组件,所述参数化空间信息组件在第一滤波器组域中应用参数化空间信息以重构立体声输出,并且其中:在定义的频率以上使用所述参数化空间信息,在该定义的频率以下使用离散立体声信息;或者在定义的频率以下使用参数化空间信息,在该定义的频率以上使用离散立体声信息。
21.一种扩展音频信号的装置,包括:
用于接收音频信号的部件;以及
用于通过扩展过程将音频信号扩展到扩展的动态范围的部件,所述扩展过程包括:使用定义的窗形状将接收到的音频信号分成多个时间片段,使用音频信号的频域表示的基于非能量的平均来在频域中计算用于每个时间片段的宽带增益,以及向每个时间片段施加相应的宽带增益以获得扩展的动态范围音频信号,其中所述宽带增益的施加放大相对高强度的时间片段并且衰减相对低强度的时间片段,
其中时间片段是重叠的,
其中使用第一滤波器组来分析音频信号以获得频域表示,并且所述定义的窗形状对应于第一滤波器组的原型滤波器,
其中使用相应时间片段中的子带的子集中的子带样本来计算所述用于每个时间片段的宽带增益,并且
其中所述子带的子集对应于第一滤波器组跨越的整个频率范围。
22.一种压缩音频信号的装置,包括:
用于接收初始音频信号的部件;以及
用于通过压缩过程对初始音频信号进行压缩以大幅减小初始音频信号的原始动态范围的部件,该压缩过程包括使用定义的窗形状将初始音频信号分成多个片段,使用初始音频信号的频域样本的基于非能量的平均来在频域中计算宽带增益,以及向所述多个片段的每个片段施加相应的宽带增益,以放大相对低强度的片段和衰减相对高强度的片段,
其中片段是重叠的,并且其中使用第一滤波器组来分析音频信号以获得频域表示,并且所述定义的窗形状对应于第一滤波器组的原型滤波器,
其中使用相应时间片段中的子带的子集中的子带样本来计算每个宽带增益,并且
其中所述宽带增益根据第一滤波器组的子带的第一子集来计算,并被施加给第一滤波器组的子带的第二子集,其中所述子带的第二子集包括所述子带的第一子集。
23.一种包含指令的非暂时计算机可读介质,所述指令当被一个或多个处理器执行时执行如权利要求1-10中任一项所述的方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361809028P | 2013-04-05 | 2013-04-05 | |
US61/809,028 | 2013-04-05 | ||
US201361877167P | 2013-09-12 | 2013-09-12 | |
US61/877,167 | 2013-09-12 | ||
CN201480008819.0A CN104995680B (zh) | 2013-04-05 | 2014-04-01 | 使用高级频谱延拓降低量化噪声的压扩装置和方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480008819.0A Division CN104995680B (zh) | 2013-04-05 | 2014-04-01 | 使用高级频谱延拓降低量化噪声的压扩装置和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105933030A CN105933030A (zh) | 2016-09-07 |
CN105933030B true CN105933030B (zh) | 2018-09-28 |
Family
ID=50629038
Family Applications (8)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480008819.0A Active CN104995680B (zh) | 2013-04-05 | 2014-04-01 | 使用高级频谱延拓降低量化噪声的压扩装置和方法 |
CN201610333318.0A Active CN106024008B (zh) | 2013-04-05 | 2014-04-01 | 使用高级频谱延拓降低量化噪声的压扩装置和方法 |
CN202210192171.3A Pending CN114566183A (zh) | 2013-04-05 | 2014-04-01 | 使用高级频谱延拓降低量化噪声的压扩装置和方法 |
CN201810160805.0A Active CN108269586B (zh) | 2013-04-05 | 2014-04-01 | 使用高级频谱延拓降低量化噪声的压扩装置和方法 |
CN201810160804.6A Active CN108269585B (zh) | 2013-04-05 | 2014-04-01 | 使用高级频谱延拓降低量化噪声的压扩装置和方法 |
CN202210192156.9A Pending CN114566182A (zh) | 2013-04-05 | 2014-04-01 | 使用高级频谱延拓降低量化噪声的压扩装置和方法 |
CN201610364036.7A Active CN105933030B (zh) | 2013-04-05 | 2014-04-01 | 使用高级频谱延拓降低量化噪声的压扩装置和方法 |
CN201810160791.2A Active CN108269584B (zh) | 2013-04-05 | 2014-04-01 | 使用高级频谱延拓降低量化噪声的压扩装置和方法 |
Family Applications Before (6)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480008819.0A Active CN104995680B (zh) | 2013-04-05 | 2014-04-01 | 使用高级频谱延拓降低量化噪声的压扩装置和方法 |
CN201610333318.0A Active CN106024008B (zh) | 2013-04-05 | 2014-04-01 | 使用高级频谱延拓降低量化噪声的压扩装置和方法 |
CN202210192171.3A Pending CN114566183A (zh) | 2013-04-05 | 2014-04-01 | 使用高级频谱延拓降低量化噪声的压扩装置和方法 |
CN201810160805.0A Active CN108269586B (zh) | 2013-04-05 | 2014-04-01 | 使用高级频谱延拓降低量化噪声的压扩装置和方法 |
CN201810160804.6A Active CN108269585B (zh) | 2013-04-05 | 2014-04-01 | 使用高级频谱延拓降低量化噪声的压扩装置和方法 |
CN202210192156.9A Pending CN114566182A (zh) | 2013-04-05 | 2014-04-01 | 使用高级频谱延拓降低量化噪声的压扩装置和方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810160791.2A Active CN108269584B (zh) | 2013-04-05 | 2014-04-01 | 使用高级频谱延拓降低量化噪声的压扩装置和方法 |
Country Status (24)
Country | Link |
---|---|
US (6) | US9947335B2 (zh) |
EP (3) | EP3564953B1 (zh) |
JP (7) | JP6026678B2 (zh) |
KR (7) | KR102081043B1 (zh) |
CN (8) | CN104995680B (zh) |
AP (1) | AP2015008800A0 (zh) |
AU (1) | AU2014248232B2 (zh) |
BR (2) | BR112015019176B1 (zh) |
CA (1) | CA2900724C (zh) |
CL (1) | CL2015002278A1 (zh) |
DK (1) | DK2981963T3 (zh) |
EA (1) | EA028755B9 (zh) |
ES (1) | ES2617314T3 (zh) |
HK (4) | HK1257807A1 (zh) |
HU (1) | HUE031966T2 (zh) |
IL (8) | IL300496A (zh) |
ME (1) | ME02623B (zh) |
MX (1) | MX342965B (zh) |
MY (2) | MY173488A (zh) |
PL (1) | PL2981963T3 (zh) |
RU (2) | RU2600527C1 (zh) |
SG (1) | SG11201506134XA (zh) |
WO (1) | WO2014165543A1 (zh) |
ZA (1) | ZA201600393B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104995680B (zh) | 2013-04-05 | 2018-04-03 | 杜比实验室特许公司 | 使用高级频谱延拓降低量化噪声的压扩装置和方法 |
US9584911B2 (en) * | 2015-03-27 | 2017-02-28 | Cirrus Logic, Inc. | Multichip dynamic range enhancement (DRE) audio processing methods and apparatuses |
US10861475B2 (en) * | 2015-11-10 | 2020-12-08 | Dolby International Ab | Signal-dependent companding system and method to reduce quantization noise |
US10395664B2 (en) | 2016-01-26 | 2019-08-27 | Dolby Laboratories Licensing Corporation | Adaptive Quantization |
BR112017024480A2 (pt) * | 2016-02-17 | 2018-07-24 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. | pós-processador, pré-processador, codificador de áudio, decodificador de áudio e métodos relacionados para aprimoramento do processamento transiente |
US9934788B2 (en) * | 2016-08-01 | 2018-04-03 | Bose Corporation | Reducing codec noise in acoustic devices |
EP3651365A4 (en) * | 2017-07-03 | 2021-03-31 | Pioneer Corporation | SIGNAL PROCESSING DEVICE, CONTROL PROCESS, PROGRAM, AND INFORMATION SUPPORT |
RU2691122C1 (ru) * | 2018-06-13 | 2019-06-11 | Ордена трудового Красного Знамени федеральное государственное бюджетное образовательное учреждение высшего образования "Московский технический университет связи и информатики" (МТУСИ) | Способ и устройство компандирования звуковых вещательных сигналов |
JP7447085B2 (ja) * | 2018-08-21 | 2024-03-11 | ドルビー・インターナショナル・アーベー | コンパンディングによる密過渡イベントの符号化 |
US11929085B2 (en) | 2018-08-30 | 2024-03-12 | Dolby International Ab | Method and apparatus for controlling enhancement of low-bitrate coded audio |
US12065430B2 (en) | 2018-10-26 | 2024-08-20 | Taiho Pharmaceutical Co., Ltd. | Indazole compound or salt thereof |
CN110265043B (zh) * | 2019-06-03 | 2021-06-01 | 同响科技股份有限公司 | 自适应有损或无损的音频压缩和解压缩演算方法 |
JP2022552456A (ja) | 2019-09-13 | 2022-12-16 | ドルビー ラボラトリーズ ライセンシング コーポレイション | アーチファクトを低減したダイナミックレンジ圧縮 |
RU2731602C1 (ru) * | 2019-09-30 | 2020-09-04 | Ордена трудового Красного Знамени федеральное государственное бюджетное образовательное учреждение высшего образования "Московский технический университет связи и информатики" (МТУСИ) | Способ и устройство компандирования с предыскажением звуковых вещательных сигналов |
JP7340100B2 (ja) | 2019-10-28 | 2023-09-06 | メルク・シャープ・アンド・ドーム・エルエルシー | Kras g12c変異型の小分子阻害薬 |
US20230178084A1 (en) | 2020-04-30 | 2023-06-08 | Dolby International Ab | Method, apparatus and system for enhancing multi-channel audio in a dynamic range reduced domain |
JP2023533427A (ja) * | 2020-06-01 | 2023-08-03 | ドルビー・インターナショナル・アーベー | 生成ニューラル・ネットワークのパラメータを決定するための方法および装置 |
CN114095831A (zh) * | 2020-08-25 | 2022-02-25 | 上海艾为电子技术股份有限公司 | 多段动态范围控制电路以及音频处理芯片 |
CN112133319B (zh) * | 2020-08-31 | 2024-09-06 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频生成的方法、装置、设备及存储介质 |
CN117079657B (zh) * | 2023-10-16 | 2024-01-26 | 中国铁塔股份有限公司 | 压限处理方法、装置、电子设备及可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007120453A1 (en) * | 2006-04-04 | 2007-10-25 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
EP2144171A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder for encoding and decoding frames of a sampled audio signal |
CN101800051A (zh) * | 2009-02-09 | 2010-08-11 | 美国博通公司 | 处理信号的方法和处理音频信号的系统 |
CN102361506A (zh) * | 2011-06-08 | 2012-02-22 | 北京昆腾微电子有限公司 | 无线音频通信系统、以及用于发射音频信号的方法和设备 |
CN102549659A (zh) * | 2009-10-01 | 2012-07-04 | 高通股份有限公司 | 抑制音频信号中的噪声 |
Family Cites Families (84)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6026678B2 (ja) | 1981-04-30 | 1985-06-25 | 株式会社青木技研 | 電動ドライバ−の制御装置 |
JPS6026678A (ja) | 1983-07-22 | 1985-02-09 | Hiroshi Uchiyama | 原油受入配管防蝕法 |
JPH05292592A (ja) * | 1992-04-10 | 1993-11-05 | Toshiba Corp | 音質補正装置 |
US6003004A (en) * | 1998-01-08 | 1999-12-14 | Advanced Recognition Technologies, Inc. | Speech recognition method and system using compressed speech data |
JP3485786B2 (ja) | 1998-02-10 | 2004-01-13 | 三洋電機株式会社 | 音声データの圧縮/伸長装置 |
TW390104B (en) * | 1998-08-10 | 2000-05-11 | Acer Labs Inc | Method and device for down mixing of multi-sound-track compression audio frequency bit stream |
US6300888B1 (en) | 1998-12-14 | 2001-10-09 | Microsoft Corporation | Entrophy code mode switching for frequency-domain audio coding |
US6487257B1 (en) * | 1999-04-12 | 2002-11-26 | Telefonaktiebolaget L M Ericsson | Signal noise reduction by time-domain spectral subtraction using fixed filters |
EP1254513A4 (en) * | 1999-11-29 | 2009-11-04 | Syfx | SYSTEMS AND METHODS FOR SIGNAL PROCESSING |
CA2327041A1 (en) * | 2000-11-22 | 2002-05-22 | Voiceage Corporation | A method for indexing pulse positions and signs in algebraic codebooks for efficient coding of wideband signals |
JP2003005797A (ja) | 2001-06-21 | 2003-01-08 | Matsushita Electric Ind Co Ltd | オーディオ信号の符号化方法及び装置、並びに符号化及び復号化システム |
JP4247037B2 (ja) | 2003-01-29 | 2009-04-02 | 株式会社東芝 | 音声信号処理方法と装置及びプログラム |
EP2665294A2 (en) * | 2003-03-04 | 2013-11-20 | Core Wireless Licensing S.a.r.l. | Support of a multichannel audio extension |
WO2004082288A1 (en) | 2003-03-11 | 2004-09-23 | Nokia Corporation | Switching between coding schemes |
EP1619664B1 (en) | 2003-04-30 | 2012-01-25 | Panasonic Corporation | Speech coding apparatus, speech decoding apparatus and methods thereof |
RU2347282C2 (ru) * | 2003-07-07 | 2009-02-20 | Конинклейке Филипс Электроникс Н.В. | Система и способ обработки звукового сигнала |
KR20050049103A (ko) * | 2003-11-21 | 2005-05-25 | 삼성전자주식회사 | 포만트 대역을 이용한 다이얼로그 인핸싱 방법 및 장치 |
CN1677492A (zh) * | 2004-04-01 | 2005-10-05 | 北京宫羽数字技术有限责任公司 | 一种增强音频编解码装置及方法 |
MX2007005027A (es) * | 2004-10-26 | 2007-06-19 | Dolby Lab Licensing Corp | Calculo y ajuste de la sonoridad percibida y/o el balance espectral percibido de una senal de audio. |
WO2006063624A1 (en) * | 2004-12-16 | 2006-06-22 | Widex A/S | Hearing aid with feedback model gain estimation |
KR100647336B1 (ko) * | 2005-11-08 | 2006-11-23 | 삼성전자주식회사 | 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법 |
US7956930B2 (en) | 2006-01-06 | 2011-06-07 | Microsoft Corporation | Resampling and picture resizing operations for multi-resolution video coding and decoding |
WO2007080211A1 (en) * | 2006-01-09 | 2007-07-19 | Nokia Corporation | Decoding of binaural audio signals |
SG136836A1 (en) * | 2006-04-28 | 2007-11-29 | St Microelectronics Asia | Adaptive rate control algorithm for low complexity aac encoding |
CN100543842C (zh) * | 2006-05-23 | 2009-09-23 | 中兴通讯股份有限公司 | 基于多统计模型和最小均方误差实现背景噪声抑制的方法 |
CN101089951B (zh) * | 2006-06-16 | 2011-08-31 | 北京天籁传音数字技术有限公司 | 频带扩展编码方法及装置和解码方法及装置 |
JP4704499B2 (ja) * | 2006-07-04 | 2011-06-15 | ドルビー インターナショナル アクチボラゲット | 圧縮サブバンド・フィルタ・インパルス応答を作るためのフィルタ・コンプレッサおよび方法 |
CN101529929B (zh) * | 2006-09-05 | 2012-11-07 | Gn瑞声达A/S | 具有基于直方图的声环境分类的助听器 |
JP5270557B2 (ja) * | 2006-10-16 | 2013-08-21 | ドルビー・インターナショナル・アクチボラゲット | 多チャネルダウンミックスされたオブジェクト符号化における強化された符号化及びパラメータ表現 |
US7953595B2 (en) * | 2006-10-18 | 2011-05-31 | Polycom, Inc. | Dual-transform coding of audio signals |
JP5141180B2 (ja) * | 2006-11-09 | 2013-02-13 | ソニー株式会社 | 周波数帯域拡大装置及び周波数帯域拡大方法、再生装置及び再生方法、並びに、プログラム及び記録媒体 |
CN101067931B (zh) * | 2007-05-10 | 2011-04-20 | 芯晟(北京)科技有限公司 | 一种高效可配置的频域参数立体声及多声道编解码方法与系统 |
US9185507B2 (en) * | 2007-06-08 | 2015-11-10 | Dolby Laboratories Licensing Corporation | Hybrid derivation of surround sound audio channels by controllably combining ambience and matrix-decoded signal components |
US7774205B2 (en) * | 2007-06-15 | 2010-08-10 | Microsoft Corporation | Coding of sparse digital media spectral data |
ATE535906T1 (de) * | 2007-07-13 | 2011-12-15 | Dolby Lab Licensing Corp | Tonverarbeitung mittels auditorischer szenenanalyse und spektraler asymmetrie |
EP3288028B1 (en) * | 2007-08-27 | 2019-07-03 | Telefonaktiebolaget LM Ericsson (publ) | Low-complexity spectral analysis/synthesis using selectable time resolution |
JP4854630B2 (ja) * | 2007-09-13 | 2012-01-18 | 富士通株式会社 | 音処理装置、利得制御装置、利得制御方法及びコンピュータプログラム |
CN100585699C (zh) * | 2007-11-02 | 2010-01-27 | 华为技术有限公司 | 一种音频解码的方法和装置 |
EP2229677B1 (en) * | 2007-12-18 | 2015-09-16 | LG Electronics Inc. | A method and an apparatus for processing an audio signal |
RU2437247C1 (ru) * | 2008-01-01 | 2011-12-20 | ЭлДжи ЭЛЕКТРОНИКС ИНК. | Способ и устройство для обработки звукового сигнала |
ATE500588T1 (de) * | 2008-01-04 | 2011-03-15 | Dolby Sweden Ab | Audiokodierer und -dekodierer |
CN101335000B (zh) * | 2008-03-26 | 2010-04-21 | 华为技术有限公司 | 编码的方法及装置 |
CN101262530B (zh) * | 2008-04-29 | 2011-12-07 | 中兴通讯股份有限公司 | 一种消除移动终端回音的装置 |
EP2299368B1 (en) * | 2008-05-01 | 2017-09-06 | Japan Science and Technology Agency | Audio processing device and audio processing method |
JP4750153B2 (ja) * | 2008-05-28 | 2011-08-17 | 独立行政法人科学技術振興機構 | 音響装置及び音響調整方法 |
CN101281747A (zh) * | 2008-05-30 | 2008-10-08 | 苏州大学 | 基于声道参数的汉语耳语音声调识别方法 |
EP4407613A1 (en) * | 2008-07-11 | 2024-07-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program |
EP2410521B1 (en) | 2008-07-11 | 2017-10-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio signal encoder, method for generating an audio signal and computer program |
CA2730355C (en) | 2008-07-11 | 2016-03-22 | Guillaume Fuchs | Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme |
EP2144230A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
US20110125507A1 (en) * | 2008-07-18 | 2011-05-26 | Dolby Laboratories Licensing Corporation | Method and System for Frequency Domain Postfiltering of Encoded Audio Data in a Decoder |
CN101656580B (zh) * | 2008-08-22 | 2013-03-20 | 中兴通讯股份有限公司 | 全速率语音的处理方法和装置 |
JP2010079275A (ja) * | 2008-08-29 | 2010-04-08 | Sony Corp | 周波数帯域拡大装置及び方法、符号化装置及び方法、復号化装置及び方法、並びにプログラム |
CN101359902B (zh) * | 2008-09-25 | 2012-03-21 | 炬才微电子(深圳)有限公司 | 一种音频信号的均衡方法及系统 |
JP5245714B2 (ja) * | 2008-10-24 | 2013-07-24 | ヤマハ株式会社 | 雑音抑圧装置及び雑音抑圧方法 |
JP5603339B2 (ja) * | 2008-10-29 | 2014-10-08 | ドルビー インターナショナル アーベー | 既存のオーディオゲインメタデータを使用した信号のクリッピングの保護 |
ATE552651T1 (de) | 2008-12-24 | 2012-04-15 | Dolby Lab Licensing Corp | Audiosignallautheitbestimmung und modifikation im frequenzbereich |
TWI618352B (zh) * | 2009-02-18 | 2018-03-11 | 杜比國際公司 | 用於高頻重建或參數立體聲之複指數調變濾波器組 |
JP4843691B2 (ja) * | 2009-03-09 | 2011-12-21 | 株式会社東芝 | 信号特性変化装置 |
CN101853666B (zh) * | 2009-03-30 | 2012-04-04 | 华为技术有限公司 | 一种语音增强的方法和装置 |
CN101521014B (zh) * | 2009-04-08 | 2011-09-14 | 武汉大学 | 音频带宽扩展编解码装置 |
US8391212B2 (en) * | 2009-05-05 | 2013-03-05 | Huawei Technologies Co., Ltd. | System and method for frequency domain audio post-processing based on perceptual masking |
US9093968B2 (en) * | 2009-05-29 | 2015-07-28 | Sharp Kabushiki Kaisha | Sound reproducing apparatus, sound reproducing method, and recording medium |
US8949114B2 (en) * | 2009-06-04 | 2015-02-03 | Optis Wireless Technology, Llc | Method and arrangement for estimating the quality degradation of a processed signal |
CN101668303B (zh) * | 2009-09-24 | 2012-02-15 | 武汉中元通信股份有限公司 | 双频段宽带电台野外联试通信仿真方法与平台 |
US9159337B2 (en) * | 2009-10-21 | 2015-10-13 | Dolby International Ab | Apparatus and method for generating a high frequency audio signal using adaptive oversampling |
CN101916567B (zh) * | 2009-11-23 | 2012-02-01 | 瑞声声学科技(深圳)有限公司 | 应用于双麦克风系统的语音增强方法 |
US9584235B2 (en) | 2009-12-16 | 2017-02-28 | Nokia Technologies Oy | Multi-channel audio processing |
CN101800520B (zh) * | 2010-02-25 | 2013-05-22 | 青岛海信移动通信技术股份有限公司 | 自动增益控制的实现方法及实现系统 |
TWI459828B (zh) * | 2010-03-08 | 2014-11-01 | Dolby Lab Licensing Corp | 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統 |
US8616516B2 (en) | 2010-03-24 | 2013-12-31 | Intertechnique S.A. | Assembling device for cabin interior components |
CN101867809A (zh) * | 2010-04-09 | 2010-10-20 | 中国科学院光电技术研究所 | 基于脉动阵列的高速图像压缩vlsi编码方法及编码器 |
US8886523B2 (en) | 2010-04-14 | 2014-11-11 | Huawei Technologies Co., Ltd. | Audio decoding based on audio class with control code for post-processing modes |
US8793126B2 (en) * | 2010-04-14 | 2014-07-29 | Huawei Technologies Co., Ltd. | Time/frequency two dimension post-processing |
US8964993B2 (en) * | 2010-04-27 | 2015-02-24 | Yobe, Inc. | Systems and methods for enhancing audio content |
WO2011158485A2 (ja) | 2010-06-14 | 2011-12-22 | パナソニック株式会社 | オーディオハイブリッド符号化装置およびオーディオハイブリッド復号装置 |
US20130136282A1 (en) * | 2011-11-30 | 2013-05-30 | David McClain | System and Method for Spectral Personalization of Sound |
CN102522092B (zh) * | 2011-12-16 | 2013-06-19 | 大连理工大学 | 一种基于g.711.1的语音带宽扩展的装置和方法 |
CN102543086B (zh) * | 2011-12-16 | 2013-08-14 | 大连理工大学 | 一种基于音频水印的语音带宽扩展的装置和方法 |
CN102625220B (zh) * | 2012-03-22 | 2014-05-07 | 清华大学 | 一种确定助听设备听力补偿增益的方法 |
CN102737647A (zh) * | 2012-07-23 | 2012-10-17 | 武汉大学 | 双声道音频音质增强编解码方法及装置 |
CN104995680B (zh) | 2013-04-05 | 2018-04-03 | 杜比实验室特许公司 | 使用高级频谱延拓降低量化噪声的压扩装置和方法 |
US10861475B2 (en) * | 2015-11-10 | 2020-12-08 | Dolby International Ab | Signal-dependent companding system and method to reduce quantization noise |
JP7447085B2 (ja) * | 2018-08-21 | 2024-03-11 | ドルビー・インターナショナル・アーベー | コンパンディングによる密過渡イベントの符号化 |
-
2014
- 2014-04-01 CN CN201480008819.0A patent/CN104995680B/zh active Active
- 2014-04-01 BR BR112015019176-2A patent/BR112015019176B1/pt active IP Right Grant
- 2014-04-01 EP EP19173050.6A patent/EP3564953B1/en active Active
- 2014-04-01 KR KR1020167015589A patent/KR102081043B1/ko active IP Right Grant
- 2014-04-01 MX MX2015010478A patent/MX342965B/es active IP Right Grant
- 2014-04-01 AU AU2014248232A patent/AU2014248232B2/en active Active
- 2014-04-01 KR KR1020157022089A patent/KR101632599B1/ko active IP Right Grant
- 2014-04-01 KR KR1020217012568A patent/KR102509345B1/ko active IP Right Grant
- 2014-04-01 EA EA201591533A patent/EA028755B9/ru not_active IP Right Cessation
- 2014-04-01 CN CN201610333318.0A patent/CN106024008B/zh active Active
- 2014-04-01 KR KR1020237008172A patent/KR20230039765A/ko not_active Application Discontinuation
- 2014-04-01 CA CA2900724A patent/CA2900724C/en active Active
- 2014-04-01 HU HUE14720877A patent/HUE031966T2/en unknown
- 2014-04-01 RU RU2015133770/08A patent/RU2600527C1/ru active
- 2014-04-01 IL IL300496A patent/IL300496A/en unknown
- 2014-04-01 KR KR1020227033715A patent/KR20220140002A/ko active Search and Examination
- 2014-04-01 AP AP2015008800A patent/AP2015008800A0/xx unknown
- 2014-04-01 ME MEP-2017-52A patent/ME02623B/me unknown
- 2014-04-01 CN CN202210192171.3A patent/CN114566183A/zh active Pending
- 2014-04-01 MY MYPI2015702483A patent/MY173488A/en unknown
- 2014-04-01 WO PCT/US2014/032578 patent/WO2014165543A1/en active Application Filing
- 2014-04-01 EP EP14720877.1A patent/EP2981963B1/en active Active
- 2014-04-01 SG SG11201506134XA patent/SG11201506134XA/en unknown
- 2014-04-01 ES ES14720877.1T patent/ES2617314T3/es active Active
- 2014-04-01 KR KR1020207006389A patent/KR102248008B1/ko active Application Filing
- 2014-04-01 CN CN201810160805.0A patent/CN108269586B/zh active Active
- 2014-04-01 JP JP2015558242A patent/JP6026678B2/ja active Active
- 2014-04-01 DK DK14720877.1T patent/DK2981963T3/en active
- 2014-04-01 MY MYPI2018001823A patent/MY197063A/en unknown
- 2014-04-01 US US14/762,690 patent/US9947335B2/en active Active
- 2014-04-01 CN CN201810160804.6A patent/CN108269585B/zh active Active
- 2014-04-01 CN CN202210192156.9A patent/CN114566182A/zh active Pending
- 2014-04-01 CN CN201610364036.7A patent/CN105933030B/zh active Active
- 2014-04-01 PL PL14720877T patent/PL2981963T3/pl unknown
- 2014-04-01 KR KR1020167015588A patent/KR102088153B1/ko active IP Right Grant
- 2014-04-01 CN CN201810160791.2A patent/CN108269584B/zh active Active
- 2014-04-01 EP EP16205100.7A patent/EP3176786B1/en active Active
- 2014-04-01 RU RU2016116038A patent/RU2712814C2/ru active
- 2014-04-01 BR BR122017006632-3A patent/BR122017006632A2/pt not_active Application Discontinuation
-
2015
- 2015-07-19 IL IL240006A patent/IL240006A/en active IP Right Grant
- 2015-08-14 CL CL2015002278A patent/CL2015002278A1/es unknown
- 2015-12-08 HK HK19100077.5A patent/HK1257807A1/zh unknown
- 2015-12-08 HK HK15112109.6A patent/HK1211379A1/zh unknown
- 2015-12-08 HK HK18113875.3A patent/HK1254791A1/zh unknown
- 2015-12-08 HK HK18113874.4A patent/HK1254790A1/zh unknown
-
2016
- 2016-01-18 ZA ZA2016/00393A patent/ZA201600393B/en unknown
- 2016-01-19 IL IL243689A patent/IL243689A0/en active IP Right Grant
- 2016-04-07 JP JP2016076927A patent/JP6517723B2/ja active Active
- 2016-06-17 JP JP2016120633A patent/JP6542717B2/ja active Active
-
2018
- 2018-03-07 US US15/914,917 patent/US10217476B2/en active Active
- 2018-03-08 US US15/915,405 patent/US10373627B2/en active Active
- 2018-09-02 IL IL261514A patent/IL261514B/en active IP Right Grant
-
2019
- 2019-05-12 IL IL266569A patent/IL266569B/en active IP Right Grant
- 2019-06-13 JP JP2019110378A patent/JP6838105B2/ja active Active
- 2019-06-28 US US16/457,726 patent/US10679639B2/en active Active
-
2020
- 2020-04-30 IL IL274358A patent/IL274358B/en active IP Right Grant
- 2020-06-03 US US16/892,180 patent/US11423923B2/en active Active
-
2021
- 2021-02-10 JP JP2021019640A patent/JP7050976B2/ja active Active
- 2021-05-11 IL IL283098A patent/IL283098B/en unknown
-
2022
- 2022-03-29 JP JP2022052882A patent/JP7383067B2/ja active Active
- 2022-05-09 IL IL292853A patent/IL292853B2/en unknown
- 2022-08-18 US US17/820,594 patent/US20230049495A1/en active Pending
-
2023
- 2023-11-07 JP JP2023189975A patent/JP2024020311A/ja active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007120453A1 (en) * | 2006-04-04 | 2007-10-25 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
EP2144171A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder for encoding and decoding frames of a sampled audio signal |
CN101800051A (zh) * | 2009-02-09 | 2010-08-11 | 美国博通公司 | 处理信号的方法和处理音频信号的系统 |
US20100204996A1 (en) * | 2009-02-09 | 2010-08-12 | Hanks Zeng | Method and system for dynamic range control in an audio processing system |
CN102549659A (zh) * | 2009-10-01 | 2012-07-04 | 高通股份有限公司 | 抑制音频信号中的噪声 |
CN102361506A (zh) * | 2011-06-08 | 2012-02-22 | 北京昆腾微电子有限公司 | 无线音频通信系统、以及用于发射音频信号的方法和设备 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105933030B (zh) | 使用高级频谱延拓降低量化噪声的压扩装置和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |