CN105900170A - 压缩音频信号的以信号质量为基础的增强和补偿 - Google Patents
压缩音频信号的以信号质量为基础的增强和补偿 Download PDFInfo
- Publication number
- CN105900170A CN105900170A CN201580003948.5A CN201580003948A CN105900170A CN 105900170 A CN105900170 A CN 105900170A CN 201580003948 A CN201580003948 A CN 201580003948A CN 105900170 A CN105900170 A CN 105900170A
- Authority
- CN
- China
- Prior art keywords
- signal
- frequency
- audio signal
- brick wall
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 152
- 239000011449 brick Substances 0.000 claims abstract description 87
- 238000000034 method Methods 0.000 claims description 45
- 230000004044 response Effects 0.000 claims description 30
- 230000007704 transition Effects 0.000 claims description 30
- 230000001052 transient effect Effects 0.000 claims description 25
- 230000008034 disappearance Effects 0.000 claims description 22
- 239000012634 fragment Substances 0.000 claims description 19
- 230000006698 induction Effects 0.000 claims description 16
- 238000001514 detection method Methods 0.000 claims description 13
- 238000007689 inspection Methods 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 230000009471 action Effects 0.000 claims description 2
- 238000012217 deletion Methods 0.000 claims 3
- 230000037430 deletion Effects 0.000 claims 3
- 239000003623 enhancer Substances 0.000 abstract description 2
- 230000008447 perception Effects 0.000 description 34
- 230000008569 process Effects 0.000 description 26
- 238000007906 compression Methods 0.000 description 25
- 230000006835 compression Effects 0.000 description 22
- 238000012856 packing Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 17
- 230000008859 change Effects 0.000 description 10
- 230000000875 corresponding effect Effects 0.000 description 9
- 230000002708 enhancing effect Effects 0.000 description 8
- 230000000630 rising effect Effects 0.000 description 7
- 238000003860 storage Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000001965 increasing effect Effects 0.000 description 6
- 239000000203 mixture Substances 0.000 description 6
- 230000008878 coupling Effects 0.000 description 5
- 238000010168 coupling process Methods 0.000 description 5
- 238000005859 coupling reaction Methods 0.000 description 5
- 238000005259 measurement Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000002829 reductive effect Effects 0.000 description 5
- 101000746134 Homo sapiens DNA endonuclease RBBP8 Proteins 0.000 description 4
- 101000969031 Homo sapiens Nuclear protein 1 Proteins 0.000 description 4
- 102100021133 Nuclear protein 1 Human genes 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 3
- 238000013144 data compression Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000005728 strengthening Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000011049 filling Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 210000001367 artery Anatomy 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000002161 passivation Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000010349 pulsation Effects 0.000 description 1
- 238000005086 pumping Methods 0.000 description 1
- 238000004080 punching Methods 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 210000003462 vein Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
采样器模块可将音频信号分成一系列顺序样本。信号质量检测器模块可识别所述音频信号的在所述音频信号开端跨越多个顺序样本的一致砖墙频率,并且确定与所述砖墙频率成比例的信号处置指示。信号增强器模块可顺序地接收并分析所述音频信号的一个或多个样本分量,以识别各自顺序样本的所述一个或多个样本分量中的所述音频信号的丢失部分,并且根据所述信号质量指示生成用于具有对应识别的丢失部分的各自顺序样本的所述一个或多个样本分量中每一个的对应信号处置。
Description
相关申请的交叉引用
本申请要求2014年1月7日提交的美国临时申请序列号61/924,641的权益,所述申请的公开内容以引用方式整体并入本文。
技术领域
本公开的方面涉及音频信号处理,并且更具体地说,涉及信号增强和恢复。
背景技术
压缩音频信号是已经历由感知音频编解码器进行的某种形式的数据压缩的信号。感知音频编解码器通过丢弃音频信号中被感知为可听度较低或感知上不太重要的分量,来减少用于存储、转移或传输音频信号的数据量。数据压缩过程通常引入原始(未压缩的)音频信号与压缩音频信号之间的不希望的可听差异。不同的感知音频编解码器可采用不同的策略来丢弃原始音频信号的部分,但可听差异的感知特性通常是类似的。
发明内容
采样器模块可将音频信号分成一系列顺序样本。信号质量检测器模块可识别所述音频信号的在所述音频信号开端跨越多个顺序样本的一致砖墙频率(consistent brick wall frequency),并且确定与所述砖墙频率成比例的信号处置指示。信号增强器模块可顺序地接收并分析所述音频信号的一个或多个样本分量,以识别各自顺序样本的所述一个或多个样本分量中的所述音频信号的丢失部分,并且根据所述信号质量指示生成用于具有对应识别的丢失部分的各自顺序样本的所述一个或多个样本分量中每一个的对应信号处置。
附图说明
参阅以下附图和描述可更好地理解所述系统。附图中的部件不一定按比例绘制,而是强调示出本发明的原理。此外,在附图中,相同参考数字在所有不同视图中指示对应的部分。
图1为包括与感知音频编码器和解码器结合使用的示例性信号增强器系统的方框图。
图2为包括整合到信号增强器系统中的感知音频解码器的实例的方框图。
图3为信号增强器系统的实例的方框图。
图4为对立体声信号的中侧部分操作的信号增强器系统的实例的方框图。
图5为对音频信号的单独空间片段操作的分离式信号增强器模块的实例的方框图。
图6描绘在以块为基础的分解的表示的情况下的示例性脉冲响应的分量。
图7为图3中所示的混响填充模块的示例性方框图。
图8为在给定频率下的样本的输入混响系列的样本分量的示例性估计。
图9a为信号质量分析器、处置水平调整器和显示模块的示例性方框图。
图9b为自动重新调整每个流或每个音轨的处置增益的压缩检测和处置算法的过程的示例性方框图。
图10为具有带宽增强信号处置的输出信号的示例性显示。
图11a和图11b描绘示例性频谱图(频域)以示出由信号增强器系统进行的压缩。
图12a和图12b描绘示例性频谱图以示出由信号增强器系统进行的瞬时增强。
图13为示例性计算系统。
具体实施方式
按照要求,本文公开了本发明的详细实施方案;然而,应当理解的是,所公开的实施方案仅仅是可以各种和替代形式体现的本发明的示例。附图不一定按比例绘制;一些特征可能被夸大或最小化以展示特定部件的细节。因此,本文中公开的特定结构细节和功能细节不应被解释为是限制性的,而是仅仅作为用于教导本领域技术人员以不同方式使用本发明的代表性基础。
压缩音频信号是含有音频内容的已经历如由感知音频编解码器进行的某种形式的数据压缩的信号。常见类型的感知音频编解码器包括MP3、AAC、杜比数字(Dolby Digital)和DTS。这些感知音频编解码器通过丢弃音频信号的显著部分来减少音频信号的大小。感知音频编解码器可用来减少存储音频信号所需要的空间(存储器)量,或减少传输或转移音频信号所需要的带宽量。以90%或更多来压缩音频信号并不罕见。感知音频编解码器可使用人类听觉系统如何感知声音的模型。以此方式,感知音频编解码器可丢弃音频信号中被视为听不见或与收听者感知声音最不相关的那些部分。因此,感知音频编解码器能够减少音频信号的大小,同时对于剩余信号仍维持相对好的感知音频质量。一般来说,压缩音频信号的感知质量可取决于压缩信号的比特率。较低的比特率可指示原始音频信号的较大部分被丢弃,并且因此,一般来说,压缩音频信号的感知质量可能较差。
存在许多类型的感知音频编解码器,并且每种类型可在确定原始音频信号的哪些部分将在压缩过程中被丢弃中使用一组不同的准则。感知音频编解码器可包括编码过程和解码过程。编码器接收原始音频信号,并且可确定信号的哪些部分将被丢弃。编码器随后可将剩余信号置于适合于压缩存储和/或传输的格式中。解码器可接收压缩音频信号、解码所述压缩音频信号,并且随后可将解码后音频信号转换成适合于音频回放的格式。在大多数感知音频编解码器中,可包括感知模型的使用的解码过程可确定压缩音频信号的所得质量。在这些情况下,解码器可充当将信号自压缩格式(通常某种形式的频域表示)转换成适合于音频回放的格式的格式转换器。
信号增强器系统可修改已由感知音频编解码器处理的压缩音频信号,以使得已在压缩过程中丢弃或更改的信号分量和特性被感知以便在处理后输出信号中恢复。如本文所使用,术语音频信号可指代表示音频内容的电信号,或可听声音,除非另有描述。
当使用感知音频编解码器来压缩音频信号时,不可能检索丢弃的信号分量。然而,信号增强器系统可分析压缩音频信号中的剩余信号分量,并且生成新信号分量以感知上替换丢弃的分量。
在一些情况下,压缩音频信号源的质量可由音频源明确地指定,或可基于音频源推断。在一个实例中,卫星无线电内容可已知以特定质量和比率编码。在另一个示例性中,如用于音频源的当前比特率和编解码器信息的元数据可通过总线消息或通过正被解码的音频文件的标头信息来指定。在此类情况下,信号增强器可被配置来基于由音频源指定的质量来施加处置水平。在其他情况下,源质量可为未知的或不容易预测的。此类音频源的一些实例可包括如iPod的音乐播放器、USB驱动器、通过蓝牙连接接收的音频、通过辅助连接接收的音频,或来自未知音乐流应用的音频流。在此类情况下,信号增强器可被配置来基于输入音频自身的内容的特性来自动检测适合于音频源的处置水平。
自动检测可被配置来基于输入信号开端的测量质量施加成比例量的处置。例如,如果检测到砖墙斜坡(例如,高于12kHz的频率的硬截止),则音频源可被认为是压缩的并且可施加处置。如果未检测到砖墙斜坡,则音频源可被认为是未压缩的,并且处置可被视为不必要的且未被施加。将要施加的特定量的处置可基于砖墙的频率截止点。例如,较低截止频率可指示需要较大量的处置的相对较多压缩的音频流,而较高截止频率可指示需要较少量的处置的相对较少压缩的音频流。在一些情况下,如果截止频率低于最小阈值,则信号增强器可确定音频源质量过低而不能被压缩,并且可不施加处置。作为另一种可能性,如果截止频率高于最大阈值,则信号增强器可确定音频源具有充分的质量而不需要处置。
如果音频轨道缺乏充分的高频率内容,则信号增强器可确定没有处置应被施加,尽管音频的低音频质量或低比特率。在一个实例中,钢琴的音频轨道可能缺乏高频率内容,以使得砖墙可能并不是可容易检测的。或者,如果轨道在记录水平中过低,则信号增强器也可确定将不施加处置。
当初始化时,或当检测到间隙(例如,静音或轨道变化)时,信号增强器可重置锁存器并且将检测的处置水平设定至无。当音频初始化或重新开始时,自动检测机构可寻找压缩(例如,通过执行砖墙截止频率检测)。当轨道被识别为压缩的时,处置水平可被设定(即锁存),以使得处置水平可保持在窄范围内直到下一个轨道。此锁存因此可防止脉动、可变声音,或具有变化处置率的其他可听伪像。
另外或替代地,在间隙的检测之后,计时器可开始计数。如果在预定时间段或预定数目的样本(例如,五秒)内未检测到压缩,则信号增强器可选择不施加处置直到检测到下一个间隙。这可避免在轨道中间归因于高频率的突然出现和后续处置水平调整的意外频谱变化。
图1为包括信号增强器系统110的实例的方框图。信号增强器系统110可能在频域或时域中操作。信号增强器系统110可包括采样器模块112。采样器模块112可实时接收输入信号(X),并且将输入信号(X)分成样本。在频域中的操作期间,采样器模块112可收集顺序时域样本,适合的加窗函数(如root-Hann窗)被施加,并且如使用FFT(快速傅里叶变换)将加窗样本转换成频域中的顺序频格(bin)。在一个实例中,采样器模块112可利用1024-点FFT和44.1kHz采样率。类似地,作为信号增强器系统110中的最后步骤,增强的频域频格可由采样器模块112使用逆FFT(快速傅立叶逆变换)来转换成时域,并且施加适合的互补加窗(诸如root-Hann窗),以产生增强时域样本块。预定量(如至少50%)的重叠可用以在将时域样本转换成频域之前添加时域样本和对时域样本加窗。在信号增强器系统110的输出线105上的输出处,当在从频率到时域的转换之后构造增强时域样本时,可使用类似的预定重叠(如至少50%)。替代地,信号增强器系统110可使用时域样本的顺序块在时域中操作,并且可从采样器模块112消除转换器。为简化讨论和附图,省略采样器模块112以及时间-到-频率和频率-到-时间转换的进一步讨论和图解。从而,如本文所描述,顺序样本或样本序列可能可互换地指代时域样本的时序序列,或对应于已由采样器模块112采样的输入信号(X)的时序接收的频域频格的时序序列。
在图1中,信号增强器110被示出为与感知音频编码器101和感知音频解码器103结合使用。可在音频信号输入线100上向感知音频编码器101提供原始音频信号(Z)。感知音频编码器101可丢弃音频信号分量,以在压缩比特流线102上产生压缩音频比特流(Q)。感知音频解码器103可解码压缩音频比特流(Q),以在输入信号线104(在本文中有时被称为输入信号(X)104)上产生输入信号(X)。输入信号(X)可为呈适合于音频回放格式的音频信号。信号增强器系统110可操作来将输入信号(X)分成样本序列,以便增强输入信号(X)来在输出信号线105上产生输出信号(Y)。侧链数据可含有与输入信号(X)的处理相关的信息,所述信息如以下各项的指示:所使用的音频编解码器的类型、编解码器制造商、比特率、立体声对比联合立体声编码、采样率、唯一输入通道的数目、编码块大小、和歌曲/轨道识别符。在其他实例中,可包括与音频信号(X)或编码/解码过程相关的任何其他信息作为侧链数据的一部分。侧链数据可在侧链数据线106上从感知音频解码器103提供到信号增强器系统110。替代地或另外,也可包括侧链数据作为输入信号(X)的一部分。
图2为与感知音频编码器和解码器结合使用的信号增强器系统110的实例的方框图。在这种情况下,感知音频解码器103可被合并作为信号增强器系统110的一部分。因此,信号增强器系统110可直接对在压缩比特流线102上接收的压缩音频比特流(Q)操作。替代地,在其他实例中,信号增强器系统110可被包括在感知音频解码器103中。在这种配置中,信号增强器系统110可以利用压缩音频比特流(Q)102的细节。
图3为信号增强器系统110的实例的方框图。在图3中,信号增强器系统110包括信号处置模块300,所述信号处置模块可在输入信号线104上接收输入信号(X)。信号处置模块300可在对应信号处置线310上产生一些单独和唯一的信号处置(ST1、ST2、ST3、ST4、ST5、ST6和ST7)。尽管示出七个信号处置,但是更少或更多数目(n)的信号处置在其他实例中是可能的。信号处置(STn)中每一个的相对能级可在于第一求和块321处被加在一起以产生总信号处置(STT)323之前,通过处置增益(g1、g2、g3、g4、g5、g6和g7)315单独调整。总信号处置(STT)323的级可在于第二求和块322处被加到输入信号(X)104之前,通过总处置增益(gT)320调整。
信号处置模块300可包括一个或多个处置模块(301、302、303、304、305、306和307),所述一个或多个处置模块对输入信号(X)的顺序样本的单独样本分量操作,以针对各自分量在逐样本的基础上顺序地产生信号处置(310)。顺序样本的单独样本分量可涉及音频信号的不同特性。替代地或另外,信号处置模块300可包括附加的或更少的处置模块300。所示的模块可为独立的,或可为以各种组合中的任一种形成来创建模块的子模块。
图4为对输入信号(X)的如由中侧分量模块400提取的中侧分量操作的信号增强器系统110的实例。术语“中侧”指代立体声音频信号中的音频信息,在所述立体声音频信号中,左立体声通道和右立体声通道共用的音频信息被认为是音频信息的“中”信号分量,并且音频信息的“侧”信号分量是在左立体声通道与右立体声通道之间相异的音频信息。感知音频编解码器可对音频信号的中侧分量操作,以便改善感知音频编解码器的性能。在这种情况下,编码器可丢弃更多的侧信号分量同时保持更多的中信号分量。因而,在这种情况下,如果信号增强器系统110对立体声输入信号(X)的中侧信号分量,而不是直接对立体声信号的左通道和右通道直接操作,则可改善信号增强器系统110的操作的最优化。
在图4中,立体声到中侧模块400可将立体声输入信号X转换成中侧信号配置Xms,所述中侧信号配置继而可被提供到信号增强器系统110以用于在中侧信号线401上处理。信号增强器系统110可对中侧信号Xms进行操作以产生增强中侧信号(Yms)。增强中侧信号(Yms)可在增强中侧信号线402上被供应到中侧到立体声模块403。中侧到立体声模块403可将增强中侧信号(Yms)转换成在输出线105上供应的立体声(左通道和右通道)输出信号(Y)。
图5为在空间片段流线501上对一组“n”个空间片段流(XSS1、XSS2、XSS3、…、XSSn)操作的一组“n”个信号增强器系统110的实例,所述空间片段流线可源自空间片段分解模块500。空间片段分解模块500可在输入信号线104上接收立体声或多通道音频输入信号(X),并且产生一组空间片段流。空间片段流可含有空间滤波器组的输出,所述空间滤波器组基于音频信号源在感知的立体声或多通道声场内的空间位置来分解输入信号。一种用于将输入信号分解成空间片段以产生空间片段流501的可能方法描述于标题为“SYSTEM FORSPATIAL EXTRACTION OF AUDIO SIGNALS”的美国专利申请号12/897,709中,所述美国专利申请以引用方式整体并入本文。
在图5中,“n”个信号增强器110中每一个在增强输出流线502上产生增强输出流(YSS1、YSS2、YSS3、…、YSSn)。“n”个输出流在求和模块503处组合以在输出线105上产生输出信号(Y)。当对单独空间片段流操作分离式信号增强器系统110时,可获得系统的改善性能,因为每个信号增强器系统110可对音频输出信号104的较多隔离样本分量操作,并且因而可更好地能够导出用于每个空间片段流(XSSn)的合适信号处置(ST1、ST2、ST3、ST4、ST5、ST6和ST7)。可针对包括在各自空间片段流(XSSn)中每一个的样本中的不同样本分量独立地导出任何数目的不同信号处置(ST1、ST2、ST3、ST4、ST5、ST6和ST7)。
在图3中,信号处置模块300可包括一个或多个处置模块(301、302、303、304、305、306和307)以针对音频信号或从音频信号产生的空间片段流的各自顺序样本的单独样本分量导出信号处置(ST1、ST2、ST3、ST4、ST5、ST6和ST7)。处置模块(301、302、303、304、305、306和307)中每一个可针对与音频信号或空间流相关的不同特性导出信号处置(ST1、ST2、ST3、ST4、ST5、ST6和ST7)。示例性音频信号特性包括带宽、谐波、瞬变、扩张、混响、屏蔽和谐波相位对齐。在其他实例中,可针对与音频信号相关的附加或较少特性导出信号处置。可针对音频信号中对应于各自处置模块的特性的缺失部分导出信号处置。因此,信号处置可有效地供应音频信号的被识别为在样本系列中的单独样本分量中缺失的各种不同特性的替换部分。因而,系列中的各自特性的丢失部分被识别的样本分量中一些可施加信号处置,而序列中的各自特性的缺失部分未被识别的其他样本分量可不施加信号处置。
关于带宽特性为音频信号的缺失部分,一些感知音频编解码器(包括以相对低的比特率操作的感知音频编解码器)在于所述感知音频编解码器可通过丢弃高于某个预定阈值的信号分量来限制压缩信号的带宽。例如,感知音频编解码器可将高于预定频率(如高于12kHz)的所有频率分量视为是感知上不太重要的并且因而丢弃所述频率分量。带宽扩展模块301可对输入信号(X)操作以生成高于此预定截止频率(Fx)的信号分量或信号处置(ST1)。带宽扩展模块301可分析输入信号(X)以确定输入信号的截止频率(Fx)(如果存在)。截止频率(Fx)的知识可用以引导信号处置流(ST1)的生成,所述信号处置流具有高于预定截止频率(Fx)的新信号分量,以补偿音频信号的对应样本分量中的此特性的缺乏。
替代地或另外,在侧链信息106可得自感知音频解码器103的情况下,如图1中所示,截止频率(Fx)可被提供到带宽扩展模块301。在感知音频解码器103和信号增强器系统110整合的其他情况下,如在图2的实例中,截止频率(Fx)可由感知音频解码器103直接提供到带宽扩展模块301
关于谐波特性为音频信号的缺失或丢失部分,一些感知音频编解码器(包括以相对低的比特率操作的感知音频编解码器)可在信号内的给定时间点丢弃压缩信号内的某些“中间谐波”。例如,在某个时间点,感知音频编解码器可保持特定声源的基本频率分量以及若干低阶谐波。感知音频编解码器也可保留信号的最高阶谐波中的一些或全部,同时丢弃声源的中间谐波中的一个或多个。带内谐波填充模块302可分析输入信号(X)104,以搜索感知音频编解码器已丢弃音频信号的一个或多个中间谐波特性的事件。带内谐波填充模块302可操作以响应于在音频信号的样本分量中缺失的这个特性而生成具有用以施加于音频信号的新中间谐波的信号处置流(ST2)。
关于瞬变特性为音频信号的缺失部分,一些感知音频编解码器(包括以相对低的比特率操作的感知音频编解码器)可引起瞬变信号的“拖影”。这种类型的编码伪像可被描述为“前回声”,并且当瞬变信号具有尖锐起音并且在瞬变事件的时间处相对于其他信号分量相对响亮时,所述类型的编码伪像最容易被听到。前回声倾向于引起瞬变信号分量的感知钝化。瞬变增强模块303可试图将此特性识别为在音频信号的分量样本中缺失,并且导出信号处置以恢复瞬变信号分量的感知尖锐起音。瞬变增强模块303可分析输入信号(X),并且可识别瞬变事件和瞬变信号分量以识别缺失特性。瞬变增强模块303可操作来生成信号处置流(ST3),所述信号处置流含有新瞬变信号分量以用于施加于音频信号,以便增强现有瞬变信号分量的初动(onset)的感知。
用于检测音频信号中的瞬变的示例性方法可包括以下活动。用于时域输入信号样本的当前块的FFT频格的量级被计算并且存储在历史缓冲器中。在逐频格基础上将FFT频格的当前集合的量级与FFT频格的过去集合的量级进行比较,其中当前集合和过去集合代表各自样本系列中的一系列样本分量。FFT频格的过去集合的量级先前存储在历史缓冲器中,并且被检索以用于这个比较。当前FFT频格的量级超过过去FFT频格的量级预定阈值(如量级阈值)的频格的数目被计数。如果计数超过确定的计数阈值,则确定时域样本的当前块含有瞬变事件。预定值(如20dB)可适合于用于检测瞬变的量级阈值。过去FFT频格可取自当前样本块之后的一个或两个块。也就是说,历史缓冲器可代表样本的样本分量的顺序处理中的一个或两个处理块的延迟。
关于扩张特性为音频信号的缺失或丢失部分,一些感知音频编解码器(包括以相对低的比特率操作的感知音频编解码器)可引起在音频信号作为可听声音产生时由收听者感知的立体声声场的感知收缩。也就是说,被感知为定位到原始未压缩音频信号中的极左或极右的声音可在压缩过程期间相对于其他声音衰减。因此,所得音频信号可被感知为更加“单声道的”并且较少“立体声的”。声场增强模块304可识别音频信号的与一系列样本分量中的这个特性相关的缺失或丢失部分,并且放大被感知为定位到输入信号(X)中的极左或极右的信号分量作为生成的信号处置。例如,声场增强模块304可操作以提取极左或极右的信号分量,并且生成含有这些信号分量的放大版本的信号处置流(ST4)。一种用于提取极左或极右的信号分量的可能方法描述于标题为“SYSTEM FOR SPATIAL EXTRACTION OF AUDIOSIGNALS”的美国专利申请号12/897,709中,所述美国专利申请以引用方式整体并入本文。
关于混响特性为音频信号的缺失或丢失部分,一些感知音频编解码器(包括以相对低的比特率操作的感知音频编解码器)在于所述感知音频编解码器可引起音频信号中的“周围环境”或“混响”特性的感知减少。混响特性的这个减少可导致整体声音的感知“钝化”,以及归因于音频信号的丢失部分的声音细节的感知损失。混响减少也可减少整体声音场的感知大小和宽度。混响填充模块305可操作以将输入信号(X)分解成干信号分量和混响信号分量。混响填充模块305随后可操作以识别对应样本分量中的音频信号的缺失部分,增加样本分量中的混响的感知级,并且生成信号处置流(ST5),所述信号处置流可含有新混响信号分量,并且可含有放大混响信号分量以用于仅施加于音频信号的部分被确定为缺失的样本序列的那些样本分量。
一种用于将输入信号(X)分解成干信号分量和混响信号分量的可能方法描述于标题为“SYSTEM FOR SELECTIVELY EXTRACTINGCOMPONENTS OF AN AUDIO INPUT SIGNAL”的美国专利号8,180,067和标题为“SYSTEM FOR EXTRACTING AND CHANGINGTHE REVERBERANT CONTENT OF AN AUDIO INPUT SIGNAL”的美国专利号8,036,767中,所述两个美国专利以引用方式整体并入本文。
关于屏蔽信号特性为音频信号的缺失或损失部分,一些感知音频编解码器(包括以相对低的比特率操作的感知音频编解码器)可引起信号中的清晰度和低级细节的感知减少。这可能由丢弃根据例如感知模型被认为对于大多数收听者来说听不见的信号分量的感知音频编解码器引起。通常,如果存在可屏蔽第一信号分量的其他主信号分量,则感知模型将会将某些第一信号分量识别为听不见的。也就是说,归因于人类听觉系统的屏蔽性能,主信号分量可(屏蔽)致使第一信号分量听不见。然而,每个收听者的屏蔽性能稍有不同,并且感知音频编解码器中的感知模型可能仅近似一个收听者的屏蔽性能。因此,感知音频编解码器可能丢弃对于一些收听者来说可听见的某些信号分量。
屏蔽信号填充模块306可操作以识别音频信号的对应样本分量的缺失部分,并且放大低级信号分量以使得所述低级信号分量正好处于被屏蔽的阈值处。屏蔽信号填充模块306可接收输入信号(X),并且应用感知模型以确定用于每个频率的“同时屏蔽阈值”。同时屏蔽阈值指示感知模型确定某个频率下的信号分量被其他频率下的信号分量屏蔽所处的级。例如,如果存在1000Hz下的充分响的信号分量,则1100Hz下的信号分量可为听不见的。在这个实例中,同时屏蔽阈值指示其他频率(如1100Hz)下的信号分量将被1000Hz下的信号分量屏蔽所处的级。因此,如果1100Hz下的信号分量的级降低到同时屏蔽阈值以下,则感知模型确定这个信号分量将被屏蔽(听不见的)。
继续这个实例,如果屏蔽信号填充模块306确定1100Hz下的信号分量降低到同时屏蔽阈值以下,并且由此识别音频信号的对应样本分量的丢失部分,则屏蔽信号填充模块306可生成信号处置流(ST6),所述信号处置流(ST6)可含有1100Hz下的信号分量的放大版本,以使得1100Hz下的信号分量达到同时屏蔽阈值。类似地,屏蔽信号填充模块306可针对所有频率下的信号分量执行这个操作以识别对应样本分量的缺失部分,以使得所述屏蔽信号填充模块可生成信号处置流(ST6),所述信号处置流(ST6)含有各种频率下的放大信号分量,所以所有频率下的信号分量可达到同时屏蔽阈值。
用于确定同时屏蔽阈值的感知模型的实例描述于标题为“SYSTEM FOR SELECTIVELY EXTRACTING COMPONENTS OFAN AUDIO INPUT SIGNAL”的美国专利号8,180,067和标题为“SYSTEM FOR EXTRACTING AND CHANGING THEREVERBERANT CONTENT OF AN AUDIO INPUT SIGNAL”的美国专利号8,036,767中,所述两个美国专利以引用方式整体并入本文。通常,感知模型可在分量样本随时间推移的生成期间(如在一系列样本的分量样本的多个快照上)基于以时间为基础的听觉屏蔽估计和以频率为基础的听觉屏蔽估计中的至少一个执行平滑。
谐波丰富的信号的基本分量和谐波分量的相位可倾向于随时间推移彼此追踪。也就是说,谐波丰富的信号的基本分量和谐波分量可倾向于以某种方式对齐。关于谐波相位对齐特性为音频信号的缺失或丢失部分,一些感知音频编解码器(包括以相对低的比特率操作的感知音频编解码器)可引起给定声源的谐波相位丢失其关于相位的对齐。作为样本分量的缺失部分的这个相位对齐损失可至少发生在信号的较高阶谐波上。这个相位对齐损失可由收听者以不同方式感知。相位对齐损失的一个常见结果是通常在较高频率中可听见的“哗哗”声音。谐波相位对齐模块307可操作以迫使谐波相关的信号分量随时间推移而相位对齐。谐波相位对齐模块307可分析输入信号(X),并且寻找音调信号分量(与瞬变或类似噪声的信号分量相反)并确定所述音调分量是否是谐波相关的。另外,谐波相位对齐模块307可确定任何谐波相关的音调分量随时间推移是否是对齐的。在对应样本分量中的特性被识别为音频信号的缺失部分,即谐波相关的音调分量的相位对齐的情况下,可调整未对齐的任何谐波的相位。谐波相位对齐模块307可生成信号处置流(ST7),所述信号处置流(ST7)可含有这些未对齐音调分量的相位对齐版本。替代地或另外,谐波相位对齐模块307可提供音调分量的一些其他形式的对齐。
如果输入信号(X)104是立体声或多通道的,则所述输入信号(X)104可在由信号增强器110处理之前被分解成空间片段501,如参考图5所描述。一种用于将信号分解成空间片段的系统和方法描述于标题为“SYSTEM FOR SPATIAL EXTRACTION OF AUDIO SIGNALS”的美国专利申请号12/897,709中,所述美国专利申请以引用方式整体并入本文。将输入信号分解成空间片段可允许将各种处置(301、302、303、304、304、305、306和307)更精确地施加于含于空间片段(XSS1、XSS2、XSS3、…、XSSn)501中每一个中的信号分量。例如,如果瞬变信号位于给定空间片段内,则可在那个空间片段中仅施加瞬变增强处置303,而不影响其他空间片段中的非瞬变信号分量。
一旦适当处置已施加于空间片段中每一个,来自空间片段中每一个的增强输出流(YSS1、YSS2、YSS3、…、YSSn)502可在求和模块503处组合以在输出线105上产生复合输出信号(Y)。
随着输入信号(X)的内容改变,施加于给定空间片段中的信号分量的各种处置可随时间推移而变化。使用以上实例,在已经在那个空间片段中检测到瞬变信号分量的时间期间,瞬变增强处置303可仅施加于给定空间片段中的样本分量中的一些。
如音乐或语音的音频信号通常含有一些量的混响。此混响可归因于记录音频信号的房间(例如,音乐厅),或所述混响可被电子地添加。混响源被称为混响系统。混响特性由混响系统的脉冲响应确定。混响系统的脉冲响应可被分成一组块。脉冲响应估计器910对输入信号操作,以产生脉冲响应的频域表示的感知相关估计。通常,脉冲响应估计器可对输入信号操作,以产生脉冲响应的以块为基础的估计。脉冲响应的以块为基础的估计由对应于脉冲响应的频域估计的多个块估计组成。
图6是脉冲响应的实例。第一垂直线表示直接声音分量602,而剩余线表示反射。每根线的高度指示其振幅,并且其在时间轴(t)上的位置指示其到达声音测量装置(如麦克风)的时间。随着时间的过去,反射数目增加到不再可能识别单独反射的点。最终,反射演化成扩散指数衰减系统。这通常被称为脉冲响应的混响尾部604。
所谓的早期反射606在直接声音分量602之后不久到达,并且具有与混响尾部不同的感知效果。这些早期反射提供关于声学空间大小和音频信号源与麦克风之间的距离的感知线索。早期反射606也是重要的,因为所述早期反射可向声音提供改善的清晰度和可理解度。混响尾部也提供关于声学空间的感知线索。
脉冲响应也可通过计算其傅里叶变换(或一些其他变换)在频域中观察,并且因此混响系统可完全在其频域表示H(ω)方面加以描述。变量ω指示频率。脉冲响应的傅里叶表示提供量级响应和相位响应。一般来说,量级响应提供关于脉冲响应中的不同频率分量的相对级的信息,而相位响应提供关于频率分量的时间方面的信息。
混响填充模块305可产生输入信号中的混响能量的量级估计的频域估计。从输入信号中减去混响能量的这个量级估计,从而提供输入信号的干音频信号分量的量级估计。混响输入信号的相位用以近似原始干信号的相位。如本文所使用,术语“干信号”、“干信号分量”、“干音频信号分量”或“直接信号分量”指代几乎不具有存在于音频信号中的混响能量的音频信号或音频信号的一部分。因此,原始干信号可几乎不具有混响能量,因为所述原始干信号几乎完全由直接声音脉冲602组成。如本文所使用,术语“混响能量”、“混响输入信号”、“混响(reverberant)分量”、“混响(reverberant)信号分量”、“混响(reverberation)分量”、或“混响(reverberation)信号分量”指代音频信号的早期反射和混响尾部。另外,关于音频信号,如本文所使用,术语“分量”(“component”或“components”)指代一个或多个分量。
如果混响输入信号的相位用以近似使用整个脉冲响应作为整体的原始干信号的相位,则有可能严重的时域伪像在处理后信号中将是可听见的。因此,混响填充模块305可将整体脉冲响应的估计分成块608,并且可按以块为基础的方式执行处理。块608的预定长度可为足够短的,使得人耳不感知归因于处理后输出信号的相位中的误差的任何时域伪像。
两个因素组合来确定混响输入信号在给定频率下衰减的速率。第一因素是干(即非混响的)声源的衰减速率,并且第二因素是混响系统的衰减速率。尽管混响系统在给定频率下的衰减速率随时间推移为相对恒定的,但是干声源的衰减速率连续变化。当干声源在给定频率下停止时,对于输入信号(X)为可能的最快衰减速率发生,并且信号衰减完全归因于混响系统的衰减。在图6的实例中,干声源例如可在早期反射606的时间处停止。混响系统在给定频率下的衰减速率可直接由混响系统在该频率下的脉冲响应确定。因此,输入信号(X)不应以比由混响系统的脉冲响应指定的速率更快的速率衰减。
图7示出混响填充模块305的更详细视图。混响填充模块305接收输入信号(X)104,并且可提供信号处置310ST5作为输出。脉冲响应估计器710、混响漏失检测器模块711和混响漏失填充模块712以及分解处理器模块713可包括在混响填充模块305中。在其他实例中,可描述更少或更大数目的模块以实现所讨论的功能性。
脉冲响应估计器710可用以导出输入信号(X)的混响系统的脉冲响应的估计。一种用于估计输入信号(X)的混响系统的脉冲响应的可能方法描述于标题为“SYSTEM FOR SELECTIVELY EXTRACTINGCOMPONENTS OF AN AUDIO INPUT SIGNAL”的美国专利号8,180,067和标题为“SYSTEM FOR EXTRACTING AND CHANGINGTHE REVERBERANT CONTENT OF AN AUDIO INPUT SIGNAL”的美国专利号8,036,767中,所述两个美国专利以引用方式整体并入本文。
图8为可由混响填充模块305估计的音频信号的混响分量的估计的实例。分解处理器模块713可对输入信号(X)操作以导出输入混响分量802,所述输入混响分量为输入信号的先前讨论的样本分量中的一个。输入混响分量802可由混响分量(混响)的估计或输入信号的特性组成。一种用于导出输入信号(X)的输入混响分量802的可能方法描述于标题为“SYSTEM FOR SELECTIVELY EXTRACTINGCOMPONENTS OF AN AUDIO INPUT SIGNAL”的美国专利号8,180,067和标题为“SYSTEM FOR EXTRACTING AND CHANGINGTHE REVERBERANT CONTENT OF AN AUDIO INPUT SIGNAL”的美国专利号8,036,767中,所述两个美国专利以引用方式整体并入本文。预期衰减速率806可由分解处理器模块713根据脉冲响应针对每个顺序样本直接确定。在图8中,输入混响分量802在时间段(t)上被示出为给定频率下的样本分量的序列。可看出,输入混响分量802在一些时间点处增长(增加),并且在其他时间点处衰减。
参考图7和图8,混响漏失检测器711可在不同时间点处将输入混响分量802的衰减速率与预期衰减速率806进行比较。混响漏失检测器711可在单独样本分量中将一个或多个混响漏失804识别为音频信号的缺失或丢失部分,其中输入混响分量802降低到预期衰减速率806以下。混响漏失填充模块712可操作以产生混响填充处置,作为用于补偿归因于混响漏失804的丢失能量的信号处置。如图8中所示,仅将信号处置施加于音频信号的部分缺失的那些样本分量。因此,当样本分量序列正被顺序地处理时,信号处置可选择性地仅施加于被识别为具有输入信号的缺失或丢失部分的那些样本分量。
图9a为信号增强器模块110的方框图实例,所述信号增强器模块与增强控制器模块900联接。增强控制器模块900可包括处置级调整器模块901、信号质量分析器模块902和显示模块906。在操作期间,信号处置模块300可将处置要求指示符提供到信号质量分析器902。处置要求指示符可提供来自各种处置模块(301、302、303、304、305、306和307)的关于由于输入信号(X)的识别缺失部分而所需要的信号处置量的相关信息。
作为可能的处置要求指示符的一个实例,带宽扩展模块301(图3)可提供输入信号(X)的截止频率(Fx)的估计。截止频率可由于其在频谱图中的外观而有时被称为砖墙或砖墙频率。砖墙可指示由压缩引入的硬、急剧升降的截止频率,通常在10-19kHz的区域中。在截止频率点以上,在输入信号(X)中大致上不存在信息。取决于所使用的压缩类型,或所使用的压缩差异,砖墙频率可每个轨道变化,或甚至在一个轨道期间暂时消失。截止频率的较低值可表明感知音频编码器器101更加激进地作用于原始音频信号(Z)100(图1),并且因此输入信号(X)可缺失信号高频部分的显著部分,从而导致如果回放音频信号,则由收听者感知的较差质量。替代地或另外,带宽扩展处置模块301可提供信号的高于截止频率的被感知音频编码器101丢弃的缺失能量与保持的信号能量的比率的估计。这个比率的较大值可表明原始音频信号(Z)100的更显著部分是缺失的(被丢弃),并且因此如果回放音频信号,则输入信号(X)可具有由收听者感知的较差质量。
作为另一个实例,带内谐波填充模块302(图3)可提供中间(带内)谐波已多频繁地被丢弃和在音频信号中缺失的指示。替代地或另外,带内谐波填充模块302可提供丢弃谐波的能量估计。较大级的缺失(丢弃的)带内谐波能量可指示,如果回放音频信号,则输入信号(X)具有由收听者感知的较差质量。
作为另一个实例,混响填充模块305可提供输入信号(X)中的混响能量的测量,以及被感知音频编码器101丢弃的丢失混响能量的估计。较大级的缺失混响能量可指示,如果回放音频信号,则输入信号(X)具有由收听者感知的较差质量。
作为又一个实例,声场扩张模块304(图3)可提供被感知音频编码器101丢弃的缺失或丢失侧(左减右)能量和中间(左加右)能量的量的估计。替代地或另外,声场扩张模块304可提供极左或极右信号分量的能量相对于输入信号(X)的总能量的测量。较低级的极左或极右信号能量可指示部分在输入信号104中缺失,从而导致如果回放音频信号,则由收听者感知的较差质量。
作为另一个实例,瞬变增强模块303可通过指示瞬变在输入信号(X)104中多频繁地发生,来提供音频信号的缺失部分的指示。作为另一个实例,屏蔽信号填充306模块可检查输入信号(X),并且提供降低到同时屏蔽阈值以下的信号分量被多频繁地丢弃并且因此在音频信号中缺失的指示。如果信号分量频繁地缺失(丢弃的),则这可指示如果回放音频信号,则输入信号(X)可具有由收听者感知的较差质量。
作为另一个实例,谐波相位对齐模块307(图3)可检查输入信号(X),并且提供谐波相关信号分量多频繁地未相位对齐的指示。替代地或另外,谐波相位对齐模块307可提供未相位对齐的谐波分量的能量测量。未相位对齐的较高级的谐波分量可表明输入信号(X)104的部分丢失,如果回放音频信号,则所述输入信号(X)104可具有由收听者感知的较差质量。
信号质量分析器902可接收处置要求指示符,并且导出信号质量指示符。替代地或另外,信号质量分析器902可从元数据缓冲器905接收元数据。元数据可提供输入信号(X)的感知质量的直接指示。包括在元数据缓冲器905中的元数据可由感知音频解码器103、音频信号、或一些其他源提供。替代地,元数据可被直接提供到信号质量分析器902,并且可省略元数据缓冲器905。元数据可提供关于输入信号的起源和特性的信息,包括但不限于截止频率(Fx)、由感知音频编码器101使用的当前处理块的长度、输入信号(X)的比特率和/或输入信号(X)的采样率。
使用所接收的处置要求指示符和/或元数据中的一个或多个,信号质量分析器902可导出输入信号(X)的感知整体质量的估计。替代地或另外,信号质量分析器902可导出输入信号的关于单独信号处置的感知质量的估计。
信号增强器模块110施加于输入信号(X)的信号处置310的相对能级可取决于输入信号和/或输入信号的样本分量的相对质量变化。例如,在输入信号(X)的质量相对良好的情况下,随后可减少信号处置310的相对能级。类似地,在输入信号(X)的质量是相对差的情况下,随后可相应地增加信号处置310的相对能级。处置级调整器901可通过增加或减少处置增益(g1、g2、g3、g4、g5、g6和g7)315中的一个或多个来独立地更改信号处置310的相对能级。替代地或另外,处置级调整器901可通过增加或减少总处置增益(gT)320来更改信号处置310的总相对能级。
处置级调整器901可从信号质量分析器902接收一个或多个信号质量指示符作为参数。处置级调整器901可使用可用的信号质量指示符903中的一个或多个来独立地确定用于单独处置增益(g1、g2、g3、g4、g5、g6和g7)315中每一个的适当值,以及用于总处置增益(gT)320的适当值。替代地或另外,信号质量分析器1002可使用可提供输入信号(X)的感知质量的直接指示的元数据,来确定用于单独处置增益(g1、g2、g3、g4、g5、g6和g7)315中每一个的适当值,以及用于总处置增益(gT)320的适当值。以此方式,可自动调整各种信号处置310的级以匹配输入信号(X)的要求。
在一些情况下,关于输入信号(X)的元数据可以是不可用的。因此,信号质量分析器902可利用自动重新调整每个流或每个轨道的处置级的压缩检测和处置算法。处置算法可包括间隙检测器907、锁存器908和自动计时器909。间隙检测器907可被配置来识别轨道之间的无声间隙,以及新轨道或音频信号的初动。锁存器908可被配置来在满足某些条件时选择性地锁定单独处置增益(g1、g2、g3、g4、g5、g6和g7)315和总处置增益(gT)320。当轨道被识别为“压缩的”时,各种信号处置310的级被设定(即锁存)并保持在窄范围内直到下一个轨道。这防止抽运或可变声音。如果间隙检测器907检测到间隙(例如,静音或轨道变化),则信号质量分析器902将重新设定锁存器908,并且将各种信号处置310的级设定至无。当音频在输入信号(X)内重新开始时,压缩检测机构将再次查找压缩(砖墙)。
自动计时器909可被配置来在间隙检测器907检测到新流或轨道时重置,并且在音频开始时倒计数预定量的时间,在所述预定量的时间期间可调整处置增益。因此,自动计时器909可被配置来避免音频流或轨道中间的所施加处置的级的可听见变化。在一些实例中,当在预定量的时间(例如,5秒)内未检测到压缩时,各种信号处置310的级可保持在无直到检测到下一个间隙。这避免轨道中间归因于高频的突然出现的意外频谱变化。
处置级调整器模块901在确定单独处置增益和总处置增益时也可以考虑其他参数。因而,例如,单独处置增益中某些处置增益可由处置级调整器模块901基于参数减少,并且单独处置增益中某些其他处置增益可增加。此类参数可包括输入信号的如所产生的音频信号的种类的元数据,以使得例如对于摇滚乐种类,可增加瞬变处置级增益以强调鼓点,并且对于古典乐种类,可增加混响处置级增益以强调音乐厅效果。在另一个实例中,当输入信号是谈话对音乐时,可调整处置增益。在其他实例中,可使用任何数目的处处置级增益和参数。由处处置级调整器模块901进行的增益调整也可以是以规则为基础的,如当存在高于预定阈值的混响特性的处置时,用于瞬变增强特性的增益可基于例如比率相应地减少。用户设置也可施加于处置级调整器模块901,以实现在某些操作条件或模式下选择性地施加的处置增益的量。
图9b为自动重新调整每流或每轨道处置增益量的压缩检测和处置算法的过程950的示例性方框图。过程950可例如由增强控制器模块900的信号增强器模块110的信号质量分析器902执行。过程950可用以允许信号质量分析器902自动将单独处置增益(g1、g2、g3、g4、g5、g6和g7)315和总处置增益(gT)320设定至对于输入信号(X)的压缩级来说适当的级,即使没有关于输入信号(X)的质量的元数据信息是可用的。在一个实例中,为执行压缩检测,信号质量分析器902可在512或1024-点FFT之后对频率频格操作。以下实例假定1024-点FFT和44.1kHz采样率,但应注意也可利用其他点级FFT和采样率。
一般来说,过程950可对来自直接FFT输入的任意频格的广泛集合采样,以使得监测信息为快速和最新的,并且可将这个信息与恒定间隙阈值进行比较。如果平均能量小于预定阈值,则过程950可确定输入信号(X)到静音或轨道变化。否则,过程950进行到从频格能量下的奈奎斯特频率向后找寻,以查看是否存在候选频率下的能量的显著上升。过程950可试图准确找到上升的顶部,并且将这个点使用于若干测量。高于这个点的被视为噪声基底,并且低于这个点被视为信号基底。过程950可对候选截止频率执行若干检查,以查看所述候选截止频率是否看起来足够像砖墙,是否不存在在所述候选截止频率以上发生的显著信息,并且所述候选截止频率是否不仅仅是高频中的随机侥幸谐波或脉冲尖峰。如果候选截止频率经受得起所有测试,则所述候选截止频率必须针对至少预定数目的连续帧(例如,在一个实例中20个连序帧)通过所有测试。在这一点处,输入信号(X)的处置可开始渐升。处置可与截止频率成比例,以使得较低截止意味着较多处置被施加于输入信号(X)。处置级可持续直到轨道结束(或被静音)。新的截止频率可在各种条件下取代先前确定的截止频率,如如果确定新的截止频率大于预定百分比不同(例如,至少5%不同)并且具有较大砖墙高度。这些条件因此可防止不希望的伪像使处置级不断变化。
更具体地说,在操作952处,信号质量分析器902初始化压缩检测和处置算法。例如,信号质量分析器902可重置锁存器908,可将单独处置增益315和总处置增益320设定至无增益,并且也可重置自动计时器909。信号质量分析器902可进一步等待有效音频的帧。可例如通过查看输入信号(X)的200Hz-4kHz区域中的一组任意频格的瞬时值来执行这个监测。信号质量分析器902可确认这些频格的平滑总和超过预定的恒定能级以确定新的轨道或流已经开始。如果音频已经开始,则控制传递到操作954。
在操作954处,信号质量分析器902使自动计时器909增值。在一个实例中,自动计时器909可在轨道或音频开始时指定时间量,在所述时间量期间可执行对处置增益315、320的自动调整。当自动计时器909期满时,可不执行进一步自动调整直到下一个检测间隙。信号质量分析器902可在操作954处针对检测间隙之后的有效音频的每个帧使自动计数器909增值(如果启用)。
在操作956处,信号质量分析器902检测输入信号(X)的候选截止频率。在一个实例中,信号质量分析器902从19kHz至8kHz向下扫描频率频格,以定位信号能量的显著上升(例如,在1FFT频率频格空间中至少4倍(x)能量上升)。如果发现信号能量上升,则信号质量分析器902可进一步定位能量停止上升所在的频格(例如,能量在每频格大于10%的速率下停止上升的情况下)。能量停止上升所在的这个频格可被称为候选频格X或截止频率。
在操作958处,信号质量分析器902确定高于截止频率的输入信号(X)的频率是否确认截止。在一个使用1024点FFT的实例中,信号质量分析器902扫描始于高于频格X截止频率11个频格直到19kHz的频率频格,以确定噪声基底是否保持任何信息。如果噪声基底保持信息,则那可指示截止并不是真正的压缩引起的砖墙。作为一个更具体实例,如果噪声基底在2个连序频格内上升多于5%,则频格X截止频率候选项失败。如果候选项通过,则控制传递至操作968以继续评估候选砖墙频率。如果候选项失败,则控制传递至操作960。
在操作960处,信号质量分析器902将匹配候选截止频率的帧数重设到无。在操作962处,信号质量分析器902确定自动计时器909是否已经期满,并且可不执行进一步自动调整。如果自动计时器909尚未期满,则控制传递至操作964以处理输入信号(X)的下一帧。在操作964之后,控制传递至操作954以继续处理音频。如果自动计时器909已经期满,则控制传递至操作966以便等待识别下一个轨道或声音的间隙。可类似于以上关于操作952所描述的音频检测来执行间隙检测,以使得当某些频格不再超过预定恒定能级时,信号质量分析器902可识别间隙。当检测到间隙时,控制从操作966传递至操作952,以重新开始自动处置级确定过程。
在操作968处,信号质量分析器902确定低于截止频率的输入信号(X)的频率是否确认截止。在一个使用1024点FFT的实例中,信号质量分析器902扫描始于频格X-1向下到频格X-100的频率频格,以定位具多于5倍的能量下降。如果发现此类能量下降被定位,则候选频格X可能仅是窄谐波脉冲尖峰并且不是真实砖墙,并且候选项失败。如果候选项在没有检测到低于候选频率的能量下降的情况下通过,则控制传递至操作970。如果候选项失败,则控制传递至操作960。
在操作970处,信号质量分析器902确定输入信号(X)含有有效音频。这可被执行例如以确保整体信号能量高于足以使砖墙检测为有意义的预定阈值。在许多实例中,充分能量的检测可类似于或等同于在操作952处执行的确定,以识别输入信号(X)中指示检测间隙结束的音频。如果输入信号(X)通过有效性测试,则控制传递至操作972。否则,控制传递至操作960。
在操作972处,信号质量分析器902确定候选砖墙的高度和陡度是否高于预定阈值。在一个实例中,信号质量分析器902可通过确保候选砖墙具有下一个频格的至少2.5倍(x)的能量来确认陡度。信号质量分析器902可通过确保当前候选砖墙至少与先前确认的相同音频轨道的候选砖墙一样高来确认高度。如果候选项通过,则控制传递至操作974。如果候选项失败,则控制传递至操作960。
在操作974处,信号质量分析器902使匹配帧计数增值。匹配帧计数因此可指示已经成功满足频格X处的当前候选砖墙的所有准则的帧的数目。
在操作976处,信号质量分析器902确定匹配帧计数是否已到达预定阈值计数。在一个实例中,预定阈值计数可以是20个连序帧。如果匹配帧计数已到达预定阈值计数,则候选项可被认为是正确的,并且控制可传递至操作978。否则,控制传递至操作962。
在操作978处,信号质量分析器902确定锁存器908是否已被设定。锁存器908可能先前已经被设定,例如通过先前候选砖墙的较早成功确定。如果锁存器908未设定,则控制传递至操作980。如果锁存器908已被设定,则控制传递至操作984。
在操作980处,信号质量分析器902设定锁存器908,并且在操作982处,信号质量分析器902根据砖墙频格X的频率来设定处置增益315和总处置增益320。在一个实例中,处置级是基于砖墙频率的百分比(即在较低截止频率提供较高处置级的情况下)。处置增益315可被设定,以使得处置可能以等于这个百分比的强度与原始音频流混合,并且用于组合输出的总处置增益320可相对于处置级缩放;即较高处置值比较低处置值接收更大的缩放,并且未压缩的音频不缩放。因此,当锁存器908被设定时,处置增益315、320固定在根据砖墙频率确定的级处。在操作982之后,控制传递至操作960以继续用于音频的砖墙检测。
在操作984处,信号质量分析器902确定候选砖墙是否具有相较于先前建立的音轨截止频率的较大高度,或也确定候选砖墙是否在先前建立的截止频率的预定阈值频率内。在一个实例中,只要自动计时器909尚未期满,过程950就继续,以使得如果在计时器909期满之前检测到更好的砖墙,则可替代地将该更好的砖墙用于处置增益315、320的锁存。在一个实例中,可要求更好的砖墙具有高于先前截止频率的砖墙高度,并且在频率上是多于5%的不同以代替先前截止频率。
显示模块906可提供输入信号(X)、输出信号(Y)的质量,以及信号增强器模块110的性能和/或操作的不同方面的视觉表示。如图9中所示,显示模块906可接收并且显示信号处置(ST1、ST2、ST3、ST4、ST5、ST6和ST7)310中的一个或多个。例如,显示模块906可显示归因于带宽扩展模块301的信号处置ST1。在这种情况下,显示模块906可产生高于截止频率(Fx)的新信号分量的频谱表示的视觉显示,所述新信号分量已由带宽扩展模块301生成。替代地或另外,显示模块906可显示包括所有施加的信号处置310的输出信号(Y)的频域或时域表示。替代地或另外,显示模块906可从信号质量分析器902接收一个或多个信号质量指示符。显示模块906可继而产生输入信号(X)的质量的视觉表示。显示模块906也可以产生施加于输入信号(X)的信号处置310的整体级的视觉表示。显示模块906也可产生输出信号(Y)的质量的视觉表示。因而,可为观察显示器的用户提供输入信号(X)的质量的视觉指示,以及施加处置信号的程度或级。
图10为输出信号(Y)的指示带宽增强的信号处置的示例性显示。在图10中,在约12kHz的截止频率以上,输入信号(X)1002的一部分已在先前编码期间被丢弃,如由在-120dB至-150dB范围内的输入信号(X)1002的部分所指示。带宽扩展模块301可识别音频信号的部分缺失或丢失,并且提供在相同频率范围上的信号处置1004。信号处置1004可施加于输入信号(X)1002的未处置部分。因此,用户可观察显示器,并且被提供不仅未处置的输出信号将看起来像的质量,而且还有由信号增强器系统110提供的处置的级和程度的指示。在其他实例中,可创建其他形式的显示以指示施加的一种或多种处置中的任一种。
图11a和图11b示出带宽扩展模块301的操作的示例性结果。图11a展示在音频信号已被感知音频编解码器压缩之前和之后的音频信号的短块的频谱图(频域)。展示原始信号的曲线,其中可看出,显著信号能量继续直到奈奎斯特频率。压缩音频信号曲线展示在信号已被感知音频编解码器压缩之后的这个相同信号。在图11a中,可看出,在一定截止频率(Fx)以上,信号分量已被丢弃,并且剩下的仅是低级噪声。
图11b示出在音频信号已被带宽扩展模块301处理之前和之后的压缩音频信号的短块的实例的频谱图。在此,压缩音频信号被示出为具有高于丢弃的截止频率(Fx)的信号分量。在音频信号已被带宽扩展模块301处理之后的相同压缩音频信号的曲线包括在图11b中。可看出,已生成高于截止频率(Fx)的新信号分量。这些新信号分量已基于低于截止频率(Fx)的信号分量中的至少一些和/或使用低于截止频率(Fx)的信号分量中的至少一些产生。
图12a和图12b示出瞬变增强模块303的示例性操作。图12a展示瞬变信号分量的时域图。图12a的上面板展示原始信号。可看出,开始信号几乎无声,并且随后是随时间推移而衰减的尖锐瞬变信号。图12a的下面板展示在瞬变信号分量已被感知音频编解码器压缩之后的类似瞬变信号分量。可看出,瞬变不再是尖锐限定的。此外,压缩音频信号现在具有在实际瞬变之前到达的能量。这是先前所描述的所谓“前回声”的实例。
图12b示出在瞬变信号分量已被瞬变增强模块303处理之前和之后的示例性瞬变信号分量的时域图。图12b的上面板展示随时间推移具有许多瞬变的压缩音频信号。可看出,瞬变在信号中不是非常明显。图12b的下面板展示在瞬变信号已被瞬变增强模块303处理之后的相同瞬变信号,其中单独瞬变的初动现在是尖锐限定的和容易可见的。
图13是示例性计算系统1300。计算机系统1300可包括一组指令,所述一组指令可被执行来引起计算机系统1300执行所描述的方法或以计算机为基础的功能中的任何一种或多种。计算机系统1300可作为独立装置操作,可以是另一个装置的一部分,或可如使用网络连接到其他计算机系统或外围装置。
在联网部署中,计算机系统1300可作为服务器或服务器-客户端用户网络环境中的客户端用户计算机,作为对等(或分布式)网络环境中的对等计算机系统,或以各种其他方式操作。计算机系统1300也可被实现为或并入到如例如车辆中的远程信息处理系统的各种装置中。在其他实例中,可使用能够执行一组指令(顺序或相反)的任何其他机器,所述指令指定将由该机器采取的动作。计算机系统1300可使用提供语音、音频、视频或数据通信的电子装置来实现。尽管示出单个计算机系统1300,但是术语“系统”可包括单独地或联合地执行一组或多组指令以执行一个或多个计算机功能的系统或子系统的任何集合。
计算机系统1300可包括处理器1302,如中央处理单元(CPU)、图形处理单元(GPU)、数字信号处理器(DSP),或不同或相同处理器的一些组合。处理器1302可以是各种系统中的部件。例如,处理器1302可以是车辆中的头部单元或放大器的一部分。处理器1302可以是一个或多个通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列、数字电路、模拟电路、其组合,或用于分析和处理数据的其他现在已知或以后开发的装置。处理器1302可实现软件程序,如手动生成或编程的代码。
处理器1302可操作和控制系统的至少一部分。术语“模块”可被限定成包括一个或多个可执行模块。模块可包括可由处理器(如处理器1302)执行的软件、硬件、固件或其一些结合。软件模块可包括存储在存储器(如存储器1304)或另一个存储装置中的可由处理器1302或其他处理器执行的指令。硬件模块可包括可由处理器1302执行、引导或控制以用于执行的各种装置、部件、电路、门、电路板等。
计算机系统1300可包括存储器1304,如可通过总线1308通信的存储器1304。存储器1304可以是主存储器、静态存储器或动态存储器。存储器1304可包括但不限于计算机可读存储介质,如各种类型的易失性和非易失性存储介质,包括但不限于随机存取存储器、只读存储器、可编程只读存储器、电可编程只读存储器、电可擦除只读存储器、闪速存储器、磁带或磁盘、光学介质等。在一个实例中,存储器1304包括用于处理器1302的高速缓存或随机存取存储器。在替代性实例中,存储器1304可与处理器1302分离,如处理器的高速缓存存储器、系统存储器或其他存储器。存储器1304可包括用于存储数据的外部存储装置或数据库。实例包括硬盘驱动器、光盘(“CD”)、数字视频光盘(“DVD”)、存储卡、记忆棒、软盘、通用串行总线(“USB”)存储装置或可操作来存储数据的任何其他装置。
计算机系统1300可能或可能不进一步包括显示单元1310,如液晶显示器(LCD)、有机发光二极管(OLED)、平板显示器、固态显示器、阴极射线管(CRT)、投影仪或用于输出确定信息的其他现在已知或以后开发的显示装置。显示器1310可充当用于用户控制处理器1302的功能的接口,或具体地充当与存储在存储器1304中的软件的接口。
计算机系统1300可包括被配置来允许用户与计算机系统的任何部件交互的输入装置1312。输入装置1312可以是用于接收语音命令的麦克风、小键盘、键盘或光标控制装置(如鼠标或操纵杆)、触摸屏显示器、远程控制或可操作来与计算机系统1300交互的任何其他装置。系统用户可例如输入系统和/或远程信息处理系统将考虑的准则或条件。
计算机系统1300可包括计算机可读介质,所述计算机可读介质包括指令或响应于传播信号接收并执行指令,以使得连接到网络1326的装置可通过网络1326传送语音、视频、音频、图像或任何其他数据。可经由通信端口或接口1320或使用总线1308,通过网络1326传输或接收指令。通信端口或接口1320可为处理器1302的一部分,或可为分离部件。通信端口1320可在软件中创建,或可为硬件中的物理连接。通信端口1320可被配置来与网络1326、外部媒体、显示器1310或计算机系统1300中的任何其他部件,或其组合连接。与网络1326的连接可为物理连接,如有线以太网连接,或可无线地建立。与计算机系统功能1300的其他部件的附加连接可为物理连接,或可无线地建立。网络1326可替代地直接连接到总线1308。
网络1326可包括有线网络、无线网络、以太网AVB网络或其组合。无线网络可为蜂窝电话网络、802.11、802.16、802.20、802.1Q或WiMax网络。另外,网络1326可为公共网络(如互联网)、专用网络(如内联网)或其组合,并且可利用现在可用或以后开发的各种联网协议,包括但不限于基于TCP/IP的联网协议。系统的一个或多个部件可以由或通过网络1326彼此通信。
虽然以上描述示例性实施方案,但是这些实施方案不意图描述本发明的所有可能形式。实际上,在说明书中使用的措词是描述而非限制的措词,并且应当理解,可在不脱离本发明的精神和范围的情况下做出各种改变。另外,各种实施方案的特征可加以组合来形成本发明的进一步实施方案。
Claims (31)
1.一种用于压缩音频信号的处置的系统,所述系统包括:
处理器;
采样器模块,其由所述处理器执行以将音频信号分成一系列顺序样本;
信号质量检测器模块,其由所述处理器执行以识别所述音频信号的在所述音频信号开端跨越多个所述顺序样本的一致砖墙频率,并且确定与所述砖墙频率成比例的信号处置指示;以及
信号增强器模块,其由所述处理器执行以
顺序地接收并分析所述音频信号的一个或多个样本分量,以识别各自顺序样本的所述一个或多个样本分量中的所述音频信号的丢失部分,并且
在根据所述信号质量指示的级,将用于具有对应识别的丢失部分的各自顺序样本的所述一个或多个样本分量中每一个的对应信号处置施加于所述音频信号。
2.如权利要求1所述的系统,其中所述系列顺序样本包括使用快速傅里叶变换确定的频域中的顺序频格,并且其中所述信号质量检测器模块还可执行来通过将所述顺序频格中的一个识别为包括所述砖墙频率的候选频格,来识别所述一致砖墙频率。
3.如权利要求2所述的系统,其中识别所述一致砖墙频率还包括以下各项中的一个或多个:
确认低于所述砖墙频率的频谱能量存在;
确认高于预定阈值的所述砖墙频率的高度,所述预定阈值超过下一个较高频率顺序频格的砖墙频率;以及
确认高于预定阈值的所述砖墙频率的截止的陡度,所述预定阈值超过所述下一个较高频率顺序频格的砖墙频率。
4.如权利要求1所述的系统,其中所述信号处置指示被设定成以下各项中的一个:
(i)当所述砖墙频率不超过最小频率阈值时,无信号处置;
(ii)当所述砖墙频率超过最大频率阈值时,无信号处置;以及
(iii)当所述砖墙频率在所述最小频率阈值与所述最大频率阈值之间时,信号处置级随着所述砖墙频率增加而减少。
5.如权利要求1所述的系统,其中所述信号质量检测器模块进一步可执行以:
设定所述信号处置指示,以在检测到所述音频信号的所述一致砖墙频率之前不施加信号处置;并且
锁存所述信号处置指示,以在识别指示所述音频信号的所述一致砖墙频率的连序预定义数目的样本时,将所述处置施加于所述音频信号。
6.如权利要求5所述的系统,其中所述连序预定义数目的样本为二十个。
7.如权利要求5所述的系统,其中所述连序预定义数目的样本表示在所述音频信号的近似十分之一秒到二分之一秒之间的时间段。
8.如权利要求1所述的系统,其中所述信号质量检测器模块进一步可执行以:
响应于所述音频信号的所述开端的检测重置自动计时器;
评估所述多个顺序样本以识别所述音频信号的所述一致砖墙频率,直到所述自动计时器期满;并且
一旦所述自动计时器期满,中止所述多个顺序样本的评估。
9.如权利要求1所述的系统,其中所述信号质量检测器模块还可执行来在识别低于用于预定时间段的预定阈值的音频信号强度的时段时,重置所述质量指示。
10.如权利要求1所述的系统,其中以下各项中的一个或多个:
所述样本分量是频率分量,并且所述对应信号处置是向具有高于截止频率阈值的缺失频率分量的样本分量施加的频率分量;
所述样本分量是瞬变分量,并且所述对应信号处置是向具有缺失瞬变的样本分量施加的瞬变分量,以增强所述音频信号中存在的现有瞬变的初动;以及
所述样本分量是混响分量,并且所述对应信号处置施加于具有缺失混响的样本分量以减少所述音频信号的衰减速率。
11.如权利要求1所述的系统,其中所述对应信号处置是包括带宽扩展处置、瞬变增强处置和混响填充处置的多个信号处置。
12.如权利要求1所述的系统,其中所述信号增强器模块包括多个信号增强器模块,并且其中所述信号增强器模块中每一个由所述处理器执行,以独立地对收听者感知的音场的空间片段操作来添加至少一个信号处置,所述收听者感知的音场在所述音频信号的播放期间由收听者感知。
13.如权利要求1所述的系统,其中所述信号增强器模块被配置来生成多个对应信号处置,所述对应信号处置被添加到所述音频信号。
14.一种计算机可读存储介质,其存储计算机可读指令,所述计算机可读指令可由处理器执行来处置压缩音频信号,所述计算机可读介质包括:
指令,其由所述处理器执行以创建音频信号的顺序样本序列;
指令,其由所述处理器执行以识别所述音频信号的在所述音频信号开端跨越多个所述顺序样本的一致砖墙频率,并且确定与所述砖墙频率成比例的信号处置指示;
指令,其由所述处理器执行以顺序地接收并分析所述音频信号的一个或多个样本分量,以识别各自顺序样本的所述一个或多个样本分量中的所述音频信号的丢失部分;以及
指令,其由所述处理器执行以在根据所述信号质量指示的级,将用于具有对应识别的丢失部分的各自顺序样本的所述一个或多个样本分量中每一个的对应信号处置施加于所述音频信号。
15.如权利要求14所述的计算机可读存储介质,其中所述顺序样本序列包括使用快速傅里叶变换确定的频域中的顺序频格,并且其中由所述处理器执行的所述指令还包括用于通过将所述顺序频格中的一个识别为包括所述砖墙频率的候选频格来识别所述一致砖墙频率的指令。
16.如权利要求14所述的计算机可读存储介质,其中由所述处理器执行以识别所述一致砖墙频率的所述指令还包括以下各项中的一个或多个:
指令,其由所述处理器执行以确认低于所述砖墙频率的频谱能量存在;
指令,其由所述处理器执行以确认高于预定阈值的所述砖墙频率的高度,所述预定阈值超过下一个较高频率顺序频格的砖墙频率;以及
指令,其由所述处理器执行以确认高于预定阈值的所述砖墙频率的截止的陡度,所述预定阈值超过所述下一个较高频率顺序频格的砖墙频率。
17.如权利要求14所述的计算机可读存储介质,其中所述信号处置指示被设定成以下各项中的一个:
(i)当所述砖墙频率不超过最小频率阈值时,无信号处置;
(ii)当所述砖墙频率超过最大频率阈值时,无信号处置;以及
(iii)当所述砖墙频率在所述最小频率阈值与所述最大频率阈值之间时,信号处置级随着所述砖墙频率增加而减少。
18.如权利要求14所述的计算机可读存储介质,其中由所述处理器执行的所述指令还包括:
指令,其由所述处理器执行以设定所述信号处置指示,以在检测到所述音频信号的所述一致砖墙频率之前不施加信号处置;以及
指令,其由所述处理器执行以锁存所述信号处置指示,以在识别指示所述音频信号的所述一致砖墙频率的连序预定义数目的样本时,将所述处置施加于所述音频信号。
19.如权利要求18所述的计算机可读存储介质,其中所述连序预定义数目的样本是以下各项中的一个或多个:(i)二十个连序样本,和(ii)表示在所述音频信号的近似十分之一秒到二分之一秒之间的时间段的多个连序样本。
20.如权利要求14所述的计算机可读存储介质,其中由所述处理器执行的所述指令还包括:
指令,其由所述处理器执行以响应于所述音频信号的所述开端的检测重置自动计时器;
指令,其由所述处理器执行以评估所述多个顺序样本以识别所述音频信号的所述一致砖墙频率,直到所述自动计时器期满;以及
指令,其由所述处理器执行以在所述自动计时器期满时,中止所述多个顺序样本的评估。
21.如权利要求14所述的计算机可读存储介质,其中由所述处理器执行的所述指令还包括用于在识别低于用于预定时间段的预定阈值的音频信号强度的时段时,重置所述质量指示的指令。
22.如权利要求14所述的计算机可读存储介质,其中以下各项中的一个或多个:
所述样本分量是频率分量,并且所述对应信号处置是向具有高于截止频率阈值的缺失频率分量的样本分量施加的频率分量;
所述样本分量是瞬变分量,并且所述对应信号处置是向具有缺失瞬变的样本分量施加于的瞬变分量,以增强所述音频信号中存在的现有瞬变的初动;以及
所述样本分量是混响分量,并且所述对应的信号处置施加于具有缺失混响的样本分量以减少所述音频信号的衰减速率。
23.一种处置压缩音频信号的方法,所述方法包括:
使用处理器将音频信号分离成顺序样本;
使用所述处理器识别所述音频信号的在所述音频信号开端跨越多个所述顺序样本的一致砖墙频率,并且确定与所述砖墙频率成比例的信号处置指示;
使用所述处理器顺序地分析所述音频信号的一个或多个样本分量,以识别各自顺序样本的所述一个或多个样本分量中的所述音频信号的丢失部分;以及
在根据所述信号质量指示的级,使用所述处理器将用于具有对应识别的丢失部分的各自顺序样本的所述一个或多个样本分量中每一个的对应信号处置施加于所述音频信号。
24.如权利要求23所述的方法,其中所述顺序样本包括使用快速傅里叶变换确定的频域中的顺序频格,并且识别所述一致砖墙频率包括将所述顺序频格中的一个识别为包括所述砖墙频率的候选频格。
25.根据权利要求23所述的方法,其还包括以下各项中的一个或多个:
确认低于所述砖墙频率的频谱能量存在;
确认高于预定阈值的所述砖墙频率的高度,所述预定阈值超过下一个较高频率顺序频格的砖墙频率;以及
确认高于预定阈值的所述砖墙频率的截止的陡度,所述预定阈值超过所述下一个较高频率顺序频格的砖墙频率。
26.如权利要求23所述的方法,其中所述信号处置指示被设定至以下各项中的一个:
(i)当所述砖墙频率不超过最小频率阈值时,无信号处置;
(ii)当所述砖墙频率超过最大频率阈值时,无信号处置;以及
(iii)当所述砖墙频率在所述最小频率阈值与所述最大频率阈值之间时,信号处置级随着所述砖墙频率增加而减少。
27.如权利要求23所述的方法,其还包括:
设定所述信号处置指示,以在检测到所述音频信号的所述一致砖墙频率之前不施加信号处置;以及
锁存所述信号处置指示,以在识别指示所述音频信号的所述一致砖墙频率的连序预定义数目的样本时,将所述处置施加于所述音频信号。
28.如权利要求27所述的方法,其中所述连序预定义数目的样本是以下各项中的一个或多个:(i)二十个连续样本和(ii)表示在所述音频信号的近似十分之一秒到二分之一秒之间的时间段的多个连序样本。
29.如权利要求23所述的方法,其还包括:
响应于所述音频信号的所述开端的检测重置自动计时器;以及
评估所述多个顺序样本以识别所述音频信号的所述一致砖墙频率,直到所述自动计时器期满;以及
一旦所述自动计时器期满,中止所述多个顺序样本的评估。
30.如权利要求23所述的方法,其还包括在识别低于用于预定时间段的预定阈值的音频信号强度的时段时,重置所述质量指示。
31.如权利要求23所述的方法,其中以下各项中的一个或多个:
所述样本分量是频率分量,并且所述对应信号处置是施加于具有高于截止频率阈值的缺失频率分量的样本分量的频率分量;
所述样本分量是瞬变分量,并且所述对应信号处置是施加于具有缺失瞬变的样本分量的瞬变分量,以增强所述音频信号中存在的现有瞬变的初动;以及
所述样本分量是混响分量,并且所述对应信号处置施加于具有缺失混响的样本分量以减少所述音频信号的衰减速率。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201461924641P | 2014-01-07 | 2014-01-07 | |
US61/924,641 | 2014-01-07 | ||
PCT/US2015/010266 WO2015105775A1 (en) | 2014-01-07 | 2015-01-06 | Signal quality-based enhancement and compensation of compressed audio signals |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105900170A true CN105900170A (zh) | 2016-08-24 |
CN105900170B CN105900170B (zh) | 2020-03-10 |
Family
ID=53524279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580003948.5A Active CN105900170B (zh) | 2014-01-07 | 2015-01-06 | 压缩音频信号的以信号质量为基础的增强和补偿 |
Country Status (7)
Country | Link |
---|---|
US (1) | US10192564B2 (zh) |
EP (1) | EP3092640B1 (zh) |
JP (1) | JP6576934B2 (zh) |
KR (1) | KR102340151B1 (zh) |
CN (1) | CN105900170B (zh) |
BR (1) | BR112016015695B1 (zh) |
WO (1) | WO2015105775A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109036457A (zh) * | 2018-09-10 | 2018-12-18 | 广州酷狗计算机科技有限公司 | 恢复音频信号的方法和装置 |
US10924877B2 (en) | 2017-12-26 | 2021-02-16 | Guangzhou Kugou Computer Technology Co., Ltd | Audio signal processing method, terminal and storage medium thereof |
US10964300B2 (en) | 2017-11-21 | 2021-03-30 | Guangzhou Kugou Computer Technology Co., Ltd. | Audio signal processing method and apparatus, and storage medium thereof |
US11039261B2 (en) | 2017-12-26 | 2021-06-15 | Guangzhou Kugou Computer Technology Co., Ltd. | Audio signal processing method, terminal and storage medium thereof |
CN115184016A (zh) * | 2022-09-06 | 2022-10-14 | 江苏东控自动化科技有限公司 | 一种升降机轴承故障检测方法 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9736588B2 (en) * | 2015-07-23 | 2017-08-15 | Automotive Data Solutions, Inc. | Digital signal router for vehicle replacement sound system |
EP3182406B1 (en) * | 2015-12-16 | 2020-04-01 | Harman Becker Automotive Systems GmbH | Sound reproduction with active noise control in a helmet |
CN108604454B (zh) * | 2016-03-16 | 2020-12-15 | 华为技术有限公司 | 音频信号处理装置和输入音频信号处理方法 |
CA3018039C (en) * | 2016-03-24 | 2023-08-29 | Harman International Industries, Incorporated | Signal quality-based enhancement and compensation of compressed audio signals |
EP3382702A1 (en) * | 2017-03-31 | 2018-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for determining a predetermined characteristic related to an artificial bandwidth limitation processing of an audio signal |
CN107644649B (zh) * | 2017-09-13 | 2022-06-03 | 黄河科技学院 | 一种信号处理方法 |
CN113348508A (zh) | 2019-01-23 | 2021-09-03 | 索尼集团公司 | 电子设备、方法和计算机程序 |
US11133017B2 (en) * | 2019-06-07 | 2021-09-28 | Harman Becker Automotive Systems Gmbh | Enhancing artificial reverberation in a noisy environment via noise-dependent compression |
CN110211610A (zh) * | 2019-06-20 | 2019-09-06 | 平安科技(深圳)有限公司 | 评估音频信号损失的方法、装置及存储介质 |
JPWO2021200260A1 (zh) * | 2020-04-01 | 2021-10-07 | ||
US11264017B2 (en) * | 2020-06-12 | 2022-03-01 | Synaptics Incorporated | Robust speaker localization in presence of strong noise interference systems and methods |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102687536A (zh) * | 2009-10-05 | 2012-09-19 | 哈曼国际工业有限公司 | 用于音频信号的空间提取的系统 |
CN103004084A (zh) * | 2011-01-14 | 2013-03-27 | 华为技术有限公司 | 用于语音质量增强的方法及设备 |
CN103107863A (zh) * | 2013-01-22 | 2013-05-15 | 深圳广晟信源技术有限公司 | 一种分段平均码率的数字音频信源编码方法及装置 |
CN104170007A (zh) * | 2012-06-19 | 2014-11-26 | 深圳广晟信源技术有限公司 | 对单声道或立体声进行编码的方法 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5410632A (en) * | 1991-12-23 | 1995-04-25 | Motorola, Inc. | Variable hangover time in a voice activity detector |
US6889187B2 (en) * | 2000-12-28 | 2005-05-03 | Nortel Networks Limited | Method and apparatus for improved voice activity detection in a packet voice network |
DE10225146A1 (de) * | 2002-06-06 | 2003-12-18 | Bosch Gmbh Robert | Verfahren zum Einstellen von Filterparametern und zugeordnetes Wiedergabesystem |
BRPI0410740A (pt) * | 2003-05-28 | 2006-06-27 | Dolby Lab Licensing Corp | método, aparelho e programa de computador para calcular e ajustar o volume percebido de um sinal de áudio |
JP4311541B2 (ja) * | 2003-10-06 | 2009-08-12 | アルパイン株式会社 | オーディオ信号圧縮装置 |
EP1779385B1 (en) * | 2004-07-09 | 2010-09-22 | Electronics and Telecommunications Research Institute | Method and apparatus for encoding and decoding multi-channel audio signal using virtual source location information |
US7813931B2 (en) * | 2005-04-20 | 2010-10-12 | QNX Software Systems, Co. | System for improving speech quality and intelligibility with bandwidth compression/expansion |
JP4882383B2 (ja) * | 2006-01-18 | 2012-02-22 | ヤマハ株式会社 | オーディオ信号の帯域拡張装置 |
JP4175376B2 (ja) * | 2006-03-30 | 2008-11-05 | ヤマハ株式会社 | オーディオ信号処理装置、オーディオ信号処理方法、及びオーディオ信号処理プログラム |
US9014377B2 (en) | 2006-05-17 | 2015-04-21 | Creative Technology Ltd | Multichannel surround format conversion and generalized upmix |
US8036767B2 (en) * | 2006-09-20 | 2011-10-11 | Harman International Industries, Incorporated | System for extracting and changing the reverberant content of an audio input signal |
WO2009054393A1 (ja) * | 2007-10-23 | 2009-04-30 | Clarion Co., Ltd. | 高域補間装置および高域補間方法 |
US8655663B2 (en) * | 2007-10-26 | 2014-02-18 | D&M Holdings, Inc. | Audio signal interpolation device and audio signal interpolation method |
DE102008015702B4 (de) * | 2008-01-31 | 2010-03-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals |
JP5197278B2 (ja) * | 2008-10-02 | 2013-05-15 | クラリオン株式会社 | 高域補完装置 |
WO2010069885A1 (en) * | 2008-12-15 | 2010-06-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and bandwidth extension decoder |
JP2011186187A (ja) * | 2010-03-09 | 2011-09-22 | Jvc Kenwood Holdings Inc | 音声処理装置、音声処理方法および音声処理プログラム |
WO2013066244A1 (en) * | 2011-11-03 | 2013-05-10 | Telefonaktiebolaget L M Ericsson (Publ) | Bandwidth extension of audio signals |
JP5945626B2 (ja) * | 2012-03-29 | 2016-07-05 | テレフオンアクチーボラゲット エルエム エリクソン(パブル) | ハーモニックオーディオ信号の帯域幅拡張 |
US9135920B2 (en) * | 2012-11-26 | 2015-09-15 | Harman International Industries, Incorporated | System for perceived enhancement and restoration of compressed audio signals |
US9258428B2 (en) * | 2012-12-18 | 2016-02-09 | Cisco Technology, Inc. | Audio bandwidth extension for conferencing |
JP6228298B2 (ja) * | 2013-06-21 | 2017-11-08 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | エネルギー調整モジュールを備えた帯域幅拡大モジュールを有するオーディオ復号器 |
-
2015
- 2015-01-06 EP EP15734920.0A patent/EP3092640B1/en active Active
- 2015-01-06 CN CN201580003948.5A patent/CN105900170B/zh active Active
- 2015-01-06 KR KR1020167017953A patent/KR102340151B1/ko active IP Right Grant
- 2015-01-06 BR BR112016015695-1A patent/BR112016015695B1/pt active IP Right Grant
- 2015-01-06 JP JP2016544538A patent/JP6576934B2/ja active Active
- 2015-01-06 WO PCT/US2015/010266 patent/WO2015105775A1/en active Application Filing
- 2015-01-06 US US15/108,740 patent/US10192564B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102687536A (zh) * | 2009-10-05 | 2012-09-19 | 哈曼国际工业有限公司 | 用于音频信号的空间提取的系统 |
CN103004084A (zh) * | 2011-01-14 | 2013-03-27 | 华为技术有限公司 | 用于语音质量增强的方法及设备 |
CN104170007A (zh) * | 2012-06-19 | 2014-11-26 | 深圳广晟信源技术有限公司 | 对单声道或立体声进行编码的方法 |
CN103107863A (zh) * | 2013-01-22 | 2013-05-15 | 深圳广晟信源技术有限公司 | 一种分段平均码率的数字音频信源编码方法及装置 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10964300B2 (en) | 2017-11-21 | 2021-03-30 | Guangzhou Kugou Computer Technology Co., Ltd. | Audio signal processing method and apparatus, and storage medium thereof |
US10924877B2 (en) | 2017-12-26 | 2021-02-16 | Guangzhou Kugou Computer Technology Co., Ltd | Audio signal processing method, terminal and storage medium thereof |
US11039261B2 (en) | 2017-12-26 | 2021-06-15 | Guangzhou Kugou Computer Technology Co., Ltd. | Audio signal processing method, terminal and storage medium thereof |
CN109036457A (zh) * | 2018-09-10 | 2018-12-18 | 广州酷狗计算机科技有限公司 | 恢复音频信号的方法和装置 |
WO2020052088A1 (zh) * | 2018-09-10 | 2020-03-19 | 广州酷狗计算机科技有限公司 | 恢复音频信号的方法和装置 |
US11315582B2 (en) | 2018-09-10 | 2022-04-26 | Guangzhou Kugou Computer Technology Co., Ltd. | Method for recovering audio signals, terminal and storage medium |
CN115184016A (zh) * | 2022-09-06 | 2022-10-14 | 江苏东控自动化科技有限公司 | 一种升降机轴承故障检测方法 |
Also Published As
Publication number | Publication date |
---|---|
BR112016015695A2 (zh) | 2017-08-08 |
EP3092640B1 (en) | 2018-06-27 |
WO2015105775A1 (en) | 2015-07-16 |
EP3092640A1 (en) | 2016-11-16 |
US20160329061A1 (en) | 2016-11-10 |
KR20160106586A (ko) | 2016-09-12 |
JP2017507348A (ja) | 2017-03-16 |
KR102340151B1 (ko) | 2021-12-17 |
CN105900170B (zh) | 2020-03-10 |
EP3092640A4 (en) | 2017-07-05 |
US10192564B2 (en) | 2019-01-29 |
JP6576934B2 (ja) | 2019-09-18 |
BR112016015695B1 (pt) | 2022-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105900170A (zh) | 压缩音频信号的以信号质量为基础的增强和补偿 | |
US10311880B2 (en) | System for perceived enhancement and restoration of compressed audio signals | |
RU2526745C2 (ru) | Низведение параметров последовательности битов sbr | |
EP3493203A1 (en) | Method for encoding multi-channel signal and encoder | |
Giannoulis et al. | Parameter automation in a dynamic range compressor | |
US8612237B2 (en) | Method and apparatus for determining audio spatial quality | |
EP2783366B1 (en) | Method and system for generating an audio metadata quality score | |
TR201808580T4 (tr) | Program bilgisi veya alt akış yapısı metaverisi olan ses kodlayıcı ve kod çözücü. | |
JP6911117B2 (ja) | 可変閾値を使用してオーディオ信号を分解するための装置および方法 | |
CN108432130A (zh) | 基于对象的音频信号平衡 | |
AU2017310760A1 (en) | Method for encoding multi-channel signal and encoder | |
JP2005521908A (ja) | マルチメディア信号の時間領域透かし | |
US10741196B2 (en) | Signal quality-based enhancement and compensation of compressed audio signals | |
JP5879075B2 (ja) | 電子透かし検出装置及び電子透かし検出方法 | |
JP2006050045A (ja) | 動画像データ編集装置及び動画像データ編集方法 | |
JP6231762B2 (ja) | 受信装置及びプログラム | |
EP1614103B1 (en) | Updating of a buried data channel |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |