CN102934164A - 改变回放速度或音调时处理音频信号中瞬态声音事件的设备和方法 - Google Patents
改变回放速度或音调时处理音频信号中瞬态声音事件的设备和方法 Download PDFInfo
- Publication number
- CN102934164A CN102934164A CN201180023409XA CN201180023409A CN102934164A CN 102934164 A CN102934164 A CN 102934164A CN 201180023409X A CN201180023409X A CN 201180023409XA CN 201180023409 A CN201180023409 A CN 201180023409A CN 102934164 A CN102934164 A CN 102934164A
- Authority
- CN
- China
- Prior art keywords
- sub
- signal
- transient state
- piece
- overlap
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001052 transient effect Effects 0.000 title claims abstract description 234
- 230000005236 sound signal Effects 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000000605 extraction Methods 0.000 claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 30
- 230000009471 action Effects 0.000 claims description 18
- 238000012937 correction Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 5
- 230000033001 locomotion Effects 0.000 claims description 4
- 230000005484 gravity Effects 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 238000011144 upstream manufacturing Methods 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 claims description 2
- 230000015572 biosynthetic process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000003786 synthesis reaction Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 238000006073 displacement reaction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 108010003272 Hyaluronate lyase Proteins 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000013517 stratification Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Auxiliary Devices For Music (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
Abstract
一种用于处理音频信号的设备包括交叠相加级,其用于使用与块提取预先值不同的交叠相加预先值来交叠和相加多个子频带信号中的相应一个子频带信号的块。该设备还包括瞬态检测器,其用于检测音频信号或多个子频带信号中的一个子频带信号中的瞬态。交叠相加级被配置为当相加时,减小所检测到的瞬态的影响或者不使用所检测到的瞬态。该设备还包括瞬态加法器,其用于将所检测到的瞬态添加至由交叠/相加级生成的子频带信号。一种用于处理音频信号的相关方法包括:尤其是,当交叠和相加时,减小所检测到的瞬态的影响或者摒弃所检测到的瞬态。
Description
例如,借助于相位声码器,可在保持音调的同时改变音频信号的回放速度(例如,参见J.L.Flanagan和R.M.Golden,“贝尔系统技术期刊(TheBell System Technical Journal)”,1966年11月,1394-1509页;Laroche,J.和Dolson,M.的题为“相位声码器变调(Phase-vocoder pitch-shifting)”的美国专利第6,594,884号;Jean Laroche and Mark Dolson,“NewPhase-Vocoder Techniques for Pitch-Shifting,Harmonizing And Other ExoticEffects”,Proc.1999IEEE Workshop on Applications of Signal Processing toAudio and Acoustics,New Paltz,New York,Oct.17-20,1999)。以相同方式,采用该方法,可在保持原始回放持续时间的同时执行信号转换。保持原始回放持续时间通过回放由时间拉伸因子加速的拉伸信号来获得。在时间离散信号表示中,这对应于在保持采样频率的同时通过拉伸因子下采样信号。按照惯例,这种时间拉伸发生在时域中。可替代地,该时间拉伸也可发生在滤波器组内,诸如伪正交镜像滤波器组(pQMF)。伪正交镜像滤波器组(pQMF)有时也被称为QMF滤波器组。
拉伸中的具体挑战是在时间拉伸的处理步骤期间时间上“模糊”的瞬态事件。这由于诸如相位声码器的方法影响了所谓的信号的垂直相干性质(对于时间频率频谱图表示)而出现。
目前的一些方法更多在瞬态周围拉伸时间,以便不必在瞬态持续时间期间执行任何时间拉伸或仅执行很少的时间拉伸。例如,这已在以下文献中被描述:
-Laroche L.,Dolson M.:Improved phase vocoder timescalemodification of audio",IEEE Trans.Speech and Audio Processing,vol.7,no.3,pp.323-332
-Emmanuel Ravelli,Mark Sandler and Juan P.Bello:Fastimplementation for non-linear time-scaling of stereo audio;Proc.of the8th Int.Conference on Digital Audio Effects(DAFx’05),Madrid,Spain,September20-22,2005
-Duxbury,C.、M.Davies和M.Sandler(2001年12月)。使用多项分辨率分析技术分离音乐音频中的瞬态信息(Separation of transientinformation in musical audio using multi resolution analysis techniques)。数字音频效果COST G-6会议(DAFX-01)议事录(In Proceedings of the COSTG-6Conference on Digital Audio Effects),Limerick,爱尔兰。
另一篇有关该主题的论文由R,A.撰写:A NEW APPROACH TOTRANSIENT PROCES SING IN THE PHASE VOCODER;Proc.of the6thInt.Conference on Digital Audio Effects(DAFx-03),London,UK,September8-11,2003。
在利用相位声码器的音频信号的时间拉伸中,瞬态信号部分由于分散而“模糊”,因为信号频谱图中所谓的垂直相干性受到影响。利用所谓的交叠相加的方法来操作的方法可生成瞬态声音事件的伪前回声和后回声。通过在瞬态背景下改变时间拉伸、在实际瞬态期间无拉伸以及在周围更强拉伸,可处理这些问题。然而,若发生转换,则转换因子在瞬态背景下将不再恒定,即,叠加(可能为音调)信号部分的音调以伪可听方式改变。当时间拉伸在滤波器组(诸如pQMF)内发生时,会出现类似问题。
本申请领域涉及一种在这一过程内用于瞬态声音事件的听觉处理的方法。具体地,在时间拉伸的信号操作期间可去除瞬态声音事件。随后,在考虑拉伸的情况下,可执行未处理瞬态信号部分与改变(拉伸)的信号的精确拟合相加。
根据本文件中所公开的教导的实施方式,一种用于处理音频信号的设备包括时间操作器,其用于分别对音频信号的多个子频带信号进行时间操作。该时间操作器包括:交叠相加级,其用于使用与块提取预先值不同的交叠相加预先值来交叠和相加多个子频带信号中的至少一个子频带信号的块;瞬态检测器,其用于检测音频信号或子频带信号中的瞬态;以及多个瞬态加法器,其用于将所检测到的瞬态添加至由交叠相加级生成的多个信号。该交叠相加级被配置为当相加时,减小所检测到的瞬态的影响或者不使用所检测到的瞬态。
根据另一实施方式,一种用于处理音频信号的设备包括:分析滤波器组,其用于生成子频带信号;时间操作器,其用于分别对多个子频带信号进行时间操作,该时间操作器包括:交叠相加级,其用于使用与块提取预先值不同的交叠相加预先值来交叠和相加子频带信号的块;瞬态检测器,其用于检测音频信号或子频带信号中的瞬态,其中,该交叠相加级被配置为当相加时,减小所检测到的瞬态的影响或者不使用所检测到的瞬态;以及瞬态加法器,其用于将所检测到的瞬态添加至由交叠/相加级生成的信号。
根据另一实施方式,一种用于处理音频信号的方法包括:
分别对音频信号的多个子频带信号进行时间操作,该时间操作包括:
使用与块提取预先值不同的交叠相加预先值来交叠和相加多个子频带信号中的相应一个子频带信号的块;
检测音频信号或子频带信号中的瞬态;
当交叠和相加时,减小所检测到的瞬态的影响或者摒弃所检测到的瞬态;
将所检测到的瞬态添加至由交叠和相加的动作生成的多个信号。
另一实施方式涉及一种计算机程序,其用于当该计算机程序在计算机上运行时执行一种方法,该方法包括:
分别对音频信号的多个子频带信号进行时间操作,该时间操作包括:
使用与块提取预先值不同的交叠相加预先值来交叠和相加多个子频带信号中的相应一个子频带信号的块;
检测音频信号或子频带信号中的瞬态;
当交叠和相加时,减小所检测到的瞬态的影响或者摒弃所检测到的瞬态;
将所检测到的瞬态添加至由交叠和相加的动作生成的多个信号。
根据相关实施方式,该设备还可包括抽取器,其用于抽取音频信号或多个音频信号。时间操作器可被配置为执行对多个子频带信号的时间拉伸。
根据另一实施方式,该瞬态检测器可被配置为标记被检测到包括瞬态的块;以及其中,多个交叠相加级被配置为忽略所标记的块。
根据另一实施方式,该多个交叠相加级可被配置为应用大于块提取值的交叠相加值来执行对多个子频带信号的时间拉伸。
根据另一实施方式,该时间操作器还可包括:块提取器;窗口器/相位调整器;以及相位计算器,其用于计算相位,窗口器/相位调整器基于该相位来执行对被提取的块的调整。
根据另一实施方式,该瞬态加法器还可被配置为插入子频带信号的具有瞬态的一部分,其中,该部分的长度被选择为足够长,使得从来自具有瞬态的该部分的信号输出到来自交叠相加处理的输出的同时淡入淡出(cross-fade)是可行的。
根据相关实施方式,该瞬态加法器可被配置为执行同时淡入淡出操作。
根据另一实施方式,该瞬态检测器可被配置为检测由块提取器从具有瞬态特性的子频带信号提取的块。该交叠相加级还可被配置为当相加时,减小所检测到的块的影响或者不使用所检测到的块。
根据另一实施方式,该瞬态检测器可被配置为跨输入到分析滤波器组中的信号或子频带信号的预定时间段执行能量的重心移动计算。
为选择适当部分的目的,瞬态位置的精确确定例如可经过适当时间段借助于能量移动重心(centroid)计算来执行。具体地,瞬态确定可在滤波器组内以频率选择方式执行。另外,该部分的时间段可被选定为恒定值,或者可基于来自瞬态确定的信息以变量方式来选择。
根据另一实施方式,该设备还可包括分析滤波器组,其用于生成子频带信号。
根据另一实施方式,该设备还可包括抽取器,其被配置在分析滤波器组的输入侧或输出侧。该时间操作器可被配置为执行对多个子频带信号的时间拉伸。
根据另一实施方式,该设备还可包括:第一分析滤波器组;第二分析滤波器组;重采样器,其位于第二分析滤波器组的上游;以及多个相位声码器,其用于由第二分析滤波器组输出的第二多个子频带信号,多个相位声码器具有大于1的带宽扩展因子,以及相位声码器的输出被提供给多个交叠相加级。
根据另一实施方式,该设备还可包括连接级,其位于连接级输入侧的第一分析组和多个相位声码器与连接级输出侧的多个交叠相加级之间,该连接级被配置为控制多个子频带信号中的相应一个子频带信号的块以及相位声码器处理后的信号的块向交叠相加级的提供。
根据另一实施方式,该设备还可包括:振幅校正,其被配置为补偿不同交叠值的振幅影响效果。
因此,本申请提供了在带宽扩展背景下以及在其他与带宽扩展无关的音频应用背景下用于处理音频信号的设备、方法或计算机程序的不同方面。所描述和主张的各个方面的特征可被部分或全部结合,但也可彼此分开使用,因为当在计算机系统或微处理器中实施时,每个方面已经提供了关于感知质量、计算复杂度和处理器/存储器资源的优势。
根据本文所公开的教导并与现有方法相比较,包括瞬态的窗口部分可从要被操作的信号中去除。这可通过在交叠相加(OLA)处理期间逐个块地仅相加这些未包括瞬态的时间部分来获得。这产生了不包括瞬态的时间拉伸信号。在时间拉伸终止之后,再添加已从原始信号中去除的未拉伸的瞬态。
因此,分散和回声效果不再影响瞬态的主观音频质量。
通过插入原始信号部分,当改变采样率时将导致音色或音调改变。然而,一般地,瞬态心理声学掩饰了这一音色或音调的改变。具体地,若发生乘以整数因子的拉伸,则音色将仅轻微改变,因为在瞬态背景之外,仅每隔第n(n=拉伸因子)个谐波被映射。
所包括的附图提供了对实施方式的进一步理解,且被结合进本说明书中并构成本说明书的一部分。附图示出了实施方式,并与本描述一起用于解释实施方式的原理。其他实施方式和实施方式的许多预期优势将很容易被理解,因为参照以下详细描述这些实施方式将变得更好理解。类似附图标记表示相应或相似的部分。
图1示出了示例性由律管和响板的混合组成的原始信号的信号波形。
图2示出了图1中所示的信号波形的离散傅里叶变换(DFT)频谱图。
图3示出了类似于图2的DFT频谱图的基于64频带pQMF分析滤波器组的基于QMF的频谱图。
图4示出了瞬态检测矩阵。
图5示出了在不使用本文所公开的教导的情况下由时间拉伸引发的信号的信号波形。
图6示出了在使用本文所公开的教导的情况下由时间拉伸引发的信号的信号波形。
图7示出了根据本文所公开的教导的未瞬态处理的时间拉伸信号的基于FFT的频谱图。
图8示出了根据本文所公开的教导的具有瞬态处理的时间拉伸信号的基于FFT的频谱图。
图9示出了包括根据本文所公开的教导的设备的音频处理系统的示意性框图。
图10示出了包括根据本文所公开的教导的设备的另一音频处理系统的示意性框图。
图11A示出了用于处理单一子频带信号的处理实施方式的示意性框图。
图11B示出了用于处理单一子频带信号的另一处理实施方式的示意性框图。
图12A至图12E示出了根据所公开的教导的信号块处理。
图13示出了根据本文所公开的教导的一种实施方式的设备的示意性框图。
图14示出了根据本文所公开的教导的另一实施方式的设备的示意性框图。
图15示出了根据本文所公开的教导的用于处理音频信号的方法的示意性流程图。
图1示出了示例性由律管和响板的混合组成的音频信号的信号波形的时间部分。所示音频信号应被用作原始信号,在不应用或者应用本文所公开的教导的情况下,对该原始信号执行各种时间拉伸动作。律管的声音对应于图1中具有约0.08个单位的振幅的大致周期性的信号。四个响板节拍(castanet beat)在图1中示出为具有约0.45个单位的振幅的四个短脉冲。律管产生基本音调信号。然而,响板产生高瞬态信号。在声学和音频中,瞬态通常被定义为表示音乐声音或口语的非谐波起声阶段(non-harmonic attack phase)的短持续时间信号。它可包括高度非周期性分量和比所述声音的谐波含量更高的高频量。瞬态通常不直接取决于它们发起的音调频率。
图2示出了图1的信号波形的离散傅里叶变换(DFT)频谱图。图3类似于图2,并示出了图1的信号波形的64频带伪正交镜像滤波器组(pQMF)频谱图。从图2和图3所示的两个频谱图可以看出,原始音频信号包括密集谐波局部声音结构(水平结构)和响板节拍(垂直结构)。
从其能够得出,图4示出了以频率选择方式标记瞬态信号部分的二进制瞬态检测矩阵。所检测到的瞬态信号部分用白色示出。该检测到的瞬态信号部分可经由用于转换的声码器去除,并随后基于原始信号再次添加。可替代地,所检测到的瞬态信号部分可从时间拉伸中被排除,并随后用来自原始信号的相应信号部分替换。
图5至图8示出了在具有和不具有新瞬态处理的情况下两个时间信号的形式的时间拉伸结果以及相关联的频谱图。通过比较针对具有瞬态处理与不具有瞬态处理的情况的时间信号和频谱图,可以看出,通过利用本文所公开的教导有效避免了瞬态信号部分的不期望的时间模糊。例如,图5所示时间信号和图7所示相应频谱图表明,响板节拍已被展宽,即,它们的持续时间长于图1所示原始时间信号中的持续时间。相反,图6所示时间信号和图8中相应的频谱图(其已通过利用根据本文所公开的教导的瞬态处理而获得)证实,响板节拍就它们的持续时间而言未经历实质性展宽,而是在信号操作过程期间基本被保留。
采用根据所公开的教导的设备、方法和计算机程序,有效避免了当通过时间拉伸和转换的方法来处理瞬态时产生的伪像(artifact,分散、前回声和后回声)。上述情况表明,不论子频带占主导的静止部分还是瞬态部分,频率选择方式上均有区别,且相应地选择瞬态处理方法。此外,考虑用于使信号部分的时间段最佳适应于瞬态的瞬态确定的参数,可以变量方式形成待插入信号部分的时间段。
本方法适用于音频信号的回放速度或它们的音调要被改变的所有音频应用。尤其适用于带宽扩展应用或音频效果领域。
图9示出了音频带宽扩展领域中的音频处理系统。然而,本发明也可被用于不执行带宽扩展的其他领域。比特流被输入到核心解码器100中。由核心解码器输出的信号(即,窄带宽音频信号)被输入到相应抽取器102a、102b、102c中。被抽取的信号(其与由核心解码器100输出的信号相比具有减少的时间长度)被输入到相应的pQMF分析级104a、104b、104c中。级104a、104b、104c可通过任何其他的并非pQMF滤波器组的分析滤波器组来实现。存在许多不同的滤波器组实现方式,其全部均可用于此目的。
各pQMF分析级104a、104b、104c在不同子频带信道中输出多个不同子频带信号,其中,各子频带信号具有减少的带宽,且通常具有减少的采样率。在该情况下,滤波器组是优选用于本发明的2倍过采样滤波器组。然而,也可使用临界采样滤波器组。
pQMF分析信道中输出的相应窄带信号或子频带信号被输入到相位声码器中。尽管图9仅示出了三个相位声码器106a、106b、106c,但重点关注的是,每个单独的pQMF分析信道可具有自身的相位声码器。相位声码器算法也可通过基带或第一补块(patch)的内插法来实现。针对由相同分析滤波器组生成的不同子频带信号的相位声码器具有类似结构,且不同于针对来自其他滤波器组的子频带信号的相位声码器,这归因于图9所示的带宽扩展因子。带宽扩展因子在相位声码器106a中为2。在相位声码器106b中,带宽扩展因子为3,以及在相位声码器106c中,带宽扩展因子为4。注意,对于本文所公开的教导的目的,通常没必要执行任何带宽扩展或甚至几种不同带宽扩展。因此,可省略抽取器102a、102b、102c。来自不同相位声码器的输出被输入到pQMF合成滤波器组108中。当块104a-104c中分析滤波器组以不同技术实现时,则合成滤波器组108也将以不同技术来实现,使得分析滤波器组技术和合成滤波器组技术相互匹配。
根据本文所公开的教导的设备可在QMF分析级104a、104b、104c中的一个或多个以及QMF合成滤波器组108中以分布式方式实现。以相同方式或类似方式,作为根据所公开的教导的设备的一部分的时间操作器可针对QMF分析级104a、104b、104c和QMF合成滤波器组108来分别。因此,QMF分析级104a、104b、104c中的一个或多个可根据时间操作而省略包括瞬态的块,并将原始块转发至合成滤波器组108。通过将检测到的且通常未修改的瞬态添加至由合成滤波器组108的交叠相加级生成的信号,合成滤波器组108可提供瞬态加法器的功能。图9的示意性框图未明确示出瞬态检测器。瞬态检测器可以是QMF分析级104a、104b、104c的一部分。可替代地,瞬态检测器可以是其自身的单元。
图10示出了不同实施方式,其中,线110上的基带信号被输入到分析滤波器组112中。因此,低频带信号被变换为多个子频带信号。此外,提供了切换级或连接级114,通过该切换级或连接级114,由相位声码器106a、106b输出的或者由基带pQMF分析滤波器组112输出的不同子频带信号可被输入到任何任意选定的合成频带中。
各相位声码器与各pQMF频带有关。图10中,使用带宽扩展因子为2的第一谐波补块(harmonic patch)的第一pQMF频带和最后一个pQMF频带被示出为106a。对于使用带宽扩展因子为3的其他谐波补块,该补块的第一pQMF频带和最后一个pQMF频带被示出为106b。
使用相位声码器输出和基带pQMF分析滤波器组112输出的任意选定的组合可生成合成信号。需要注意,切换级114可以是受控切换级,其由具有特定边信息的音频信号控制,或者其由特定信号特性来控制。可替代地,级114可以是无任何切换功能的简单的连接级。这是来自元件112和106a-106b的输出信号的特定分布被固定设置和固定编程时的情况。在该情况下,级114将不包括任何开关,但将包括特定的贯通连接。
图11A示出了用于处理单一子频带信号的处理实施的实施方式。在被图11A中未示出的分析滤波器组滤波之前或之后,该单一子频带信号可能已经过任何种类的抽取。假设已执行了抽取,则单一子频带信号的时间长度通常短于在形成抽取之前的时间长度。单一子频带信号被输入到块提取器1800中。图11A中的块提取器1800使用示例性被称为e的样本/块预先值来操作。样本/块预先值可以是变量,或者可被固定设置,且作为进到块提取器框1800中的箭头被示出在图11A中。在块提取器1800的输出端,存在多个被提取的块。这些块高度交叠,因为样本/块预先值e明显小于块提取器的块长度。一个实例是块提取器提取了12个样本的块。第一块包括样本0至11,第二块包括样本1至12,第三块包括样本2至13等。在该实施方式中,样本/块预先值e等于1,且有11倍交叠。上述实例具有通过实例方式提供的且可随应用而改变的值。
各个块被输入到用于使用针对各个块的窗函数来窗口化块的窗口器1820中。此外,提供了相位计算器1804,其针对各个块计算相位。相位计算器1804可在窗口化之前或者窗口化之后使用各个块。随后,计算相位调整值p×k,且被输入到相位调整器1806中。相位调整器将该调整值应用于块中的各样本。此外,因子k等于带宽扩展因子。例如,当要获得乘以因子2的带宽扩展时,则针对由块提取器1800提取的块计算的相位p被乘上因子2,且在相位调整器1806中应用于该块的各样本的调整值为p乘以2。这是通过实例方式提供的值/规则。可替代地,针对合成的校正相位为k*p、p+(k-1)*p。因此在该实例中,若相乘则校正因子为2,或者若相加则校正因子为1*p。其他值/规则可被用于计算相位校正值。
在一种实施方式中,单一子频带信号为复杂子频带信号,且可通过多种不同方式来计算块的相位。一种方式是采用块中间或块中间周围的样本并计算该复杂样本的相位。
尽管在图11A中以相位调整器在窗口器之后操作的方式被示出,但这两个块也可互换,使得对由块提取器提取的块执行相位调整,并执行随后的窗口化操作。由于这两个操作(即,窗口化和相位调整)是实数值或复数值相乘,所以使用复数相乘因子,这两种操作可概括为单个操作,复数相乘因子本身是相位调整相乘因子和窗口化因子之积。
相位调整块被输入到交叠/相加和振幅校正块1808中,其中,窗口化和相位调整块被交叠相加。然而重要的是,块1808中的样本/块预先值不同于块提取器1800中使用的值。具体地,块1808中的样本/块预先值大于块1800中使用的值e,从而获得由块1808输出的信号的时间拉伸。因此,由块1808输出的处理后的子频带信号具有比输入到块1800中的子频带信号更长的长度。当要获得2倍带宽扩展时,则使用是块1800中的相应值的2倍的样本/块预先值。这产生了乘以因子2的时间拉伸。然而,当其他时间拉伸因子成为必要时,则可使用其他样本/块预先值,使得块1808的输出具有所需时间长度。
为解决交叠问题,优选执行振幅校正,以解决块1800和1808中的不同交叠问题。然而,该振幅校正也可被引入到窗口器/相位调整器相乘因子中,但该振幅校正也可在交叠/处理之后执行。
在具有块长度为12以及块提取器中样本/块预先值为1的上述实例中,当执行乘以因子2的带宽扩展时,针对交叠/相加块1808的样本/块预先值将等于2。这仍将导致6个块交叠。当欲执行乘以因子3的带宽扩展时,则由块1808使用的样本/块预先值将等于3,且交叠将降低至4个交叠。当欲执行4倍带宽扩展时,则交叠/相加块1808将必须使用样本/块预先值4,该预先值4仍将导致多于2个块的交叠。
图11A所示的针对各子频带信号的相位声码器优选包括瞬态检测器200,其用于执行由连接201a指示的子频带信号内的瞬态检测,或者用于执行对如由连接线201b指示的分析滤波器组处理之前的信号的瞬态检测。只要瞬态检测器200检测到瞬态,则交叠/相加级即被控制为在交叠/相加处理中不使用具有瞬态的块,如由控制连接203所示。在一种实施方式中,线203上的信号控制交叠/相加级来去除具有瞬态事件的所有块。这将产生该级输出端处的信号,该信号相对于在这一级之前的信号被拉伸,但该信号不包括任何瞬态。
无瞬态的拉伸信号被输入到瞬态加法器中,该瞬态加法器被配置为将瞬态与拉伸信号相加,使得在输出端处存在具有被插入的瞬态的拉伸信号,但这些被插入的瞬态未受到多重交叠/相加处理影响。
在一种实施方式中,瞬态部分从子频带信号自身被插入,如由连接线206和线201a所示。可替代地,可从任何其他子频带信号或者从子频带分析之前的信号取出该信号,因为瞬态的特征在于瞬态在各子频带上以相当类似的方式出现。然而另一方面,在某些情况下优选使用出现在子频带中的瞬态事件,因为采样率和其他考虑因素要尽可能接近拉伸信号。
图11B示出了用于处理单一子频带信号的处理实施的另一可行实施方式。在块提取器1800的上游插入了瞬态抑制窗口器1798,该瞬态抑制窗口器1798作用于单一子频带信号。瞬态抑制窗口器1798去除包括瞬态的样本或块。由瞬态检测器200执行对样本是否包括瞬态的评估。单一子频带信号在瞬态抑制窗口器1798的输入侧被分接,使得瞬态检测器200接收单一子频带信号作为输入。在瞬态检测之后,瞬态检测器200输出相应信号至瞬态抑制窗口器1798,且瞬态抑制窗口器1798通过抑制已由瞬态检测器200指示为包括瞬态的样本来起作用。因此,被瞬态检测器200标记为包括瞬态样本的样本不进入块提取器1800。其他不包括瞬态的样本被保持在由块提取器1800、窗口器1802、相位计算器1804、相位调整器1806和交叠相加块1808处理的块中。交叠相加块1808输出无瞬态的拉伸信号。
包括瞬态的样本随后被瞬态加法器204再次添加至无瞬态的拉伸信号。瞬态加法器204接收来自瞬态检测器200的控制信号和原始单一子频带信号作为输入。利用该信息,瞬态加法器可识别已被瞬态抑制窗口器1798抑制的样本,并将这些样本重新插入到无瞬态的拉伸信号中。在瞬态加法器204的输出端获得具有被插入的瞬态的处理后的子频带信号(长时间长度)。
图12A至图12E示出了根据之前实施的方法和根据本文所公开的教导可如何处理音频信号或多个子频带信号中的一个。图12A中示出了音频样本序列1202。该序列1202可能属于多个子频带信号中的一个。字母“T”标记了其中瞬态检测器已检测到瞬态的样本。
在图12A中序列1202的下方给出了多个被提取的块1206。多个被提取的块1206各自为12个样本长度,且包括具有瞬态T的样本。在多个被提取的块1206的上方和下方示出了不包括瞬态T的一个先前块1204和一个随后块1208。由图12A可以看出,全部多个被提取的块1204遍及23个块。
图12B示出了在标准时间操作方法中,在交叠和相加各个块之前,先前块1204、多个被提取的块1206中的块以及随后块1208如何各自移位一个块以执行音频信号的时间拉伸。这些块或该多个块的移位形式被标记为1204’、1206’和1208’。图12B中交叠相加预先值为2,而图12A所示的块提取预先值为1。由于块移位,在多个被提取的块1206的块中包括瞬态T的样本时间上不再对准,而是被分布在12个样本的时间跨度上。
图12C示出了根据本文所公开的教导对在其样本中的一个或多个中包括瞬态T的块的去除。被去除的块属于多个被提取的块1206’,并用虚线绘制。对块1206’的去除留下了14个样本长度的间隔。此外,在间隔之前的10个样本的时间跨度和间隔之后的10个样本的时间跨度中,在交叠相加处理中或者通过用于处理音频信号的设备的交叠相加级,仅考虑减少的块数量而不是通常的6个块。注意,图12B和图12C仅是说明性的,且图12A的多个被提取的块1206中的块可在已被检测到瞬态之后立即去除,即无需对多个被提取的块1206中的这些块执行时间移位动作。在本文所公开的教导的一种可行实施中,多个被提取的块1206中的块被重新路由以旁路过交叠相加级并被插入交叠相加级的下游。
在图12D中,原始瞬态部分(即,多个被提取的块1206)被插入到时间操作音频信号中。原始瞬态部分被插入到去除包括瞬态T的块之后留下的间隔中。原始瞬态部分可被添加至音频信号的时间操作的其余部分。在间隔的开始或左边缘处,多个被提取的块1206与6个常规块(其中三个在图12D中用点图案示出)重叠。在图12D所示实例中,常规块采用交叠相加预先值2来处理。由图12D可以看出,剩余间隔保留在原始瞬态部分的末端与随后块1208’之间。将多个被提取的块1206向右(朝向后续时刻)移位几个样本使得原始瞬态部分更均等地分布和/或定位在被移位的先前块1204’与被移位的随后块1208’之间的间隔内将是可行的。
图12D的下部示出了每个样本中有多少块重叠。根据具有12个样本的块长度、块提取值为1和交叠相加预先值为2的常规时间操作,在对时间操作音频信号的特定样本的交叠相加处理期间,通常考虑6个块。换言之,在时间操作信号的一个样本中,有来自从原始音频信号提取的6个不同块的贡献。图12D中的曲线示出了在对原始瞬态部分的处理期间,最初考虑6个块。当用一个样本差来错开多个被提取的块1206中的块时,要重叠的块数量增加,以针对已检测到瞬态T的样本而达到值12。随后,块计数针对每个新样本而减少1,以在原始瞬态部分的末端达到值1。块计数可被用于校正该部分中的时间操作信号的振幅,其中,重叠块的数量不同于常规值6。为此,可基于对瞬态的检测来确定块的计数,并将块计数馈送至振幅校正。该振幅校正可作用于交叠、相加和/或重叠之前的块,或者作用于所获得的时间操作信号。
如上所述,保留两个样本的剩余间隔。当常规块再次开始时,以随后块1208’作为开始。
图12E示出了一种可选实施方式,其中,间隔已被缩短了两个样本,使得原始瞬态部分的末端与被移位的随后块1208’之间无剩余间隔保留。尽管该措施可能导致所获得的时间操作信号的轻微变坏(具体地,轻微缩短),但该影响可以是微不足道的。如上所述,原始瞬态部分可被更靠中心地插入在先前块1204’与随后块1208’之间的间隔内。
作为对去除包括一个或多个包括瞬态的样本的完整块的替代,如图12A至图12E所示,在块内可去除各个包括瞬态的样本,同时保留块内的其余样本。可通过将样本值设置为零来实现对包括瞬态的样本的去除。因此,包括瞬态的样本将不对交叠相加块1808的输出作出贡献。可使用振幅校正以增加与归零样本交叠相加的其他样本的贡献。将包括瞬态的样本归零的动作可伴随着分别在样本之前和样本之后淡出和淡入子频带信号来实现。例如,在包括瞬态的样本之前的几个样本和包括瞬态的样本之后的几个样本中,子频带信号可与淡入淡出因子信号(fading factor signal)相乘以实现例如在包括瞬态的样本周围的三角形淡入淡出窗口。
图13示出了一种时间操作器的示意性框图,该时间操作器可以是根据所公开的教导的用于处理音频信号的设备的一部分。时间操作器接收多个子频带信号,该多个子频带信号一起形成音频信号。在该时间操作器内,多个子频带信号可由块提取器和缓冲器1810来暂时存储。块提取器和缓冲器1810从多个子频带信号中的每一个提取块。这些块具有特定块长度L,且利用特定块提取预先值e来提取。例如,块长度L可以是12,以及块提取预先值e可以是1。块提取器和缓冲器1810接收块长度L和块提取预先值e作为输入参数。在替代性实施方式中,块长度L和块提取预先值e可以固定方式被存储在块提取器和缓冲器1810中。
块提取器和缓冲器1810输出被提取的块,并将它们提供给交叠相加级1808,在交叠相加级1808中,被提取的块与不同于块提取预先值e的交叠相加预先值k*e交叠并相加以形成时间操作音频信号。交叠相加级1808可包括多个交叠相加单元,例如,针对多个子频带信号中的相应一个的一个交叠相加单元。另一选择是以分时或复用方式使用单个交叠相加级或几个交叠相加单元,使得子频带信号被分别且连续地交叠相加。
时间操作器还包括瞬态检测器200,该瞬态检测器200接收多个子频带信号。瞬态检测器200可分析有关例如音乐声音或口语的非谐波起声阶段或者高度非周期性分量和/或比该声音的谐波含量更高的高频量的子频带信号或音频信号。瞬态检测器200的输出指示在音频信号的当前部分中是否已识别到瞬态,并被提供给交叠相加级1808和瞬态加法器1812。假设瞬态检测器200的输出指示已检测到瞬态,则当执行交叠相加动作时,交叠相加级1808被控制为忽略包括瞬态T的这些块。在从瞬态检测器200接收到已检测到瞬态的指示之后,瞬态加法器1812就其自身方面而言将原始瞬态部分插入到其他时间操作音频信号。具有被添加的瞬态的时间操作信号形成了时间操作器的输出。
图14示出了根据本文所公开的教导的基于另一实施方式的时间操作器的示意性框图。除了图13所示时间操作器的元件之外,图14的时间操作器包括振幅校正1814。该振幅校正1814从瞬态检测器200接收关于检测到瞬态的指示。基于该信息,振幅校正1814可修改信号块的振幅,以符合在交叠相加处理中使用的变化的块数量。所考虑的块数量的变化归因于对多个被提取的块1204的去除,以及可能归因于原始瞬态部分的插入。通常块数量如何变化的时间图形已知,且可基于检测到瞬态的时刻来确定。因此,提供触发信号给振幅校正可以是足够的,随后该振幅校正根据时间图形来调整随后块的振幅。可行的时间图形可基于示出了交叠相加处理中考虑的块数量的演变的波形,如图12D和图12E所示。例如,振幅校正值可以是块计数的倒数。
图15示出了根据本文所公开的教导的用于处理音频信号的方法的示意性流程图。在该方法开始之后,执行动作1502,其中,音频信号的多个子频带信号分别被时间操作。动作1502包括子动作1504至1510。
在1504处,多个子频带信号中的相应子频带信号的块被交叠并相加。使用与块提取预先值不同的交叠相加预先值。动作1504表示无瞬态的正常处理流程,并被连续执行。
在1506处执行瞬态检测动作,以检测音频信号或子频带信号中的瞬态。动作1506可与动作1504以及图15的流程图所示的其他动作同时被执行。
当执行交叠和相加的动作1504时,减小了所检测到的瞬态的影响,或者摒弃了所检测到的瞬态。
所检测到的瞬态随后在动作1510处被添加至由交叠和相加的动作1504生成的多个信号。
尽管根据本文所公开的教导,音频信号的瞬态部分通常未经历与音频信号的其余部分相同的时间操作,但时间操作所获得的信号通常以实际方式呈现瞬态部分。这可能至少部分地归因于以下事实:瞬态对于许多信号操作方法(诸如频移)非常不敏感。
根据本文所公开的教导的另一方面,一种用于处理音频信号的设备可包括:
分析滤波器组,其用于生成子频带信号;
时间操作器,其用于分别对多个子频带信号进行时间操作,该时间操作器包括:
交叠相加级,其用于使用与块提取预先值不同的交叠相加预先值来交叠和相加子频带信号的块;
瞬态检测器,其用于检测音频信号或子频带信号中的瞬态,
其中,交叠相加级被配置为在相加时减小所检测到的瞬态的影响或者不使用所检测到的瞬态;以及
瞬态加法器,其用于将所检测到的瞬态添加至由交叠/相加级生成的信号。
根据本文所公开的教导的另一方面,如上所述的设备还可包括抽取器,其被配置在分析滤波器组的输入侧或输出侧,其中,时间操作器可被配置为执行子频带信号的时间拉伸。
根据本文所公开的教导的另一方面,在如上所述的设备中,瞬态检测器可被配置为标记被检测到包括瞬态的块;以及交叠相加级可被配置为忽略所标记的块。
根据本文所公开的教导的另一方面,在如上所述的设备中,交叠相加级可被配置为应用大于块提取预先值的交叠相加预先值来执行对子频带信号的时间拉伸。
根据本文所公开的教导的另一方面,在根据所附权利要求中的一项所述的设备中,时间操作器可包括:块提取器;窗口器/相位调整器;以及相位计算器,其用于计算相位,窗口器/相位调整器基于该相位来执行对所提取的块的相位调整。
根据本文所公开的教导的另一方面,在如上所述的设备中,瞬态检测器可被配置为确定子频带信号的包括瞬态的一部分的长度,该长度与由瞬态加法器插入的信号的长度相匹配。
根据本文所公开的教导的另一方面,在如上所述的设备中,瞬态加法器可被配置为插入子频带信号的具有瞬态的一部分,其中,该部分的长度可被选择为足够长,使得从来自交叠相加处理的信号输出到具有瞬态的该部分或者从具有瞬态的该部分到来自交叠相加处理的输出的同时淡入淡出是可行的。
根据本文所公开的教导的另一方面,在如上所述的设备中,瞬态加法器可被配置为执行同时淡入淡出操作。
根据本文所公开的教导的另一方面,在如上所述的设备中,瞬态检测器可被配置为检测由块提取器从具有瞬态特性的子频带信号提取的块,以及交叠相加级可被配置为当相加时,减小所检测到的块的影响或者不使用所检测到的块。
根据本文所公开的教导的另一方面,在如上所述的设备中,瞬态检测器可被配置为跨输入到分析滤波器组中的信号或子频带信号的预定时间段执行能量的重心移动计算。
尽管已在设备背景下描述了一些方面,但应当清楚,这些方面也表示对相应方法的描述,其中,块或装置对应于方法步骤或方法步骤的特征。类似地,在方法步骤背景下描述的方面也表示对相应块或者相应设备的项目或特征的描述。
本发明的编码音频信号可被存储在数字存储介质上,或者可在诸如无线传输介质或有线传输介质(诸如互联网)的传输介质上被传送。
根据特定实施要求,本发明的实施方式可以硬件或软件来实施。可使用具有存储于其上的电子可读控制信号的数字存储介质来进行该实施,例如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存,该电子可读控制信号与可编程计算机系统协作(或者能够协作),从而执行相应的方法。
根据本发明的一些实施方式包括具有电子可读控制信号的数据载体,该电子可读控制信号能够与可编程计算机系统协作,从而执行本文所述方法中的一种。
一般地,本发明的实施方式可被实施为具有程序代码的计算机程序产品,当该计算机程序产品在计算机上运行时,该程序代码可操作以执行这些方法中的一种。该程序代码例如可被存储在机器可读载体上。
其他实施方式包括存储在机器可读载体上用于执行本文所述方法中的一种的计算机程序。
换言之,本发明的方法的实施方式因此是一种具有程序代码的计算机程序,当该计算机程序在计算机上运行时,该程序代码用于执行本文所述方法中的一种。
因此,本发明的方法的另一实施方式是一种数据载体(或数字存储介质,或者计算机可读介质),该数据载体包括记录在其上的用于执行本文所述方法中的一种的计算机程序。
因此,本发明的方法的另一实施方式是一种表示用于执行本文所述方法中的一种的计算机程序的数据流或信号序列。例如,该数据流或信号序列可被配置为经由数据通信连接(例如,经由互联网)来传输。
另一实施方式包括一种处理装置(例如,计算机或可编程逻辑器件),其被配置为或适用于执行本文所述方法中的一种。
另一实施方式包括一种计算机,其具有安装于其上的用于执行本文所述方法中的一种的计算机程序。
在一些实施方式中,可编程逻辑器件(例如,现场可编程门阵列)可被用于执行本文所述方法的一些或全部功能。在一些实施方式中,现场可编程门阵列可与微处理器协作,以执行本文所述方法中的一种。一般地,该方法优选由任何硬件设备来执行。
上述实施方式仅是对本发明的原理进行说明。应当理解,对于本领域技术人员而言,本文所述配置和细节的修改和变更将是显而易见的。因此,本发明旨在仅由所附专利权利要求的范围来限定,而不是由通过对本文实施方式的描述和解释的方式给出的具体细节来限定。
Claims (19)
1.一种用于处理音频信号的设备,包括:
交叠相加级,其用于使用交叠相加预先值来交叠和相加表示所述音频信号的多个子频带信号中的至少一个子频带信号的块;
瞬态检测器,其用于检测所述音频信号或所述多个子频带信号中的一个子频带信号中的瞬态,
其中,所述用于处理的设备被配置为在由所述交叠相加级相加时,减小所检测到的瞬态的影响或者不使用所检测到的瞬态;以及
瞬态加法器,其用于将所检测到的瞬态添加至由所述交叠/相加级生成的子频带信号。
2.根据权利要求1所述的设备,还包括抽取器,其用于抽取所述音频信号或所述多个子频带信号,
其中,时间操作器被配置为执行对所述多个子频带信号的时间拉伸。
3.根据权利要求1所述的设备,其中,所述瞬态检测器被配置为标记被检测到包括瞬态的块;以及
其中,所述交叠相加级被配置为忽略所标记的块。
4.根据前述权利要求中任一项所述的设备,其中,所述交叠相加预先值不同于用于从所述多个子频带信号中的一个子频带信号提取所述块的块提取预先值。
5.根据前述权利要求中任一项所述的设备,其中,所述交叠相加级被配置为应用大于块提取预先值的交叠相加预先值来执行对所述多个子频带信号的时间拉伸。
6.根据前述权利要求中任一项所述的设备,其中,所述时间操作器包括:
块提取器;
窗口器/相位调整器;以及
相位计算器,其用于计算相位,所述窗口器/相位调整器基于所述相位来执行对被提取的块的相位调整。
7.根据前述权利要求中任一项所述的设备,其中,所述瞬态检测器被配置为确定所述子频带信号的包括所述瞬态的一部分的长度,所述长度与由所述瞬态加法器插入的信号的长度相匹配。
8.根据前述权利要求中任一项所述的设备,其中,所述瞬态加法器被配置为插入所述子频带信号的具有所述瞬态的一部分,其中,所述部分的长度被选择为足够长,使得从来自交叠相加处理的信号输出到具有所述瞬态的所述部分或者从具有所述瞬态的所述部分到来自所述交叠相加处理的输出的同时淡入淡出是可行的。
9.根据权利要求7所述的设备,其中,所述瞬态加法器被配置为执行同时淡入淡出操作。
10.根据前述权利要求中任一项所述的设备,其中,所述瞬态检测器被配置为检测由块提取器从具有瞬态特性的所述子频带信号提取的块。
11.根据前述权利要求中任一项所述的设备,其中,所述瞬态检测器被配置为跨输入到分析滤波器组中的信号或子频带信号的预定时间段执行能量的重心移动计算。
12.根据前述权利要求中任一项所述的设备,还包括分析滤波器组,其用于生成所述多个子频带信号。
13.根据权利要求12所述的设备,还包括抽取器,其被配置在所述分析滤波器组的输入侧或输出侧,
其中,所述时间操作器被配置为执行对所述多个子频带信号的时间拉伸。
14.根据权利要求1至11中任一项所述的设备,还包括:
第一分析滤波器组;
第二分析滤波器组;
重采样器,其位于所述第二分析滤波器组的上游;以及
多个相位声码器,其用于由所述第二分析滤波器组输出的第二多个子频带信号,所述多个相位声码器具有大于1的带宽扩展因子,其中,相位声码器的输出被提供给所述交叠相加级。
15.根据权利要求14所述的设备,还包括连接级,其位于所述连接级输入侧的所述第一分析滤波器组和所述多个声码器与所述连接级输出侧的所述交叠相加级之间,所述连接级被配置为控制所述多个子频带信号中的相应一个子频带信号的所述块以及由所述多个相位声码器输出的相位声码器处理后的所述块向所述交叠相加级的提供。
16.根据前述权利要求中任一项所述的设备,还包括:
振幅校正,其被配置为在所述交叠相加级背景下补偿不同块计数的振幅影响效果。
17.根据前述权利要求中任一项所述的设备,还包括时间操作器,其用于分别对所述音频信号的所述多个子频带信号进行时间操作,其中,所述时间操作器包括所述交叠相加级、所述瞬态检测器和所述瞬态加法器。
18.一种用于处理音频信号的方法,包括:
使用交叠相加预先值来交叠和相加表示所述音频信号的多个子频带信号中的相应一个子频带信号的块;
检测所述音频信号或所述多个子频带信号中的一个子频带信号中的瞬态;
当交叠和相加时,减小所检测到的瞬态的影响或者摒弃所检测到的瞬态;
将所检测到的瞬态添加至由交叠和相加的动作生成的子频带信号。
19.一种计算机程序,当所述计算机程序在计算机上运行时,所述计算机程序用于执行处理音频信号的方法,所述方法包括:
使用交叠相加预先值来交叠和相加表示所述音频信号的多个子频带信号中的相应一个子频带信号的块;
检测所述音频信号或所述多个子频带信号中的一个子频带信号中的瞬态;
当交叠和相加时,减小所检测到的瞬态的影响或者摒弃所检测到的瞬态;
将所检测到的瞬态添加至由交叠和相加的动作生成的子频带信号。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US31213110P | 2010-03-09 | 2010-03-09 | |
US61/312,131 | 2010-03-09 | ||
PCT/EP2011/053303 WO2011110496A1 (en) | 2010-03-09 | 2011-03-04 | Apparatus and method for handling transient sound events in audio signals when changing the replay speed or pitch |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102934164A true CN102934164A (zh) | 2013-02-13 |
CN102934164B CN102934164B (zh) | 2015-12-09 |
Family
ID=43844535
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180023409.XA Active CN102934164B (zh) | 2010-03-09 | 2011-03-04 | 改变回放速度或音调时处理音频信号中瞬态声音事件的设备和方法 |
Country Status (14)
Country | Link |
---|---|
US (1) | US9240196B2 (zh) |
EP (1) | EP2532002B1 (zh) |
JP (1) | JP5649084B2 (zh) |
KR (1) | KR101412117B1 (zh) |
CN (1) | CN102934164B (zh) |
AU (1) | AU2011226208B2 (zh) |
BR (1) | BR112012022577B1 (zh) |
CA (1) | CA2792368C (zh) |
ES (1) | ES2449476T3 (zh) |
HK (1) | HK1177318A1 (zh) |
MX (1) | MX2012010350A (zh) |
PL (1) | PL2532002T3 (zh) |
RU (1) | RU2591012C2 (zh) |
WO (1) | WO2011110496A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2963646A1 (en) | 2014-07-01 | 2016-01-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoder and method for decoding an audio signal, encoder and method for encoding an audio signal |
EP3288031A1 (en) | 2016-08-23 | 2018-02-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding an audio signal using a compensation value |
JP7275711B2 (ja) * | 2019-03-20 | 2023-05-18 | ヤマハ株式会社 | オーディオ信号の処理方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1511312A (zh) * | 2001-04-13 | 2004-07-07 | 多尔拜实验特许公司 | 音频信号的高质量时间标度和音调标度 |
US6766300B1 (en) * | 1996-11-07 | 2004-07-20 | Creative Technology Ltd. | Method and apparatus for transient detection and non-distortion time scaling |
US20070078650A1 (en) * | 2005-09-30 | 2007-04-05 | Rogers Kevin C | Echo avoidance in audio time stretching |
WO2009112141A1 (en) * | 2008-03-10 | 2009-09-17 | Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Zur Förderung E.V. | Device and method for manipulating an audio signal having a transient event |
Family Cites Families (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS55107313A (en) | 1979-02-08 | 1980-08-18 | Pioneer Electronic Corp | Adjuster for audio quality |
US5455888A (en) | 1992-12-04 | 1995-10-03 | Northern Telecom Limited | Speech bandwidth extension method and apparatus |
SE512719C2 (sv) | 1997-06-10 | 2000-05-02 | Lars Gustaf Liljeryd | En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion |
US6549884B1 (en) | 1999-09-21 | 2003-04-15 | Creative Technology Ltd. | Phase-vocoder pitch-shifting |
SE0001926D0 (sv) * | 2000-05-23 | 2000-05-23 | Lars Liljeryd | Improved spectral translation/folding in the subband domain |
US6895375B2 (en) | 2001-10-04 | 2005-05-17 | At&T Corp. | System for bandwidth extension of Narrow-band speech |
US20030187663A1 (en) | 2002-03-28 | 2003-10-02 | Truman Michael Mead | Broadband frequency translation for high frequency regeneration |
JP4227772B2 (ja) | 2002-07-19 | 2009-02-18 | 日本電気株式会社 | オーディオ復号装置と復号方法およびプログラム |
JP4313993B2 (ja) | 2002-07-19 | 2009-08-12 | パナソニック株式会社 | オーディオ復号化装置およびオーディオ復号化方法 |
SE0202770D0 (sv) | 2002-09-18 | 2002-09-18 | Coding Technologies Sweden Ab | Method for reduction of aliasing introduces by spectral envelope adjustment in real-valued filterbanks |
KR100524065B1 (ko) * | 2002-12-23 | 2005-10-26 | 삼성전자주식회사 | 시간-주파수 상관성을 이용한 개선된 오디오 부호화및/또는 복호화 방법과 그 장치 |
US7337108B2 (en) * | 2003-09-10 | 2008-02-26 | Microsoft Corporation | System and method for providing high-quality stretching and compression of a digital audio signal |
EP2221808B1 (en) | 2003-10-23 | 2012-07-11 | Panasonic Corporation | Spectrum coding apparatus, spectrum decoding apparatus, acoustic signal transmission apparatus, acoustic signal reception apparatus and methods thereof |
JP4254479B2 (ja) | 2003-10-27 | 2009-04-15 | ヤマハ株式会社 | オーディオ帯域拡張再生装置 |
CA2454296A1 (en) * | 2003-12-29 | 2005-06-29 | Nokia Corporation | Method and device for speech enhancement in the presence of background noise |
DE102004046746B4 (de) * | 2004-09-27 | 2007-03-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verfahren zum Synchronisieren von Zusatzdaten und Basisdaten |
US8255231B2 (en) | 2004-11-02 | 2012-08-28 | Koninklijke Philips Electronics N.V. | Encoding and decoding of audio signals using complex-valued filter banks |
KR100933548B1 (ko) | 2005-04-15 | 2009-12-23 | 돌비 스웨덴 에이비 | 비상관 신호의 시간적 엔벨로프 정형화 |
JP2007017628A (ja) | 2005-07-06 | 2007-01-25 | Matsushita Electric Ind Co Ltd | 復号化装置 |
JP4760278B2 (ja) | 2005-10-04 | 2011-08-31 | 株式会社ケンウッド | 補間装置、オーディオ再生装置、補間方法および補間プログラム |
EP1964438B1 (en) * | 2005-12-13 | 2010-02-17 | Nxp B.V. | Device for and method of processing an audio data stream |
FR2910743B1 (fr) | 2006-12-22 | 2009-02-20 | Thales Sa | Banque de filtres numeriques cascadable, et circuit de reception comportant une telle banque de filtre en cascade. |
EP2229677B1 (en) | 2007-12-18 | 2015-09-16 | LG Electronics Inc. | A method and an apparatus for processing an audio signal |
CN101471072B (zh) | 2007-12-27 | 2012-01-25 | 华为技术有限公司 | 高频重建方法、编码装置和解码装置 |
DE102008015702B4 (de) | 2008-01-31 | 2010-03-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals |
US9147902B2 (en) | 2008-07-04 | 2015-09-29 | Guangdong Institute of Eco-Environmental and Soil Sciences | Microbial fuel cell stack |
CA2729971C (en) | 2008-07-11 | 2014-11-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | An apparatus and a method for calculating a number of spectral envelopes |
BR122017003818B1 (pt) | 2008-07-11 | 2024-03-05 | Fraunhofer-Gesellschaft zur Föerderung der Angewandten Forschung E.V. | Instrumento e método para geração de sinal estendido de largura de banda |
US8258849B2 (en) * | 2008-09-25 | 2012-09-04 | Lg Electronics Inc. | Method and an apparatus for processing a signal |
EP2224433B1 (en) * | 2008-09-25 | 2020-05-27 | Lg Electronics Inc. | An apparatus for processing an audio signal and method thereof |
KR101424944B1 (ko) | 2008-12-15 | 2014-08-01 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 오디오 인코더 및 대역폭 확장 디코더 |
WO2010086461A1 (en) | 2009-01-28 | 2010-08-05 | Dolby International Ab | Improved harmonic transposition |
EP2214165A3 (en) | 2009-01-30 | 2010-09-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer program for manipulating an audio signal comprising a transient event |
KR101309671B1 (ko) * | 2009-10-21 | 2013-09-23 | 돌비 인터네셔널 에이비 | 결합된 트랜스포저 필터 뱅크에서의 오버샘플링 |
WO2011054885A1 (en) | 2009-11-04 | 2011-05-12 | Universiteit Gent | 1-substituted 2-azabicyclo [3.1.1] heptyl derivatives useful as nicotinic acetylcholine receptor modulators for treating neurologic disorders |
US8321216B2 (en) * | 2010-02-23 | 2012-11-27 | Broadcom Corporation | Time-warping of audio signals for packet loss concealment avoiding audible artifacts |
-
2011
- 2011-03-04 MX MX2012010350A patent/MX2012010350A/es active IP Right Grant
- 2011-03-04 WO PCT/EP2011/053303 patent/WO2011110496A1/en active Application Filing
- 2011-03-04 CN CN201180023409.XA patent/CN102934164B/zh active Active
- 2011-03-04 BR BR112012022577-4A patent/BR112012022577B1/pt active IP Right Grant
- 2011-03-04 JP JP2012556462A patent/JP5649084B2/ja active Active
- 2011-03-04 ES ES11708446.7T patent/ES2449476T3/es active Active
- 2011-03-04 EP EP11708446.7A patent/EP2532002B1/en active Active
- 2011-03-04 AU AU2011226208A patent/AU2011226208B2/en active Active
- 2011-03-04 KR KR1020127023450A patent/KR101412117B1/ko active IP Right Grant
- 2011-03-04 RU RU2012142241/08A patent/RU2591012C2/ru active
- 2011-03-04 PL PL11708446T patent/PL2532002T3/pl unknown
- 2011-03-04 CA CA2792368A patent/CA2792368C/en active Active
-
2012
- 2012-09-06 US US13/604,813 patent/US9240196B2/en active Active
-
2013
- 2013-04-08 HK HK13104205.8A patent/HK1177318A1/xx unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6766300B1 (en) * | 1996-11-07 | 2004-07-20 | Creative Technology Ltd. | Method and apparatus for transient detection and non-distortion time scaling |
CN1511312A (zh) * | 2001-04-13 | 2004-07-07 | 多尔拜实验特许公司 | 音频信号的高质量时间标度和音调标度 |
US20070078650A1 (en) * | 2005-09-30 | 2007-04-05 | Rogers Kevin C | Echo avoidance in audio time stretching |
WO2009112141A1 (en) * | 2008-03-10 | 2009-09-17 | Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Zur Förderung E.V. | Device and method for manipulating an audio signal having a transient event |
Non-Patent Citations (1)
Title |
---|
NAGEL FREDRIK ET AL: "A Phase Vocoder Driven Bandwith Extension Method with Novel Transient Handling for Audio Codecs", 《AES CONVENTION 126》, 1 May 2009 (2009-05-01), pages 1024 - 1031 * |
Also Published As
Publication number | Publication date |
---|---|
CN102934164B (zh) | 2015-12-09 |
CA2792368A1 (en) | 2011-09-15 |
EP2532002A1 (en) | 2012-12-12 |
RU2591012C2 (ru) | 2016-07-10 |
EP2532002B1 (en) | 2014-01-01 |
JP2013521537A (ja) | 2013-06-10 |
AU2011226208B2 (en) | 2013-12-19 |
BR112012022577B1 (pt) | 2021-06-29 |
AU2011226208A1 (en) | 2012-10-11 |
MX2012010350A (es) | 2012-10-05 |
RU2012142241A (ru) | 2014-04-20 |
PL2532002T3 (pl) | 2014-06-30 |
ES2449476T3 (es) | 2014-03-19 |
CA2792368C (en) | 2016-04-26 |
US20130060367A1 (en) | 2013-03-07 |
BR112012022577A2 (pt) | 2020-09-01 |
HK1177318A1 (en) | 2013-08-16 |
JP5649084B2 (ja) | 2015-01-07 |
KR20130014515A (ko) | 2013-02-07 |
US9240196B2 (en) | 2016-01-19 |
KR101412117B1 (ko) | 2014-06-26 |
WO2011110496A1 (en) | 2011-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI493541B (zh) | 用以操縱包含暫態事件的音訊信號之裝置、方法和電腦程式 | |
EP2261892B1 (en) | High quality time-scaling and pitch-scaling of audio signals | |
TWI505264B (zh) | 操縱具有瞬變事件的音頻信號的設備和方法以及具有執行該方法之程式碼的電腦程式 | |
CN102684628B (zh) | 修正音频动态处理器的参数的方法以及执行该方法的设备 | |
RU2526745C2 (ru) | Низведение параметров последовательности битов sbr | |
EP2710592B1 (en) | Method and apparatus for processing a multi-channel audio signal | |
US20040181403A1 (en) | Coding apparatus and method thereof for detecting audio signal transient | |
KR20080001708A (ko) | 통신 시스템에서 은닉 프레임들을 발생시키는 방법 | |
US20140019125A1 (en) | Low band bandwidth extended | |
EP2881944B1 (en) | Audio signal processing apparatus | |
CN104205212A (zh) | 听觉场景中的讲话者冲突 | |
CN112908351A (zh) | 一种音频变调方法、装置、设备及存储介质 | |
CN104704855B (zh) | 用于减小基于换位器的虚拟低音系统中的延迟的系统及方法 | |
CN102934164B (zh) | 改变回放速度或音调时处理音频信号中瞬态声音事件的设备和方法 | |
RU2682851C2 (ru) | Усовершенствованная коррекция потери кадров с помощью речевой информации | |
Ravelli et al. | Fast implementation for non-linear time-scaling of stereo signals | |
CN102117613B (zh) | 数字音频变速处理方法及其设备 | |
BR112021007516A2 (pt) | codificador de áudio, processador de áudio e método para processar um sinal de áudio | |
KR102329707B1 (ko) | 다중채널 오디오 신호를 처리하는 장치 및 방법 | |
Szwoch et al. | Transient detection for speech coding applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C56 | Change in the name or address of the patentee | ||
CP01 | Change in the name or title of a patent holder |
Address after: Munich, Germany Patentee after: Fraunhofer Application and Research Promotion Association Address before: Munich, Germany Patentee before: Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. |