CN106465033B - 用于处理频域中的信号的设备和方法 - Google Patents
用于处理频域中的信号的设备和方法 Download PDFInfo
- Publication number
- CN106465033B CN106465033B CN201580013788.2A CN201580013788A CN106465033B CN 106465033 B CN106465033 B CN 106465033B CN 201580013788 A CN201580013788 A CN 201580013788A CN 106465033 B CN106465033 B CN 106465033B
- Authority
- CN
- China
- Prior art keywords
- signal
- frequency domain
- time
- filter
- windowed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims description 73
- 238000001914 filtration Methods 0.000 claims abstract description 24
- 230000003595 spectral effect Effects 0.000 claims abstract description 19
- 230000006870 function Effects 0.000 claims description 196
- 238000004422 calculation algorithm Methods 0.000 claims description 67
- 238000005562 fading Methods 0.000 claims description 58
- 230000005236 sound signal Effects 0.000 claims description 28
- 230000008859 change Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 14
- 238000012546 transfer Methods 0.000 claims description 13
- 230000002123 temporal effect Effects 0.000 claims description 6
- 230000007423 decrease Effects 0.000 claims 2
- 238000013461 design Methods 0.000 description 29
- 230000007704 transition Effects 0.000 description 28
- 230000000875 corresponding effect Effects 0.000 description 22
- 238000007792 addition Methods 0.000 description 13
- 230000015572 biosynthetic process Effects 0.000 description 13
- 238000005457 optimization Methods 0.000 description 13
- 230000009467 reduction Effects 0.000 description 13
- 238000003786 synthesis reaction Methods 0.000 description 13
- 230000008901 benefit Effects 0.000 description 11
- 239000013598 vector Substances 0.000 description 11
- 230000004044 response Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 238000009877 rendering Methods 0.000 description 8
- 230000011218 segmentation Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 210000003128 head Anatomy 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000002156 mixing Methods 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000004886 head movement Effects 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 239000002184 metal Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 210000003454 tympanic membrane Anatomy 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/307—Frequency adjustment, e.g. tone control
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/002—Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
- H04S3/004—For headphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Multimedia (AREA)
- Complex Calculations (AREA)
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
用于处理信号的设备包括:处理器级(120),配置为:通过具有滤波器特性的滤波器(122)来对频域表示中出现的信号进行滤波,以获得滤波信号(123),向所述滤波信号(123)或根据所述滤波信号推导出的信号(302)提供频域窗口函数,以获得加窗信号,其中,提供包括:将所述频域窗口函数的频域窗口系数与所述滤波信号(123)或根据所述滤波信号推导出的信号(302)的频谱值进行相乘,以获得相乘结果,并对所述相乘结果求和。此外,设备包括:转换器(130),用于将所述加窗信号(125)或使用所述加窗信号确定的信号转换到时域,以获得处理信号。
Description
技术领域
本发明涉及处理信号,且具体地涉及处理频域中的音频信号。
背景技术
本发明涉及处理信号,且具体地涉及频域中的音频信号。
在很多信号处理领域中,滤波器特性在运行时必须改变。在此,为防止由切换(例如,在存在可听到的音频信号喀嗒假象(click artifact)的情况下,信号路径中的不连续)造成的干扰,渐变的平滑过渡往往是必要的。这可通过滤波器系数的连续插值或由两个滤波器对信号同时滤波且之后逐渐地对滤波信号进行淡入淡出来执行。该两种方法提供相同结果。下面,该功能将被称为“淡入淡出”。
当通过FIR滤波器进行滤波(也称为线性卷积)时,可使用快速卷积算法来实现性能的大量提高。这些方法在频域工作,且逐块地工作。频域卷积算法(例如重叠相加(Overlap-Add)和重叠保留(Overlap-save) ([8]、[9]))仅将输入信号分段(Partition),而不将滤波器分段,且因此使用较大的FFT(快速傅里叶变换),在滤波时产生较高的延时。均匀分段([10];[11])或非均匀分段([12];[13];[20])的分段卷积算法还将滤波器(或其脉冲响应)划分成较小的分段。通过向这些分段、对应延迟以及结果组合应用频域卷积,可实现所使用的FFT大小、延时和复杂度之间的良好折衷。
然而,对于所有的快速卷积方法而言,共同点是它们仅非常难以与渐变滤波器淡入淡出相组合。一方面,这是由于这些算法的逐块操作模式。另一方面,在过渡的情况下出现的不同滤波器之间的中间值插值将会导致大量增加的计算负担,因为这些插值滤波器集合首先各自必须被转变为适于应用快速卷积算法的形式(这通常要求分段、零填充以及FFT操作)。对于“平滑的”淡入淡出,必须非常频繁地执行这些操作,由此极大地降低了快速卷积的性能优势。
具体地,可在双耳合成领域中找到迄今描述的解决方案。因此,在时域卷积之后,对FIR滤波器的任一滤波器系数进行插值[5](注意:在该公开中,滤波器系数的渐变交换被称为“换向”)。[14]描述了在时域中的淡入淡出之后,通过应用两个快速卷积运算进行的FIR滤波器之间的淡入淡出。[16]处理在非均匀分段卷积算法中交换滤波器系数。因此,该两个用于已分段脉冲响应块的淡入淡出和交换策略(目标是渐变的淡入淡出)都被考虑到。
从算法的观点来看(然而,针对不同应用),[18]中描述用于对通过 FFT获得的频谱进行后置平滑(post-smoothing)的方法与此处描述的解决方案最接近。在此,通过使用仅具有3个项的频域窗口函数进行的频域卷积来实现对特殊时域窗口(余弦类型,例如,Hann或Hamming窗) 的应用。作为应用,在此不规定淡入淡出信号或淡入信号或淡出信号;此外,在此描述的方法基于固定3项频域窗口,该频域窗口基于DSP中已知的窗口,且为了调整复杂度和对预定窗口函数的近似的质量,该方法没有展现出灵活性(且因此,对于针对稀疏占用窗口函数的设计方法也是一样)。另一方面,[18]既没有考虑使用重叠保留方法,也没有考虑不必确定时域窗口函数的某些部分的缺省值的可能性。
双耳合成使得可通过头戴式耳机真实再现复杂的声学场景,其应用于很多领域,例如,如拟真通信(immersive communication)[1]、听觉显示[2]、虚拟现实[3]或增强现实[4]。还考虑到收听者的动态头部移动的渲染动态声学场景极大地提高了双耳合成的定位质量、真实性和合理性,而且还增加了与渲染有关的计算复杂度。提高定位精确度和自然度的不同的通常应用的方式是添加空间反射和混响效果(例如,[1]、[5]),例如通过计算针对每个声音对象的离散反射的数量并将它们作为附加声音对象进行渲染。再次地,这样的技术极大地增加了双耳渲染的复杂度。这强调了用于双耳合成的高效信号处理技术的重要性。
图4中示出了动态双耳合成系统的一般性信号流。通过两只耳朵的头部相关传递函数(HRTF)对声音对象的信号进行滤波。这些贡献的累加提供了由头戴式耳机再现的左耳和右耳信号。HRTF映射从源位置到耳鼓的声音传播,并根据相对位置改变(取决于方位角、仰角,并在某个限度内还取决于距离[6])。因此,动态声音场景要求使用时变HRTF 进行滤波。一般而言,为了实现这样的时变滤波器,需要两种相互相关但不同的技术:HRTF插值,以及滤波器淡入淡出。在该上下文中,插值指代针对通常由方位角和仰角坐标指示的某个源位置确定HRTF。由于通常在有限空间分辨率的数据库中提供HRTF(例如,[7]),这包括选择适合的HRTF子集以及这些滤波器之间的插值([3]、[6])。滤波器淡入淡出(在[5]中称为“换向”)允许在这些可能插入的HRTF之间的平滑过渡,该平滑过渡分布在某个过渡时间中。为了避免可听到的信号不连续(例如,如喀嗒噪声),需要这样的渐进过渡。本文档关注于淡入淡出处理。
由于通常大量的声音对象,HRTF对声音信号进行滤波极大地增加了双耳合成的复杂度。降低该复杂度的适合方式是应用频域(FD)卷积技术,例如,重叠相加或重叠保留方法[8]、[9],或分段卷积算法,例如 [10]到[13]。所有FD卷积方法的共同缺点是滤波器之间的滤波器系数交换或渐进过渡受到更强的限制,且与时域滤波器之间的淡入淡出相比通常要求更高的计算复杂度。一方面,这可归因于这些方法的基于块的操作模式。另一方面,对将滤波器转移到频域表示的要求随着频繁的滤波器改变必然带来性能的大量下降。因此,滤波器淡入淡出的典型解决方案包括使用不同滤波器并之后在时域淡入淡出输出的两个FD卷积处理。
本发明的目的是允许处理频域中的信号的更高效的概念。
发明内容
本发明基于以下发现:特别是当无论如何要进行频域中的处理时,也可在该频域表示中执行加窗,该加窗实际上要在时域中发生,其逐项地与时域序列相乘,例如,如淡入淡出、获得增益或任何其他信号处理。因此,要牢记的是,这样的时域加窗在频域中要作为卷积来执行,且例如作为圆周卷积来执行。这具有与分段卷积算法相结合的具体优点,分段卷积算法被执行以通过频域中的乘法替换时域中的卷积。在这样的算法和其他应用中,时间-频率变换算法以及相反的频域-时域变换算法也复杂到使得使用频域加窗函数的频域卷积证明了该复杂度是必要的。具体地,在为了在之后实现时域加窗(例如,淡入淡出或增益改变)而使频率-时间变换将会是必要的多信道应用中,根据本发明,在频域中执行实际上针对时域提供的信号处理具有很大的优点,频域是已由分段卷积算法选择的域。当应用适合的频域加窗函数时,其所需的频域圆周(也称为循环或周期性)卷积在复杂度方面不是问题,因为在此可省去大量的频域-时域变换算法。
通过这样的窗口函数,非常容易近似多个必要的时域加窗函数,这样的窗口函数的频域表示仅包括少量的非零系数。这意味着可以如此高效地执行圆周卷积,使得通过省去频域-时域变换所获得的好处超过频域圆周卷积的代价。在本发明的处理淡入、淡出、淡入淡出或改变音量的优选实施例中,具体地通过在频域中仅近似时域窗口函数,可以实现复杂度的极大降低,这是通过在频域中将系数的数量限制为例如小于18 个系数来进行的。通过利用频域窗口函数的结构,可通过高效的圆周卷积计算规则来实现效率的附加增长。一方面,这适用于从相应时域窗口函数的实数取值产生的该窗口函数的共轭对称结构。另一方面,当频域窗口函数的相应系数是纯实数值或纯虚数时,可以更高效地计算圆周卷积和的被加数(summand)。
具体地,在恒定增益淡入淡出的情况下,即当淡入和淡出函数之和在每个时间点处是1时,可以更进一步地降低圆周卷积的复杂度,因为仅必须计算使用频域滤波器函数的单个卷积,否则,仅必须形成两个滤波信号之间的差值。
在实施例中,可通过仅单个滤波器对单个信号滤波且在之后应用频域窗口函数,以实现例如已经处于频域中的信号的音量(volume)或增益的改变。
在旨在针对恒定增益淡入淡出(即具有恒定增益的淡入淡出)的备选实施例中,优选首先计算两个滤波器输出信号之间的差值,然后将频域窗口函数用于该差值,该两个滤波器输出信号是通过两个不同的滤波器对同一输入信号滤波而产生的。
在本发明的另一实施例中,对每个具有特殊频域窗口的滤波器输出信号进行圆周卷积,且然后将卷积输出信号进行相加,以获得频域中示例性淡入淡出的结果。在使用两个单独的频域窗口时,滤波器输入信号也可以不同。备选地,该情况还涉及扩展仅具有一个信号的应用的示例,以及例如扩展到很多并行信道并利用单个再变换来进行频域中的信号组合的增益改变函数。
在本发明的特别优选的实施例中,每个频域表示的必要时域窗口函数仅是近似的。对其的使用是为了将频域窗口函数系数的数量降低到例如最多18个系数或在极端情况下降低到仅2个系数。因此,在将这些频域窗口函数再变换到时域时,结果是与实际必需的窗口函数的偏差 (deviation)。然而,已经发现,特别在淡入淡出、音量改变、淡出、淡入或其他信号处理的应用中,该偏差不是问题,或在主观听觉印象中不造成干扰或仅造成轻微干扰,因此该问题如果真的存在,考虑到所获得的效率的显著提高,该问题对于主观听觉印象而言可被很好接受。
附图说明
之后参考附图,将详细描述本发明的优选实施例,在附图中:
图1示出通过频域窗口函数和滤波器在频域中处理信号的设备;
图2示出通过两个滤波器和两个频域窗口函数在频域中处理信号的设备;
图3示出通过两个滤波器和单个频域窗口函数在频域中处理信号的设备;
图4示出动态双耳合成系统的信号流;
图5a示出用于作为恒定增益淡入淡出的示例的线性淡入淡出的时域窗口函数;
图5b示出用于作为任何种类的增益改变的示例的线性增益改变的时域窗口函数;
图6a-6f示出针对不同频域窗口系数的窗口设计示例;
图7a-7f示出针对图6a-6f中示出的窗口的频域滤波器系数的数值的图表;
图7g示出由近似造成的针对不同频域窗口函数的设计误差的图;
图8a-d示出在针对每个输出采样有多个指令时,利用滤波器淡入淡出的频域卷积算法的复杂度的概述图;
图9示出与图4类似的用于实现常规耳机信号处理的图;
图10示出根据实施例的耳机信号处理;
图11示出用于向频域信号提供增益改变函数的设备。
具体实施方式
图1示出用于在频域中处理离散时间信号的设备。向时间-频率转换器110馈送出现在时域中的输入信号100。然后,向处理器级120馈送时间-频率转换器110的输出信号,处理器级120包括滤波器122和频域窗口函数提供装置124。然后,可以直接地或在进行处理(例如,如与其他对应地同等处理后的信号组合)之后向频率-时间转换器130馈送频域窗口函数提供装置124的输出信号125。在本发明的优选实施例中,时间-频率转换器110和频率-时间转换器130被设计用于快速卷积。快速卷积可例如是重叠相加卷积算法、重叠保留卷积算法或任何分段卷积算法。当由于非分段频域卷积算法(例如,重叠保留或重叠相加)或其他实际原因(例如,所使用的FFT的大小)造成的延时而导致对这些算法的直接应用不合理时,使用这样的分段卷积算法。从而,根据对应的卷积算法执行对应的分段。然后,可通过已变换输入信号与脉冲响应的分段频域表示的相乘和求和来执行框122中示出的对应滤波,以使得可避免时域中的线性卷积。
要指出的是,该频域表示基于对信号的逐块分段。这也由频域表示的特性所隐含导致,该频域表示在时域和频域中是离散的。
还已经示出的是,分段卷积算法的著名示例是重叠相加方法,在重叠相加方法中,首先将输入信号分段为不重叠的序列,并通过某个数量的零来补充。然后,形成对各个不重叠的填充零的序列和滤波器的离散傅里叶变换。然后,执行已变换不重叠序列与滤波器的脉冲响应的傅里叶变换(同样通过某个数量的零采样来补充)的乘法。之后,通过逆FFT 将序列带回到时域,通过重叠和相加来构造所产生的输出信号。为了使用频域乘法(其对应于时域中的圆周卷积)来实现时域中的线性卷积,需要填充零。重叠来自于以下事实:线性卷积的结果将始终比原始序列长,且因此每次频域乘法的结果对输出信号的一个以上的分段造成影响。
在备选方法中(即,重叠保留方法(例如,示例[9])),形成输入信号的重叠分段,并通过离散傅里叶变换(例如,如FFT)的方式将其变换到频域。这些序列与滤波器的脉冲响应逐项相乘,该脉冲响应由多个零采样填满并被变换到频域。通过离散傅里叶逆变换的方式将该乘法的结果再变换到时域。为了避免圆周卷积影响,从每个再变换的块丢弃固定数量的采样。通过将剩余序列连接在一起来形成输出信号。
参考图1,因此将处理器级120配置为通过具有滤波器特性的滤波器对频域表示中出现的信号进行滤波,以获得滤波后的信号123。
然后,向滤波信号或根据滤波后的信号推导出的信号提供频域窗口函数,以获得加窗信号125,其中,提供包括:将频域窗口函数的频域窗口函数系数与滤波后的信号的频谱值进行相乘,以获得相乘结果,并对相乘结果求和,这是频域中的操作。优选地,提供包括:频域窗口函数的频域窗口函数系数与滤波后的信号的频谱值的圆周(周期性)卷积。转换器130继而被配置为:例如在132处将加窗信号或使用加窗信号确定的信号转换到时域,以获得处理后的信号。
除了获得根据滤波后的信号推导出的信号而进行的处理是应用所有可能的信号修改,特别是:求和、差值计算、或形成线性组合。在图 3中具体表示的信号流中给出了示例,其中,“根据滤波信号推导出的信号”包含两个信号的差值。
图2示出了可如图1中所示地实现时间-频率转换器110的处理器级的备选实现。具体地,处理器级120包括滤波器122a,滤波器122a利用第一滤波器特性H1对根据时域信号100推导出的频域信号进行滤波,以在框122a的输出处获得滤波后的信号。此外,处理器级被配置为:通过具有第二滤波器特性H2的第二滤波器122b对框110的输出处的频域信号进行滤波,以获得滤波后的第二信号。此外,处理器级被配置为向第一滤波后的信号提供第一频域窗口函数,以获得第一加窗信号,且处理器级被配置为向第二滤波后的信号提供第二频域窗口函数,以获得第二加窗信号。然后在组合器200中组合该两个加窗信号。例如如图1中所示,用于组合器200的输出处的组合频域信号然后可被转换器130转换为时域信号。
图3示出了处理器级的另一实现,其中,通过具有第一滤波器特性 H2的滤波器122a对根据时域信号100推导出的频域信号进行滤波,以获得第一滤波后的信号。此外,通过具有第二滤波器特性H1的滤波器 122b对频域信号进行滤波,以获得第二滤波后的信号。通过组合器300 来根据第一滤波后的信号和第二滤波后的信号形成差信号302,然后,将差信号302馈送给单个频域窗口函数提供装置124c,其中,优选地,将该提供实现为差信号的频谱系数与频域窗口函数的系数的圆周卷积。然后,在组合器200中将加窗输出信号与框122a的输出处的第一滤波后的信号进行组合。因此,当两个频域窗口函数是恒定增益淡入淡出函数时,即当频域窗口函数的时域表示互补以使得其和在任何时候都等于1 时,图3的组合器200的输出处的结果与图2的组合器200的输出处是相同的信号。例如,当例如如图5a中所示,频域窗口函数在时域中对应于下降斜率且频域窗口函数在时域中表示上升斜率时(或反之),该条件满足。
对于具有任何开始值和结束值并使用“标准窗口”的恒定增益淡入淡出而言,优选地,在求和(300)之前,通过线性因子(s或(e-s)) 对信号进行缩放,如图11中所示。结果是求和之前的可选缩放,使得组合器执行作为对简单相加的备选的线性组合。还可以实现其他实施例。
此外指出了:取决于特殊实现的要求,淡入或淡出或淡入淡出可发生在一个或若干个块上。
在本发明的优选实施例中,时域信号是可在各种处理之后发送给扬声器或耳机的音频信号,例如,源的信号。备选地,音频信号还可以是例如麦克风阵列的接收信号。在又一实施例中,信号不是音频信号而是在解调到基带或中频频带之后获得的信息信号(即,在某传输距离的情况下),这被用于无线通信或光通信。因此,在使用时变滤波器且在频域中执行利用这样的滤波器的卷积的所有领域中,本发明是有用且有利的。
在本发明的优选实施例中,将频域窗口函数配置为使其仅近似于所希望的时域窗口函数。然而,已经发现,与主观印象有关的某些近似可被轻易容忍,并导致计算复杂度上的大量节省。具体地,窗口系数的数量小于等于18是优选的,且更优选地,小于等于15,更优选地,小于等于8,或甚至小于等于4,或甚至小于等于3,或在极端情况下甚至等于2。然而,使用最小数量2个频域窗口系数。
在一个实现中,处理器级被配置为部分或全部选择频域窗口的非零系数,以使得它们是纯实数或纯虚数。此外,为了实现更高效率的卷积和求值,频域窗口函数提供功能被配置为使得其在计算圆周卷积和时使用各个非零频域窗口系数的纯实数或纯虚数特性。
在一个实现中,处理器级被配置为使用最大数量的非零频域窗口系数,其中,针对最小频率或针对最低频隙(bin)的频域窗口系数是实数。此外,针对偶数频隙或索引的频域窗口系数是纯虚数,且针对奇数索引或奇数频隙的频域窗口系数是纯实数。
在本发明的优选实现中,如参考图9并具体参考图10所述,在其间发生淡入淡出的第一滤波器特性和第二滤波器特性是针对不同位置的头部相关传递函数(HRTF),且时域信号是针对位于对应不同的位置处的源的音频信号。
此外,如图10中所示,优选使用多信道处理场景,在多信道处理场景中,频域中的若干源信号被淡入淡出,且然后在频域中将淡入淡出的信号相加,以在然后通过单个变换仅将最终的和信号再变换到时域。在此参考了图9,并为了对比参考图10。具体地,由600、602和604 指示的不同源SRC1到SRCM表示各个音频源,如图4中在401、402 和403处所示。通过具有图9和图10中的模拟设置的时域-频域转换器 606、608和610将源信号变换到频域。图10还包含根据图2的淡入淡出算法(两个圆周卷积)。在此,使用图3的改进型恒定增益淡入淡出也是可想到的。
如前所述,源401到403移动,且为了获得例如耳机信号713,由于源的移动,该当前源位置所需的头部相关传递函数针对每个源发生改变。如图4中所示,存在通过某个源位置寻址的数据库。从而,针对该源位置从数据库获得HRTF,或在不存在精确针对该位置的HRFT时,获得针对两个相邻位置的两个HRTF,该两个HRTF然后被插值。为了实现无假象(artifact)的操作,通过在第一时间针对第一位置确定的频域乘法,由第一滤波器函数对时间-频率转换606之后的音频信号进行滤波。此外,由第二滤波器(再次地,通过与滤波器的传递函数相乘)对同一音频信号进行滤波,其中,该第二滤波器613继而是已在稍后的第二时间针对第二位置确定的。为了获得无假象过渡,必须发生淡入淡出,即,第一滤波器612的输出信号持续淡出,且在同时,第二滤波器613 的输出信号淡入,如时间滤波器函数706和707所示。因此,滤波器612、 613的输出处的信号被变换到时域(如IFFT框700、701所示),并在然后执行淡入淡出,其中,将加窗的输出处的信号进行相加。该相加针对每个源发生,且然后在时域中在加法器712中将所有源的对应淡入淡出信号进行相加,以最终获得耳机信号713。
如框614、615、702、703、708、709以及616、617、704、705、 710、711所示,针对其他源发生相似处理。
创造性地,替代图9的2M个IFFT框700到705,现在仅执行单个 IFFT框或单个IFFT操作630。在频域中作为卷积执行利用频域窗口函数620、621或622、623或624、625的淡入/淡出或淡入淡出。然后,通过加法器626、627、628和629将卷积结果各自相加,然而也可直接执行所有的加法,而无需将一方的加法器626、627、628与另一方的加法器629级联。
这意味着节省了2M-1个IFFT操作。另一方面,在频域中圆周卷积的复杂度可能稍有增加,然而这可通过有效的窗口近似来极大地降低,这已经提到并在下面将更详细地描述。
在实施例中,本发明涉及用于在频域中直接执行淡入淡出的新颖方法,即,两个滤波后的信号之间平滑的渐进过渡。其使用重叠保留算法和用于分段卷积的算法来工作。在将其分别应用于每个HRTF滤波器处理的情况下,针对每个输出采样块节省了一个逆FFT处理,导致复杂度的极大降低。然而,如果将所建议的FD淡入淡出方法与重建双耳合成系统的信号流相结合,更加强大的加速也是可能的。当在频域中执行组成信号的求和时,针对每个输出信号(耳朵信号)仅需要单个FFT。
以下小节提供(并定义)了对两种技术的命名的概述,该两种技术对于所建议的FD淡入淡出算法而言是必不可少的:快速频域卷积和时域淡入淡出。
快速卷积技术
依赖于快速变换的卷积技术使用了频域乘法与时域卷积之间的等效关系以及用于实现离散傅里叶变换(DFT)的快速傅里叶变换(FFT) 算法的可用性。重叠相加或重叠保留算法[8]、[9]将输入信号划分为块,并将频域乘法转移为线性时域卷积。然而,为了高效,重叠相加和重叠保留要求较大的FFT大小,并需要较长的处理延时时间。
分段卷积算法减小了这些不利之处,并允许计算复杂度、所使用的 FFT大小以及延时时间之间的折衷。为此,将脉冲响应h[n]划分为具有均匀[10]、[11]或不均匀大小[12]、[13]的块,且将FD卷积(通常是叠加保留)应用于每个分段。为了形成滤波输出,将结果对应地进行延迟并相加。重新使用变换操作和数据结构作为频域延迟线(FDL)[11]、[13]使得可高效实现线性卷积。
利用在HRTF滤波器中通常使用的脉冲响应长度(大致200-1000),均匀分段卷积通常是最高效的。因此,本文档关注于该技术。然而,将相同技术应用于非均匀分段卷积并不复杂,因为所建议的FD淡入淡出算法可分别应用于所使用的每个分段大小。重叠保留算法可被视为均匀分段FD卷积的仅具有一个分段的极端情况。因此,所建议的FD淡入淡出也可应用于未分段卷积。
均匀分段卷积方法将长度为N的脉冲响应h[n]划分为各自具有M 个值的个块(表示向上取值),为了形成长度为L的序列 hp[n],p=0,…,P-1,用零来进行填充。对其进行变换以形成DFT矢量H[p,k]。
H[p,k]=DFT{h[p,n]}. (2)
等式1中水平卷括号所表示的零的数量是L-M。
输入信号x[n]被划分为长度为L的重叠块x[m,n],连续块之间有B 个采样的领先。到频域的变换产生矢量X[m,k]:
x[m,n]=[x[mB-L+1]x[mB-L+2]…x[mB]] (3)
X[m,k]=DFT{x[m,n]}. (4)
通过H[p,k]和X[m,k]的块卷积来形成频域输出信号Y[m,k]:
其中,“·”表示复数矢量乘法。逆DFT产生长度为L的时域块:
y[m,n]=DFT-1{Y[m,k]} (6)
针对每个输出块y[m,n],使用最后B个采样来形成输出信号y[n]的第m个块。
y[mB+n]=y[m,L-B+n]n=0,...,N-1. (7)
如果应用以下不等式,则防止了输出信号中的时域混叠:
M≤L-B+1 (8)
[9]、[11]。分段卷积的典型选择是L=2B(例如,[12]、[13]),其后续将被称为标准DFT大小,并使得对于N和B的实际组合而言具有较高效率[11]。
针对具有B个采样的每个输出块,用于均匀分段卷积的算法要求 FFT和逆FFT、P个矢量乘法和P-1个矢量加法。对于实数取值的时域信号,FFT和IFFT二者都要求大致p Llog2(L)个实数取值操作。在此, p是取决于硬件的常数,其中,典型值在p=2.5[12]与p=3[13]之间。由于针对实信号和滤波器的矢量X[m,k]、H[p,k]和Y[m,k]是共轭对称的,可通过个复数值来对其进行明确表示。相应地减少了用于对共轭对称的矢量进行加法或乘法的操作的数量。由于可分别通过2个和6 个实数取值的操作来执行标量复数加法和乘法,对块卷积(6)进行求解需要个算术指令。因此,对B个采样进行卷积的整体复杂度是
时域中的滤波器淡入淡出
利用时变HRTF对音频信号进行卷积要求滤波器特性之间的平滑过渡,因为突然的改变导致信号不连续([5]、[14]),这导致可听到的假象,例如,喀嗒声或拉链噪声。在形式上,可将两个长度为N的非时变滤波器FIR h1[n]和h2[n]之间的过渡表达为时变卷积和(例如,[15]):
其中,时变滤波器h[n,k]是对由两个函数w1[n]和w2[n](之后将其称为时域窗口)加权的两个滤波器的求和:
h[n,k]=w1[n]h1[n-k]+w2[n]h2[n-k]. (10)
图5a示出这样的窗口函数的示例。如果滤波器h1[n]和h2[n]强相关 (对于接近的HRTF之间的过渡而言,这一般是真的),通常使用恒定增益淡入淡出。这意味着针对每个n,权重w1[n]与w2[n]之和等于1。在该情况下,可通过各个窗口函数w[n]来表达这些权重,其中,适用w1[n]= w[n],w2[n]=1-w[n]。因此,针对每个n的h[n,k]形成h1[n]与h2[n] 之间的线性插值。因此,可通过单个乘法来对(10)求解:
h[n,k]=h2[n]+w[n](h1[n]-h2[n]). (11)
替代利用插值的时变滤波器系数对信号进行卷积,利用h1[n]和h2[n] 对输入信号进行滤波,然后利用窗口w1[n]和w2[n]进行加权求和,导致如下的相同结果:
y[n]=w1[n]y1[n]+w2[n]y2[n]其中 (12)
类似于(11),可将恒定增益淡入淡出实现为线性插值:
y[n]=y2[n]+w[n](y1[n]-y2[n]). (13)
实现(11)和(13)展现出可比的复杂度,而如果非常频繁地更新滤波器系数(即,在要求无假象的平滑过渡时),(13)要更高效一些。此外,如果不能直接操纵滤波器系数h[n,k],例如如果使用快速卷积,可使用最后提到的形式。例如在[14]、[16]中示出了将FD卷积与输出淡入淡出进行组合的示例。
对于例如与FD卷积方法相组合的基于块的操作,如果过渡的长度与块大小B相同,可以轻易地实现对(13)的应用。然而,对于更长的过渡周期,如果满足两个条件,可使用长度为B的单个窗口w[n]来高效地实现滤波信号的淡入淡出:(a)所希望的滤波器之间的过渡要对应于线性函数(斜率);(b)整个过渡周期Bfull要是原始块大小B的整数倍。在该情况下,可将过渡划分为M=Bfull/B个块。可通过差信号y1[n]- y2[n]与各个窗口函数w[n]相乘来表达整个过渡的每个块,窗口函数w[n] 实现B个采样内从1到0的线性过渡。与y1[n]和y2[n]的线性组合产生针对该块的输出信号:
y[n]=y2[n]+(s+[e-s]w[n])(y1[n]-y2[n]). (14)
在此,s=m/M和e=(m+1)/M(其中,m=0....M-1)指代针对跨M个块的过渡中的第m个块的初始系数和最末系数。
时域淡入淡出的频域表示
该小节描述基于滤波信号的频域描述(例如,分段卷积算法内Y[m,k] 的表示(5))运行的算法,以实现最终时域输出的软淡入淡出。此处的主要动机是增加效率,因为对于输出淡入淡出而言,如果在频域中实现过渡,仅需要逆FFT。
为了在频域中表达时域淡入淡出,考虑各个信号x[n]与时域窗口 w[n]的逐项乘法:
y[n]=x[n]·w[n], (15)
其可被视为输出淡入淡出(12)的一部分。在“用于进一步降低复杂度的高效实现”一节中将会讨论对整个淡入淡出的扩展以及对复杂度的进一步优化。
(15)的频域表示来自于卷积定理的对偶性[9]、[17]:
其中,指代两个离散时间序列的圆周卷积。因此,可通过圆周FD 卷积的方式来实现适于淡入淡出。然后,从计算的角度而言,这样的频域淡入淡出并未显得有吸引力。一般而言,两个长度为L的序列的圆周卷积需要大致L2个复数乘法和加法,这远远超出了由于节省逆FFT而导致的大致O(Llog2L)的潜在增益。
然而,如果频域窗口W[k]仅包含少量的非零系数,与常规时域实现相比,FD淡入淡出可变得更加高效。在[18]中给出了对可成功应用仅具有少量频域系数的窗口函数的第一提示,其中,由三个系数组成的频域序列(对应于时域Hann或Hamming窗)被用来平滑FFT频谱。下面示出可如何适当地对用于在时域淡入淡出操作中使用的这种稀疏占用的窗口进行成形。
频域窗口的设计
频域窗口W[k]的设计目标是:关于预定的误差范数,对应的时域序列近似于所希望的窗口函数在此,圆形的重音标记指示是可能包含圆周卷积的假象(即,时域混叠)的逆FFT 结果。和二者都展现出长度L,而用于长度为B的输出块的时域窗口w[n]展现出长度B。
由于取决于分段卷积方法(8)的重叠保留机制,当对当前框加窗时,仅的最后B个值被实际使用到,而舍弃其他项的贡献。因此,针对FD淡入淡出算法的所希望的时域窗口函数与常规时域淡入淡出的窗口w[n]展现出以下关系:
其中,前导因子L来自于对卷积定理(16)的双重表示。
通过由W[k]的实数分量和虚数分量来表达W[k]:
并通过三角函数来使用欧拉恒等式替换指数值,(18)可被表示为:
可将该形式直接用于W[k]的基于优化的设计。
为了描述与W[k]的非零项有关的限制(稀疏性限制),引入以下索引集合R和I:
如果索引k包含在集合R中,实数分量Wr[k]可仅是非零的。同样的关系在虚数分量Wi[k]与集合I之间也适用。使用该关系,可如下表达贡献W[k]的非零分量的预定集合的时域窗口(24):
因此,可将W[k]的设计指示为矩阵形式中的优化问题:
W=[Wr[r1]…Wr[rR]Wi[i1]…Wi[iI]]T (29)
G是基本函数的矩阵:
在等式(28)中,||·||p指代在进行最小化时使用的误差范数,例如,对于根据最小平方方法的最小化,p=2,或者对于Chebyshev(最小最大) 优化,p=∞。
在该文档中,使用CVX(用于凸优化的软件包[19])来阐述并解决优化问题。在下面的CVC程序中表达问题(28):
该设计规范可适于多个附加限制对应用的相应要求。其示例是:
-针对不同值w[9]的量的限制或上限或下限[9],例如以确保在时域窗口的开始或结束处的平滑性要求。
-w[n]的斜率限制,例如以避免时域窗口之间的冲突行为。这是通过对连续值w[n]之间的差施加限制来实现的。
设计示例
时域窗口长度B=64且对应标准FFT大小L=2B=128的设计示例示出了设计方法的特性和所产生的窗口函数的性能。所希望的时域窗口是线性斜率从1降到0。对第一个系数和最后一个系数的不均匀性限制:
防止了过渡的开始和结束处的不连续。然而,设计实验已经显示该限制仅针对非常少量的非零系数变得起作用(这影响到结果)。
设计实验是关于针对非零系数的不同集合的L2和L∞误差范数执行的,其中:
指代W[k]的非零分量的总数。图1中示出所产生的窗口,且图7g 中总结了该设计。图6a示出利用具有8个复数系数的整个集合的设计,即,由于Wi[0]=0(19),K=15。观察到,所产生的设计非常近似理想的时域窗口,其中,L2和L∞误差范数是9.37·10-6和5.65·10-6。图6b中示出了具有8个特定实数系数的设计。该图示出了与理想窗口的可看到的偏差,从针对L2和L∞设计的误差范数5.45·10-2和1.55·10-2,这也变得清楚。相对地,图6c中示出的设计还展示了K=8个非零分量。然而,该设计几乎达到具有8个复数系数的示例的性能,因为非零值是从实数和虚数分量的集合中特定地选择的。
图6d到6f示出了非零分量的数目减少的另一设计示例,但该非零分量是最佳地选择的。要认识到的是,即使在数量低至K=3,对理想时域窗口的相对良好的近似也是可能的。虽然K=2的情况下(图6f)的最终设计示出了与理想线性过渡的相当大的偏离,这对于很多滤波器淡入淡出应用而言是可接受的,因为其提供了无信号不连续的平滑过渡。
用于进一步降低复杂度的高效实现
该小节呈现了针对频域淡入淡出算法的两个方面的最优实现,并分析其性能。首先,建议了稀疏占用共轭对称序列的圆周卷积的高效实现。第二,描述了对在双耳合成中使用的恒定增益淡入淡出的优化。
利用稀疏占用序列的圆周卷积
通过以下的卷积和来定义两个一般序列的圆周卷积:
因此,((k))L=kmod L指代索引对L取模(例如,如在[9]中)。针对每项Y[k],该操作要求L个复数乘法和L-1个复数加法,导致对于整个卷积有L2个复数乘法和L(L-1)个加法。
X[k]和W[k]的共轭对称以及W[k]的系数占用允许更高效的表示:
Y(l)[k]=(Wr[l]+jWi[l])(Xr[((k+l))L]+jXi[((k+l))L]) +(Wr[l]-jWi[l])(Xr[((k-l))L]+jXi[((k-l))L]). (36)
通过计算中间值:
X+[k,l]=X[((k+l))L]+X[((k-l))L] (37)
X-[k,l]=X[((k+l))L]-X[((k-l))L], (38)
将等式(36)高效地求解为:
结合起来,对序列Y(l)[k]求解需要个实数值乘法和个加法。因此,与使用复数运算对(35)的直接求解(其要求个实数乘法和个实数加法)相比,该实现更加高效。如果W[1]是纯实数或纯虚数,Wi[l]或Wr[l]将会等于零。在该两种情况下,复杂度降低到个实数乘法和个加法。
基于这些复杂度,结果是,根据(34)对圆周卷积的求解的整体复杂度是个实数乘法和个实数取值加法,即,总共个运算。如(32)中定义的,K指代W[1]的非零分量的总数。因此,所提到的总复杂度考虑到了以下二者:W[0]的实数取值,以及一般复数值W[I]的索引I包含在索引集合和二者中这一事实。
通过这种方式,对圆周卷积做出贡献的序列的共轭对称使得关于复杂度存在大量的节省。通过纯实数或纯虚数的窗口系数可获得进一步的显著降低。因此,所建议的圆周卷积算法可从稀疏占用频域窗口函数(例如,如图6a至6f中示出的设计)获得直接好处。
恒定增益淡入淡出
可在所呈现的频域淡入淡出概念内高效地实现恒定增益淡入淡出,恒定淡入淡出包括通常用于HRTF之间的过渡的线性淡入淡出。
通过两个输入信号与其相应的频域窗口的圆周卷积以及之后的求和来实现一般的频域淡入淡出:
对于恒定增益淡入淡出而言,通过将时域淡入淡出函数(14)变换到频域来获得更高效的实现:
在此,Yd[k]指代以下差值:
Yd[k]=Y1[k]-Y2[k]. (42)
如(14)中所示,该函数允许任何初始值s与最终值e之间的淡入淡出。与(40)相比,实现(41)的主要优点在于其仅需要单个圆周卷积,该单个圆周卷积然后表示淡入淡出算法最复杂的部分。
可通过融合圆周卷积方案(34)和(41)来实现复杂度的进一步降低。将包含中央窗口系数W[0]的项与淡入淡出函数相组合得到以下结果:
通过这种方式,通过4.1节中描述的稀疏占用圆周卷积运算确定恒定增益淡入淡出的计算复杂度:大小为的两个复数矢量加法、两个加法以及用于缩放窗口系数W[k]的2K-1个乘法。总的结果是个加法和个实数取值乘法。因此,对具有B个输出采样的块进行淡入淡出需要总共个指令。
类似于图5a,图5b示出了对增益改变(例如,从增益因子1改变为增益因子0.5)进行表示的备选时域窗口表示。这样的时域窗口粗略地对应于图5a中的淡出窗口w1。然而,在此不存在淡入。同样对于图5b 中的时域窗口,存在可在图1、2和3中的框124中或框124a、124b、 124c中高效地使用的高效频域窗口函数。
可通过对对应值进行缩放或加上/减去对应值来从图5a的窗口函数的频域表示对图5b的时域窗口的频域窗口函数的表示进行表示,使得不必执行新的优化,但例如可从基于图5a的现有频域窗口函数或如在图 6a至6f中所定义地产生针对频域中的所有增益改变的对应频域窗口函数。因此,可通过图5b实现增益降低。备选地,可通过对应函数实现增益增加,其中,在此可利用对对应(例如,恒定)值进行缩放和/或加上对应值来再次地使用图5a的函数w2。
图11示例性地示出使用单个固定频域窗口函数的用于具有初始值和最终值的增益改变的信号处理结构。因此,Y1[k]502表示要遭受增益改变的信号的频域表示。该信号可例如已通过对输入信号进行频域滤波而产生。然而,这样的滤波器不是绝对必须的。所必须的仅是该信号出现在与所使用的频域-时域变换(在说明书中称为“转换器”)兼容的表示中;亦即,应用频域-时域变换来产生对应的时域信号y1[n]。在此,通过信号块的开始处的增益值s、信号块的结束处的增益因子e、以及所选择的频域窗口函数(在此称为W2[k])来确定增益函数的过程。示例性地,对此进行执行,以使得其时域对应关系是从1降到0的函数。通过以下计算函数的方式(也示出在图11中)来执行增益改变。
通过圆周卷积的方式向信号Y1[k]提供频域窗口函数W2[k]。通过在第一乘法器503中将矢量与值e-s逐项相乘来对该卷积的结果进行缩放。由于圆周卷积的线性,也可在卷积之前将缩放应用于Y1[k]或W2[k]。在求和器500中将该表示的结果与在第二乘法器504中通过初始增益值s进行缩放的信号Y1[k]相加,产生频域输出信号Y[k]。通过与(43)相类似地将中央窗口系数W[0]从卷积和中分离并在缩放Y1[k]时考虑到该中央窗口系数,可进一步提高效率。
图7a至7f示出了在图6a至6f中出现在时域的频域窗口函数的滤波器系数的图表。频域窗口函数是仅稀疏占用的。具体地,图7a示出了频域表示,其中,窗口函数的频域表示的对应于频率0的频隙(或第0 个频隙)具有值0.5。在此,确切的值“0.5”并不是绝对必要的。针对第0个频隙的0.5意味着时域值的平均值是0.5,这甚至对于从1到0的淡入淡出是适用的。
然后,第一频隙到第七频隙将会具有对应的复数系数,而所有其他的更高的频隙等于0或展现出小到几乎不重要的值。因此,来自图7a 至7f的集合和值描述了频谱系数的非零实数部分和虚数部分的索引或图6a至6f中在时域中示出的频域窗口函数的频隙。图7e和7f例如仅涉及占用窗口函数的前三个频谱系数(图7e)或仅占用窗口函数的前两个频谱系数(图7f)。
复杂度评估
该小节将所建议的频域淡入淡出算法的复杂度与滤波器淡入淡出的现有解决方案相比较。将具有如下参数的渲染系统作为性能评估的基础:针对频域淡入淡出方法,滤波器长度N=512,块大小B=128,且对应的标准DFT大小L=256,M=8个虚拟源以及K=4个非零系数。对每个参数进行改变来评估器对总复杂度的影响。图8a- 8 d 中示出了结果。其示出了用于计算各个淡入淡出信号的采样的乘法的数量,即,渲染系统中运算的总数除以声音源的数量。考虑三个算法:(a)其后跟随时域淡入淡出的分段卷积,(b)针对每个源信号分别执行的所建议的FD淡入淡出算法,以及在时域中对耳朵信号的求和,(c)频域中对耳朵信号的 FD淡入淡出和求和。
图8a示出了滤波器长度N的影响。针对恒定的块大小B,复杂度对于所有算法是N的线性函数,因为N仅影响到可归因于块卷积(6) 的复杂度,对于该三个算法而言这是相同的。然而,即使在单信道的情况下,与时域解决方案相比,所建议的FD淡入淡出算法也显示出了明显的改进。第三幅图指出了,在频域中对耳机信号求和导致复杂度进一步的大量降低,针对N=512,其从每采样≈186指令到≈131指令。
图8b中是示出了分段卷积方案的块大小的影响。虽然FD淡入淡出在任何情况下都比时域淡入淡出更加高效,相对增益随着块大小B 的增加而增加。这可归因于均匀分段卷积方案的复杂度特性。对于较小的块大小,复杂度由块卷积(6)占主导,而FFT和IFFT运算的代价可忽略不计。由于IFFT数量的降低是FD淡入淡出方法的主要特征,其全部影响仅对于足够大的块大小才变得可看到。然而,这仅是较小的缺点,因为在任何情况下,对于非常小的块大小,均匀分段卷积变得更低效(例如,参见[12]、[13])。另一方面,如果块大小等于滤波器长度(例如, N=B=512),则做出最大的改进。这对应于非分段快速卷积。因此,如果将所建议的FD淡入淡出与重叠保留方案相结合所导致的延时时间是可接受的,则可以有利地使用所建议的FD淡入淡出与重叠保留方案的结合。
图8c中示出了复杂度对FD窗口的稀疏占用(其是频域窗口函数W[l]的值的非零实数部分和虚数部分)的依赖性。对于时域淡入淡出,在不使用这样窗口的情况下,性能流不变。对于逐信道实现算法的情况,在考虑到多至大约7个非零分量的设置中,FD淡入淡出更加高效。在小节“频域窗口的设计”中已经示出了具有3到4个值的窗口通常就已经允许对线性淡入淡出进行非常好的近似。这允许淡入淡出的精确度和复杂度之间可实际的折中,并允许多数引用中极大的速度加快。当对耳朵信号混频也在频域中执行时,对精确度或效率的进一步极大提高也是可能的。在该情况下,在多至12个系数的FD窗口中,FD淡入淡出比时域方法更高效。
图8d示出了所再现的声学场景的大小(即,虚拟源的数量)对总复杂度的影响。如上所示,通过计算出的源的数量对计算出的算术运算的数量进行归一化。对于时域淡入淡出和单行道FD算法,复杂度不取决于场景大小。此外,针对单个源的多信道FD算法与单信道FD淡入淡出相同。然而,即使对于较小的声学场景(例如,针对M=2,…,8),在频域中对淡入淡出源信号进行组合也使得效率极大增加。更大的声学场景仅使得性能有少量的进一步增加。该渐进线限制源自于前向FFT和块卷积操作对总复杂度的影响。通过减少逆FFT操作的数量不能进一步降低总复杂度。
实施例涉及将滤波信号的频域卷积与淡入淡出相结合的高效算法。其可应用于多个频域卷积技术,具体地,重叠保留和均匀或非均匀分段卷积。此外,其可以与滤波音频信号之间的不同种类的平滑过渡(包括增益改变和淡入淡出)一起使用。动态双耳合成中通常需要的恒定增益淡入淡出(如,例如线性滤波器过渡)允许复杂度的进一步极大降低。该新颖算法基于频域中利用稀疏占用窗口函数的圆周卷积,该稀疏占用窗口函数仅包含少量的非零值。此外,示出了针对这种窗口的灵活的基于优化的设计方法。设计示例确认了可通过非常稀疏地占用的窗口函数来非常良好地近似音频应用中通常使用的淡入淡出行为。
所建议的实施例示出了:与基于两个分别的卷积和时域淡入淡出的先前方案相比,性能的极大改进。然而,仅在集成到双耳再现系统的结构中时才利用了针对双耳应用的频域淡入淡出的全部潜力。在该情况下,该新颖的淡入淡出算法允许在频域中执行更大部分的处理,由此极大地减少了逆变换的数量。已经示出了用于双耳合成的该解决方案的优点。在该应用中,在频域中对若干声音源的信号进行混频的能力允许复杂度的极大降低。然而,所建议的算法不限于双耳合成,而是很可能应用于使用音频信号的快速卷积和时变混频这两个技术的其他使用目的,具体地,在多信道应用中。
下面将示出本发明的备选实施例。一般而言,本发明的实施例涉及以下几点。
渐进地淡入或淡出(滤波)信号yi[n]一般被诠释为将信号与时域窗口函数wi[n]相乘。
因此,可通过将两个滤波信号(y1[n]和y2[n])与窗口函数w1[n]和 w2[n]相乘并然后对其求和来表示该信号之间的淡入淡出。
y[n]=w1[n]y1[n]+w2[n]y2[n] (44)
一种特殊类型的淡入淡出是所谓的恒定增益淡入淡出,其中,针对每个n,窗口函数w1[n]和w2[n]之和是值1。该种类型的淡入淡出可用在很多应用中,特别是当要混合的信号(或滤波器)强相关时。在该情况下,可通过各个窗口函数w[n]来表示淡入淡出,w1[n]=w[n],w2[n]=1 -w[n],且淡入淡出(1)可被如下表示:
y[n]=y2[n]+w[n](y1[n]-y2[n]). (46)
该方法的主要目的是在频域中直接执行淡入淡出,并由此降低执行两个完整的快速卷积操作时产生的复杂度。更准确地,这意味着,当在频域中对滤波信号进行淡入淡出时,仅需一个而不是两个逆FFT。
为了在频域中推导出淡入淡出,将仅考虑各个信号x[n]与时域窗口函数w[n]的乘法1
y[n]=x[n].w[n]. (47)
在已描述了核心算法之后,对与公式(44)和(46)一致的淡入淡出的扩展可容易地进行(但允许性能的进一步增加)。
时域中的逐项相乘(47)对应于频域中的圆周(周期性)卷积。
通过频域中的圆周卷积进行的淡入淡出可集成到快速卷积算法中,如重叠保留卷积、分段卷积和非均匀分段卷积。因此,要相应地考虑这些方法的独特之处,例如,将对脉冲响应分段的零填充,以及丢弃被再变换到时域的信号的一部分(以避免时域信号的过度圆周卷积(circular over-convolution),时域混叠)。在此,将淡入淡出的长度确定为卷积算法的块大小或其倍数。
卷积(48)通常比时域中的淡入淡出(47)(复杂度0(L2))复杂很多。因此,转移到频域一般意味着复杂度的显著降低,因为该附加复杂度0(L2)极大地超出了通过节省FFT而导致的降低0(Llog2L)。此外,因为序列是复数取值的,操作(如与(44)一致的频域中的加权求和)耗费更大。
一实施例是找到仅包括非常少的非零系数的频域窗口函数W[k]。利用非常稀疏地占用的窗口函数,与其后跟随有时域中的淡入淡出的附加逆FFT相比,频域中的圆周卷积可变得高效很多。
示出了存在这样的窗口函数,使用该窗口函数(具有少量系数),对所希望的淡入淡出特性的非常良好的近似是可能的。
其中,B是分段卷积算法的块大小或块馈送(feed)(B<L)。丢弃被再变换的输出信号的前L-B个值,且因此舍弃与的前L-B个值相乘的影响,以避免卷积算法造成的时域混叠。因此,窗口系数 可取任何值,而不因此改变淡入淡出结果。当设计具有少量非零系数的频域窗口W[k]时,这些附加的自由度导致极大的好处。
在设计W[k]并高效地实现频域中的圆周卷积时,可通过实用的方式利用频域窗口的共轭对称结构。因此,分别考虑W[k]的实数分量和虚数分量是实用的。
呈现了针对这种频域窗口的不同设计(其中,具有2个、3个和4 个非零系数),包括对实数取值和虚数的非零系数的特定的、特殊选择的分布。严格来说,所获得的发现仅应用于在此呈现的窗口设计(亦即,例如,针对预定值L和B以及所希望的淡入淡出的形式)。然而,底层的原理(例如,实数和虚数非零部分的有利分布)也可应用于B和L的其他值。
实数取值和虚数非零分量的分布非常具有特色。例如,在附加的检查中已经发现在图7g中的第三设计中使用的分布(8个非零系数、索引集合对于实施例中的其他参数组合而言也是最佳的。这意味着针对频域窗口函数的特别适合的设置是:具有索引 0和所有奇数索引的系数是纯实数,且具有偶数索引(从2开始)的系数是纯虚数。
具有两个非零系数的窗口函数(图7g、图6f中最后的设计示例) 允许两个滤波器或信号之间的平滑过渡,且还可用于恒定增益淡入淡出。该窗口函数对应于具有余弦类型的半侧窗口的时域窗口(例如,Hann 窗或Hamming窗)。虽然该窗口函数与线性淡入淡出偏离相对较大,对于在稍有类似的滤波器之间仅需要进行无喀嗒的淡入淡出的很多应用,这应该已是可使用的。
针对(在此考虑的)具有稀疏占用的共轭对称窗口函数W[k]的圆周卷积的实现呈现了高效的实现和不同的优化。因此,很清楚,分别考虑实数和虚数非零部分提供了性能优点。
为了实现恒定增益淡入淡出,引入另一优化计算规则。
在考虑具有若干输入和输出的系统时,所描述的发明允许进一步的大得多的性能优点。在该情况下,通过在频域中实现淡入淡出(或实现由所使用的快速卷积算法预先确定的信号表示),整个计算的较大部分可发生在该频域中,由此极大增加了总效率。
所描述的本发明的效果是降低计算复杂度。因此,与理想的预定形式的淡入淡出相比的某种偏离(然而,其可能是有影响的且通常保持非常小)是可接受的。
除了该效率增加之外,该概念允许将淡入淡出功能直接集成到频域。如上所述,将淡入淡出用作要素的较大的信号处理算法可被重新构造为使得结果是效率增加。可例如在频域表示中执行整个信号处理的较大部分,由此极大地降低变换信号的复杂度(例如,时域中再变换的数量)。
一般而言,可在具有以下特征的所有应用中使用实施例:要求具有滤波器的某个最小长度(取决于硬件,从大致16-50个系数开始)的FIR 卷积,且要在运行时没有任何信号处理假象的情况下交换滤波器系数。
音频领域中的两个应用领域被认为是非常重要的:
双耳合成
当通过头戴式耳机再现声音场景时,通过两只耳朵的所谓头部相关传递函数(HRTF)来对声音对象的信号进行滤波,且通过对对应组成信号的求和来形成通过头戴式耳机再现的信号。HRTF取决于声音源与收听者的相对位置,且因此必须与移动的声音源或头部移动相交换。滤波器淡入淡出的要求是已知的,例如示例[5;14]。
用于波束成形的可变数字滤波器内核
具有在运行时可控的定向模式的波束成形应用(用于扬声器和麦克风阵列二者)要求可变的数字滤波器结构,使用该结构,可连续调整阵列处理的特性。因此,必须要确保模式的改变不产生任何干扰(例如,喀嗒假象、瞬态)。在通过快速卷积的方式实现可变滤波器时,可通过有利的方式应用所描述的发明。
具体地,在该实现中,频域信号是音频信号。第一滤波器特性指代针对声音转换器阵列中适于与该声音转换器阵列中的其他声音转换器相结合来在第一时间点处形成所希望的第一定向模式的某个声音转换器 (麦克风或扬声器)的滤波器。第二滤波器特性描述针对声音转换器阵列中适于以下操作的某个声音转换器(麦克风或扬声器)的扬声器:与该声音转换器阵列中的其他声音转换器相结合来在第二时间点处形成所希望的第二定向模式,使得定向模式通过在使用频域窗口函数时进行淡入淡出而随着时间改变。
另一应用涉及使用若干音频信号,该若干音频信号的已滤波且已淡入淡出的频域表示在进行傅里叶逆变换之前组合。这对应于通过扬声器阵列利用不同信号同时放射若干音频波束,或对应于在麦克风阵列中对各个麦克风信号求和。
可在对具有若干输入和输出(多输入多输出MIMO)的系统具有具体优点的情况下应用所描述的发明,例如,在若干淡入淡出同时发生时,或在对若干已淡入淡出的信号进行组合和进一步处理时。在该情况下,有可能在频域中执行整个计算(或通过所使用的重叠保留或分段卷积算法预先确定的信号表示)的较大部分。通过转移其他操作(例如,求和、对信号混频等),可极大地降低再变换到时域的复杂度,并因此显著地频繁改进总效率。如上所述,这种系统的示例是针对复杂音频场景的双耳渲染,或者也是波束成形应用,在波束成形应用中,针对不同定向模式和转换器(麦克风或扬声器)的信号是通过改变滤波器来滤波的,且必须彼此组合。
尽管已经在设备的上下文中描述了一些方面,但是应当清楚的是,这些方面也表示对相应方法的描述,使得设备的块或要素也对应于相应的方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方案也表示对相应块或细节或者相应设备的特征的描述。方法步骤中的一些或全部可以由硬件装置来执行(或使用硬件装置),例如,微处理器、可编程计算机或电子电路。在一些实施例中,最重要的方法步骤中的某一些或数个可以由这种装置来执行。
取决于某些实现要求,可以在硬件中或在软件中实现本发明的实施例。可以使用其上存储有电子可读控制信号的数字存储介质(例如,软盘、DVD、蓝光光盘、CD、ROM、PROM、EPROM、EEPROM或闪存、硬盘驱动器或另一磁存储器或光学存储器)来执行实现,该电子可读控制信号与可编程计算机系统协作或者能够与之协作从而执行相应方法。因此,数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,该电子可读控制信号能够与可编程计算机系统协作从而执行本文所述的方法之一。
通常,本发明的实施例可以实现为具有程序代码的计算机程序产品,程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。
程序代码可以例如存储在机器可读载体上。
其他实施例包括用于执行本文所述的方法之一的计算机程序,其中,该计算机程序存储在机器可读载体上。换言之,本发明方法的实施例因此是包括程序代码的计算机程序,程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。
因此,本发明方法的另一实施例是其上记录有计算机程序的数据载体(或者数字存储介质或计算机可读介质),计算机程序用于执行本文所述的方法之一。
因此,本发明方法的另一实施例是表示计算机程序的数据流或信号序列,所述计算机程序用于执行本文所述的方法之一。数据流或信号序列可以例如被配置为经由数据通信连接(例如,经由互联网)传输。
另一实施例包括处理装置,例如,计算机或可编程逻辑器件,所述处理装置被配置为或适于执行本文所述的方法之一。
另一实施例包括其上安装有计算机程序的计算机,该计算机程序用于执行本文所述的方法之一。
根据本发明的另一实施例包括被配置为向接收机传递计算机程序的设备或系统,所述计算机程序用于执行本文所述的方法至少之一。可以电子地或光学地执行传输。接收机可以是例如计算机、移动装置、存储装置等。该设备或系统可以例如包括用于向接收机传输计算机程序的文件服务器。
在一些实施例中,可编程逻辑器件(例如,现场可编程门阵列FPGA) 可以用于执行本文所述的方法的功能中的一些或全部。在一些实施例中,现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常,在一些实施例中,方法优选地由任意硬件设备来执行。这可以是通用硬件,例如,计算机处理器(CPU)或专用于方法的硬件(例如,ASIC)。
上述实施例对于本发明的原理仅是说明性的。应当理解的是:本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此,旨在仅由所附专利权利要求的范围而不由通过描述和解释本文的实施例的方式给出的具体细节来限制本发明。
引用文献
[1]V.R.Algazi und R.0.Duda,″Headphone-based spatial sound,″ IEEESignal Processing Mag.,Vol.28,No.1,pp.33-42,Jan.2011.
[2]R.Nicol,Binaural Technology,ser.AES Monographs.New York, NY:AES,2010.
[3]D.N.Zotkin,R.Duraiswami,und L.S.Davis,″Rendering localized spatialaudio in a virtual auditory space,″IEEE Trans.Multimedia,Vol.6,No. 4,pp.553-564,Aug.2004.
[4]A.J.Jakka,M.Tikander,et al.,″Augmented reality audio formobile and wearable appliances,″J.Audio Eng.Soc.,Vol.52,No.6,pp. 618-639,June2004.
[5]J.-M.Jot,V.Larcher und 0.Warusfel,″Digital signal processingissues in the context of binaural and transaural stereophony,″in AES 98thConvention,Paris,France,Feb.1995.
[6]H.Gamper,″Head-related transfer function interpolation in azimuth,elevation and distance,″J.Acoust.Soc.Am.,Vol.134,No.6, EL547-EL553,Dec.2013.
[7]V.Algazi,R.Duda,D.Thompson,et al.,″The CIPIC HRTF database,″inProc.IEEE Workshop Applications Signal Processing to Audio and Acoustics,NewPaltz,NY,Oct.2001,pp.99-102.
[8]T.G.Stockham Jr.,″High-speed convolution and correlation,″inProc.Spring Joint Computer Conf.,Boston,MA,Apr.1966,pp.229-233.
[9]A.VOppenheim und R.W.Schafer,Diserete-Time Signal Processing,3thedition,Upper Saddle River,NJ:Pearson,2010.
[10]B.D.Kulp,″Digital equalization using Fourier transformtechniques,″in AES 85th Convention,Los Angeles,CA,Nov.1988.
[11]F.Wefers und M.″Optimal filter partitiohs for real-timeFIR filtering using uniformly partitioned FFT-based convolution in thefrequency-domain,″in Proc.14.Int.Conf.Digital AudioEffects,Paris,France,Sept.2011,pp.155-161.
[12]W.G.Gardner,″Efficient convolution without input-output delay,″J.Audio Eng.Soc.,Vol.43,No.3,pp.127-136,March 1995.
[13]G.Garcia,″Optimal filter partition for efficient convolution withshort input/output delay,″in 113th AES Convention,Los Angeles,CA,Oct. 2002.
[14]C.Tsakostas und A.Floros,″Real-time spatial representation ofmoving sound sources,″in AES 123th Convention,New York,NY,Oct. 2007.
[15]J.0.Smith III,Introduction to Digital Filters with AudioApplications.W3K Publishing,2007.[Online]. available:http://ccrma.stanford.edu/-jos/filters/.
[16]C.Müller-Tomfelde,″Time-varying filter in non-uniform blockconvolution,″in Proc.COST G-6 Conf.Digital Audio Effects(DAFX-01), Limerick,Ireland,Dec.2001.
[17]J.O.Smith III,Mathematics of the Discrete Fourier Transform(DFT).W3K Publishing,2007.[Online]. available:http://ccrma.stanford.edu/-jos/mdft/mdft.html.
[18]R.G.Lyons,Understanding Digital Signal Processing,3rded. UpperSaddle River,NJ:Pearson,2011.
[19]M.C.Grant und S.P.Boyed,“Graph implementations for nonsmoothconvex programs,”in Recent Advances in Learning and Control, V.Blondel,S.Boyd,und H.Kimura,Eds.,London,UK:Springer,2008,pp. 95-110.
Claims (24)
1.一种用于处理离散时间信号以获得处理后的信号的设备,包括:
处理器级(120),配置为:
通过具有滤波器特性的滤波器(122,122a),借助于与传递函数相乘来对离散频域表示中出现的信号进行滤波,以获得滤波后的信号(123,502),以及
向所述滤波后的信号(123,502)或从所述滤波后的信号(123,502)导出的信号(302)提供频域窗口函数(124,124c,w2(k)),以获得加窗信号(125),其中,所述提供包括:将所述频域窗口函数(124,124c,w2(k))的频域窗口系数与所述滤波后的信号(123,502)或从所述滤波后的信号(123,502)导出的信号(302)的频谱值进行相乘,以获得相乘结果,并对所述相乘结果求和;以及
频率-时间转换器(130),用于将所述加窗信号(125)或使用所述加窗信号确定的信号转换到时域,以获得处理后的信号,
其中,所述处理器级(120)还被配置为:通过具有另一滤波器特性的另一滤波器(122b)对所述离散频域表示中出现的信号进行滤波以获得另一滤波后的信号;向所述另一滤波后的信号提供另一频域窗口函数(124b),以获得另一加窗信号;将所述加窗信号和所述另一加窗信号进行组合(200),或者,
其中,所述处理器级(120)还被配置为通过具有另一滤波器特性的另一滤波器(122b)对所述离散频域表示中出现的信号进行滤波以获得另一滤波后的信号;根据所述滤波后的信号和所述另一滤波后的信号形成组合信号(302)作为所述从所述滤波后的信号(123,502)导出的信号(302);向所述组合信号(302)提供频域窗口函数(124c),以获得加窗组合信号作为所述加窗信号(125);以及,将所述加窗组合信号与所述滤波后的信号或所述另一滤波后的信号进行组合(200),或者
其中,所述频域窗口函数(w2(k))包括随时间增加或随时间降低的增益特性,并且,所述处理器级还被配置为:借助于组合器对所述加窗信号和所述滤波后的信号(502)进行组合,所述组合器包括:第一乘法器(503),用于将所述加窗信号与第一值相乘;第二乘法器(504),用于将所述滤波后的信号(502)与第二值相乘;以及,求和器(500),用于对乘法器输出信号进行求和。
2.根据权利要求1所述的设备,
其中,所述离散时间信号是音频信号,且离散频域表示中出现的信号是变换到频域的音频信号。
3.根据权利要求1所述的设备,
其中,所述滤波器包括第一时间点处的所需滤波器特性,所述另一滤波器包括稍后的第二时间点处的所需滤波器特性,以及
其中,所述频域窗口函数对应于时域中的淡出函数,且所述另一频域窗口函数对应于时域中的淡入函数。
4.根据权利要求1所述的设备,
其中,所述频域窗口函数包括最多15个或最多8个非零系数。
5.根据权利要求1所述的设备,其中,所述处理器级(120)被配置为使用最大数量的非零频域窗口系数,
其中,针对最小频率的频域窗口系数是实数,以及
其中,与所述最小频率的索引相关的偶数索引的频域窗口系数是纯虚数,且与所述最小频率的索引相关的奇数索引的频域窗口系数是纯实数。
6.根据权利要求1所述的设备,其中,所述处理器级(120)被配置为使用以下等式提供所述频域窗口函数:
其中,Y[k]是针对索引k的加窗信号的频谱值;
其中,如下计算Y(l)[k]项:
其中,k是频率索引,l是整数索引,C是索引集合,如果索引l不等于0且频域窗口函数的系数W[l]不等于0,索引l包含在集合C中,且Wr[l]是频域窗口函数的系数的实部,Wi[l]是频域窗口函数的系数的虚部,r指示实部,i指示虚部,
X+[k,l]和X-[k,l]是通过以下等式计算的:
X+[k,l]=X[((k+l))L]+X[((k-l))L]
X-[k,l]=X[((k+l))L]-X[((k-l))L],以及
其中,((k))L意指对K取模L,L是FFT块的长度,且X[k]是离散频域表示中出现的信号的频谱系数。
8.根据权利要求1所述的设备,
其中,所述滤波器特性或所述另一滤波器特性是针对不同位置的HRTF滤波器,且离散频域表示中出现的信号是针对所述不同位置处的源的音频信号。
9.根据权利要求1所述的设备,还包括:
时间-频率转换器(110),用于将信号转换为适于与重叠相加、重叠保留或分段卷积算法一起使用的频域表示,以及
其中,所述用于将所述加窗信号或使用所述加窗信号确定的信号转换到时域的所述频率-时间转换器(130)被配置为使用所述重叠相加算法、所述重叠保留算法或所述分段卷积算法来操作。
10.根据权利要求1所述的设备,
其中,所述处理器级(120)被配置为使用在时域中是淡出函数(w(1))的所述频域窗口函数,并使用在时域中是淡入函数(w(2))的所述另一频域窗口函数。
11.根据权利要求10所述的设备,
其中,所述处理器级(120)被配置为使用所述频域窗口函数和所述另一频域窗口函数来逼近恒定增益特性,所述恒定增益特性为所述频域窗口函数和所述另一频域窗口函数在每个离散时间点处的和是1。
12.根据权利要求1所述的设备,
其中,所述处理器级(120)被配置为将所述滤波后的信号和所述另一滤波后的信号之间的差形成为所述组合信号,以及所述处理器级(120)被配置为将所述加窗组合信号与所述滤波后的信号进行组合以得到第二组合信号,以及
其中,所述频率-时间转换器(130)被配置为将所述第二组合信号或除了所述第二组合信号之外还包含其他信号的信号转换到时域。
13.根据权利要求1所述的设备,
其中,所述处理器级(120)被配置为使用频域滤波器特性作为所述滤波器特性,表示时域中的淡入函数、时域中的淡出函数或时域中的淡入淡出函数或时域中的增益改变函数。
14.根据权利要求1所述的设备,
其中,所述频率-时间转换器(130)被配置为使用离散值的仅一部分并丢弃另一部分,被丢弃的部分包括L-B个离散值,L是离散傅里叶逆变换的离散值的总数,且B是分段卷积算法的块大小或块馈送,与所述滤波器特性相对应的频域滤波器特性的时间长度等于所述块大小或所述块大小的倍数。
15.根据权利要求1所述的设备,其中,所述第一值是所述频域窗口函数在信号块的开始处的增益值与频域窗口函数在所述信号块的结束处的增益值的差值,以及所述第二值是所述频域窗口函数在所述信号块的开始处的增益值。
16.一种用于处理离散时间信号的设备,包括:
处理器级(120),配置为:
通过具有滤波器特性的滤波器(122),借助于与传递函数相乘来对离散频域表示中出现的信号进行滤波,以获得滤波后的信号(123),以及
向所述滤波后的信号(123)提供频域窗口函数,以获得加窗信号,其中,所述提供包括:将所述频域窗口函数的频域窗口系数与所述滤波后的信号(123)的频谱值进行相乘,以获得相乘结果,并对所述相乘结果求和;以及
频率-时间转换器(130),用于将所述加窗信号(125)或使用所述加窗信号确定的信号转换到时域,以获得处理后的信号,
其中,所述离散时间信号描述第一音频源,
其中,另一离散时间信号描述第二音频源,
其中,利用第一特性实现针对所述第一音频源的滤波器,且利用第二特性实现针对所述第一音频源的另一滤波器,
其中,所述处理器级(120)还被配置为使用针对所述第二音频源的第三滤波器(614)和第四滤波器(615)操作,所述第三滤波器具有对所述第二音频源在第一时间点处的第一特性进行描述的第三滤波器特性,且所述第四滤波器(615)具有与所述第二音频源在第二时间点处的第二特性相对应的第四滤波器特性,
其中,所述处理器级还被配置为:使用所述频域窗口函数(620)计算所述加窗信号,使用另一频域窗口函数(621)确定第二加窗信号,使用第三频域窗口函数(622)确定第三加窗信号,以及使用第四频域窗口函数(623)确定第四加窗信号,以及
组合所述加窗信号、所述第二加窗信号、所述第三加窗信号以及所述第四加窗信号,以获得组合信号,以及
其中,所述频率-时间转换器(630)被配置为将组合信号转换到时域。
17.根据权利要求16所述的设备,其中,所述第一音频源在所述第一时间点处的第一特性是第一位置,所述第一音频源在所述第二时间点处的第二特性是不同于第一位置的第二位置,所述第二音频源在所述第一时间点处的第一特性是第一位置,以及所述第二音频源在所述第二时间点处的第二特性是不同于第一位置的第二位置。
18.一种用于处理离散时间信号的设备,包括:
处理器级(120),配置为:
通过具有滤波器特性的滤波器(122),借助于与传递函数相乘来对离散频域表示中出现的信号进行滤波,以获得滤波后的信号(123),以及
向所述滤波后的信号(123)提供频域窗口函数,以获得加窗信号,其中,所述提供包括:将所述频域窗口函数的频域窗口系数与所述滤波后的信号(123)的频谱值进行相乘,以获得相乘结果,并对所述相乘结果求和;以及
频率-时间转换器(130),用于将所述加窗信号(125)或使用所述加窗信号确定的信号转换到时域,以获得处理后的信号,
其中,所述离散频域表示中出现的信号是在第一时间点位于音频源(600)的第一位置且在第二时间点位于所述音频源(600)的第二位置的音频源(600)的音频信号,
其中,另一频域信号是在第一时间点位于另一音频源(602)的第一位置且在第二时间点位于所述另一音频源(602)的第二位置的所述另一音频源(602)的音频信号,
其中,所述处理器级被配置为针对每个音频信号使用第一滤波器特性和第二滤波器特性,所述第一滤波器特性是针对第一位置的HRTF函数,且所述第二滤波器特性是针对第二位置的HRTF函数,以及
其中,所述处理器级(120)被配置为针对每个音频信号使用两个频域窗口函数(620、621;622、623)或者单个频域窗口函数(124c),以及
其中,所述处理器级还被配置为在频域中对信号进行组合,以及
其中,所述频率-时间转换器(130、630)被配置为将组合信号转换到时域,以获得耳机信号(713)。
19.一种用于处理离散时间信号的设备,包括:
处理器级(120),配置为:
通过具有滤波器特性的滤波器(122),借助于与传递函数相乘来对离散频域表示中出现的信号进行滤波,以获得滤波后的信号,
向所述滤波后的信号提供频域窗口函数,以获得加窗信号,其中,所述提供包括:将所述频域窗口函数的频域窗口系数与所述滤波后的信号的频谱值进行相乘,以获得相乘结果,并对所述相乘结果求和;
通过具有另一滤波器特性的另一滤波器(122b)对所述离散频域表示中出现的信号进行滤波以获得另一滤波后的信号;
向所述另一滤波后的信号提供另一频域窗口函数,以获得另一加窗信号,其中,所述向所述另一滤波后的信号提供另一频域窗口函数包括:将所述另一频域窗口函数的频域窗口系数与所述另一滤波后的信号的频谱值进行相乘,以获得相乘结果,并对所述相乘结果求和;以及
将所述加窗信号和所述另一加窗信号进行组合,以获得处理器级的输出信号,
频率-时间转换器(130),用于将所述处理器级的输出信号转换到时域,以获得处理后的信号,
其中,所述离散频域表示中出现的信号是音频信号,所述滤波器特性是针对声音转换器阵列中适于与所述声音转换器阵列中的其他声音转换器相结合来在第一时间点处实现所希望的第一定向模式的特定声音转换器的滤波器,
其中所述另一滤波器特性是针对声音转换器阵列中适于以下操作的特定声音转换器的滤波器:与所述声音转换器阵列中的其他声音转换器相结合来在第二时间点处实现所希望的第二定向模式,以通过使用所述频域窗口函数以及所述另一频域窗口函数进行淡入淡出使得所希望的第一定向模式或所希望的第二定向模式随着时间改变。
20.一种用于处理信号以获得处理后的信号的方法,包括步骤:
通过具有滤波器特性的滤波器(122,122a)来对离散频域表示中出现的信号进行滤波,以获得滤波后的信号(123,502);
向所述滤波后的信号(123)或根据所述滤波后的信号(123,502)推导出的信号(302)提供频域窗口函数(124,124c,w2(k)),以获得加窗信号(125),其中,所述提供包括:将所述频域窗口函数(124,124c,w2(k))的频域窗口系数与所述滤波后的信号(123,502)或根据所述滤波后的信号推导出的信号(302)的频谱值进行相乘,以获得相乘结果,并对所述相乘结果求和;以及
将所述加窗信号(125)或使用所述加窗信号(125)确定的信号转换到时域,以获得处理后的信号,
其中,所述方法包括以下步骤:通过具有另一滤波器特性的另一滤波器(122b)来对所述离散频域表示中出现的信号进行滤波,以获得另一滤波后的信号,向所述另一滤波后的信号提供另一频域窗口函数(124b),以获得另一加窗信号,且将所述加窗信号与所述另一加窗信号进行组合(200),或
其中,所述方法包括以下步骤:使用具有另一滤波器特性的另一滤波器(122b)来对所述离散频域表示中出现的信号进行滤波以获得另一滤波后的信号,根据所述滤波后的信号和所述另一滤波后的信号形成组合信号(302)作为所述从所述滤波后的信号(123,502)推导出的信号(302),向所述组合信号(302)提供频域窗口函数(124c)以获得加窗组合信号作为所述加窗信号(125),以及将所述加窗组合信号与所述滤波后的信号和所述另一滤波后的信号进行组合(200),或
其中,所述频域窗口函数(w2(k))具有随时间增加或随时间降低的增益特性,以及所述方法还包括以下步骤:借助于组合器将所述加窗信号与所述滤波后的信号(502)进行组合,所述组合器包括:第一乘法器(503),用于将所述加窗信号与第一值相乘;第二乘法器(504),用于将所述滤波后的信号(502)与第二值相乘;以及求和器(500),用于对乘法器输出信号进行求和。
21.一种用于处理信号的方法,包括步骤:
通过具有滤波器特性的滤波器(122),借助于与传递函数相乘来对离散频域表示中出现的信号进行滤波,以获得滤波后的信号(123),
向所述滤波后的信号(123)提供频域窗口函数,以获得加窗信号,其中,所述提供包括:将所述频域窗口函数的频域窗口系数与所述滤波后的信号(123)的频谱值进行相乘,以获得相乘结果,并对所述相乘结果求和;以及
将所述加窗信号(125)或使用所述加窗信号确定的信号转换到时域,以获得处理后的信号,
其中,所述离散时间信号描述第一音频源,
其中,另一离散时间信号描述第二音频源,
其中,利用第一特性实现针对所述第一音频源的滤波器,且利用第二特性实现针对所述第一音频源的另一滤波器,
其中,使用针对所述第二音频源的第三滤波器(614)和第四滤波器(615)操作,所述第三滤波器具有对所述第二音频源在第一时间点处的第一特性进行描述的第三滤波器特性,且所述第四滤波器(615)具有与所述第二音频源在第二时间点处的第二特性相对应的第四滤波器特性,
其中,所述方法还包括:
使用所述频域窗口函数(620)计算所述加窗信号,
使用另一频域窗口函数(621)确定第二加窗信号,
使用第三频域窗口函数(622)确定第三加窗信号,以及
使用第四频域窗口函数(623)确定第四加窗信号,以及
组合所述加窗信号、所述第二加窗信号、所述第三加窗信号以及所述第四加窗信号,以获得组合信号,以及
其中,所述组合信号被转换到时域。
22.一种用于处理信号的方法,包括步骤:
通过具有滤波器特性的滤波器(122),借助于与传递函数相乘来对离散频域表示中出现的信号进行滤波,以获得滤波后的信号(123),以及
向所述滤波后的信号(123)提供频域窗口函数,以获得加窗信号,其中,所述提供包括:将所述频域窗口函数的频域窗口系数与所述滤波后的信号(123)的频谱值进行相乘,以获得相乘结果,并对所述相乘结果求和;以及
将所述加窗信号(125)或使用所述加窗信号确定的信号转换到时域,以获得处理后的信号,
其中,所述离散频域表示中出现的信号是在第一时间点位于音频源(600)的第一位置且在第二时间点位于所述音频源(600)的第二位置的音频源的音频信号,
其中,另一频域信号是在第一时间点位于另一音频源(602)的第一位置且在第二时间点位于所述另一音频源(602)的第二位置的所述另一音频源(602)的音频信号,
其中,针对每个音频信号使用第一滤波器特性和第二滤波器特性,所述第一滤波器特性是针对第一位置的HRTF函数,且所述第二滤波器特性是针对第二位置的HRTF函数,以及
其中,针对每个音频信号使用两个频域窗口函数或者单个频域窗口函数,以及
其中,在频域中对信号进行组合,以及
其中,组合信号被转换到时域,以获得耳机信号(713)。
23.一种用于处理信号的方法,包括步骤:
通过具有滤波器特性的滤波器(122),借助于与传递函数相乘来对离散频域表示中出现的信号进行滤波,以获得滤波后的信号,
向所述滤波后的信号提供频域窗口函数,以获得加窗信号,其中,所述提供包括:将所述频域窗口函数的频域窗口系数与所述滤波后的信号的频谱值进行相乘,以获得相乘结果,并对所述相乘结果求和;
通过具有另一滤波器特性的另一滤波器(122b)对所述离散频域表示中出现的信号进行滤波以获得另一滤波后的信号;
向所述另一滤波后的信号提供另一频域窗口函数,以获得另一加窗信号,其中,所述向所述另一滤波后的信号提供另一频域窗口函数包括:将所述另一频域窗口函数的频域窗口系数与所述另一滤波后的信号的频谱值进行相乘,以获得相乘结果,并对所述相乘结果求和;
将所述加窗信号和所述另一加窗信号进行组合以获得组合信号,
将所述组合信号转换到时域,以获得处理后的信号,
其中,所述离散频域表示中出现的信号是音频信号,所述滤波器特性是针对声音转换器阵列中适于与所述声音转换器阵列中的其他声音转换器相结合来在第一时间点处实现所希望的第一定向模式的特定声音转换器的滤波器,
其中,所述另一滤波器特性是针对声音转换器阵列中适于以下操作的特定声音转换器的滤波器:与所述声音转换器阵列中的其他声音转换器相结合来在第二时间点处实现所希望的第二定向模式,以通过使用所述频域窗口函数以及所述另一频域窗口函数进行淡入淡出使得所希望的第一定向模式或所希望的第二定向模式随着时间改变。
24.一种计算机可读存储介质,存储有包括程序代码的计算机程序,当所述程序代码在处理器上运行时,用于执行根据权利要求20至23中任一项所述的方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP14159922.5 | 2014-03-14 | ||
EP14159922 | 2014-03-14 | ||
DE102014214143.5 | 2014-07-21 | ||
DE102014214143.5A DE102014214143B4 (de) | 2014-03-14 | 2014-07-21 | Vorrichtung und Verfahren zum Verarbeiten eines Signals im Frequenzbereich |
PCT/EP2015/055094 WO2015135999A1 (de) | 2014-03-14 | 2015-03-11 | Vorrichtung und verfahren zum verarbeiten eines signals im frequenzbereich |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106465033A CN106465033A (zh) | 2017-02-22 |
CN106465033B true CN106465033B (zh) | 2020-11-06 |
Family
ID=54010249
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580013788.2A Active CN106465033B (zh) | 2014-03-14 | 2015-03-11 | 用于处理频域中的信号的设备和方法 |
Country Status (7)
Country | Link |
---|---|
US (2) | US10187741B2 (zh) |
EP (1) | EP3117631B1 (zh) |
JP (1) | JP6423446B2 (zh) |
CN (1) | CN106465033B (zh) |
DE (1) | DE102014214143B4 (zh) |
HK (1) | HK1232367A1 (zh) |
WO (1) | WO2015135999A1 (zh) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SG10201800147XA (en) | 2018-01-05 | 2019-08-27 | Creative Tech Ltd | A system and a processing method for customizing audio experience |
US10805757B2 (en) | 2015-12-31 | 2020-10-13 | Creative Technology Ltd | Method for generating a customized/personalized head related transfer function |
SG10201510822YA (en) | 2015-12-31 | 2017-07-28 | Creative Tech Ltd | A method for generating a customized/personalized head related transfer function |
US10224058B2 (en) * | 2016-09-07 | 2019-03-05 | Google Llc | Enhanced multi-channel acoustic models |
US10976461B2 (en) * | 2017-10-17 | 2021-04-13 | California Institute Of Technology | Sub-surface imaging of dielectric structures and voids via narrowband electromagnetic resonance scattering |
US10726852B2 (en) * | 2018-02-19 | 2020-07-28 | The Nielsen Company (Us), Llc | Methods and apparatus to perform windowed sliding transforms |
US10629213B2 (en) | 2017-10-25 | 2020-04-21 | The Nielsen Company (Us), Llc | Methods and apparatus to perform windowed sliding transforms |
US11049507B2 (en) | 2017-10-25 | 2021-06-29 | Gracenote, Inc. | Methods, apparatus, and articles of manufacture to identify sources of network streaming services |
US10733998B2 (en) | 2017-10-25 | 2020-08-04 | The Nielsen Company (Us), Llc | Methods, apparatus and articles of manufacture to identify sources of network streaming services |
JP6950490B2 (ja) * | 2017-11-24 | 2021-10-13 | 沖電気工業株式会社 | フィルタリング装置及びフィルタリング装置のテーブル作成方法 |
US10390171B2 (en) | 2018-01-07 | 2019-08-20 | Creative Technology Ltd | Method for generating customized spatial audio with head tracking |
US11308975B2 (en) | 2018-04-17 | 2022-04-19 | The University Of Electro-Communications | Mixing device, mixing method, and non-transitory computer-readable recording medium |
JP7292650B2 (ja) | 2018-04-19 | 2023-06-19 | 国立大学法人電気通信大学 | ミキシング装置、ミキシング方法、及びミキシングプログラム |
WO2019203127A1 (ja) * | 2018-04-19 | 2019-10-24 | 国立大学法人電気通信大学 | 情報処理装置、これを用いたミキシング装置、及びレイテンシ減少方法 |
US11418903B2 (en) | 2018-12-07 | 2022-08-16 | Creative Technology Ltd | Spatial repositioning of multiple audio streams |
US10966046B2 (en) * | 2018-12-07 | 2021-03-30 | Creative Technology Ltd | Spatial repositioning of multiple audio streams |
CN110611522B (zh) * | 2019-09-20 | 2021-05-04 | 广东石油化工学院 | 一种利用多正则优化理论的plc信号重构方法和系统 |
JP7461020B2 (ja) * | 2020-02-17 | 2024-04-03 | 株式会社オーディオテクニカ | 音声信号処理装置、音声信号処理システム、音声信号処理方法、およびプログラム |
JP7147804B2 (ja) * | 2020-03-25 | 2022-10-05 | カシオ計算機株式会社 | 効果付与装置、方法、およびプログラム |
JP2022094048A (ja) * | 2020-12-14 | 2022-06-24 | 国立大学法人東海国立大学機構 | 信号較正装置、信号較正方法およびプログラム |
CN113300992B (zh) * | 2021-05-25 | 2023-01-10 | Oppo广东移动通信有限公司 | 电子设备的滤波方法、滤波装置、存储介质及电子设备 |
CN113541648B (zh) * | 2021-07-01 | 2024-06-18 | 大连理工大学 | 一种基于频域滤波的优化方法 |
CN113659962B (zh) * | 2021-08-03 | 2024-07-23 | 青岛迈金智能科技有限公司 | 一种用于盘爪踏频计的自动参数优化的滤波系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2667508A2 (en) * | 2012-05-21 | 2013-11-27 | STMicroelectronics Inc | Method and apparatus for efficient frequency-domain implementation of time-varying filters |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19814971A1 (de) * | 1998-04-03 | 1999-10-07 | Daimlerchrysler Aerospace Ag | Verfahren zur Störbefreiung eines Mikrophonsignals |
JP3805929B2 (ja) * | 1999-07-05 | 2006-08-09 | パイオニア株式会社 | 情報記録装置及び情報記録方法 |
EP1314247B1 (en) * | 2000-08-21 | 2007-01-17 | Koninklijke Philips Electronics N.V. | Partitioned block frequency domain adaptive filter |
JP4199144B2 (ja) * | 2004-03-11 | 2008-12-17 | 株式会社東芝 | ウェイト関数生成装置、参照信号生成装置、送信信号生成装置、信号処理装置及びアンテナ装置 |
DE102006017280A1 (de) * | 2006-04-12 | 2007-10-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals |
US8036903B2 (en) | 2006-10-18 | 2011-10-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system |
CA2727415A1 (en) * | 2008-06-10 | 2009-12-17 | Uti Limited Partnership | Signal processing with fast s-transforms |
-
2014
- 2014-07-21 DE DE102014214143.5A patent/DE102014214143B4/de active Active
-
2015
- 2015-03-11 JP JP2016557289A patent/JP6423446B2/ja not_active Expired - Fee Related
- 2015-03-11 CN CN201580013788.2A patent/CN106465033B/zh active Active
- 2015-03-11 EP EP15709184.4A patent/EP3117631B1/de active Active
- 2015-03-11 WO PCT/EP2015/055094 patent/WO2015135999A1/de active Application Filing
-
2016
- 2016-09-14 US US15/264,756 patent/US10187741B2/en active Active
-
2017
- 2017-06-09 HK HK17105704.7A patent/HK1232367A1/zh unknown
-
2018
- 2018-02-14 US US15/896,293 patent/US10257640B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2667508A2 (en) * | 2012-05-21 | 2013-11-27 | STMicroelectronics Inc | Method and apparatus for efficient frequency-domain implementation of time-varying filters |
Also Published As
Publication number | Publication date |
---|---|
CN106465033A (zh) | 2017-02-22 |
DE102014214143B4 (de) | 2015-12-31 |
JP2017513052A (ja) | 2017-05-25 |
US20180199145A1 (en) | 2018-07-12 |
JP6423446B2 (ja) | 2018-11-14 |
EP3117631A1 (de) | 2017-01-18 |
WO2015135999A1 (de) | 2015-09-17 |
DE102014214143A1 (de) | 2015-09-17 |
US10187741B2 (en) | 2019-01-22 |
US20170048641A1 (en) | 2017-02-16 |
EP3117631B1 (de) | 2020-06-03 |
US10257640B2 (en) | 2019-04-09 |
HK1232367A1 (zh) | 2018-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106465033B (zh) | 用于处理频域中的信号的设备和方法 | |
US10469978B2 (en) | Audio signal processing method and device | |
JP5453222B2 (ja) | 複素変調フィルタバンクを用いた効率的なフィルタリング | |
EP4294055B1 (en) | Audio signal processing method and apparatus | |
RU2518696C2 (ru) | Аппаратный блок, способ и компьютерная программа для расширения сжатого аудио сигнала | |
JP6254142B2 (ja) | 周波数ドメインにおける遅延を使用しながら複数のラウドスピーカのためのラウドスピーカ信号を計算する装置及び方法 | |
KR20180075610A (ko) | 사운드 스테이지 향상을 위한 장치 및 방법 | |
WO2007110103A1 (en) | Generation of spatial downmixes from parametric representations of multi channel signals | |
JP2012512438A (ja) | 位相値平滑化を用いてダウンミックスオーディオ信号をアップミックスする装置、方法、およびコンピュータプログラム | |
WO2007080211A1 (en) | Decoding of binaural audio signals | |
CN112019993B (zh) | 用于音频处理的设备和方法 | |
EP3313089A1 (en) | System and method for handling digital content | |
JP2019047478A (ja) | 音響信号処理装置、音響信号処理方法および音響信号処理プログラム | |
EP3529803B1 (en) | Decoding and encoding apparatus and corresponding methods | |
JP7447798B2 (ja) | 信号処理装置および方法、並びにプログラム | |
JP2015525514A (ja) | 低レイテンシーかつ低複雑さの位相シフト・ネットワーク | |
JP2018537054A (ja) | 多重空間位置におけるオーディオチャネル間の位相差の低減 | |
Franck | Efficient frequency-domain filter crossfading for fast convolution with application to binaural synthesis | |
JP2016537866A (ja) | 複雑さの観点から最適化された、空間効果を伴う音響空間化 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230224 Address after: German Il Merl Nao Patentee after: Brandenburg Laboratories, Inc. Address before: Munich, Germany Patentee before: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V. |