具体实施方式
在提供本发明的实施方式的详细描述之前,描述一种用于产生虚拟麦克风的音频输出信号的装置,以提供关于本发明的概念的背景信息。
图12示出用于产生音频输出信号以仿真在环境中的可配置虚拟位置posVmic处的麦克风的记录的装置。此装置包含声音事件位置估计器110及信息计算模块120。声音事件位置估计器110接收来自第一真实空间麦克风的第一方向信息di1及来自第二真实空间麦克风的第二方向信息di2。声音事件位置估计器110适于估计表明环境中发出声波的声源的位置的声源位置ssp,其中声音事件位置估计器110适于根据由位于环境中第一真实麦克风位置pos1mic的第一真实空间麦克风提供的第一方向信息di1,及根据由位于环境中第二真实麦克风位置的第二真实空间麦克风提供的第二方向信息di2,估计声源位置ssp。信息计算模块120适于根据由第一真实空间麦克风记录的第一记录音频输入信号is1、根据第一真实麦克风位置pos1mic及根据虚拟麦克风的虚拟位置posVmic,产生音频输出信号。信息计算模块120包含传播补偿器,该传播补偿器适于通过调整第一记录音频输入信号is1的振幅值、量值或相位值,来通过补偿由第一真实空间麦克风处的声源发出的声波的抵达与虚拟麦克风处的声波的抵达之间的第一延迟或振幅衰减,来通过修改第一记录音频输入信号is1,产生第一经修改音频信号。
图13示出根据一实施方式的装置及方法的输入及输出。将来自两个或更多真实空间麦克风111、112、...、11N的信息馈至装置/通过所述方法处理。该信息包含由真实空间麦克风拾取的音频信号以及来自真实空间麦克风的方向信息,例如抵达方向(DOA)估值。可以在时频域中表达音频信号及诸如抵达方向估值的方向信息。例如,若期望2D几何重建且选择传统短时间傅立叶转换(STFT)域用于信号的表示,则DOA可表示为依赖于k及n(即频率和时间索引)的方位角。
在一些实施方式中,可根据常见坐标系统中真实及虚空间麦克风的位置及方位,来实施空间中声音事件定位,以及虚拟麦克风的位置的描述。可以第13图中输入121...12N及输入104来表示该信息。如下文将论述,输入104可额外说明虚空间麦克风的特征,例如,该虚空间麦克风的位置及拾取模式。若虚空间麦克风包含多个虚拟传感器,则可考虑这些虚拟传感器的位置及相应不同拾取模式。
当期望时,装置或相应方法的输出可为可通过按照由104说明进行定义及放置的空间麦克风拾取的一个或多个声音信号105。另外,此装置(或者说方法)可提供可通过使用虚空间麦克风估计的相应空间边信息106作为输出。
图14示出根据一实施方式的装置,该装置包含两个主处理单元:声音事件位置估计器201及信息计算模块202。声音事件位置估计器201可根据输入111...11N中包含的DOA及根据对计算DOA的真实空间麦克风的位置及方位的认识,来执行几何重建。声音事件位置估计器的输出205包含声源的位置估值(在2D或3D中),其中每个时频点发生声音事件。第二处理块202为信息计算模块。根据图14的实施方式,第二处理块202计算虚拟麦克风信号及空间边信息。因此,该第二处理块202亦称为虚拟麦克风信号及边信息计算块202。虚拟麦克风信号及边信息计算块202使用声音事件的位置205,来处理111…11N中包含的音频信号,以输出虚拟麦克风音频信号105。若需要,块202亦可计算对应于虚空间麦克风的空间边信息106。以下一些实施方式示出块201及202可如何操作的可能性。
在下文中,更详细地描述根据一实施方式的声音事件位置估计器的位置估计。
取决于问题的维数(2D或3D)及空间麦克风的数量,可以有若干位置估计方案。
若在2D中存在两个空间麦克风,则(最简单可能的情况)可以进行简单三角测量(triangulation)。图15示出真实空间麦克风描绘为各3个麦克风的均匀线性阵列(ULA)的示例性情境。计算时频点(k,n)的表示为方位角al(k,n)及a2(k,n)的DOA。这通过使用适当DOA估计器来实现,例如ESPRIT,
[13]R.Roy,A.Paulraj,and T.Kailath,“Direction-of-arrival estimationby subspace rotation methods–ESPRIT,”in IEEE International Conferenceon Acoustics,Speech,and Signal Processing(ICASSP),Stanford,CA,USA,April1986,
或(root)MUSIC,参见
[14]R.Schmidt,“Multiple emitter location and signal parameterestimation,”IEEE Transactions on Antennas and Propagation,vol.34,no.3,pp.276-280,1986
至转变成为时频域的压力信号。
在图15中,示出两个真实空间麦克风,此处为两个真实空间麦克风阵列410、420。通过两条线表示两个估计DOA al(k,n)及a2(k,n),第一线430表示DOA al(k,n),而第二线440表示DOA a2(k,n)。经由简单的几何考虑了解的每个阵列的位置及方位,三角测量是可能的。
当两条线430、440完全平行时,三角测量失败。然而,在实际应用中,此状况不太可能。然而,并非所有三角测量结果对应于所考虑空间中声音事件的物理位置或可行位置。举例而言,声音事件的估计位置可离假设空间非常远或甚至位于假设空间外,表明DOA可能不对应于能用所使用的模型物理地解释的任何声音事件。可能由传感器噪声或非常强的房间交混回响造成这些结果。因此,根据一实施方式,标记这些不期望结果,以使得信息计算模块202可适当地处理这些结果。
图16示出在3D空间中估计声音事件的位置的情境。使用了适当空间麦克风,例如,平面或3D麦克风阵列。在图16中,示出第一空间麦克风510(例如,第一3D麦克风阵列),及第二空间麦克风520(例如,第一3D麦克风阵列)。3D空间中的DOA可例如,表示为方位角及仰角。可使用单位向量530、540来表示DOA。根据DOA投影两条线550、560。在3D中,即使有非常可靠估值,根据DOA所投影的两条线550、560也不可能相交。然而,例如,可通过选择连接两条线的最小线段的中点来仍执行三角测量。
类似于2D的情况,三角测量可能失败或可能产生某些方向组合的不可行结果,然后可亦将这些不可行结果标记至例如图14的信息计算模块202。
若存在多于两个空间麦克风,则可以有若干方案。举例而言,可对所有真实空间麦克风对(若N=3,则1与2,1与3,及2与3)执行以上所阐释的三角测量。然后可将所得位置平均(沿x及y,以及若考虑到3D,z)。
或者,可使用更复杂的概念。举例而言,可应用机率方法,如下文中所描述:
[15]J.Michael Steele,“Optimal Triangulation of Random Samples in thePlane”,The Annals of Probability,Vol.10,No.3(Aug.,1982),pp.548-553.
根据一实施方式,可以例如,经由短时间傅立叶转换(STFT)所获得的时频域分析声场,其中k及n分别表示频率索引k及时间索引n。某一k及n的任意位置pv处的复合压力Pv(k,n)通过例如使用以下公式建模为由窄带各向同性点状源发出的单个球面波:
Pv(k,n)=PIPLS(k,n)·γ(k,pIPLS(k,n),pv), (1)
其中PIPLS(k,n)为由IPLS在该IPLS的位置pIPLS(k,n)处发出的信号。复合因子γ(k,pIPLS,pv)表示从pIPLS(k,n)至pv的传播,例如,该复合因子γ引入合适相位及量值修改。此处,可应用假设:在每个时频点中仅一个IPLS为有效的。然而,在单一时间实体(single time instance)处,位于不同位置的多个窄带IPLS也可为有效的。
每个IPLS建模直接声音或清楚的房间反射。该IPLS的位置pIPLS(k,n)可理想地分别对应于位于房间内部的实际声源,或位于外面的镜像声源。因此,位置pIPLS(k,n)亦可表明声音事件的位置。
请注意,术语“真实声源”表示物理存在于记录环境中的实际声源,诸如通话器或乐器。相反,我们使用“声源”或“声音事件”或“IPLS”指有效声源,这些有效声源在某些时刻或在某些时频点为有效的,其中声源可表示例如真实声源或镜像源。
图28A至图28B示出定位声源的麦克风阵列。定位声源可取决于这些定位声源的性质具有不同的物理解释。当麦克风阵列接收直接声音时,这些麦克风阵列能够定位正确声源(例如,通话器)的位置。当麦克风阵列接收反射时,这些麦克风阵列可定位镜像源的位置。镜像源亦为声源。
图28A示出两个麦克风阵列151及152接收来自实际声源(物理存在声源)153的直接声音的情境。
图28B示出两个麦克风阵列161、162接收反射声音的情境,其中声音由墙反射。由于反射,麦克风阵列161、162将看起来声音来自该处的位置定位在镜像源165的位置,该位置不同于话筒163的位置。
图28A的实际声源153以及镜像源165两者均为声源。
图28C示出两个麦克风阵列171、172接收扩散声音且不能够定位声源的情境。
在源信号满足W分离正交性(WDO)条件的情况下,亦即,时频重迭足够小,而该单波模型只有在柔和交混回响环境中为准确的。这对于语音信号通常为正确的,参见,例如,
[12]S.Rickard and Z.Yilmaz,“On the approximate W-disjointorthogonality of speech,”in Acoustics,Speech and Signal Processing,2002.ICASSP2002.IEEE International Conference on,April2002,vol.1.
然而,此模型亦提供对于其它环境的良好估值且因此也适用于那些环境。
在下文中,阐释了根据一实施方式的位置pIPLS(k,n)的估计。有效IPLS的位置pIPLS(k,n)处于某一时频点,且因此,经由根据在至少两个不同观测点测量的声音的抵达方向(DOA)的三角测量来估计时频点中声音事件的估值。
图17示出几何排列(geometry),其中当前时频槽(time-frequency slot)(k,n)的IPLS被定位于未知位置p
IPLS(k,n)。为决定所需DOA信息,使用具有已知几何、位置及方位的两个真实空间麦克风,此处为两个麦克风阵列,该两个真实空间麦克风分别放置在位置610及620。向量p
1及p
2分别指向位置610、620。通过单位向量c
1及c
2定义阵列方位。对于每个(k,n),使用例如,如由DirAC分析(参见[2]、[3])所提供的DOA估值算法,来决定位置610及620中声音的DOA。由此,可提供关于麦克风阵列的视点的第一视点单位向量
及第二视点单位向量
(两者在图17中均未示出)作为DirAC分析的输出。举例而言,当在2D中操作时,第一视点单位向量得到:
如图17中所示,此处,
表示第一麦克风阵列处估计的DOA的方位角。当在2D中操作且c
1=[c
1,x,c
1,y]
T时,可通过应用以下公式计算关于原点处的整体坐标系统的相应DOA单位向量e
1(k,n)及e
2(k,n),该公式如下:
其中R为坐标变换矩阵,例如,
为执行三角测量,方向向量d1(k,n)及d2(k,n)可计算为:
d1(k,n)=d1(k,n)e1(k,n),
d2(k,n)=d2(k,n)e2(k,n), (5)
其中,d1(k,n)=||d1(k,n)||及d2(k,n)=||d2(k,n)||为IPLS与两个麦克风阵列之间的未知距离。以下等式
p1+d1(k,n)=p2+d2(k,n) (6)
可求出d1(k,n)。最后,IPLS的位置pIPLS(k,n)由以下等式获得:
pIPLS(k,n)=d1(k,n)e1(k,n)+p1. (7)
在另一实施方式中,等式(6)可求出d2(k,n)且使用d2(k,n)类似地计算pIPLS(k,n)。
除非e1(k,n)与e2(k,n)平行,否则等式(6)总是提供当在2D中操作时的方案。然而,当使用多于两个麦克风阵列或当在3D中操作时,当方向向量d不相交时,方案不可获得。根据一实施方式,在此情况下,计算出最靠近所有方向向量d的点且该结果可用作IPLS的位置。
在一实施方式中,所有观测点p1、p2…应被定位为使得由IPLS发出的声音落入相同时间块n。当观测点中的任何两者之间的距离Δ小于
时,可简单地满足该要求,其中nFFT为STFT时窗长度,0≦R<1指定连续时间帧之间的重迭且fs为取样频率。举例而言,对于48kHz、具有50%重迭(R=0.5)的1024点STFT,满足上述要求的阵列之间的最大间隔为Δ=3.65m。
在下文中,更详细地描述根据一实施方式的信息计算模块202,例如,虚拟麦克风信号及边信息计算模块。
图18示出根据一实施方式的信息计算模块202的示意性总览。信息计算单元包含传播补偿器500、组合器510及频谱加权单元520。信息计算模块202接收由声音事件位置估计器所估计的声源位置估值ssp,通过真实空间麦克风中的一个或多个、真实空间麦克风中的一个或多个的位置posRealMic,及虚拟麦克风的虚拟位置posVmic,来记录一个或多个音频输入信号。该信息计算模块202输出表示虚拟麦克风的音频信号的音频输出信号os。
图19示出根据另一实施方式的信息计算模块。图19图的信息计算模块包含传播补偿器500、组合器510及频谱加权单元520。传播补偿器500包含传播参数计算模块501及传播补偿模块504。组合器510包含组合因子计算模块502及组合模块505。频谱加权单元520包含频谱加权计算单元503、频谱加权应用模块506及空间边信息计算模块507。
为计算虚拟麦克风的音频信号,将几何信息,例如,真实空间麦克风121...12N的位置及方位、虚空间麦克风的位置、方位及特征104,及声音事件的位置估值205馈至信息计算模块202中,特别地,馈至传播补偿器500的传播参数计算模块501中、馈至组合器510的组合因子计算模块502中及馈至频谱加权单元520的频谱加权计算单元503中。传播参数计算模块501、组合因子计算模块502及频谱加权计算单元503计算在传播补偿模块504、组合模块505及频谱加权应用模块506的音频信号111...11N的修改中所使用的参数。
在信息计算模块202中,可首先修改音频信号111...11N,以补偿由声音事件位置与真实空间麦克风之间的不同传播长度造成的效果。然后可将信号组合以改良,例如,信杂比(SNR)。最后,然后可光谱地加权所得信号,以将虚拟麦克风的定向拾取模式,以及任何距离依赖增益函数纳入考虑。下文更详细地论述该三个步骤。
现更详细地阐释传播补偿。在图20的上部部分中,示出出两个真实空间麦克风(第一麦克风阵列910及第二麦克风阵列920)、时频点(k,n)的定位声音事件930的位置、及虚空间麦克风940的位置。
图20的下部部分描绘时间轴。假设声音事件在时间t0处发出,然后传播至真实及虚空间麦克风。抵达时间延迟以及振幅随距离而改变,使得传播长度越远,振幅越弱且抵达时间延迟越长。
只有当两个真实阵列之间的相对延迟Dt12小时,该两个真实阵列的信号才为可比较的。否则,两个信号中的一个必须短暂地重新对准以补偿相对延迟Dt12,且可能需要按比例调整以补偿不同衰减。
补偿虚拟麦克风处的抵达与真实麦克风阵列(真实空间麦克风中的一者)处的抵达之间的延迟,改变独立于声音事件的定位的延迟,进而使得对于大多数应用,该补偿为多余的。
回到图19,传播参数计算模块501适于计算各真实空间麦克风及各声音事件的待校正的延迟。若期望,则该传播参数计算模块501也计算待考虑补偿不同振幅衰减的增益因子。
传播补偿模块504被配置为使用该信息来据此修改音频信号。若欲将信号移位少量时间(与滤波器组的时窗相比),则简单的相位旋转足够。若延迟较大,则需要更复杂地实施。
传播补偿模块504的输出为在初始时频域中表达的修改音频信号。
在下文中,将参照图17描述根据一实施方式的虚拟麦克风的传播补偿的特定估计,图17特别示出第一真实空间麦克风的位置610及第二真实空间麦克风的位置620。
在现在阐释的实施方式中,假设至少一个第一记录音频输入信号,例如,真实空间麦克风(例如,麦克风阵列)中的至少一个的压力信号是可获得的,例如,第一真实空间麦克风的压力信号。我们将把所考虑麦克风称为参考麦克风,把该麦克风的位置称为参考位置pref且把该麦克风的压力信号称为参考压力信号Pref(k,n)。然而,传播补偿不仅可关于仅一个压力信号进行,而且可关于多个或所有真实空间麦克风的压力信号进行。
由IPLS发出的压力信号PIPLS(k,n)与位于Pref的参考麦克风的参考压力信号Pref(k,n)之间的关系可以公式(9)表达:
Pref(k,n)=PIPLS(k,n)·γ(k,pIPLS,pref), (9)
通常,复合因子γ(k,pa,pb)表示由从pa中球面波的原点至pb的球面波的传播引入的相位旋转及振幅衰减。然而,实践测试表明,与还考虑到相位旋转相比,仅考虑到γ中的振幅衰减导致虚拟麦克风信号具有明显较少非自然信号的看似可信的印象。
可在空间中的某一点处测量的声能强烈依赖于距声源(在图6中距声源的位置pIPLS)的距离r。在许多情况下,可以足够准确度使用熟知物理原理建模该依赖性,例如,在点源的远场中的声压的1/r衰减。当参考麦克风,例如,第一真实麦克风,距声源的距离已知时,且当虚拟麦克风距声源的距离亦已知时,则可由参考麦克风(例如第一真实空间麦克风)的信号及能量来估计虚拟麦克风的位置处的声能。这意味着可通过将适当增益施加至参考压力信号来获得虚拟麦克风的输出信号。
假设第一真实空间麦克风为参考麦克风,则pref=p1。在图17中,虚拟麦克风位于pv。由于详细已知的图17中的几何排列,故可易于决定参考麦克风(图17:第一真实空间麦克风)与IPLS之间的距离d1(k,n)=||d1(k,n)||,以及虚拟麦克风与IPLS之间的距离s(k,n)=||s(k,n)||,即
s(k,n)=||s(k,n)||=||p1+d1(k,n)-pv||. (10)
通过将公式(1)及(9)组合,计算虚拟麦克风的位置处的声压Pv(k,n),产生
如上所述,在一些实施方式中,因子γ可仅考虑由于传播造成的振幅衰减。假设,例如,声压以1/r减小,则:
当公式(1)中的模型保持时,例如,当仅存在直接声音时,则公式(12)可准确地重建量信息。然而,在纯扩散声场的情况下,例如,当不满足模型假设时,当将虚拟麦克风移动远离传感器阵列的位置时,所提供方法产生信号的隐性去交混回响。实际上,如以上所论述,在扩散声场中,我们预期大多数IPLS被定位接近两个传感器阵列。因此,当将虚拟麦克风移动远离这些位置时,我们可能增加图17中的距离s=||s||。因此,当根据公式(11)应用加权时,参考压力的量值减少。相应地,当将虚拟麦克风移动接近于实际声源时,将放大对应于直接声音的时频点,以使得将较少扩散地感知全部音频信号。通过调整公式(12)中的规则,可随意控制直接声音放大及扩散声音抑制。
通过进行第一真实空间麦克风的记录音频输入信号(例如,压力信号)的传播补偿,获得第一经修改音频信号。
在一些实施方式中,可通过进行第二真实空间麦克风的记录第二音频输入信号(第二压力信号)的传播补偿,获得第二经修改音频信号。
在其它实施方式中,可通过进行另外真实空间麦克风的记录的另外的音频输入信号(另外的压力信号)的传播补偿,获得另外的音频信号。
现更详细地阐释根据一实施方式的图19图中块502与505的组合。假设已修改来自多个不同真实空间麦克风的两个或更多音频信号来补偿不同传播路径,以获得两个或更多经修改音频信号。一旦已修改来自不同真实空间麦克风的音频信号,以补偿不同传播路径,则可将这些音频信号组合以改良音频质量。通过如此做,例如,可增加SNR或可减少交混回响感。
组合的可能方案包含:
-加权平均,例如,考虑SNR,或至虚拟麦克风的距离,或由真实空间麦克风估计的扩散度。传统方案,例如,可使用最大比值组合(MRC)或均等增益组合(EQC),或
-线性组合一些或所有修改音频信号,以获得组合信号。修改音频信号可以线性组合加权,以获得组合信号,或
-选择,例如,取决于例如SNR或距离或扩散度,仅使用一个信号。
模块502的任务为,在适用的情况下,计算用于在模块505中执行的组合的参数。
现更详细地描述根据一些实施方式的频谱加权。为此,参照了图19图的块503及506。在该最后步骤处,根据如由输入104所指定的虚空间麦克风的空间特征和/或根据重建几何排列(在205中给出),将由组合或由输入音频信号的传播补偿所得的音频信号以时频域加权。
如图21所示,对于每个时频点,几何再建允许我们易于获得相关于虚拟麦克风的DOA。另外,亦可易于计算虚拟麦克风与声音事件的位置之间的距离。
然后考虑期望虚拟麦克风的类型,计算时频点的加权。
在定向麦克风的情况下,可根据预定拾取模式计算频谱加权。举例而言,根据一实施方式,心形麦克风可具有由函数g(theta)定义的拾取模式,
g(theta)=0.5+0.5cos(theta),
其中theta为虚空间麦克风的查看方向(look direction)与来自虚拟麦克风的视点的声音的DOA之间的角度。
另一可能性为艺术(非物理)衰减函数。在某些应用中,可期望抑制声音事件远离具有因子大于表征自由场传播的因子的虚拟麦克风。为达此目的,一些实施方式引入依赖于虚拟麦克风与声音事件之间的距离的额外加权函数。在一实施方式中,仅应拾取距虚拟麦克风某一距离(例如,以米计)内的声音事件。
关于虚拟麦克风定向,虚拟麦克风可应用任意定向模式。如此做时,可将源与复合声音场景分开。
由于可以虚拟麦克风的位置pv计算声音的DOA,即
其中cv为描述虚拟麦克风的方位的单位向量,可实现虚拟麦克风的任意定向。举例而言,假设Pv(k,n)表明组合信号或传播补偿的经修改音频信号,则公式:
计算具有心形定向的虚拟麦克风的输出。可潜在地以此方式产生的定向模式依赖于位置估计的准确度。
在一些实施方式中,除真实空间麦克风外,将一个或多个真实、非空间麦克风,例如,全向麦克风或诸如心形的定向麦克风,放置在声音场景中,以进一步改良图8中虚拟麦克风信号105的声音质量。这些麦克风不用以收集任何几何信息,而是仅用以提供更平整的音频信号。可放置这些麦克风比空间麦克风更接近声源。在此情况下,根据一实施方式,将真实、非空间麦克风的音频信号及这些麦克风的位置,而非真实空间麦克风的音频信号,简单地馈至图19图的传播补偿模块504,进行处理。然后关于一个或多个非空间麦克风的位置,进行非空间麦克风的一个或多个记录音频信号的传播补偿。通过此举,使用额外非空间麦克风实现一实施方式。
在另一实施方式中,实现了虚拟麦克风的空间边信息的计算。为计算麦克风的空间边信息106,图19图的信息计算模块202包含空间边信息计算模块507,该空间边信息计算模块507适于接收声源的位置205及虚拟麦克风的位置、方位及特征104作为输入。在某些实施方式中,根据需要计算的边信息106,亦可将虚拟麦克风的音频信号105作为至空间边信息计算模块507的输入纳入考虑。
空间边信息计算模块507的输出为虚拟麦克风的边信息106。该边信息可为,例如,来自虚拟麦克风的视点的每个时频点(k,n)的声音的DOA或扩散度。另一可能边信息可,例如,为已在虚拟麦克风的位置测量的有效声音强度向量Ia(k,n)。现将描述如何导出这些参数。
根据一实施方式,实现了虚空间麦克风的DOA估计。如图22所示,信息计算模块120适于根据虚拟麦克风位置向量及根据声音事件位置向量,估计虚拟麦克风处的抵达方向作为空间边信息。
图22示出从虚拟麦克风的视点导出声音的DOA的可能方式。可使用位置向量r(k,n),即声音事件位置向量来描述每个时频点(k,n)的由图19图中块205所提供的声音事件的位置。类似地,可使用位置向量s(k,n),即虚拟麦克风位置向量,来描述图19图中作为输入104所提供的虚拟麦克风的位置。可通过向量v(k,n)描述虚拟麦克风的查看方向。通过a(k,n)给出关于虚拟麦克风的DOA。a(k,n)表示v与声音传播路径h(k,n)之间的角度。可通过使用以下公式计算h(k,n):
h(k,n)=s(k,n)-r(k,n)。
现可计算各(k,n)的期望DOA a(k,n),例如,经由h(k,n)及v(k,n)的点积的定义,即
a(k,n)=arcos(h(k,n)·v(k,n)/(||h(k,n)||||v(k,n)||)。
如图22图所示,在另一实施方式中,信息计算模块120可适于根据虚拟麦克风位置向量及根据声音事件位置向量,估计虚拟麦克风处的有效声音强度作为空间边信息。
由以上所定义的DOA a(k,n),我们可导出虚拟麦克风的位置处的有效声音强度Ia(k,n)。为此,假设图19中虚拟麦克风音频信号105对应于全向麦克风的输出,例如,我们假设,虚拟麦克风为全向麦克风。另外,假设图22中的查看方向v平行于坐标系统的x轴。由于期望有效声音强度向量Ia(k,n)描述经由虚拟麦克风的位置的能量的净流量,故我们可计算Ia(k,n),例如,根据以下公式:
Ia(k,n)=-(1/2rho)|Pv(k,n)|2*[cos a(k,n),sin a(k,n)]T,
其中,[]T表示转置向量,rho为空气密度,且Pv(k,n)为由虚空间麦克风,例如,图19中块506的输出105所测量的声压。
若要计算以一般坐标系统表示,但仍处于虚拟麦克风的位置处的有效强度向量,则可应用以下公式:
Ia(k,n)=(1/2rho)|Pv(k,n)|2h(k,n)/||h(k,n)||。
声音的扩散度表示在给定时频槽中,声场扩散如何(参见,例如[2])。以值ψ表示扩散度,其中0≦ψ≦1。扩散度1表明声场的总声场能量完全扩散。例如,在空间声音的再生中,该信息极其重要。传统地,在放置麦克风阵列的空间中的特定点处计算扩散度。
根据一实施方式,可将扩散度作为可随意放置在声音场景中任意位置处的虚拟麦克风(VM)的所产生边信息的附加参数来计算。通过此举,由于可产生DirAC流,即声音场景中任意点处的音频信号、抵达方向及扩散度,故除计算虚拟麦克风的虚拟位置处的音频信号外,亦计算扩散度的装置可视为虚拟DirAC前端。可在任意多扬声器配置上进一步处理、存储、传输、及回放DirAC流。在此情况下,收听者体验声音场景,犹如他或她在由虚拟麦克风指定的位置且以由虚拟麦克风的方位决定的方向查看。
图23示出根据一实施方式的信息计算块,包含用于计算虚拟麦克风处的扩散度的扩散度计算单元801。信息计算块202适于接收除图14的输入外,亦包括真实空间麦克风处的扩散度的输入111至11N。令ψ(SM1)至ψ(SMN)表示这些值。这些额外输入馈至信息计算模块202。扩散度计算单元801的输出103为在虚拟麦克风的位置处计算的扩散度参数。
在描绘更多细节的图24中示出出一实施方式的扩散度计算单元801。根据一实施方式,估计了N个空间麦克风中的每一个处的直接及扩散声音的能量。然后,使用IPLS的位置处的信息、及空间和虚拟麦克风的位置处的信息,获得虚拟麦克风的位置处的这些能量的N个估值。最后,可将估值组合以改良估计准确度且可易于计算虚拟麦克风处的扩散度参数。
令
至
及
至
表示由能量分析单元810计算的N个空间麦克风的直接及扩散声音的能量的估值。若P
i为复合压力信号且ψ
i为第i空间麦克风的扩散度,则可例如根据以下公式计算能量:
在所有位置,扩散声音的能量应相等,因此,虚拟麦克风处的扩散声音能量的估值
可例如在扩散度组合单元820中,例如,根据以下公式简单地通过将
至
平均来计算:
可通过考虑估计器的差异,例如,通过考虑SNR,来执行估值
至
的更有效组合。
由于传播,直接声音的能量依赖于至源的距离。因此,可修改
至
以将此纳入考虑。这可例如通过直接声音传播调整单元830来执行。举例而言,若假设直接声场的能量随距离平方衰减1,则可根据以下公式计算第i空间麦克风的虚拟麦克风处的直接声音的估值:
类似于扩散度组合单元820,可例如通过直接声音组合单元840将在不同空间麦克风处所获得的直接声能的估值组合。结果为
例如,在虚拟麦克风处的直接声能的估值。可例如通过扩散度子计算器850,例如根据以下公式计算虚拟麦克风处的扩散度ψ
(VM):
如上所述,在一些情况下,声音事件位置估计器来执行的声音事件位置估计失败,例如,在错误的抵达方向估计的情况下。图25示出该情境。在这些情况下,不管在不同空间麦克风处所估计的扩散度参数且由于接收作为输入111至11N,由于不可能有空间连贯再生,虚拟麦克风的扩散度103可设置为1(亦即,完全扩散)。
另外,可考虑在N个空间麦克风处的DOA估值的可靠性。这可例如按照DOA估计器的差异或SNR来表示。可由扩散度子计算器850将该信息纳入考虑,以便在DOA估值不可靠的情况下,可人为地增加VM扩散度103。实际上,因此,位置估值205亦将是不可靠的。
图1示出根据一实施方式的用于根据包含与一个或多个声源相关的音频数据的音频数据流,产生至少一个音频输出信号的装置150。
装置150包含用于接收包含音频数据的音频数据流的接收器160。音频数据包含一个或多个所述声源中的各个声源的一个或多个压力值。另外,音频数据包含表明所述声源中的各个声源的其中一个声源的位置的一个或多个位置值。另外,此装置包含合成模块170,该合成模块170用于根据音频数据流的音频数据的一个或多个压力值中的至少一个及根据音频数据流的音频数据的一个或多个位置值中的至少一个,产生至少一个音频输出信号。针对多个时频点中一个时频点定义音频数据。对于所述声源中的各个声源,至少一个压力值包含在音频数据中,其中至少一个压力值可为关于例如,源自声源的所发出声波的压力值。压力值可为音频信号的值,例如,由用于产生虚拟麦克风的音频输出信号的装置产生的音频输出信号的压力值,其中虚拟麦克风放置在声源的位置。
因此,图1示出可使用于接收或处理所提及音频数据流的装置150,亦即,可在接收器/合成侧使用的装置150。音频数据流包含音频数据,该音频数据包含多个所述声源中的各个声源的一个或多个压力值及一个或多个位置值,亦即,关于记录的音频场景的一个或多个声源的特定声源的压力值及位置值中的各个位置值。这意味着位置值表明声源而非记录麦克风的位置。关于压力值,这意味着音频数据流包含所述声源中的各个声源的一个或多个压力值,亦即,压力值表明关于声源而非关于真实空间麦克风的记录的音频信号。
根据一实施方式,接收器160可适于接收包含音频数据的音频数据流,其中音频数据进一步包含所述声源中的各个声源的一个或多个扩散度值。合成模块170可适于根据一个或多个扩散度值中的至少一个,产生至少一个音频输出信号。
图2示出根据一实施方式的用于产生包含关于一个或多个声源的声源数据的音频数据流的装置200。用于产生音频数据流的装置200包含决定器210,该决定器210用于根据由至少一个空间麦克风记录的至少一个音频输入信号及根据由至少两个空间麦克风提供的音频边信息,来决定声源数据。另外,装置200包含用于产生音频数据流,以使得音频数据流包含声源数据的数据流产生器220。声源数据包含所述声源中的各个声源的一个或多个压力值。另外,声源数据进一步包含表明所述声源中的各个声源的声源位置的一个或多个位置值。另外,针对多个时频点中的一个时频点定义声源数据。
然后可传输由装置200产生的音频数据流。因此,可在分析/发射器侧使用装置200。音频数据流包含音频数据,该音频数据包含多个所述声源中的各个声源的一个或多个压力值及一个或多个位置值,亦即,关于记录的音频场景的一个或多个声源的特定声源的压力值及位置值中的各个位置值。这意味着关于位置值,位置值表明声源而非记录麦克风的位置。
在另一实施方式中,决定器210可适于根据扩散度信息,通过至少一个空间麦克风决定声源数据。数据流产生器220可适于产生音频数据流,以使得音频数据流包含声源数据。声源数据进一步包含所述声源中的各个声源的一个或多个扩散度值。
图3A示出根据一实施方式的音频数据流。音频数据流包含关于在一时频点为有效的两个声源的音频数据。特别地,第3a示出时频点(k,n)的音频数据传输,其中k表示频率索引(frequency index)且n表示时间索引(time index)。音频数据包含第一声源的压力值P1、位置值Q1及扩散度值ψ1。位置值Q1包含表明第一声源的位置的三个坐标值X1、Y1及Z1。另外,音频数据包含第二声源的压力值P2、位置值Q2及扩散度值ψ2。位置值Q2包含表明第二声源的位置的三个坐标值X2、Y2及Z2。
图3B示出根据另一实施方式的音频流。而且,音频数据包含第一声源的压力值P1、位置值Q1及扩散度值ψ1。位置值Q1包含表明第一声源的位置的三个坐标值X1、Y1及Z1。另外,音频数据包含第二声源的压力值P2、位置值Q2及扩散度值ψ2。位置值Q2包含表明第二声源的位置的三个坐标值X2、Y2及Z2。
图3C提供音频数据流的另一图示。由于音频数据流提供以几何为基础的空间音频编码(GAC)信息,故该音频数据流亦称为“以几何为基础的空间音频编码流”或“GAC流”。音频数据流包含关于一个或多个声源(例如一个或多个各向同性点状源(IPLS))的信息。如以上已阐释的,GAC流可包含以下信号,其中k及n表示所考虑时频点的频率索引及时间索引:
·P(k,n):声源(例如,IPLS)处的复合压力。该信号可包含直接声音(源自IPLS自身的声音)及扩散声音。
·Q(k,n):声源(例如,IPLS)的位置(例如,3D中笛卡儿坐标):例如,位置可包含笛卡儿坐标X(k,n)、Y(k,n)、Z(k,n)。
·IPLS处的扩散度:ψ(k,n)。该参数与P(k,n)中包含的直接扩散声音的功率比有关。若P(k,n)=Pdir(k,n)+Pdiff(k,n),则表示扩散度的一可能性为ψ(k,n)=|Pdiff(k,n)|2/|P(k,n)|2。若已知|P(k,n)|2,则可得其它等效表示,例如,直接扩散比(DDR)Γ=|Pdir(k,n)|2/|Pdiff(k,n)|2。
如前所述,k及n分别表示频率索引及时间索引。如果期望并且如果分析允许,可在给定时频槽表示多于一个IPLS。此在图3C中描绘为M多层,以便使用Pi(k,n)表示第i层(亦即,第i IPLS)的压力信号。为方便起见,IPLS的位置可表示为向量Qi(k,n)=[Xi(k,n),Yi(k,n),Zi(k,n)]T。不同于目前技术水平,将GAC流的所有参数关于一个或多个声源,例如,关于IPLS来表示,因此实现了独立于记录位置。在图3C中,以及在图3A及图3B中,所有图中的量在时频域中考虑;为简单起见,省略(k,n)标注,例如,Pi是指Pi(k,n),例如Pi=Pi(k,n)。
在下文中,更详细地阐释根据一实施方式的用于产生音频数据流的装置。如图2的装置一样,图4的装置包含决定器210及可类似于决定器210的数据流产生器220。由于决定器分析音频输入数据,以决定声源数据,数据流产生器根据该声源数据产生音频数据流,故决定器及数据流产生器可共同称为“分析模块”(参见图4的分析模块410)。
分析模块410计算来自N个空间麦克风的记录的GAC流。取决于期望层的数量M(例如,声源的数量,其中对于特定时频点,信息应包含在音频数据流中),可想到空间麦克风的类型及数量N、用于分析的不同方法。在下文给出几个实例。
作为第一实例,考虑每一个时频槽一个声源(例如一个IPLS)的进行参数估计。在M=1的情况下,可使用对于用于产生虚拟麦克风的音频输出信号的装置的以上阐释的概念易于获得GAC流,其中虚空间麦克风可放置在声源的位置,例如,IPLS的位置。此允许计算IPLS的位置处的压力信号,以及相应位置估值,且可计算扩散度。该三个参数在GAC流中分在一组且可在传输或存储之前,通过图8中模块102进一步操控。
举例而言,决定器可通过使用对于用于产生虚拟麦克风的音频输出信号的装置的声音事件位置估计所提出的概念,决定声源的位置。另外,决定器可包含用于产生音频输出信号的装置且可使用声源的决定位置作为虚拟麦克风的位置,以计算声源的位置处的压力值(例如,待产生的音频输出信号的值)及扩散度。
特别地,决定器210(例如,在图4中)被配置为决定压力信号、相应位置估值及相应扩散度,而数据流产生器220被配置为根据所计算的压力信号、位置估值及扩散度,产生音频数据流。
作为另一实例,考虑每个时频槽2个声源(例如2个IPLS)地进行参数估计。若分析模块410估计两个声源每时频点,则可使用以下基于现有估计器的概念。
图5示出由两个声源及两个均匀线性麦克风阵列组成的声音场景。参照ESPRIT,参见
[26]R.Roy and T.Kailath.ESPRIT-estimation of signal parameters viarotational invariance techniques.Acoustics,Speech and Signal Processing,IEEE Transactions on,37(7):984–995,July1989.
可在各阵列处分开使用ESPRIT([26]),以获得各阵列处各时频点的两个DOA估值。由于配对不确定性(pairing ambiguity),这导致源的位置的两个可能方案。由图5可见,通过(1,2)及(1’,2’)给出两个可能方案。为解决该不确定性,可应用以下方案。通过使用以所估计源位置的方向定向的波束形成器并应用适当因子以补偿传播(例如,乘以波所经受的衰减的倒数),来估计各源处发出的信号。对于每个可能方案,各阵列处的各源可执行此估计。我们则可将源的各对(i,j)的估测误差定义为:
Ei,j=|Pi,1-Pi,2|+|Pj,1-Pj,2|, (1)
其中,(i,j)∈{(1,2),(1’,2’)}(参见图5)且Pi,l代表来自声源i、由阵列r所看到的补偿信号功率。对于正确声源对,错误为最小的。一旦解决了配对问题且计算了正确的DOA估值,则将它们连同对应压力信号及扩散度估值分组为GAC流。可使用对于一声源的参数估计已描述的相同方法,获得压力信号及扩散度估值。
图6A示出根据一实施方式的用于根据音频数据流产生至少一个音频输出信号的装置600。装置600包含接收器610及合成模块620。接收器610包含修改模块630,该修改模块630用于通过修改关于声源中的至少一个的音频数据的压力值中的至少一个、音频数据的位置值中的至少一个或音频数据的扩散度值中的至少一个,修改所接收音频数据流的音频数据。
图6B示出根据一实施方式的用于产生包含关于一个或多个声源的声源数据的音频数据流的装置660。用于产生音频数据流的装置包含决定器670、数据流产生器680及另一修改模块690,该另一修改模块690用于通过修改关于声源中的至少一个的音频数据的压力值中的至少一个、音频数据的位置值中的至少一个或音频数据的扩散度值中的至少一个,来修改由数据流产生器产生的音频数据流。
在接收器/合成侧使用图6A图的修改模块610,而在发射器/分析侧使用图6B图的修改模块660。
由修改模块610、660进行的音频数据流的修改亦可视为声音场景的修改。因此,修改模块610、660亦可称为声音场景操控模块。
由GAC流提供的声场表示允许音频数据流的不同种类的修改,亦即,因此,声音场景的操控。本文中一些实例为:
1.扩展声音场景中空间/体积的任意部分(例如,点状声源的扩展,以使得该点状声源对收听者呈现得较宽);
2.将空间/体积的选定部分转换至声音场景中空间/体积的任何其它任意部分(转换空间/体积可例如包含需要移动至新位置的源);
3.以位置为基础的滤波,其中增强或部分地/完全地抑制声音场景的选定区域。
在下文中,假设音频数据流(例如,GAC流)的层包含关于特定时频点的其中一个声源的所有音频数据。
图7示出根据一实施方式的修改模块。图7图的修改单元包含多路分配器(demultiplexer)401、操控处理器420及多路复用器(multiplexer)405。
多路分配器401被配置为分开M层GAC流的不同层且形成M个单层GAC流。另外,操控处理器420包含单元402、403及404,这些单元在各GAC流上分开应用。另外,多路复用器405被配置为由被操控的单层GAC流形成所得M层GAC流。
根据来自GAC流的位置数据及关于实际声源(例如,通话器)的位置的认识,对于每个时频点,能量可与某一真实声源相关联。压力值P则据此加权,以修改各自真实声源(例如,通话器)的响度。此需要真实声源(例如,通话器)的位置的先验信息或估值。
在一些实施方式中,若可得关于真实声源的位置的认识,则根据来自GAC流的位置数据,对于每个时频点,能量可与某一真实声源相关联。
可在用于产生图6A的至少一个音频输出信号的装置600的修改模块630处,即在用于产生图6B的音频数据流的装置660的接收器/合成侧和/或在修改模块690处,即在发射器/分析侧,发生音频数据流(例如,GAC流)的操控。
举例而言,可在传输之前,或在传输之后合成之前,修改音频数据流,即GAC流。
不同于接收器/合成侧的图6A的修改模块630,由于在发射器侧可得来自输入111至11N(记录的信号)及121至12N(空间麦克风的相对位置及方位)的额外信息,故发射器/分析侧处的图6B的修改模块690可利用该信息。使用该信息,可实现根据替代性实施方式的修改单元,在图8中描绘该修改单元。
图9通过示出系统的示意性总览描绘一实施方式,其中在发射器/分析侧产生GAC流,其中,选择性地,可通过发射器/分析侧处的修改模块102修改GAC流,其中可选择性地通过接收器/合成侧处的修改模块103修改GAC流,且其中GAC流用于产生多个音频输出信号191...19L。
在发射器/分析侧处,在单元101中,由输入111至11N,亦即,使用N≧2个空间麦克风记录的信号,及由输入121至12N,亦即空间麦克风的相对位置及方位,来计算声场表示(例如GAC流)。
单元101的输出为上述声场表示,该输出在下文中表示为以几何为基础的空间音频编码(GAC)流。类似于在下文:
[20]Giovanni Del Galdo,Oliver Thiergart,Tobias Weller,and E.A.P.Habets.Generating virtual microphone signals using geometrical informationgathered by distributed arrays.In Third Joint Workshop on Hands-free SpeechCommunication and Microphone Arrays(HSCMA’11),Edinburgh,UnitedKingdom,May2011.
的建议以及如对于用于产生可组配虚拟位置处的虚拟麦克风的音频输出信号的装置的描述,以声源(例如,各向同性点状声源(IPLS))的手段建模复合声音场景,该声源在以时频表示的特定槽为有效的,诸如由短时间傅立叶转换(STFT)所提供的时频表示。
可在也可称为操控单元的任选修改模块102中进一步处理GAC流。修改模块102允许多个应用。然后可传输或存储GAC流。GAC流的参数性质为高效的。在合成/接收器侧处,可使用又一任选修改模块(操控单元)103。所得GAC流进入产生扬声器信号的合成单元104。在表示独立于记录的情况下,再生侧处的终端用户可潜在操控声音场景且在声音场景内自由判断收听位置及方位。
可通过在模块102中在传输之前,或在合成103之前传输之后,据此修改GAC流,来在图9中修改模块102和/或103处发生音频数据流(例如,GAC流)的修改/操控。不同于接收器/合成端处的修改模块103,由于在发射器侧可得来自输入111至11N(由空间麦克风提供的音频数据)及121至12N(空间麦克风的相对位置及方位)的额外信息,故发射器/分析端处的修改模块102可利用该信息。图8示出使用该信息的修改模块的替代性实施方式。
在下文中,参照图7图及图8,描述GAC流的操控的不同概念的实例。具有相同参考信号的单元具有相同功能。
1.体积扩展
假设场景中某一能量定位于体积V内。体积V可表明环境的预定区域。Θ表示时频点(k,n)的集合,其中相应声源,例如,IPLS,定位在体积V内。
若期望体积V扩展至另一体积V’,则这可通过每当(k,n)∈Θ(在判断单元403中评估)且取代Q(k,n)=[X(k,n),Y(k,n),Z(k,n)]T(为简明起见,略去索引层)时,将随机项增加至GAC流中的位置数据来实现,使得图7图及图8中单元404的输出431至43M变成
Q(k,n)=[X(k,n)+Φx(k,n);Y(k,n)+Φy(k,n)Z(k,n)+Φz(k,n)]T (2)
其中,Φx、Φy及Φz为随机变量,该随机变量的范围取决于新体积V’相对于初始体积V的几何排列。例如,可使用该概念以使得感知声源较宽。在该实例中,初始体积V无穷小,亦即,声源(例如IPLS)应定位在相同点处,对于所有(k,n)∈Θ,Q(k,n)=[X(k,n),Y(k,n),Z(k,n)]T。该机制可视为位置参数Q(k,n)的抖动形式。
根据一实施方式,所述声源中的各个声源的位置值中的各个位置值包含至少两个坐标值,且当坐标值表明声源位于环境的预定区域内的位置时,修改模块适于通过将至少一个随机数增加至坐标值来修改坐标值。
2.体积转换
除体积扩展外,可修改来自GAC流的位置数据,以再设置(relocate)声场内空间/体积的部分。在此情况下,同样,待操控数据包含定位能量(localized energy)的空间坐标。
V再次表示应该再设置的体积,且Θ表示所有时频点(k,n)的集合,其中能量定位于体积V内。此外,体积V可表明环境的预定区域。
可通过修改GAC流来实现体积再设置,以使得对于所有时频点(k,n)∈Θ,在单元404的输出431至43M处以f(Q(k,n))取代Q(k,n),其中f为描述待执行体积操控的空间坐标(X,Y,Z)的函数。函数f可表示简单线性转换,诸如,旋转、移位或任何其它复合非线性映射。此技术可用于,例如,通过确保Θ对应于时频点的设置,在声音场景内将声源从一个位置移动至另一位置,其中声源定位在体积V内。该技术允许整个声音场景的其它复合操控,诸如场景成镜像、场景旋转、场景扩大和/或压缩等。举例而言,通过在体积V上应用合适线性映射,可实现体积扩展的互补效果,亦即,体积收缩。这可通过将(k,n)∈Θ的Q(k,n)映射至f(Q(k,n))∈V’来达成,其中
且V’包含显著小于V的体积。
根据一实施方式,当坐标值表明声源位于环境的预定区域内的位置时,修改模块适于通过在坐标值上应用确定性函数,来修改坐标值。
3.以位置为基础的滤波
以几何为基础的滤波(或以位置为基础的滤波)观念提供一种从声音场景增强或完全地/部分地移除空间/体积的部分的方法。然而,与体积扩展及转换技术相比,在此情况下,通过应用合适标量加权,仅修改来自GAC流的压力数据。
如图8中所描绘,在以几何为基础的滤波中,在发射器侧102与接收器侧修改模块103之间可制造区别,其中,该发射器侧102可使用输入111至11N及121至12N,以辅助合适滤波器加权的计算。假设目标为抑制/增强源自空间/体积V的选定部分的能量,则可如下应用以几何为基础的滤波:
对于所有(k,n)∈Θ,在402的输出,将GAC流中复合压力P(k,n)修改至ηP(k,n),其中η为通过例如单元402计算出的真实加权因子。在一些实施方式中,模块402亦可适于取决于扩散度,计算加权因子。
可在多个应用中使用以几何为基础的滤波的概念,例如,信号增强及源分离。一些应用及所要求的先验信息包含:
·去交混回响(dereverberation)。通过已知房间几何排列,空间滤波器可用于抑制定位在房间边界外、可由多路径传播引起的能量。本应用例如对于会议室及汽车中的免手持通讯具有好处。注意,为抑制晚期交混回响,在高扩散度的情况下接近滤波器是足够的,而为抑制早期反射,位置依赖性滤波器为更有效的。在此情况下,如已提及,需要先前已知房间的几何排列。
·背景噪声抑制。类似概念亦可用以抑制背景噪声。若已知可设置源的可能区域(例如,会议室中参与者的椅子或汽车中座位),则定位在这些区域外的能量与背景噪声相关联且因此通过空间滤波器抑制。本应用需要根据源的近似位置的GAC流的可得数据的先验信息或估值。
·点状干涉的抑制。若干涉在空间中清楚地定位而非扩散,则可应用以位置为基础的滤波,以弱化定位在干涉的位置的能量。这要求干涉的位置的先验信息或估值。
·回音控制。在此情况下,待抑制干涉为扬声器信号。为达此目的,类似于在点状干涉的情况下,抑制精确定位在扬声器位置或处于扬声器位置的近邻域处的能量。此需要扬声器位置的先验信息或估值。
·增强的语音检测。与以几何为基础的滤波发明相关联的信号增强技术可实施为例如,汽车中,常规语音有效性检测系统的预处理步骤。可使用去交混回响,或噪声抑制作为附加件(add-ons)以改良系统效能。
·监视。仅保留来自某些区域的能量而抑制其余区域的能量是在监视应用中常使用的技术。该技术需要感兴趣区域的几何排列及位置的先验信息。
·源分离。在具有多个同时有效源的环境中,可应用以几何为基础的空间滤波进行源分离。将适当设计的空间滤波器居中放置在源的位置,此导致其它同时有效源的抑制/衰减。可使用该创新例如作为在SAOC中的前端。需要源位置的先验信息或估值。
·位置依赖性自动增益控制(AGC)。在电信会议应用中,可使用位置依赖性加权以例如均衡化不同通话器的响度。
在下文中,描述根据一些实施方式的合成模块。根据一实施方式,合成模块可适于根据音频数据流的音频数据的至少一个压力值及根据音频数据流的音频数据的至少一个位置值,来产生至少一个音频输出信号。至少一个压力值可为压力信号(例如音频信号)的压力值。
GAC合成的操作原理根据对下文中所给出空间声音的感知的假设,
[27]WO2004077884:Tapio Lokki,Juha Merimaa,and Ville Pulkki.Method for reproducing natural or modified spatial impression in multichannellistening,2006.
特别地,可通过正确地再生各时频点的非扩散声音的一个抵达方向,来获得正确感知声音场景的空间影像必需的空间信号。因此将图10A所描绘的合成分成两个阶段。
第一阶段考虑声音场景内收听者的位置及方位,并决定对于各时频点,哪个M IPLS为支配性的。因此,可计算该支配性M IPLS的压力信号Pdir及抵达方向θ。在第二压力信号Pdiff中收集剩余源及扩散声音。
第二阶段与[27]中所描述的DirAC合成的后半部分一致。使用产生点状源的摇摄机制(panning mechanism)再生非扩散声音,而由已经去相关之后的所有扬声器再生扩散声音。
图10A示出根据一实施方式的说明GAC流的合成的合成模块。
第一阶段合成单元501计算需要不同回放的压力信号Pdir及Pdiff。实际上,Pdir包含必须在空间中连贯回放的声音,而Pdiff包含扩散声音。第一阶段合成单元501的第三输出为来自期望收听位置的视点的抵达方向(DOA)θ505,亦即,抵达方向信息。注意,若2D空间,则抵达方向(DOA)可表示为方位角,或在3D中为方位角与仰角对。等效地,可使用指向DOA的单位法线向量。DOA指定信号Pdir会来自哪个方向(关于期望收听位置)。第一阶段合成单元501采取GAC流作为输入,亦即,声场的参数表示,且根据由输入141指定的收听者位置及方位计算上述信号。实际上,终端用户可自由判断由GAC流描述的声音场景内的收听位置及方位。
第二阶段合成单元502根据对扬声器配置131的认识,计算L扬声器信号511至51L。请注意,单元502与[27]中所描述的DirAC合成的后半部分一致。
图10B示出根据一实施方式的第一合成阶段单元。提供至块的输入为由M个层组成的GAC流。在第一步骤中,单元601将M个层多路分配至各个层的M平行GAC流。
第i GAC流包含压力信号Pi、扩散度ψi及位置向量Qi=[Xi,Yi,Zi]T。压力信号Pi包含一个或多个压力值。位置向量为位置值。现根据这些值产生至少一个音频输出信号。
通过应用由扩散度ψi导出的适当因子,由Pi获得直接及扩散声音的压力信号Pdir,i及Pdiff,i。包含直接声音的压力信号进入传播补偿块602,该传播补偿块602计算对应于从声源位置(例如IPLS位置)至收听者位置的信号传播的延迟。除此之外,块亦计算对于补偿不同量衰减所需要的增益因子。在其它实施方式中,仅补偿不同量衰减,而不补偿延迟。
由
表示的补偿压力信号进入块603,该块603输出最强输入的索引i
max
该机制的要点为在所研究的时频点有效的M个IPLS中,仅最强者(关于收听者位置)将连贯回放(亦即,作为直接声音)。块604及605从它们的输入选择由i
max定义的输入。块607计算第i
maxIPLS关于收听者的位置及方位(输入141)的抵达方向。块604的输出
对应于块501的输出,即将通过块502回放作为直接声音的声音信号P
dir。扩散声音,即输出504P
diff,包含M个分支中所有扩散声音的和以及所有直接声音信号
第i
max除外,即
图10C示出第二合成阶段单元502。如已提及,该阶段与[27]中所提出的合成模块的后半部分一致。通过例如摇摄将非扩散声音Pdir503再生为点状源,在块701中根据抵达方向(505)计算该非扩散声音Pdir503的增益。另一方面,扩散声音,Pdiff,通过L个不同的去相关器(711至71L)。对于各L个扬声器信号,在通过反向滤波器组(703)之前,增加直接及扩散声音路径。
图11示出根据一替代性实施方式的合成模块。以时频域考虑图中的所有量;出于简明考虑,省略(k,n)标注,例如,Pi=Pi(k,n)。为改良再生的音频质量,在特定复合声音场景,例如,若干源同时有效的情况下,可,例如,如图11图所示实现合成模块,例如,合成模块104。代替选择待连贯再生的最支配性的IPLS,图11中的合成分开执行M层中的每一者的完全合成。来自第i层的L个扬声器信号为块502的输出且以191i至19Li表示。第一合成阶段单元501的输出处的第h扬声器信号19h为19h1至19hM的和。请注意,不同于图10B,对于M个层中的各层需要执行块607中的DOA估计步骤。
图26示出根据一实施方式的用于产生虚拟麦克风数据流的装置950。用于产生虚拟麦克风数据流的装置950包含装置960及装置970,该装置960用于根据上述实施方式的一个实施方式,例如,根据图12,产生虚拟麦克风的音频输出信号,且该装置970用于根据上述实施方式的一个实施方式,例如,根据图2,产生音频数据流,其中由用于产生音频数据流的装置970产生的音频数据流为虚拟麦克风数据流。
例如,图26中用于产生虚拟麦克风的音频输出信号的装置960包含如在图12中的声音事件位置估计器及信息计算模块。声音事件位置估计器适于估计表明环境中声源的位置的声源位置,其中声音事件位置估计器适于根据由位于环境中第一真实麦克风位置的第一真实空间麦克风提供的第一方向信息,及根据由位于环境中第二真实麦克风位置的第二真实空间麦克风提供的第二方向信息,来估计声源位置。信息计算模块适于根据记录的音频输入信号,根据第一真实麦克风位置及根据经计算麦克风位置,来产生音频输出信号。
用于产生虚拟麦克风的音频输出信号的装置960被布置为将音频输出信号提供至用于产生音频数据流的装置970。用于产生音频数据流的装置970包含决定器,例如,关于图2描述的决定器210。用于产生音频数据流的装置970的决定器根据由用于产生虚拟麦克风的音频输出信号的装置960提供的音频输出信号,决定声源数据。
图27示出根据上述实施方式中的一个的用于根据音频数据流产生至少一个音频输出信号的装置980,例如,根据权利要求1所述的装置,该装置被配置为根据作为音频数据流的虚拟麦克风数据流,来产生音频输出信号,该虚拟麦克风数据流由用于产生虚拟麦克风数据流的装置950(例如图26中的装置950)提供。
用于产生虚拟麦克风数据流的装置980将所产生的虚拟麦克风信号馈至用于根据音频数据流产生至少一个音频输出信号的装置980中。应注意,虚拟麦克风数据流为音频数据流。用于根据音频数据流产生至少一个音频输出信号的装置980,根据作为音频数据流的虚拟麦克风数据流,产生音频输出信号,例如,如关于图1的装置所描述。
虽然己针对装置描述了一些方面,但是很明显这些方面也表示对应方法的描述,其中块或设备对应于方法步骤或方法步骤的特征。类似地,已针对方法步骤描述的方面也表示对应单元或项目或对应装置的特征的描述。
可将发明的分解信号存储于数字存储介质上或可传送到诸如无线传输介质的传输介质上或诸如因特网的有线传输介质上。
取决于某些实施要求,本发明的实施方式可以硬件或软件实施。可使用数字存储介质来执行实施方案,数字存储介质例如为软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存,数字存储介质上存储有电子可读取控制信号,这些电子可读取控制信号与可编程计算机系统结合(或能够结合),以执行各个方法。
根据本发明的一些实施方式包含具有电子可读取控制信号的非瞬态数据载体,这些电子可读取控制信号能够与可编程计算机系统结合,以执行本文所述方法之一。
通常,本发明的实施方式可作为具有程序代码的计算机程序产品来实施,当计算机程序产品在计算机执行上时,该程序代码可操作用于执行方法之一。程序代码可例如存储于机器可读取载体上。
其它实施方式包含用于执行本文所述方法之一且存储于机器可读取载体上的计算机程序。
换言之,本发明方法的一实施方式因此为具有程序代码的计算机程序,当计算机程序在计算机上执行时,计算机程序用于执行本文所述的方法之一。
因此,本发明方法的又一实施方式为包含用于执行本文所述方法之一的计算机程序,且记录有计算机程序的数据载体(或数字存储介质,或计算机可读取介质)。
因此,本发明方法的又一实施方式为表示用于执行本文所述方法之一的计算机程序的数据流或信号序列。数据流或信号序列可例如被配置为经由数据通讯连接,例如经由因特网来进行转送。
又一实施方式包含被配置为或适于以执行本文所述方法之一的处理装置,例如计算机或可编程逻辑设备。
又一实施方式包含安装有用于执行本文所述方法之一的计算机程序的计算机。
在一些实施方式中,可编程逻辑设备(例如现场可编程门阵列)可用来执行本文所述方法的功能性中的一些或全部。在一些实施方式中,现场可编程门阵列可与微处理器结合以执行本文所述方法之一。通常,这些方法优选由任何硬件装置执行。
上述实施方式仅为说明本发明的原理。应理解,配置的修改及变化及本文所述的细节对于本领域技术人员将是显而易见的。因此,本发明仅受本申请权利要求书的范围限制,而不受以描述及阐释本文实施方式的方式提供的特定细节来限制。
参考文献:
[1]Michael A.Gerzon.Ambisonics in multichannel broadcasting andvideo.J.Audio Eng.Soc,33(11):859–871,1985.
[2]V.Pulkki,“Directional audio coding in spatial sound reproduction andstereo upmixing,”in Proceedings of the AES28
th International Conference,pp.251-258,
Sweden,June30-July2,2006.
[3]V.Pulkki,“Spatial sound reproduction with directional audio coding,”J.Audio Eng.Soc.,vol.55,no.6,pp.503-516,June2007.
[4]C.Faller:“Microphone Front-Ends for Spatial Audio Coders”,inProceedings of the AES125th International Convention,San Francisco,Oct.2008.
[5]M.Kallinger,H.Ochsenfeld,G.Del Galdo,F.Küch,D.Mahne,R.Schultz-Amling.and O.Thiergart,“A spatial filtering approach fordirectional audio coding,”in Audio Engineering Society Convention126,Munich,Germany,May2009.
[6]R.Schultz-Amling,F.Küch,O.Thiergart,and M.Kallinger,“Acoustical zooming based on a parametric sound field representation,”inAudio Engineering Society Convention128,London UK,May2010.
[7]J.Herre,C.Falch,D.Mahne,G.Del Galdo,M.Kallinger,and O.Thiergart,“Interactive teleconferencing combining spatial audio object codingand DirAC technology,”in Audio Engineering Society Convention128,London UK,May2010.
[8]E.G.Williams,Fourier Acoustics:Sound Radiation and NearfieldAcoustical Holography,Academic Press,1999.
[9]A.Kuntz and R.Rabenstein,“Limitations in the extrapolation of wavefields from circular measurements,”in15th European Signal ProcessingConference(EUSIPCO2007),2007.
[10]A.Walther and C.Faller,“Linear simulation of spaced microphonearrays using b-format recordings,”in Audio Engineering Society Convention128,London UK,May2010.
[11]US61/287,596:An Apparatus and a Method for Converting a FirstParametric Spatial Audio Signal into a Second Parametric Spatial AudioSignal.
[12]S.Rickard and Z.Yilmaz,“On the approximate W-disjointorthogonality of speech,”in Acoustics,Speech and Signal Processing,2002.ICASSP2002.IEEE International Conference on,April2002,vol.1.
[13]R.Roy,A.Paulraj,and T.Kailath,“Direction-of-arrival estimationby subspace rotation methods–ESPRIT,”in IEEE International Conference onAcoustics,Speech,and Signal Processing(ICASSP),Stanford,CA,USA,April1986.
[14]R.Schmidt,“Multiple emitter location and signal parameterestimation,”IEEE Transactions on Antennas and Propagation,vol.34,no.3,pp.276-280,1986.
[15]J.Michael Steele,“Optimal Triangulation of Random Samples in thePlane”,The Annals of Probability,Vol.10,No.3(Aug.,1982),pp.548-553.
[16]F.J.Fahy,Sound Intensity,Essex:Elsevier Science Publishers Ltd.,1989.
[17]R.Schultz-Amling,F.Küch,M.Kallinger,G.Del Galdo,T.Ahonenand V.Pulkki,“Planar microphone array processing for the analysis andreproduction of spatial audio using directional audio coding,”in AudioEngineering Society Convention124,Amsterdam,The Netherlands,May2008.
[18]M.Kallinger,F.Küch,R.Schultz-Amling,G.Del Galdo,T.Ahonenand V.Pulkki,“Enhanced direction estimation using microphone arrays fordirectional audio coding;”in Hands-Free Speech Communication andMicrophone Arrays,2008.HSCMA2008,May2008,pp.45-48.
[19]R.K.Furness,“Ambisonics-An overview,”in AES8th InternationalConference,April1990,pp.181-189.
[20]Giovanni Del Galdo,Oliver Thiergart,TobiasWeller,and E.A.P.Habets.Generating virtual microphone signals using geometrical informationgathered by distributed arrays.In Third Joint Workshop on Hands-free SpeechCommunication and Microphone Arrays(HSCMA’11),Edinburgh,UnitedKingdom,May2011.
[21]J.Herre,K.
,J.Breebaart,C.Faller,S.Disch,H.Purnhagen,J.Koppens,J.Hilpert,J.
W.Oomen,K.Linzmeier,K.S.Chong:“MPEG Surround–The ISO/MPEG Standard for Efficient andCompatible Multichannel Audio Coding”,122nd AES Convention,Vienna,Austria,2007,Preprint7084.
[22]Giovanni Del Galdo,Oliver Thiergart,Tobias Weller,and E.A.P.Habets.Generating virtual microphone signals using geometrical informationgathered by distributed arrays.In Third Joint Workshop on Hands-free SpeechCommunication and Microphone Arrays(HSCMA’11),Edinburgh,UnitedKingdom,May2011.
[23]C.Faller.Microphone front-ends for spatial audio coders.In Proc.ofthe AES125th International Convention,San Francisco,Oct.2008.
[24]Emmanuel Gallo and Nicolas Tsingos.Extracting and re-renderingstructured auditory scenes from field recordings.In AES30th InternationalConference on Intelligent Audio Environments,2007.
[25]Jeroen Breebaart,Jonas
,Cornelia Falch,OliverHellmuth,Johannes Hilpert,Andreas Hoelzer,Jeroens Koppens,WernerOomen,Barbara Resch,Erik Schuijers,and Leonid Terentiev.Spatial audioobject coding(saoc)-the upcoming mpeg standard on parametric object basedaudio coding.In Audio Engineering Society Convention124,52008.
[26]R.Roy and T.Kailath.ESPRIT-estimation of signal parameters viarotational invariance techniques.Acoustics,Speech and Signal Processing,IEEE Transactions on,37(7):984–995,July1989.
[27]WO2004077884:Tapio Lokki,Juha Merimaa,and Ville Pulkki.Method for reproducing natural or modified spatial impression in multichannellistening,2006.
[28]Svein Berge.Device and method for converting spatial audio signal.US patent application,Appl.No.10/547,151.