CN106797526B

CN106797526B - 音频处理装置、方法和计算机可读记录介质

Info

Publication number: CN106797526B
Application number: CN201580053837.5A
Authority: CN
Inventors: 光藤祐基
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2014-10-10
Filing date: 2015-09-28
Publication date: 2019-07-12
Anticipated expiration: 2035-09-28
Also published as: CN106797526A; EP3206415B1; JP6604331B2; EP3206415A4; US20180279042A1; EP3206415A1; WO2016056410A1; JPWO2016056410A1; US10602266B2

Abstract

本技术涉及能够以较低的成本改善对声像的定位的音频处理装置、方法和计算机可读记录介质。麦克风阵列收集来自声源的声音平面波。驱动信号生成单元根据通过麦克风阵列的声音收集所获得的收集的声音信号的空间频谱来生成空间域中的扬声器驱动信号。方位信息获得单元获得指示讲话的人的方位的讲话人方位信息。空间滤波器应用单元使用通过讲话人方位信息所限定的空间滤波器对扬声器驱动信号执行滤波，从而减少空间混叠。本技术适用于空间混叠控制器。

Description

音频处理装置、方法和计算机可读记录介质

技术领域

本技术涉及音频处理装置和方法以及程序，并且特别地涉及能够以较低的成本来改善对音像的定位的音频处理装置和方法以及程序。

背景技术

存在用于利用平面扬声器阵列或线性扬声器阵列来再现声场的常规已知的波前合成技术。这样的波前合成技术可以用于例如图1中所示的下一代双向通信等。

在图1中，在其中存在谈话者W11的空间P11与其中存在谈话者W12的空间P12之间进行下一代双向通信。

具体地，在空间P11中，由主要由谈话者W11发出的音频构成的声场A通过由如所示的配置有多个纵向布置的麦克风的线性麦克风阵列MCA11来拾取，并且所产生的声源信号被传输至空间P12。

在示例中，所示的箭头指示作为声源的谈话者W11的音频传播的方向，并且谈话者W11的音频以从线性麦克风阵列MCA11所视的角度θ到达并且被拾取。在下文中，角度θ或音频从声源传播的方向与配置麦克风阵列的麦克风被布置的方向之间所形成的角度将被表示为到达角θ。

在空间P12中，根据从空间P11传输的声源信号来生成用于再现声场A的扬声器驱动信号。然后，如所示的在空间P12中，基于由配置有多个纵向布置的扬声器的线性扬声器阵列SPA11生成的扬声器驱动信号来再现声场A。

在示例中，所示的箭头指示从线性扬声器阵列SPA11输出并且被方位至谈话者W12的音频传播的方向。该传播方向与线性扬声器阵列SPA11之间所形成的角度与到达角θ相同。

附带地，虽然此处未示出，但是在空间P12中也设置了线性麦克风阵列，配置有主要由谈话者W12发出的音频的声场B通过该线性麦克风阵列来拾取并且所产生的声源信号被传输至空间P11。另外，在空间P11中，根据从空间P12传输的声源信号来生成扬声器驱动信号并且由线性扬声器阵列(未示出)基于所产生的扬声器驱动信号来再现声场B。

附带地，当以此方式利用麦克风阵列或扬声器阵列来再现声场时，需要布置无限多个的扬声器和麦克风以便以物理准确的方式来再现声场。例如，当扬声器或麦克风被离散地布置为如图1中所示的示例中时，产生空间混叠。

通过配置扬声器阵列的扬声器的间隔或配置麦克风阵列的麦克风的间隔所计算的较低空间奈奎斯特频率来确定不被空间混叠所干扰的最高空间频率(其在下文将被表示为上限空间频率)k_lim。

也就是说，将麦克风的间隔设为d_mic并且将扬声器的间隔设为d_spk，在以下等式(1)中得到上限空间频率k_lim。

[数学公式1]

如此获取的上限空间频率k_lim对声像的定位有影响，并且优选地一般取较高的值。

另外，声源的频率(其在下文将被表示为时间频率)f与空间频率k之间的关系如以下等式(2)所示。注意，c在等式(2)中指示声速。

[数学公式2]

因此，当未特别取值时，可以在等式(2)中得到不被空间混叠干扰的最高时间频率(其在下文将被表示为上限时间频率)f_lim。上限时间频率f_lim对音质有影响，并且被采用以一般地论证在较高值处的高再现性或高保真度(HiFi)。

这里将描述空间混叠。图2示出了基于来自声源的音频的平面波的到达角的差异的空间频谱，其也被称为角频谱，这是因为空间频谱的谱峰的位置根据平面波的到达角而改变。注意，在图2中，垂直轴指示时间频率f并且水平轴指示空间频率k。另外，线L11至线L13分别指示谱峰。

在图中的左侧示出了在执行空间采样之前或在平面波被麦克风阵列拾取之前的原始平面波的到达角θ＝0处的角频谱如何。在示例中，如线L11所示，谱峰出现在空间频率k的正方向上。

相反地，在图中的右侧示出了通过对在到达角θ＝0处的平面波进行空间采样或者通过由配置有离散布置的麦克风的麦克风阵列拾取平面波所获取的声源信号的角频谱如何。

在示例中，线L12对应于线L11并且指示本来会出现的谱峰。另外，线L13指示由于空间混叠而出现的谱峰，并且在示例中，空间混叠显著地产生在其中时间频率f高于上限时间频率f_lim并且空间频率k为负的区域中。

若无空间混叠，则谱峰本来应当出现在其中当平面波的到达角θ在π/2≤θ≤π处时空间频率k为负的区域中。

因此，在图中的右侧所示的示例中，当所拾取的平面波(声场)被再现时，由于空间混叠产生的对谱峰的影响，音像被定位成好像平面波信号以各种不同角度被混合。

因此，即使在根据通过声音拾取所获取的声源信号生成用于波前合成的扬声器驱动信号并且由扬声器阵列基于该扬声器驱动信号再现平面波时，倾听者也不能感知到正确的平面波。另外，当在作为示例的下一代双向通信中谈话者彼此接近时，不是产生平面波而是产生球面波，但是与平面波类似。

如上所述，当产生空间混叠时音像不能被准确地定位。因此，提出了用于利用包括具有相互不同的扬声器间隔的高音扬声器单元和低音扬声器单元的两个扬声器阵列来进一步提高不被空间混叠所干扰的上限时间频率f_lim以减少空间混叠的技术(例如参见专利文献1)。利用该技术，可以准确地再现具有较高时间频率的信号。

引文列表

专利文献

专利文献1：日本专利No.4124182

发明内容

本发明要解决的技术问题

然而，虽然利用上述技术能够改善对音像的定位，但是需要准备用于提高上限时间频率f_lim的另外的扬声器阵列或两个扬声器阵列，其花费较大。理想的是，进一步提高上限时间频率f_lim而同时保持现有的扬声器阵列的扬声器间隔以改善对音像的定位。

在该情形方面产生了本技术，并且本技术用于以较低的成来改善对音像的定位。

技术问题的解决方案

本技术的一个方面的音频处理装置包括：方位信息获取单元，该方位信息获取单元用于获取关于声源的方向的方位信息；以及空间滤波器应用单元，该空间滤波器应用单元用于将具有通过方位信息限定的特性的空间滤波器应用于空间域的扬声器驱动信号，该空间域的扬声器驱动信号是基于以下空间频谱而生成的：所述空间频谱根据通过由多个麦克风构成的麦克风阵列拾取来自声源的音频而获取的拾音信号而生成。空间滤波器应用单元可以基于方位信息来确定作为空间滤波器的特性的中心频率和带宽。空间滤波器应用单元可以将空间滤波器的特性确定成使得：随着通过方位信息指示的声源的方向与构成麦克风阵列的麦克风被布置的方向之间所形成的角度越接近π/2，带宽越大。

在将通过中心频率和带宽限定的空间频率的频带作为传输频带的情况下，空间滤波器可以被用作用于传输拾音信号的传输频带中的分量的滤波器。

在将通过中心频率和带宽限定的时间频率的频带作为传输频带的情况下，空间滤波器可以被用作用于传输拾音信号的传输频带中的分量的滤波器。

麦克风阵列可以被用作线性麦克风阵列。

本技术的一个方面的音频处理方法或程序包括以下步骤：获取关于声源的方向的方位信息；以及将具有通过方位信息限定的特性的空间滤波器应用于空间域的扬声器驱动信号，该空间域的扬声器驱动信号是基于以下空间频谱而生成的：所述空间频谱根据通过由多个麦克风构成的麦克风阵列拾取来自声源的音频而获取的拾音信号而生成。其中，基于方位信息来确定作为空间滤波器的特性的中心频率和带宽，以及其中，将空间滤波器的特性确定成使得：随着通过方位信息指示的声源的方向与构成麦克风阵列的麦克风被布置的方向之间所形成的角度越接近π/2，带宽越大。

根据本技术的一个方面，获取关于声源的方向的方位信息，并且将具有通过方位信息限定的特性的空间滤波器应用于空间域的扬声器驱动信号，该空间域的扬声器驱动信号是基于以下空间频谱而生成的：所述空间频谱根据通过由多个麦克风构成的麦克风阵列拾取来自声源的音频而获取的拾音信号而生成。其中，基于方位信息来确定作为空间滤波器的特性的中心频率和带宽，以及其中，将空间滤波器的特性确定成使得：随着通过方位信息指示的声源的方向与构成麦克风阵列的麦克风被布置的方向之间所形成的角度越接近π/2，带宽越大。

本发明的效果

根据本技术的一个方面，可以以较低的成本改善对音像的定位。

另外，这里所描述的效果不一定被限制，还可以获得在本公开内容中描述的任何效果。

附图说明

图1是用于说明下一代双向通信的图。

图2是用于说明空间混叠的图。

图3是示出空间混叠控制器的示例性配置的图。

图4是用于说明空间带通滤波器的特性的图。

图5是用于说明空间带通滤波器的特性的图。

图6是用于说明声场再现处理的流程图。以及

图7是示出计算机的示例性配置的图。

具体实施方式

下面将参照附图来描述应用本技术的实施方式。

<第一实施方式>

<空间混叠控制器的示例性配置>

在生成用于执行在利用平面扬声器阵列或线性扬声器阵列再现声场时的波前合成的扬声器驱动信号时，本技术应用适用于该扬声器驱动信号的空间滤波器，从而减少了由扬声器的离散布置引起的空间混叠。

具体地，根据本技术，以沿不期望方向传播的波前为代价来减少空间混叠，从而实现上限时间频率f_lim的提高。

例如，当谈话者之间的位置关系明显如在参照图1所描述的下一代双向通信中，则可以指定要优先再现的波前的传播方向以及其他不期望的方向。因此，空间频率沿指定不期望方向被截止，从而提高了上限时间频率f_lim。

下面将通过应用本技术的空间混叠控制器来描述应用本技术的特定实施方式。

图3是示出应用本技术的空间混叠控制器的一个实施方式的示例性配置的图。

空间混叠控制器11具有发送器21和接收器22。在示例中，例如，发送器21被布置在拾音空间中以拾取声场，接收器22被布置在再现空间中以再现在拾音空间中拾取的声场。

发送器21拾取声场，并且根据通过声音拾取获取的拾音信号来生成空间频谱并且将其发送至接收器22。接收器22接收从发送器21发送的空间频谱，从而生成扬声器驱动信号，并且基于所获取的扬声器驱动信号来再现声场。

发送器21具有麦克风阵列31、时间频率分析单元32、空间频率分析单元33和通信单元34。另外，接收器22具有方位信息获取单元35、通信单元36、驱动信号生成单元37、空间滤波器应用单元38、空间频率合成单元39、时间频率合成单元40和扬声器阵列41。

麦克风阵列31是配置有多个线性布置的麦克风的线性麦克风阵列等，麦克风阵列31拾取传入音频的平面波并且将由每个麦克风获取的所产生的拾音信号提供给时间频率分析单元32。

时间频率分析单元32对由麦克风阵列31提供的拾音信号执行时间频率变换，并且将所产生的时间频谱提供给空间频率分析单元33。空间频率分析单元33对由时间频率分析单元32提供的时间频谱执行空间频率变换，并且将所产生的空间频谱提供给通信单元34。

通信单元34以有线或无线方式将由空间频率分析单元33提供的空间频谱发送至接收器22中的通信单元36。

另外，接收器22中的方位信息获取单元35获取关于作为由麦克风阵列31拾取的音频的声源的谈话者的方位(方向)的谈话者方位信息，并且将其提供给空间滤波器应用单元38。

这里将描述以下示例，在该示例中，要拾取的声场的声源是谈话者，但是该声源不限于谈话者并且可以是例如车辆对象或环境声音的声源的任何事物。另外，谈话者的方位信息可以是指示主声源与被叫方之间的相对位置关系的任何事物，例如主叫方相对于倾听来自作为声源的主叫方的音频的被叫方的方向，将假定谈话者的方位信息是到达角θ来继续该描述。在该情况下，例如，在图1所示的下一代双向通信的示例中，在假定谈话者W11为声源并且谈话者W12为被叫方的情况下，将指示音频的波前从谈话者W11至谈话者W12传播的方向的到达角θ假定为谈话者的方位信息。另外，在下文中，指示到达角θ的谈话者的方位信息将被表示为谈话者的方位信息θ。

通信单元36接收从通信单元34发送的空间频谱并且将其提供给驱动信号生成单元37。驱动信号生成单元37基于由通信单元36提供的空间频谱来生成空间域的扬声器驱动信号以再现所拾取的声场，并且将其提供给空间滤波器应用单元38。

空间滤波器应用单元38使用具有通过由方位获取单元35提供的谈话者的方位信息所限定的特性的空间滤波器对由驱动信号生成单元37提供的扬声器驱动信号来执行滤波器处理，并且将所产生的空间滤波器频谱提供给空间频率合成单元39。

空间频率合成单元39对由空间滤波器应用单元38提供的空间滤波器频谱执行空间频率合成，并且将所产生的时间频谱提供给时间频率合成单元40。

时间频率合成单元40对由空间频率合成单元39提供的时间频谱执行时间频率合成，并且将所产生的扬声器驱动信号提供给扬声器阵列41。扬声器阵列41是例如配置有多个线性布置的扬声器的线性扬声器阵列，并且基于由时间频率合成单元40提供的扬声器驱动信号来再现音频。从而，再现拾音空间中的声场。

这里将更详细地描述配置空间混叠控制器11的每个单元。

(时间频率分析单元)

时间频率分析单元32分析由配置麦克风阵列31的每个麦克风获取的拾取信号s(n_mic，t)的时间频率信息。

这里，拾音信号s(n_mic，t)中的n_mic是指示配置麦克风阵列31的麦克风的麦克风指数，并且假定麦克风指数n_mic＝0，···，N_mic-1。这里，N_mic是配置麦克风阵列31的麦克风的数目。另外，拾音信号s(n_mic，t)中的t指示时间。

时间频率分析单元32对拾音信号s(n_mic，t)执行具有固定尺寸的时间帧分割，从而获取输入帧信号s_fr(n_mic，n_fr，l)。然后时间频率分析单元32使输入帧信号s_fr(n_mic，n_fr，l)乘以在以下等式(3)中指示的窗函数w_T(n_fr)，从而获得窗函数应用信号s_w(n_mic，n_fr，l)。也就是说，计算以下等式(4)，从而来计算窗函数应用信号s_w(n_mic，n_fr，l)。

[数学公式3]

[数学公式4]

s_w(n_mic，n_fr，l)＝w_T(n_fr)s_fr(n_mic，n_fr，l) (4)

这里，在等式(3)和等式(4)中，n_fr是指示时间帧中的样本的时间指数，并且假定时间指数n_fr＝0，···，N_fr-1。另外，l是时间帧指数，并且假定时间帧指数l＝0，···，L-1。另外，N_fr是帧尺寸(时间帧中的样本数目)，并且L是帧的总数目。

另外，帧尺寸N_fr是以时间采样频率f_s ^T[Hz]的与一个帧的时间T_fr[s]对应的样本数目N_fr(＝R(f_s ^T×T_fr)，其中，R()是任何舍去函数)。根据本实施方式，例如，假定一个帧的时间T_fr＝1.0[s]并且舍去函数R()是舍去。但是也可以采用任何其他值。另外，将帧移位量假定为帧尺寸N_fr的50％，但是也可以采用任何其他尺寸。

另外，汉宁窗的平方根被用作窗函数，但是也可以采用例如汉明窗或布莱克曼-哈里斯窗的其他窗。

当以此方式获取窗函数应用信号s_w(n_mic，n_fr，l)时，时间频率分析单元32计算以下等式(5)和等式(6)以对窗函数应用信号s_w(n_mic，n_fr，l)执行时间频率变换，从而计算时间频谱S(n_mic，n_T，l)。

[数学公式5]

[数学公式6]

也就是说，通过计算等式(5)得到补零信号s_w′(n_mic，m_T，l)，并且基于所产生的补零信号s_w′(n_mic，m_T，l)来计算等式(6)，从而来计算时间频谱S(n_mic，n_T，l)。

另外，在等式(5)和等式(6)中，M_T指示用于时间频率变换的点的数目。另外，n_T指示时间频谱指数。这里，假定n_T＝0，···，N_T-1以及N_T＝M_T/2+1。另外，i指示等式(6)中的纯虚数。

另外，根据本实施方式，利用短时傅里叶变换(STFT)来执行时间频率变换，但是也可以使用例如离散余弦变换(DCT)或修正的离散余弦变换(MDCT)的任何其他时间频率变换。

另外，STFT中的点的数目M_T是2的幂，该数目是N_fr或者比N_fr大且最接近N_fr，但是也可以采用任何其他的点数目M_T。

时间频率分析单元32将在上述处理中获取的时间频谱S(n_mic，n_T，l)提供给空间频率分析单元33。

(空间频率分析单元)

随后，空间频率分析单元33通过计算以下等式(7)来对由时间频率分析单元32提供的时间频谱S(n_mic，n_T，l)执行空间频率变换，从而计算空间频谱S_SP(n_S，n_T，l)。

[数学公式7]

另外，等式(7)中的M_S指示用于空间频率变换的点的数目，其中，假定m_S＝0，···，M_S-1。另外，S′(m_S，n_T，l)指示通过对时间频谱S(n_mic，n_T，l)执行补零所获取的补零时间频谱，i指示纯虚数。此外，n_S指示空间频谱指数。

根据本实施方式，经由计算等式(7)通过逆离散傅里叶变换(IDFT)来执行空间频率变换。

另外，可以根据IDFT中的点的数目M_S根据需要来适当地执行补零。在示例中，对于0≤m_S≤N_mic–1的点m_S，假定补零时间频谱S′(m_S，n_T，l)＝时间频谱S(n_mic，n_T，l)，并且对于N_mic≤m_S≤M_S–1的点m_S，假定补零时间频谱S′(m_S，n_T，l)＝0。

在上述处理中获取的空间频谱S_SP(n_S，n_T，l)指示包括在时间帧l中的具有时间频率n_T的信号在空间中的波形。空间频率分析单元33将空间频谱S_SP(n_S，n_T，l)提供给通信单元34。

(驱动信号生成单元)

经由通信单元36和通信单元34从空间频率分析单元33向驱动信号生成单元37提供空间频谱S_SP(n_S，n_T，l)。

驱动信号生成单元37基于空间频谱S_SP(n_S，n_T，l)计算以下等式(8)，并且得到空间域的扬声器驱动信号D_sp(m_S，n_T，l)以由扬声器阵列41再现声场(波前)。也就是说，通过频谱分割法(SDM)计算作为空间频谱的扬声器驱动信号D_sp(m_S，n_T，l)。

[数学公式8]

另外，等式(8)中的y_ref指示SDM的参考距离，参考距离y_ref指示准确再现波前的位置。参考距离y_ref是沿与配置麦克风阵列31的麦克风被布置的方向正交的方向的距离。例如，这里，假定参考距离y_ref＝1[m]，但是也可以采用任何其他值。

另外，等式(8)中的H₀ ⁽²⁾指示第二种汉克尔函数，其中，K₀指示贝塞尔函数。另外，等式(8)中的i指示纯虚数，c指示声速，ω指示时间角频率。

此外，等式(8)中的k指示空间频率，m_S、n_T和l分别指示空间频谱指数、时间频谱指数和时间帧指数。

另外，这里已经通过示例描述了用于以SDM来计算扬声器驱动信号D_sp(m_S，n_T，l)的方法，但是也可以以其他方法计算扬声器驱动信号。另外，特别地在“在关于高保真立体声响和球面声学的第二次国际研讨会(2^nd International Symposium on Ambisonics andSpherical Acoustics)中，Jens Adrens，Sascha Spors，“Applying the AmbisonicsApproach on Planar and Linear Arrays of Loudspeakers””中详细描述了SDM。

驱动信号生成单元37将如上所述所获取的扬声器驱动信号D_sp(m_S，n_T，1)提供给空间滤波器应用单元38。

(空间滤波器应用单元)

空间滤波器应用单元38利用由驱动信号生成单元37提供的扬声器驱动信号D_sp(m_S，n_T，l)和空间带通滤波器B_θ(m_S，n_T)来得到空间滤波器频谱F(m_S，n_T，l)，空间带通滤波器B_θ(m_S，n_T)的特性通过由方位信息获取单元35提供的谈话者的方位信息θ来确定。另外，在这里，空间带通滤波器B_θ(m_S，n_T)的形状是矩形的，但是也可以采用任何其他形状的空间带通滤波器B_θ(m_S，n_T)。

具体地，空间滤波器应用单元38基于谈话者的方位信息θ来确定空间带通滤波器B_θ(m_S，n_T)的中心频率k_cen和带宽k_len，从而确定空间带通滤波器B_θ(m_S，n_T)的特性。也就是说，根据来自关注的主声源的音频的平面波的到达角θ来确定空间带通滤波器B_θ(m_S，n_T)的特性。

例如，空间滤波器应用单元38计算以下等式(9)，从而来计算中心频率k_cen，并且计算以下等式(10)，从而来计算带宽k_len。

[数学公式9]

[数学公式10]

另外，在等式(9)和等式(10)中，θ指示谈话者的方位信息或从声源向被叫方输出的平面波(音频)进入麦克风阵列31的到达角。另外，在等式(9)和等式(10)中，k_lim指示通过麦克风阵列31的麦克风间隔和扬声器阵列41的扬声器间隔所限定的上限空间频率。

空间带通滤波器B_θ(m_S，n_T)是将具有以中心频率k_cen的带宽k_len的空间频带作为传输频带(通频带)并且将其他空间频带作为截止频带(阻频带)的带通滤波器。

因此，当空间频谱指数m_S所指示的空间频率是传输频带内的频率时空间带通滤波器B_θ(m_S，n_T)的值是1，并且当空间频谱指数m_S所指示的空间频率是截止频带内的频率时空间带通滤波器B_θ(m_S，n_T)的值是0。从而，空间带通滤波器B_θ(m_S，n_T)是用于仅传输传输频带中的分量的空间滤波器。

当以此方式确定空间带通滤波器时，如以下等式(11)所指示，空间滤波器应用单元38使扬声器驱动信号D_sp(m_S，n_T，l)乘以空间带通滤波器B_θ(m_S，n_T)，从而获取空间滤波器频谱F(m_S，n_T，l)。

[数学公式11]

F(m_S，n_T，l)＝D_SP(m_S，n_T，l)B_θ(m_S，n_T) (11)

空间滤波器应用单元38将通过计算等式(11)获取的空间滤波器频谱F(m_S，n_T，l)提供给空间频率合成单元39。

下面将进一步描述空间带通滤波器B_θ(m_S，n_T)。

当谈话者的方位信息θ或到达角θ为θ＝0时，等式(9)中指示的中心频率k_cen为k_lim/2，并且随着到达角θ越接近π/2，中心频率k_cen越低，并且在到达角θ＝π/2处，中心频率k_cen为0。另外，随着到达角θ从θ＝π/2越接近θ＝π，中心频率k_cen越低，并且在到达角θ＝π处中心频率k_cen为-k_lim/2。

另外，当到达角θ为θ＝0时，等式(10)中指示的带宽k_len为k_lim，随着到达角θ越接近π/2，带宽k_len越大，并且在到达角θ＝π/2处，带宽k_len为2k_lim。另外，随着到达角θ从θ＝π/2越接近θ＝π，带宽k_len越小，并且在到达角θ＝π处，带宽k_len为k_lim。

因而，例如在到达角θ＝0处，如图4所示的其中空间频率k在0与上限空间频率k_lim之间的频带是传输频带。另外，在图4中，垂直轴指示时间频率f，水平轴指示空间频率k。

在到达角θ＝0处，如箭头A11所指示，在由麦克风阵列31拾取的平面波的空间频谱(角频谱)处观测到线L21所指示的谱峰和线L22所指示的谱峰。

这里，出现在其中空间频率k在k≥0处的区域中的通过线L21指示的谱峰本来就会出现。相反，通过线L22指示的谱峰由于空间混叠而出现，可见，空间混叠在其中空间频率k为负的区域中是显著的。

在示例中，其中由于空间混叠而产生的通过线L22指示的谱峰不存在的时间频率f的区域是非混叠带R11。相反，其中时间频率比非混叠带R11的上限时间频率或上限时间频率f_lim高的区域是被空间混叠所干扰的混叠带R12。

另外，在到达角θ＝0处，基于等式(9)和等式(10)通过折线L23来指示空间带通滤波器B_θ(m_S，n_T)的特性。

也就是说，如箭头A12所示，空间带通滤波器B_θ(m_S，n_T)具有中心频率k_len＝k_lim/2以及带宽k_cen＝k_lim。因此，在示例中，当空间频率k在起始频率sb＝0与终止频率eb＝k_lim之间时的分量被传输，并且在其他截止频带中的分量被空间带通滤波器B_θ(m_S，n_T)截止(被去除)。

图4示出了其中阴影区域被空间带通滤波器B_θ(m_S，n_T)截止的区域，并且在示例中，去除了通过线L22指示的由于空间混叠所产生的谱峰中的空间频率k为负的区域。

因此，作为在其中不存在由于空间混叠所产生的谱峰的时间频率f处的区域的非混叠带R13比非混叠带R11宽，并且被空间混叠所干扰的混叠带R14相应地较窄。换言之，可以由空间带通滤波器B_θ(m_S，n_T)在滤波器处理中提高上限时间频率f_lim。在示例中，负空间频率分量减少，因此，不被空间混叠所干扰的上限时间频率f_lim加倍。

可以以此方式通过空间带通滤波器B_θ(m_S，n_T)在滤波器处理中提高上限时间频率f_lim，因此可以增强在到达角θ或角θ处传播的平面波的音质。另外，可以减少空间混叠，因此可以改善对其中混合有以其他可能的角度传播的平面波的音像的定位。也就是说，可以实现对音像的更准确的定位。

类似地，基于等式(9)和等式(10)，如图5中所示，其中空间频率k在-k_lim与上限空间频率k_lim之间的频带是到达角θ＝π/2处的传输频带。另外，在图5中，垂直轴指示时间频率f，水平轴指示空间频率k。

在到达角θ＝π/2处，如箭头A21所示，在由麦克风阵列31拾取的平面波的空间频谱(角频谱)处观测到通过线L31指示的谱峰。

这里，出现在具有空间频率k＝0的区域中的通过线L31指示的谱峰本来就会出现。另外，在到达角θ＝π/2处不发生空间混叠，因此不出现由于空间混叠而产生的谱峰。在示例中，不发生空间混叠，因此，时间频率f处的全部区域是非混叠带。

以此方式，在到达角θ＝π/2处，基于上述等式(9)和等式(10)，通过折线L32来指示空间带通滤波器B_θ(m_S，n_T)的特性。

也就是说，如箭头A22所指示，空间带通滤波器B_θ(m_S，n_T)具有中心频率k_cen＝0以及带宽k_len＝2k_lim。因此，在示例中，当空间频率k在起始频率sb＝-k_lim与终止频率eb＝k_lim之间时的分量被传输并且在其他截止频带中的分量被空间带通滤波器B_θ(m_S，n_T)截止。

另外，图5示出了其中阴影区域被空间带通滤波器B_θ(m_S，n_T)截止的区域。在示例中，起始频率sb为-k_lim，终止频率eb为k_lim，因此，正空间频率分量和负空间频率分量没有特别减少。

当如上所述通过空间带通滤波器B_θ(m_S，n_T)执行滤波器处理时，可以提高上限时间频率f_lim，并且可以增强在特别关注的到达角θ处传播的平面波的音质，从而改善对音像的定位。

另外，当由空间带通滤波器B_θ(m_S，n_T)去除截止频带中的分量时，以与角度θ不同的角度传播的平面波的音质由于被去除的分量而被劣化。因此，在再现空间中可以以较好音质取得音频的区域的范围相应较窄。

然而，随着到达角θ越接近π/2或空间混叠越小，则带宽k_len越大并且可以以较好音质取得音频的区域越宽，因此空间混叠控制器11可以限制滤波器处理所产生的影响。

另外，以上描述了其中针对空间频率，根据谈话者的方位信息θ来设置作为空间带通滤波器B_θ(m_S，n_T)的特性的传输频带的示例，但是也可以仅针对时间频率，根据谈话者的方位信息来设置传输频带。

另外，可以分别针对空间频率和时间频率，根据谈话者的方位信息θ来设置作为空间带通滤波器B_θ(m_S，n_T)的特性的传输频带。在这样的情况下，不仅针对空间频率而且针对时间频率来确定根据谈话者的方位信息θ的中心频率和带宽或者传输频带。然后，当通过空间频谱指数m_S指示的空间频率在传输频带内并且通过时间频谱指数n_T指示的时间频率在传输频带内时，空间带通滤波器B_θ(m_S，n_T)的值为1。也就是说，空间带通滤波器B_θ(m_S，n_T)用于仅传输空间频率的传输频带以及时间频率的传输频带中的分量。

(空间频率合成单元)

随后将描述空间频率合成单元39。

空间频率合成单元39计算以下等式(12)以对由空间滤波器应用单元38提供的空间滤波器频谱F(m_S，n_T，l)执行空间频率合成或者对空间滤波器频谱F(m_S，n_T，l)执行逆空间频率变换，从而计算时间频谱D(n_spk，n_T，l)。在等式(12)中，离散傅里叶变换(DFT)被执行为逆空间频率变换。

[数学公式12]

另外，等式(12)中的n_spk指示用于指定配置扬声器阵列41的扬声器的扬声器指数。另外，M_S指示DFT中的点的数目，i指示纯虚数。

空间频率合成单元39将如此所获取的时间频谱D(n_spk，n_T，l)提供给时间频率合成单元40。

(时间频率合成单元)

时间频率合成单元40计算以下等式(13)以对由空间频率合成单元39提供的时间频谱D(n_spk，n_T，l)执行时间频率合成，从而获取输出帧信号d_fr(n_spk，n_fr，l)。这里，逆短时傅里叶变换(ISTFT)用于时间频率合成，但是也可以使用与由时间频率分析单元32执行的时间频率变换的逆变换对应的任何方法。

[数学公式13]

另外，在以下等式(14)中获取等式(13)中的D′(n_spk，m_T，l)。

[数学公式14]

在等式(13)中，i指示纯虚数，n_fr指示时间指数。另外，在等式(13)和等式(14)中，M_T指示ISTFT中的点的数目，n_spk指示扬声器指数。

此外，时间频率合成单元40使所产生的输出帧信号d_fr(n_spk，n_fr，l)乘以窗函数w_T(n_fr)，并且执行重叠相加，从而来执行帧合成。例如，通过计算以下等式(15)来执行帧合成，因此得到输出信号d(n_spk，t)。

[数学公式15]

d^curr(n_spk，n_fr+l N_fr)

＝d_fr(n_spk，n_fr，l)w_T(n_fr)+d^prev(n_spk，n_fr+l N_fr) (15)

另外，在这里，与由时间频率分析单元32使用的窗函数相同的窗函数被用作由输出帧信号d_fr(n_spk，n_fr，l)所乘的窗函数w_T(n_fr)，但是也可以针对其他窗例如汉明窗来采用矩形窗。

另外，在等式(15)中，d^prev(n_spk，n_fr+l N_fr)和d^curr(n_spk，n_fr+l N_fr)二者均指示输出信号d(n_spk，t)，但是d^prev(n_spk，n_fr+l N_fr)指示未更新的值，而d^curr(n_spk，n_fr+l N_fr)指示更新的值。

时间频率合成单元40将如此所获取的输出信号d(n_spk，t)作为扬声器驱动信号提供给扬声器阵列41。

<声场再现处理的描述>

下面将描述上述的由空间混叠控制器11执行的处理的流程。当被指示在拾音空间中拾取音频的平面波时，空间混叠控制器11执行拾取平面波的声场再现处理以再现声场。

下面将参照图6的流程图来描述空间混叠控制器11的声场再现处理。

在步骤S11中，麦克风阵列31在拾音空间中拾取音频的平面波，并且将所产生的拾音信号s(n_mic，t)提供给时间频率分析单元32。

在步骤S12中，时间频率分析单元32分析由麦克风阵列31提供的拾音信号s(n_mic，t)的时间频率信息。

具体地，时间频率分析单元32对拾音信号s(n_mic，t)执行时间帧分割，并且使所产生的输入帧信号s_fr(n_mic，n_fr，l)乘以窗函数w_T(n_fr)，从而来计算窗函数应用信号s_W(n_mic，n_fr，l)。

另外，时间频率分析单元32对窗函数应用信号s_W(n_mic，n_fr，l)执行时间频率变换，并且将所产生的时间频谱S(n_mic，n_T，l)提供给空间频率分析单元33。也就是说，计算等式(6)，以计算时间频谱S(n_mic，n_T，l)。

在步骤S13中，空间频率分析单元33对由时间频率分析单元32提供的时间频谱S(n_mic，n_T，l)执行空间频率变换，并且将所产生的空间频谱S_SP(n_S，n_T，l)提供给通信单元34。

具体地，空间频率分析单元33计算等式(7)，从而将时间频谱S(n_mic，n_T，1)变换成空间频谱S_SP(n_S，n_T，l)。

在步骤S14中，通信单元34经由无线通信将由空间频率分析单元33提供的空间频谱S_SP(n_S，n_T，l)发送给布置在再现空间中的接收器22。然后在步骤S15中，接收器22中的通信单元36接收经由无线通信所发送的空间频谱S_SP(n_S，n_T，l)，并且将其提供给驱动信号生成单元37。

在步骤S16中，方位信息获取单元35获取谈话者的方位信息θ，并且将其提供给空间滤波器应用单元38。例如，可以预先限定或者可以从发送器21等获取谈话者的方位信息θ。

在步骤S17中，驱动信号生成单元37基于从通信单元36提供的空间频谱S_SP(n_S，n_T，l)来计算空间域的扬声器驱动信号D_SP(m_S，n_T，l)，并且将其提供给空间滤波器应用单元38。例如，驱动信号生成单元37计算等式(8)，从而来计算空间域的扬声器驱动信号D_SP(m_S，n_T，l)。

在步骤S18中，空间滤波器应用单元38基于由方位信息获取单元35提供的谈话者的方位信息θ来确定空间带通滤波器B_θ(m_S，n_T)的特性。

例如，空间滤波器应用单元38计算上述的等式(9)和等式(10)以计算空间带通滤波器B_θ(m_S，n_T)的中心频率k_cen和带宽k_len，从而确定空间带通滤波器B_θ(m_S，n_T)的特性或传输频带。

在步骤S19中，空间滤波器应用单元38将具有所确定的特性的空间带通滤波器B_θ(m_S，n_T)应用于由驱动信号生成单元37提供的扬声器驱动信号D_SP(m_S，n_T，l)。

也就是说，空间滤波器应用单元38计算等式(11)以使用空间带通滤波器B_θ(m_S，n_T)对扬声器驱动信号D_SP(m_S，n_T，l)执行滤波器处理，从而获取空间滤波器频谱F(m_S，n_T，l)。

空间滤波器应用单元38将在滤波器处理中获取的空间滤波器频谱F(m_S，n_T，l)提供给空间频率合成单元39。

在步骤S20中，空间频率合成单元39对由空间滤波器应用单元38提供的空间滤波器频谱F(m_S，n_T，l)执行逆空间频率变换，并且将所产生的时间频谱D(n_spk，n_T，l)提供给时间频率合成单元40。例如，空间频率合成单元39计算等式(12)以执行逆空间频率变换。

在步骤S21中，时间频率合成单元40对由空间频率合成单元39提供的时间频谱D(n_spk，n_T，l)执行时间频率合成。

具体地，时间频率合成单元40计算等式(13)，从而来基于时间频谱D(n_spk，n_T，l)计算输出帧信号d_fr(n_spk，n_fr，l)。另外，时间频率合成单元40使输出帧信号d_fr(n_spk，n_fr，l)乘以窗函数w_T(n_fr)以计算等式(15)，从而通过帧合成来计算输出信号d(n_spk，t)。

在步骤S22中，扬声器阵列41基于由时间频率合成单元40提供的扬声器驱动信号来再现音频，并且终止声场再现处理。当以此方式基于扬声器驱动信号来再现音频时，在再现空间中再现拾音空间的声场。

如上所述，空间混叠控制器11基于谈话者的方位信息θ来确定空间带通滤波器B_θ(m_S，n_T)的特性，并且将空间带通滤波器B_θ(m_S，n_T)应用于扬声器驱动信号D_SP(m_S，n_T，l)，从而减少空间混叠。

以此方式，利用具有根据谈话者的方位信息θ的特性的空间带通滤波器B_θ(m_S，n_T)来减少空间混叠，从而提高上限时间频率f_lim，增强音质，并且改善对音像的定位。另外，空间混叠控制器11可以以简单的处理例如滤波器处理来减少空间混叠，而无需准备专用的扬声器阵列，从而以较低的成本来提高上限时间频率。

附带地，可以以硬件或以软件来执行上述一系列处理。当以软件来执行这一系列处理时，配置软件的程序被安装在计算机中。这里，计算机可以是包含在专用硬件中的计算机、能够通过将各种程序安装在其中来执行各种功能的通用个人计算机等。

图7是示出用于通过程序来执行上述的一系列处理的计算机的示例性硬件配置的框图。

在计算机中，中央处理单元(CPU)501、只读存储器(ROM)502和随机存取存储器(RAM)503经由总线504相互连接。

总线504还与I/O接口505连接。I/O接口505与输入单元506、输出单元507、记录单元508、通信单元509以及驱动器510连接。

输入单元506配置有键盘、鼠标、麦克风、图像拾取装置等。输出单元507配置有显示器、扬声器等。记录单元508配置有硬盘、非易失性存储器等。通信单元509配置有网络接口等。驱动器510对例如磁盘、光盘、磁光盘或半导体存储器的可移除介质511进行驱动。

在如此配置的计算机中，CPU 501经由I/O接口505和总线504将记录在记录单元508中的程序加载到RAM 503中并且执行所述程序，从而来执行例如上述的一系列处理。

计算机(CPU 501)所执行的程序可以被记录并且提供在例如作为封装介质等的可移除介质511中。另外，可以经由有线或无线传输介质例如局域网、因特网或数字卫星广播来提供程序。

在计算机中，可移除介质511被安装在驱动器510中，使得程序可以经由I/O接口505被安装在记录单元508中。另外，可以经由有线或无线传输介质在通信单元509中接收程序并且将其安装在记录单元508中。另外，可以将程序预先安装在ROM 502或记录单元508中。

另外，计算机所执行的程序可以是以下程序，通过所述程序按照在说明书中描述的顺序以时间次序来执行处理或者通过所述程序并行地或者在必要定时处例如在调用时执行处理。

另外，本技术的实施方式不限于以上实施方式并且可以在不背离本技术的精神的情况下以各种方式被修改。

例如，本技术可以采取云计算配置，在该配置中，一个功能经由网络被分布在多个装置中并且在所述多个装置中进行处理。

另外，以上流程图中描述的每个步骤可以在一个装置中执行，并且可以被分布在多个装置中并且在所述多个装置中进行处理。

此外，当一个步骤包括多个处理时，包括在一个步骤中的处理可以在一个装置中执行并且可以在多个装置中执行。

此外，本技术可以采用以下配置。

[1].一种音频处理装置，包括：

方位信息获取单元，所述方位信息获取单元用于获取关于声源的方向的方位信息；以及

空间滤波器应用单元，所述空间滤波器应用单元用于将具有通过所述方位信息限定的特性的空间滤波器应用于拾音信号，所述拾音信号是通过由多个麦克风构成的麦克风阵列拾取来自所述声源的音频而获取的。

[2].根据[1]所述的音频处理装置，

其中，所述空间滤波器应用单元基于所述方位信息来确定作为所述空间滤波器的特性的中心频率和带宽。

[3].根据[2]所述的音频处理装置，

其中，在将通过所述中心频率和所述带宽限定的空间频率的频带作为传输频带的情况下，所述空间滤波器用于传输所述拾音信号的所述传输频带中的分量。

[4].根据[2]或[3]所述的音频处理装置，

其中，在将通过所述中心频率和所述带宽限定的时间频率的频带作为传输频带的情况下，所述空间滤波器用于传输所述拾音信号的所述传输频带中的分量。

[5].根据[2]至[4]中任一项所述的音频处理装置，

其中，所述空间滤波器应用单元将所述空间滤波器的特性确定成使得：随着通过所述方位信息指示的声源的方向与所述麦克风阵列之间所形成的角度越接近π/2，所述带宽越大。

[6].根据[1]至[5]中任一项所述的音频处理装置，

其中，所述麦克风阵列是线性麦克风阵列。

[7].一种音频处理方法，包括以下步骤：

获取关于声源的方向的方位信息；以及

将具有通过所述方位信息限定的特性的空间滤波器应用于拾音信号，所述拾音信号是通过由多个麦克风构成的麦克风阵列拾取来自所述声源的音频而获取的。

[8].一种程序，所述程序用于使计算机执行包括以下步骤的处理：

获取关于声源的方向的方位信息；以及

附图标记列表

11 空间混叠控制器

31 麦克风阵列

32 时间频率分析单元

33 空间频率分析单元

35 方位信息获取单元

37 驱动信号生成单元

38 空间滤波器应用单元

39 空间频率合成单元

40 时间频率合成单元

41 扬声器阵列

Claims

1.一种音频处理装置，包括：

空间滤波器应用单元，所述空间滤波器应用单元用于将具有通过所述方位信息限定的特性的空间滤波器应用于空间域的扬声器驱动信号，所述空间域的扬声器驱动信号是基于以下空间频谱而生成的：所述空间频谱根据通过由多个麦克风构成的麦克风阵列拾取来自所述声源的音频而获取的拾音信号而生成，

其中，所述空间滤波器应用单元基于所述方位信息来确定作为所述空间滤波器的特性的中心频率和带宽，以及

其中，所述空间滤波器应用单元将所述空间滤波器的特性确定成使得：随着通过所述方位信息指示的声源的方向与构成所述麦克风阵列的麦克风被布置的方向之间所形成的角度越接近π/2，所述带宽越大。

2.根据权利要求1所述的音频处理装置，

3.根据权利要求1所述的音频处理装置，

4.根据权利要求1所述的音频处理装置，

其中，所述麦克风阵列是线性麦克风阵列。

5.一种音频处理方法，包括以下步骤：

获取关于声源的方向的方位信息；以及

将具有通过所述方位信息限定的特性的空间滤波器应用于空间域的扬声器驱动信号，所述空间域的扬声器驱动信号是基于以下空间频谱而生成的：所述空间频谱根据通过由多个麦克风构成的麦克风阵列拾取来自所述声源的音频而获取的拾音信号而生成，

其中，基于所述方位信息来确定作为所述空间滤波器的特性的中心频率和带宽，以及

其中，将所述空间滤波器的特性确定成使得：随着通过所述方位信息指示的声源的方向与构成所述麦克风阵列的麦克风被布置的方向之间所形成的角度越接近π/2，所述带宽越大。

6.一种存储有程序的计算机可读记录介质，所述程序用于使计算机执行包括以下步骤的处理：

获取关于声源的方向的方位信息；以及