CN107113496B

CN107113496B - 移动设备的环绕声记录

Info

Publication number: CN107113496B
Application number: CN201480084172.XA
Authority: CN
Inventors: 克里斯托弗·富勒; 亚历克西斯·法夫罗; 彼得·格罗舍; 郎玥
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2014-12-18
Filing date: 2014-12-18
Publication date: 2020-12-08
Anticipated expiration: 2034-12-18
Also published as: WO2016096021A1; CN107113496A; KR102008745B1; US20170289686A1; KR20170095348A; EP3222053B1; US10154345B2; EP3222053A1

Abstract

本发明涉及一种麦克风装置100和使用所述麦克风装置100在移动设备200中记录环绕声的方法900。所述麦克风装置100包括：第一麦克风102和第二麦克风103，被设置相距第一距离d₁并用于获得立体声信号；所述第三麦克风，用于与所述第一麦克风102和第二麦克风103中的至少一个一起和/或与第四麦克风104一起获得控制信号(DOA，1‑DOA)。所述麦克风装置100还包括处理器105，所述处理器用于基于所述控制信号(DOA，1‑DOA)将所述立体声信号分为前立体声信号(FL，FR)和后立体声信号(BL，BR)。

Description

移动设备的环绕声记录

技术领域

本发明涉及一种在移动设备中记录环绕声的麦克风装置和方法。具体而言，本发明实现了移动设备中的多声道记录，即实现2个或更多，例如5个或更多声道的记录。

背景技术

通常，移动设备提供了记录视频和音频数据的可能性。为了在空间上扩展音频体验，一些移动设备甚至通过使用多个麦克风和对麦克风信号进行大量后处理来使得音频数据自然地记录为环绕声。然而，像智能手机和平板电脑等传统移动设备不具备记录这种多声道环绕声的能力，这是因为传统环绕声记录技术需要大且昂贵的麦克风阵列或装置。

例如，增强型DECCA树、优化心型三角形(Optimized Cardioid Triangle，OCT)和XYtri配置已知为环绕声记录装置。由于它们的大小，这些装置不适用于移动设备。

同样因环绕声记录出名的更紧凑的传统麦克风装置包括，例如“声场麦克风”(如K.Farrar描述的“Soundfield microphone:Design and development of microphone andcontrol unit”，无线世界，第48至50页，1979年10月)以及“Schoeps Double MS”(如http://www.schoeps.de/en/products/categories/dms中描述)。然而，这两种装置都需要使用特定的压力梯度麦克风元件，这不适合于非常小的移动设备，例如平板电脑、智能手机等等。

现有技术中的一些方法使用全向麦克风来记录声音，其优点在于可以使用便宜的麦克风。例如，可以将一对全向麦克风信号转换为两个一阶差分信号以生成左右分离改进的立体声信号(例如，如C.Faller描述的“Conversion of two closely spacedomnidirectional microphone signals to an xy stereo signal”，，第129届音频工程师协会会议预制刊，2010年11月)。然而，缺点在于差分信号在低频处具有低信噪比，而在高频处具有频谱缺陷。这种效果强烈取决于麦克风之间的距离。距离小时，低频同样受到影响。当使用平板电脑等移动设备记录声音时，记录前/后信号的麦克风之间的距离受到设备厚度的限制。由于现代设备通常小于一厘米厚，所以麦克风之间的最大距离很小。在这种情况下，没有充分解决前/后分离，因此小型装置不可能具备环绕声记录。也就是，这些方法仍然需要麦克风之间存在很大间距。

现有技术中的一些其它方法将定向麦克风(例如心型)用于环绕声记录。优点在于麦克风可以彼此靠近放置(多信号同步)。然而，需要更复杂且昂贵的定向麦克风。

通常，由于移动设备的形状因素少，设置捕获良好环绕声的麦克风在技术上存在困难，这是因为记录环绕声需要大量特定位置和定向响应的麦克风。另外，环绕声记录通常需要昂贵的定向麦克风。此类定向麦克风还需要安装在自由空间内，但是在移动设备上可能只有单侧开口，这限制了声压(即全向)麦克风的使用。

由于上述原因，在现有市场上只有少数移动设备具有环绕声记录的特点，少数移动设备通常为很大且昂贵的高端专用视频摄像机。较小的移动设备，例如智能手机和平板电脑，通常只具有单音或有限立体声捕获的特点。因此需要合适的小巧且成本有效的麦克风装置，例如用于平板电脑或智能手机等便携式设备。

发明内容

相应地，鉴于现有技术的缺点，本发明旨在改进现有技术。具体而言，本发明的目的是提供一种用于在移动设备中记录环绕声的麦克风装置，其足够小且成本有效。也就是，需要满足像智能手机和平板电脑等移动设备的空间和成本限制。

本发明的上述目的通过所附独立权利要求提供的方案实现。本发明的有利实施方式在相应从属权利要求中进一步限定。具体而言，本发明提出了一种将移动设备上的至少三个麦克风有利地组合的方式，其中这些至少三个麦克风中的至少一对用于立体声信号(即左右)记录(该对称为“LR对”)。这些至少三个麦克风中的至少第二对用于获得前/后控制信号(该对称为“FB对”)。

具体地，本发明的第一方面提供了一种用于在移动设备中记录环绕声的麦克风装置。所述麦克风装置包括第一和第二麦克风，其中，所述第一麦克风用于获得立体声信号的第一音频信号，第二麦克风用于获得所述立体声信号的第二音频信号。此外，所述麦克风装置包括第三麦克风，所述第三麦克风用于获得第三音频信号。所述麦克风装置还包括处理器，所处处理器用于基于所述第三音频信号和所述麦克风装置的另一麦克风获得的另一音频信号获得控制信号以及基于所述控制信号将所述立体声信号划分为前立体声信号和后立体声信号。因此，所述前立体声信号以及所述后立体声信号包括左音频声道和右音频声道。

如上所述，所述立体声信号包括左/右信息。所述第一和第二麦克风因此为所述LR对。所述FB对由所述第三麦克风以及所述第一和第二麦克风中的一个或两者组成。

有利的是，使用参数方法生成所述环绕声。所述立体声优选地使用高级麦克风(全向或定向)记录，以便生成输出声道，而所述控制信号优选地从可能低级麦克风(全向或定向)中获得，以便通过采用某种波达方向估计仅从控制信号中推导出控制参数。换言之，实际上只有所述LR对可用于记录声音，只有所述FB对可用于获得所述控制信号。基于所述控制信号(例如使用推导出的控制参数)将所述LR立体声信号分为前立体声信号(即前LR)和后立体声信号(即后LR)。

所述控制信号基于所述第三音频信号和其它音频信号中的至少一个提供前和后信息。所述控制信号具体可以为二进制前-后信号。此外，其可以为基于相应音频信号的连续函数。所述控制信号可以控制纳入所述前和所述后立体声信号中的立体声信号的比率。

所述第一方面的所述麦克风装置的优点在于，可以通过最少量的麦克风来检测环绕声信息，以及所述麦克风装置尤其适合内置在例如智能手机、平板电脑或数码相机等移动设备中。

根据所述第一方面，在所述麦克风装置的第一实施形式中，所述麦克风装置包括用于获得第四音频信号的第四麦克风。在这种情况下，所述处理器用于基于所述第三音频信号以及所述第一音频信号、所述第二音频信号和所述第四音频信号中的至少一个来获得控制信号。

可以将所述第三麦克风设置为距所述第一和第二麦克风的交叉点有预定义的垂直距离。具体而言，可以将所述第三麦克风设置在平板电脑、智能手机或类似设备的表面上。可以将所述第四麦克风设置为距所述第一和第二麦克风的所述交叉点有另一垂直距离。具体而言，可以将所述第四麦克风设置在平板电脑、智能手机或类似设备的所述表面上，所述表面与携带所述第三麦克风的所述表面相对。

有利的是，可以使用不同的麦克风来获得所述立体声信号和所述控制信号。具体而言，可以通过所述第一和所述第二麦克风来获得所述立体声信号，可以通过所述第三和第四麦克风来获得所述前和后信息。

根据如上所述第一方面或根据所述第一方面的所述第一实施形式，在第二实施形式中，所述控制信号包括波达方向(direction-of-arrival，DOA)信息，所述处理器用于将所述DOA信息与所述立体声信号的至少一部分合并以获得所述前和后立体声信号。

所述组合具体可以包括乘法、加法，和/或融合算法等数学运算，例如卡尔曼滤波等。此外，根据所述控制信号，所述DOA信息可以更精确或不精确。具体而言，如果所述控制信号为二进制信号，仅指示来自前声道的音频信息和来自后声道的音频信息，则DOA信息也仅包含来自前声道的音频信号和来自后声道的音频信号之间的区别。

用于获得所述控制信号的所述FB对麦克风可以是靠近设置的麦克风，即可以设置在典型移动设备的厚度内。尽管用于确定所述控制信号的这些麦克风仅产生较少的空间信息，但是可以用于解决所述LR对麦克风所记录的声音源自的方向。因此，可以获得将所述立体声信号分为所述前和后立体声信号的必要参数。

根据所述第一方面的所述第二实施形式，在所述麦克风装置的第三实施形式中，所述处理器用于确定所述立体声信号的直达声分量和漫射声分量，以及将所述DOA信息仅与所述立体声信号的所述直达声分量合并以获得所述前和后立体声信号。

所述立体声信号的所述直达声分量源自可以定位的定向声源，而漫射声分量源自无法定位的源。因此，只将所述直达声分量与所述DOA信息合并，以便获得更好的整体环绕声质量。

根据所述第一方面的所述第二或第三实施形式，在所述麦克风装置的第四实施形式中，所述处理器用于基于所述第三音频信号和所述另一音频信号之间的第一声道间声级差(inter-channel-level-difference，ICLD)确定所述DOA，其中，所述第一ICLD基于所述第一音频信号和所述另一音频信号的时间和/或频率表示之差，尤其是功率谱之差。

通过计算所述第一ICLD，所述处理器可以获得尤其适合于低频的记录声音的DOA信息。

根据所述第一方面的所述第四实施形式，在所述麦克风装置的第五实施形式中，所述第三麦克风和所述另一麦克风，尤其是用于获得所述控制信号的所述麦克风，为全向声压麦克风；所述处理器用于处理所述第三音频信号和所述另一音频信号，从而形成指向相反方向的两个虚拟声压梯度麦克风，并且用于以所述两个虚拟声压梯度麦克的输出信号为基础获得所述第一ICLD。

基于两个全向声压麦克风，具体通过延迟由所述两个麦克风获得的其中一个所述信号以及将其从所述其它麦克风获得的所述信号中减去，可以产生两个虚拟定向麦克风，即一个指向所述麦克风装置的前面，一个指向后面。因此，获得了将所述立体声信号分为所述前和后立体声信号的优化控制信号。

根据所述第一方面的所述第二至第六实施形式之一，在所述麦克风装置的第六实施形式中，所述处理器用于基于所述用于获得所述控制信号的麦克风的第二ICLD确定所述DOA信息，其中，所述第二ICLD基于所述麦克风的相应输入信号之间的时间和/或频率表示之差，尤其是功率谱之差，所述增益差由至少部分设置在所述麦克风之间的所述麦克风装置的外壳的屏蔽效果产生。

通过使用所述第二ICLD，所述处理器可以为高频率声音确定信噪比(signal-to-noise ratio，SNR)较低的所述DOA信息，所述信噪比尤其受延迟和减法处理中的频谱效果影响。

根据所述第一方面的所述第四至第五实施形式之一以及根据所述第一方面的所述第六实施形式，在所述麦克风装置的第七实施形式中，所述处理器用于使用所述第一ICLD来确定立体声信号的频率为或低于确定的阈值时的所述DOA信息，以及使用所述第二ICLD来确定所述立体声信号的频率高于所述确定的阈值时的所述DOA信息。

频率相关ICLD使用的优点在于为声音的每个频率选择最优处理，因此可以记录最佳环绕声信号。由所述麦克风装置(或移动设备)的屏蔽效果产生的所述第二ICLD尤其对声音频率大于10kHz的情况有效，优选地针对频率f>c/(4d₂)，其中，c表示记录声音的速度，d₂为用于获得所述控制信号的所述麦克风之间的距离。该距离通常涉及所述移动设备的厚度，因为用于获得所述控制信号的所述麦克风优选地分别设在所述移动设备的前侧和后侧。

所述第三麦克风可以用于与所述第一和第二麦克风中的一个一起获得所述控制信号，所述第三麦克风与所述第一和第二麦克风中的一个之间的第二距离垂直于所述第一和所述第二麦克风之间的所述第一距离，或者所述第三麦克风可以用于与所述第四麦克风一起获得所述控制信号，以及设置所述第四麦克与所述第三麦克风的第二距离垂直于所述第一和第二麦克风之间的所述第一距离。

如果没有第四麦克风，即当使用所述第一和第二麦克风中的至少一个进行检测时，所述垂直第二距离的优点在于所述立体声信号和所述控制信号之间没有耦合(或耦合降低)。如果存在第四麦克风用于获得所述控制信号，则所述垂直第二距离的优点在于所述LR对中的所述立体声信号和所述FB对中的所述控制信号之间没有耦合(耦合降低)。

根据所述第一方面的所述第七实施形式，在所述麦克风装置的第八实施形式中，所述确定的阈值取决于所述第三麦克风以及所述第一、第二和所述第四麦克风中一个之间的第二距离。

根据所述第一方面的所述第四至第八实施形式，在所述麦克风装置的第九实施形式中，所述处理器用于将所述第一ICLD和/或所述第二ILCD向所述第三麦克风或所述另一麦克风偏置。

所述第一和/或所述第二ICLD的偏置的优点在于提高信噪比(signal to noiseratio，SNR)，尤其是在只有很小信号差的情况下。优选地，用于偏置的偏置参数遵循正切函数，而所述函数是优选的，使得所述函数仅放大大值，而留下接近0的小值。

根据所述第一方面的所述第二至第九实施形式中的一种，在所述麦克风装置的第十实施形式中，所述处理器用于将所述DOA信息偏置到所述第三麦克风或所述另一麦克风中的一个。

所述DOA信息的所述偏置的优点在于可以根据需要改变已记录的环绕声的环绕效果。

根据如上所述第一方面或根据所述第一方面的任意前述实施形式，在所述麦克风装置的第十一实施形式中，所述第三麦克风和所述另一麦克风为定向麦克风和/或指向相反方向，和/或所述第一和所述第二麦克风为定向麦克风和/或指向所述相反方向。

所述麦克风的所述相反方向的优点在于，组成所述控制信号的信号(分别由所述FB对麦克风记录)和组成所述立体声信号的信号(分别由所述LF对麦克风记录)内都不存在耦合。

根据如上所述第一方面或根据所述第一方面的任意前述实施形式，在所述麦克风装置的第十二实施形式中，所述处理器用于从所述立体声信号中确定中心信号，或者所述第四麦克风用于获得中心信号。

在具有其它中心信号的情况下，已记录的环绕声具有5个声道，并且可以为5.1声道标准环绕声信号，等等。

本发明的第二方面提供了一种带有根据如上所述第一方面或根据所述第一方面的任意实施形式的麦克风装置的移动设备，其中，所述第一和所述第二麦克风设置在基本上水平的用户平面中。

所述第二方面的所述移动设备能够记录优选地具有5个声道的环绕声。由于所述麦克风装置有可能设置很小，所以移动设备也可以构造地很紧凑，尤其是很薄。然而，环绕声记录可以通过相当便宜的麦克风来实现。一般而言，所述第二方面的所述移动设备拥有上述有关所述第一方面的各种实施形式提到的所有优点。

本发明的第三方面提供了一种用于在移动设备中记录环绕声的方法，包括以下步骤：

通过第一麦克风获得立体声信号的第一音频信号以及通过第二麦克风获得立体声信号的第二音频信号；

通过第三麦克风获得第三音频信号；

通过第三麦克风与所述第一和第二麦克风一起和/或通过第四麦克风获得控制信号，

基于所述控制信号将所述立体声信号分为前立体声信号和后立体声信号。

根据所述第三方面，在所述方法的第一实施形式中，第四音频信号由第四麦克风获得，控制信号基于所述第三音频信号以及所述第一音频信号、所述第二音频信号和所述第四音频信号中的至少一个获得。

根据如上所述第三方面或根据所述第三方面的所述第二实施形式，在所述方法的第二实施形式中，所述控制信号包括波达方向(direction-of-arrival，DOA)信息，所述DOA信息与所述立体声信号的至少一部分合并以获得所述前和后立体声信号。

根据所述第三方面的所述第二实施形式，在所述方法的第三实施形式中，确定所述立体声信号的直达声分量和漫射声分量，以及仅将所述DOA信息与所述立体声信号的所述直达声分量合并以获得所述前立体声信号和所述后立体声信号。

根据所述第三方面的所述第二或第三实施形式中的一种，在所述方法的第四实施形式中，基于所述第三音频信号和所述另一音频信号之间的第三声道间声级差(inter-channel-level-difference，ICLD)确定所述DOA信息，其中，所述第一ICLD基于所述第一音频信号和所述另一音频信号的时间和/或频率表示之差，尤其是功率谱之差。

根据所述第三方面的所述第四实施形式，在所述方法的第五实施形式中，从全向声压麦克风获得音频信号，处理所述第三音频信号和所述另一音频信号，从而形成指向相反方向的两个虚拟声压梯度麦克风，并以所述两个虚拟声压梯度麦克风的输出信号为基础获得所述第一ICLD。

根据所述第三方面的所述第二至所述第五实施形式中的一种，在所述方法的第六实施形式中，另外基于所述第三音频信号和所述另一音频信号之间的第二ICLD确定所述DOA信息，其中，所述第二ICLD基于所述第三音频信号和所述另一音频信号之间的时间和/或频率表示之差，尤其是功率谱之差，所述差由至少部分设置在所述第三麦克风和所述另一麦克风之间的所述麦克风装置外壳的屏幕效过产生。

根据所述第三方面的所述第四至第五实施形式中的一种，在所述方法的第七实施形式中，所述第一ICLD用于确定所述立体声信号的频率为或小于确定的频率阈值时的所述DOA信息，以及所述第二ICLD用于确定所述立体声信号的频率高于所述确定的频率阈值时的所述DOA信息。

根据所述第三方面的所述第七实施形式，在所述方法的第八实施形式中，所述确定的阈值取决于所述第三麦克风以及所述第一、第二和所述第四麦克风中的一个之间的第二距离。

根据所述第三方面的第四至第八实施形式或所述第六实施形式，在所述方法的第九实施形式中，所述第一和/或所述第二ICLD向所述第三麦克风或所述另一麦克风偏置。

根据所述第三方面的所述第三实施形式至所述第九实施形式中的一种，在所述方法的第十实施形式中，所述DOA信息向所述第三麦克风或所述另一麦克风中的一个偏置。

根据所述第三方面或所述第二方面的任意实施形式，在所述方法的第十一实施形式中，从所述立体声信号或从第四麦克风中确定中心信号。

如上所述第三方面和所述第三方面的各种实施形式实现的优点分别与如上所述第一方面和所述方面的各种实施形式的优点相同。

本发明的第四方面提供了一种包括程序代码的计算机程序，所述计算机程序在计算机上运行时用于执行根据如上所述第三方面和所述第三方面的任意实施形式的所述方法。

所述第四方面的所述计算机程序具有所述第三方面的所述方法的所有优点。

需要注意的是，本发明描述的所有设备、元件、单元和构件可以在软件或硬件元件或它们任意类型的组合中实施。由本申请中描述的各种实体执行的所有步骤以及所描述的由所述各种实体执行的功能旨在意味着相应实体适于或用于执行相应步骤和功能。即使在下文描述或特定实施例中，由一般实体执行的具体功能或步骤没有体现在执行该具体步骤或功能的那个实体的具体详细元件的描述中，技术人员也应清楚，这些方法和功能可以在各个软件或硬件元件或其任意类型的组合中实施。

附图说明

结合所附附图，下面具体实施例的描述将阐述上述本发明的各方面及其实现形式，其中：

图1所示为根据本发明实施例的具有四个安装在移动设备上的麦克风的麦克风装置的示例。

图2所示为图1的移动设备的顶视图，其中放置两个麦克风用于获得控制信号以从移动设备的外壳的屏蔽中获益，以及靠近移动设备侧放置两个麦克风用于记录立体声信号。

图3所示为应用于两个全向麦克风信号的延迟和减法运算的图示，以便产生一阶定向信号。

图4所示为基于两个全向麦克风输入信号的第一ICLD的后处理的正切函数。

图5所示为从第一和第二ICLD的DOA估计的后处理函数。

图6所示为图1的移动设备的顶视图，其中远距离放置用于获得立体声信号的麦克风以捕获变大的立体图像。

图7所示为归一化互相关的频率相关性。

图8所示为基于从控制信号获得前后分离和基于从立体声信号中提取的直达声和漫射声分量的多声道生成单元的方框图。

图9所示为根据本发明实施例的方法的方法步骤的流程图。

具体实施方式

通常，本发明的麦克风装置需要至少两对麦克风，即一对(LR对)用来记录左/右声道立体声信息(立体声信号)，一对(FB对)用来记录获得前/后分离参数的信号(控制信号)。这两对麦克风可由至少三个麦克风组成。在三个麦克风的情况下，第一和第二麦克风形成LR对，第三麦克风与第一和/或第二麦克风一起形成FB对。优选地，使用至少四个麦克的，其中第一麦克风和第二麦克风形成LR对，第三麦克风和第四麦克风形成FB对。

用作FB对的两个麦克风优选地放置，使得一个指向移动设备的前面，一个指向移动设备的后面，以便从移动设备外壳产生的屏蔽效果中受益，以获得更好的前/后区别。FB对麦克风可以是低级的，因为它们只与控制信号的信息提取相关，而且不直接生成声音记录的音频信号。用作LR对的两个麦克风优选地放置在移动设备侧(左侧和右侧)，并且优选地指向相同方向(以避免屏蔽效应)，例如指向移动设备的后面，但是它们还可以指向前面。对于具有足够大的形状因子的移动设备，LR对麦克风由此已经非常适合捕获相关立体图像。LR对麦克风优选地为高级的，因为它们与生成用于声音记录的高质音频信号有关。

图1所示为根据本发明实施例的设备中的麦克风装置100或者一种设备，这里为包括该麦克风装置的平板电脑或智能手机。本实施例为上述通用麦克风装置的具体实施例。麦克风装置100包括四个麦克风101，m1至104，m4和处理器105等处理器。麦克风101，m1至104，m4可以安装在移动设备200上，如图1所示。移动设备200可以为平板电脑、智能手机、手机、膝上型电脑、摄像机、计算或者具有记录声音能力的任何其它便携式设备。第一麦克风102，m2和第二麦克风103，m3用于获得立体声信号。在图1中，这些形成LR对的麦克风102，m2和103，m3由于优选而放置在移动设备200的两侧，并且以第一距离d₁隔开以捕获相关立体图像。第三麦克风101，m1和第四麦克风104，m4用于获得控制信号。在图1中，这些形成FB对的两个麦克风101，m1和104，m4由于优选而放置在移动设备200的中心。因此，一个麦克风指向移动设备200的前面，另一个麦克风指向移动设备200的后面，以便实现基于控制信号(DOA，1-DOA)的前/后区别。

如上所述，可省略第四麦克风104，而第三麦克风101可用于与第一麦克风102和第二麦克风103中的至少一个一起获得控制信号(DOA，1-DOA)。换言之，麦克风的两个必要对可仅由三个麦克风101至103构成，由此LB对麦克风102和103中的至少一个麦克风也用作FB对中的麦克风。

麦克风装置100还包括处理器105，其用于基于通过FB对麦克风101和104获得的控制信号(DOA，1-DOA)将通过LR对麦克风102和103获得的立体声信号分为前立体声信号(FL，FR)和后立体声信号。在图1中，处理器105作为独立单元提供。在这种情况下，处理器105优选地集成在移动设备200的外壳中。处理器105甚至可以为移动设备的处理器。然而，处理器105还可以为麦克风101至104中的一个或多个的一部分。也就是，例如，处理器可用于基于第三麦克风101获得的音频信号将第一和第二麦克风102和103的立体声信号分为前和后立体声信号。可选地，第一和第二麦克风102和103可从至少第三麦克风101提供有控制信号(DOA，1-DOA)，并可一起使用该控制信号(DOA，1-DOA)和捕获的立体声信号，以便分别输出前立体声信号(FL，FR)和后立体声信号(BL，BR)。

用于获得控制信号(DOA，1-DOA)的至少麦克风，即图1中的第三和第四麦克风101和104，可以为，尤其是全向的声压麦克风，其用于测量声场的某一点的声压。在这种情况下，当声音的波长相比于麦克风的机身大小很大时，例如机身大小的两倍或更大时，测量的声压不依赖于声音的波达方向(direction of arrival，DOA)信息。这意味着声压麦克风具有全向特性。

有利的是，麦克风101和104还可以为两个虚拟声压梯度麦克风，它们指向相反的方向。这些压力梯度麦克风旨在测量相对于某个方向的声压梯度。实际上，声压梯度可通过测量两点之间声压差(使用两个间隔很近的全向麦克风，像麦克风101和104)来近似。另外，可向一个获得的麦克风信号施加一个延迟，该获取的麦克风信号从另一个获得的麦克风信号减去，该延迟涉及获得的差信号的定向响应。也就是，处理器105优选地用于采用延迟和减去处理，使得两个虚拟声压梯度麦克风101和104指向相反方向。

图2示出了声压差的测量，具有以第二距离d₂间隔的两点(表示为第三和第四麦克风101和104)之间的延迟。假设全向麦克风101和104如图2所示设置，两个虚拟心型信号，即时域中的x_f(t)和x_b(t)，短时间傅里叶变换(short-time Fourier transform，STFT)域等合适时频域中的X_f(k,i)和X_b(k,i)，可以基于梯度处理(如C.Faller，“Conversion of twoclosely spaced omnidirectional microphone signals to an xy stereo signal”，第129次音频工程师协会会议预印本，2010年12月所述)推导出，其中t为时间指数，k为频谱时间指数，i为频率指数。

一种将两个优选的全向麦克风101和104的声压信号转换为压力梯度信号的方法是采用延迟和减去处理，以便获得分别指向麦克风装置100的前面和后面的定向信号，即正和反x方向，如图3所示。

前和后指向压力梯度信号x_f(t)和x_b(t)具体计算为：

x_f(t)＝h(t)*(m₁(t)-m₄(t-τ))

x_b(t)＝h(t)*(m₄(t)-m₁(t-τ))

在这里，m₁(t)和m₄(t)分别表示麦克风101和104的时域信号，*表示可选线性卷积，其中h(t)为自由场响应校正滤波器的脉冲响应。延迟τ涉及虚拟心型麦克风的定向响应并且取决于两个麦克风之间的距离和所需指向性：

在这里，d表示两个麦克风之间的距离，c表示声音的速度。在优选实施例中，该距离非常小且符合移动设备应用。此时其范围为2毫米至10毫米。

参数u控制指向性且可以定义为：

其中φ可以为0到π/2之间的值。

此外，x_f(t)和x_b(t)通过STFT等被转换到时间/频率表示X_f(k,i)和X_b(k,i)。

前和后功率谱分别估计为：

P_f(k,i)＝E{X_f(k,i)X_f(k,i)^*}

P_b(k,i)＝E{X_b(k,i)X_b(k,i)^*}. (1)

在上述公式(1)中，E(.)表示短时平均(时间平滑)，^*表示共轭复数。

为了估计声音的DOA信息，可以使用麦克风101和104捕获的前和后信号之间的级差，即获得的控制信号的两部分(DOA，1-DOA)之间的级差。该级差还表示为第一声道间声级差(inter-channel level difference，ICLD)。具体而言，处理器105用于基于用于获得控制信号(DOA，1-DOA)的麦克风101和104的第一ICLD确定DOA信息。

公式(2)中的该第一ICLD特别是有限的并转换为区间[-1,1]用于后处理和DOA信息估计：

在公式(3)中，g_ICLD(单位是dB)是一个限制性的增益。

第一ICLD通常基于麦克风101和104获得的输入信号的时间/频率表示之差，尤其是功率谱之差。处理器105优选地用于基于用于获得控制信号(DOA，1-DOA)麦克风101和104的第一ICLD确定声音的DOA信息。

由于两个麦克风101和104之间的间隔距离d₂，频率混叠将发生在频率大于阈值时的估计压力梯度信号中：

在公式(4)中，c代表声音的速率，d(＝d₂)为麦克风101和104之间的距离。该距离d₂通常与如图2所示的移动设备200的厚度有关，可以为1厘米或甚至只有0.5厘米。在该频率区域(通常对应10kHz以上的高频率)中，控制信号(DOA，1-DOA)中的前/后分隔的确定，即DOA信息的确定，可以利用移动设备200的外壳产生的屏蔽效应，该外壳设置在两个麦克风101和104之间。屏蔽效果使两个麦克风101和104的全向输入信号M₁(k,i)和M₄(k,i)之间产生增益差，以及可推导出第二ICLD：

此外，ICLD测量(5)转换到区间[-1,1]以进行后处理和DOA信息估计：

在上述公式(6)中，g_ICLD(单位是dB)是一个限制性的增益。另外，由于两个全向功率谱M₁和M₄潜在地不匹配和/或不校准以捕获控制信号(DOA，1-DOA)中的前/后增益差，所以公式(5)的ICLD测量可以向一个方向(麦克风装置100的前面或后面)偏置。因此，微小的增益差不相关，而且为了最小化小增益差的影响，可使用以下函数对icld₂进行后处理：

在这里，t_icld是控制如图4所示的小增益差影响的参数。参数t_icld＝π/2将产生一种配置，其中只有麦克风101和104之间的较大测量的增益差值将产生非零icld₂(k i)，而较小参数t_icld<π/2将产生更线性的函数。

第二ICLD通常基于所述麦克风101和104的相应输入信号之间的增益差，增益差由至少部分设置在所述麦克风101和104之间的麦克风装置100(或移动设备200)的外壳的屏蔽效果产生。处理器105优选地用于基于用于获得控制信号(DOA，1-DOA)的麦克风101和104的该第二ICLD确定声音的DOA信息。

全频率范围内的总ICLD然后可以推导为：

在公式(8)中，i₁为混叠频率f₁对应的频率索引，如公式(4)定义。DOA信息表示的前后分离可通过将公式(8)中的总ICLD转换为区间[0,1]中的值来推导为：

在特定时间-频率区块(k,i)中，DOA信息doa(k,i)＝1对应来自麦克风装置100的前方的声音，DOA信息doa(k,i)＝0对应来自麦克风装置100的后方的声音。中间值产生DOA信息，表示来自麦克风装置100的某些角度的声音，其可以推导为(1-doa(k,i))π。因此，t_doa表示控制图5所示的前后分隔强度的参数。参数t_doa越大，在控制信号(DOA，1–DOA)中强调的前后分离越大。

一般而言，处理器105优选地用于使用第一ICLD来确定控制信号(DOA，1–DOA)的频率为或小于确定的阈值时的DOA信息，以及使用第二ICLD来确定控制信号(DOA，1–DOA)的频率大于确定的阈值时的DOA信息。

尽管麦克风101和104专用于获得控制信号(DOA，1–DOA)(即为用于确定前后分离的FB对)，但是两个其它麦克风102和103，如图6所示，直接产生立体图像作为立体声信号。由于两个麦克风102和103放置在移动设备200的相反侧时之间的距离d₁通常很大(通常大于100毫米)，因此在没有很强限制性的情况下，不采用对于立体声处理的全向麦克风(如在C.Faller的“Conversion of two closely spaced omnidirectional microphonesignals to an xy stereo signal”，第129届音频工程师协会会议预刊本，2010年11月中提出)，主要的混叠已经在非常低的频率处开始。然而，麦克风的相当大的距离d₁和相反安置适合于直接产生增大的立体图像作为立体声信号。

基于这种自然捕获的立体声信号，环绕多声道生成受到右有声道的直达声和漫射声分量提取的帮助，左右声道即为麦克风102和103分别捕获的声道。和用于虚拟心型的漫射声(由C.Tourney等人的“Converting stereo microphone signals directly to mpeg-surround”，第128届音频工程师协会会议预刊本，2010年5月描述)一样，这里，漫射声分量基于两个全向功率谱M₂(k,i)和M₃(k,i)来估计。没有考虑所有频率的恒定归一化互相关θ_diff，高斯模型优选地通过近似曲线来推导出(如在R.K.Cook等人的“Measurement ofcorrelation coefficients in reverberant sound fields”，美国声学协会杂志，27(6)：1072至1077页，1955年提出)，如图7所示。

在公式(10)中，i_c为高斯频率模型的索引。所得漫射功率谱为，获取直达左右声的两个维纳滤波器分别为：

类似地，左右声道中的漫射声分量从滤波器中获取为：

公式(11)和(12)中的增益优选地使用最大允许衰减g_diff来限制。最后，推导出四个输出信号，充当生成环绕多声道信号的基础。首先，左声道中的直达声分量为：

X_l,dir(k,i)＝W₂(k,i)M₂(k,i). (13)

其次，右声道中的直达声分量为：

X_r,dir(k,i)＝W₃(k,i)M₃(k,i). (14)

左右声道中的漫射声分量分别为：

X_l,diff(k,i)＝V₂(k,i)M₂(k,i) (15)

X_r,diff(k,i)＝V₃(k,i)M₃(k,i), (16)

这些四个生成信号(13至16)在公式(9)的DOA信息的帮助下合并为多声道输出信号。作为第一步，目标生成输出格式为5.1标准环绕信号，依次包括左(FL)、前右(FR)、中心(C)、低频效应(LFE)、后左(RL)和后右(RR)。

因此，FL由来自前方的左声道的直达声和左漫射声组成，FR由来自前方的右声道的直达声和右漫射声组成，RL由来自后方的左声道的直达声和进行低通滤波的左漫射声组成，RR由来自后方的右声道的直达声和进行低通滤波的右漫射声组成。

可选地，漫射信号可以在将其添加到环绕声道BL和BR之前进行低通滤波。对这些信号进行低通滤波具有模拟室内频率响应的有益效果，因此产生虚拟听音室回声的感知。

处理器105生成这些四个输出声道在图8的方框图中总结。假设可选低通滤波器具有频率响应G_LP(k,i)和可能时延d_R，四个预定义输出声道通过以下公式获得：

X_FL(k,i)＝doa(k,i)X_l,dir(k,i)+X_l,diff(k,i) (17)

X_FR(k,i)＝doa(k,i)X_r,dir(k,i)+X_r,diff(k,i) (18)

X_BL(k,i)＝(1-doa(k,i))X_l,dir(k,i)+G_LP(k,i)X_l,diff(k-d_R,i) (19)

X_BR(k,i)＝(1-doa(k,i))X_r,dir(k,i)+G_LP(k,i)X_r,diff(k-d_R,i) (20)

可选地，中心声道从麦克风102和103获得的立体声信号的左/右声道中获得，或者直接使用麦克风104来获得(在这种情况下，该麦克风的质量与麦克风102和103一样)。

在图9中，示出了在移动设备200中记录环绕声的方法900。在方法900的第一步骤901中，通过第一麦克风102和第二麦克风103获得立体声信号。麦克风102和103彼此之间相距第一距离d₁。在第二步骤902中，通过第三麦克风103和第四麦克风104或第一和第二麦克风102和103中的一个或两个一起获得控制信号(DOA，1–DOA)。在方法900的第三步骤中，立体声信号基于控制信号(DOA，1–DOA)分为前立体声信号(FL，FR)和后立体声信号(BL，BR)。该分离优选地由处理器105执行，但是还可以由其中一个麦克风或移动设备200执行。

总之，本发明提供了一种麦克风装置100和方法900以通过采用便宜的全向麦克风使用移动设备记录环绕声。本发明完全与立体声(左/右)后向兼容。通过LR对麦克风102和103获得的立体声信号中的左/右分离足够大，即使是在使用全向麦克风的时候，这是由于移动设备的典型大小。FB对的后(可选地，前)麦克风101和104只用于提取声音的DOA信息，因此可以选择为低级的，而且不需要校准。本发明避免了前后混淆(即缺乏前/后信息)，这存在于传统立体声信号记录中。

已经结合作为实例的不同实施例以及实施方案描述了本发明。但本领域技术人员通过实践所请发明，研究附图、本公开以及独立权项，能够理解并获得其他变体。在权利要求以及描述中，术语“包括”不排除其他元件或步骤，且“一个”并不排除复数可能。单个元件或其它单元可满足权利要求书中所叙述的若干实体或项目的功能。在仅凭某些措施被记载在相互不同的从属权利要求书中这个单纯的事实并不意味着这些措施的结合不能在有利的实现方式中使用。

Claims

1.一种用于在移动设备(200)中记录环绕声的麦克风装置(100)，其特征在于，所述麦克风装置(100)包括：

第一和第二麦克风(102，m₂、103，m₃)，其中所述第一麦克风用于获得立体声信号的第一音频信号(L)，所述第二麦克风用于获得所述立体声信号的第二音频信号(R)；

第三麦克风(101，m₁)，用于获得第三音频信号(F)；

处理器(105)，用于：

基于所述第三音频信号(F)和通过所述麦克风装置(100)中的另一麦克风获得的另一音频信号(L，R)获得控制信号(DOA，1–DOA)；

基于所述控制信号(DOA，1–DOA)将所述立体声信号分为前立体声信号(FL，FR)和后立体声信号(BL，BR)，

其中，所述第一麦克风获得的第一音频信号用于获得控制信号，所述第一麦克风获得的第一音频信号和所述第二麦克风获得的第二音频信号用于获得控制信号并生成所述立体声信号。

2.根据权利要求1所述的麦克风装置(100)，其特征在于，所述麦克风装置(100)包括第四麦克风(104，m4)，所述第四麦克风用于获得第四音频信号(B)；所述处理器(105)用于基于所述第三音频信号(F)以及所述第一音频信号(L)、所述第二音频信号(R)和所述第四音频信号(B)中的至少一个来获得控制信号(DOA，1–DOA)。

3.根据权利要求1或2所述的麦克风装置(100)，其特征在于，所述控制信号(DOA，1–DOA)包括波达方向(direction-of-arrival，DOA)信息，所述处理器(105)用于：

将所述DOA信息与所述立体声信号的至少一部分合并以获得所述前和后立体声信号(FL，FR、BL，BR)。

4.根据权利要求3所述的麦克风装置(100)，其特征在于，所述处理器(105)用于：

确定所述立体声信号的直达声分量(Xl,dir，Xr,dir)和漫射声分量(Xl,diff，Xr,diff)，

将所述DOA信息只与所述立体声信号的所述直达声分量(Xl,dir，Xr,dir)合并以获得所述前立体声信号(FL，FR)和所述后立体声信号(BL，BR)。

5.根据权利要求3所述的麦克风装置(100)，其特征在于，所述处理器(105)用于：

基于所述第三音频信号(F)和所述另一音频信号(L，R，B)之间的第一声道间声级差(first inter-channel-level-difference，ICLD)确定所述DOA信息，

其中，所述第一ICLD基于所述第三音频信号(F)和所述另一音频信号(L，R，B)的时间之差、频率之差、或功率谱之差中的一项或多项。

6.根据权利要求4所述的麦克风装置(100)，其特征在于，所述处理器(105)用于：

7.根据权利要求6所述的麦克风装置(100)，其特征在于：

所述第三麦克风(103，m3)和所述另一麦克风(101，m1、102，m2、104，m4)为全向声压麦克风，

所述处理器(105)用于处理所述第三音频信号(F)和所述另一音频信号(L，R，B)，从而形成指向相反方向的两个虚拟声压梯度麦克风，以及用于在所述两个虚拟声压梯度麦克的输出信号的基础上获得所述第一声道间声级差(inter-channel-level-difference,ICLD)。

8.根据权利要求3所述的麦克风装置(100)，其特征在于，所述处理器(105)用于：

基于所述第三音频信号(F)和所述另一音频信号(L，R，B)之间的第二ICLD确定所述DOA信息，

其中，所述第二ICLD基于所述第三音频信号(F)和所述另一音频信号(L，R，B)之间的时间之差、频率之差、或功率谱之差中的一项或多项，所述差由至少部分设置在所述第三麦克风(101，m1)和所述另一麦克风(102，m2至104，m4)之间的所述麦克风装置(100)的外壳的屏蔽效果产生。

9.根据权利要求4所述的麦克风装置(100)，其特征在于，所述处理器(105)用于：

10.根据权利要求9所述的麦克风装置(100)，其特征在于，所述处理器(105)用于：

使用第一ICLD来确定所述立体声信号的频率为或小于确定的频率阈值时的所述DOA信息，

使用所述第二ICLD来确定所述立体声信号的频率大于所述确定的频率阈值时的所述DOA信息。

11.根据权利要求10所述的麦克风装置(100)，其特征在于，所述确定的阈值取决于所述第三麦克风(101，m1)以及所述第一、第二和第四麦克风(102，m2至104，m4)之一之间的第二距离(d₂)。

12.根据权利要求5所述的麦克风装置(100)，其特征在于，所述处理器(105)用于将所述第一和/或第二ICLD向所述第三麦克风(101，m1)或所述另一麦克风(102，m2至104，m4)偏置。

13.根据权利要求3所述的麦克风装置(100)，其特征在于，所述处理器(105)用于将所述DOA信息向所述第三麦克风(101，m1)或所述另一麦克风(102，m2至104，m4)偏置。

14.根据权利要求4所述的麦克风装置(100)，其特征在于，所述处理器(105)用于将所述DOA信息向所述第三麦克风(101，m1)或所述另一麦克风(102，m2至104，m4)偏置。

15.根据权利要求1所述的麦克风装置(100)，其特征在于：

所述第三麦克风(101，m1)和所述另一麦克风(104，m4)为定向麦克风并且指向相反方向，和/或

所述第一和所述第二麦克风(102，m2、103，m3)为定向麦克风并且指向所述相反方向。

16.根据权利要求1所述的麦克风装置(100)，其特征在于：

所述处理器(105)用于从所述立体声信号中确定中心信号，或者

所述麦克风装置(100)的第四麦克风(104，m4)用于获得中心信号。

17.一种在移动设备(200)中记录环绕声的方法(900)，其特征在于，包括以下步骤：

通过第一麦克风(102，m2)获得立体声信号的第一音频(L)信号以及通过第二麦克风(103，m3)获得立体声信号的第二音频信号(R)；

通过第三麦克风(101，m1)获得第三音频(F)信号；

基于所述第一音频信号(L)或所述第二音频信号(R)中的一个，和所述第三音频信号(F)来获得控制信号(DOA，1–DOA)；和/或基于第四麦克风(104，m4)获得的第四音频信号(B)，来获得控制信号(DOA，1–DOA)，

基于所述控制信号(DOA，1–DOA)将所述立体声信号分为前立体声信号(FL，FR)和后立体声信号(BL，BR)；