CN109698984A

CN109698984A - 一种音频交互设备和数据处理方法、计算机存储介质

Info

Publication number: CN109698984A
Application number: CN201810608620.1A
Authority: CN
Inventors: 刘崧; 楼厦厦; 李波
Original assignee: Beijing Xiaoniao Tingting Technology Co Ltd
Current assignee: Bird Innovation Beijing Technology Co ltd
Priority date: 2018-06-13
Filing date: 2018-06-13
Publication date: 2019-04-30
Anticipated expiration: 2038-06-13
Also published as: US10924851B2; US20190387312A1; EP3582510B1; EP3582510A1

Abstract

本发明实施例公开了一种音频交互设备。所述设备包括：具有壳体、以及位于所述壳体的容置空间内的多个麦克风、至少一个处理器和用于存储能够在处理器上运行的计算机程序的存储器，所述处理器用于运行所述计算机程序时执行：识别所述多个麦克风获得的音频信号以及对所述音频信号进行处理；其中，所述多个麦克风与所述音频交互设备的壳体的第一表面的距离小于第一阈值；所述第一表面与所述多个麦克风所在平面平行且在所述多个麦克风所在平面与置物面之间。

Description

一种音频交互设备和数据处理方法、计算机存储介质

技术领域

本发明涉及音箱领域，具体涉及一种音频交互设备和数据处理方法、计算机存储介质。

背景技术

随着音频输出设备的智能化，音频输出设备也不单单仅具有音频输出功能，还可具有音频输入功能，成为语音交互设备，以便于与用户的语音交互。而越来越多的语音交互设备采用麦克风阵列而非单麦克风，以提升语音输入的质量，如清晰度、信噪比等。

然而，麦克风阵列会带来外观设计的困难，麦克风的布置和其他器件的布置可能冲突，需要做较多折中，外观也会受影响。

以常见的智能音箱为例，市面上常见的产品，通常将麦克风阵列放置在产品上表面附近，且外壳上有明显的透声开孔或透声网而产品的喇叭放置在产品下半部分，在外观设计和音质上都受到制约。

常规设计中，为了让麦克风的响应一致，要使得麦克风尽可能少的受到反射和自身声学结构影响，通常会要求麦克风之间没有遮挡。麦克风模组有较大的透声开孔。这样通常使得麦克风阵列布置在设备的顶部或最凸出的外部，外表面基本平整，且在麦克风处有较大的透声孔。由于智能音箱类的交互设备中，为了避免麦克风信号因声音过大而过载失真，智能音箱的扬声器要远离麦克风阵列，则不得不处于音箱的下部，因而靠近智能音箱放置的界面(如桌面或地面)。放置在下部的扬声器限制了智能音箱的声音播放效果，而顶部不得不开透声孔，又影响美观。另外，设备的顶部或外部一般是用户较多看到和触摸的部分，较大的透声孔也使得在操作时容易误触麦克风，引起杂音。

发明内容

为解决现有存在的技术问题，本发明实施例提供一种音频交互设备和数据处理方法、计算机存储介质。

为达到上述目的，本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种音频交互设备，所述设备包括：具有壳体、以及位于所述壳体的容置空间内的多个麦克风、至少一个处理器和用于存储能够在处理器上运行的计算机程序的存储器，所述处理器用于运行所述计算机程序时执行：识别所述多个麦克风获得的音频信号以及对所述音频信号进行处理；

其中，所述多个麦克风与所述音频交互设备的壳体的第一表面的距离小于第一阈值；所述第一表面与所述多个麦克风所在平面平行且在所述多个麦克风所在平面与置物面之间。

上述方案中，所述壳体设置有与所述多个麦克风中每个麦克风对应的第一透声孔；其中，多个第一透声孔位于所述第一表面与所述音频交互设备的侧表面的连接处。

上述方案中，设置有第一透声孔的壳体形成具有至少一个反射面的容置部，所述麦克风位于所述容置部中。

上述方案中，所述多个麦克风中的每个麦克风对应一个容置部；多个容置部具有相同的结构。

上述方案中，所述第一透声孔在所述壳体上形成中心对称的开口形状。

上述方案中，所述多个麦克风的数量与待接收的音频信号的属性参数以及所述音频交互设备相关联。

上述方案中，所述多个麦克风中任意相邻两个麦克风与所述音频交互设备的中心点之间形成的夹角相等。

上述方案中，所述设备还包括至少一个扬声器；所述至少一个扬声器与所述多个麦克风所在平面之间的距离大于第二阈值。

上述方案中，所述壳体设置有分别与所述至少一个扬声器中每个扬声器对应的第二透声孔；至少一个第二透声孔位于所述壳体上、远离所述第一表面的第二表面。

上述方案中，所述存储器中存储有包含麦克风阵列信号处理算法的应用程序；

所述处理器用于运行所述包含麦克风阵列信号处理算法的应用程序时，执行：针对所述多个麦克风中任意两个麦克风形成的麦克风对采用时延估计和/或幅度估计的方式确定第一声源位置；对确定的多个第一声源位置进行加权处理，获得声源位置；

其中，所述对确定的多个第一声源位置进行加权处理，获得声源位置，包括：基于以下信息的至少之一确定对应于麦克风对的第一声源位置的权重值，基于所述权重值和对应的第一声源位置进行加权处理，获得声源位置；

所述信息包括：麦克风对中两个麦克风接收到的音频信号的幅度关系；

麦克风对中任一麦克风接收到的音频信号的能量；

麦克风对中两个麦克风之间的间距；

麦克风对中任一麦克风接收到的音频信号的属性参数，所述属性参数包括以下至少之一：频率、周期、波长。

本发明实施例还提供了一种数据处理方法，所述方法应用于本发明实施例所述的音频交互设备；所述方法包括：

通过多个麦克风获得音频信号；

针对所述多个麦克风中任意两个麦克风形成的麦克风对采用时延估计和/或幅度估计的方式确定第一声源位置；

对确定的多个第一声源位置进行加权处理，获得声源位置。

上述方案中，所述对确定的多个第一声源位置进行加权处理，获得声源位置，包括：

基于以下信息的至少之一确定对应于麦克风对的第一声源位置的权重值，基于所述权重值和对应的第一声源位置进行加权处理，获得声源位置；

麦克风对中任一麦克风接收到的音频信号的能量；

麦克风对中两个麦克风之间的间距；

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本发明实施例所述数据处理方法的步骤。

本发明实施例提供的音频交互设备和数据处理方法、计算机存储介质，所述设备包括：具有壳体、以及位于所述壳体的容置空间内的多个麦克风、至少一个处理器和用于存储能够在处理器上运行的计算机程序的存储器，所述处理器用于运行所述计算机程序时执行：识别所述多个麦克风获得的音频信号以及对所述音频信号进行处理；其中，所述多个麦克风与所述音频交互设备的壳体的第一表面的距离小于第一阈值；所述第一表面与所述多个麦克风所在平面平行且在所述多个麦克风所在平面与置物面之间。采用本发明实施例的技术方案，麦克风设置在靠近置物面的音频交互设备的底部，采用隐藏式界面麦克风阵列，改善交互设备设计的自由度和美观程度；提升了音频交互设备的整体外观的美观性，也避免操作时误触麦克风产生杂音；另一方面，在不增加造价的情况下，提升麦克风的信噪比和指向性，获取更好的阵列性能。

附图说明

图1为本发明实施例的音频交互设备的组成结构示意图；

图2为本发明实施例的音频交互设备的一种仰视角度的示意图；

图3为本发明实施例的音频交互设备的麦克风所在位置的部分截面示意图；

图4a为现有的音频交互设备的音频传输路径示意图；

图4b为本发明实施例的音频交互设备的音频传输路径示意图；

图5为本发明实施例的音频交互设备采用时延估计方式确定声源位置的示意图；

图6为本发明实施例的音频交互设备朝向声源的麦克风和背向声源的麦克风的灵敏度示意图；

图7为本发明实施例的音频交互设备的麦克风在各方向的灵敏度示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步详细的说明。

本发明实施例提供了一种音频交互设备。图1为本发明实施例的音频交互设备的组成结构示意图；图2为本发明实施例的音频交互设备的一种仰视角度的示意图；参考图1和图2所示，所述设备包括：具有壳体、以及位于所述壳体的容置空间内的多个麦克风、至少一个处理器和用于存储能够在处理器上运行的计算机程序的存储器，所述处理器用于运行所述计算机程序时执行：识别所述多个麦克风获得的音频信号及对所述音频信号进行处理；

本实施例中，音频交互设备具有音频输入功能，实际应用中，音频交互设备可以是智能音箱、扩音器、电话、手机、界面麦克风等终端设备。其中，音频交互设备具有至少一个平面，所述至少一个平面中包括第一表面。作为一种实施方式，当音频交互设备置于置物面上时，第一表面贴合或靠近置物面；置物面为放置音频交互设备的平面，置物面可以是地面、桌面等平面，置物面还可以是竖直的墙面或屋顶的墙面，无论音频交互设备与何种方式置于置物面上，所述第一表面均为贴合置物面的平面，或者靠近置物面的平面(即音频交互设备中第一平面距离置物面的距离最近)。

作为另一种实施方式，所述第一表面还可以是在麦克风为界面麦克风类型时、界面麦克风本身具有的界面，如界面麦克风支架形成的界面。

本实施例中，多个麦克风所在平面与第一表面之间平行，或者在考虑到麦克风在设置过程中可能会存在一定的误差，多个麦克风所在平面与第一表面之间近似平行。并且，第一表面在所述多个麦克风所在平面与置物面之间，在多个麦克风与第一表面之间的距离小于第一阈值的情况下，可以理解，多个麦克风设置在音频交互设备的下部。

以第一表面为贴合或靠近置物面的表面为例，音频交互设备通过第一表面贴合或靠近置物面，由于多个麦克风与所述第一表面的距离小于第一阈值，也即多个麦克风贴近置物面。其中，置物面也可称为第一界面。而声源到达麦克风的路径可包括：音频信号由声源发出直达麦克风的第一路径，这种音频信号可称为直达音频信号；以及音频信号达到第一界面，由第一界面反射后到达麦克风的第二路径，这种音频信号可称为反射音频信号。当第一界面靠近麦克风时，由于第一界面与麦克风距离较近，使得第一界面的反射音频信号与直达音频信号几乎同时到达麦克风，从而使得麦克风接收到的音频信号得到增强，即第一界面的声反射作用可以使麦克风在较宽频带内的信噪比和灵敏度提升。

可以理解，用户讲话时，用户发出的语音音频经由多条路径到达麦克风，被麦克风拾取到。这些路径中包括最短路径和反射路径，如果界面和麦克风的距离很近，距离远小于语音音频的声波波长，最短路径和反射路径长度接近，经由两条路径到达麦克风的语音音频完全相关，且近乎同相位叠加，幅度增加至两倍，能量增加至四倍增强了6分贝的灵敏度(10log(4))。

界面对于环境噪声也会有增强效应，但是由于环境噪声是各向同性的随机噪声，并不像语音音频一样能增加6dB的灵敏度，而只会增加3dB(10log(2))。这样一个界面，使得语音抬升6dB的灵敏度，噪声抬升3dB灵敏度，总的信噪比就因此增加了3dB(10log(2))。

类似的原理多界面的效应可以使信噪比进一步提升。两个界面可以提升将近5dB(10log(3))。

除了置物面外，还可通过合理外观设计，使麦克风周围有第二界面或更多界面。作为一种实施方式，音频交互设备的壳体形成具有至少一个反射面的容置部，所述麦克风位于所述容置部中。其中，用于容置麦克风的容置部具有的至少一个反射面可称为第二界面。与第一界面同理，由于第二界面与麦克风的距离较近，使得第二界面的反射音频信号与直达音频信号几乎同时到达麦克风，从而使得麦克风接收到的音频信号得到增强。在其他应用场景中，音频交互设备还可以以第一表面贴近墙壁摆放，在墙壁距离麦克风的距离较近的情况下，墙面也可作为界面使得麦克风接收的音频信号得到增强的效果。

因此，在界面对设备的多个麦克风的影响相同的情况下(例如界面作为置物面，麦克风的结构一致、麦克风与界面形成的角度相同等)，麦克风的灵敏度提升量与界面数量正相关，例如，在界面和麦克风之间的距离远小于待采集的音频信号波长的前提下，一个界面可以提升3dB的音频信号相对与环境本底噪声的信噪比，两个界面则可以提升5dB等。

本实施例中，音频交互设备具有壳体，壳体可以是中心对称的壳体也可以是非对称的壳体；当壳体为具有中心对称关系的壳体。壳体的第一表面可以是圆形、正多边形等具有中心对称关系的形状。音频交互设备的侧面与所述第一表面可相互垂直，或者音频交互设备的侧面内壁与所述第一表面具有锐角或钝角，如图2所示，音频交互设备的侧面内壁与地面形成钝角。

本实施例中，音频交互设备设置有多个麦克风形成的麦克风阵列，所述多个麦克风用于采集音频信号。多个麦克风设置于音频交互设备的底部，可以理解，多个麦克风靠近音频交互设备的第一表面，也即所述多个麦克风与所述音频交互设备的壳体的第一表面的距离小于第一阈值。其中，多个麦克风与所述音频交互设备的壳体的第一表面的距离可以是零，即多个麦克风设置于所述音频交互设备的第一表面与所述音频交互设备的侧表面的连接处，具体可如图2所示。作为一种实施方式，所述壳体设置有分别与所述多个麦克风中每个麦克风对应的第一透声孔；作为一种实施方式，多个第一透声孔可位于音频交互设备的侧表面上；作为另一种实施方式，多个第一透声孔位于所述第一表面与所述音频交互设备的侧表面的连接处。麦克风通过对应的第一透声孔接收音频信号。

基于上述实施例，在另一实施例中，音频交互设备还可具有音频输出功能，即所述设备还可以包括至少一个扬声器；所述至少一个扬声器与所述多个麦克风所在平面之间的距离大于第二阈值，可以理解，所述至少一个扬声器远离壳体的第一表面。则所述壳体还设置有分别与所述至少一个扬声器中每个扬声器对应的第二透声孔；至少一个第二透声孔位于所述壳体上、远离所述第一表面的第二表面，即至少一个第二透声孔可位于壳体的第二表面，可以理解为相对于底面的顶面。扬声器通过对应的第二透声孔输出音频信号。其中，所述壳体设置有分别与所述至少一个扬声器对应的第二透声孔；至少一个第二透声孔位于所述壳体上、远离所述第一表面的第二表面。例如，在第一表面为底面的情况下，第二表面可以是顶面。或者，所述第二表面也可以是远离所述第一表面的侧表面中的部分区域。

实际应用中，麦克风和扬声器之间的距离远小于麦克风和用户的距离，麦克风接收到的音频信号中，扬声器发出的音频信号成分远大于用户的音频信号成分，从而将用户的音频信号淹没在内。虽然常规的回声消除算法等可以消除大部分扬声器的音频信号成分，但回声消除算法的性能有物理极限，在扬声器质量很好，且麦克风的可测量声压级上限高于扬声器信号在麦克风处的声压级的情况下，可以将扬声器声音成分降低约30dB，多数情况下只能降低20dB到25dB。为了使用户的音频信号能更好的恢复出来，扬声器的音频信号成分占麦克风接收信号的比重应尽可能小，也即扬声器的音频信号到达麦克风处，应尽可能弱一些。基于此，多个麦克风所在平面和扬声器之间的距离大于第二阈值，也可以说，麦克风与扬声器之间应尽可能大一些。在一实施例中，麦克风和扬声器设置设备的长轴两端。且扬声器发出的音频信号在麦克风处的测量值，低于麦克风可测量声压级的上限。

实际应用中，作为一种实施方式，麦克风和扬声器之间的距离在音频交互设备的尺寸范围内达到最大，即麦克风设置在音频交互设备的第一表面，扬声器设置在音频交互设备的第二表面，也即所述至少一个扬声器与所述多个麦克风所在平面之间的距离为所述音频交互设备的高度。

作为另一种实施方式，扬声器和麦克风的布局也可适应于音频交互设备的内部布局设计，所述第二阈值与扬声器的最大音量、所述多个麦克风的声压级测量上限以及所述音频交互设备自身的尺寸相关。例如，在扬声器以最大音量播放时，麦克风处接收到的音频信号，低于麦克风的声压级测量上限，例如，如果扬声器播放最大音量时，在距离10厘米处为110分贝声压级，距离20厘米处为104分贝声压级。如果该设备使用的某型麦克风的声压级测量上限为104分贝，则应用该型麦克风时，麦克风和扬声器的距离应不小于20厘米才可以正常使用。如果产品尺寸限制，麦克风和扬声器距离10厘米，则必须要采用测量上限不低于110分贝的其他型麦克风。

基于此，本发明实施例中，在麦克风和扬声器之间的距离在音频交互设备的尺寸范围内达到最大的情况下、麦克风接收的扬声器发出的最大音量的音频信号低于麦克风的声压级测量上限(即麦克风的声压级测量上限能够满足扬声器的最大音量的情况下)时，则可基于所述扬声器的最大音量以及所述麦克风的声压级测量上限确定第一距离，所述第一距离为扬声器正常使用情况下、扬声器和麦克风之间所允许的最小距离。则所述第二阈值为大于等于所述第一距离。相应的，所述多个麦克风与所述音频交互设备的壳体的第一表面的距离小于第一阈值，所述第一阈值可基于所述音频交互设备的尺寸(具体是设备的高度)和所述第二阈值确定。

可以理解，在音频交互设备的尺寸(具体是设备的高度)在满足大于该第二阈值的基础上，多个麦克风和扬声器的布局可在满足多个麦克风和扬声器之间的距离大于第二阈值的基础上适应于内部布局设计。例如，多个麦克风可位于靠近音频交互设备的第一表面的位置，甚至可位于第一表面上；相应的，多个麦克风对应的第一透声孔可位于第一表面、靠近所述第一表面的侧表面，甚至也可位于第一表面与侧表面的连接处，如图2所示。在第一透声孔位于靠近所述第一表面的侧表面的场景下，音频交互设备壳体的侧面内壁与第一表面形成如图2所示的钝角，则无论音频交互设备如何摆放，第一透声孔背向用户视线，相比于将第一透声孔设置在壳体的第一表面与侧表面的连接处，两种方案均不影响设备的美观。可以理解为，作为第一种实施方式，多个第一透声孔可设置于所述第一表面与所述音频交互设备的侧表面的连接处；作为第二种实施方式，在音频交互设备壳体的侧面内壁与第一表面形成大于阈值的钝角的情况下，多个第一透声孔可设置于音频交互设备壳体的侧表面。在又一种实施方式中，音频交互设备的第一表面可设置有至少三个支撑件，通过该至少三个支撑件实现音频交互设备置于置物面上。这种应用场景下，第一透声孔还可设置在第一表面上，这种实现方案同样不影响设备的美观。

本实施例中，所述第一透声孔在所述壳体上形成中心对称的开口形状，且多个第一透声孔在壳体上形成的开口形状相同。具体的，第一透声孔在壳体上形成的开口形状例如是以下至少之一：狭缝、圆形开孔、正多边形开孔等中心对称的开口形状。

实际应用中，作为一种实施方式，多个麦克风的布局位置贴近音频交互设备的壳体的第一表面，或者贴近壳体的侧表面；在另一实施例中，设置有第一透声孔的壳体形成具有至少一个反射面的容置部，所述麦克风位于所述容置部中。图3为本发明实施例的音频交互设备的麦克风所在位置的部分截面示意图，如图3所示，可以理解为，以麦克风的布局位置靠近音频交互设备的壳体的第一表面为例，麦克风距离第一表面或者距离第一表面与侧表面的连接处具有一定距离；音频交互设备的壳体形成凹槽或者倒角，形成具有至少一个反射面的容置部，麦克风位于该容置部中，由于该容置部具有的至少一个反射面，该反射面可称为前述的第二界面，从而可提升麦克风的信噪比，如麦克风在中高频的信噪比可提升3dB至5dB左右。

本实施例中，所述多个麦克风中的每个麦克风对应一个容置部；多个容置部具有相同的结构，即每个麦克风对应相同的容置部结构。

本实施例中，作为一种实施方式，所述多个麦克风中任意相邻两个麦克风与所述音频交互设备的中心点之间形成的夹角相等，也即多个麦克风形成的麦克风阵列均匀排布，这样便于全方位(即360°)的收音，避免了在多个麦克风集中布局在某一侧、若声源背向麦克风集中布局的一侧，则会因为音频交互设备本体自身的遮挡，从声源发出的音频信号必须绕过音频交互设备而到达麦克风处，这种绕射传输方式对于音频信号中的高频信号会造成一定的损失，并且缺少了直达音频信号，也不利于对声源的定位处理以及指定方向的音频信号的增强处理。可以理解，多个麦克风在音频交互设备的横切面边缘均匀分布。以多个麦克风的数量为六个为例，置于音频交互设备的底部，呈等间距排布，则六个麦克风所在平面的圆心到每个麦克风之间的连线，使得任意两个麦克风与圆心之间形成的夹角为60°。

作为另一种实施方式，多个麦克风形成的麦克风阵列也可不均匀排布，即不规则排布的麦克风阵列与音频交互设备的外壳形状和/或设备内部的布局构造相适应。例如，若设备内的螺丝柱或走线较多，使得麦克风阵列无法均匀布局。

本实施例中，所有麦克风的类型和麦克风阵元(麦克风阵元表示麦克风以及麦克风周围的结构)的指向性均为已知，这是因为，麦克风接收到的音频信号在后续需要进行声源定位和指定方向的信号增强处理，这需要各个麦克风的接收效果已知，各个麦克风的属性和参数已知，比如灵敏度和频响指标，各个麦克风容置部产生的反射增强效果已知，各个麦克风结合容置部的结构具有已知的指向性和灵敏度。

本实施例中，所述多个麦克风的数量与待接收的音频信号的属性参数以及所述音频交互设备的产品特征相关联。在一种示例中，受产品造价的约束，麦克风阵列所用的麦克风数量较少，较少的麦克风数量对应具有较少的模拟数字转换芯片，从而具有较低的运算负荷。在另一种示例中，可以采用较多数量的麦克风，麦克风数量增加，麦克风阵列的指向性提升，处理效果也会提升。但麦克风数量增加到一定数量后，效果提升量将不太明显。主要由两个原因：1对于音频处理，由于音频的主要能量分布在[0,4000]Hz内，而常用的音频传输频带也不超过[0,8000]Hz，如果麦克风过于密集使得麦克风之间的最小间距小于2厘米(4kHz声波的1/4波长，8kHz声波的1/2波长)，则再增加麦克风的分布密度和数量，阵列指向性提升量将不明显(这是阵列中常见的1/2波长间距准则)；另一方面，麦克风的阵列指向性并不需要做的非常尖锐，因说话人的发声部位并非单点，而是在空间上占据一定角度范围，阵列在此该角度范围内响应应平坦，过于尖锐的指向性反而会损失一部分音频。

基于此，本发明实施例中，基于待接收的音频信号的属性参数确定所述多个麦克风中任意两个麦克风之间的距离，基于所述任意两个麦克风之间的距离和所述音频交互设备的特征(该特征具体可以是设备造价约束以及设备的尺寸)确定所述多个麦克风的数量。其中，任意两个麦克风之间的距离满足待接收的音频信号的1/2波长，并且，任意两个麦克风之间的距离大于等于2厘米。

本实施例中的存储器中存储有包含麦克风阵列信号处理算法的应用程序；所述处理器执行所述包含麦克风阵列信号处理算法的应用程序时，实现基于所述多个麦克风接收的音频信号进行声源定位和声源的信号增强的处理。其中，声源定位的处理包括声源定向的处理以及与声源之间距离的确定处理，即声源定位与声源定向以及与声源之间的距离有关。

通常情况下，一般是依据音频信号到达麦克风阵列各麦克风的时延关系或幅度关系确定声源方向，得到声源定向结果，根据声源定向结果再对声源的信号进行增强。其中，基于时延关系确定声源位置的方式可称为时延估计方式，基于幅度关系确定声源位置的方式可称为幅度估计方式。其中，在波长小于两倍麦克风间距(即相邻两个麦克风之间的间距)的前提下，时延关系可以从音频信号的相位关系计算得到。

另一方面，音频信号从声源位置辐射到单个麦克风上时，麦克风处接收到的音频信号，会有幅度衰减和传输延迟，麦克风阵列上各个麦克风接收到的音频，都有对应的传输延迟和幅度衰减，从幅度关系或传输延迟关系也可以反推声源位置。由于麦克风阵列中的各麦克风有空间指向性，可以对声源方向的信号做加强，而衰减除声源方向以外的其他音频信号。

实际使用中，声源与各麦克风之间的距离往往远大于麦克风阵列孔径，幅度差异微小，因此常采用时延关系确定声源方向。其中，声源到达麦克风不止一个路径，其中包括最短路径(通常是直达路径)和很多较长的反射路径，麦克风接收的音频信号通常由直达音频信号和反射音频信号组成，传输时延也包括最短时延和反射时延，最短时延通常为直达路径对应的直达时延，反射时延即为反射路径对应的时延；最短时延和声源位置的关系较为简单且唯一，反射时延和声源位置关系复杂且不唯一。如果反射面较多，反射声较强，则时延计算会出现误差，进而影响定位精度。

为了尽量利用最短时延确定声源位置，常见的产品设计中麦克风阵列的布局也会尽量提升直达音频信号的比例，因此常见的麦克风阵列都是布置在音频交互设备的顶部，麦克风之间没有遮挡，音频信号中以直达音频信号为主，计算直达时延较为准确，如图4a所示。

然而本发明实施例中麦克风阵列布局在靠近第一表面的位置，朝向声源的一面，直达音频信号较强，而背向声源的一面，没有直达音频信号的传输路径，传输时延最短的路径是从设备表面绕射过来，如图4b所示，绕射中音频信号的高频信号的损失很大。而反射音频信号的衰减较弱，这样在背声面的麦克风接收到的音频信号，特别在高频部分，总能量下降，且反射音频信号与最短时延路径对应的音频信号相比能量相近，甚至更强，计算时延并根据时延定位会有很大误差。而且绕射衰减和绕射路径的长短/弧度，产品外表面的声能量吸收特性，都有关系。

基于此，本发明实施例中，所述处理器用于运行所述包含麦克风阵列信号处理算法的应用程序时，执行：针对所述多个麦克风中任意两个麦克风形成的麦克风对采用时延估计和/或幅度估计的方式确定第一声源位置；对确定的多个第一声源位置进行加权处理，获得声源位置；其中，所述对确定的多个第一声源位置进行加权处理，获得声源位置，包括：基于以下信息的至少之一确定对应于麦克风对的第一声源位置的权重值，基于所述权重值和对应的第一声源位置进行加权处理，获得声源位置；所述信息包括：麦克风对中两个麦克风接收到的音频信号的幅度关系；麦克风对中任一麦克风接收到的音频信号的能量；麦克风对中两个麦克风之间的间距；麦克风对中任一麦克风接收到的音频信号的属性参数，所述属性参数包括以下至少之一：频率、周期、波长。

其中，所述采用时延估计的方式确定第一声源位置，包括：获得第一麦克风接收的第一音频信号，获得第二麦克风接收的第二音频信号；基于所述第一音频信号和所述第二音频信号确定接收时延；基于所述接收时延确定声源与所述第一麦克风和所述第二麦克风之间的距离差；基于所述距离差以及所述第一麦克风和所述第二麦克风之间的距离确定第一声源位置。

具体的，参照图5所示，音频信号在空气中传播的速度为定值c，当声音s从声源处传输到距离声源LA的麦克风A上时，麦克风A接收到的音频信号，可以表示为HA.s(t-LA/c)；当声音s从声源处传输到距离声源LB的麦克风B上时，麦克风B接收到的信号，可以表示为HB.s(t-LB/c)；其中HA和HB分别表示传输的能量衰减。如果环境中有本底噪声，则麦克风的信号可以表示为HA.s(t-LA/c)+nA(t)和HB.s(t-LB/c)+nB(t)；nA和nB为独立同分布的随机噪声信号。

麦克风A和麦克风B接收的音频信号之间的相对接收时延为LA/c–LB/c，如果能计算得到LA/c-LB/c，在作为音频信号在空气中的传播速度c为定值的情况下，可以确定声源与所述第一麦克风和所述第二麦克风之间的距离差(LA-LB)，此距离小于等于麦克风A和麦克风B之间的间距L；而(LA-LB)/L表示声源相对麦克风A和麦克风B连线的夹角的余弦函数值，则进一步基于该余弦函数值、间距L以及距离差(LA-LB)可确定声源方向和麦克风A和麦克风B连线之间的夹角，两个麦克风组成的阵列能判断声源在0～180度半平面内的方向，当麦克风数量增加到三个或三个以上且麦克风排列不共线时，麦克风阵列可以用时延法确定声源在全平面内的准确方向；麦克风阵列中可以形成多个麦克风对，多个麦克风对的计算的声源方向加权组合，可以得到最终的声源方向。

其中，接收时延的计算，一般可以采用互相关法、相位法等。在噪声不大于音频信号，且音频信号的周期大于任意两个麦克风间的相对接收时延的2倍的条件下，可以利用常规的互相关法，互功率谱相位法等计算较为准确的接收时延。

当音频信号的周期小于任意两个麦克风间接收时延的两倍(也即音频信号的波长低于麦克风间距和麦克风连线与声源方向夹角余弦之积的两倍)时，从互功率谱相位计算时延时将会出现多个数值解，相对时延可能会出现较大偏差，无法用于定向。麦克风阵列中的多个麦克风对，如果有的麦克风对的间距较大，大于波长的两倍，则音频信号入射方向只有在有限的范围内，才能保证相对时延小于周期的一半，超出这个范围，相对时延计算和角度计算将发生错误，产生无效值，如果没有一个有效的方式可以剔除无效方向，这些无效方向将会混入最终结果中，造成误差。

麦克风是单指向性，且指向不同角度时，幅度信息可以用于定向。有助于剔除这些无效方向。

假设麦克风在某个频率f在各个方向theta的灵敏度可以用d(theta–thetak,f)表示。d(alpha,f)表示在与麦克风朝向夹角为alpha的方向上，当alpha＝0时，灵敏度最大。函数d也可称之为指向性函数。如果麦克风A和麦克风B的指向并非朝向同一方向而是呈夹角beta，声源信号的入射方向与两个麦克风的朝向的夹角分别为betaA和betaB，则麦克风A和麦克风B的指向性函数分别为d_A和d_B；音频信号到达两个麦克风时，传输衰减HA和HB的比值符合公式HA/HB＝d_A(betaA)/d_B(betaB)。当指向性函数d(alpha,f)的数值，随角度alpha变化有明显变化时，通过幅度信息，就可以得到音频信号相对麦克风A和麦克风B的方位。当音频信号的波长越短，频率越高，则麦克风的指向性越明显，d(alpha,f)随方向的变化也越明显。

以某型带有六个麦克风的隐藏式界面麦克风的设备为例。该设备的外形接近直径约为8cm的圆柱，麦克风排列在产品底面，贴近置物面，每个麦克风的结构设计均相同。麦克风ABCDEF以逆时针方向等间隔排序。由于柱体外壳的遮挡作用，每个麦克风都有明显的指向性，且由于每个麦克风的结构均相同，各麦克风的指向性函数也相同，朝向为圆心到麦克风的连线。

本发明实施例中，利用麦克风接收的音频信号的幅度关系，和相对接收时延，可以计算得到声源位置。以音频交互设备设置有六个麦克风为例，六个麦克风可以有15个不同的麦克风对，每个麦克风对都可以基于两个麦克风接收到的音频信号计算接收时延，基于接收时延确定第一声源位置；进一步基于每个麦克风对确定的第一声源位置进行加权处理。其中，权重值与以下至少一种信息有关：麦克风对中两个麦克风接收到的音频信号的幅度关系；麦克风对中任一麦克风接收到的音频信号的能量；麦克风对中两个麦克风之间的间距；麦克风对中任一麦克风接收到的音频信号的属性参数，所述属性参数包括以下至少之一：频率、周期、波长。

实际应用中，可预先设置N个麦克风对的权重值为1/N，N为大于1的正整数；进一步基于前述至少一种信息对1/N进行调整，调整完成后对N个权重值进行归一化处理，使得N个麦克风的权重值之和为1。

在一实施例中，若麦克风对中两个麦克风之间的距离大于音频信号波长的一半，则麦克风对中两个麦克风之间的距离与对应的权重值反相关，即麦克风对中两个麦克风之间的距离越大，对应的权重值越小。

在一实施例中，在音频信号的入射方向可以大致确定在一角度范围的情况下，对每个麦克风对，求在此角度范围的声程差。其中，针对音频信号的入射方向在该角度范围对应的区域内时，麦克风对中两个麦克风之间的距离，乘以此区域内确定的音频信号的近似方向和麦克风对连线方向的余弦，该乘积表示声程差，也即音频信号的声源到达麦克风对中的两个麦克风经过的路程差。可以理解为，基于麦克风对重两个麦克风之间的距离确定声程差；根据声程差与波长的比较结果调整对应的权重值。

作为一种示例，如果声程差超过音频信号的1/2波长，则对应麦克风对的权值降为0。

作为另一种示例，比较声程差和音频信号的3/8波长；如果声程差超过音频信号的3/8波长，则对应麦克风对的权重值降低为作为初始权重值1/N的1/2。

作为又一种示例，在声源的入射方向没有或较难有明确范围的情况下，如果麦克风对中两个麦克风之间的距离超过音频信号的1/2波长，则对应麦克风对的权重值降为0。

在一实施例中，若麦克风接收到的音频信号的能量相比于其他麦克风接收到的音频信号的能量低，则该麦克风所在的麦克风对的权重值小于其他麦克风对的权重值。

其中，作为一种示例，检查麦克风接收到的音频信号的能量，并按大小排序；确定能量最大值；如果有某个麦克风接收的音频信号的能量比能量最大值低6dB或以上，则将该麦克风对的权值降低为作为初始权重值1/N的1/2。

在一实施例中，若多个麦克风中所有麦克风接收到的音频信号的频率低于第一预设阈值，使得所述多个麦克风中任意两个麦克风形成的麦克风对的间距低于音频信号波长的一半，并且间距最大的麦克风对中两个麦克风接收到的音频信号的能量差异小于第一数值时，所有麦克风对的权重值相等。

在一实施例中，若多个麦克风中所有麦克风接收到的音频信号的频率大于第一预设阈值小于第二预设阈值，使得所述多个麦克风中任意两个麦克风形成的麦克风对的间距低于音频信号波长的一半，并且间距最大的麦克风对中两个麦克风接收到的音频信号的能量差异大于第一数值小于第二数值时，所述多个麦克风中任意两个麦克风形成的麦克风对的权重值不同，但权重值之间的差异在预设阈值范围之内，可以理解，虽然权重值不同，但差别较小，权重值相近。

作为一种示例，当某个麦克风对的间距大于音频信号波长的一半，则该麦克风对的相对时延高于音频信号周期一半的可能性很高，计算结果无效的风险也较高，基于此，对应于该麦克风对的第一声源位置对应的权重值较小。作为另一种示例，当某个麦克风接收的音频信号的能量相较与其他麦克风接收的音频信号的能量低，则该麦克风接收的音频信号的信噪比也较低，则包含此麦克风的麦克风对对应的第一声源位置受噪声的影响较大，基于此，对应于该麦克风对的第一声源位置对应的权重值较小。为了降低环境反射和计算误差的影响，幅度估计的方式，也可以用于剔除野点。作为又一种示例，若麦克风对中两个麦克风之间的距离，都低于接收的音频信号波长的一半，或者各个麦克风接收的音频信号的能量都接近(如接收的能量之间的差异在预设阈值范围内)，则各个麦克风对确定的第一声源位置对应的权重值相同或相近。

具体的，以麦克风的数量为六个为例，即包括麦克风A、麦克风B、麦克风C、麦克风D、麦克风E和麦克风F，假设音频信号从15度方向入射，而麦克风ABCDEF的朝向分别为0、60、120、180、240、300度。音频信号方向和麦克风阵元A的朝向最为接近。这里，麦克风可以为全指向麦克风，麦克风及其周围结构(包括麦克风朝向)形成麦克风阵元，麦克风阵元为单指向性。

当音频信号的频率较高时，比如3000Hz，其信号波长是11.3cm，结合设备底面的直径和麦克风的排列信息，可知在所有的麦克风对中，音频信号波长小于麦克风对AD、BE、CF的间距的两倍，而大于其他麦克风对间距的两倍，通过六个麦克风接收的音频信号的能量比较，可以确定与麦克风朝向最接近的麦克风。例如，对麦克风接收的音频信号的能量进行排序，麦克风A的能量最大，麦克风B的能量其次，麦克风F的能量位于第三位，可以确定音频信号的入射角为与麦克风A的朝向最接近，其次是麦克风B，再其次是麦克风F。此时可基于麦克风A和麦克风B或者麦克风A、麦克风B和麦克风F对音频信号对应的声源进行大致定位。在所有的麦克风对中，麦克风对AD的接收时延可能大于信号周期的1/2，时延计算值非唯一，不能用于定向，其权重置为0。而其他的麦克风对可以避免此风险，其中麦克风对AB、AF、FB三个麦克风对的接收时延最小，且接收的音频信号的能量较强，信噪比较高，这三个麦克风对基于接收时延计算出的声源位置，对应具有较高的权重值，其他麦克风对基于接收时延计算出的声源位置，对应的权重值小于该较高的权重值。此外，如果某个麦克风对计算得到的方位，偏出基于麦克风A和麦克风B或者麦克风A、麦克风B和麦克风F确定的近似区域，则此麦克风对可能遭遇异常的反射干扰或者噪声干扰，应予剔除，将其对应的权重值置为0。类似的，当音频信号的频率更高，则剔除的麦克风对也会多一些。

当音频信号频率较低，例如是1500Hz时，音频信号波长为22.6cm，使得所有麦克风对的间距都低于波长的一半，所有麦克风对计算的声源位置，都可以用于最终声源位置的加权计算。每个麦克风的指向性在此频率较明显，从麦克风阵元和麦克风对的能量比较中，可以知道麦克风D的能量最低，而麦克风对AD的能量相差最大，则所有麦克风对计算得到的声源位置，在加权处理中，来自麦克风对AD的权重值最低，来自其他包含麦克风D的麦克风对的权重值次低，而来自能量最大且能量差异较小的麦克风对AB、麦克风对AF、麦克风对BF的权重值最大。

当音频信号频率更低一点，例如是500Hz时，音频信号波长为67.8cm，使得所有麦克风对的间距都低于波长的一半，且麦克风阵元的指向性在此频率不是很明显，即使是差距最大的麦克风对，能量差异也不超过3dB，此时各个麦克风对的计算的声源方向权重接近。当音频信号频率更低，比如200Hz，麦克风阵元的指向性很弱，各个麦克风对的计算的声源方向权重相等。

需要说明的是，上述方式是设备内部有遮挡作用的界面麦克风进行声源定位的方式，本发明实施例在于充分利用遮挡效应，尽可能避免麦克风对接收时延高于半周期时带来的误差问题。

本发明实施例可以逐次计算多个不同方向的声源。当确定某个特定方向的声源需要增强后，可以将声源方向和左右一定角度范围设为保护区域，将其他方向设为抑制区域，对来自保护区域的音频信号做增强处理，而削弱抑制区域的音频信号，达到提升音频信号清晰度和音频质量的作用。音频信号的增强方法可以包括超指向阵列滤波器、最小方差无失真响应阵列滤波器、盲源分离法等。

在一实施例中，所述存储器中还存储有音频指令识别程序；所述处理器执行所述音频指令识别程序时，实现对基于音频信号转换获得的音频数据的识别，获得所述音频数据包含的音频指令。

具体的，用户可通过语音方式实现对音频交互设备的控制，例如控制音频交互设备播放音乐文件、暂停播放音乐文件、切换播放“上一个”或“下一个”音乐文件等等。基于此，音频交互设备中还设置有麦克风相关的组件，例如模数转换模块，用于对音频信号进行模数转换，获得音频数据；则所述处理器执行所述音频指令识别程序时，对所述音频数据进行识别，获得所述音频数据包含的音频指令。

在一实施例中，音频交互设备还可包括通信组件，所述通信组件支持音频交互设备与其他设备之间通过有线网络或无线网络的通信。音频交互设备可接入基于通信标准的无线网络，通信标准包括以下至少之一：无线保真(WiFi)、移动电话行动通信标准(如2G、3G、4G、5G等)。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件还包括近场通信(NFC，Near Field Communication)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID，Radio Frequency IDentification)技术、红外数据组织(IrDA，Infrared DataAssociation)技术、超宽带(UWB，Ultra WideBand)技术、蓝牙(BT，BlueTooth)技术或其他技术来实现。

在一实施例中，音频交互设备还可包括电源组件，用于为音频交互设备中的各组件提供电力。电源组件可包括电源管理系统、至少一个电源和其他与为音频交互设备生成、管理和分配电力相关联的组件。

本实施例中，处理器用于控制音频交互设备的整体操作，例如音频输出控制、音频输入控制、音量调整、音频输出内容的控制等。处理器的数量可包括至少一个模块，以便于与其他组件之间的交互，例如，处理器可包括麦克风模块，以方便处理与麦克风之间的交互。

本实施例中，存储器可由任何类型的易失性或非易失性存储设备、或者它们的组合来实现。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，Ferromagnetic Random Access Memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random Access Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，DynamicRandom Access Memory)、同步动态随机存取存储器(SDRAM，Synchronous Dynamic RandomAccess Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data RateSynchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

采用本发明实施例的技术方案，一方面，麦克风设置在靠近置物面的音频交互设备的底部，提升了音频交互设备的整体外观的美观性，避免操作时误触麦克风产生杂音；又一方面，本实施例中扬声器设置在远离麦克风的另一侧，即布局在音频交互设备的顶部，提升了音频交互设备的音频输出的效果。图6为本发明实施例的音频交互设备朝向声源的麦克风和背向声源的麦克风的灵敏度示意图；如图6所示，在1500Hz以上出现5dB以上的幅度差异，在3000Hz以上出现8dB以上的幅度差异。图7为本发明实施例的音频交互设备的麦克风在各方向的灵敏度示意图，如图7所示，当信号源在0度和180度时，灵敏度差异超过5dB。

本发明实施例还提供了一种数据处理方法，该数据处理方法应用于前述音频交互设备，用于对音频交互设备接收到的音频信号进行处理。所述方法包括：

步骤101：通过多个麦克风获得音频信号。

步骤102：针对所述多个麦克风中任意两个麦克风形成的麦克风对采用时延估计和/或幅度估计的方式确定第一声源位置。

步骤103：对确定的多个第一声源位置进行加权处理，获得声源位置。

本实施例的数据处理方法主要用于对多个麦克风接收到的音频信号进行声源定位处理。

作为一种实施方式，所述针对所述多个麦克风中任意两个麦克风形成的麦克风对采用时延估计的方式确定第一声源位置，包括：获得第一麦克风接收的第一音频信号，获得第二麦克风接收的第二音频信号；基于所述第一音频信号和所述第二音频信号确定接收时延；基于所述接收时延确定声源与所述第一麦克风和所述第二麦克风之间的距离差；基于所述距离差以及所述第一麦克风和所述第二麦克风之间的距离确定第一声源位置。具体的实现过程可参照前述实施例中所述，这里不再赘述。

在一实施例中，假设麦克风在某个频率f在各个方向theta的灵敏度可以用d(theta–thetak,f)表示。d(alpha,f)表示在与麦克风朝向夹角为alpha的方向上，当alpha＝0时，灵敏度最大。函数d也可称之为指向性函数。如果麦克风A和麦克风B的指向并非朝向同一方向而是呈夹角beta，声源信号的入射方向与两个麦克风的朝向的夹角分别为betaA和betaB，则麦克风A和麦克风B的指向性函数分别为d_A和d_B；音频信号到达两个麦克风时，传输衰减HA和HB的比值符合公式HA/HB＝d_A(betaA)/d_B(betaB)。当指向性函数d(alpha,f)的数值，随角度alpha变化有明显变化时，通过幅度信息，就可以得到音频信号相对麦克风A和麦克风B的方位。当音频信号的波长越短，频率越高，则麦克风的指向性越明显，d(alpha,f)随方向的变化也越明显。

在一实施例中，所述对确定的多个第一声源位置进行加权处理，获得声源位置，包括：基于以下信息的至少之一确定对应于麦克风对的第一声源位置的权重值，基于所述权重值和对应的第一声源位置进行加权处理，获得声源位置；

麦克风对中任一麦克风接收到的音频信号的能量；

麦克风对中两个麦克风之间的间距；

在一实施例中，若麦克风对中两个麦克风之间的距离大于音频信号波长的一半，则麦克风对中两个麦克风之间的距离与对应的权重值反相关，即麦克风对中两个麦克风之间的距离越大，对应的权重值越小。如果当信号入射方向所在的区域已知时，麦克风对中两个麦克风之间的距离，乘以此区域内某个入射方向和麦克风对连线方向的余弦，其乘积绝对值大于音频信号波长的一半，则此麦克风对的权重值降低为零。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本发明实施例所述的数据处理方法的步骤。

在本申请所提供的几个实施例中，应该理解到，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种音频交互设备，其特征在于，所述设备包括：具有壳体、以及位于所述壳体的容置空间内的多个麦克风、至少一个处理器和用于存储能够在处理器上运行的计算机程序的存储器，所述处理器用于运行所述计算机程序时执行：识别所述多个麦克风获得的音频信号以及对所述音频信号进行处理；

2.根据权利要求1所述的设备，其特征在于，所述壳体设置有与所述多个麦克风中每个麦克风对应的第一透声孔；

其中，多个第一透声孔位于所述第一表面与所述音频交互设备的侧表面的连接处。

3.根据权利要求2所述的设备，其特征在于，设置有第一透声孔的壳体形成具有至少一个反射面的容置部，所述麦克风位于所述容置部中。

4.根据权利要求3所述的设备，其特征在于，所述多个麦克风中的每个麦克风对应一个容置部；多个容置部具有相同的结构。

5.根据权利要求2所述的设备，其特征在于，所述第一透声孔在所述壳体上形成中心对称的开口形状。

6.根据权利要求1所述的设备，其特征在于，所述多个麦克风的数量与待接收的音频信号的属性参数以及所述音频交互设备相关联。

7.根据权利要求1所述的设备，其特征在于，所述存储器中存储有包含麦克风阵列信号处理算法的应用程序；

麦克风对中任一麦克风接收到的音频信号的能量；

麦克风对中两个麦克风之间的间距；

8.一种数据处理方法，其特征在于，所述方法应用于权利要求1至11任一项所述的音频交互设备；所述方法包括：

通过多个麦克风获得音频信号；

对确定的多个第一声源位置进行加权处理，获得声源位置。

9.根据权利要求8所述的方法，其特征在于，所述对确定的多个第一声源位置进行加权处理，获得声源位置，包括：

麦克风对中任一麦克风接收到的音频信号的能量；

麦克风对中两个麦克风之间的间距；

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求8至9所述数据处理方法的步骤。