CN109951768A

CN109951768A - 音频采集装置及用于处理音频的设备和方法

Info

Publication number: CN109951768A
Application number: CN201910063526.7A
Authority: CN
Inventors: 滕海; 陈仁武; 顾凤香; 董敏亚
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2019-01-23
Filing date: 2019-01-23
Publication date: 2019-06-28
Also published as: WO2020151303A1; TW202029781A

Abstract

公开了一种音频采集装置，所述音频采集装置包括：底板，所述底板包括多个聚音结构；以及麦克风阵列，所述麦克风阵列包括多个麦克风，其中所述多个麦克风各自被置于相应的聚音结构中，所述聚音结构被构造成增强相应的麦克风在特定方向上的音频采集能力。本申请还公开了用于处理音频的设备和方法。

Description

音频采集装置及用于处理音频的设备和方法

技术领域

本发明涉及音频处理，尤其涉及音频采集装置及用于处理音频的设备和方法。

背景技术

随着语音交互技术的飞速发展，基于麦克风阵列的音频采集技术得到了广泛应用。麦克风阵列通常包括用于采集音频的多个麦克风，以实现音频增强、声源定位或去混响等功能。

目前应用于麦克风阵列的麦克风通常是不具备指向性的全向麦克风。然而，在语音交互场景中，往往关注特定方向的声音。由全向麦克风构成的麦克风阵列容易损失音频信息，尤其是高频信息，而且无法收集特定方向的信息，增大后续处理的难度。

因此，需要一种能够增强麦克风阵列的指向性并能增强音频尤其是音频的高频部分的收集的成本高效的解决方案。

发明内容

为了克服现有技术的缺陷，本发明提供了能够增强麦克风阵列的指向性的技术方案。

本发明通过以下技术方案来实现其上述目的。

在一个方面中，公开了一种音频采集装置，所述音频采集装置包括：底板，所述底板包括多个聚音结构；以及麦克风阵列，所述麦克风阵列包括多个麦克风，其中所述多个麦克风各自被置于相应的聚音结构中，所述聚音结构被构造成增强相应的麦克风在特定方向上的音频采集能力。

优选地，所述聚音结构是所述底板中的凹陷部，所述麦克风被置于所述凹陷部的底部，所述凹陷部的开口的面积大于所述凹陷部的底部的面积。

优选地，所述凹陷部呈圆锥形。

优选地，所述凹陷部的截面的形状为圆环的一部分、抛物线的一部分、三角形的一部分中的至少一者。

优选地，每个聚音结构具有相同的形状。

优选地，来自多个麦克风的音频被采用相同的处理参数处理。

优选地，多个麦克风被连接到相同的音频处理装置。

优选地，多个麦克风被排列为线阵。

优选地，多个麦克风被排列为面阵。

在另一方面中，公开了一种用于处理音频的设备，所述设备包括：如上所述的音频采集装置；以及音频处理装置，所述音频处理装置接收所述音频采集装置接收的音频并处理所述音频。

优选地，所述音频处理装置包括预处理单元，所述预处理单元对所述音频进行放大和/或去噪。

优选地，所述音频处理装置包括语音识别单元，所述语音识别单元对所述音频执行语音识别以识别出语音命令。

优选地，所述音频处理装置包括命令执行单元，所述命令执行单元执行识别出语音命令。

优选地，所述音频采集装置中的每个聚音结构具有相同的形状，其中所述音频处理装置采用相同的处理参数对来自所述音频采集装置中的每个麦克风的音频进行处理。

优选地，所述音频采集装置被安装在所述设备的面向用户的面板上。

在又一方面中，公开了一种用于处理音频的方法，所述方法包括：接收通过如上所述的音频采集装置采集的音频；对所接收的音频执行语音识别以识别出语音命令；以及执行所识别的语音命令。

优选地，使用相同的处理参数来处理来自所述音频采集装置的多个麦克风的音频。

与现有技术相比，本发明可具有如下有益效果：

增强音频，尤其是音频的高频部分的收集；

增强对特定方向的音频的采集性能；

简化音频的处理；以及

成本很低且易于制造。

当然，实施本申请的任一技术方案无需同时达到所有上述技术效果。

附图说明

本发明的以上发明内容以及下面的具体实施方式在结合附图阅读时会得到更好的理解。需要说明的是，附图仅作为所请求保护的发明的示例。在附图中，相同的附图标记代表相同或类似的元素。

图1是示出根据本说明书的实施例的音频采集装置的示意图。

图2是示出根据本说明书的实施例的音频采集装置的立体图。

图3是示出根据本说明书的实施例的音频采集装置的操作场景。

图4A-4E是示出根据本说明书的实施例的音频采集装置的聚音结构的形状的示例。

图5是示出根据本说明书的实施例的音频采集装置的聚音结构的开口的形状的示例。

图6是示出根据本说明书的实施例的音频采集装置的麦克风的布置的示例的示意图。

图7A-7B是示出根据本说明书的实施例的包括音频采集装置的设备的示意图。

图8是示出根据本说明书的实施例的包括音频采集装置的设备的框图。

图9是示出根据本说明书的实施例的处理音频的方法的流程图。

具体实施方式

以下在具体实施方式中详细叙述本发明的详细特征以及优点，其内容足以使任何本领域技术人员了解本发明的技术内容并据以实施，且根据本说明书所揭露的说明书、权利要求及附图，本领域技术人员可轻易地理解本发明相关的目的及优点。

为了增强对特定方向的音频的采集性能，同时简化音频的处理，本发明需要一种成本高效的音频采集装置及音频处理设备和方法。

音频采集装置

参见图1，其中示出了根据本说明书的实施例的音频采集装置100的示意图。音频采集装置100可包括麦克风阵列102。麦克风阵列102中包括多个麦克风106。

优选地，音频采集装置100还可包括底板104，底板104支撑该麦克风阵列102。例如，在如图7A所示的电视机的示例中，底板104可以是电视机的边框。替代地，底板104可以不是电视机的边框，而是另外的底板，其可被固定到电视机的边框或其它位置。

从图1中可以看出，底板104包括多个聚音结构108。聚音结构108被构造成增强对应的麦克风在特定方向上的音频采集能力。

优选地，参考如图2所示的根据本说明书的实施例的音频采集装置100的立体图。如图2所示，聚音结构108是所述底板内的凹陷部。所述凹陷部被构造为增强麦克风在特定方向上的音频采集能力。聚音结构108的形状将在下面详细描述。

替代地，聚音结构108还可采用其它形式。例如，聚音结构可部分突出于底板(图中未示出)。

如图1和图3所示，麦克风阵列102的各麦克风106位于聚音结构108内。优选地，麦克风106位于聚音结构108的底部，例如底部中心位置。下面将结合聚音结构的形状对此进行进一步描述。

聚音结构的形状

优选地，构成聚音结构108的凹陷部呈圆锥形，如图2的立体图所示。此时，麦克风106例如可被置于圆锥形的底部(即圆锥的顶点处)。可以理解，与简单地将麦克风置于边框侧面的小孔中的传统方案相比，在本说明书实施例的聚音结构中，在该圆锥形的轴线所面对的方向上的音频采集能力将相对于其它方向被加强，如以下结合图3所说明的。

参考图3，其示出了根据本说明书的实施例的音频采集装置100的操作场景。优选地，聚音结构108的圆锥形的夹角为74°，该圆锥形的深度为2厘米。经过测试，在此参数下，当点声源302与麦克风106的距离为1米时，相对于不使用该聚音结构的全向麦克风，麦克风在0°(该点声源在该聚音结构的轴线上)和90°(该点声源与该聚音结构的连线与该聚音结构的轴线垂直)所采集的正常语音(不同于其它测试中使用的单频音)的拾音的差异分别提升8db和4db。也就是说，在此参数下，指向性可达到4db。

可以理解，也可采用其它任何合适的尺寸参数。可以领会，本领域技术人员可以根据声源与麦克风的常见距离，来设计聚音结构的圆锥形的夹角大小和圆锥形的深度，以实现最佳的聚音效果。

例如，在平板计算机的示例中，声源与麦克风的距离通常在30-50厘米。在此情况下，可将聚音结构108的圆锥形的夹角设计为25度，深度设计为0.35厘米。

又例如，在电视机的示例中，声源与麦克风的距离通常在3-5米(或其它距离，取决于电视机的尺寸)。在此情况下，可将聚音结构108的圆锥形的夹角设计为60度，深度设计为0.7厘米。例如，可以通过实验选择不同的尺寸参数，以达到最佳的聚音效果。

可以理解，在选择聚音结构的参数时，还可以考虑其它因素，例如制造容易度、制造成本、产品美观度等。

可以领会，凹陷部可采用其它各种形状，这些形状均可被选择为增强麦克风在特定方向上的音频采集能力。通常，所述麦克风被置于所述凹陷部的底部，所述凹陷部的截面的开口的面积大于所述凹陷部的底部的面积，以便实现聚音效果。

参考图4A-4E，其示出了根据本说明书的实施例的音频采集装置的聚音结构的形状的更多示例。

如图4A-4C中所示，所述凹陷部的截面的形状可包括但不限于圆环的一部分(图4A)、抛物线的一部分(图4B)、三角形的一部分(图4C)中的至少一者。所述凹陷部还可采用其它形状，如图4D所示。尽管在图4A-4D中开口被示出为圆形，但应领会，开口可以为其它形状，例如矩形，如图4E中所示。开口的形状将在下面参考图5更详细地解释。

可以领会，通常，所述凹陷部的截面在开口处的尺寸通常大于底部(即与开口相对的位置)的尺寸。例如，在圆环截面的示例中，圆环的开口处的大小大于其顶点的大小。在抛物线截面的示例中，抛物线的开口处的大小大于其顶点的大小。在三角形截面的示例中，三角形的边的大小大于其顶点的大小。

相应地，麦克风106通常可被置于凹陷部的底部处。例如，在圆环截面的示例中，麦克风106可被置于与开口相对的端点(即距开口最远的位置)处。在抛物线截面的示例中，麦克风106可被置于其顶点处。在三角形截面的示例中，麦克风106可被置于与开口的边相对的顶点处。通过这种构造，从开口进入凹陷部的声音将被聚集到麦克风的位置处，从而实现更好的音频聚集效果。

可以领会，这些仅是聚音结构的截面的示例，本发明的聚音结构的截面的形状不限于此。

参考图5，其示出了根据本说明书的实施例的音频采集装置的聚音结构的开口的示例。如图5中所示凹陷部的开口也可采用各种形状，包括但不限于圆形、方形或其它多边形等。可以领会，这些仅是聚音结构的开口的示例，本发明的聚音结构的开口的形状不限于此。如同上面提及的，凹陷部的截面形状可以和图5所示的开口的形状以任何适当方式进行组合。

优选地，所述聚音结构或所述底板是通过3D打印成型的。也可采用其它方式来制造。可以领会，这种简单的结构易于制造且成本较低。

优选地，所述聚音结构具有相同的形状。已经发现，这种方案是特别有利的。聚音结构采用相同的形状不仅降低了制造的难度，而且使得每个麦克风的频响具有一致性，从而简化了后续的音频处理。在此情况下，来自所述多个麦克风的音频被采用相同的处理参数处理。优选地，所述多个麦克风被连接到相同的处理器，由相同的处理器采用相同的处理参数来处理来自多个麦克风的音频。

麦克风的布置

参见图6，其示出了根据本说明书的实施例的音频采集装置的麦克风(及对应的聚音结构)的布置的示例的示意图。

为了实现音频增强、声源定位或去混响等功能，麦克风可被布置在麦克风阵列中。

优选地，如图1所示，多个麦克风被排列为线阵。例如，所述多个麦克风可被排列为一行或一列，即被排列为一维阵列。此种布置特别易于制造。

替代地，所述多个麦克风可按其它方式来排列。例如，所述多个麦克风可被排列为面阵，即被排列为二维阵列。优选地，所述面阵包括但不限于方阵、圆阵、椭圆阵等。所述面阵可包括其它二维阵列，例如L形阵列、不规则阵列等。

优选地，各麦克风之间的间隔是均匀的。或者，各麦克风之间的间隔也可以是不均匀的。

本领域技术人员可构想其它布置，其均落入本发明的保护范围。

采用本说明书的实施例的麦克风阵列和聚音结构的组合，能够均匀且一致地提升麦克风阵列中的各个麦克风在特定方向上的聚音能力，从而实现更好的音频采集效果。

包括音频采集装置的设备

在一些设备中，例如平板计算机，已经包括了麦克风，通常麦克风位于边框侧面。传统平板计算机中的麦克风通常不面向声源。

而且，在传统平板计算机中，麦克风被置于小孔中，该小孔通常不被特别设计为具有适合增强特定方向的音频采集能力的形状。

参见图7A-7B，其示出了根据本说明书的实施例的音频采集装置可在其中使用的设备的整体图。

在图7A的示例中，该设备例如是电视机。如图7A所示，电视机可包括边框702，在该边框上可实现如本说明书实施例所述的音频采集装置100。

在一些实施例中，音频采集装置100所采集的音频可简单地由电视机记录、播放或执行其它处理。

在另一些较佳实施例中，音频采集装置100所采集的音频可被用于控制设备。例如，电视机可通过该音频采集装置采集用户的音频，对采集到的音频执行语音识别，从而能够确定用户想要执行的命令。例如，用户可对电视机说“暂停播放”，音频采集装置可采集此音频，从中识别出“暂停播放”命令，并暂停当前电视机上的视频或音频的播放。

在图7B的示例中，该设备例如是平板计算机。如图7B所示，平板计算机同样可包括边框706并在边框上实现如本说明书实施例所述的音频采集装置100。

优选地，如图7A和7B所示，音频采集装置可被置于边框正面，以面向声源(例如面向用户)。将音频采集装置置于边框正面有助于根据本说明书实施例的音频采集装置增强声源方向的音频采集。

虽然在图7A和7B的示例中该音频采集装置被实现在上边框中，可以领会，该音频采集装置可被实现在边框的任何位置。替代地，该音频采集装置可实现在边框外的其它结构(例如底座704等)中。

本领域技术人员可以领会，本说明书实施例的音频采集装置可实现在除了电视机和平板计算机外的其它设备(例如售货机、智能音箱等)，本说明书实施例不局限于特定设备。

包括音频采集装置的设备的框图

参见图8，其示出根据本说明书的实施例的包括音频采集装置的设备的框图。该设备例如可以是上面参考图7A-7B描述的平板计算机、电视机、售货机等等，但不限于此。

该设备可包括如上所述的音频采集装置100。采用本发明的音频采集装置，特定方向的音频能够被加强，从而有助于后续处理。

该设备还可包括音频处理装置802。所述音频处理装置802接收并处理来自音频采集装置100的音频。在一些较简单的实施例中，音频处理装置802可简单地存储或播放音频。例如，音频处理装置802可将所采集的音频存储在语音备忘录中。

在另一些较佳实施例中，音频处理装置802可包括预处理单元804。预处理单元可对接收到的音频进行预处理。例如，可对接收到的音频进行放大、去噪等操作。

在实施例中，音频处理装置802还可包括语音识别单元806。语音识别单元806可对采集到的音频执行语音识别，从而能够确定用户想要执行的命令。例如，用户可对电视机说“暂停播放”，音频采集装置可采集此音频，从中识别出“暂停播放”命令。

在实施例中，音频处理装置802还可包括命令执行单元808。命令执行单元808可执行由语音识别单元806所识别的命令，例如暂停当前电视机上的视频或音频的播放。

具体各个功能采用硬件(例如通用处理器或专门的音频处理器等)还是软件来实现，以及各个功能在各软件/硬件单元的分布可由本领域技术人员根据实际需要设计，这些均落入本说明书实施例的范围。

优选地，该音频采集装置100中的多个麦克风被连接到同一音频处理装置802。

如上所述，当聚音结构采用相同的形状时，可由相同的音频处理装置利用相同的处理参数来处理来自多个麦克风的音频，从而减少了处理复杂度并提升了处理性能。

音频处理方法

参见图9，其示出根据本说明书的实施例的处理音频的方法900的流程图。方法900可包括：在步骤902，接收通过如上所述的音频采集装置采集的音频。

方法900还可包括：可选地，在步骤904，对所接收的音频进行预处理。优选地，使用相同的处理参数来处理来自所述音频采集装置的多个麦克风的音频。例如，如上所述，当聚音结构采用相同的形状时，可由相同的处理器利用相同的处理参数来处理来自多个麦克风的音频，从而减少了处理复杂度并提升了处理性能。

方法900还可包括：在步骤906，对所接收的音频执行语音识别以识别出命令。由于采用本说明书实施例的音频采集装置采集的音频能够增强特定方向上的音频，所以位于该特定方向上的用户所说出的语音命令能够被更清楚地采集，从而提升了语音识别的效果。

方法900还可包括：在步骤908，执行所识别的语音命令。

应该理解，本文用单数形式描述或者在附图中仅显示一个的元件并不代表将该元件的数量限于一个。此外，本文中被描述或示出为分开的模块或元件可被组合为单个模块或元件，且本文中被描述或示出为单个的模块或元件可被拆分为多个模块或元件。

还应理解，本文采用的术语和表述方式只是用于描述，本发明并不应局限于这些术语和表述。使用这些术语和表述并不意味着排除任何示意和描述(或其中部分)的等效特征，应认识到可能存在的各种修改也应包含在权利要求范围内。其他修改、变化和替换也可能存在。相应的，权利要求应视为覆盖所有这些等效物。

同样，需要指出的是，虽然本发明已参照当前的具体实施例来描述，但是本技术领域中的普通技术人员应当认识到，以上的实施例仅是用来说明本发明，在没有脱离本发明精神的情况下还可做出各种等效的变化或替换，因此，只要在本发明的实质精神范围内对上述实施例的变化、变型都将落在本申请的权利要求书的范围内。

Claims

1.一种音频采集装置，其特征在于，所述音频采集装置包括：

底板，所述底板包括多个聚音结构；以及

麦克风阵列，所述麦克风阵列包括多个麦克风，

其中所述多个麦克风各自被置于相应的聚音结构中，所述聚音结构被构造成增强该聚音结构中的麦克风在特定方向上的音频采集能力。

2.如权利要求1所述的音频采集装置，其特征在于，所述聚音结构是所述底板中的凹陷部，所述麦克风被置于所述凹陷部的底部，所述凹陷部的开口的面积大于所述凹陷部的底部的面积。

3.如权利要求2所述的音频采集装置，其特征在于，所述凹陷部呈圆锥形。

4.如权利要求2所述的音频采集装置，其特征在于，所述凹陷部的截面的形状为圆环的一部分、抛物线的一部分、三角形的一部分中的至少一者。

5.如权利要求1所述的音频采集装置，其特征在于，每个聚音结构具有相同的形状。

6.如权利要求5所述的音频采集装置，其特征在于，来自所述多个麦克风的音频被采用相同的处理参数处理。

7.如权利要求5所述的音频采集装置，其特征在于，所述多个麦克风被连接到同一音频处理装置。

8.如权利要求1所述的音频采集装置，其特征在于，所述多个麦克风被排列为线阵。

9.如权利要求1所述的音频采集装置，其特征在于，所述多个麦克风被排列为面阵。

10.一种用于处理音频的设备，其特征在于，所述设备包括：

如权利要求1-9中任一项所述的音频采集装置；以及

音频处理装置，所述音频处理装置接收所述音频采集装置接收的音频并处理所述音频。

11.如权利要求10所述的设备，其特征在于，所述音频处理装置包括预处理单元，所述预处理单元对所述音频进行放大和/或去噪。

12.如权利要求10所述的设备，其特征在于，所述音频处理装置包括语音识别单元，所述语音识别单元对所述音频执行语音识别以识别出语音命令。

13.如权利要求12所述的设备，其特征在于，所述音频处理装置包括命令执行单元，所述命令执行单元执行识别出语音命令。

14.如权利要求10所述的设备，其特征在于，所述音频采集装置中的每个聚音结构具有相同的形状，其中所述音频处理装置采用相同的处理参数对来自所述音频采集装置中的每个麦克风的音频进行处理。

15.如权利要求10所述的设备，其特征在于，所述音频采集装置被安装在所述设备的面向用户的面板上。

16.一种用于处理音频的方法，其特征在于，所述方法包括：

接收通过如权利要求1-9中任一项所述的音频采集装置采集的音频；

对所接收的音频执行语音识别以识别出语音命令；以及

执行所识别的语音命令。

17.如权利要求15所述的方法，其特征在于，使用相同的处理参数来处理来自所述音频采集装置的所述多个麦克风的音频。