CN106098075B

CN106098075B - 基于麦克风阵列的音频采集方法和装置

Info

Publication number: CN106098075B
Application number: CN201610643347.7A
Authority: CN
Inventors: 谢达东; 王尔玉; 马建雄; 卢鲤; 刘海龙; 刘荐; 陈波
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-08-08
Filing date: 2016-08-08
Publication date: 2018-02-02
Anticipated expiration: 2036-08-08
Also published as: CN106098075A

Abstract

本发明公开了一种基于麦克风阵列的音频采集方法和装置。该方法包括：通过第一麦克风阵列在全方向上搜索音频，第二麦克风阵列在第一波束指向上采集第一目标音频；判断第一麦克风阵列搜索到的触发音频是否满足预定切换触发条件；若满足将其作为第二目标音频，并将其声源定位信息发送给第二麦克风阵列；判断发出第二目标音频的第二声源所在的第二位置与发出第一目标音频的第一声源所在的第一位置是否相同；若第二位置与第一位置不同，则控制第二麦克风阵列进行波束指向切换，以在第二波束指向上采集第二目标音频。本发明解决了相关技术中由于单个麦克风阵列的音频采集方向固定所导致的无法采集其他方向上的音频的技术问题。

Description

基于麦克风阵列的音频采集方法和装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种基于麦克风阵列的音频采集方法和装置。

背景技术

目前，语音定位识别被广泛应用，例如机器人通过语音定位说话人方位以实现与说话人进行语音交互。相关技术通常采用由多个麦克风组成的麦克风阵列采集音频并定位声源的位置，该麦克风阵列在定位声源的位置后，固定音频采集方向只采集该位置处声源所发出的音频，以达到增强采集到的音频信号的信噪比的目的。但是，由于单个麦克风阵列的音频采集方向固定，将会导致该麦克风阵列无法采集到其他方向上的音频。而且当声源位置发生改变时，该麦克风阵列便不能采集改变后的位置处的声源所发出的音频，这种局限性将会使得麦克风阵列不能满足实际应用需求。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种基于麦克风阵列的音频采集方法和装置，以至少解决相关技术中由于单个麦克风阵列的音频采集方向固定所导致的无法采集其他方向上的音频的技术问题。

根据本发明实施例的一个方面，提供了一种基于麦克风阵列的音频采集方法，包括：通过第一麦克风阵列在全方向上搜索音频，通过第二麦克风阵列在第一波束指向上采集第一目标音频；在第一麦克风阵列搜索到触发音频时，判断触发音频是否满足预定切换触发条件，其中，触发音频与第一目标音频不同；将满足预定切换触发条件的触发音频作为第二目标音频，并将第二目标音频的声源定位信息发送给第二麦克风阵列，其中，声源定位信息用于指示发出第二目标音频的第二声源所在的第二位置；判断第二声源所在的第二位置与第一声源所在的第一位置是否相同，其中，第一声源为第二麦克风阵列在第一波束指向上采集的第一目标音频的声源，第一位置为第一声源所在的位置；以及在判断出第二位置与第一位置不同时，控制第二麦克风阵列进行波束指向切换，以在第二波束指向上采集第二目标音频。

根据本发明实施例的另一方面，还提供了一种基于麦克风阵列的音频采集装置，包括：第一麦克风阵列，用于在全方向上搜索音频；第二麦克风阵列，用于在第一波束指向上采集第一目标音频；控制器，分别与第一麦克风阵列和第二麦克风阵列连接，用于判断第一麦克风阵列搜索到的触发音频是否满足预定切换触发条件，其中，触发音频与第一目标音频不同；将满足预定切换触发条件的触发音频作为第二目标音频，并将第二目标音频的声源定位信息发送给第二麦克风阵列，其中，声源定位信息用于指示发出第二目标音频的第二声源所在的第二位置；判断第二声源所在的第二位置与第一声源所在的第一位置是否相同，其中，第一声源为第二麦克风阵列在第一波束指向上采集的第一目标音频的声源，第一位置为第一声源所在的位置；在判断出第二位置与第一位置不同时，控制第二麦克风阵列进行波束指向切换，以在第二波束指向上采集第二目标音频。

根据本发明实施例的另一方面，还提供了一种基于麦克风阵列的音频采集装置，包括：搜索单元，用于通过第一麦克风阵列在全方向上搜索音频，通过第二麦克风阵列在第一波束指向上采集第一目标音频；第一判断单元，用于在第一麦克风阵列搜索到触发音频时，判断触发音频是否满足预定切换触发条件，其中，触发音频与第一目标音频不同；发送单元，用于将满足预定切换触发条件的触发音频作为第二目标音频，并将第二目标音频的声源定位信息发送给第二麦克风阵列，其中，声源定位信息用于指示发出第二目标音频的第二声源所在的第二位置；第二判断单元，用于判断第二声源所在的第二位置与第一声源所在的第一位置是否相同，其中，第一声源为第二麦克风阵列在第一波束指向上采集的第一目标音频的声源，第一位置为第一声源所在的位置；以及控制单元，用于在判断出第二位置与第一位置不同时，控制第二麦克风阵列进行波束指向切换，以在第二波束指向上采集第二目标音频。

在本发明实施例中，通过第一麦克风阵列在全方向上搜索音频，第二麦克风阵列在第一波束指向上采集第一目标音频；在第一麦克风阵列搜索到的触发音频时，判断其是否满足预定切换触发条件；若满足将其作为第二目标音频，并将其声源定位信息发送给第二麦克风阵列；然后判断发出第二目标音频的第二声源所在的第二位置与发出第一目标音频的第一声源所在的第一位置是否相同；若不同则控制第二麦克风阵列进行波束指向切换，以在第二波束指向上采集第二目标音频，以达到自由切换波束指向以采集不同方向上的音频的目的，进而解决了相关技术中由于单个麦克风阵列的音频采集方向固定所导致的无法采集其他方向上的音频的技术问题，实现了在不同方向上均能增强采集到的音频信号的信噪比的技术效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的基于麦克风阵列的音频采集方法的硬件环境的示意图；

图2是根据本发明实施例的一种可选的基于麦克风阵列的音频采集方法的流程图；

图3是根据本发明实施例的基于麦克风阵列的音频采集装置的示意图；

图4是根据本发明优选实施例的多麦克风阵列定位识别系统的示意图；

图5是根据本发明优选实施例的波束指向说话人1的示意图；

图6是根据本发明优选实施例的波束指向说话人2的示意图；

图7是根据本发明实施例的一种可选的基于麦克风阵列的音频采集装置的示意图；

图8是根据本发明实施例的另一种可选的基于麦克风阵列的音频采集装置的示意图；

图9是根据本发明实施例的另一种可选的基于麦克风阵列的音频采集装置的示意图；

图10是根据本发明实施例的另一种可选的基于麦克风阵列的音频采集装置的示意图；

图11是根据本发明实施例的另一种可选的基于麦克风阵列的音频采集装置的示意图；以及

图12是根据本发明实施例的一种终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本发明实施例进行描述的过程中出现的部分名词或者术语适用于如下解释：

麦克风阵列：是由多个麦克风组成的音频前端采集系统、并以这些麦克风对音频进行采集，获取来源方向，形成波束指向，达到增强音频信号的信噪比的目的。

多麦克风阵列：由多个组麦克风阵列组成的系统，可以用来完成多个音频的定位和波束指向的切换。

波束指向：麦克风阵列只采集特定方向的音频，抑制其他方向的音频的行为。

实施例1

根据本发明实施例，提供了一种基于麦克风阵列的音频采集方法的方法实施例。

可选地，在本实施例中，上述基于麦克风阵列的音频采集方法可以应用于如图1所示的由服务器102和终端104所构成的硬件环境中。如图1所示，服务器102通过网络与终端104进行连接，上述网络包括但不限于：广域网、城域网或局域网，终端104并不限定于PC、手机、平板电脑等。本发明实施例的基于麦克风阵列的音频采集方法可以由服务器102来执行，也可以由终端104来执行，还可以是由服务器102和终端104共同执行。其中，终端104执行本发明实施例的基于麦克风阵列的音频采集方法也可以是由安装在其上的客户端来执行。

图2是根据本发明实施例的一种可选的基于麦克风阵列的音频采集方法的流程图，如图2所示，该方法可以包括以下步骤：

步骤S202，通过第一麦克风阵列在全方向上搜索音频，通过第二麦克风阵列在第一波束指向上采集第一目标音频；

步骤S204，在第一麦克风阵列搜索到触发音频时，判断触发音频是否满足预定切换触发条件，其中，触发音频与第一目标音频不同；

步骤S206，将满足预定切换触发条件的触发音频作为第二目标音频，并将第二目标音频的声源定位信息发送给第二麦克风阵列，其中，声源定位信息用于指示发出第二目标音频的第二声源所在的第二位置；

步骤S208，判断第二声源所在的第二位置与第一声源所在的第一位置是否相同，其中，第一声源为第二麦克风阵列在第一波束指向上采集的第一目标音频的声源，第一位置为第一声源所在的位置；

步骤S210，在判断出第二位置与第一位置不同时，控制第二麦克风阵列进行波束指向切换，以在第二波束指向上采集第二目标音频。

通过上述步骤S202至步骤S210，通过第一麦克风阵列在全方向上搜索音频，第二麦克风阵列在第一波束指向上采集第一目标音频；在第一麦克风阵列搜索到的触发音频时，判断其是否满足预定切换触发条件；若满足将其作为第二目标音频，并将其声源定位信息发送给第二麦克风阵列；然后判断发出第二目标音频的第二声源所在的第二位置与发出第一目标音频的第一声源所在的第一位置是否相同；若不同则控制第二麦克风阵列进行波束指向切换，以在第二波束指向上采集第二目标音频，以达到自由切换波束指向以采集不同方向上的音频的目的，进而解决了相关技术中由于单个麦克风阵列的音频采集方向固定所导致的无法采集其他方向上的音频的技术问题，实现了在不同方向上均能增强采集到的音频信号的信噪比的技术效果。

此处首先需要说明的是，上述步骤可以由控制器执行，本发明实施例对控制器的类型不做具体限定，例如，控制器可以是可编程控制器等。上述步骤可以用于指示本发明实施例的基于麦克风阵列的音频采集方法的一个执行过程，在实际应用中，可以一直重复执行上述过程，即在第二麦克风阵列在某一个波束指向上采集目标音频时，第一麦克风阵列可以在全方向上搜索音频，待第一麦克风阵列搜索到的音频满足预定切换触发条件时，可以控制第二麦克风阵列进行波束指向切换，在另一个波束指向上采集目标音频。

在步骤S202提供的技术方案中，第一麦克风阵列可以为由多个麦克风组成的系统，其中，本发明实施例对多个麦克风的个数和排列顺序不做具体限定，例如，第一麦克风阵列中的多个麦克风可以水平排序，也可以垂直排列，还可以随机排序等。第一麦克风阵列可以在全方向上搜索音频，需要说明的是，此处的全方向可以为水平方向上的360度，也可以为垂直方向上的360度。第一麦克风阵列在全方向上搜索到的音频可以是一个，也可以是多个。在第一麦克风阵列搜索到的音频为多个时，每个音频的来源方向可以不相同。此处需要说明的是，本发明实施例以第一麦克风阵列搜索到的音频包括多个音频为例进行说明，因为在实际应用场景中，声音嘈杂，这样能够使得本发明更加符合实际应用需求。

可选地，第一麦克风阵列在全方向上搜索到音频后，可以保存搜索到的音频，以便于后续对该音频进行解析。需要说明的是，第一麦克风阵列对搜索到的音频的解析过程可以包括但并不限于对音频信号进行去噪处理、信号采样、信号频谱分析等。该实施例通过对搜素到的音频进行上述处理能够提高第一麦克风阵列搜索到的音频的信号质量，进而能够提高根据音频的解析结果确定的音频的声源的位置的准确度。

该实施例中第二麦克风阵列也可以为由多个麦克风组成的系统，其中，本发明实施例对第二麦克风阵列中多个麦克风的个数和排列顺序也不做具体限定，例如，第二麦克风阵列中的多个麦克风可以水平排序，也可以垂直排列，还可以随机排序等。第二麦克风阵列可以用于在第一波束指向上采集第一目标音频，以达到增强采集到的第一目标音频信号的信噪比的目的。此处需要说明的是，第一目标音频可以为第一声源发出的音频，第一声源所在的位置可以为第一位置，第一波束指向可以用于指示指向第一位置。还需要说明的是，第一目标音频的确定方法、第一位置的定位方法以及控制第二麦克风阵列在第一波束指向上采集第一目标音频的方法与下述步骤S204至步骤S210中记载的技术方案相似，此处先不做具体说明，详细介绍可以参见以下步骤的具体说明。

需要说明的是，步骤S202是一个执行过程的初始状态，第二麦克风阵列在第一波束指向上采集第一目标音频时，第一麦克风阵列可以在全方向搜索音频，如果第一麦克风阵列搜索到触发音频时，则可以执行步骤S204。

在步骤S204提供的技术方案中，触发音频可以为第一麦克风阵列搜索到的音频，其中，触发音频与第二麦克风阵列在第一波束指向上采集的第一目标音频不同。在第二麦克风阵列在第一波束指向上采集第一目标音频时，第一麦克风阵列可以在全方向上搜索音频，如果第一麦克风阵列搜索到上述触发音频时，第一麦克风阵列可以对搜索到的触发音频进行解析，解析过程可以包括但并不限于去噪处理、信号采样、信号频谱分析等。该实施例中的控制器可以根据第一麦克风阵列对触发音频的解析结果，判断触发音频是否满足预定切换触发条件，其中，预定切换触发条件可以根据实际需求设定或调整，本发明实施例对其不做具体限定。例如，预定切换触发条件可以为触发音频的音量大于预定音频、触发音频的音调大于预定音调或者触发音频的识别信息中包括预定指示信息，例如预定词语等，上述只列举了部分预定切换触发条件，本发明实施例还可以根据实际需求设定预定切换触发条件为其他条件，此处不再一一举例说明。

作为一种可选的实施例，步骤S204在第一麦克风阵列搜索到触发音频时，控制器判断触发音频是否满足预定切换触发条件包括以下任意一个或多个步骤：

步骤S2042，判断从触发音频中识别出的信息是否包括预定词语。

需要说明的是，上述步骤中的预定词语可以根据实际需求进行设定或他调整，例如预定词语可以是“你好”、“执行”、“开机”等。该实施例可以对触发音频进行解析从中识别出相关信息，判断从触发音频中识别出的信息中是否包括预定词语，若包括则可以确定该触发音频满足预定切换触发条件。

步骤S2044，判断触发音频的音量是否满足第一条件。

需要说明的是，对触发音频进行解析可以包括解析触发音频的音量，也即触发音频信号的强度的大小，触发音频信号的强度越大说明音量越大，触发音频信号的强度越小说明音量越小。该实施例可选地可以对触发音频进行解析，确定触发音频的音量，并判断触发音频的音量是否满足第一条件，其中，第一条件可以根据实际需求设定或调整，第一条件可以是音量大于预定音量，例如，音量大于10分贝。该实施例如果判断出触发音频的音频大于预定音量时，则可以确定该触发音频满足预定切换触发条件。

步骤S2046，判断触发音频的音调是否满足第二条件。

需要说明的是，对触发音频进行解析还可以包括解析触发音频的音调，并判断该触发音频的音调是否满足第二条件，其中，第二条件可以根据实际需求设定或调整，第二条件可以是音调高于预定音调。该实施例在判断出触发音频的音调高于预定音调时，则可以确定该触发音频满足预定切换触发条件。

还需要说明的是，如果第一麦克风阵列搜索到的触发音频满足上述步骤中的任意一个或者几个，则可以确定第一麦克风阵列搜索到的触发音频满足预定切换触发条件。上述步骤所列举的判断条件只是本发明的可选实施例，本发明还可以设置其他判断条件判断触发音频是否满足预定切换触发条件，此处不再一一举例说明。该实施例通过设置不同的判断条件判断触发音频是否满足预定切换触发条件，能够达到依据实际应用中的不同需求进行相应判断的目的，进而提高了判断触发音频是否满足预定切换触发条件的准确度。

在步骤S206提供的技术方案中，该实施例中的控制器在判断出第一麦克风阵列搜索到的触发音频满足预定切换触发条件时，可以将该触发音频作为第二目标音频，并获取该第二目标音频的声源定位信息。此处需要说明的是，第二目标音频的声源定位信息可以用于指示发出第二目标音频的第二声源所在的第二位置，其中，第二声源可以为发出第二目标音频的声源，第二位置可以为第二声源所在的位置。可选地，该实施例在确定第二目标音频之后，可以对第二目标音频进行解析，其解析过程可以包括但并不现限于信号去噪处理、信号采样、信号频谱分析等，以增加第二目标音频的信号质量。

作为一种可选的实施例，步骤S206将第二目标音频的声源定位信息发送给第二麦克风阵列可以包括以下步骤：

步骤S2062，根据第二目标音频到达第一麦克风阵列中每个麦克风的时间定位第二位置；

步骤S2064，将第二位置发送给第二麦克风阵列。

在上述步骤S2062提供的技术方案中，该实施例可以记录第二目标音频到达第一麦克风阵列中每个麦克风的时间，并根据第二目标音频到达第一麦克风阵列中每个麦克风的时间定位第二位置。需要说明的是，本发明实施例对第一麦克风阵列中的麦克风的个数和设置位置不做具体限定，此处假设第一麦克风阵列包括四个麦克风，分别为：第一麦克风M1，坐标为(d/2，0，0)、第二麦克风M2，坐标为(0，d/2，0)、第三麦克风M3，坐标为(-d/2，0，0)、第四麦克风M4，坐标为(0，-d/2，0)，需要说明的是，上述麦克风的坐标为空间坐标系下的坐标，其中，控制器可以根据第二目标音频到达第一麦克风阵列中每个麦克风的时间，可以利用以下方程定位第二位置：

(x-d/2)²+y²+z²＝r₁ ²

x²+(y-d/2)²+z²＝(r₁+d₂₁)²

(x+d/2)²+y²+z²＝(r₁+d₃₁)²

x²+(y+d/2)²+z²＝(r₁+d₄₁)²

其中，第二声源的坐标为(x，y，z)，坐标(x，y，z)可以用于指示第二位置，r₁为第二声源到第一麦克风M1的距离，d_i1为第二声源到第i麦克风Mi的距离与第二声源到第一麦克风M1的距离的差，其中，d_i1＝τ_i1×c，τ_i1为第二声源到达第i麦克风Mi的时间与第二声源到达第一麦克风M1的时间的差，c为第二声源在空气中的传播速度，其中，i＝2、3、4。

通过上述方程组可以求解得到第二声源的坐标(x，y，z)，该坐标(x，y，z)可以用于指示第二位置。需要说明的是，上述只列举了第一麦克风阵列包括四个麦克风的情况，在实际应用中，第一麦克风阵列还可以包括五个、十个或其他个数的麦克风，针对其他情况第二位置的定位方法与上述方法类似，此处不再一一进行具体说明。还需要说明的是，上述定位第二位置的方法只是本发明的一种可选实施例，本发明还可以通过其他方法定位第二位置，此处不再一一举例说明。

在上述步骤S2064提供的技术方案中，控制器可以分别与第一麦克风阵列和第二麦克风阵列通信连接，该通信连接可以为有线通信连接，也可以为无线通信连接，利用控制器与第一麦克风阵列之间的通信连接控制器可以获取第一麦克风阵列搜索到的触发音频，利用控制器与第二麦克风阵列之间的通信连接控制器可以将根据第二目标音频到达第一麦克风阵列中每个麦克风的时间定位得到的第二位置发送给第二麦克风阵列，以供第二麦克风阵列进行波束指向切换，此处需要说明的是，第二麦克风阵列可以自由切换波束指向，在不同波束指向上采集目标音频。该实施例中第二麦克风阵列进行波束指向切换的依据可以为第二目标音频的声源定位信息，也即第二位置。该实施例中第二麦克风阵列根据接收到的声源定位信息可以进行波束指向的切换，以实现在其他波束指向上采集目标音频，进而达到在其他波束指向上增强采集到的目标音频信号的信噪比的目的。

在步骤S208提供的技术方案中，该实施例中的控制器在获取到声源定位信息，并从中确定第二声源所在的第二位置之后，可以判断第二声源所在的第二位置与第一声源所在的第一位置是否相同，其中，第一声源可以为发出第二麦克风阵列在第一波束指向上采集的第一目标音频的声源，第二位置可以为第二声源所在的位置。该实施例中的控制器通过判断第二位置是否与第一位置相同，根据判断结果可以控制第二麦克风阵列是否进行波束指向切换。如果判断出第二位置与第一位置相同，则说明第二麦克风阵列可以无需进行波束指向切换，便可以在原有的第一波束指向上采集第二目标音频；如果判断出第二位置与第一位置不同，则说明第二麦克风阵列需要进行波束指向切换，以实现采集第二位置处第二声源所发出的第二目标音频。此处需要说明的是，当控制器判断出第二位置与第一位置相同时，有可能是第二声源与第一声源相同，第二声源发出的第二目标音频与第一声源发出的第一目标音频也相同，或者，第二声源与第一声源相同，第二声源发出的第二目标音频与第一声源发出的第一目标音频不同，或者，第二声源与第一声源不同，第二声源发出的第二目标音频与第一声源发出的第一目标音频也不同。

在步骤S210提供的技术方案中，当控制器判断出第二位置与第一位置不同时，控制器可以控制第二麦克风阵列进行波束指向的切换，将第一波数指向切换为第二波束指向，使得第二麦克风阵列在第二波束指向上采集第二目标音频，其中，第二波束指向可以指向第二位置，第二目标音频可以为第二位置处的第二声源发出的音频。需要说明的是，该实施例通过控制第二麦克风阵列进行波束指向切换，能够达到自由切换波束指向，进而采集不同方向上的目标音频，并对不同方向形成波束指向，进而增强不同方向上采集到的音频信号的信噪比。此处需要说明的是，波束指向可以指第二麦克风阵列只采集某一个方向上的音频，抑制其他方向的音频的行为。

作为一种可选的实施例，步骤S210在判断出第二位置与第一位置不同时，控制第二麦克风阵列进行波束指向切换，以在第二波束指向上采集第二目标音频可以包括以下步骤：

步骤S2102，将第二麦克风阵列中的每个麦克风的音频采集角度指向第二位置，形成第二波数指向；

步骤S2104，控制第二麦克风阵列中的每个麦克风在第二波束指向上采集第二目标音频。

在上述步骤中，控制器在获取到声源定位信息之后，也即确定了第二位置之后，该控制器可以控制第二麦克风阵列中的每个麦克风的音频采集角度均指向第二位置，以实现第二麦克风阵列形成第二波束指向，其中，第二波束指向可以用于指示指向第二位置。此处需要说明的是，第二麦克风阵列中的每个麦克风形成第二波束指向时，每个麦克风的音频采集角度的偏转角度可以不同，偏转角度可以由每个麦克风在第二麦克风阵列中的设置位置确定。在形成第二波束指向之后，第二麦克风阵列中的每个麦克风均可以在第二波束指向上采集第二目标音频，以实现增强采集到的第二目标音频的信噪比的效果。

该实施例通过控制第二麦克风阵列中的每个麦克风的音频采集角度指向第二位置，以形成第二波束指向，能够达到提高在第二波束指向上采集到的第二目标音频的信噪比，提高第二目标音频的信号质量的效果。

针对本发明上述实施例，此处需要说明以下几点：本发明实施例中的“第一”和“第二”并不限定具体的顺序，只是名称上的区分。步骤S202至步骤S210描述了本发明实施例的基于麦克风阵列的音频采集方法的一个执行过程，在实际应用中，步骤S202至步骤S210所示的执行过程可以重复执行，即每当第一麦克风阵列搜索到触发音频，且触发音频满足预定切换触发条件时，均可以通过获取触发音频的声源定位信息，并将其发送给第二麦克风阵列以使得第二麦克风阵列进行波束指向切换，在另一波束指向上采集目标音频，进而解决了相关技术中由于单个麦克风阵列的音频采集方向固定所导致的无法采集其他方向上的音频的技术问题，实现了在不同方向上均能增强采集到的音频信号的信噪比的技术效果。

作为一种可选的实施例，在步骤S208控制第二麦克风阵列进行波束指向切换，以在第二波束指向上采集第二目标音频之后，该实施例的音频采集方法还可以包括以下步骤：

步骤S212，对第二麦克风阵列在第二波束指向上采集到的第二目标音频进行语音识别，得到音频识别结果；

步骤S214，输出音频识别结果。

在上述步骤中，该实施例在利用第二麦克风阵列在第二波束指向上采集到第二目标音频之后，可以对采集到的第二目标音频进行语音识别，并将音频识别结果输出显示。需要说明的是，本发明实施例对第二麦克风阵列采集到的第二目标音频的语音识别过程不做具体限定，对音频识别结果的输出显示方式也不做具体限定。该实施例通过对第二麦克风阵列采集到的第二目标音频进行语音识别，并输出显示音频识别结果，能够便于用于直观清楚地查看，有效地提高了用户的使用体验。

实施例2

根据本发明实施例，还提供了一种基于麦克风阵列的音频采集装置。需要说明的是，该实施例的基于麦克风阵列的音频采集装置可以用于实施本发明实施例1中的基于麦克风阵列的音频采集方法。

图3是根据本发明实施例的基于麦克风阵列的音频采集装置的示意图，如图3所示，该装置可以包括：第一麦克风阵列10、第二麦克风阵列20以及控制器30，具体地：

第一麦克风阵列10，可以用于在全方向上搜索音频。

需要说明的是，第一麦克风阵列10可以为由多个麦克风组成的系统，其中，本发明实施例对多个麦克风的个数和排列顺序不做具体限定，例如，第一麦克风阵列10中的多个麦克风可以水平排序，也可以垂直排列，还可以随机排序等。第一麦克风阵列10可以在全方向上搜索音频，需要说明的是，此处的全方向可以为水平方向上的360度，也可以为垂直方向上的360度。第一麦克风阵列10在全方向上搜索到的音频可以是一个，也可以是多个。在第一麦克风阵列10搜索到的音频为多个时，每个音频的来源方向可以不相同。

可选地，第一麦克风阵列10在全方向上搜索到音频后，可以保存搜索到的音频，以便于后续对该音频进行解析。需要说明的是，第一麦克风阵列10对搜索到的音频的解析过程可以包括但并不限于对音频信号进行去噪处理、信号采样、信号频谱分析等。该实施例通过对搜素到的音频进行上述处理能够提高第一麦克风阵列10搜索到的音频的信号质量，进而能够提高根据音频的解析结果确定的音频的声源的位置的准确度。

第二麦克风阵列20，可以用于在第一波束指向上采集第一目标音频。

需要说明的是，第二麦克风阵列20也可以为由多个麦克风组成的系统，其中，本发明实施例对第二麦克风阵列20中多个麦克风的个数和排列顺序也不做具体限定，例如，第二麦克风阵列20中的多个麦克风可以水平排序，也可以垂直排列，还可以随机排序等。第二麦克风阵列20可以用于在第一波束指向上采集第一目标音频，以达到增强采集到的第一目标音频信号的信噪比的目的。此处需要说明的是，第一目标音频可以为第一声源发出的音频，第一声源所在的位置可以为第一位置，第一波束指向可以用于指示指向第一位置。

控制器30，可以分别与第一麦克风阵列10和第二麦克风阵列20连接，其中，该连接可以是通信连接，例如，有线连接或者无线连接。此处需要说明的是，控制器30可以用于执行本发明实施例1中的基于麦克风阵列的音频采集中的所有步骤。利用控制器30与第一麦克风阵列10之间的通信连接控制器30可以获取第一麦克风阵列10搜索到的触发音频，并判断该触发音频是否满足预定切换触发条件，其中，触发音频与第一目标音频不同；将满足预定切换触发条件的触发音频作为第二目标音频，并利用控制器30与第二麦克风阵列20之间的通信连接将第二目标音频的声源定位信息发送给第二麦克风阵列20，其中，声源定位信息用于指示发出第二目标音频的第二声源所在的第二位置；判断第二声源所在的第二位置与第一声源所在的第一位置是否相同，其中，第一声源为第二麦克风阵列20在第一波束指向上采集的第一目标音频的声源，第一位置为第一声源所在的位置；在判断出第二位置与第一位置不同时，控制第二麦克风阵列20进行波束指向切换，以在第二波束指向上采集第二目标音频。

需要说明的是，触发音频可以为第一麦克风阵列10搜索到的音频，其中，触发音频与第二麦克风阵列20在第一波束指向上采集的第一目标音频不同。在第二麦克风阵列20在第一波束指向上采集第一目标音频时，第一麦克风阵列10可以在全方向上搜索音频，如果第一麦克风阵列10搜索到上述触发音频时，第一麦克风阵列10可以对搜索到的触发音频进行解析，解析过程可以包括但并不限于去噪处理、信号采样、信号频谱分析等。该实施例中的控制器30可以根据第一麦克风阵列10对触发音频的解析结果，判断触发音频是否满足预定切换触发条件，其中，预定切换触发条件可以根据实际需求设定或调整，本发明实施例对其不做具体限定。例如，预定切换触发条件可以为触发音频的音量大于预定音频、触发音频的音调大于预定音调或者触发音频的识别信息中包括预定指示信息，例如预定词语等，上述只列举了部分预定切换触发条件，本发明实施例还可以根据实际需求设定预定切换触发条件为其他条件，此处不再一一举例说明。

作为一种可选的实施例，在第一麦克风阵列10搜索到触发音频时，控制器判断触发音频是否满足预定切换触发条件包括：

判断从触发音频中识别出的信息是否包括预定词语。

判断触发音频的音量是否满足第一条件。

判断触发音频的音调是否满足第二条件。

还需要说明的是，如果第一麦克风阵列10搜索到的触发音频满足上述步骤中的任意一个或者几个，则可以确定第一麦克风阵列10搜索到的触发音频满足预定切换触发条件。上述步骤所列举的判断条件只是本发明的可选实施例，本发明还可以设置其他判断条件判断触发音频是否满足预定切换触发条件，此处不再一一举例说明。该实施例通过设置不同的判断条件判断触发音频是否满足预定切换触发条件，能够达到依据实际应用中的不同需求进行相应判断的目的，进而提高了判断触发音频是否满足预定切换触发条件的准确度。

控制器在判断出第一麦克风阵列10搜索到的触发音频满足预定切换触发条件时，可以将该触发音频作为第二目标音频，并获取该第二目标音频的声源定位信息。此处需要说明的是，第二目标音频的声源定位信息可以用于指示发出第二目标音频的第二声源所在的第二位置，其中，第二声源可以为发出第二目标音频的声源，第二位置可以为第二声源所在的位置。可选地，该实施例在确定第二目标音频之后，可以对第二目标音频进行解析，其解析过程可以包括但并不现限于信号去噪处理、信号采样、信号频谱分析等，以增加第二目标音频的信号质量。

作为一种可选的实施例，该实施例中的控制器30可以包括第一处理单元和传输接口，其中，第一处理单元可以用于执行本发明实施例1中的步骤S2062，即第一处理单元可以用于根据第二目标音频到达第一麦克风阵列10中每个麦克风的时间定位第二位置；传输接口可以用于执行本发明实施例1中的步骤S2064，即传输接口可以用于将第二位置发送给第二麦克风阵列20。

需要说明的是，该实施例可以记录第二目标音频到达第一麦克风阵列10中每个麦克风的时间，并根据第二目标音频到达第一麦克风阵列10中每个麦克风的时间定位第二位置。需要说明的是，本发明实施例对第一麦克风阵列10中的麦克风的个数和设置位置不做具体限定，此处假设第一麦克风阵列10包括四个麦克风，分别为：第一麦克风M1，坐标为(d/2，0，0)、第二麦克风M2，坐标为(0，d/2，0)、第三麦克风M3，坐标为(-d/2，0，0)、第四麦克风M4，坐标为(0，-d/2，0)，需要说明的是，上述麦克风的坐标为空间坐标系下的坐标，其中，第一处理单元可以根据第二目标音频到达第一麦克风阵列10中每个麦克风的时间，可以利用以下方程定位第二位置：

(x-d/2)²+y²+z²＝r₁ ²

x²+(y-d/2)²+z²＝(r₁+d₂₁)²

(x+d/2)²+y²+z²＝(r₁+d₃₁)²

x²+(y+d/2)²+z²＝(r₁+d₄₁)²

通过上述方程组可以求解得到第二声源的坐标(x，y，z)，该坐标(x，y，z)可以用于指示第二位置。需要说明的是，上述只列举了第一麦克风阵列10包括四个麦克风的情况，在实际应用中，第一麦克风阵列10还可以包括五个、十个或其他个数的麦克风，针对其他情况第二位置的定位方法与上述方法类似，此处不再一一进行具体说明。还需要说明的是，上述定位第二位置的方法只是本发明的一种可选实施例，本发明还可以通过其他方法定位第二位置，此处不再一一举例说明。

控制器30在将根据第二目标音频到达第一麦克风阵列10中每个麦克风的时间定位得到的第二位置发送给第二麦克风阵列20之后，第二麦克风阵列20可以根据第二位置进行波束指向切换，此处需要说明的是，第二麦克风阵列20可以自由切换波束指向，在不同波束指向上采集目标音频。该实施例中第二麦克风阵列20进行波束指向切换的依据可以为第二目标音频的声源定位信息，也即第二位置。该实施例中第二麦克风阵列20根据接收到的声源定位信息可以进行波束指向的切换，以实现在其他波束指向上采集目标音频，进而达到在其他波束指向上增强采集到的目标音频信号的信噪比的目的。

还需要说明的是，控制器30在获取到声源定位信息，并从中确定第二声源所在的第二位置之后，可以判断第二声源所在的第二位置与第一声源所在的第一位置是否相同，其中，第一声源可以为发出第二麦克风阵列20在第一波束指向上采集的第一目标音频的声源，第二位置可以为第二声源所在的位置。该实施例中的控制器30通过判断第二位置是否与第一位置相同，根据判断结果可以控制第二麦克风阵列20是否进行波束指向切换。如果判断出第二位置与第一位置相同，则说明第二麦克风阵列20可以无需进行波束指向切换，便可以在原有的第一波束指向上采集第二目标音频；如果判断出第二位置与第一位置不同，则说明第二麦克风阵列20需要进行波束指向切换，以实现采集第二位置处第二声源所发出的第二目标音频。此处需要说明的是，当控制器30判断出第二位置与第一位置相同时，有可能是第二声源与第一声源相同，第二声源发出的第二目标音频与第一声源发出的第一目标音频也相同，或者，第二声源与第一声源相同，第二声源发出的第二目标音频与第一声源发出的第一目标音频不同，或者，第二声源与第一声源不同，第二声源发出的第二目标音频与第一声源发出的第一目标音频也不同。

当控制器30判断出第二位置与第一位置不同时，可以控制第二麦克风阵列20进行波束指向的切换，将第一波数指向切换为第二波束指向，使得第二麦克风阵列20在第二波束指向上采集第二目标音频，其中，第二波束指向可以指向第二位置，第二目标音频可以为第二位置处的第二声源发出的音频。需要说明的是，该实施例通过控制第二麦克风阵列20进行波束指向切换，能够达到自由切换波束指向，进而采集不同方向上的目标音频，并对不同方向形成波束指向，进而增强不同方向上采集到的音频信号的信噪比。此处需要说明的是，波束指向可以指第二麦克风阵列20只采集某一个方向上的音频，抑制其他方向的音频的行为。

作为一种可选的实施例，该实施例中的控制器30还可以包括第二处理单元，其中，第二处理单元可以与第一处理单元相同，也可以与第一处理单元不同，此处不做具体限定。第二处理单元可以用于执行本发明实施例1中的步骤S2102至步骤S2104，即第二处理单元可以用于将第二麦克风阵列20中的每个麦克风的音频采集角度指向第二位置，形成第二波数指向；控制第二麦克风阵列20中的每个麦克风在第二波束指向上采集第二目标音频。

需要说明的是，第二处理单元可以控制第二麦克风阵列20中的每个麦克风的音频采集角度均指向第二位置，以实现第二麦克风阵列20形成第二波束指向，其中，第二波束指向可以用于指示指向第二位置。此处需要说明的是，第二麦克风阵列20中的每个麦克风形成第二波束指向时，每个麦克风的音频采集角度的偏转角度可以不同，偏转角度可以由每个麦克风在第二麦克风阵列20中的设置位置确定。在形成第二波束指向之后，第二麦克风阵列20中的每个麦克风均可以在第二波束指向上采集第二目标音频，以实现增强采集到的第二目标音频的信噪比的效果。

该实施例通过控制第二麦克风阵列20中的每个麦克风的音频采集角度指向第二位置，以形成第二波束指向，能够达到提高在第二波束指向上采集到的第二目标音频的信噪比，提高第二目标音频的信号质量的效果。

作为一种可选的实施例，该实施例的基于麦克风阵列的音频采集装置还可以包括语音识别单元和输出接口，其中，语音识别单元可以用于执行本发明实施例1中的步骤S212，用于在控制第二麦克风阵列进行波束指向切换，以在第二波束指向上采集第二目标音频之后，对第二麦克风阵列在第二波束指向上采集到的第二目标音频进行语音识别，得到音频识别结果；输出接口可以用于执行本发明实施例1中的步骤S214，用于输出音频识别结果。

需要说明的是，在利用第二麦克风阵列20在第二波束指向上采集到第二目标音频之后，可以利用语音识别单元对采集到的第二目标音频进行语音识别，并利用输出接口将音频识别结果输出显示。需要说明的是，本发明实施例对第二麦克风阵列20采集到的第二目标音频的语音识别过程不做具体限定，对音频识别结果的输出显示方式也不做具体限定。该实施例通过对第二麦克风阵列20采集到的第二目标音频进行语音识别，并输出显示音频识别结果，能够便于用于直观清楚地查看，有效地提高了用户的使用体验。

本发明还提供了一种优选实施例，该优选实施例提供了一种多麦克风阵列定位识别系统，该系统中多个麦克风阵列能够兼顾增强采集特定方向声音和切换不同方位说话人，同时加入唤醒词识别，可以有效地避免误切换，保证用户良好的使用体验。需要说明的是，该优选实施例可以应用于机器人，尤其适用于人机交互应用场景中。该优选实施例还可以应用于其他领域，此处不做具体限定。

图4是根据本发明优选实施例的多麦克风阵列定位识别系统的示意图，如图4所示，该系统可以包括麦克风阵列1、唤醒词识别装置以及麦克风阵列2，具体地，麦克风阵列1可以采集平面360度范围内的声音，无方向指向，当麦克风阵列1采集到声音时，可以将采集到的声音输送至唤醒词识别装置中进行识别，其中，唤醒词识别装置中存储有预先设置的唤醒词，其中，唤醒词可以为本发明上述实施例中的预定词语。当唤醒词识别装置识别出该声音中包括预先设置的唤醒词时，可以对该声音进行解析以获取声源定位信息，并将获取到的方向角发送给麦克风阵列2，其中，此处的方向角可以理解为本发明上述实施例中的第二位置。麦克风阵列2可以根据接收到的方向角进行波束指向的定向增强，并把在该方向角所指示的方向上采集到的声音输入至云端语音识别和对话系统中，以完成人机对话的过程。此处需要说明的是，波束指向是指假定信号方向为θ，无关方向为φ，波束指向就是求取最优的参数W，使得输入信号X序列，经过变换后得到Y序列，即y(k)＝W^Hx(k)是希望的信号。具体方法就是最小化，目标函数(R_x为输入信号的相关函数)，限定求得，其中d(θ,ω)＝[1 e^jωτ2(θ) ... e^jωτN(θ)]^H。

例如，当麦克风阵列1发现说话人1说出唤醒词后，麦克风阵列2可以对说话人1形成波束指向，如图5所示，在麦克风阵列2形成波束指向后，说话人1的声音得到增强，不再波束指向范围内的噪音都被屏蔽，说话人2不再波束指向范围内，故说话人2的声音无法采集到。需要说明的是，图5中所示的多麦克风阵列包括麦克风阵列1和麦克风阵列2。在麦克风阵列2波束指向说话人1的时候，麦克风阵列1仍在360度范围内采集声音，当麦克风阵列1发现说话人2说出唤醒词后，麦克风阵列2可以进行波束切换，切换至说话人2，说话人2的声音得到增强，如图6所示。

本发明中的切换流程采用了多麦克风阵列唤醒词切换的方案，使得在说话人方向的声音得到增强，同时在和机器人对话过程中能自由的切换不同方位的说话人，也保证正常对话过程不会由于其他方向的无关声音打断。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例3

根据本发明实施例，还提供了一种用于实施上述基于麦克风阵列的音频采集方法的基于麦克风阵列的音频采集装置。此处需要说明的是，该实施例中所涉及到的所有单元均可以设置在本发明实施例2中的控制器30中。图7是根据本发明实施例的一种可选的基于麦克风阵列的音频采集装置的示意图，如图7所示，该装置可以包括：

搜索单元22，用于通过第一麦克风阵列在全方向上搜索音频，通过第二麦克风阵列在第一波数指向上采集第一目标音频；第一判断单元24，用于在第一麦克风阵列搜索到触发音频时，判断触发音频是否满足预定切换触发条件，其中，触发音频与第一目标音频不同；发送单元26，用于将满足预定切换触发条件的触发音频作为第二目标音频，并将第二目标音频的声源定位信息发送给第二麦克风阵列，其中，声源定位信息用于指示发出第二目标音频的第二声源所在的第二位置；第二判断单元28，用于判断第二声源所在的第二位置与第一声源所在的第一位置是否相同，其中，第一声源为第二麦克风阵列在第一波数指向上采集的第一目标音频的声源，第一位置为第一声源所在的位置；以及控制单元210，用于在判断出第二位置与第一位置不同时，控制第二麦克风阵列进行波束指向切换，以在第二波束指向上采集第二目标音频。

需要说明的是，该实施例中的搜索单元22可以用于执行本申请实施例1中的步骤S202，该实施例中的第一判断单元24可以用于执行本申请实施例1中的步骤S204，该实施例中的发送单元26可以用于执行本申请实施例1中的步骤S206，该实施例中的第二判断单元28可以用于执行本申请实施例1中的步骤S208，该实施例中的控制单元210可以用于执行本申请实施例1中的步骤S210。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现。

作为一种可选的实施例，如图8所示，发送单元26可以包括：定位模块262，用于根据第二目标音频到达第一麦克风阵列中每个麦克风的时间定位第二位置；发送模块264，用于将第二位置发送给第二麦克风阵列。

需要说明的是，该实施例中的定位模块262可以用于执行本申请实施例1中的步骤S2062，该实施例中的发送模块264可以用于执行本申请实施例1中的步骤S2064。

作为一种可选的实施例，第一麦克风阵列可以包括：第一麦克风M1，坐标为(d/2，0，0)、第二麦克风M2，坐标为(0，d/2，0)、第三麦克风M3，坐标为(-d/2，0，0)、第四麦克风M4，坐标为(0，-d/2，0)，其中，定位模块262可以用于利用以下方程定位第二位置：

(x-d/2)²+y²+z²＝r₁ ²

x²+(y-d/2)²+z²＝(r₁+d₂₁)²

(x+d/2)²+y²+z²＝(r₁+d₃₁)²

x²+(y+d/2)²+z²＝(r₁+d₄₁)²

其中，第二声源的坐标为(x，y，z)，坐标(x，y，z)用于指示第二位置，r₁为第二声源到第一麦克风M1的距离，d_i1为第二声源到第i麦克风Mi的距离与第二声源到第一麦克风M1的距离的差，其中，d_i1＝τ_i1×c，τ_i1为第二声源到达第i麦克风Mi的时间与第二声源到达第一麦克风M1的时间的差，c为第二声源在空气中的传播速度，其中，i＝2、3、4。

作为一种可选的实施例，如图9所示，控制单元210可以包括：指向模块2102，用于将第二麦克风阵列中的每个麦克风的音频采集角度指向第二位置，形成第二波数指向；采集模块2104，用于控制第二麦克风阵列中的每个麦克风在第二波束指向上采集第二目标音频。

需要说明的是，该实施例中的指向模块2102可以用于执行本申请实施例1中的步骤S2102，该实施例中的采集模块2104可以用于执行本申请实施例1中的步骤S2104。

作为一种可选的实施例，如图10所示，第一判断单元24可以包括：第一判断模块242，用于判断从触发音频中识别出的信息是否包括预定词语；或第二判断模块244，用于判断触发音频的音量是否满足第一条件；或第三判断模块246，用于判断触发音频的音调是否满足第二条件。

需要说明的是，该实施例中的第一判断模块242可以用于执行本申请实施例1中的步骤S2042，该实施例中的第二判断模块244可以用于执行本申请实施例1中的步骤S2044，该实施例中的第三判断模块246可以用于执行本申请实施例1中的步骤S2046。

作为一种可选的实施例，如图11所示，该实施例的音频采集装置还可以包括：识别单元212，用于在控制第二麦克风阵列进行波束指向切换，以在第二波束指向上采集第二目标音频之后，对第二麦克风阵列在第二波束指向上采集到的第二目标音频进行语音识别，得到音频识别结果；输出单元214，用于输出音频识别结果。

需要说明的是，该实施例中的识别单元212可以用于执行本申请实施例1中的步骤S212，该实施例中的输出单元214可以用于执行本申请实施例1中的步骤S214。

通过上述模块，达到了在确定音频的来源方向并形成波束指向后，仍可以继续切换至其他来源方向并形成波束指向的目的，进而解决了相关技术中由于单个麦克风阵列的音频采集方向固定所导致的无法采集其他方向上的音频的技术问题，实现了在不同方向上均能增强采集到的音频信号的信噪比的技术效果。

实施例4

根据本发明实施例，还提供了一种用于实施上述基于麦克风阵列的音频采集方法的服务器或终端。

图12是根据本发明实施例的一种终端的结构框图，如图12所示，该终端可以包括：一个或多个(图中仅示出一个)处理器201、存储器203、以及传输装置205(如上述实施例中的发送装置)，如图12所示，该终端还可以包括输入输出设备207。

其中，存储器203可用于存储软件程序以及模块，如本发明实施例中的基于麦克风阵列的音频采集方法和装置对应的程序指令/模块，处理器201通过运行存储在存储器203内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的基于麦克风阵列的音频采集方法。存储器203可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器203可进一步包括相对于处理器201远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置205用于经由一个网络接收或者发送数据，还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置205包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置205为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器203用于存储应用程序。

处理器201可以通过传输装置205调用存储器203存储的应用程序，以执行下述步骤：通过第一麦克风阵列在全方向上搜索音频，通过第二麦克风阵列在第一波数指向上采集第一目标音频；在第一麦克风阵列搜索到触发音频时，判断触发音频是否满足预定切换触发条件，其中，触发音频与第一目标音频不同；将满足预定切换触发条件的触发音频作为第二目标音频，并将第二目标音频的声源定位信息发送给第二麦克风阵列，其中，声源定位信息用于指示发出第二目标音频的第二声源所在的第二位置；判断第二声源所在的第二位置与第一声源所在的第一位置是否相同，其中，第一声源为第二麦克风阵列在第一波数指向上采集的第一目标音频的声源，第一位置为第一声源所在的位置；以及在判断出第二位置与第一位置不同时，控制第二麦克风阵列进行波束指向切换，以在第二波束指向上采集第二目标音频。

处理器201还用于执行下述步骤：根据第二目标音频到达第一麦克风阵列中每个麦克风的时间定位第二位置；将第二位置发送给第二麦克风阵列。

处理器201还用于执行下述步骤：第一麦克风阵列包括：第一麦克风M1，坐标为(d/2，0，0)、第二麦克风M2，坐标为(0，d/2，0)、第三麦克风M3，坐标为(-d/2，0，0)、第四麦克风M4，坐标为(0，-d/2，0)，其中，根据第二目标音频到达第一麦克风阵列中每个麦克风的时间定位第二位置包括：利用以下方程定位第二位置：其中，第二声源的坐标为(x，y，z)，坐标(x，y，z)用于指示第二位置，r₁为第二声源到第一麦克风M1的距离，d_i1为第二声源到第i麦克风Mi的距离与第二声源到第一麦克风M1的距离的差，其中，d_i1＝τ_i1×c，τ_i1为第二声源到达第i麦克风Mi的时间与第二声源到达第一麦克风M1的时间的差，c为第二声源在空气中的传播速度，其中，i＝2、3、4。

处理器201还用于执行下述步骤：将第二麦克风阵列中的每个麦克风的音频采集角度指向第二位置，形成第二波数指向；控制第二麦克风阵列中的每个麦克风在第二波束指向上采集第二目标音频。

处理器201还用于执行下述步骤：判断从触发音频中识别出的信息是否包括预定词语；或判断触发音频的音量是否满足第一条件；或判断触发音频的音调是否满足第二条件。

处理器201还用于执行下述步骤：在控制第二麦克风阵列进行波束指向切换，以在第二波束指向上采集第二目标音频之后，对第二麦克风阵列在第二波束指向上采集到的第二目标音频进行语音识别，得到音频识别结果；输出音频识别结果。

采用本发明实施例，提供了一种基于麦克风阵列的音频采集的方案。通过第一麦克风阵列在全方向上搜索音频，第二麦克风阵列在第一波束指向上采集第一目标音频；在第一麦克风阵列搜索到的触发音频时，判断其是否满足预定切换触发条件；若满足将其作为第二目标音频，并将其声源定位信息发送给第二麦克风阵列；然后判断发出第二目标音频的第二声源所在的第二位置与发出第一目标音频的第一声源所在的第一位置是否相同；若不同则控制第二麦克风阵列进行波束指向切换，以在第二波束指向上采集第二目标音频，以达到自由切换波束指向以采集不同方向上的音频的目的，进而解决了相关技术中由于单个麦克风阵列的音频采集方向固定所导致的无法采集其他方向上的音频的技术问题，实现了在不同方向上均能增强采集到的音频信号的信噪比的技术效果。

可选地，本实施例中的具体示例可以参考上述实施例1至实施例3中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图12所示的结构仅为示意，终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile InternetDevices，MID)、PAD等终端设备。图12其并不对上述电子装置的结构造成限定。例如，终端还可包括比图12中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图12所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例5

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于执行基于麦克风阵列的音频采集方法的程序代码。

可选地，在本实施例中，上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

S1，通过第一麦克风阵列在全方向上搜索音频，通过第二麦克风阵列在第一波数指向上采集第一目标音频；

S2，在第一麦克风阵列搜索到触发音频时，判断触发音频是否满足预定切换触发条件，其中，触发音频与第一目标音频不同；

S3，将满足预定切换触发条件的触发音频作为第二目标音频，并将第二目标音频的声源定位信息发送给第二麦克风阵列，其中，声源定位信息用于指示发出第二目标音频的第二声源所在的第二位置；

S4，判断第二声源所在的第二位置与第一声源所在的第一位置是否相同，其中，第一声源为第二麦克风阵列在第一波数指向上采集的第一目标音频的声源，第一位置为第一声源所在的位置；

S5，在判断出第二位置与第一位置不同时，控制第二麦克风阵列进行波束指向切换，以在第二波束指向上采集第二目标音频。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：根据第二目标音频到达第一麦克风阵列中每个麦克风的时间定位第二位置；将第二位置发送给第二麦克风阵列。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：第一麦克风阵列包括：第一麦克风M1，坐标为(d/2，0，0)、第二麦克风M2，坐标为(0，d/2，0)、第三麦克风M3，坐标为(-d/2，0，0)、第四麦克风M4，坐标为(0，-d/2，0)，其中，根据第二目标音频到达第一麦克风阵列中每个麦克风的时间定位第二位置包括：利用以下方程定位第二位置：其中，第二声源的坐标为(x，y，z)，坐标(x，y，z)用于指示第二位置，r₁为第二声源到第一麦克风M1的距离，d_i1为第二声源到第i麦克风Mi的距离与第二声源到第一麦克风M1的距离的差，其中，d_i1＝τ_i1×c，τ_i1为第二声源到达第i麦克风Mi的时间与第二声源到达第一麦克风M1的时间的差，c为第二声源在空气中的传播速度，其中，i＝2、3、4。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：将第二麦克风阵列中的每个麦克风的音频采集角度指向第二位置，形成第二波数指向；控制第二麦克风阵列中的每个麦克风在第二波束指向上采集第二目标音频。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：判断从触发音频中识别出的信息是否包括预定词语；或判断触发音频的音量是否满足第一条件；或判断触发音频的音调是否满足第二条件。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：在控制第二麦克风阵列进行波束指向切换，以在第二波束指向上采集第二目标音频之后，对第二麦克风阵列在第二波束指向上采集到的第二目标音频进行语音识别，得到音频识别结果；输出音频识别结果。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于麦克风阵列的音频采集方法，其特征在于，包括：

通过第一麦克风阵列在全方向上搜索音频，通过第二麦克风阵列在第一波束指向上采集第一目标音频；

在所述第一麦克风阵列搜索到触发音频时，判断所述触发音频是否满足预定切换触发条件，其中，所述触发音频与所述第一目标音频不同；

将满足所述预定切换触发条件的触发音频作为第二目标音频，并将所述第二目标音频的声源定位信息发送给所述第二麦克风阵列，其中，所述声源定位信息用于指示发出所述第二目标音频的第二声源所在的第二位置；

判断所述第二声源所在的所述第二位置与第一声源所在的第一位置是否相同，其中，所述第一声源为所述第二麦克风阵列在所述第一波束指向上采集的所述第一目标音频的声源，所述第一位置为所述第一声源所在的位置；以及

在判断出所述第二位置与所述第一位置不同时，控制所述第二麦克风阵列进行波束指向切换，以在第二波束指向上采集所述第二目标音频；

其中，在所述第一麦克风阵列搜索到触发音频时，判断所述触发音频是否满足预定切换触发条件包括：所述触发音频的音量大于预定音频、或者所述触发音频的音调大于预定音调；

其中，所述第二麦克风阵列根据所述第二目标音频的声源定位信息进行波束指向切换。

2.根据权利要求1所述的方法，其特征在于，将所述第二目标音频的声源定位信息发送给所述第二麦克风阵列包括：

根据所述第二目标音频到达所述第一麦克风阵列中每个麦克风的时间定位所述第二位置；

将所述第二位置发送给所述第二麦克风阵列。

3.根据权利要求2所述的方法，其特征在于，所述第一麦克风阵列包括：第一麦克风M1，坐标为(d/2，0，0)、第二麦克风M2，坐标为(0，d/2，0)、第三麦克风M3，坐标为(-d/2，0，0)、第四麦克风M4，坐标为(0，-d/2，0)，其中，根据所述第二目标音频到达所述第一麦克风阵列中每个麦克风的时间定位所述第二位置包括：利用以下方程定位所述第二位置：

(x-d/2)²+y²+z²＝r₁ ²

x²+(y-d/2)²+z²＝(r₁+d₂₁)²

(x+d/2)²+y²+z²＝(r₁+d₃₁)²

x²+(y+d/2)²+z²＝(r₁+d₄₁)²

其中，所述第二声源的坐标为(x，y，z)，所述坐标(x，y，z)用于指示所述第二位置，r₁为所述第二声源到所述第一麦克风M1的距离，d_i1为所述第二声源到第i麦克风Mi的距离与所述第二声源到所述第一麦克风M1的距离的差，其中，d_i1＝τ_i1×c，τ_i1为所述第二声源到达第i麦克风Mi的时间与所述第二声源到达所述第一麦克风M1的时间的差，c为所述第二声源在空气中的传播速度，其中，i＝2、3、4。

4.根据权利要求1所述的方法，其特征在于，在判断出所述第二位置与所述第一位置不同时，控制所述第二麦克风阵列进行波束指向切换，以在第二波束指向上采集所述第二目标音频包括：

将所述第二麦克风阵列中的每个麦克风的音频采集角度指向所述第二位置，形成所述第二波束指向；

控制所述第二麦克风阵列中的每个麦克风在所述第二波束指向上采集所述第二目标音频。

5.根据权利要求1至4中任一项所述的方法，其特征在于，在所述第一麦克风阵列搜索到触发音频时，判断所述触发音频是否满足预定切换触发条件，还包括：

判断从所述触发音频中识别出的信息是否包括预定词语。

6.根据权利要求1至4中任一项所述的方法，其特征在于，在控制所述第二麦克风阵列进行波束指向切换，以在第二波束指向上采集所述第二目标音频之后，所述方法还包括：

对所述第二麦克风阵列在所述第二波束指向上采集到的所述第二目标音频进行语音识别，得到音频识别结果；

输出所述音频识别结果。

7.一种基于麦克风阵列的音频采集装置，其特征在于，包括：

第一麦克风阵列，用于在全方向上搜索音频；

第二麦克风阵列，用于在第一波束指向上采集第一目标音频；

控制器，分别与所述第一麦克风阵列和所述第二麦克风阵列连接，用于判断所述第一麦克风阵列搜索到的触发音频是否满足预定切换触发条件，其中，所述触发音频与所述第一目标音频不同；将满足所述预定切换触发条件的触发音频作为第二目标音频，并将所述第二目标音频的声源定位信息发送给所述第二麦克风阵列，其中，所述声源定位信息用于指示发出所述第二目标音频的第二声源所在的第二位置；判断所述第二声源所在的所述第二位置与第一声源所在的第一位置是否相同，其中，所述第一声源为所述第二麦克风阵列在所述第一波束指向上采集的所述第一目标音频的声源，所述第一位置为所述第一声源所在的位置；在判断出所述第二位置与所述第一位置不同时，控制所述第二麦克风阵列进行波束指向切换，以在第二波束指向上采集所述第二目标音频；

其中，所述控制器判断所述触发音频是否满足预定切换触发条件包括：所述触发音频的音量大于预定音频、或者所述触发音频的音调大于预定音调；

8.根据权利要求7所述的装置，其特征在于，所述控制器包括：

第一处理单元，用于根据所述第二目标音频到达所述第一麦克风阵列中每个麦克风的时间定位所述第二位置；

传输接口，用于将所述第二位置发送给所述第二麦克风阵列。

9.根据权利要求8所述的装置，其特征在于，所述第一麦克风阵列包括：第一麦克风M1，坐标为(d/2，0，0)、第二麦克风M2，坐标为(0，d/2，0)、第三麦克风M3，坐标为(-d/2，0，0)、第四麦克风M4，坐标为(0，-d/2，0)，其中，所述第一处理单元用于利用以下方程定位所述第二位置：

(x-d/2)²+y²+z²＝r₁ ²

x²+(y-d/2)²+z²＝(r₁+d₂₁)²

(x+d/2)²+y²+z²＝(r₁+d₃₁)²

x²+(y+d/2)²+z²＝(r₁+d₄₁)²

10.根据权利要求7所述的装置，其特征在于，所述控制器包括：

第二处理单元，用于将所述第二麦克风阵列中的每个麦克风的音频采集角度指向所述第二位置，形成所述第二波束指向；控制所述第二麦克风阵列中的每个麦克风在所述第二波束指向上采集所述第二目标音频。

11.根据权利要求7至10中任一项所述的装置，其特征在于，所述控制器判断所述触发音频是否满足预定切换触发条件，还包括：

判断从所述触发音频中识别出的信息是否包括预定词语。

12.根据权利要求7至10中任一项所述的装置，其特征在于，所述装置还包括：

语音识别单元，用于在控制所述第二麦克风阵列进行波束指向切换，以在第二波束指向上采集所述第二目标音频之后，对所述第二麦克风阵列在所述第二波束指向上采集到的所述第二目标音频进行语音识别，得到音频识别结果；

输出接口，用于输出所述音频识别结果。

13.一种基于麦克风阵列的音频采集装置，其特征在于，包括：

搜索单元，用于通过第一麦克风阵列在全方向上搜索音频，通过第二麦克风阵列在第一波束指向上采集第一目标音频；

第一判断单元，用于在所述第一麦克风阵列搜索到触发音频时，判断所述触发音频是否满足预定切换触发条件，其中，所述触发音频与所述第一目标音频不同；

发送单元，用于将满足所述预定切换触发条件的触发音频作为第二目标音频，并将所述第二目标音频的声源定位信息发送给所述第二麦克风阵列，其中，所述声源定位信息用于指示发出所述第二目标音频的第二声源所在的第二位置；

第二判断单元，用于判断所述第二声源所在的所述第二位置与第一声源所在的第一位置是否相同，其中，所述第一声源为所述第二麦克风阵列在所述第一波束指向上采集的所述第一目标音频的声源，所述第一位置为所述第一声源所在的位置；以及

控制单元，用于在判断出所述第二位置与所述第一位置不同时，控制所述第二麦克风阵列进行波束指向切换，以在第二波束指向上采集所述第二目标音频；

其中，所述第一判断单元通过以下方式判断所述触发音频是否满足预定切换触发条件：所述触发音频的音量大于预定音频、或者所述触发音频的音调大于预定音调；

14.根据权利要求13所述的装置，其特征在于，所述发送单元包括：

定位模块，用于根据所述第二目标音频到达所述第一麦克风阵列中每个麦克风的时间定位所述第二位置；

发送模块，用于将所述第二位置发送给所述第二麦克风阵列。

15.根据权利要求14所述的装置，其特征在于，所述第一麦克风阵列包括：第一麦克风M1，坐标为(d/2，0，0)、第二麦克风M2，坐标为(0，d/2，0)、第三麦克风M3，坐标为(-d/2，0，0)、第四麦克风M4，坐标为(0，-d/2，0)，其中，所述定位模块用于利用以下方程定位所述第二位置：

(x-d/2)²+y²+z²＝r₁ ²

x²+(y-d/2)²+z²＝(r₁+d₂₁)²

(x+d/2)²+y²+z²＝(r₁+d₃₁)²

x²+(y+d/2)²+z²＝(r₁+d₄₁)²

16.根据权利要求13所述的装置，其特征在于，所述控制单元包括：

指向模块，用于将所述第二麦克风阵列中的每个麦克风的音频采集角度指向所述第二位置，形成所述第二波束指向；

采集模块，用于控制所述第二麦克风阵列中的每个麦克风在所述第二波束指向上采集所述第二目标音频。

17.根据权利要求13至16中任一项所述的装置，其特征在于，所述第一判断单元，还包括：

第一判断模块，用于判断从所述触发音频中识别出的信息是否包括预定词语。

18.根据权利要求13至16中任一项所述的装置，其特征在于，所述装置还包括：

识别单元，用于在控制所述第二麦克风阵列进行波束指向切换，以在第二波束指向上采集所述第二目标音频之后，对所述第二麦克风阵列在所述第二波束指向上采集到的所述第二目标音频进行语音识别，得到音频识别结果；

输出单元，用于输出所述音频识别结果。