CN111354369A

CN111354369A - 一种语音采集方法及系统

Info

Publication number: CN111354369A
Application number: CN201811572081.7A
Authority: CN
Inventors: 杨波; 洪泽
Original assignee: Gree Electric Appliances Inc of Zhuhai
Current assignee: Gree Electric Appliances Inc of Zhuhai
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2020-06-30

Abstract

本发明公开了一种语音采集方法和系统，所述方法包括步骤S1：确定目标声源的当前位置；步骤S2：控制麦克风阵列对以目标声源的当前位置为中心、设定的目标声源的最大移动距离为半径的目标区域进行下一时刻语音数据的采集。本发明的语音采集方法和系统可降低声源跟踪的计算量。

Description

一种语音采集方法及系统

技术领域

本发明涉及语音识别领域，尤其涉及一种语音采集方法及系统。

背景技术

随着物联网与人工智能的发展，语音识别、语音控制等智能交互领域都要求能获得高质量的语音，而实际的室内场景会存在各种噪声或多个声源，这就对语音的采集提出了较高的要求，因为只有采集到高质量的语音才能提高人工智能机器对语音的识别率，人们也能较好对机器进行语音控制，从而带来良好的人机交互。

获得更好的语音质量其实转化为三个步骤：如何区分声源；如何语音定向；如何进行语音跟踪。对于普通的室内环境，语音信号可以看作是一个近场宽带信号，信号源可以看作一个点源，它向360度的球体空间传播声音，传统方法是对多声源进行空域变换和滤波，获得具有特定特征的单一的感兴趣的声源，再采用波束定向控制，对感兴趣的声音进行采集。这种方式存在以下两方面问题：一方面计算量大，它需要实时同时采集多声源信息，然后再进行定向采集，因为声源在室内环境下通常是移动的而非静止不动的；另一方面如何采用智能化方法从多声源中提取出感兴趣的声音。

发明内容

本发明的目的是针对上述现有技术存在的缺陷，提供一种语音采集方法及系统，以解决现有技术中的声源跟踪计算量大的技术问题。

本发明实施例中，提供了一种语音采集方法，其包括

步骤S1：确定目标声源的当前位置；

步骤S2：控制麦克风阵列对以目标声源的当前位置为中心、设定的目标声源的最大移动距离为半径的目标区域进行下一时刻语音数据的采集。

本发明实施例中，所述的语音采集方法还包括

步骤S3：判断目标声源是否在所述目标区域，如果目标声源在所述目标区域，则进入步骤S4，否则返回步骤S1；

步骤S4：获取目标声源的位置并且更新当前时刻中目标声源的位置信息，并返回步骤S2。

本发明实施例中，步骤S1具体包括

对麦克风阵列采集到的当前时刻的语音数据中的多个声源进行定位，从而获得各个声源的位置；

通过声纹识别从所述多个声源中找出目标声源。

本发明实施例中，步骤S1中，采用可控波束定位法来对多个声源进行定位。

本发明实施例中，步骤S1中，采用人工智能声纹识别算法找出目标声源的位置。

本发明实施例中，步骤S2中，还包括：

根据目标声源移动速度与语音时刻间隔时间来预估下一时刻中目标声源的位置。

本发明实施例中，还提供了一种语音采集系统，其包括

麦克风阵列，用于采集环境中的语音数据；

声源定位模块，用于在所述麦克风阵列采集到的语音数据中确定目标声源的当前位置；

控制模块，用于控制所述麦克风阵列对以目标声源的当前位置为中心、设定的目标声源的最大移动距离为半径的目标区域进行下一时刻语音数据的采集。

本发明实施例中，所述的语音采集系统还包括:

判断模块，用于判断目标声源是否在所述目标区域，如果目标声源在所述目标区域，则所述声源定位模块获取目标声源的位置并且更新当前时刻中目标声源的位置信息，否则所述控制模块控制麦克风阵列重新采集的语音数据并进行目标声源定位。

本发明实施例中，所述的语音采集系统，还包括

预测模块，用于根据目标声源移动速度与语音时刻间隔时间来预估下一时刻中目标声源的位置。

本发明实施例中，所述声源定位模块包括：

定位单元，用于对所述麦克风阵列采集到的语音数据中的多个声源进行定位，从而获得各个声源的位置；

识别单元，用于通过声纹识别从所述多个声源中找出目标声源。

本发明实施例中，所述定位单元采用可控波束定位法来对多个声源进行定位。

本发明实施例中，所述识别单元采用人工智能声纹识别算法找出目标声源的位置。

与现有技术相比较，本发明的语音采集方法及系统，采用声纹识别算法找到目标声源的位置，根据下一时刻的预测位置与上一时刻位置的距离的最大值作为阀值，来判定是否需要重新初始化声源的位置和更新位置信息，最后根据获得的声源位置，控制麦克风阵列的参数，使得麦克风阵列对准声源进行语音数据采集、放大、滤波和优化，从而得到高质量的语音信息，实现在多声源的环境下获取感兴趣的声音，极大提高了采集到高质量语音信号的效率，从而为提高语音识别正确率，为提高用户在使用智能交互功能时候的体验打下了良好基础。

附图说明

图1是本发明实施例的语音采集方法的流程图。

图2是本发明实施例的语音采集环境的示意图。

图3是本发明实施例中计算目标声源的移动距离的示意图。

图4是本发明实施例的语音采集系统的结构示意图。

具体实施方式

如图1所示，本发明实施例中，提供了一种语音采集方法，其包括步骤S1-S4。下面分别进行说明。

步骤S1：对麦克风阵列采集到语音数据中的多个声源进行定位，从而获得各个声源的位置。

具体地，步骤S1包括：

通过声纹识别从所述多个声源中找出目标声源。

需要说明的是，步骤S1中，采用可控波束定位法来对多个声源进行定位。采用人工智能声纹识别算法找出目标声源的位置。进行声纹识别前，需预先采集识别目标人员的声纹。

如图2所示，假设室内有ID分别为A-F六个人员，首先必须采集到A-F的声纹信息，并且采用基于人工智能的声纹识别技术将各个人员的ID与不同的声纹进行绑定，从而达到声纹信息与人员ID能一一绑定，这样就可以在采集的语音数据中有多个声源（A-F人员的声音）的情况下，采用可控波束定位技术对目标声源（比如说A人员的声音）进行定位。

需要说明的是，定位出目标声源后，系统自动调整麦克风阵列参数使得麦克风阵列对准A（拾音波束区）进行放大采集并进行降噪滤波等优化处理，而将其它区域的人声或者噪声作为抑制区域的声音进行过滤或者缩小声音能量来达到采集高质量的A人员语音。

由于是对室内环境中的人的进行语音采集，声源的移动速度一般不会很快或者发生瞬时移动，通常情况下声源一般都是出于基本上静止或者缓慢移动的状态，正常人在室外不停行走的速度大约是5km/h，换成按秒计算约为1.4m/s，室内的正常平均移动速度要远低于1.4m/s，如果按照语音采集的间隔来算，产生的移动距离更小，所以可以根据目标声源移动速度与语音采集的间隔时间来预估下一时刻中目标声源的位置，从而实现声源跟踪。

如图3所示，声源的上一时刻的位置为S，坐标为

将移动的速度v，分解为

,采用固定的时间间隔t来进行预测距离，t为两时刻语音之间的间隔时间，通常是数十毫秒级，t的具体值跟实际设备的采样频率和采样点个数有关，从而可以预测下一时刻的位置S’的坐标为（x,y,z）

那S与S’之间的距离为d：

根据前面所说，我们可以取

可以得到

值，从而可以以

为圆心，

作为半径，得到可能语音两时刻之间的时间声源的移动范围。从而缩小了扫描搜索感兴趣的声源的空间范围，达到减少计算量的目的。

步骤S3：判断目标声源是否在所述目标区域，如果目标声源在所述目标区域，则进入步骤S4，否则返回步骤S1中，重新采集语音数据并对目标声源进行定位。

需要说明的是，由于在步骤S2中的声源采集区域为对目标声源预测的目标区域，因此有可能存在预估不准确，目标声源超出了此区域的情况发生，因此，在步骤S3中，要判断目标声源是否在所述目标区域中，如果不在，则要重新返回步骤S1对重新全方位采集语音数据并对目标声源进行定位。

步骤S4：获取目标声源的位置并且更新当前时刻中目标声源的位置信息，然后返回步骤S2，采集新的目标区域的语音数据。

如图4所示，本发明实施例中，还提供了一种语音采集系统，其包括麦克风阵列1、声源定位模块2、控制模块3、判断模块4和预测模块5。下面分别进行说明。

所述麦克风阵列1，用于采集环境中的语音数据。

所述声源定位模块2，用于在所述麦克风阵列采集到的语音数据中确定目标声源的当前位置。

所述声源定位模块包括定位单元和识别单元。所述定位单元，用于对所述麦克风阵列采集到的语音数据中的多个声源进行定位，从而获得各个声源的位置；所述识别单元，用于通过声纹识别从所述多个声源中找出目标声源。本发明实施例中，所述定位单元采用可控波束定位法来对多个声源进行定位。所述识别单元采用人工智能声纹识别算法找出目标声源的位置。

所述控制模块3，用于控制麦克风阵列1对以当前的目标声源的位置为中心、设定的目标声源的最大移动距离为半径的目标区域进行下一时刻语音数据的采集。

所述判断模块4，用于判断目标声源是否在所述目标区域，如果目标声源在所述目标区域，则所述声源定位模块2获取目标声源的位置并且更新当前时刻中目标声源的位置信息，否则所述控制模块控制麦克风阵列1重新采集语音数据并对目标声源进行定位。

所述预测模块5，用于根据目标声源移动速度与语音时刻间隔时间来预估下一时刻中目标声源的位置。

综上所述，本发明的语音采集方法及系统，采用声纹识别算法找到目标声源的位置，根据下一时刻的预测位置与上一时刻位置的距离的最大值作为阀值，来判定是否需要重新初始化声源的位置和更新位置信息，最后根据获得的声源位置，控制麦克风阵列的参数，使得麦克风阵列对准声源进行语音数据采集、放大、滤波和优化，从而得到高质量的语音信息，实现在多声源的环境下获取感兴趣的声音，极大提高了采集到高质量语音信号的效率，从而为提高语音识别正确率，为提高用户在使用智能交互功能时候的体验打下了良好基础

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音采集方法，其特征在于，包括

步骤S1：确定目标声源的当前位置；

2.如权利要求1所述的语音采集方法，其特征在于，还包括

步骤S4：获取目标声源的位置并且更新目标声源的当前位置信息，并返回步骤S2。

3.如权利要求1所述的语音采集方法，其特征在于，步骤S1具体包括

通过声纹识别从所述多个声源中找出目标声源。

4.如权利要求3所述的语音采集方法，其特征在于，步骤S1中，采用可控波束定位法来对多个声源进行定位。

5.如权利要求3所述的语音采集方法，其特征在于，步骤S1中，采用人工智能声纹识别算法找出目标声源的位置。

6.如权利要求1所述的语音采集方法，其特征在于，步骤S2中，还包括：

7.一种语音采集系统，其特征在于，包括

麦克风阵列，用于采集环境中的语音数据；

声源定位模块，用于在所述麦克风阵列采集到的时刻语音数据中确定目标声源的当前位置；

控制模块，用于控制所述麦克风阵列对以目标声源的当前位置为中心、设定的目标声源的最大移动距离为半径的目标区域进行下一时刻时刻语音数据的采集。

8.如权利要求7所述的语音采集系统，其特征在于，还包括:

判断模块，用于判断目标声源是否在所述目标区域，如果目标声源在所述目标区域，则所述声源定位模块获取目标声源的位置并且更新目标声源的当前位置信息，否则所述控制模块控制麦克风阵列重新采集的语音数据并进行目标声源定位。

9.如权利要求7所述的语音采集系统，其特征在于，还包括

10.如权利要求7所述的语音采集系统，其特征在于，所述声源定位模块包括：

11.如权利要求10所述的语音采集系统，其特征在于，

所述声源定位单元采用可控波束定位法来对多个声源进行定位。

12.如权利要求10所述的语音采集系统，其特征在于，所述声纹识别单元采用人工智能声纹识别算法找出目标声源的位置。