CN111103568A

CN111103568A - 一种声源定位方法、装置、介质和设备

Info

Publication number: CN111103568A
Application number: CN201911260783.6A
Authority: CN
Inventors: 艾文; 冯大航; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2020-05-05

Abstract

本发明涉及一种声源定位方法、装置、介质和设备。根据本发明实施例提供的方案，在进行声源定位时，可以利用麦克风阵列采集音频时域信号，转换为音频频域信号后，利用训练出的神经网络模型，对频率点进行筛选，确定出信噪比大于设定值的频率点，进而可以利用信噪比大于设定值的频率点进行声源定位。通过利用信噪比大于设定值的频率点进行声源定位，相对于现有技术中不对频率点进行筛选，将全部频率点用于声源定位的方案，利用信噪比较大的频率点进行声源定位，可以有效提高声源定位的精度。同时，利用少量的频率点进行声源定位，还可以有效降低声源定位的算法复杂度，保证声源定位的实时性。

Description

一种声源定位方法、装置、介质和设备

技术领域

本发明涉及声源定位技术领域，特别涉及一种声源定位方法、装置、介质和设备。

背景技术

声源定位技术在当今生活的很多领域都有着很广泛并且极为重要的应用。比如，在视频会议系统中，语音识别技术和助听装置等等方面。

而随着“互联网+”和大数据时代的到来，智能终端的语音交互体验广受关注，三维立体声音在实时人机交互中占有重要地位，这对声源定位技术的准确性和实时性也提出了更高的要求。

但是目前的声源定位方法，准确性和实时性均有待提高。

发明内容

本发明实施例提供一种声源定位方法、装置、介质和设备，用于解决现有的声源定位方法准确性较低，且难以保证实时性的问题。

本发明提供了一种声源定位方法，所述方法包括：

利用麦克风阵列采集设定时长的音频时域信号；

将采集到的音频时域信号转换为音频频域信号；

利用训练出的神经网络模型，确定所述音频频域信号中信噪比大于设定值的频率点；

利用所述信噪比大于设定值的频率点进行声源定位；

其中，针对训练样本集中的每个音频频域信号，对预先建立的神经网络模型执行下述操作，获得训练出的神经网络模型：

将一个音频频域信号中每个频率点的能量作为神经网络模型的输入，获得神经网络模型输出的信噪比大于设定值的频率点；

将该音频频域信号中信噪比大于设定值的频率点与神经网络模型输出的信噪比大于设定值的频率点进行比对；

根据二者之间的误差，按照减小二者之间的误差的方式，对神经网络模型进行调整。

本发明还提供了一种声源定位装置，所述装置包括：

采集模块，用于利用麦克风阵列采集设定时长的音频时域信号；

转换模块，用于将采集到的音频时域信号转换为音频频域信号；

筛选模块，用于利用训练出的神经网络模型，确定所述音频频域信号中信噪比大于设定值的频率点；

定位模块，用于利用所述信噪比大于设定值的频率点进行声源定位；

本发明还提供了一种非易失性计算机存储介质，所述计算机存储介质存储有可执行程序，该可执行程序被处理器执行实现如上所述的方法。

本发明还提供了一种声源定位设备，包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存储的程序时，实现如上所述的方法步骤。

根据本发明实施例提供的方案，在进行声源定位时，可以利用麦克风阵列采集音频时域信号，转换为音频频域信号后，利用训练出的神经网络模型，对频率点进行筛选，确定出信噪比大于设定值的频率点，进而可以利用信噪比大于设定值的频率点进行声源定位。通过利用信噪比大于设定值的频率点进行声源定位，相对于现有技术中不对频率点进行筛选，将全部频率点用于声源定位的方案，利用信噪比较大的频率点进行声源定位，可以有效提高声源定位的精度。同时，利用少量的频率点进行声源定位，还可以有效降低声源定位的算法复杂度，保证声源定位的实时性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的声源定位方法的流程示意图；

图2为本发明实施例二提供的声源定位方法的流程示意图；

图3为本发明实施例二提供的神经网络模型训练示意图；

图4为本发明实施例三提供的声源定位装置的结构示意图；

图5为本发明实施例四提供的声源定位设备的结构示意图。

具体实施方式

为了解决现有的声源定位方法准确性较低，且难以保证实时性的问题，本发明实施例提供的方案中，将麦克风阵列采集到的音频时域信号转换为音频频域信号后，利用训练出的神经网络模型，确定音频频域信号中信噪比较大的频率点，并利用信噪比较大的频率点进行声源定位。从而提高声源定位的准确性，特别是提高低信噪比情况下，声源(如语音)定位的准确性，并降低算法复杂度，保证声源定位的实时性。

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本文中提及的“多个或者若干个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

本发明实施例一提供一种声源定位方法，该方法的步骤流程可以如图1所示，包括：

步骤101、采集音频时域信号。

在本步骤中，可以利用麦克风阵列采集设定时长的音频时域信号(如语音时域信号)。在一种可能的实现方式中，利用麦克风阵列采集音频时域信号，可以理解为利用麦克风阵列采集不同信噪比情况下的远场音频时域信号。

步骤102、进行时域频域转换。

在本步骤中，可以将采集到的音频时域信号转化为音频频域信号。

考虑到利用短时傅里叶变换进行时域频域转换时，频率尺度为线性尺度，转换复杂度低，计算简单，容易回到时域信号，且经过短时傅里叶变换后，每个频率点可以表示为a+b*j的复数频谱形式，可以更容易地获得音频频域信号中每个频率点的能量信息，以作为训练出的神经网络模型的输入，因此，在一种可能的实现方式中，可以是但不限于通过短时傅里叶变换(STFT)的方式，对采集到的音频时域信号进行时域频域转换。

即本步骤可以包括，通过短时傅里叶变换，将采集到的音频时域信号转换为音频频域信号。

步骤103、筛选频率点。

在本步骤中，可以利用训练出的神经网络模型，确定转换后得到的音频频域信号中信噪比大于设定值的频率点。

在本步骤中，可以理解为利用训练出的神经网络模型进行频点聚类，从而可以根据频点聚类结果，确定音频频域信号中信噪比大于设定值的频率点。

需要说明的是，在本实施例中，训练出的神经网络模型可以是但不限于采用深度神经网络(DNN)模型，或者卷积神经网络(CNN)模型，或者长短时记忆(LSTM)神经网络模型，以保证频率点筛选的准确性，从而进一步保证声源定位的准确性。

在本实施例中，可以针对训练样本集中的每个音频频域信号，对预先建立的神经网络模型执行下述操作，获得训练出的神经网络模型：

步骤104、进行声源定位。

在本步骤中，可以利用确定出的信噪比大于设定值的频率点进行声源定位。

在一种可能的实现方式中，为了进一步保证声源定位的准确性，在本步骤中，可以利用确定出的信噪比大于设定值的频率点进行至少两次声源定位，例如，利用每个确定出的信噪比大于设定值的频率点分别进行一次声源定位，并将获得的声源定位结果的平均值，作为声源定位结果。

即在本实施例中，除了可以利用所有确定出的信噪比大于设定值的频率点进行一次声源定位(可以理解为宽带声源定位)的方式进行声源定位，还可以进一步利用信噪比较大的频率点进行多次声源定位(每次声源定位可以理解为一次窄带声源定位)，并将多次声源定位结果的平均值，作为声源定位结果，从而进一步提高声源定位的准确性。

下面通过一个具体的实例对本发明实施例一提供的方案进行说明。

实施例二

本发明实施例二提供一种声源定位方法，该方法的步骤流程可以如图2所示，包括：

步骤201、采集音频时域信号。

在本步骤中，可以利用麦克风阵列采集不同信噪比情况下的远场音频时域信号。

步骤202、针对每个麦克风确定一组音频时域信号。

在本步骤中，可以针对麦克风阵列中的每个麦克风，确定一组音频时域信号。

在本实施例中，假设麦克风阵列中包括M个麦克风，可以按照设定的采样频率(如16000个采样点每秒)，对步骤201中采集到的音频时域信号中利用每个麦克风采集到的音频时域信号分别进行采样，获得M路音频时域信号。

步骤203、转换为音频频域信号。

在本步骤中，可以针对每个麦克风确定一组音频频域信号。

在本实施例中，可以对M路音频时域信号分别进行短时傅里叶变换，获得M路音频频域信号。

假设每路音频时域信号用X_i(t)表示，i＝1，2，……M。M个X_i(t)构成列向量x(t)＝[X₁(t),……X_M(t)]。在本步骤中，可以对x(t)进行短时傅里叶变换，得到对应的列向量。

短时傅里叶变换公式如下所示：

其中，w(n)表示n点的窗函数；

m表示帧长；

F表示帧移；

N表示采集到的音频时域信号被帧长m切分出的帧数；

ω_k表示傅里叶变换的角频率。

得到的列向量可以共同形成一个频域信号，该频域信号可以按照帧长(m)进行分帧形成包括N帧的频域信号，并将该频域信号中每个频率点的能量作为训练出的神经网络模型的输入，用于筛选频率点。

需要说明的是，按照帧长(m，例如，m为512个采样点)进行分帧，可以使得分帧得到的每一帧近似实时获得的一帧频域信号，从而使得训练出的神经网络模型可以更好地对实时获得的频域信号进行频率点筛选。

步骤204、筛选频率点。

在本步骤中，可以利用训练出的神经网络模型，确定转换后得到的M组音频频域信号中信噪比大于设定值的频率点。

本实施例以将M路音频频域信号中每个频率点的能量作为输入，利用训练出的神经网络模型，确定M路音频频域信号中信噪比大于设定值的频率点为例进行说明。对应的，在本实施例中，神经网络模型可以通过如图3所示的过程进行训练得到。

训练样本集中一个训练样本对可以包括：对M路音频频域信号共同形成的频域信号，按照帧长(m)进行分帧形成的包括N帧的频域信号中每个频率点的能量，以及已经标记出mask＝1的位置和mask＝0的位置的该频域信号。

其中，mask＝1的位置可以理解为对应频域信号中信噪比大于设定值的频率点，mask＝0的位置可以理解为对应频域信号中信噪比不大于设定值的频率点。

训练过程包括：

将没有标记出mask＝1的位置和mask＝0的位置的包括N帧的频域信号中每个频率点的能量作为预先建立的神经网络模型(可以采用DNN或CNN或LSTM模型)的输入，该神经网络模型进行频点聚类，并可以根据频点聚类结果，确定频域信号中mask＝1的位置和mask＝0的位置。神经网络模型可以输出携带mask＝1的位置和mask＝0的位置的标记的包括N帧的频域信号。

进一步的，神经网络模型输出的携带位置标记的频域信号，可以与训练样本集中对应的已经标记出mask＝1的位置和mask＝0的位置的包括N帧的频域信号进行比对，根据二者之间的误差，按照减小二者之间的误差的方式，对预先建立的神经网络模型进行调整，直至训练完成。

步骤205、进行声源定位。

在本步骤中，可以利用每个确定出的信噪比大于设定值的频率点分别进行一次窄带声源定位，并将获得的声源定位结果的平均值，作为声源定位结果。

与实施例一提供的方法对应的，提供以下的装置。

实施例三

本发明实施例三提供一种声源定位装置，该装置的结构可以如图4所示，包括：

采集模块11用于利用麦克风阵列采集设定时长的音频时域信号；转换模块12用于将采集到的音频时域信号转换为音频频域信号；筛选模块13用于利用训练出的神经网络模型，确定所述音频频域信号中信噪比大于设定值的频率点；定位模块14用于利用所述信噪比大于设定值的频率点进行声源定位；

其中，筛选模块13中利用的神经网络模型，通过以下方式获得：

针对训练样本集中的每个音频频域信号，对预先建立的神经网络模型执行下述操作，获得训练出的神经网络模型：

所述转换模块12具体用于通过短时傅里叶变换，将采集到的音频时域信号转化为音频频域信号。

所述筛选模块13利用的训练出的神经网络模型采用深度神经网络DNN模型，或者卷积神经网络CNN模型，或者长短时记忆LSTM神经网络模型。

所述定位模块14具体用于利用所述信噪比大于设定值的频率点进行至少两次声源定位，并将获得的声源定位结果的平均值，作为声源定位结果。

基于同一发明构思，本发明实施例提供以下的设备和介质。

实施例四

本发明实施例四提供一种声源定位设备，该设备的结构可以如图5所示，包括处理器21、通信接口22、存储器23和通信总线24，其中，所述处理器21，所述通信接口22，所述存储器23通过所述通信总线24完成相互间的通信；

所述存储器23，用于存放计算机程序；

所述处理器21，用于执行所述存储器上所存储的程序时，实现本发明实施例一所述的方法步骤。

可选的，所述处理器21具体可以包括中央处理器(CPU)、特定应用集成电路(ASIC，application specific integrated circuit)，可以是一个或多个用于控制程序执行的集成电路，可以是使用现场可编程门阵列(FPGA，field programmable gate array)开发的硬件电路，可以是基带处理器。

可选的，所述处理器21可以包括至少一个处理核心。

可选的，所述存储器23可以包括只读存储器(ROM，read only memory)、随机存取存储器(RAM，random access memory)和磁盘存储器。存储器23用于存储至少一个处理器21运行时所需的数据。存储器23的数量可以为一个或多个。

本发明实施例五提供一种非易失性计算机存储介质，所述计算机存储介质存储有可执行程序，当可执行程序被处理器执行时，实现本发明实施例一提供的方法。

在具体的实施过程中，计算机存储介质可以包括：通用串行总线闪存盘(USB，Universal Serial Bus flash drive)、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的存储介质。

在本发明实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性或其它的形式。

在本发明实施例中的各功能单元可以集成在一个处理单元中，或者各个单元也可以均是独立的物理模块。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备，例如可以是个人计算机，服务器，或者网络设备等，或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：通用串行总线闪存盘(universal serial bus flash drive)、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种声源定位方法，其特征在于，所述方法包括：

利用麦克风阵列采集设定时长的音频时域信号；

将采集到的音频时域信号转换为音频频域信号；

利用所述信噪比大于设定值的频率点进行声源定位；

2.如权利要求1所述的方法，其特征在于，将采集到的音频时域信号转化为音频频域信号，包括：

通过短时傅里叶变换，将采集到的音频时域信号转化为音频频域信号。

3.如权利要求1所述的方法，其特征在于，所述训练出的神经网络模型采用深度神经网络DNN模型，或者卷积神经网络CNN模型，或者长短时记忆LSTM神经网络模型。

4.如权利要求1～3任一所述的方法，其特征在于，利用所述信噪比大于设定值的频率点进行声源定位，包括：

利用所述信噪比大于设定值的频率点进行至少两次声源定位，并将获得的声源定位结果的平均值，作为声源定位结果。

5.一种声源定位装置，其特征在于，所述装置包括：

6.如权利要求5所述的装置，其特征在于，所述转换模块，具体用于通过短时傅里叶变换，将采集到的音频时域信号转化为音频频域信号。

7.如权利要求5所述的装置，其特征在于，所述筛选模块利用的训练出的神经网络模型采用深度神经网络DNN模型，或者卷积神经网络CNN模型，或者长短时记忆LSTM神经网络模型。

8.如权利要求5～7任一所述的装置，其特征在于，所述定位模块，具体用于利用所述信噪比大于设定值的频率点进行至少两次声源定位，并将获得的声源定位结果的平均值，作为声源定位结果。

9.一种非易失性计算机存储介质，其特征在于，所述计算机存储介质存储有可执行程序，该可执行程序被处理器执行实现权利要求1～4任一所述的方法。

10.一种声源定位设备，其特征在于，所述设备包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存储的程序时，实现权利要求1～4任一所述的方法步骤。