CN113835065B

CN113835065B - 基于深度学习的声源方向确定方法、装置、设备及介质

Info

Publication number: CN113835065B
Application number: CN202111023884.9A
Authority: CN
Inventors: 陈文明; 陈新磊; 张洁; 张世明
Original assignee: Shenzhen Emeet Technology Co ltd
Current assignee: Shenzhen Emeet Technology Co ltd
Priority date: 2021-09-01
Filing date: 2021-09-01
Publication date: 2024-05-17
Anticipated expiration: 2041-09-01
Also published as: CN113835065A

Abstract

本发明涉及深度学习技术领域，公开了一种基于深度学习的声源方向确定方法、装置、设备及介质，所述方法包括：根据目标混合声源信号得到相位谱信息；根据相位谱信息和预设长度帧序列信息生成对应的特征维度信息；根据预设卷积递归神经网络对特征维度信息进行预测，得到波达向量信息集合；根据波达向量信息集合确定目标混合声源的方向信息；本发明通过相位谱信息和预设长度帧序列信息生成特征维度信息，根据预设卷积递归神经网络对特征维度信息进行预测，基于预测得到的波达向量信息集合确定目标混合声源的方向信息，以实现对目标混合声源方向的确定，相较于现有技术通过传统的DOA算法进行声源方向的估计，能够有效提高确定声源方向的准确率。

Description

基于深度学习的声源方向确定方法、装置、设备及介质

技术领域

本发明涉及深度学习技术领域，尤其涉及基于深度学习的声源方向确定方法、装置、设备及介质。

背景技术

声源方向又称波达方向(Direction of Arrival，DOA)，以录音设备为参考系，DOA的目的是要判断说话人的声源的发出方向，它通常作为语音系统的前置处理，而说话人的声源的发出方向的判断的应用较多，例如，波束形成算法中就需要预先获取到声源的空间信息，声源定位和声源追踪任务中也需要确定声源方向，而目前常用的声源方向确定的技术方案是通过传统的DOA算法，大多是通过数学运算一步一步地进行推理，以确定声源的方向信息，但是上述技术方案需要限制假设以及要求较高，例如，多重信号分类算法就假设不同声源是独立不相干的，且声源数要小于麦克风的数量，广义互相关-相位变换算法，要求阵列中不同麦克风之间存在一定的距离且对声源的距离也有一定的限制条件，但是现实环境中的声源大多数是混合声源，即声源中包括混响音和噪声，此时再通过上述技术方案所确定的声源方向的准确率较低。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种基于深度学习的声源方向确定方法、装置、设备及介质，旨在解决现有技术无法有效提高确定声源方向的准确率的技术问题。

为实现上述目的，本发明提供了一种基于深度学习的声源方向确定方法，所述基于深度学习的声源方向确定方法包括以下步骤:

获取目标混合声源信号，根据所述目标混合声源信号得到对应的相位谱信息；

根据所述相位谱信息和预设长度帧序列信息生成对应的特征维度信息；

根据预设卷积递归神经网络对所述特征维度信息进行预测，得到波达向量信息集合；

根据所述波达向量信息集合确定目标混合声源的方向信息，以实现对目标混合声源方向的确定。

可选地，所述获取目标混合声源信号，根据所述目标混合声源信号得到对应的相位谱信息，包括：

获取目标混合声源信号，对所述目标混合声源信号进行分帧；

对分帧后的目标混合声源信号进行傅里叶变换，得到对应的频谱信息；

提取所述频谱信息中的实部信息和虚部信息；

通过第一计算公式对所述实部信息和虚部信息进行计算，得到对应的相位谱信息。

可选地，所述根据所述相位谱信息和预设长度帧序列信息生成对应的特征维度信息，包括：

获取声源信号采集设备集合；

对所述声源信号采集设备集合进行遍历组合，得到对应的声源信号采集设备组合信息；

通过第二计算公式对所述相位谱信息和声源信号采集设备组合信息进行计算，得到IPD特征信息；

根据所述IPD特征信息和预设长度帧序列信息生成对应的特征维度信息。

可选地，所述根据预设卷积递归神经网络对所述特征维度信息进行预测，得到波达向量信息集合，包括：

提取预设卷积递归神经网络中的卷积神经网络信息、递归神经网络信息以及全连接网络信息；

根据所述卷积神经网络信息对所述特征维度信息进行卷积；

根据所述递归神经网络信息对卷积后的特征维度信息进行预测，得到对应的波达向量信息；

根据所述全连接网络信息依次对所述波达向量信息进行映射，得到波达向量信息集合。

可选地，所述根据所述递归神经网络信息对卷积后的特征维度信息进行预测，得到对应的波达向量信息，包括：

提取所述递归神经网络信息中的双向长短期记忆循环神经网络信息；

根据卷积后的特征维度信息确定对应的特征维度时序序列；

根据所述双向长短期记忆循环神经网络信息对所述特征维度时序序列进行预测，得到对应的波达向量信息。

可选地，所述根据所述波达向量信息集合确定目标混合声源的方向信息，包括：

获取目标混合声源信号的区域信息和预设角度信息；

根据所述预设角度信息对所述区域信息划分，得到目标数量的区域信息；

根据所述目标数量的区域信息和波达向量信息集合确定目标混合声源的方向信息。

可选地，所述根据所述目标数量的区域信息和波达向量信息集合确定目标混合声源的方向信息，包括：

根据所述波达向量信息集合得到对应的方向概率信息；

根据预设排序规则对所述方向概率信息对应的概率值进行排序；

根据排序后的概率值得到目标方向概率信息；

据所述目标数量的区域信息和目标方向概率信息的下标值确定目标混合声源的方向信息。

此外，为实现上述目的，本发明还提出一种基于深度学习的声源方向确定装置，所述基于深度学习的声源方向确定装置包括：

获取模块，用于获取目标混合声源信号，根据所述目标混合声源信号得到对应的相位谱信息；

生成模块，用于根据所述相位谱信息和预设长度帧序列信息生成对应的特征维度信息；

预测模块，用于根据预设卷积递归神经网络对所述特征维度信息进行预测，得到波达向量信息集合；

确定模块，用于根据所述波达向量信息集合确定目标混合声源的方向信息，以实现对目标混合声源方向的确定。

此外，为实现上述目的，本发明还提出一种基于深度学习的声源方向确定设备，所述基于深度学习的声源方向确定设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于深度学习的声源方向确定程序，所述基于深度学习的声源方向确定程序配置为实现如上文所述的基于深度学习的声源方向确定方法。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有基于深度学习的声源方向确定程序，所述基于深度学习的声源方向确定程序被处理器执行时实现如上文所述的基于深度学习的声源方向确定方法。

本发明提出的基于深度学习的声源方向确定方法，通过获取目标混合声源信号，根据所述目标混合声源信号得到对应的相位谱信息；根据所述相位谱信息和预设长度帧序列信息生成对应的特征维度信息；根据预设卷积递归神经网络对所述特征维度信息进行预测，得到波达向量信息集合；根据所述波达向量信息集合确定目标混合声源的方向信息，以实现对目标混合声源方向的确定；本发明通过相位谱信息和预设长度帧序列信息生成特征维度信息，根据预设卷积递归神经网络对特征维度信息进行预测，基于预测得到的波达向量信息集合确定目标混合声源的方向信息，以实现对目标混合声源方向的确定，相较于现有技术通过传统的DOA算法进行声源方向的估计，能够有效提高确定声源方向的准确率。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的基于深度学习的声源方向确定设备的结构示意图；

图2为本发明基于深度学习的声源方向确定方法第一实施例的流程示意图；

图3为本发明基于深度学习的声源方向确定方法一实施例的区域划分示意图；

图4为本发明基于深度学习的声源方向确定方法第二实施例的流程示意图；

图5为本发明基于深度学习的声源方向确定方法第三实施例的流程示意图；

图6为本发明基于深度学习的声源方向确定装置第一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的基于深度学习的声源方向确定设备结构示意图。

如图1所示，该基于深度学习的声源方向确定设备可以包括：处理器1001，例如中央处理器(Central Processing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity，Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory，RAM)存储器，也可以是稳定的非易失性存储器(Non-Volatile Memory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对基于深度学习的声源方向确定设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于深度学习的声源方向确定程序。

在图1所示的基于深度学习的声源方向确定设备中，网络接口1004主要用于与网络声源方向确定程序进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明基于深度学习的声源方向确定设备中的处理器1001、存储器1005可以设置在基于深度学习的声源方向确定设备中，所述基于深度学习的声源方向确定设备通过处理器1001调用存储器1005中存储的基于深度学习的声源方向确定程序，并执行本发明实施例提供的基于深度学习的声源方向确定方法。

基于上述硬件结构，提出本发明基于深度学习的声源方向确定方法实施例。

参照图2，图2为本发明基于深度学习的声源方向确定方法第一实施例的流程示意图。

在第一实施例中，所述基于深度学习的声源方向确定方法包括以下步骤：

步骤S10，获取目标混合声源信号，根据所述目标混合声源信号得到对应的相位谱信息。

需要说明的是，本实施例的执行主体为基于深度学习的声源方向确定设备，还可为其他可实现相同或相似功能的设备，例如声源方向确定程序等，本实施例对此不作限制，在本实施例中，以声源方向确定程序为例进行说明。

应当理解的是，目标混合声源信号指的是声源采集设备所采集的所有声源信号，包括噪声信号、人声信号以及其他声音信号，将上述声音信号进行混合，即为目标混合声源信号，其中，声源采集设备可以为麦克风，也可以为其他声源采集设备，本实施例对此不作限制，以麦克风为例进行说明，其中，目标混合声源信号是通过公式一计算得到的，具体为：

其中，Sm为第m个麦克风采集到的混合声源信号，Xi是第i个说话人的声音信号，N指的是噪声。

可以理解的是，相位谱信息指的是从到达时延和采样偏移中得到各个声源的空间信息的特征所呈现的信息，在得到目标混合声源信号后，通过计算公式对目标混合声源信号进行处理，即得到对应的相位谱信息。

进一步地，步骤S10，包括：获取目标混合声源信号，对所述目标混合声源信号进行分帧；对分帧后的目标混合声源信号进行傅里叶变换，得到对应的频谱信息；提取所述频谱信息中的实部信息和虚部信息；通过第一计算公式对所述实部信息和虚部信息进行计算，得到对应的相位谱信息。

可以理解的是，在得到目标混合声源信号后，对目标混合声源信号进行分帧，分帧指的是将目标混合声源信号对应的声源帧分为单元帧，再对分帧后的目标混合声源信号进行傅里叶变换，傅里叶变换指的是将目标混合声源信号的形式进行转换，傅里叶变换包括连续傅里叶变换和离散傅里叶变换，其中，实部信息和虚部信息均为频谱信息的组成部分，而频谱信息是通过公式二计算得到的，具体为：

F_m＝STFT(S_m)；(公式二)

其中，Sm为第m个麦克风采集到的混合声源信号，Fm为对应的频谱信息。

应当理解的是，在提取到频谱信息的实部信息和虚部信息后，根据第一计算公式对频谱实部信息和频谱虚部信息进行计算，得到对应的相位谱信息，第一计算公式具体为：

其中，∠P_m表示第m个麦克风信号采集到混合声源信号的相位谱，为频谱实部信息，/>为频谱虚部信息。

在具体实施中，声源方向确定程序获取目标混合声源信号，根据所述目标混合声源信号得到对应的相位谱信息。

步骤S20，根据所述相位谱信息和预设长度帧序列信息生成对应的特征维度信息。

应当理解的是，预设长度帧序列信息指的是分帧后的混合声源信号中连续帧序列长度信息，由于混合声源信号中的声源连续帧之间存在相关性，因此将特征维度信息输入至预设卷积递归神经网络前，预设长度帧序列信息中对应的帧序列也为连续的，在得到相位谱信息和预设长度帧序列信息后，根据相位谱信息和预设长度帧序列信息生成对应的特征维度信息。

在具体实施中，声源方向确定程序根据所述相位谱信息和预设长度帧序列信息生成对应的特征维度信息。

步骤S30，根据预设卷积递归神经网络对所述特征维度信息进行预测，得到波达向量信息集合。

应当理解的是，在得到特征维度信息后，需要通过目标函数使得预设卷积递归神经网络达到最优，而预设卷积递归神经网络达到最优的衡量标准为目标函数是否最小化，该目标函数只能为二值交叉熵(Binary Cross Entropy，BCE)损失，在BCE损失函数为收敛时，预设卷积递归神经网络达到最优，此时通过预设卷积递归神经网络预测得到的波达向量信息集合才是有效、可靠的。

可以理解的是，预设卷积递归神经网络由卷积神经网络(Convolution NeuralNetwork，CNN)、递归神经网络(Recurrent Neural Network，RNN)组成的神经网络模型以及全连接网络组成，在得到特征维度信息后，将特征维度信息输入至预设卷积递归神经网络模型，以使预设卷积递归神经网络模型对特征维度信息进行预测，得到对应的波达向量信息集合，例如，预设卷积递归神经网络模型预测出的波达向量信息集合为(0.01,0.4,0.01,0.03,0.02,0.3,0.02,0.1,0.01,0.03,0.04,0.03)。

在具体实施中，声源方向确定程序根据预设卷积递归神经网络对所述特征维度信息进行预测，得到波达向量信息集合。

步骤S40，根据所述波达向量信息集合确定目标混合声源的方向信息，以实现对目标混合声源方向的确定。

应当理解的是，在得到波达向量信息集合，根据波达向量信息集合在预设时间内确定目标混合声源的方向，预设时间可以为160ms，也可以为其他时间，本实施例对此不作限制，以160ms为例进行说明。

进一步地，步骤S40，包括：获取目标混合声源信号的区域信息和预设角度信息；根据所述预设角度信息对所述区域信息划分，得到目标数量的区域信息；根据所述目标数量的区域信息和波达向量信息集合确定目标混合声源的方向信息。

可以理解的是，目标混合声源信号的区域信息指的是麦克风阵列围绕而成的圆形区域信息，预设角度信息指的是对圆形区域划分的角度信息，例如，预设角度信息为30度，则划分后的区域信息的数量为12，参考图3，图3为基于深度学习的声源方向确定方法一实施例的区域划分示意图，按照逆时针方向将其分为Area[0]-Area[11]，此时的波达向量信息集合可以通过公式三进行表示，具体为：

其中，为波达向量信息集合，Pi为第i个划分后的区域信息。

进一步地，根据所述目标数量的区域信息和波达向量信息集合确定目标混合声源的方向信息，包括：根据所述波达向量信息集合得到对应的方向概率信息；根据预设排序规则对所述方向概率信息对应的概率值进行排序；根据排序后的概率值得到目标方向概率信息；根据所述目标数量的区域信息和目标方向概率信息的下标值确定目标混合声源的方向信息。

应当理解的是，在得到波达向量信息集合，确定波达向量信息集合中各波达向量信息对应的方向概率信息，按照从小到大的顺序将方向概率信息进行排序，并从排序好的方向概率信息中选择概率值最大的目标方向概率信息，再根据目标方向概率信息的下标值得到目标混合声源的方向信息，例如，波达向量信息集合为(0.01,0.4,0.01,0.03,0.02,0.3,0.02,0.1,0.01,0.03,0.04,0.03)，目标方向概率信息为0.4，而0.4对应的下标值为1，则此时的目标混合声源的方向信息为Area[1]，如果波达向量信息集合为(0.01,0.4,0.01,0.003,0.0001,0.4,0.1,0.03,0.04,0.002,0.004,0.0009)，则此时的目标混合声源的方向信息为Area[1]和Area[5]。

在具体实施中，声源方向确定程序根据所述波达向量信息集合确定目标混合声源的方向信息，以实现对目标混合声源方向的确定。

本实施例通过获取目标混合声源信号，根据所述目标混合声源信号得到对应的相位谱信息；根据所述相位谱信息和预设长度帧序列信息生成对应的特征维度信息；根据预设卷积递归神经网络对所述特征维度信息进行预测，得到波达向量信息集合；根据所述波达向量信息集合确定目标混合声源的方向信息，以实现对目标混合声源方向的确定；通过相位谱信息和预设长度帧序列信息生成特征维度信息，根据预设卷积递归神经网络对特征维度信息进行预测，基于预测得到的波达向量信息集合确定目标混合声源的方向信息，以实现对目标混合声源方向的确定，相较于现有技术通过传统的DOA算法进行声源方向的估计，能够有效提高确定声源方向的准确率。

在一实施例中，如图4所述，基于第一实施例提出本发明基于深度学习的声源方向确定方法第二实施例，所述步骤S20，包括：

步骤S201，获取声源信号采集设备集合。

应当理解的是，声源信号采集设备集合指的是由各声源信号采集设备组成的集合，各声源信号采集设备排列成圆形采集各方向的目标混合声源信号，声源信号采集设备集合中的各声源信号采集设备的数量可以为4，也可以为8，本实施例对此不作限制，以数量4为例进行说明。

在具体实施中，声源方向确定程序获取声源信号采集设备集合。

步骤S202，对所述声源信号采集设备集合进行遍历组合，得到对应的声源信号采集设备组合信息。

可以理解的是，在得到声源信号采集设备集合后，将声源信号采集设备集合中的各声源信号采集设备遍历组合，即两两自由组合，得到对应的声源信号采集设备组合信息，此时的声源信号采集设备组合为6种，具体为：

u_i∈Ω，Ω＝{(1,2),(1,3),(1,4),(2,3),(2,4),(3,4)}；

其中，u_i为声源信号采集设备组合中的一种组合，Ω为声源信号采集设备组合中的所有组合。

在具体实施中，声源方向确定程序对所述声源信号采集设备集合进行遍历组合，得到对应的声源信号采集设备组合信息。

步骤S203，通过第二计算公式对所述相位谱信息和声源信号采集设备组合信息进行计算，得到IPD特征信息。

应当理解的是，IPD特征信息指的是目标混合声源信号中的集成特征信息，在得到相位谱信息和声源信号采集设备组合信息后，通过第二计算公式对相位谱信息和声源信号采集设备组合信息进行计算，得到IPD特征信息，第二计算公式具体为：

其中，为IPD特征信息，/>为第一声源信号采集设备，/>为第二声源信号采集设备，M为信号采集设备的数量。

在具体实施中，声源方向确定程序通过第二计算公式对所述相位谱信息和声源信号采集设备组合信息进行计算，得到IPD特征信息。

步骤S204，根据所述IPD特征信息和预设长度帧序列信息生成对应的特征维度信息。

可以理解的是，在得到IPD特征信息和预设长度帧序列信息后，根据IPD特征信息和预设长度帧序列信息生成对应的特征维度信息，例如，预设长度帧序列信息对应的序列长度为10，和/>沿着频率轴的叠加值为514，信号采集设备的组合配对方式为6种，具体为：使用的是4麦阵列，即4个信号采集设备组成的4麦阵列，组合的公式为4*3/2＝6，最后生成的特征维度信息为(6,10,514)。

在具体实施中，声源方向确定程序根据所述IPD特征信息和预设长度帧序列信息生成对应的特征维度信息。

本实施例通过获取声源信号采集设备集合；对所述声源信号采集设备集合进行遍历组合，得到对应的声源信号采集设备组合信息；通过第二计算公式对所述相位谱信息和声源信号采集设备组合信息进行计算，得到IPD特征信息；根据所述IPD特征信息和预设长度帧序列信息生成对应的特征维度信息；通过对声源信号采集设备集合进行遍历组合，得到声源信号采集设备组合信息，根据第二计算公式对相位谱信息和声源信号采集设备组合信息进行计算，基于预设长度帧序列信息和计算得到的IPD特征信息生成对应的特征维度信息，从而有效提高得到特征维度信息的准确率。

在一实施例中，如图5所述，基于第一实施例提出本发明基于深度学习的声源方向确定方法第三实施例，所述步骤S30，包括：

步骤S301，提取预设卷积递归神经网络中的卷积神经网络信息、递归神经网络信息以及全连接网络信息。

可以理解的是，卷积神经网络信息包括6个卷积块和6个最大池化层(max-pooling)，每个卷积块里有2个卷积层，卷积层都使用2维卷积，卷积核大小都是3x3，卷积通道数都是64，每一次卷积后使用零填充将特征维持在图中右侧指定的尺寸，卷积后的激活函数都使用线性整流函数(Rectified Linear Unit，ReLU)，最大池化层的核大小从输入开始分别是1x4、1x4、1x2、1x2、1x2以及1x2。

应当理解的是，循环递归神经网络信息2层双向长短期记忆循环神经网络(Bi-Long-Short Term Memory Recurrent Neural Network，BLSTM RNN)组成，每层有128个单元，其激活函数为双曲正切函数(Tanh)，全连接网络信息由全连接层(Fully ConnectedLayer，FC)组成，主要是对输出结果进行映射的网络信息。

在具体实施中，声源方向确定程序提取预设卷积递归神经网络中的卷积神经网络信息、递归神经网络信息以及全连接网络信息。

步骤S302，根据所述卷积神经网络信息对所述特征维度信息进行卷积。

可以理解的是，在得到特征维度信息后，通过卷积神经网络信息中的卷积层对特征维度信息进行卷积，使得特征维度信息成为单元的特征维度信息，即使其特征维度信息出现更多的特征信息。

在具体实施中，声源方向确定程序根据所述卷积神经网络信息对所述特征维度信息进行卷积。

步骤S303，根据所述递归神经网络信息对卷积后的特征维度信息进行预测，得到对应的波达向量信息。

应当理解的是，循环递归神经网络信息中的BLSTM RNN中存在四种不同的门控单元，此时的预测结果相较于LSTM RNN，对卷积后的特征维度信息的预测更加准确、效率更高，由于卷积后的特征维度信息所对应的特征维度时序序列的中前序列会影响后序列的预测结果，因此，BLSTM RNN在对卷积后的特征维度信息进行训练时只需要预测最后的时序序列即可，在预测完成后，得到对应的波达向量信息。

进一步地，步骤S303，包括：提取所述递归神经网络信息中的双向长短期记忆循环神经网络信息；根据卷积后的特征维度信息确定对应的特征维度时序序列；根据所述双向长短期记忆循环神经网络信息对所述特征维度时序序列进行预测，得到对应的波达向量信息。

可以理解的是，在得到卷积后的特征维度信息后，根据卷积后的特征维度信息确定对应的特征维度时序序列，根据BLSTM RNN的门控单元对卷积后的特征维度信息中最后的时序序列进行预测，即可得到对应的波达向量信息，BLSTM RNN的门控单元存在四种。

在具体实施中，声源方向确定程序根据所述递归神经网络信息对卷积后的特征维度信息进行预测，得到对应的波达向量信息

步骤S304，根据所述全连接网络信息依次对所述波达向量信息进行映射，得到波达向量信息集合。

应当理解的是，在得到递归神经网络信息预测的波达向量信息后，全连接网络信息将波达向量信息按照预测的顺序依次进行映射，在映射完成后，即可得到由波达向量信息组成的波达向量信息集合。

在具体实施中，声源方向确定程序根据所述全连接网络信息依次对所述波达向量信息进行映射，得到波达向量信息集合。

本实施例通过提取预设卷积递归神经网络中的卷积神经网络信息、递归神经网络信息以及全连接网络信息；根据所述卷积神经网络信息对所述特征维度信息进行卷积；根据所述递归神经网络信息对卷积后的特征维度信息进行预测，得到对应的波达向量信息；根据所述全连接网络信息依次对所述波达向量信息进行映射，得到波达向量信息集合；通过卷积神经网络信息对特征维度信息进行卷积，根据递归神经网络信息对卷积后的特征维度信息进行预测，基于全连接网络信息依次对预测到的波达向量信息进行映射，得到波达向量信息集合，从而有效提高得到波达向量信息集合的准确率。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有基于深度学习的声源方向确定程序，所述基于深度学习的声源方向确定程序被处理器执行时实现如上文所述的基于深度学习的声源方向确定方法的步骤。

由于本存储介质采用了上述所有实施例的全部技术方案，因此至少具有上述实施例的技术方案所带来的所有有益效果，在此不再一一赘述。

此外，参照图6，本发明实施例还提出一种基于深度学习的声源方向确定装置，所述基于深度学习的声源方向确定装置包括：

获取模块10，用于获取目标混合声源信号，根据所述目标混合声源信号得到对应的相位谱信息。

进一步地，获取模块10，还用于获取目标混合声源信号，对所述目标混合声源信号进行分帧；对分帧后的目标混合声源信号进行傅里叶变换，得到对应的频谱信息；提取所述频谱信息中的实部信息和虚部信息；通过第一计算公式对所述实部信息和虚部信息进行计算，得到对应的相位谱信息。

F_m＝STFT(S_m)；(公式二)

生成模块20，用于根据所述相位谱信息和预设长度帧序列信息生成对应的特征维度信息。

预测模块30，用于根据预设卷积递归神经网络对所述特征维度信息进行预测，得到波达向量信息集合。

确定模块40，用于根据所述波达向量信息集合确定目标混合声源的方向信息，以实现对目标混合声源方向的确定。

进一步地，确定模块40，还用于获取目标混合声源信号的区域信息和预设角度信息；根据所述预设角度信息对所述区域信息划分，得到目标数量的区域信息；根据所述目标数量的区域信息和波达向量信息集合确定目标混合声源的方向信息。

可以理解的是，目标混合声源信号的区域信息指的是麦克风阵列围绕而成的圆形区域信息，预设角度信息指的是对圆形区域划分的角度信息，例如，预设角度信息为30度，则划分后的区域信息的数量为12，参考图3，图3为本发明基于深度学习的声源方向确定方法一实施例的区域划分示意图，按照逆时针方向将其分为Area[0]-Area[11]，此时的波达向量信息集合可以通过公式三进行表示，具体为：

其中，为波达向量信息集合，Pi为第i个划分后的区域信息。

需要说明的是，以上所描述的工作流程仅仅是示意性的，并不对本发明的保护范围构成限定，在实际应用中，本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的，此处不做限制。

另外，未在本实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的基于深度学习的声源方向确定方法，此处不再赘述。

在一实施例中，所述获取模块10，还用于获取目标混合声源信号，对所述目标混合声源信号进行分帧；对分帧后的目标混合声源信号进行傅里叶变换，得到对应的频谱信息；提取所述频谱信息中的实部信息和虚部信息；通过第一计算公式对所述实部信息和虚部信息进行计算，得到对应的相位谱信息。

在一实施例中，所述生成模块20，还用于获取声源信号采集设备集合；对所述声源信号采集设备集合进行遍历组合，得到对应的声源信号采集设备组合信息；通过第二计算公式对所述相位谱信息和声源信号采集设备组合信息进行计算，得到IPD特征信息；根据所述IPD特征信息和预设长度帧序列信息生成对应的特征维度信息。

在一实施例中，所述预测模块30，还用于提取预设卷积递归神经网络中的卷积神经网络信息、递归神经网络信息以及全连接网络信息；根据所述卷积神经网络信息对所述特征维度信息进行卷积；根据所述递归神经网络信息对卷积后的特征维度信息进行预测，得到对应的波达向量信息；根据所述全连接网络信息依次对所述波达向量信息进行映射，得到波达向量信息集合。

在一实施例中，所述预测模块30，还用于提取所述递归神经网络信息中的双向长短期记忆循环神经网络信息；根据卷积后的特征维度信息确定对应的特征维度时序序列；根据所述双向长短期记忆循环神经网络信息对所述特征维度时序序列进行预测，得到对应的波达向量信息。

在一实施例中，所述确定模块40，还用于获取目标混合声源信号的区域信息和预设角度信息；根据所述预设角度信息对所述区域信息划分，得到目标数量的区域信息；根据所述目标数量的区域信息和波达向量信息集合确定目标混合声源的方向信息。

在一实施例中，所述确定模块40，还用于根据所述波达向量信息集合得到对应的方向概率信息；根据预设排序规则对所述方向概率信息对应的概率值进行排序；根据排序后的概率值得到目标方向概率信息；根据所述目标数量的区域信息和目标方向概率信息的下标值确定目标混合声源的方向信息。

本发明所述基于深度学习的声源方向确定装置的其他实施例或具有实现方法可参照上述各方法实施例，此处不在赘余。

此外，需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器(Read Only Memory，ROM)/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，声源方向确定程序，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于深度学习的声源方向确定方法，其特征在于，所述基于深度学习的声源方向确定方法包括以下步骤：

根据所述波达向量信息集合确定目标混合声源的方向信息，以实现对目标混合声源方向的确定；

所述获取目标混合声源信号，根据所述目标混合声源信号得到对应的相位谱信息，包括：

提取所述频谱信息中的实部信息和虚部信息；

通过第一计算公式对所述实部信息和虚部信息进行计算，得到对应的相位谱信息；

其中，所述第一计算公式为：

其中，∠P_m表示第m个麦克风信号采集到混合声源信号的相位谱，为频谱实部信息，为频谱虚部信息；

所述根据所述相位谱信息和预设长度帧序列信息生成对应的特征维度信息，包括：

获取声源信号采集设备集合；

根据所述IPD特征信息和预设长度帧序列信息生成对应的特征维度信息；

其中，所述第二计算公式为：

其中，为IPD特征信息，/>为第一声源信号采集设备，/>为第二声源信号采集设备，M为信号采集设备的数量；

所述根据预设卷积递归神经网络对所述特征维度信息进行预测，得到波达向量信息集合，包括：

根据所述卷积神经网络信息对所述特征维度信息进行卷积；

根据所述全连接网络信息依次对所述波达向量信息进行映射，得到波达向量信息集合；

所述根据所述波达向量信息集合确定目标混合声源的方向信息，包括：

获取目标混合声源信号的区域信息和预设角度信息；

2.如权利要求1所述的基于深度学习的声源方向确定方法，其特征在于，所述根据所述递归神经网络信息对卷积后的特征维度信息进行预测，得到对应的波达向量信息，包括：

根据卷积后的特征维度信息确定对应的特征维度时序序列；

3.如权利要求1所述的基于深度学习的声源方向确定方法，其特征在于，所述根据所述目标数量的区域信息和波达向量信息集合确定目标混合声源的方向信息，包括：

根据所述波达向量信息集合得到对应的方向概率信息；

根据排序后的概率值得到目标方向概率信息；

根据所述目标数量的区域信息和目标方向概率信息的下标值确定目标混合声源的方向信息。

4.一种基于深度学习的声源方向确定装置，其特征在于，所述基于深度学习的声源方向确定装置包括：

确定模块，用于根据所述波达向量信息集合确定目标混合声源的方向信息，以实现对目标混合声源方向的确定；

所述获取模块，还用于获取目标混合声源信号，对所述目标混合声源信号进行分帧；对分帧后的目标混合声源信号进行傅里叶变换，得到对应的频谱信息；提取所述频谱信息中的实部信息和虚部信息；通过第一计算公式对所述实部信息和虚部信息进行计算，得到对应的相位谱信息；

其中，所述第一计算公式为：

所述生成模块，还用于获取声源信号采集设备集合；对所述声源信号采集设备集合进行遍历组合，得到对应的声源信号采集设备组合信息；通过第二计算公式对所述相位谱信息和声源信号采集设备组合信息进行计算，得到IPD特征信息；根据所述IPD特征信息和预设长度帧序列信息生成对应的特征维度信息；

其中，所述第二计算公式为：

所述预测模块，还用于提取预设卷积递归神经网络中的卷积神经网络信息、递归神经网络信息以及全连接网络信息；根据所述卷积神经网络信息对所述特征维度信息进行卷积；根据所述递归神经网络信息对卷积后的特征维度信息进行预测，得到对应的波达向量信息；根据所述全连接网络信息依次对所述波达向量信息进行映射，得到波达向量信息集合；

所述确定模块，还用于获取目标混合声源信号的区域信息和预设角度信息；根据所述预设角度信息对所述区域信息划分，得到目标数量的区域信息；根据所述目标数量的区域信息和波达向量信息集合确定目标混合声源的方向信息。

5.一种基于深度学习的声源方向确定设备，其特征在于，所述基于深度学习的声源方向确定设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于深度学习的声源方向确定程序，所述基于深度学习的声源方向确定程序配置有实现如权利要求1至3中任一项所述的基于深度学习的声源方向确定方法。

6.一种存储介质，其特征在于，所述存储介质上存储有基于深度学习的声源方向确定程序，所述基于深度学习的声源方向确定程序被处理器执行时实现如权利要求1至3中任一项所述的基于深度学习的声源方向确定方法。