CN112581978A

CN112581978A - 声音事件检测与定位方法、装置、设备及可读存储介质

Info

Publication number: CN112581978A
Application number: CN202011446660.4A
Authority: CN
Inventors: 罗剑; 王健宗; 程宁
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2021-03-30
Also published as: WO2022121184A1

Abstract

本申请提供一种声音事件检测与定位方法、装置、设备及可读存储介质，该方法包括：获取麦克风阵列采集到的多个音频信号；确定多个音频信号中的每两个音频信号之间的互相关函数矩阵；将每个互相关函数矩阵输入至预设声音事件分类模型，得到声音事件的类别矩阵，预设声音事件分类模型为预先训练好的的神经网络模型；对每个音频信号进行傅里叶变换，得到每个音频信号的频谱图，并根据每个音频信号的频谱数据，确定声音事件的声源方位矩阵；将类别矩阵和声源方位矩阵输入至预设匹配网络进行匹配，得到音频信号中的每个声音事件的类别以及与所述类别匹配的声源方位。本申请准确且快速的实现声音事件的检测和定位。

Description

声音事件检测与定位方法、装置、设备及可读存储介质

技术领域

本申请涉及语音处理技术领域，尤其涉及一种声音事件检测与定位方法、装置、设备及可读存储介质。

背景技术

现有的多重声音事件检测、分类和定位系统，即可检测一段时间内的声音信号，识别其中包含的不同声音事件的分类，并判断每一个声音事件发生的方位。该系统在机器人交互、自动驾驶和野外搜救等场景有着广泛的应用。但是目前的声音事件定位检测系统(sound event localization and detection，SELD)通常由两个独立的模块构成，即声音事件检测(sound event detection，SED)和方向检测(direction-of-arrivalestimation，DOAE)。目前深度学习已被广泛应用于SED模块，而DOAE模块多采用传统的基于麦克风阵列的信号处理算法，由于方向检测和事件检测被分开执行，该系统无法将SED和DOAE学习到的内容相结合，特别是在针对多个声音源的事件检测和定位的任务中，无法进一步提高系统的准确率。

发明内容

本申请的主要目的在于提供一种声音事件检测与定位方法、装置、设备及可读存储介质，旨在准确的实现声音事件的检测和定位。

第一方面，本申请提供一种声音事件检测与定位方法，应用于电子设备，所述电子设备包括麦克风阵列，所述麦克风阵列包括多个麦克风单元，所述方法包括：

获取所述麦克风阵列采集到的多个音频信号；

确定所述多个音频信号中的每两个所述音频信号之间的互相关函数矩阵；

将每个所述互相关函数矩阵输入至预设声音事件分类模型，得到声音事件的类别矩阵，所述预设声音事件分类模型为预先训练好的的神经网络模型；

对每个所述音频信号进行傅里叶变换，得到每个所述音频信号的频谱图，并根据每个所述音频信号的频谱数据，确定声音事件的声源方位矩阵；

将所述类别矩阵和所述声源方位矩阵输入至预设匹配网络进行匹配，得到所述音频信号中的每个声音事件的类别以及与所述类别匹配的声源方位。

第二方面，本申请还提供一种声音事件检测与定位装置，应用于电子设备，所述电子设备包括麦克风阵列，所述麦克风阵列包括多个麦克风单元，所述声音事件检测与定位装置包括获取模块、确定模块、生成模块、匹配模块，其中：

所述获取模块，用于获取所述麦克风阵列采集到的多个音频信号；

所述确定模块，用于确定所述多个音频信号中的每两个所述音频信号之间的互相关函数矩阵；

所述生成模块，用于将每个所述互相关函数矩阵输入至预设声音事件分类模型，得到声音事件的类别矩阵；

所述确定模块，还用于对每个所述音频信号进行傅里叶变换，得到每个所述音频信号的频谱图，并根据每个所述音频信号的频谱数据，确定声音事件的声源方位矩阵；

所述匹配模块，用于将所述类别矩阵和所述声源方位矩阵输入至预设匹配网络进行匹配，得到所述音频信号中的每个声音事件的类别以及与所述类别匹配的声源方位。

第三方面，本申请还提供一种电子设备，所述电子设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如上述的声音事件检测与定位方法的步骤。

第四方面，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如上述的声音事件检测与定位方法的步骤。

本申请提供一种声音事件检测与定位方法、装置、设备及可读存储介质，本申请通过获取麦克风阵列采集到的多个音频信号，并确定多个音频信号中的每两个音频信号之间的互相关函数矩阵；然后将每个互相关函数矩阵输入至预设声音事件分类模型，得到声音事件的类别矩阵；之后对每个音频信号进行傅里叶变换，得到每个音频信号的频谱图，并根据每个音频信号的频谱数据，确定声音事件的声源方位矩阵；最后将类别矩阵和声源方位矩阵输入至预设匹配网络进行匹配，得到音频信号中的每个声音事件的类别以及与类别匹配的声源方位。通过对音频信号的声音事件类别矩阵和声源方位矩阵进行匹配，可以准确的确定每个声音事件的匹配的声源方位，极大地提高了声音事件检测和定位的准确性。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种声音事件检测与定位方法的步骤流程示意图；

图2为图1中的声音事件检测与定位方法的子步骤流程示意图；

图3为本申请实施例提供的平滑处理的一场景示意图；

图4为本申请实施例提供的一种声音事件检测与定位装置的示意性框图；

图5为图4中的声音事件检测与定位装置的子模块的示意性框图；

图6为本申请实施例提供的一种电子设备的结构示意性框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本申请实施例提供一种声音事件检测与定位方法、装置、设备及可读存储介质。其中，该声音事件检测与定位方法可应用于电子设备中，该电子设备可以是手机、平板电脑、笔记本电脑、台式电脑、个人数字助理、智能音箱、微型计算机和穿戴式设备等。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参照图1，图1为本申请实施例提供的一种声音事件检测与定位方法的步骤流程示意图。

如图1所示，该声音事件检测与定位方法包括步骤S101至步骤S105。

步骤S101、获取所述麦克风阵列采集到的多个音频信号。

其中，音频信号是包括电子设备所处环境内所有声音的声波的频率和幅度变化信息，该声音包括说话声、歌声、汽车喇叭声和动物叫声等等。该麦克风阵列包括多个麦克风单元，相邻麦克风单元间隔预设距离，多个音频信号包括麦克风阵列中的每个麦克风单元采集到的音频信号。

可以理解的是，麦克风阵列包括的麦克风单元的数量、排列方式和预设距离可以根据实际情况进行确定，例如，麦克风阵列包括5个麦克风单元，，5个麦克风单元排成一行或列、或5个麦克风单元排成一个矩形或者，相邻麦克风单元间隔5厘米。

步骤S102、确定所述多个音频信号中的每两个所述音频信号之间的互相关函数矩阵。

在一实施例中，对每个音频信号进行分帧处理，得到每个音频信号各自对应的多个音频帧；确定一个音频信号的每个音频帧与另一个音频信号的对应音频帧之间的互相关函数；根据一个音频信号的每个音频帧与另一个音频信号的对应音频帧之间的互相关函数，确定每两个音频信号之间的互相关函数矩阵。其中，所述互相关函数包括广义互相关函数。

在一实施例中，对每个音频信号进行分帧处理，得到每个音频信号各自对应的多个音频帧的方式为：通过预设时间窗对该音频信号进行分帧处理，得到每个音频信号各自对应的多个音频帧。其中，该预设时间窗可以根据实际进行设置，本申请实施例对此不做具体限定，例如，该时间窗可以设置为15秒。通过预设时间窗对音频信号进行分帧，以方便后续对音频信号的处理，以提高运算的准确性。

在一实施例中，确定一个音频信号的每个音频帧与另一个音频信号的对应音频帧之间的互相关函数的方式可以为：对每个音频信号各自对应的多个音频帧进行傅里叶变换，得到每个音频信号各自对应的每个音频帧的傅里叶系数。获取互相关函数计算公式，其中，该互相关函数计算公式为：

其中，G_ij(t,τ)为互相关函数，F^-1为反傅里叶变换，X_i(f,t)为第i个麦克风的傅里叶变换系数，*是取共轭的标志。基于该互相关函数计算公式，并根据每个麦克风的音频帧变换系数，确定音频信号的每个音频帧与另一个音频信号的对应音频帧之间的互相关函数。

在一实施例中，确定两个音频信号之间的互相关函数矩阵的方式可以为：将一个音频信号的每个音频帧与另一个音频信号的对应音频帧之间的互相关函数组成对应的互相关函数矩阵。例如，音频信号A的多个音频帧分别为音频帧a1、音频帧a2、音频帧a3、音频帧a4和音频帧a5，音频信号B的多个音频帧分别为音频帧b1、音频帧b2、音频帧b3、音频帧b4和音频帧b5，且音频帧a1与音频帧b1之间的互相关函数为C1，音频帧a2与音频帧b2之间的互相关函数为C2，音频帧a3与音频帧b3之间的互相关函数为C3、音频帧a4与音频帧b4之间的互相关函数为C4，音频帧a5与音频帧b5之间的互相关函数为C5，则音频信号A与音频信号B之间的互相关函数矩阵可以为[C1，C2，C3，C4，C5]。

步骤S103、将每个所述互相关函数矩阵输入至预设声音事件分类模型，得到声音事件的类别矩阵，所述预设声音事件分类模型为预先训练好的的神经网络模型。

其中，该预设声音事件分类模型为预先训练好的的神经网络模型，该神经网络的选择可以根据实际情况进行选择，例如，该神经网络可以为卷积神经网络模型、循环神经网络模型和循环卷积神经网络模型，当然也可以是其他网络训练模型，本申请对此不做具体限定。

需要说明的是，预设声音事件分类模型的训练方式可以为：获取互相关函数矩阵，根据互相关函数矩阵对应的类别对该互相关函数矩阵进行标注，以构成样本数据，基于该样本数据对该神经网络进行迭代训练，直到神经网络模型收敛，从而得到声音事件分类模型。

在一实施例中，将每个互相关函数矩阵输入至预设声音事件分类模型，得到声音事件的类别矩阵。其中，该声音事件的类别可以根据实际情况确定，本申请对此不做具体限定，例如，该声音事件的类别为说话声或汽车喇叭声。通过该预设声音事件分类模型对该互相关函数矩阵进行分类，可以准确且快速的得到声音事件的类别矩阵。

步骤S104、对每个所述音频信号进行傅里叶变换，得到每个所述音频信号的频谱图，并根据每个所述音频信号的频谱数据，确定声音事件的声源方位矩阵。

对每个音频信号进行傅里叶变换，得到每个音频信号的频谱图，并根据每个音频信号的频谱数据，确定声音事件的声源方位矩阵。

在一实施例中，如图2所示，步骤S104包括子步骤S1041至子步骤S1044。

子步骤S1041、根据每个所述音频信号的频谱数据确定第一频谱协方差矩阵。

示例性的，对每个音频信号的频谱数据进行噪声频点去除和回音频点去除，得到每个音频信号的目标频谱数据；根据每个音频信号的目标频谱数据，确定第一频谱协方差矩阵。

在一实施例中，对每个音频信号的频谱数据进行噪声频点去除和回音频点去除，得到每个音频信号的目标频谱数据的方式包括：将每个音频信号的频谱数据中的频谱能量小于预设频谱能量的噪声频点剔除，得到每个音频信号的第一频谱数据；根据麦克风阵列在上一时刻采集到的音频信号的第二频谱数据，确定回音频点的频谱能量阈值；将每个音频信号的第一频谱数据中的频谱能量小于频谱能量阈值的回音频点剔除，得到每个音频信号的目标频谱数据。通过对每个音频信号的频谱数据进行噪声频点去除和回音频点去除，使得后续得到声源方位矩阵更加准确。

在一实施例中，该预设频谱能量的确定方式可以为：获取预设频谱能量公式，该预设频谱能量公式为A(t)＝α×A(t-1)，A为预设频谱能量，t为时间窗，α为更新参数，其中，该更新参数α根据实际情况进行确定，例如，噪声的时间段内α<1，在信号时间段内α>1，基于该预设频谱能量公式，并根据上一时间窗和更新参数，得到预设频谱能量。

子步骤S1042、获取第二频谱协方差矩阵，其中，所述第二频谱协方差矩阵是基于所述麦克风阵列在上一时刻采集到的音频信号的频谱数据确定的。

其中，第二频谱协方差矩阵是基于麦克风阵列在上一时刻采集到的音频信号的频谱数据确定的，第二频谱协方差矩阵也可以是基于麦克风阵列在上一时刻采集到的音频信号的目标频谱数据确定的。

示例性的，获取第二频谱协方差矩阵公式，该第二频谱协方差矩阵公式为：

该

为第二频谱协方差矩阵，该C为时间窗个数，X(t,f)为傅里叶变换系数，X^H(t,f)为傅里叶变换系数转置。基于该第二频谱协方差矩阵公式，根据时间窗个数、傅里叶变换系数和傅里叶变换系数矩阵，得到第二频谱协方差矩阵。

子步骤S1043、根据所述第一频谱协方差矩阵和所述第二频谱协方差矩阵，确定导向矢量矩阵。

根据第一频谱协方差矩阵和第二频谱协方差矩阵，每个麦克风单元的导向矢量；基于每个麦克风单元的导向矢量，生成每个声音事件的导向矢量矩阵，其中，麦克风单元在不同声音事件下的导向矢量不同。

具体地，联立第一频谱协方差矩阵公式和第二频谱协方差矩阵公式，基于每个第一频谱协方差矩阵和第二频谱协方差矩阵，得到每个麦克风单元的导向矢量，将相同事件的导向矢量整合，生成每个声音事件的导向矢量矩阵。

其中，该第一频谱协方差矩阵公式为：

该R(t,f)为第一频谱协方差矩阵，

为频点的能量值，h(f,θ_i)导向矢量，h(f,θ_i)^H为导向矢量的转置，f为当前频率，t为时间窗，i为第i个麦克风。

需要说明的是，可以将上述第一频谱协方差矩阵公式简化为以下公式：

通过简化的第一频谱协方差矩阵公式，可以减少计算的运行量，减少了误差。

其中，该第二频谱协方差矩阵公式，该第二频谱协方差矩阵公式为：

该

子步骤S1044、根据生成的每个所述导向矢量矩阵，确定每个声音事件的声源方位，并根据每个声音事件的声源方位，确定所述声源方位矩阵。

具体地，计算每个麦克风单元的导向矢量的特征向量值。获取第一计算角度公式和第二角度计算公式，其中，第一角度计算公式为：

其中，θ为方位角度，f为当前频率，F为采用频率，d为两个麦克风之间的距离，c为光速，t为时间窗，i为元素位置序号，

为特征向量，<为取特征向量相位；第二角度计算公式为：

为特征向量，<为取特征向量相位，基于第一计算角度公式和第二角度计算公式，并根据特征向量的相位，确定该麦克风的导向矢量，根据基于每个麦克风单元的导向矢量，生成每个声音事件的声源方位矩阵。

步骤S105、将所述类别矩阵和所述声源方位矩阵输入至预设匹配网络进行匹配，得到所述音频信号中的每个声音事件的类别以及与所述类别匹配的声源方位。

其中，该预设匹配网络为预先训练好的神经网络模型，该神经网络的选择可以根据实际情况进行选择，例如，该神经网络可以为双向长短时记忆网络、卷积神经网络模型、循环神经网络模型和循环卷积神经网络模型，当然也可以是其他网络训练模型，本申请对此不做具体限定。

需要说明的是，该预设匹配网络的训练方式可以为：获取类别矩阵和声源方位矩阵，对该类别矩阵和声源方位矩阵进行标注，以构建样本数据，基于该样本数据对该神经网络进行迭代训练，直到神经网络模型收敛，从而得到该预设匹配网络。

在一实施例中，对类别矩阵和声源方位矩阵进行平滑处理；并将经平滑处理后的所述类别矩阵和所述声源方位矩阵输入至预设匹配网络进行匹配，得到音频信号中的每个声音事件的类别以及与类别匹配的声源方位。其中，预设匹配网络为预先训练好的双向长短时记忆网络。将经平滑处理后的所述类别矩阵和所述声源方位矩阵输入至预设匹配网络进行匹配，得到音频信号中的每个声音事件的类别以及与类别匹配的声源方位，准确的实现声音事件的检测和定位。

在一实施例中，对类别矩阵和声源方位矩阵进行平滑处理的方式可以为：将类别矩阵和声源方位矩阵中在时间维度上的毛刺去除，以得到平滑后的类别矩阵和声源方位矩阵。示例性的，如图3所示，幅度曲线A为平滑处理前的类别矩阵或声源方位矩阵，该幅度曲线A包括毛刺B和毛刺C，将时间维度中维度发生变化幅度小于预设时间长度的幅度的毛刺B和毛刺C去除，得到平滑后的幅度曲线B。

上述实施例提供的声音事件检测与定位方法，通过获取麦克风阵列采集到的多个音频信号，并确定多个音频信号中的每两个音频信号之间的互相关函数矩阵；然后将每个互相关函数矩阵输入至预设声音事件分类模型，得到声音事件的类别矩阵；之后对每个音频信号进行傅里叶变换，得到每个音频信号的频谱图，并根据每个音频信号的频谱数据，确定声音事件的声源方位矩阵；最后将类别矩阵和声源方位矩阵输入至预设匹配网络进行匹配，得到音频信号中的每个声音事件的类别以及与类别匹配的声源方位。通过对音频信号的声音事件类别矩阵和声源方位矩阵进行匹配，可以准确的确定每个声音事件的匹配的声源方位，极大地提高了声音事件检测和定位的准确性。

请参阅图4，如图4为本申请实施例提供的一种声音事件检测与定位装置的示意性框图。

如图4所示，声音事件检测与定位装置200包括获取模块210、确定模块220、生成模块230、匹配模块240，其中：

所述获取模块210，用于获取所述麦克风阵列采集到的多个音频信号；

所述确定模块220，用于确定所述多个音频信号中的每两个所述音频信号之间的互相关函数矩阵；

所述生成模块230，用于将每个所述互相关函数矩阵输入至预设声音事件分类模型，得到声音事件的类别矩阵；

所述确定模块220，还用于对每个所述音频信号进行傅里叶变换，得到每个所述音频信号的频谱图，并根据每个所述音频信号的频谱数据，确定声音事件的声源方位矩阵；

所述匹配模块240，用于将所述类别矩阵和所述声源方位矩阵输入至预设匹配网络进行匹配，得到所述音频信号中的每个声音事件的类别以及与所述类别匹配的声源方位。

在一实施例中，所示确定模块220，还用于：

对每个所述音频信号进行分帧处理，得到每个所述音频信号各自对应的多个音频帧；

确定一个所述音频信号的每个所述音频帧与另一个所述音频信号的对应音频帧之间的互相关函数；

根据一个所述音频信号的每个所述音频帧与另一个所述音频信号的对应音频帧之间的互相关函数，确定每两个所述音频信号之间的互相关函数矩阵。

在一实施例中，如图5所示，所述确定模块220还包括：

第一确定子模块221，用于根据每个所述音频信号的频谱数据确定第一频谱协方差矩阵；

第一获取子模块222，用于获取第二频谱协方差矩阵，其中，所述第二频谱协方差矩阵是基于所述麦克风阵列在上一时刻采集到的音频信号的频谱数据确定的；

第二确定子模块223，用于根据所述第一频谱协方差矩阵和所述第二频谱协方差矩阵，确定导向矢量矩阵；

第三确定子模块224，用于根据生成的每个所述导向矢量矩阵，确定每个声音事件的声源方位，并根据每个声音事件的声源方位，确定所述声源方位矩阵。

在一实施例中，所述第一确定子模块221，还用于：

对每个所述音频信号的频谱数据进行噪声频点去除和回音频点去除，得到每个所述音频信号的目标频谱数据；

根据每个所述音频信号的目标频谱数据，确定第一频谱协方差矩阵。

在一实施例中，所述第一确定子模块221，还用于：

将每个所述音频信号的频谱数据中的频谱能量小于预设频谱能量的噪声频点剔除，得到每个所述音频信号的第一频谱数据；

根据所述麦克风阵列在上一时刻采集到的音频信号的第二频谱数据，确定回音频点的频谱能量阈值；

将每个所述音频信号的第一频谱数据中的频谱能量小于所述频谱能量阈值的回音频点剔除，得到每个所述音频信号的目标频谱数据。

在一实施例中，所述第二确定子模块223，还用于：

根据所述第一频谱协方差矩阵和所述第二频谱协方差矩阵，每个所述麦克风单元的导向矢量；

基于每个所述麦克风单元的导向矢量，生成每个声音事件的导向矢量矩阵，其中，所述麦克风单元在不同声音事件下的导向矢量不同。

在一实施例中，所述匹配模块223，还用于：

对所述类别矩阵和所述声源方位矩阵进行平滑处理；

将经平滑处理后的所述类别矩阵和所述声源方位矩阵输入至预设匹配网络进行匹配，其中，所述预设匹配网络为预先训练好的双向长短时记忆网络。

请参阅图6，图6为本申请实施例提供的一种电子设备的结构示意性框图。

如图6所示，该电子设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种声音事件检测与定位方法。

处理器用于提供计算和控制能力，支撑整个电子设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种声音事件检测与定位方法。

该网络接口用于通信。本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，该总线比如为I2C(Inter-integrated Circuit)总线，存储器可以是Flash芯片、只读存储器(ROM，Read-Only Memory)磁盘、光盘、U盘或移动硬盘等，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

获取所述麦克风阵列采集到的多个音频信号；

在一个实施例中，所述处理器在实现所述确定所述多个音频信号中的每两个所述音频信号之间的互相关函数矩阵时，用于实现：

在一个实施例中，所述处理器在实现所述根据每个所述音频信号的频谱数据，确定声音事件的声源方位矩阵时，用于实现：

根据每个所述音频信号的频谱数据确定第一频谱协方差矩阵；

获取第二频谱协方差矩阵，其中，所述第二频谱协方差矩阵是基于所述麦克风阵列在上一时刻采集到的音频信号的频谱数据确定的；

根据所述第一频谱协方差矩阵和所述第二频谱协方差矩阵，确定导向矢量矩阵；

根据生成的每个所述导向矢量矩阵，确定每个声音事件的声源方位，并根据每个声音事件的声源方位，确定所述声源方位矩阵。

在一个实施例中，所述处理器在实现所述根据每个所述音频信号的频谱数据确定第一频谱协方差矩阵时，用于实现：

在一个实施例中，所述处理器在实现对每个所述音频信号的频谱数据进行噪声频点去除和回音频点去除，得到每个所述音频信号的目标频谱数据时，用于实现：

在一个实施例中，所述处理器在实现所述根据所述第一频谱协方差矩阵和所述第二频谱协方差矩阵，确定导向矢量矩阵时，用于实现：

在一个实施例中，所述处理器在实现所述预设匹配网络为预先训练好的双向长短时记忆网络，所述将所述类别矩阵和所述声源方位矩阵输入至预设匹配网络进行匹配时，用于实现：

对所述类别矩阵和所述声源方位矩阵进行平滑处理；

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述电子设备的具体工作过程，可以参考前述声音事件检测与定位控制方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序中包括程序指令，所述程序指令被执行时所实现的方法可参照本申请声音事件检测与定位方法的各个实施例。

其中，所述计算机可读存储介质可以是前述实施例所述的电子设备的内部存储单元，例如所述电子设备的硬盘或内存。所述计算机可读存储介质也可以是所述电子设备的外部存储设备，例如所述电子设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种声音事件检测与定位方法，其特征在于，应用于电子设备，所述电子设备包括麦克风阵列，所述麦克风阵列包括多个麦克风单元，所述方法包括：

获取所述麦克风阵列采集到的多个音频信号；

2.根据权利要求1所述的声音事件检测与定位方法，其特征在于，所述确定所述多个音频信号中的每两个所述音频信号之间的互相关函数矩阵，包括：

3.根据权利要求1所述的声音事件检测与定位方法，其特征在于，所述根据每个所述音频信号的频谱数据，确定声音事件的声源方位矩阵，包括：

4.根据权利要求3所述的声音事件检测与定位方法，其特征在于，所述根据每个所述音频信号的频谱数据确定第一频谱协方差矩阵，包括：

5.根据权利要求4所述的声音事件检测与定位方法，其特征在于，对每个所述音频信号的频谱数据进行噪声频点去除和回音频点去除，得到每个所述音频信号的目标频谱数据，包括：

6.根据权利要求3所述的声音事件检测与定位方法，其特征在于，所述根据所述第一频谱协方差矩阵和所述第二频谱协方差矩阵，确定导向矢量矩阵，包括：

7.根据权利要求1-6中任一项所述的声音事件检测与定位方法，其特征在于，所述预设匹配网络为预先训练好的双向长短时记忆网络，所述将所述类别矩阵和所述声源方位矩阵输入至预设匹配网络进行匹配，包括：

对所述类别矩阵和所述声源方位矩阵进行平滑处理；

8.一种声音事件检测与定位装置，其特征在于，应用于电子设备，所述电子设备包括麦克风阵列，所述麦克风阵列包括多个麦克风单元，所述声音事件检测与定位装置包括获取模块、确定模块、生成模块、匹配模块，其中：

9.一种电子设备，其特征在于，所述电子设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如权利要求1至7中任一项所述的声音事件检测与定位方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如权利要求1至7中任一项所述的声音事件检测与定位方法的步骤。