CN113362850B

CN113362850B - 音频信号采集设备的检测方法、设备和存储介质

Info

Publication number: CN113362850B
Application number: CN202010140336.3A
Authority: CN
Inventors: 陈扬坤
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2020-03-03
Filing date: 2020-03-03
Publication date: 2024-05-28
Anticipated expiration: 2040-03-03
Also published as: CN113362850A

Abstract

本申请提供一种音频信号采集设备的检测方法、设备和存储介质。该方法包括：获取所述音频信号采集设备采集的至少一路音频信号；分别提取各路所述音频信号的幅值特征；根据各路所述音频信号的幅值特征，利用预先训练得到的机器学习模型，确定所述音频信号采集设备是否异常。本申请实施例提高了检测结果的准确性。

Description

音频信号采集设备的检测方法、设备和存储介质

技术领域

本申请涉及音频处理技术领域，尤其涉及一种音频信号采集设备的检测方法、设备和存储介质。

背景技术

在安防监控领域，通常利用麦克风等音频信号采集设备采集音频信号。在使用过程中，特别是在室外使用场景下，由于室外的风雨、电磁干扰以及其他因素的影响，导致采集设备的某些麦克风不能正常采集声音信号，从而致使监控系统运行过程中，性能下降。如若通过人工来检测，不仅费时费力，而且很难检测准确。

相关技术中，通过对每一路采集到声音信号提取特征，并计算各路声音信号的特征差异，并把得到的差异值与预先设定的阈值相比较，如果某路信号的特征与其他路声音信号的特征的差值达到阈值，则认为该路声音信号异常。该方法是应用在手机的音频检测上，通常手机离用户的距离比较近，检测环境相对较好，若应用在监控系统中检测环境较差，得到的检测结果可能不准确。

发明内容

本申请提供一种音频信号采集设备的检测方法、设备和存储介质，以提高检测准确性。

第一方面，本申请提供一种音频信号采集设备的检测方法，包括：

获取所述音频信号采集设备采集的至少一路音频信号；

分别提取各路所述音频信号的幅值特征；

根据各路所述音频信号的幅值特征，利用预先训练得到的机器学习模型，确定所述音频信号采集设备是否异常。

第二方面，本申请提供一种音频信号采集设备的检测装置，包括：

获取模块，用于获取所述音频信号采集设备采集的至少一路音频信号；

特征提取模块，用于分别提取各路所述音频信号的幅值特征；

处理模块，用于根据各路所述音频信号的幅值特征，利用预先训练得到的机器学习模型，确定所述音频信号采集设备是否异常。

第三方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面中任一项所述的方法。

第四方面，本申请实施例提供一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行第一方面中任一项所述的方法。

本申请实施例提供的音频信号采集设备的检测方法、设备和存储介质，获取所述音频信号采集设备采集的至少一路音频信号；分别提取各路所述音频信号的幅值特征；根据各路所述音频信号的幅值特征，利用预先训练得到的机器学习模型，确定所述音频信号采集设备是否异常，机器学习模型是通过大量音频信号提取的幅值特征训练得到的，通过提取当前音频信号采集设备采集音频信号的幅值特征，进而利用训练得到的机器学习模型，得到的音频信号采集设备是否异常的结果准确性较高。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是本申请提供的音频信号采集设备的检测方法一实施例的流程示意图；

图2是本申请提供的方法一实施例的特征提取原理示意图；

图3是本申请提供的方法另一实施例的特征提取原理示意图；

图4是本申请提供的方法另一实施例的原理示意图；

图5是本申请提供的方法另一实施例的流程示意图；

图6是本申请提供的音频信号采集设备的检测装置一实施例的结构示意图；

图7是本申请提供的网络摄像机实施例的结构示意图

图8是本申请提供的电子设备实施例的结构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本申请的说明书和权利要求书及所述附图中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先对本申请所涉及的应用场景进行介绍：

本申请实施例提供的检测方法，应用于音/视频监控系统中，音频信号采集设备可以是连接在网络摄像机等监控设备上，音频信号采集设备例如为麦克风阵列，麦克风阵列包括至少两个麦克风。本申请实施例的方法同样也可以适用于一个麦克风，或一个或多个拾音器的情况。

本申请提供的方法可由网络摄像机如处理器执行相应的软件代码实现，也可由该网络摄像机在执行相应的软件代码的同时，通过和其他设备进行数据交互来实现，如其他设备执行部分操作，来控制网络摄像机执行该方法。

本申请提供的方法也可以由其他电子设备实现，例如与网络摄像机通信的设备，获取直接与音频信号采集设备采集的音频信号，进而通过分析音频信号，确定音频信号采集设备是否异常，例如因电磁干扰、接头虚接、断开等硬件问题引起的音频信号质量异常。

下面的实施例以网络摄像机为执行主体进行说明。

下面以具体的实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1是本申请提供的方法一实施例的流程示意图。如图1所示，本实施例提供的方法，包括：

步骤101、获取音频信号采集设备采集的至少一路音频信号。

在一实施例中，以麦克风阵列为例进行说明，假设麦克风阵列采集了M路音频信号，M为大于1的整数。

步骤102、分别提取各路音频信号的幅值特征。

对于采集的时域的音频信号，可以将其转换为频域信号，进而提取幅值特征，在转换之前可以将音频信号进行采样处理。

在一实施例中，步骤102可以通过如下方式实现：

将各路音频信号分别进行采样处理，得到各路音频信号的N1帧时域子帧信号；N1为大于0的整数；

将各路音频信号对的N1帧时域子帧信号，分别进行频域变换处理，得到各路音频信号的N1帧频域子帧信号；

根据各路音频信号的N1帧频域子帧信号的幅度谱，提取各路音频信号的幅值特征。

具体的，对于每一路音频信号进行采样得到N1帧时域子帧信号，对于每一路音频信号的N1帧时域子帧信号进行频域变换处理，例如傅里叶变换，得到每一路音频信号的N1帧频域子帧信号；进而，计算每一路音频信号的N1帧频域子帧信号的幅度谱，根据每一路音频信号的N1帧频域子帧信号的幅度谱，提取各路音频信号的幅值特征。其中，某一路音频信号的幅度谱可以表示为S_i(k)，其中，S_i(k)表示第i帧第k个频率点对应的幅值，i＝1,2,…,N1，k＝1,2,…,K1。例如将N1帧频域子帧信号的各个频率点对应的幅值，作为该路音频信号的幅值特征。

步骤103、根据各路音频信号的幅值特征，利用预先训练得到的机器学习模型，确定音频信号采集设备是否异常。

在一实施例中，可以预先训练机器学习模型，例如通过深度学习算法建立机器学习模型，采集训练数据，通过大量的训练数据训练该机器学习模型。

采集训练数据，例如采集某些麦克风阵列的音频信号，并提取该些音频信号的幅值特征，并提前获取到麦克风阵列的状态，例如为正常状态还是异常状态，将该些音频信号的幅值特征以及对应的设备的状态，输入到机器学习模型中进行训练，得到训练后的机器学习模型。其中，机器学习模型例如可以通过深度神经网络(Deep Neural Networks，简称DNN)、卷积神经网络(Convolutional Neural Networks，简称CNN)、循环神经网络(Recurrent Neural Networks，简称RNN)等网络模型建立。

在实际应用中，将采集的音频信号的幅值特征，输入到训练得到的机器学习模型中，根据机器学习模型的输出结果，确定音频信号采集设备是否异常。例如输出结果为1或0，1表示正常，0表示异常。

本实施例的方法，获取所述音频信号采集设备采集的至少一路音频信号；分别提取各路所述音频信号的幅值特征；根据各路所述音频信号的幅值特征，利用预先训练得到的机器学习模型，确定所述音频信号采集设备是否异常，机器学习模型是通过大量音频信号提取的幅值特征训练得到的，通过提取当前音频信号采集设备采集音频信号的幅值特征，进而利用训练得到的机器学习模型，得到的音频信号采集设备是否异常的结果准确性较高。

在上述实施例的基础上，可选的，提取幅值特征还可以通过如下方式实现：

对于任一路音频信号，将各帧频域子帧信号的K1个频率点的幅值进行二值化处理，得到音频信号的幅值特征；K1为大于0的整数。

分别计算各路音频信号S_i(k)的幅度谱均值Ave__s，然后对各个频率点的幅值进行二值化处理。

幅度谱均值Ave__s例如为

在一实施例中，对于任一个频率点，若频率点的幅值大于音频信号的幅度谱均值，则将该频率点的幅值设为第一数值；

若频率点的幅值小于或等于幅度谱均值，则将该频率点的幅值设为第二数值；

将二值化处理后的各个频率点的幅值，作为音频信号的幅值特征。

例如二值化处理如下：

在其他实施例中，第一数值和第二数值还可以是其他数值，本申请实施例对此并不限定，例如第一数值为1，第二数值为0。

在一实施例中，可以将各路音频信号的幅值特征进行拼接得到最终的幅值特征。

在其他实施例中，还可以将各路音频信号的幅值特征进行转换处理，例如转换为一维特征。

例如，将第m路的音频信号的幅度谱表示为如图2所示，即K1×N1维的向量特征，二值化处理之后将其转换为一维向量特征，如图3所示，将每一行进行拼接得到一维向量特征。在其他实施例中还可以将每一列进行拼接。最后得到的M路音频信号的幅值特征为M×K1×N1维的特征。

在一实施例中，还可以将每一路音频信号的能量值加入幅值特征中，例如得到M×(K1+1)×N1维的特征。

进而将提取的幅值特征送入机器学习模型，通过该机器学习模型判断当前的音频信号采集设备是否异常。

在本申请的一实施例中，如图5所示，为了减少检测的计算量，减小实现复杂度，提高检测效率，在步骤102之前，可以进行如下操作：

将至少两路音频信号中能量最大的一路音频信号，进行频域变换处理，得到变换后的音频信号；

根据变换后的音频信号的幅度谱，确定变换后的音频信号的谱峰是否稳定；

若变换后的音频信号的谱峰稳定，则确定音频信号采集设备异常；

若变换后的音频信号的谱峰不稳定，则执行分别提取各路音频信号的特征的操作。

在一实施例中，比较M路音频信号，从M路音频信号中选择出音频能量最大的音频信号。麦克风在生产时存在性能差异，而且在使用过程中有些麦克风可能已经异常。因此，可以通过计算M路麦克风的音频能量，从中挑选出能量最大的音频信号，若该路音频信号的能量值小于预设能量阈值，则直接判断为麦克风异常。

当能量值大于预设能量阈值时，就不能从能量上对音频信号进行异常判断则需要进一步对该路音频信号进行频域变换处理，根据该路音频信号的幅度谱，确定该路音频信号的谱峰是否稳定；若该路音频信号的谱峰稳定，则确定音频信号采集设备异常；若该路音频信号的谱峰不稳定，则通过步骤102-步骤103的方式确定是否异常。

上述具体实施方式中，由于利用了正常的音频信号频域数据中的谱峰频率不稳定的特点，在检测到频域子帧信号的谱峰频率稳定时，则可以确定音频信号采集设备异常。

在一实施例中，如图4所示，对麦克风阵列采集的M路音频信号进行AD采样，例如得到N1帧时域子帧信号，然后经过比较模块比较M路音频信号的能量，将能量最大的一路音频信号通过声音有效判断模块进行判断，若该路音频信号的能量值小于预设能量阈值，则确定无效，直接输出异常结果，或者还可以进行报警。

若该路音频信号的能量值大于或等于预设能量阈值，则进一步确定该音频信号的谱峰是否稳定，若稳定，则直接确定信号无效，输出异常结果，或者还可以进行报警。

若不稳定，则触发多路异常检测，即通过步骤102-步骤103的方案执行，即通过特征提取模块提取幅值特征，进而输入模块判断模块，通过机器学习模块确定是否异常。

通过谱峰稳定性确定是否异常，具体可以通过如下方式实现：

通过傅里叶FFT变换，将时域子帧信号变换到频域，确定每一帧频域子帧信号的幅度谱，进而确定谱峰是否稳定，即确定频域子帧信号的谱峰的波动的大小。

在一实施例中，对于N1帧频域子帧信号中任一帧频域子帧信号，获取任一帧频域子帧信号的K2个频率点的幅值；

将K2个频率点中幅值最大的频率点的频率，作为任一帧频域子帧信号的谱峰频率；

根据N1帧频域子帧信号中任一帧频域子帧信号的谱峰频率，确定N1帧频域子帧信号的谱峰是否稳定。

具体的，寻找每一帧频域子帧信号的幅度谱中能量最大值的位置(即幅值最大的频率)，记为index(i)，表示为第i帧频域子帧信号的谱峰的位置(即谱峰频率)。

在一实施例中，可以通过计算稳定参数值，确定谱峰是否稳定，具体采用如下方式：

根据N1帧频域子帧信号中相邻两帧频域子帧信号的谱峰频率的差值，确定稳定性参数值；

若稳定性参数值小于预设阈值，则确定N1帧频域子帧信号的谱峰稳定。

具体的，可以通过如下公式，确定稳定性参数值T_Dif：

当T_Dif小于预设阈值TH1，则认为谱峰稳定，即设备异常，可以输出报警，否则启动更为复杂的多路检测，即通过机器学习模型进行检测。

本实施例中，为了实现更为简单，可以首先选择能量最大的一路音频信号，对采集设备当前是否异常的状态进行判断，算法复杂度较低，而且效率更高，若通过一路音频信号无法确定，则通过多路音频信号采用机器学习模型确定是否异常，检测的准确性较高。

图6为本申请提供的音频信号采集设备的检测装置一实施例的结构图，如图6所示，本实施例的音频信号采集设备的检测装置，包括：

获取模块601，用于获取所述音频信号采集设备采集的至少一路音频信号；

特征提取模块602，用于分别提取各路所述音频信号的幅值特征；

处理模块603，用于根据各路所述音频信号的幅值特征，利用预先训练得到的机器学习模型，确定所述音频信号采集设备是否异常。

在一种可能的实现方式中，特征提取模块602，用于：

将各路所述音频信号分别进行采样处理，得到各路所述音频信号的N1帧时域子帧信号；N1为大于0的整数；

将各路所述音频信号对的N1帧时域子帧信号，分别进行频域变换处理，得到各路所述音频信号的N1帧频域子帧信号；

根据各路所述音频信号的N1帧频域子帧信号的幅度谱，提取各路所述音频信号的幅值特征。

在一种可能的实现方式中，特征提取模块602，用于：

对于任一路所述音频信号，将各帧所述频域子帧信号的K1个频率点的幅值进行二值化处理，得到所述音频信号的幅值特征；K1为大于0的整数。

在一种可能的实现方式中，特征提取模块602，用于：

对于任一个所述频率点，若所述频率点的幅值大于所述音频信号的幅度谱均值，则将所述频率点的幅值设为第一数值；

若所述频率点的幅值小于或等于所述幅度谱均值，则将所述频率点的幅值设为第二数值；

将二值化处理后的各个所述频率点的幅值，作为所述音频信号的幅值特征。

在一种可能的实现方式中，若所述至少一路音频信号的数量为至少两路，处理模块603，还用于：

将至少两路所述音频信号中能量最大的一路音频信号，进行频域变换处理，得到变换后的音频信号；

根据所述变换后的音频信号的幅度谱，确定所述变换后的音频信号的谱峰是否稳定；

若所述变换后的音频信号的谱峰稳定，则确定所述音频信号采集设备异常；

若所述变换后的音频信号的谱峰不稳定，则执行分别提取各路所述音频信号的特征的操作。

在一种可能的实现方式中，处理模块603，用于：

将所述能量最大的一路音频信号的N1帧时域子帧信号，进行傅里叶变换处理，得到N1帧频域子帧信号；N1为大于0的整数。

在一种可能的实现方式中，处理模块603，用于：

对于所述N1帧频域子帧信号中任一帧所述频域子帧信号，获取任一帧所述频域子帧信号的K2个频率点的幅值；

将所述K2个频率点中幅值最大的频率点的频率，作为任一帧所述频域子帧信号的谱峰频率；

根据所述N1帧频域子帧信号中任一帧所述频域子帧信号的谱峰频率，确定所述N1帧频域子帧信号的谱峰是否稳定。

在一种可能的实现方式中，处理模块603，用于：

根据所述N1帧频域子帧信号中相邻两帧所述频域子帧信号的谱峰频率的差值，确定稳定性参数值；

若所述稳定性参数值小于预设阈值，则确定所述N1帧频域子帧信号的谱峰稳定。

在一种可能的实现方式中，处理模块603，还用于：

确定所述能量最大的一路音频信号的能量值大于或等于预设能量阈值。

在一种可能的实现方式中，处理模块603，还用于：

获取训练数据；所述训练数据包括：音频信号的幅值特征，以及对应的音频信号采集设备的状态；

对预先建立的机器学习模型进行训练，得到训练后的机器学习模型。

在一种可能的实现方式中，所述音频信号采集设备为麦克风阵列；所述麦克风阵列包括至少两个麦克风。

本实施例的装置，可以用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图7为本申请提供的网络摄像机实施例的结构图，如图7所示，该网络摄像机包括：

麦克风阵列701、图像采集组件702、处理器703，以及，用于存储处理器的可执行指令的存储器704。

其中，麦克风阵列701用于采集音频信号，图像采集组件702用于采集图像数据；

上述部件可以通过一条或多条总线进行通信。

其中，处理器703配置为经由执行所述可执行指令来执行前述方法实施例中对应的方法，其具体实施过程可以参见前述方法实施例，此处不再赘述。

图8为本申请提供的电子设备实施例的结构图，如图8所示，该电子设备包括：

处理器801，以及，用于存储处理器801的可执行指令的存储器502。

可选的，还可以包括：通信接口803，用于实现与其他设备的通信。

上述部件可以通过一条或多条总线进行通信。

其中，处理器801配置为经由执行所述可执行指令来执行前述方法实施例中对应的方法，其具体实施过程可以参见前述方法实施例，此处不再赘述。

本申请实施例中还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现前述方法实施例中对应的方法，其具体实施过程可以参见前述方法实施例，其实现原理和技术效果类似，此处不再赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求书指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims

1.一种音频信号采集设备的检测方法，其特征在于，包括：

获取所述音频信号采集设备采集的至少一路音频信号；

分别提取各路所述音频信号的幅值特征；

根据各路所述音频信号的幅值特征，利用预先训练得到的机器学习模型，确定所述音频信号采集设备是否异常；所述机器学习模型是基于训练数据，对预先建立的机器学习模型进行训练，得到的训练后的机器学习模型；所述训练数据包括：音频信号的幅值特征，以及对应的音频信号采集设备的状态；

所述分别提取各路所述音频信号的幅值特征，包括：

将各路所述音频信号的N1帧时域子帧信号，分别进行频域变换处理，得到各路所述音频信号的N1帧频域子帧信号；

根据各路所述音频信号的N1帧频域子帧信号的幅度谱，提取各路所述音频信号的幅值特征，其中，各路所述音频信号的N1帧频域子帧信号的各个频率点对应的幅值为各路所述音频信号的幅值特征；

若所述至少一路音频信号的数量为至少两路，所述分别提取各路所述音频信号的幅值特征之前，还包括：

2.根据权利要求1所述的方法，其特征在于，所述根据各路所述音频信号的N1帧频域子帧信号的幅度谱，提取各路所述音频信号的幅值特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述将各帧所述频域子帧信号的K1个频率点的幅值进行二值化处理，得到所述音频信号的幅值特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述将至少两路所述音频信号中能量最大的一路音频信号，进行频域变换处理，得到变换后的音频信号，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述变换后的音频信号的幅度谱，确定所述变换后的音频信号的谱峰是否稳定，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述N1帧频域子帧信号中任一帧所述频域子帧信号的谱峰频率，确定所述N1帧频域子帧信号的谱峰是否稳定，包括：

7.根据权利要求1所述的方法，其特征在于，所述将至少两路所述音频信号中能量最大的一路音频信号，进行频域变换处理之前，还包括：

8.根据权利要求1-3任一项所述的方法，其特征在于，所述根据各路所述音频信号的幅值特征，利用预先训练得到的机器学习模型，确定所述音频信号采集设备是否异常之前，还包括：

9.根据权利要求1-3任一项所述的方法，其特征在于，所述音频信号采集设备为麦克风阵列；所述麦克风阵列包括至少两个麦克风。

10.一种音频信号采集设备的检测装置，其特征在于，包括：

处理模块，用于根据各路所述音频信号的幅值特征，利用预先训练得到的机器学习模型，确定所述音频信号采集设备是否异常；所述机器学习模型是基于训练数据，对预先建立的机器学习模型进行训练，得到的训练后的机器学习模型；所述训练数据包括：音频信号的幅值特征，以及对应的音频信号采集设备的状态；

所述特征提取模块，具体用于：

若所述至少一路音频信号的数量为至少两路，所述处理模块，还用于：

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-9任一项所述的方法。

12.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-9任一项所述的方法。