CN112466290B

CN112466290B - 异常声音检测模型的训练方法、装置和计算机存储介质

Info

Publication number: CN112466290B
Application number: CN202110141673.9A
Authority: CN
Inventors: 王坤; 刘曼霞; 张伟哲; 张宾; 黄浩
Original assignee: Peng Cheng Laboratory
Current assignee: Peng Cheng Laboratory
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2021-05-28
Anticipated expiration: 2041-02-02
Also published as: CN112466290A

Abstract

本发明公开了一种异常声音检测模型的训练方法、装置和计算机存储介质，该方法包括以下步骤：将预设时长的声音片段截取为N个子片段，且将每个子片段采用H个不同频段的带通滤波器进行采样滤波得到W个采样值，并形成N×H×W的三维特征张量；将多个三维特征张量输入三维卷积神经网络进行训练；其中，多个三维特征张量对应多个预设时长的声音片段；多个预设时长的声音片段包括具有异常声音的正样本和不具有异常声音的负样本；采用同时评估正样本和负样本的损失函数计算损失，并更新异常声音检测模型的参数。解决了现有的声音异常检测中还存在识别不准确和运行效率低的问题。

Description

异常声音检测模型的训练方法、装置和计算机存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种异常声音检测模型的训练方法、装置和计算机存储介质。

背景技术

在声音异常检测应用中，现有技术中最前沿的方法是通过标签样本来训练基于循环卷积的分类网络，存在以下缺点：

一、特征提取方面，现有方法多采用手工设计的特征（例如梅尔倒谱系数（MFCC）），这些方法过于依赖对问题的感知水平因而显得不够智能，并且不能保证对当前应用场景是最优的。

二、识别模型方面，现有方法多采用循环卷积网络及其变体来做主干网络，这些模型在识别过程中依赖前一次的中间结果，因此在内存上并不紧凑，数据处理不够高效。

三、模型训练方面，现有的方法往往是把异常检测当作是普通的标签分类问题。但是由于异常检测的样本存在巨大的多样性和不均衡性（尤其是异常样本难以搜集），导致训练十分容易过拟合。也因为异常样本的制作和标定缺乏统一合理的准则，使得模型不能很好地匹配实际情况。

因此，现有的声音异常检测中还存在识别不准确和运行效率低的问题。

发明内容

本发明主要目的在于提供异常声音检测模型的训练方法、装置和计算机存储介质，旨在解决现有的声音异常检测中还存在识别不准确和运行效率低的问题。

为实现上述目的，本发明提供一种异常声音检测模型的训练方法，所述异常声音检测模型的训练方法包括以下步骤：

将预设时长的声音片段截取为N个子片段，且将每个所述子片段采用H个不同频段的带通滤波器进行采样滤波得到W个采样值，并形成N×H×W的三维特征张量；

将多个所述三维特征张量输入三维卷积神经网络进行训练；其中，所述多个所述三维特征张量对应多个预设时长的声音片段；所述多个预设时长的声音片段包括具有异常声音的正样本和不具有异常声音的负样本；

采用同时评估正样本和负样本的损失函数计算损失，并更新异常声音检测模型的参数。

在一实施例中，所述采用H个不同频段的所述带通滤波器进行采样滤波时，相邻采样片段设定重叠的采样时长。

在一实施例中，所述带通滤波器的滤波函数采用两个不同截止频率的低通滤波器的滤波函数相减得到，所述带通滤波器的滤波函数为：

其中，n为离散数据的索引，f₁、f₂为两个低通滤波器的截止频率，且f₂>f₁；sinc函数作为低通滤波器的滤波函数且sinc(x)=sin(x)/x。

在一实施例中，所述异常声音检测模型的训练方法还包括：

将所述带通滤波器的滤波函数乘以时间窗函数，得到乘以时间窗函数后的带通滤波器的滤波函数：

其中，w[n]为时间窗函数，L为时间窗的宽度。

在一实施例中，所述将每个所述子片段采用H个不同频段的带通滤波器进行采样滤波得到W个采样值的步骤包括：

将每个所述子片段采用H个不同频段的带通滤波器进行采样滤波得到输出信号；

对所述输出信号进行降维得到W个采样值。

在一实施例中，所述预设时长为256毫秒、所述重叠的采样时长为10毫秒、所述H为128、所述W为128以及所述时间窗的宽度为251。

在一实施例中，所述将多个所述三维特征张量输入三维卷积神经网络进行训练的步骤包括：

将多个所述三维特征张量经过三维卷积层进行卷积和池化层池化操作，获得卷积池化后的多个三维特征张量；

将所述卷积池化后的多个三维特征张量中的每个三维特征张量经过flatten层处理，获得对应的一维对应数量的数据。

在一实施例中，所述将多个所述三维特征张量输入三维卷积神经网络进行训练的步骤之后，还包括：

将所述正样本和所述负样本通过所述三维卷积神经网络的训练结果输入至全连接层进行预测，得到所述正样本的预测结果和所述负样本的预测结果。

在一实施例中，所述损失函数的计算公式为：

其中，多个预设时长的声音片段作为一个剪辑集合，剪辑集合中的每个预设时长的声音片段作为包，所述包分为正包和负包，包含异常声音的包作为正包，不包含异常声音的包作为负包；B_a代表正包，Cⁱ _a是正包内的第i个剪辑；B_n代表负包，Cⁱ _n是负包内的第i个剪辑；包内的剪辑个数为n，f（Cⁱ _a）、f（Cⁱ _n）分别为正负包剪辑的预测结果，

和

为惩罚系数。

为实现上述目的，本发明还提供一种异常声音检测模型的训练装置，所述装置包括存储器、处理器以及存储在所述存储器并可在所述处理器上运行的异常声音检测模型的训练程序，所述异常声音检测模型的训练程序被所述处理器执行时实现如上所述的异常声音检测模型的训练方法的各个步骤。

为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有异常声音检测模型的训练程序，所述异常声音检测模型的训练程序被处理器执行时实现如上所述的异常声音检测模型的训练方法的各个步骤。

本发明提供的异常声音检测模型的训练方法、装置和计算机存储介质，将音频数据按照预设时长进行截取，形成多个预设时长的声音片段，将多个预设时长的声音片段输入异常声音检测模型中进行训练；将预设时长的声音片段截取为N个子片段，且将每个子片段采用H个不同频段的带通滤波器进行采样滤波，每个带通滤波器都得到W个采样值，形成N×H×W的三维特征张量；该步骤使用可学习的带通滤波器组将输入的音频数据转换为特征张量，用少量的数据保留更多的音频信息；使用可学习的滤波器组来提取特征，在方法上更加符合认知直觉，通过训练能得到更加符合应用场景的滤波器；不同于直接学习滤波器向量的所有元素，本发明仅需要学习带通滤波器的两个截止频率，训练更快，结果更优；然后将多个三维特征张量输入三维卷积神经网络进行训练；其中，多个三维特征张量对应多个预设时长的声音片段；多个预设时长的声音片段包括具有异常声音的正样本和不具有异常声音的负样本；该步骤使用3D卷积网络对前步骤输出的特征张量进一步提取时序特征，增强上下文联系；而且3D卷积网络内存结构紧凑更易于实现，使得推理效率得以提升；本发明为端到端模型，采用同时评估正样本和负样本的损失函数计算损失，并使用反向传播算法更新异常声音检测模型参数，能够让异常声音检测模型更优化，根据本申请提供的技术方案训练异常声音检测模型，从而解决了现有的声音异常检测中还存在识别不准确和运行效率低的问题。

附图说明

图1为本发明实施例涉及的装置结构示意图；

图2为本发明异常声音检测模型的训练方法的第一实施例的流程示意图；

图3为训练样本训练异常声音检测模型的过程示意图；

图4为滤波器组的工作流程示意图；

图5为滤波器特征向量的降维步骤图；

图6为全连接网络模块拓扑结构；

图7为3D卷积示意图；

图8利用本发明异常声音检测模型进行异常声音检测的实施例的流程示意图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：将音频数据按照预设时长进行截取，形成多个预设时长的声音片段，将多个预设时长的声音片段输入异常声音检测模型中进行训练；将预设时长的声音片段截取为N个子片段，且将每个子片段采用H个不同频段的带通滤波器进行采样滤波，每个带通滤波器都得到W个采样值，形成N×H×W的三维特征张量；该步骤使用可学习的带通滤波器组将输入的音频数据转换为特征张量，用少量的数据保留更多的音频信息；使用可学习的滤波器组来提取特征，在方法上更加符合认知直觉，通过训练能得到更加符合应用场景的滤波器；不同于直接学习滤波器向量的所有元素，本发明仅需要学习带通滤波器的两个截止频率，训练更快，结果更优；然后将多个三维特征张量输入三维卷积神经网络进行训练；其中，多个三维特征张量对应多个预设时长的声音片段；多个预设时长的声音片段包括具有异常声音的正样本和不具有异常声音的负样本；该步骤使用3D卷积网络对前步骤输出的特征张量进一步提取时序特征，增强上下文联系；而且3D卷积网络内存结构紧凑更易于实现，使得推理效率得以提升；本发明为端到端模型，采用同时评估正样本和负样本的损失函数计算损失，并使用反向传播算法更新异常声音检测模型参数，能够让异常声音检测模型更优化，根据本申请提供的技术方案训练异常声音检测模型，从而解决了现有的声音异常检测中还存在识别不准确和运行效率低的问题。

作为一种实现方式，可以如图1所示，图1是本发明实施例方案涉及的装置结构示意图。

处理器1100可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1100中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1100可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC）现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1200，处理器1100读取存储器1200中的信息，结合其硬件完成上述方法的步骤。

可以理解，本发明实施例中的存储器1200可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read OnlyMemory，ROM)、可编程只读存储器(ProgrammableROM，PROM)、可擦除可编程只读存储器(ErasablePROM，EPROM)、电可擦除可编程只读存储器(ElectricallyEPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(RandomAccessMemory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的 RAM可用，例如静态随机存取存储器(StaticRAM，SRAM)、动态随机存取存储器(DynamicRAM，DRAM)、同步动态随机存取存储器(SynchronousDRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(DoubleDataRateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器 (SynchlinkDRAM，SLDRAM) 和直接内存总线随机存取存储器(DirectRambusRAM，DRRAM)。本发明实施例描述的系统和方法的存储器1200旨在包括但不限于这些和任意其它适合类型的存储器。

对于软件实现，可通过执行本发明实施例所述功能的模块(例如过程、函数等)来实现本发明实施例所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

基于上述结构，提出本发明的实施例。

参照图2，图2为本发明异常声音检测模型的训练方法的第一实施例，所述异常声音检测模型的训练方法包括以下步骤：

步骤S110，将预设时长的声音片段截取为N个子片段，且将每个子片段采用H个不同频段的带通滤波器进行采样滤波得到W个采样值，形成N×H×W的三维特征张量。

在本实施例中，异常声音检测指的是检测不同应用场景下的异常声音，例如，在现实生活中的异常声音包括但不限于：枪声、爆炸声、哭声、尖叫声等。针对不同的应用场景下，异常声音检测应用也会不同，在此不做任何限定。异常声音检测通过训练好的异常声音检测模型来实现的，因此，本申请主要提供一种异常声音检测模型的训练方法。异常声音检测模型主要由滤波器组模块、3D卷积网络模块、全连接网络模块三部分组成。参照图3，图3为训练样本训练异常声音检测模型的过程。

低通滤波器（Low-pass filter）是容许低于截止频率的信号通过，但高于截止频率的信号不能通过的电子滤波装置。

带通滤波器是指能通过某一频率范围内的频率分量、但将其他范围的频率分量衰减到极低水平的滤波器。在本申请中，利用两个低通滤波器构成一个带通滤波器，例如，两个低通滤波器的截止频率为f₁、f₂，限制条件为f₂>f₁，则对应带通滤波器的范围为f₁至f₂，在此范围内的信号能够通过带通滤波器。因此，H个不同频段的带通滤波器中的每一个带通滤波器通过两个截止频率不同的低通滤波器相减得到。滤波器组模块：在信号处理中，带通滤波器既能够有效压制阻带频的干扰，同时又能够暴露通带频的信息，因此本发明采用一系列带通滤波器组来提取长音频数据的特征图。

所述带通滤波器采用两个不同截止频率的低通滤波器相减得到：

在频域中，带通滤波器G的滤波函数可以等价为两个低通滤波器的滤波函数相减，则分别利用两个低通滤波器的滤波函数相减获得对应的带通滤波器的滤波函数；如下式所示：

其中，n为离散数据的索引，f₁、f₂为两个低通滤波器的截止频率，限制条件为f₂>f₁；rect为频域下的门函数。

采用sinc函数作为低通滤波器的滤波函数，时域的形式如下所示：

其中sinc(x)=sin(x)/x；

然而要想达到理想的带通滤波器效果，离散滤波器g需要无限长度L，鉴于现实可行性，需要对

进行截断来得到近似效果，如此一来阻带的衰减就不是无穷的，通带将会产生波纹。此外为了降低内存需要，本申请会将长声波数据截断为多个重叠的短片段，这无疑也造成了一定的频谱泄露。为了弥补上述截断带来的影响，需要给滤波器的滤波函数乘以一个时间窗函数，本发明采用汉明窗函数。将带通滤波器的滤波函数乘以时间窗函数即汉明窗函数，得到乘以时间窗函数后的带通滤波器的滤波函数，如下式所示：

其中，w[n]为时间窗函数，L为时间窗宽度。因此，可以知道一个带通滤波器需要学习的参数为2个即两个截止频率，即使是128个带通滤波器，参数也只有256个，非常易于训练。

将音频数据按照预设时长进行截取，形成多个预设时长的声音片段，将多个预设时长的声音片段输入至异常声音检测模型中进行训练，滤波器组模块对每个预设时长的声音片段进行处理，将音频数据转换为特征张量。

例如，滤波器组模块将预设时长的声音片段截取为N个子片段，且将每个子片段采用H个不同频段的带通滤波器进行采样滤波，每个带通滤波器都得到W个采样值，并形成N×H×W的三维特征张量。滤波器组模块将多个预设时长的声音片段和带通滤波器进行卷积处理，如下式所示：

其中，

为指定长度的声波片段，

为带通滤波器，

为离散数据的索引，

为卷积结果。获得多个（多帧）三维特征张量。

由于音频的采样率高导致经过滤波器得到的特征向量过长，又加之3D卷积网络模块对输入数据的形状有一定要求，需要对滤波器的输出做降维处理，参照图4，图4为滤波器组的工作流程示意图；其中m为滤波器的个数，s1为输入声波的数据长度，s2为滤波器输出向量经降维后的长度。经过综合考虑，在本发明中规定：输入声波的采样频率将被缩放至4000Hz，预设时长（输入数据长度）s1设为1024（时长256ms），设置相邻声波片段重叠10ms即每个采样片段相互之间重叠设定的采样时长；滤波器个数m（H）设为128，时间窗的宽度L统一设为251；滤波器的输出经过降维后的长度（W）s2设为128。

将每个子片段采用H个不同频段的带通滤波器进行采样滤波得到输出信号；对输出信号进行降维得到W个采样值；形成N×H×W的三维特征张量。降维的具体步骤参照图5，图5为滤波器特征向量的降维步骤图。为了避免多次直接降维会导致特征退化，本发明会在降维前做卷积操作来提升特征深度，见图5的虚线框内。对m个特征向量进行池化操作；然后进行归一化和ReLU激活函数操作；对m个特征向量进行卷积处理的步骤包括：将m个特征向量经过第一层卷积层卷积，得到第一卷积结果；将第一卷积结果经过池化操作；再经过第二层卷积层卷积，得到第二卷积结果；将第二卷积结果经过池化操作；获得提升特征深度后的特征向量。

例如，根据上述将时长为256ms数据长度为1024的声音片段截取为16个子片段，将每个子片段采用128个不同频段的带通滤波器进行采样滤波得到输出信号，对输出信号进行降维得到W个采样值，即得到降维后数据长度为128的采样值，形成（16，128，128）的三维特征张量。

级联（cascade）在计算机科学里指多个对象之间的映射关系。滤波器组模块将降维后的特征向量（长度为s2）级联起来获得一个二维特征图；形状为（m，s2）。按照时序将多个二维特征图级联，获得多帧的特征张量。

步骤S120，将多个所述三维特征张量输入三维卷积神经网络进行训练；其中，所述多个所述三维特征张量对应多个预设时长的声音片段；所述多个预设时长的声音片段包括具有异常声音的正样本和不具有异常声音的负样本。

在本实施例中，多个三维特征张量对应多个预设时长的声音片段，多个三维特征张量即是多帧三维特征张量，多个预设时长的声音片段包括具有异常声音的正样本和不具有异常声音的负样本，一个预设时长的声音片段通过带通滤波器组会产生一帧特征张量。3D卷积网络模块提取特征张量之间的时序特征，输出三维特征张量；也可以理解为通过3D卷积操作提取音频帧间的上下文特征。然后将三维特征张量通过Flatten层将输入“压平”，即把多维的输入一维化，在此，将三维特征张量压平为一维对应数量的数据。例如，三维特征张量为（256，1，4，4），对其进行压平处理，得到对应数量为4096的一维数据。

在步骤S120，将多个所述三维特征张量输入三维卷积神经网络进行训练的步骤之后，还包括：

在本实施例中，相比于计算机视觉领域的神经网络，声音事件检测所使用的神经网络结构较简单，隐藏层数目较少，具有更多隐藏层的深度神经网络并不能在声音事件检测任务中获得更好的性能。正样本和负样本通过三维卷积神经网络的训练结果都为一维数据，因此优选采用一个两层隐藏层全连接网络预测正样本和负样本通过三维卷积神经网络的训练结果的检测结果。输入为3D卷积网络模块的输出，除输出层使用的sigmoid激活函数之外，其他层均采用ReLU激活函数，sigmoid激活函数、ReLU激活函数为机器学习中常用的激活函数，在此不做过多解释说明。参照图6，图6为全连接网络模块拓扑结构。

步骤S130，采用同时评估正样本和负样本的损失函数计算损失，并更新异常声音检测模型。

在全连接网络模块中采用同时评估正样本和负样本的损失函数计算损失，所述损失函数的计算公式为：

其中，优选将音频数据按照4s时长进行截取，截取的多个预设时长的声音片段作为一个剪辑集合，剪辑集合中的每个预设时长的声音片段作为包，包含异常声音的包作为正包，不包含异常声音的包作为负包；B_a代表正包，Cⁱ _a是正包内的第i个剪辑；B_n代表负包，Cⁱ _n是负包内的第i个剪辑；包内的剪辑个数为n，f（Cⁱ _a）、f（Cⁱ _n）分别为正负包剪辑的预测结果，

和

为惩罚系数（优选为1.0）。

将损失函数分为三个部分：

（a）正负包预测误差，本发明替换现有技术中常用的Hinge-loss（海格损失）采用交叉熵来计算，用以降低负样本的预测值，降低误警率；

（b）平滑损失；目的是使连续剪辑间的输出平滑；

（c）稀疏化正包内的剪辑预测值，目的是让模型自动从正包中学习到正样本。

根据损失使用反向传播算法更新异常声音检测模型的参数，例如，更新滤波器组模块中带通滤波器的两个截止频率参数。

在本实施例提供的技术方案中，将音频数据按照预设时长进行截取，形成多个预设时长的声音片段，将多个预设时长的声音片段输入异常声音检测模型中进行训练；将预设时长的声音片段截取为N个子片段，且将每个子片段采用H个不同频段的带通滤波器进行采样滤波，每个带通滤波器都得到W个采样值，形成N×H×W的三维特征张量；该步骤使用可学习的带通滤波器组将输入的音频数据转换为特征张量，用少量的数据保留更多的音频信息；使用可学习的滤波器组来提取特征，在方法上更加符合认知直觉，通过训练能得到更加符合应用场景的滤波器；不同于直接学习滤波器向量的所有元素，本发明仅需要学习带通滤波器的两个截止频率，训练更快，结果更优；然后将多个三维特征张量输入三维卷积神经网络进行训练；其中，多个三维特征张量对应多个预设时长的声音片段；多个预设时长的声音片段包括具有异常声音的正样本和不具有异常声音的负样本；该步骤使用3D卷积网络对前步骤输出的特征张量进一步提取时序特征，增强上下文联系；而且3D卷积网络内存结构紧凑更易于实现，使得推理效率得以提升；本发明为端到端模型，采用同时评估正样本和负样本的损失函数计算损失，并使用反向传播算法更新异常声音检测模型参数，能够让异常声音检测模型更优化，根据本申请提供的技术方案训练异常声音检测模型，从而解决了现有的声音异常检测中还存在识别不准确和运行效率低的问题。

上述实施例中，所述将多个所述三维特征张量输入三维卷积神经网络进行训练的步骤包括：

步骤S210，将多个所述三维特征张量经过三维卷积层进行卷积和池化层池化操作，获得卷积池化后的多个三维特征张量。

参照表1，表1为3D卷积网络模块参数，也是特征张量进行三维卷积的流程。

表1

在本实施例中，3D卷积网络模块将多个三维特征张量经过三维卷积层进行卷积和池化操作，获得卷积池化后的多个三维特征张量。本发明为了适配3D卷积，对输入的特征张量（滤波器组模块的输出）进行维度扩充，例如，将特征张量（16，128，128）扩展为（1，16，128，128），扩展的维度可以理解为通道维度。表中的3D卷积示意图如图7所示，这里不展示通道维度，其中（F，H，W）为输入的特征张量的形状，F为帧维度，H、W为高宽。卷积核除了沿着H，W移动外，还沿着帧维度移动，因此输出的张量仍是3维的。未特殊指明的情况下，本发明中所有的3D卷积核的大小均为（3，3，3），卷积方式为“same”型（默认在需要时对输入的边界进行补0，使得输入到输出的高宽以及帧维度大小不变），激活函数为ReLU，所有卷积层包含归一化操作。参照表1进行三维卷积的过程，对维度扩充后的特征张量（1，16，128，128）进行三维卷积和池化操作，获得三维特征张量（256，1，4，4）。

步骤S220，将所述卷积池化后的多个三维特征张量中的每个三维特征张量经过flatten层处理，获得对应的一维对应数量的数据。

在本实施例中，3D卷积网络模块将所述卷积池化后的多个三维特征张量中的每个三维特征张量经过flatten层处理，获得对应的一维对应数量的数据。例如，将三维特征张量（256，1，4，4）经过flatten层进行压平处理，得到对应数量为4096的一维数据。

在本实施例提供的技术方案中，是对第一实施例中步骤S120的细化步骤，具体包括：将多个三维特征张量经过三维卷积层进行卷积和池化操作，获得卷积池化后的多个三维特征张量；将卷积池化后的多个三维特征张量中的每个三维特征张量经过flatten层处理，获得对应的一维对应数量的数据。因为3D卷积网络数据存储紧凑（易于实现），涉及的计算流程比较单一（分支少），整体对硬件友好（数据访问效率高），一次处理的音频长度大大提升，具有更高的推理效率。

利用上述实施中训练好的异常声音检测模型进行异常声音检测，参照图8，图8利用本发明异常声音检测模型进行异常声音检测的实施例，包括：

步骤S310，将获得的音频数据转换为特征张量。

在本实施例中，异常声音检测模型将获得的音频数据按照预设时长进行截取，形成多个预设时长的声音片段；滤波器组模块将多个预设时长的声音片段转换为多帧三维特征张量。其中，对于一个预设时长的声音片段的具体步骤为：滤波器组模块将预设时长的声音片段截取为N个子片段，且将每个子片段采用H个不同频段的带通滤波器进行卷积处理，得到H个特征向量；对H个特征向量进行卷积处理提示特征深度，得到提升特征深度后的H个特征向量；将提升特征深度后的H个特征向量进行降维处理，每个带通滤波器得到W个采样值，形成N×H×W的三维特征张量。

步骤S320，提取所述特征张量的时序特征，获得提取时序特征后的三维特征张量；将所述三维特征张量压平为一维对应数量的数据。

在本实施例中，3D卷积网络模块对特征张量进行维度扩充，然后将维度扩充后的特征张量进行三维卷积层和池化层池化操作，获得卷积池化后的多个三维特征张量；将卷积池化后的多个三维特征张量中的每个三维特征张量经过flatten层进行压平处理，获得多个一维对应数量的数据。

步骤S330，采用全连接网络预测所述对应数量的数据的检测结果。

在本实施例中，全连接网络模块采用两层隐藏层的全连接网络预测多个一维对应数量的数据的检测结果。

步骤S340，当所述检测结果大于预设阈值时，判定所述音频数据为异常音频数据。

在本实施例中，预设阈值可以优选为0.5，当多个检测结果中存在检测结果大于0.5时，异常声音检测模型判定音频数据为异常音频数据。

或步骤S350，当所述检测结果小于或等于预设阈值时，判定所述音频数据为非异常音频数据。

在本实施例中，当多个检测结果中不存在检测结果小于或等于0.5时，异常声音检测模型判定音频数据为非异常音频数据。

步骤S360，根据所述检测结果和所述损失函数计算所述异常声音检测模型的损失。

在本实施例中，全连接网络模块根据检测结果和损失函数计算所述异常声音检测模型的损失。

步骤S370，根据所述损失使用预设算法更新所述异常声音检测模型的参数。

在本实施例中，全连接网络模块根据损失使用反向传播算法更新异常声音检测模型的参数。例如，更新滤波器组模块中带通滤波器两个截止频率。

在本实施例提供的技术方案中，将获得的音频数据转换为特征张量；提取所述特征张量的时序特征，获得提取时序特征后的三维特征张量；将所述三维特征张量压平为一维对应数量的数据；采用全连接网络预测所述对应数量的数据的检测结果；当检测结果大于预设阈值时，判定音频数据为异常音频数据；或当检测结果小于或等于预设阈值时，判定音频数据为非异常音频数据；根据检测结果和损失函数计算异常声音检测模型的损失；根据损失使用反向传播算法更新异常声音检测模型的参数。使得在利用异常声音检测模型在检测音频数据时进一步优化模型，进一步解决了现有的声音异常检测中还存在识别不准确和运行效率低的问题。

本发明还提供一种异常声音检测模型的训练装置，所述装置包括存储器、处理器以及存储在所述存储器并可在所述处理器上运行的异常声音检测模型的训练定程序，所述异常声音检测模型的训练程序被所述处理器执行时实现如上所述的异常声音检测模型的训练方法的各个步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有异常声音检测模型的训练程序，所述异常声音检测模型的训练程序被处理器执行时实现如上所述的异常声音检测模型的训练方法的各个步骤。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

应当注意的是，在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种异常声音检测模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的异常声音检测模型的训练方法，其特征在于，采用H个不同频段的所述带通滤波器进行采样滤波时，相邻采样片段设定重叠的采样时长。

3.根据权利要求2所述的异常声音检测模型的训练方法，其特征在于，所述带通滤波器的滤波函数采用两个不同截止频率的低通滤波器的滤波函数相减得到，所述带通滤波器的滤波函数为：

4.根据权利要求3所述的异常声音检测模型的训练方法，其特征在于，所述异常声音检测模型的训练方法还包括：

其中，w[n]为时间窗函数，L为时间窗的宽度。

5.根据权利要求1所述的异常声音检测模型的训练方法，其特征在于，所述将每个所述子片段采用H个不同频段的带通滤波器进行采样滤波得到W个采样值的步骤包括：

对所述输出信号进行降维得到W个采样值。

6.根据权利要求4所述的异常声音检测模型的训练方法，其特征在于，所述预设时长为256毫秒、所述重叠的采样时长为10毫秒、所述H为128、所述W为128以及所述时间窗的宽度为251。

7.根据权利要求1所述的异常声音检测模型的训练方法，其特征在于，所述将多个所述三维特征张量输入三维卷积神经网络进行训练的步骤包括：

8.根据权利要求1所述的异常声音检测模型的训练方法，其特征在于，所述将多个所述三维特征张量输入三维卷积神经网络进行训练的步骤之后，还包括：

9.根据权利要求8所述的异常声音检测模型的训练方法，其特征在于，所述损失函数的计算公式为：

和

为惩罚系数。

10.一种异常声音检测模型的训练装置，其特征在于，所述装置包括存储器、处理器以及存储在所述存储器并可在所述处理器上运行的异常声音检测模型的训练程序，所述异常声音检测模型的训练程序被所述处理器执行时实现如权利要求1-9任一项所述的异常声音检测模型的训练方法的各个步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有异常声音检测模型的训练程序，所述异常声音检测模型的训练程序被处理器执行时实现如权利要求1-9任一项所述的异常声音检测模型的训练方法的各个步骤。