CN110718235A

CN110718235A - 异常声音检测的方法、电子设备及存储介质

Info

Publication number: CN110718235A
Application number: CN201910895056.0A
Authority: CN
Inventors: 孔庆杰; 林姝
Original assignee: Elite Vision Intelligent Technology (shenzhen) Co Ltd
Current assignee: Elite Vision Intelligent Technology (shenzhen) Co Ltd
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2020-01-21
Anticipated expiration: 2039-09-20
Also published as: CN110718235B

Abstract

本申请适用于声音识别技术领域，提供了一种异常声音检测的方法，包括：获取当前环境的声音数据；对所述声音数据进行分割获得所述声音数据的分片数据集；获取所述分片数据集中各个分片数据的频谱特征；对所述频谱特征进行识别获得异常声音检测结果。从而实现全天候的声音监控与异常声音检测，进而又节约了监控成本。

Description

异常声音检测的方法、电子设备及存储介质

技术领域

本申请属于声音识别技术领域，尤其涉及一种异常声音检测的方法、电子设备及存储介质。

背景技术

声音是重要的信息来源之一，在日常生产生活中也有很多的场景需要监控音频信号，利用声音信息进行检测、报警，比如通过对发动机工作声音的监控及时对异常情况进行报警。例如，一些农业养殖工作中需要通过家禽叫声监测家禽的健康状况，安保安防领域中需要利用声音作为解决视频监控死角的一个重要手段等。因此需要一种异常声音检测的方法，以对上述场景的中的异常声音进行检测。

发明内容

本申请实施例提供了一种异常声音检测的方法、设备及存储介质，可以解决异常声音检测的问题。

第一方面，本申请实施例提供了一种异常声音检测的方法，包括：

获取当前环境的声音数据；对所述声音数据进行分割获得所述声音数据的分片数据集；获取所述分片数据集中各个分片数据的频谱特征；对所述频谱特征进行识别获得异常声音检测结果。从而实现机器全天候的声音监控与音频事件检测，又节约了监控成本。

第二方面，本申请实施例提供了一种异常声音检测的装置，包括：

获取数据模块M110，获取当前环境的声音数据。

分割模块M120，对所述声音数据进行分割获得所述声音数据的分片数据集。

频谱特征提取模块M130，获取所述分片数据集中各个分片数据的频谱特征。

识别模块M140，对所述频谱特征进行识别获得异常声音检测结果。

第三方面，本申请实施例提供了一种电子设备，包括：

存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述第一方面所述的方法步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，包括：所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的方法步骤。

第五方面本申请实施例提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行上述第一方面所述的方法步骤。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的异常声音检测系统的示意图；

图2是本申请一实施例提供的异常声音检测的方法的流程示意图；

图3是本申请另一实施例提供的异常声音检测的方法的流程示意图；

图4是本申请一实施例提供的声音数据分割示意图；

图5是本申请另一实施例提供的异常声音检测的方法的流程示意图；

图6是本申请一实施例提供的的深度学习网络示意图；

图7是本申请另一实施例提供的异常声音检测的方法的流程示意图；

图8是本申请一实施例提供的异常声音检测的装置的示意图；

图9是本申请实施例提供的电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

图1示出的是本申请实施例提供的一种异常声音检测系统。该系统包括：异常声音检测设备100，环境声音采集设备101，异常声音样本提供设备102，第一通信设备111，第二通信设备112。

其中，异常声音检测设备100通过第一通信设备111提供的有线的或无线的通信方式连接到环境声音采集设备101，异常声音检测设备100通过第二通信设备112提供的有线的或无线的通信方式连接到异常声音样本提供设备102。

其中，异常声音检测设备101用于连续采集当前环境声音，并将流式音频数据发送到异常声音检测设备100。异常声音检测设备100用于根据异常声音样本时长将流式音频数据进行分割并提取频谱特征，并通过识别模块对频谱特征进行识别获取异常声音检测结果。异常声音样本提供设备102用于为异常声音检测设备100提供训练样本。

其中，第一通信设备111和第二通信设备112包括但不限于通过以下通信方式至少之一提供通信连接：蜂窝移动通信网络、广域网(Wide Area Network，WAN)、通用串行总线(Universal Serial Bus，USB)和无线通信网络。

其中，异常声音检测设备100和异常声音样本提供设备102，包括但不限于以下包含至少一个处理器和存储器的计算设备：桌上型计算机、膝上型计算机、工作站、单机服务器、服务器集群、分布式服务器及云端服务器。异常声音检测设备100和异常声音样本提供设备102可以分开部署也可以在没有第二通信设备112的情况下合并为一个设备部署。

其中，环境声音采集设备101包括但不限于麦克风以及与麦克风连接的存储转发设备。其中麦克风可以是监控摄像机附带的拾音设备，也可以为单独架设的话筒。在一种非限定性的示例中，为了保证识别质量，录音设备输出需要至少16k采样率能力。在一个非限定性的示例中，环境声音采集设备101通过第一通信设备111与异常声音检测设备100通信，例如，通过无线移动网络通信，使得与异常声音检测设备100和环境声音采集设备101可以分别设置在相距较远的空间位置，以实现远程的异常声音检测。

在日常生产生活中有很多的场景需要监控音频信号，利用声音信息进行检测、报警，比如通过对发动机工作声音的监控及时对异常情况进行报警，一些农业养殖工作中需要通过叫声监测家禽的健康状况，安保安防领域中利用异常的声音作为解决视频监控死角的一个重要手段等。而目前在这些应用场景中大多使用人工检测，不仅需要付出高昂的人工费用，人工检测本身也具有不稳定，非鲁棒，持续时间受限的特征。

本申请实施例通过环境声音采集设备获取当前环境的声音数据；异常声音检测设备对所述声音数据进行分割获得所述声音数据的分片数据集；获取所述分片数据集中各个分片数据的频谱特征；对所述频谱特征进行识别获得异常声音检测结果。从而实现了对环境异常声音的自动检测，使用音频采集设备以及异常声音检测设备24小时不间断地进行检测，实现机器全天候的声音监控与音频事件检测，使得监控过程稳定，可控，不间断，同时又节约了监控成本。

在实现检测识别异常声音的过程中，如果一段音频中同时出现多种类型异常，或者存在持续时间极短的异常声音，异常声音会相互干扰，或者被无关噪音干扰。因此，本申请实施例提供了根据异常声音样本集中的异常声音样本的时长对所述声音数据进行分割的方法，如果一段音频中同时出现多种异常，根据异常声音样本集中异常声音样本的长度分割环境声音数据有助于区分不同的异常，以使分割获得的声音数据的分片数据既包含异常声音，又尽可能的排除其他异常声音或噪音的干扰，进而能够提高识别效果。而且对于某些异常类型，比如说持续时间极短的一种样本，根据样本长度分割环境声音数据可以有助于减少环境声音的干扰。

在一些实施例中，有些场景下需要对异常声音定位的时间精度要高一些，根据不同样本对同一环境声数据进行不同精度的分割得到不同精度的分片数据集，有助于对提高识别精度。

现有的深度学习神经网络应用，往往只能针对某项特定且具体的任务，面对稍有不同但是类似的任务也需要从头构建模型，其中包含大量重复的模型的训练过程，应用灵活性受到极大限制，而且重新构建的成本高、周期长。本申请实施例通过提供一种神经网络构建和训练的方法，通过大量声音数据，例如AUDIOSET数据集，训练一个多层的卷积网络，该卷积网络的输出端连接一个临时的全连接网络。训练结束后，移除该临时全连接网络，并保存卷积网络结构和权值。

在该固定权值的卷积网络的输出端接入随机初值的识别全连接网络，例如三层全连接网络，输入层接收卷积网络的输出数据，输出层为单节点。采用异常声音样本集，提取频谱特征后输入该卷积网络，该卷积网络将频谱特征转换为多通道特征输出。全连接网络以多通道特征作为输入数据进行训练，训练的结果为该全连接神经网络输出节点的输出数据对应为异常声音样本数据集的异常声音类别的概率。当需要识别多种不同类别的异常声音时，分别在该固定权值的卷积网络的输出端接入对应于该类别异常声音的全连接神经网络，采用该类别的异常声音样本集训练全连接识别神经网络。这样会得到多个针对不同异常声音的全连接神经网络。

当应用中需要对某个类别的异常声音进行识别时，将对应于该类别的训练过的全连接神经网路接入卷积网络的输出端，即可对该类别异常声音数据进行识别。当需要识别多个类别的异常声音时，将多个类别的异常声音对应的训练过的全连接神经网络接入卷积网络的输出端，即可根据各个全连接神经网络输出的概率值对多个类别的异常声音进行识别。

可以理解的是，由于在卷积神经网络训练完成后，每次添加需要识别的新的异常声音类别只需训练一个对应该类别的全连接网络，需要的训练参数少，所以训练速度快，可以实现对异常样本的快速适应；并且可以通过训练和添加新的全连接网络增加异常声音检测的类型。只需要少量的异常声音样本即可快速适应多种类别的异常声音检测任务，并且通过卷积核权值共享给多个全连接神经网络的方法，可以对环境声音同时进行多重异常声音检测。

图2示出了本申请实施例提供的异常声音检测的方法，应用于上述图1所示的异常声音检测系统中的异常声音检测设备，可由所述异常声音检测设备的软件/硬件实现。如图2所示，该方法包括步骤S110～S140。各个步骤的具体实现原理如下：

S110，获取当前环境的声音数据。

在一个非限定性的示例中，异常声音检测设备通过图1所示的环境声音采集设备101获取当前环境的声音数据。非限定性的，环境声音采集设备和异常声音检测设备通过有线的或无线的通信网络通信，例如，环境声音采集设备通过第一通信设备111向异常声音检测设备发送声音数据。

其中，声音数据可以为流式声音数据，也可以为预设时间长度或预设文件大小的声音数据文件。

其中，当前环境为需要进行异常声音检测的环境，包括但不限于养殖场、工矿企业、办公场所、交通场站、学校、医院、居民社区等场所，以上举例是为了本领域技术人员更好的理解申请的实施例，并非对本申请的具体限定。

S120，对所述声音数据进行分割获得所述声音数据的分片数据集。

在一个非限定性的示例中，异常声音检测设备根据固定的预设时长对声音数据进行分割；该固定的预设时长可以为通过统计获得的，对当前环境异常声音检测效果最佳的时长。

在一个非限定性的示例中，异常声音检测设备根据异常声音样本集中异常声音样本的时长对声音数据进行分割获得声音数据的分片数据集。

S130，获取所述分片数据集中各个分片数据的频谱特征。

在一个非限定性的示例中，异常声音检测设备通过包括但不限于以下步骤获取分片数据集中各个分片数据的频谱特征：预加重、分帧、加窗、短时傅里叶变换、滤波。在一个具体的非限定性的示例中，预加重包括，对分片声音数据加上一阶有限长度冲击响应(Finite Impulse Response，FIR)高通数字滤波器来放大高频部分。分帧包括，预加重之后，在进行傅里叶变换之前把分片声音数据分成小片段。加窗主要目的是减少频谱的泄露，例如使用汉明窗。短时傅里叶变换为对加窗后的每帧分帧数据进行M点(一帧音频长M点)傅里叶变换，也称短时傅里叶变换(Short-Time Fourier Transform，STFT)，这样便得到了音频的频谱图。滤波，例如，Mel滤波器滤波，是将一组三角滤波器以Mel尺度比例应用于上面的频谱，得到最后的Mel频谱特征图，一种典型的Mel频谱特征图提取设置为：短时傅里叶窗口0.128秒，覆盖窗口0.016秒，Mel滤波器组数量为128。这样一段k秒的，采样率为Sr的音频经过处理后得到的k秒频谱特征图的行数为X,列数为Y的二维数组，纵向代表时间(一行跨越Y秒)，横向代表频率(范围：0～Sr/2)。

S140，对所述频谱特征进行识别获得异常声音检测结果。

在一个非限定性的示例中，利用几何分类器对所述频谱特征进行识别获得异常声音检测结果。

在一个非限定性的示例中，利用贝叶斯分类器对所述频谱特征进行识别获得异常声音检测结果。

在一个非限定性的示例中，利用深度学习网络对所述频谱特征进行识别获得异常声音检测结果。

在实现检测识别异常声音的过程中，如果一段音频中同时出现多种类型异常，或者存在持续时间极短的异常声明，异常声音会相互干扰，或者被无关噪音干扰。因此，本申请实施例提供了对所述声音数据进行分割的方法，如果一段音频中同时出现多种异常，根据经统计获得的固定时长或根据异常声音样本集中异常声音样本的长度分割环境声音数据有助于区分不同的异常，以使分割获得的声音数据的分片数据包含异常，又尽可能的排除其他异常声音或噪音的干扰，进而能够提高识别效果。而且对于某些异常类型，比如说持续时间极短的一种样本，根据样本长度分割环境声音数据可以有助于减少环境声音的干扰。

在上述图2所示的实施例的基础上，如图3所示，步骤S120，对所述声音数据进行分割获得所述声音数据的分片数据集，还包括步骤S1201或S1202。

S1201，根据异常声音样本集中的N个异常声音样本的时长，分别对声音数据进行分割获得N个所述声音数据的分片数据集。

其中，N为大于等于1的正整数。

在一个非限定性示例中，如果异常声音样本集中的N个异常声音样本，例如N为15，则异常声音检测设备根据各个异常声音样本的时长，分别对声音数据进行分割获得15个分片数据集。

可以理解的是，根据异常声音样本集中的N个异常声音样本的时长，分别对声音数据进行分割获得N个所述声音数据的分片数据集，对声音数据进行多重分割可以降低异常声音数据间或噪声对异常声音数据的干扰，从而提高对分片数据中的异常数据识别的准确度。

S1202，根据所述异常声音样本集中各异常声音样本的时长的统计值对所述声音数据进行分割获得所述声音数据的分片数据集。

其中，各异常声音样本的时长的统计值包括但不限于：统计获得异常声音样本集中各异常声音样本的时长最长的时长；统计获得异常声音样本集中各异常声音样本的时长最短的时长；统计获得异常声音样本集中各异常声音样本的平均时长等统计方法。

在一个非限定的示例中，异常声音检测设备根据异常声音样本中的最长的时长的分割声音数据获得该声音数据的分片数据集。

可以理解的是，采用单一时长对声音数据分割可获得较高的效率，并且获得的分片数据集的数据量较少，从而减少后续处理的计算量。

可以理解的是，在实际实施本申请的实施例提供的异常声音检测方法时，可以对确定采用何种时长的方式进行设置，以根据实际需要在精度和计算效率的平衡中获得最佳的方案。

在上述图3所示的实施例的基础上，如图4所示，在一些实施例中，所述分片数据集中相邻的分片数据的时间区间部分重叠。如图4所示，在时间t上，对一定时间区间内的声音数据P0进行分割，得到P1、P2和P3三段分片数据构成的分片数据集。其中，P1、P2和P3在时间上有重叠。可理解的是，该重叠时间可以设置。例如，以分片数据的时间长度为1秒对声音数据进行分割，预设的重叠时间为0.5秒，则在声音数据开始时刻以1秒的滑动窗，每0.5秒进行一次取样获得分片数据。通过设置分片数据在时间上的重叠，可以防止在分片时丢失异常声音数据信息，从而可以提高识别精度。

在上述图2所示的实施例的基础上，如图5所示，对所述频谱特征进行识别获得异常声音检测结果，包括：

S1401，利用深度学习网络对所述频谱特征进行识别获得异常声音检测结果。

其中，深度学习网络包括但不限可用处理分类问题的LeNet、AlexNet、ZFNet、VGGNet、GoogLeNet和ResNet。可以理解的是，深度学习网络通常用于对图像进行识别，在本申请的实施例中，由于Mel滤波器输出的是声音数据的频谱特征图，即一个频谱特征矩阵。因此，可以采用深度学习网络对拼图特征图进行识别，以获得异常声音检测的结果，有助于提高异常声音识别的准确度。

在上述图4所示的实施例的基础上，如图6所示，在一个非限定性的示例中，所述深度学习网络包括固定权值的卷积神经网络和全连接神经网络；其中，所述全连接神经网络为一个或一个以上，每个全连接神经网络对应一种异常声音类别。

相应的，步骤S1401，利用深度学习网络对所述频谱特征进行识别获得异常声音检测结果，如图7所示，包括步骤S14011和S14012。

S14011，利用所述卷积神经网络将所述频谱特征转换为多通道特征数据。

S14012，利用所述全连接神经网络识别所述多通道特征数据获得异常声音检测结果。

其中，固定权值的卷积神经网络为经过大量声音样本数据，例如AUEIOSET，训练过深度学习网络，并取得该深度学习网络的卷积层的结构和权值。

在一个非限定性的示例中，使用Inception v3的卷积层结构，卷积层网络输入为上述Mel滤波输出的频域特征图，卷积层网络输出为2048个通道，每个通道大小原频谱图大小的1/20的多通道特征图。初始化后接入临时的全连接层经过大型音频数据集分类任务的预训练过程，其中大型音频数据集包括但不限于AUDIOSET数据集或规模相当或更大的数据集。AUDIOSET数据集规模将近总量6000小时的音频，类别数量为632类。若使用该数据集，则临时的全连接层输出为633维，分别对应632类以及未知类别(噪音)。训练方法基于梯度下降法，训练时随机加入噪音数据，类别对应为未知类别。训练完成后去掉全连接层，保存卷积层结构以及权值参数数据。该卷积神经网络部署后，其将分别对每一个片段的频谱特征图进行卷积推断，得到一个更加庞大的多通道特征图，如使用上述样例配置，则是2048个通道的特征图。

在上述图7所示的实施例的基础上，步骤S14012，利用所述全连接神经网络识别所述多通道特征数据获得异常声音检测结果，包括：利用各个所述全连接神经网络识别所述多通道特征数据；获取各个所述全连接神经网络输出的所述多通道特征数据包含异常声音的概率值；通过以下方式至少之一获得异常声音检测结果：根据所述概率值的排序获得异常声音检测结果；根据所述概率值和预设阈值的比较结果获得异常声音检测结果。

在一个非限定性的示例中，选取输出所述概率值超过预设阈值并且概率值排序后最大的所述全连接神经网络对应的异常声音类别作为识别结果。

在一个非限定性的示例中，有3个对应不同类型异常声音的全连接网络，3个全连接网络识别卷积网络输出的多通道特征数据后，各自输出的概率值为0.2、0.5和0.7。此时如果预设的阈值为0.6，则认为识别的结果为识别到概率大于0.6，的全连接网络对应的异常声音类型。

在一个非限定性的示例中，有10个对应不同类型异常声音的全连接网络，10个全连接网络识别卷积网络输出的多通道特征数据后输出各自识别到对应类型的异常声音的概率值，预设排序规则为概率值最大的3个全连接网络对应的异常声音类别为检测到异常声音，则对10个全连接网络的输出概率值进行排序，取概率值最大的3个对应的三个对应的异常声音类别为识别结果。

可以理解的是，可以同时设置预设阈值和排序规则，例如，设置识别结果为超过预设阈值并且最大的2个概率值对应的全连接神经网络对应的异常声音类型。

在上述图7所示的实施例的基础上，在步骤S1401，利用深度学习网络对所述频谱特征进行识别获得异常声音检测结果前，还包括：

分别通过所述卷积神经网络，采用与各个所述全连接神经网络对应的异常声音类别的异常声音样本集训练各个所述全连接神经网络。

在一个非限定性示例中，在一个非限定性的示例中，有两个类别的异常声音需要检测，例如，采用异常鸡叫的短促咳嗽声异常声音样本集训练与其对应的全连接神经网络。训练全连接神经网络时，将与该异常声音类别对应全连接神经网络连接在卷积神经网络输出端。异常声音样本经频域转换提取频谱特征输入卷积神经网络；卷积神经网络输出多通道特征用于训练全连接神经网络。全连接神经网络的训练采用二位交叉熵损失函数，训练方法基于梯度下降法。由于只需要训练全连接网络，参数量较少、训练速度快，从而可以实现对异常样本的快速自适应。

在一个非限定性的示例中，有两个类别的异常声音需要检测，例如，采用异常鸡叫的短促咳嗽声异常声音样本集训练与其对应的全连接神经网络；采用鸡呼吸困难的微弱咕噜声异常声音样本集训练与其对应的全连接神经网络。训练各个全连接神经网络时，轮流将与异常声音类别对应全连接神经网络连接在卷积神经网络输出端。异常声音样本经频域转换提取频谱特征输入卷积神经网络；卷积神经网络输出多通道特征用于训练全连接神经网络。全连接神经网络的训练采用二位交叉熵损失函数，训练方法基于梯度下降法。由于只需要训练全连接网络，参数量较少、训练速度快，从而可以实现对异常样本的快速自适应。

在一个非限定的示例中，分别通过所述卷积神经网络，采用与所述全连接神经网络对应的异常声音类别的异常声音样本集训练各个所述全连接神经网络前，还包括：对所述异常声音样本进行数据增强处理；其中所述数据增强处理包括对异常声音样本进行频谱拉伸处理、对异常声音样本进行频率截断处理、对多个异常声音样本进行叠加处理、对异常声音样本进行叠加噪声处理和对异常声音样本叠加环境背景声音处理中的至少之一。通过对异常声音样本进行数据增强处理，可以丰富样本种类，从而提高经训练的全连接网络的识别精度。

对应于上述图2所示的异常声音检测的方法，图8示出的是本申请实施例提供的一种异常声音检测的装置，包括：

获取数据模块M110，获取当前环境的声音数据。

图9为本申请一实施例提供的电子设备的结构示意图。如图9所示，该实施例的电子设备D9包括：至少一个处理器D90(图9中仅示出一个)处理器、存储器D91以及存储在所述存储器D91中并可在所述至少一个处理器D90上运行的计算机程序D92，所述处理器D90执行所述计算机程序D92时实现上述任意各个方法实施例中的步骤。或者，所述处理器D90执行所述计算机程序D92时实现上述各装置实施例中各模块/单元的功能，例如图8所示模块的功能。

所述电子设备D9可以是桌上型计算机、笔记本、掌上电脑、服务器、及云端服务器等计算设备。该电子设备可包括，但不仅限于，处理器D90、存储器D91。本领域技术人员可以理解，图9仅仅是电子设备D9的举例，并不构成对电子设备D9的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

所称处理器D90可以是中央处理单元(Central Processing Unit，CPU)，该处理器D90还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器D91在一些实施例中可以是所述电子设备D9的内部存储单元，例如电子设备D9的硬盘或内存。所述存储器D91在另一些实施例中也可以是所述电子设备D9的外部存储设备，例如所述电子设备D9上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器D91还可以既包括所述电子设备D9的内部存储单元也包括外部存储设备。所述存储器D91用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器D91还可以用于暂时地存储已经输出或者将要输出的数据。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random AccessMemory，RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种异常声音检测的方法，其特征在于，包括：

获取当前环境的声音数据；

对所述声音数据进行分割获得所述声音数据的分片数据集；

获取所述分片数据集中各个分片数据的频谱特征；

对所述频谱特征进行识别获得异常声音检测结果。

2.如权利要求1所述的方法，其特征在于，对所述声音数据进行分割获得所述声音数据的分片数据集，包括：

根据异常声音样本集中的N个异常声音样本的时长，分别对声音数据进行分割获得N个所述声音数据的分片数据集；或

根据所述异常声音样本集中各异常声音样本的时长的统计值对所述声音数据进行分割获得所述声音数据的分片数据集。

3.如权利要求1或2所述的方法，其特征在于，所述分片数据集中相邻的分片数据的时间区间部分重叠。

4.如权利要求1所述的方法，其特征在于，对所述频谱特征进行识别获得异常声音检测结果，包括：

利用深度学习网络对所述频谱特征进行识别获得异常声音检测结果。

5.如权利要求4所述的方法，其特征在于，所述深度学习网络包括固定权值的卷积神经网络和全连接神经网络；

其中，所述全连接神经网络为一个以上，每个全连接神经网络对应一种异常声音类别；

相应的，利用深度学习网络对所述频谱特征进行识别获得异常声音检测结果，包括：

利用所述卷积神经网络将所述频谱特征转换为多通道特征数据；

利用所述全连接神经网络识别所述多通道特征数据获得异常声音检测结果。

6.如权利要求5所述的方法，其特征在于，利用所述全连接神经网络识别所述多通道特征数据获得异常声音检测结果，包括：

利用各个所述全连接神经网络识别所述多通道特征数据；

获取各个所述全连接神经网络输出的所述多通道特征数据包含异常声音的概率值；

通过以下方式至少之一获得异常声音检测结果：

根据所述概率值的排序获得异常声音检测结果；

根据所述概率值和预设阈值的比较结果获得异常声音检测结果。

7.如权利要求5所述的方法，其特征在于，利用深度学习网络对所述频谱特征进行识别获得异常声音检测结果前，包括：

8.如权利要求7所述的方法，其特征在于，分别通过所述卷积神经网络，采用与所述全连接神经网络对应的异常声音类别的异常声音样本集训练各个所述全连接神经网络前，还包括：

对所述异常声音样本进行数据增强处理；

其中，所述数据增强处理包括对异常声音样本进行频谱拉伸处理、对异常声音样本进行频率截断处理、对多个异常声音样本进行叠加处理、对异常声音样本进行叠加噪声处理和对异常声音样本叠加环境背景声音处理中的至少之一。

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的方法。