CN110189769B

CN110189769B - 基于多个卷积神经网络模型结合的异常声音检测方法

Info

Publication number: CN110189769B
Application number: CN201910433848.6A
Authority: CN
Inventors: 潘志灏; 冯瑞; 蒋龙泉
Original assignee: Fujun Intelligent Technology Suzhou Co ltd
Current assignee: Fujun Intelligent Technology Suzhou Co ltd
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2021-11-19
Anticipated expiration: 2039-05-23
Also published as: CN110189769A

Abstract

本发明提供了一种基于多个卷积神经网络模型结合的异常声音检测方法，采用多个完成训练的卷积神经网络模型对多种待测音频文件进行分类以及对待测音频文件中的异常声音类别进行检测，其特征在于，包括如下步骤：步骤S1，对待测音频文件进行分段处理，获取多个短时待测音频数据；步骤S2，对每个短时待测音频数据进行预处理，提取出与每个待测短时音频数据所相对应的待测音频特征；步骤S3，将待测音频特征输入完成训练的卷积神经网络模型，获取待测音频文件的分类结果，并标注待测音频文件中的异常声音类别，其中，每个卷积神经网络模型具有不同的权值。

Description

基于多个卷积神经网络模型结合的异常声音检测方法

技术领域

本发明属于计算机听觉、人工智能技术领域，涉及一种复杂场景下的音频分类和异常声音检测方法，具体涉及一种基于多个卷积神经网络模型结合的异常声音检测方法。

背景技术

传统的公共安全监控方式是采用摄像头进行监控，但是摄像头只能监控某个固定的场景，而且受光线影响很大。另外，若罪犯提前知道摄像头的位置，就可以很容易地避开摄像头或者用布将摄像头遮住。

在当前机器学习技术及计算机硬件性能高速提升的情况下，近年来计算机听觉、自然语言处理和音频检测等应用领域取得了突破性进展。

音频分类及检测作为计算机听觉领域中的一项基础任务，其精度也得到了大幅提升，因此通过音频分类及检测的方式来对公共环境的安全进行监控是可行的，而音频中的异常声音检测可以选择从音频分类的角度入手进行处理。

目前音频分类及检测领域有两种方案，一种方案是异常声音检测，其方法是对监测区域的背景环境声建模，所有和模型不匹配的都判定为异常声音，即只能检测是否有异常声音，但不能确定是何种异常声音。

由于声音是全向传播的，不受光线影响，因此检测异常声音这一方案在理论上是可行的，然而异常声音的种类实在是太多太复杂了，姑且不说有哭声、尖叫声、枪声等不同异常声音，即使是枪声这一种异常声音也有手枪、步枪等，所以在传统的建模下准确判断出异常声音是非常困难的。

另一种方案是异常声音分类，其方法是就是对异常声音建模，所有和模型匹配的就是某种异常声音，即通过将异常声音进行分类，从而知道检测到的是何种异常声音。

上述这两种方法的原理其实都来自语音识别，本质上是要训练出一个分类器，而语音识别的关键是分类器的区分度，也就是模型的准确性，而这又是由所选的声学特征和声音模型确定的。

良好的声学特征能使得分类器的分类结果更加准确，同时也可以简化分类器的设计，而一个没有辨别力的声学特征在分类器中是很难被正确分类的。在声学特征提取中最常用的特征是MFCC即梅尔频率倒谱系数，梅尔频率是基于人耳听觉特性提出来的，它与Hz频率成非线性对应关系，梅尔频率倒谱系数(MFCC)则是利用它们之间的这种关系，计算得到的Hz频谱特征，主要用于语音数据特征提取和降低运算维度。但是MFCC特征主要是基于人耳听觉进行特征提取的，而在异常声音中存在很多高频和低频信息是人耳无法捕捉到的。因此在声学特征的提取上采用了log-mel energies。

为了提高异常声音分类的准确率，目前常用的方法是增加模型训练时的训练数据。然而，收集大量的训练数据是一件极其困难而且繁重的工作，因为音频的数据常常是混杂着各类的噪声，而训练时为了保证模型的准确度最好采用高质量的音频数据进行训练，将数据的降噪放在模型外进行处理，同时训练数据量增多也导致模型训练时间延长，甚至有可能然后训练无法实际完成。

发明内容

为解决上述问题，本发明采用了如下技术方案：

本发明提供了一种基于多个卷积神经网络模型结合的异常声音检测方法，采用多个卷积神经网络模型对多种待测音频文件进行分类以及对待测音频文件中的异常声音类别进行检测，其特征在于，包括如下步骤：

步骤S1，对待测音频文件进行分段处理，获取多个短时待测音频数据；

步骤S2，对每个短时待测音频数据进行预处理，提取出与每个待测短时音频数据所相对应的待测音频特征；

步骤S3，将待测音频特征输入完成训练的卷积神经网络模型，获取待测音频文件的分类结果，并标注待测音频文件中的异常声音类别。

其中，卷积神经网络模型的训练过程包括如下步骤：

步骤T1，对预定的用于训练卷积神经网络模型的训练音频文件进行分段处理，获取多个短时训练音频数据；

步骤T2，对每个短时训练音频数据进行预处理，提取出与每个短时训练音频数据所相对应的训练音频特征；

步骤T3，将训练音频特征按预定比例进行分配，组成一个训练集和一个验证集；

步骤T4，搭建多个卷积神经网络模型，采用训练集对卷积神经网络模型进行模型训练，并采用验证集对卷积神经网络模型进行验证，从而获取完成训练的卷积神经网络模型，作为音频分类检测模型；

步骤T5，根据每个音频分类检测模型在验证集上的准确率对每个音频分类检测模型进行权值设定。

本发明提供了提供了一种基于多个卷积神经网络模型结合的异常声音检测方法，还可以具有这样的特征，其中，步骤S3中检测方法包括如下子步骤：

步骤S3-1，将待测音频特征依次输入每个音频分类检测模型，获取每个待测音频特征在每个音频分类检测模型中的类别概率；

步骤S3-2，根据权值对类别概率进行加权平均，获取待测音频特征的最终类别概率；

步骤S3-3，根据最终类别概率的数值大小判定待测音频的类别；

步骤S3-4，根据待测音频的类别的判定结果对异常声音类别进行标注。

本发明提供了提供了一种基于多个卷积神经网络模型结合的异常声音检测方法，还可以具有这样的特征，其中，卷积神经网络模型为ResNet101模型、VGG16模型以及resnext模型。

本发明提供了提供了一种基于多个卷积神经网络模型结合的异常声音检测方法，还可以具有这样的特征，其中，音频特征是由测试音频文件的原始音频数据中提取出的声学特征以及根据声学特征求得的一阶导数和二阶导数在卷积神经网络模型的通道层面进行融合而成的。

本发明提供了提供了一种基于多个卷积神经网络模型结合的异常声音检测方法，还可以具有这样的特征，其中，步骤S1中分段处理包括如下子步骤：

步骤S1-1，从待测音频文件中读取待测音频文件的原始音频数据；

步骤S1-2，根据读取原始音频数据时的采样频率，并且以两秒为分段时间长度对原始音频数据进行分段，从而获取多个短时待测音频的短时待测音频数据。

本发明提供了提供了一种基于多个卷积神经网络模型结合的异常声音检测方法，还可以具有这样的特征，其中，步骤S1-2中原始音频数据的分段方法为：将采样频率乘以分段时长作为一个短时音频数据的分段数据长度，再根据分段数据长度对原始音频数据进行分段，从而获取多个短时待测音频数据。

本发明提供了提供了一种基于多个卷积神经网络模型结合的异常声音检测方法，还可以具有这样的特征，其中，步骤S2中预处理还包括将待测音频特征进行大小归一化。

本发明提供了提供了一种基于多个卷积神经网络模型结合的异常声音检测方法，还可以具有这样的特征，其中，步骤T4包括如下子步骤：

步骤T4-1，构建多个卷积神经网络模型，每个卷积神经网络模型的各层中包含不同的模型参数，该模型参数的初始化方式均采用随机初始化；

步骤T4-2，将训练集中的音频特征作为训练音频特征依次输入卷积神经网络模型并进行迭代；

步骤T4-3，完成迭代后，采用卷积神经网络模型中最后一层的模型参数计算出损失误差，并将损失误差进行反向传播，从而更新卷积神经网络模型中的模型参数；

步骤T4-4，重复步骤T4-2至步骤T4-3直至验证集中的音频特征在卷积神经网络模型上进行测试时满足预定效果，即卷积神经网络模型训练完成；

步骤T4-5，重复步骤T4-1至步骤T4-4直至每个卷积神经网络模型均训练完成。

本发明提供了一种基于多个卷积神经网络模型结合的异常声音检测装置，其特征在于，包括：预处理部，用于对待测音频进行预处理，从而获取预处理音频数据；音频分类部，用于从待测音频中检测出异常声音的位置及类别，音频分类部包含多个训练完成的卷积神经网络模型，其中，每个卷积神经网络模型均具有不同的权值，使得根据每个卷积神经网络模型所获取的类别概率能够进行加权平均，从而获取最终类别概率，进而对异常声音进行标注。

发明作用与效果

根据本发明的基于多个卷积神经网络模型结合的异常声音检测方法，采用多个训练好的卷积神经网络模型相结合的方式让每个卷积神经网络模型都能够学习到三个维度上的音频特征，由于每个卷积神经网络模型对于这三个维度上的音频特征的学习程度都会有所不同，因此需要通过验证集不断地验证测试每个卷积神经网络模型的输出结果，根据每个卷积神经网络模型在验证集上的准确率对不同的神经网络模型设定不同的权值，在进行多个卷积神经网络模型联合判断时能够通过不同的权值充分体现出每个卷积神经网络模型在这三个维度上的音频特征，即能够非常大的提高模型判别的准确率。

附图说明

图1是本发明实施例中卷积神经网络模型的模型训练流程图；

图2是本发明实施例的卷积神经网络模型结合的结构示意图；

图3是本发明实施例的声学特征在通道层面结合的结构图；

图4是本发明实施例中基于多个卷积神经网络模型结合的异常声音检测方法的流程图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下结合附图对本发明的基于多个卷积神经网络模型结合的异常声音检测方法作具体阐述。

<实施例>

图1是本发明实施例中卷积神经网络模型的模型训练流程图。

如图1所示，本实施例中的基于多个卷积神经网络模型结合的异常声音检测方法，通过多个卷积神经网络模型结合判断得到需要判断的音频中异常声音的类别、位置和时长。

在对异常声音进行分类检测前，首先需要构建多个不同的卷积神经网络模型，然后对这些卷积神经网络模型进行模型训练。

本实施例以三个不同的卷积神经网络模型为例对本实施例中的卷积神经网络模型的构建过程进行说明。

卷积神经网络模型的构建均在Linux平台上实现，该平台具有至少一个带GPU加速功能的音频处理单元(例如NVIDIA GTX 1080ti显卡)，通过现有的深度学习框架pytorch，搭建三个卷积神经网络模型，分别为ResNet101模型、VGG16模型以及resnext模型，每个卷积神经网络模型的各层包含不同的模型参数，这些模型参数构建时为随机设置，每个卷积神经网络模型的各个超参数则根据实际分类检测需求进行设置。

该卷积神经网络模型是基于三个卷积神经网络模型的结合，主要可以分为两个模块，一是单个卷积神经网络建立模块，一是多个卷积神经网络结合判断模块。其中，单个卷积神经网络建立模块中，建立神经网络的方法和通常情况下建立神经网络的方式相同，但是在此需要建立三个不同的神经网络模型；多个卷积神经网络结合判断的模块中，需要对不同的神经网络设定不同的权值，该权值是需要通过不断的测试或者验证得来。

具体地，本实施例的卷积神经网络模型是由三个卷积神经网络模型组合而成的，其中ResNet101模型和resnext模型都是由多个残差网络结构(卷积层)构成的，并且网络结构中每一个卷积层之后都做批量归一化(Batch Normalization)操作。VGG16的模型则是由多个卷积核组成的，每两个或者三个卷积核之后还会有一个最大池化的处理，能够减小参数的数量，同时网络结构中每一个卷积层之后都做批量归一化操作。

图2是本发明实施例的卷积神经网络多模型结合的结构示意图，

图3是本发明实施例的声学特征在通道层面结合的结构图。

如图2和图3所示，本发明的卷积神经网络多模型结合的结构中包括依次设置的输入层、特征提取层、模型判别层和最后的联合判别层。而在本实施例的卷积神经网络模型中，声学特征是在各个通道层面结合的。

如图2所示，卷积神经网络模型具体包括如下结构：

(1)输入层I，用于输入各个经过预处理的音频特征数据，其大小与归一化后，为(3*64*200)；

(2)经过卷积神经网络模型之后会得到一个(1*类别个数)的矩阵，其中的每个数据代表着待测音频是该类别的概率大小，通常来说可以将概率最大的数据判断为是该类别。

(3)在得到三个模型分别判断的概率大小后，即得到了一个(3*1*类别个数)的三维矩阵，这时候就可以通过个人的经验进行模型权值的设置，根据之前训练的结果可以将准确率高的模型设置比较高的权值，之后根据加权平均的公式对三者的概率进行加权平均计算，最后得到一个(1*类别个数)的矩阵，从该矩阵中选择出最大的概率，则音频即为该类别。

训练卷积神经网络模型所采用的训练音频文件为多个数据集的整合，并且通过数据增强的方式增加的数据集的数量，具体来说就是整合的数据集分别为UrbanSound数据集、ESC-10数据集、DCASE数据集以及FreeSound数据集这四个数据集。

UrbanSound数据集包含10个类别音频数据类型，文件名中包含着音频数据的类型，每个数据类型大约有60个音频。

ESC-10数据集包含着11个类别音频数据类型，文件名中包含着音频数据的类型，每个数据类型大约有30个音频。

DCASE数据集包括41个类别的音频，用csv文件存有每个音频的类型，每个数据类型大约有150个音频。

Freesound数据集是一个开源的音频片段数据集，包含632个音频数据类型，297144个音频样本，其中有211958个ground truth的数据。

训练卷积神经网络模型的过程主要包括3个过程：音频文件处理、搭建模型以及训练模型，具体步骤如下：

步骤T1，对预定的用于训练卷积神经网络模型的训练音频文件进行分段处理，获取多个短时训练音频数据，包括如下子步骤：

本实施例中，训练音频文件为上述四个数据集，其中具有包含了异常声音的视频(例如，恐怖暴力视频等)。

步骤T1-1，将训练视频文件的序列通过ffmpeg转化为wav格式的训练音频文件，并且读取训练音频文件中的原始音频数据。

步骤T1-2，根据读取待测音频文件时的采样频率，并且以两秒为分段时间长度对原始音频数据进行分段，从而获取多个短时待测音频的短时待测音频数据。

本实施例中，由于训练音频的时长比较长，而卷积神经网络模型的输入的最长判断时间为2s，因此需要将训练音频进行一次切割，切割成时间长度为2s的小段音频，即短时训练音频。

另外，由于音频的输入数据的长度和使用的采样频率成正比，因此分段方式具体为，将采样频率乘以分段时间长度(即2s)，从而获取分段数据长度，因此将输入的训练音频数据按照分段数据长度(即采样频率乘以分段时间长度)得到的分段数据长度进行分段。

步骤T2，对每个短时训练音频数据进行预处理，提取出与每个短时训练音频数据所相对应的训练音频特征。

本实施例中的训练音频特征是从原始音频数据中提取出低维度的特征，在声学特征上选择log-mel energies特征以及根据log-mel energies特征求得的一阶导数和二阶导数进行融合。

训练音频特征的具体提取过程为：将切割好的2s音频进行梅尔频谱的特征提取，再将其进行对数计算得到在能量谱上的特征；对能量谱上的特征进行一阶求导、二阶求导得到两个与能量谱特征相同维度的数据(其维度为1,64,200)，最后将能量谱特征、一阶导数、二阶导数这三者在通道层面上进行融合组成一个3*64*200的音频特征，即为预处理后的音频数据。

步骤T3，将训练音频特征按预定比例进行分配，组成一个训练集和一个验证集。

本实施例中采用上述的UrbanSound数据集、ESC-10数据集、DCASE数据集以及FreeSound数据集这四个数据集作为训练音频文件，从这些训练音频文件中获得了约6000条不同长度的音频数据，按照训练集和验证集7：3的比例进行分配，训练集的大小约为4000条音频数据，平均每条音频时长约为5s，训练集的音频时长约为13小时，验证集的音频时长约为2.5小时。

在这些音频完成预处理后，即提取出训练音频特征和验证音频特征，再进行归一化处理，从而得到的数据集即为本实施例的训练集和验证集。

步骤T4，搭建多个卷积神经网络模型，采用训练集对卷积神经网络模型进行模型训练，并采用验证集对卷积神经网络模型进行验证，从而获取完成训练的卷积神经网络模型，作为音频分类检测模型，包括如下子步骤：

步骤T4-1，构建多个卷积神经网络模型，每个卷积神经网络模型的各层中包含不同的模型参数，该模型参数的初始化方式均采用随机初始化。

步骤T4-2，将训练集中的音频特征作为训练音频特征依次输入卷积神经网络模型并进行迭代。

在迭代过程中，需要将训练集中的音频特征分批次进入卷积神经网络模型进行训练，每次进入卷积神经网络模型的训练音频批次大小为64，一共迭代训练100次。

步骤T4-3，每完成一次迭代后，采用卷积神经网络模型中最后一层的模型参数计算出损失误差，并将损失误差进行反向传播，从而更新卷积神经网络模型中的模型参数。

在完成一次迭代后，最后一层的模型参数分别计算出的损失误差为SoftMax Loss交叉熵损失和Square Loss平方差损失。

步骤T4-4，重复步骤T4-2至步骤T4-3直至验证集中的音频特征在卷积神经网络模型上进行测试时满足预定效果，即卷积神经网络模型训练完成。

本实施例中的模型训练的训练完成条件与常规的卷积神经网络模型相同，即各层的模型参数收敛后就完成训练。

本实施例中的这些权值是需要通过不断的测试或者验证得来，例如通过验证集反复多次地对音频分类检测模型进行测试验证从而获取更精准合理的权值。

在卷积神经网络模型训练完成后，便能够通过上述训练完成的卷积神经网络模型对多种待测音频文件进行分类以及对待测音频文件中的异常声音类别进行检测。

如图4所示，本实施例中采用上述四个数据集中的30％作为待测音频文本(即作为测试集)来对训练完成的卷积神经网络模型(即音频分类检测模型)进行测试，从而验证本实施例中的音频分类检测模型的准确性和稳定性，具体步骤如下：

步骤S1，对待测音频文件进行分段处理，获取多个短时待测音频数据，该分段处理包括如下子步骤：

步骤S1-2中原始音频数据的分段方法为：将采样频率乘以分段时长作为一个短时音频数据的分段数据长度，再根据分段数据长度对原始音频数据进行分段，从而获取多个短时待测音频数据。

步骤S2中预处理还包括将待测音频特征进行大小归一化。

步骤S1～步骤S2中对音频文件的分段和预处理方法与上述训练模型时采用步骤T1～步骤T2中的方法相同。

步骤S3，将待测音频特征输入各个完成训练的卷积神经网络模型，获取待测音频文件的分类结果，并标注待测音频文件中的异常声音类别，包括如下子步骤：

步骤S3-1，将待测音频特征依次输入各个完成训练的卷积神经网络模型，获取每个待测音频特征(即每个2s段音频的音频特征)在每个音频分类检测模型中的类别概率；

具体为通过加权平均之后得到最终每个待测音频特征的类别的概率，选取最大概率的类别即为该段音频的类别。

步骤S3-4，根据待测音频的类别的判定结果对异常声音类别进行标注；

步骤S3-5，对判断后的标注进行后处理，得到整段音频中异常声音的起始位置以及持续时长。

本实施例中的音频分类检测模型对该测试集的异常声音检测分类的精度(即检测准确率)为91.17％。

发明人还整理出了在不同类别上本实施例的音频分类检测模型的准确率，结果如下表1所示。

表1本发明的方法在不同类别上该模型判断的准确率

表1中，在其他类别以上的是常见的异常声音的类别，可以看到模型在异常声音的类别上已经达到很高的准确率了，同时可以看到在其他类别以下在其他类别的判断准确率上也有不错的效果，如果需要把该发明应用在其他的音频分类的项目中，只要有足够的数据也可以达到很高的判别准确率。

上述测试过程表明，本实施例的基于卷积神经网络模型的异常声音检测分类方法能够在UrbanSound数据集、ESC-10数据集、DCASE数据集以及FreeSound数据集这四个数据集上取得很高的准确率。

本实施例提供了一种基于基于卷积神经网络模型的异常声音检测分类方法，该方法主要包括预处理音频文件、搭建模型、训练模型及异常声音检测分类的步骤。然而，为了在实际使用时更为方便，可以将本实施例中的音频分类检测模型应用于一种基于卷积神经网络模型的异常声音检测分类装置，该基于卷积神经网络模型的异常声音检测分类装置包括预处理部和音频分类部。

预处理部，用于对按照上述步骤S1～S2对待测音频进行分段处理和预处理，从而获取预处理音频数据；

音频分类部，用于从待测音频中检测出异常声音的位置及类别，音频分类部包含多个按照上述步骤T1～T5训练完成的卷积神经网络模型，使得待测音频经过预处理部处理后由多个训练完成的卷积神经网络模型判断出异常声音的起始位置以及异常声音的类别、持续长度。

其中，每个卷积神经网络模型均具有不同的权值，使得根据每个卷积神经网络模型所获取的类别概率能够进行加权平均，从而获取最终类别概率，进而对异常声音的起始位置、类别以及持续长度进行标注。

实施例作用与效果

根据本实施例的基于多个卷积神经网络模型结合的异常声音检测方法，采用三个训练好的卷积神经网络模型相结合的方式让每个卷积神经网络模型都能够学习到三个维度上的音频特征，由于每个卷积神经网络模型对于这三个维度上的音频特征的学习程度都会有所不同，因此需要通过验证集不断地验证测试每个卷积神经网络模型的输出结果，根据每个卷积神经网络模型在验证集上的准确率对不同的神经网络模型设定不同的权值，在进行多个卷积神经网络模型联合判断时能够通过不同的权值充分体现出每个卷积神经网络模型在这三个维度上的音频特征，即能够非常大的提高模型判别的准确率。

由于音频特征是由测试音频文件的原始音频数据中提取出的声学特征(本实施例中为log-mel特征)以及根据声学特征求得的一阶导数和二阶导数在卷积神经网络模型的通道层面进行融合而成的，因此，本实施例中的每个卷积神经网络模型均能够学习到更多的特征，更好地进行特征表达，能够最终提高异常声音分类的精度。另外，在进行异常声音检测时，由于将通道层面的特征融合和模型的联合判断进行了一个结合，让两者互相促进，使得在各个卷积神经网络模型的通道层上融合的音频特征起到最大的作用，有效地提高了卷积神经网络模型的检测精度。

由于卷积神经网络模型整合了三个不同的音频分类模型，包括ResNet101模型、VGG16模型以及resnext模型，而这些模型结构均易于搭建，与现有技术中的检测模型相比，其模型训练的所需要的数据量较少，因此使得单个卷积神经网络模型的训练时间更短，训练精度也更高，从而让单个卷积神经网络模型能够充分利用和学习音频特征，大大地提高了本实施例的卷积神经网络模型的精确度和易用性。

由于以2s为分段时间长度对音频文件进行分段，因此使得各个短时音频文件均能符合卷积神经网络模型的输入的最长判断时间，让卷积神经网络模型的计算更加简单、方便。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于多个卷积神经网络模型结合的异常声音检测方法，采用卷积神经网络模型对多种待测音频文件进行分类以及对所述待测音频文件中的异常声音类别进行检测，其特征在于，包括如下步骤：

步骤S1，对所述待测音频文件进行分段处理，获取多个短时待测音频数据；

步骤S2，对每个所述短时待测音频数据进行预处理，提取出与每个所述待测短时音频数据所相对应的待测音频特征；

步骤S3，将所述待测音频特征输入完成训练的所述卷积神经网络模型，获取所述待测音频文件的分类结果，并标注所述待测音频文件中的异常声音类别，

其中，所述卷积神经网络模型包括预先训练好的三个音频分类检测模型，所述三个音频分类检测模型为各自不同的单个卷积神经网络模型，

所述卷积神经网络模型的训练过程包括如下步骤：

步骤T1，对预定的用于训练所述卷积神经网络模型的训练音频文件进行分段处理，获取多个短时训练音频数据；

步骤T2，对每个所述短时训练音频数据进行预处理，提取出与每个所述短时训练音频数据所相对应的训练音频特征；

步骤T3，将所述训练音频特征按预定比例进行分配，组成一个训练集和一个验证集；

步骤T4，搭建三个单个卷积神经网络模型，采用所述训练集对所述单个卷积神经网络模型进行模型训练，并采用所述验证集对所述单个卷积神经网络模型进行验证，从而获取所述完成训练的所述单个卷积神经网络模型，作为音频分类检测模型；

步骤T5，根据每个所述音频分类检测模型在所述验证集上的准确率对每个所述音频分类检测模型进行权值设定，

步骤S3中检测方法包括如下子步骤：

步骤S3-1，将所述待测音频特征依次输入每个所述音频分类检测模型，获取每个所述待测音频特征在每个所述音频分类检测模型中的类别概率；

步骤S3-2，根据所述权值对所述类别概率进行加权平均，获取所述待测音频特征的最终类别概率；

步骤S3-3，根据所述最终类别概率的数值大小判定所述待测音频的类别；

步骤S3-4，根据所述待测音频的类别的判定结果对所述异常声音类别进行标注。

2.根据权利要求1所述的基于多个卷积神经网络模型结合的异常声音检测方法，其特征在于：

其中，所述单个卷积神经网络模型分别为ResNet101模型、VGG16模型以及resnext模型。

3.根据权利要求1所述的基于多个卷积神经网络模型结合的异常声音检测方法，其特征在于：

其中，所述音频特征是由所述待测音频文件的原始音频数据中提取出的声学特征以及根据所述声学特征求得的一阶导数和二阶导数在所述卷积神经网络模型的通道层面进行融合而成的。

4.根据权利要求1所述的基于多个卷积神经网络模型结合的异常声音检测方法，其特征在于：

其中，步骤S1中所述分段处理包括如下子步骤：

步骤S1-1，从所述待测音频文件中读取所述待测音频文件的原始音频数据；

步骤S1-2，根据读取所述待测音频文件时的采样频率，并且以两秒为分段时间长度对所述原始音频数据进行分段，从而获取多个短时待测音频的短时待测音频数据。

5.根据权利要求4所述的基于多个卷积神经网络模型结合的异常声音检测方法，其特征在于：

其中，步骤S1-2中所述原始音频数据的分段方法为：

将所述采样频率乘以所述分段时长作为一个所述短时音频数据的分段数据长度，再根据所述分段数据长度对所述原始音频数据进行分段，从而获取多个所述短时待测音频数据。

6.根据权利要求1所述的基于多个卷积神经网络模型结合的异常声音检测方法，其特征在于：

其中，步骤S2中所述预处理还包括将所述待测音频特征进行大小归一化。

7.根据权利要求1所述的基于多个卷积神经网络模型结合的异常声音检测方法，其特征在于：

其中，步骤T4包括如下子步骤：

步骤T4-1，构建多个所述单个卷积神经网络模型，每个所述单个卷积神经网络模型的各层中包含不同的模型参数，该模型参数的初始化方式均采用随机初始化；

步骤T4-2，将所述训练集中的所述音频特征作为训练音频特征依次输入所述单个卷积神经网络模型并进行迭代；

步骤T4-3，完成所述迭代后，采用所述单个卷积神经网络模型中最后一层的模型参数计算出损失误差，并将所述损失误差进行反向传播，从而更新所述单个卷积神经网络模型中的所述模型参数；

步骤T4-4，重复步骤T4-2至步骤T4-3直至所述验证集中的所述音频特征在所述单个卷积神经网络模型上进行测试时满足预定效果，即所述单个卷积神经网络模型训练完成；

步骤T4-5，重复步骤T4-1至步骤T4-4直至每个所述单个卷积神经网络模型均训练完成。

8.一种基于多个卷积神经网络模型结合的异常声音检测系统，其特征在于，包括：

预处理部，用于对待测音频进行预处理，从而获取预处理音频数据；

音频分类部，用于从所述待测音频中检测出异常声音的位置及类别，所述音频分类部包含多个训练完成的单个卷积神经网络模型，

其中，每个所述单个卷积神经网络模型均具有不同的权值，使得根据每个所述单个卷积神经网络模型所获取的类别概率能够进行加权平均，从而获取最终类别概率，进而对所述异常声音进行标注。