CN110047512B

CN110047512B - 一种环境声音分类方法、系统及相关装置

Info

Publication number: CN110047512B
Application number: CN201910339723.7A
Authority: CN
Inventors: 廖威平; 陈平华; 董梦琴; 陈建兵; 赵亮; 赵璁
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-04-25
Filing date: 2019-04-25
Publication date: 2021-04-16
Anticipated expiration: 2039-04-25
Also published as: CN110047512A

Abstract

本申请所提供的一种环境声音分类方法，包括：对目标区域内的环境声音进行采集，得到音频文件；对音频文件进行频谱图处理，提取出环境声音对应的物理特性数据；将物理特性数据输入预设混合分类预测模型，输出分类结果；其中，预设混合分类预测模型的网络结构是由深度卷积神经网络模型的网络结构和Light GBM模型的网络结构组合而成。该方法中预设混合分类预测模型的网络结构是由深度卷积神经网络模型的网络结构和Light GBM模型的网络结构组合而成，即该预设混合分类预测模型综合了深度卷积神经网络模型和Light GBM模型的优点，增强了鲁棒性，能够提高环境声音分类的准确率。本申请还提供一种环境声音分类系统、设备及计算机可读存储介质，均具有上述有益效果。

Description

一种环境声音分类方法、系统及相关装置

技术领域

本申请涉及环境声音分类领域，特别涉及一种环境声音分类方法、系统、设备及计算机可读存储介质。

背景技术

随着互联网和信息技术的迅速发展，人们的生活水平日益提高，对生活的质量及工作要求也越来越高，音频作为人们日常生活及商业活动过程中的一种媒介，深深影响着日常生活的行为。音频识别在如今的模式识别领域中是个前沿的研究课题，作为音频识别的一个主要研究分支，环境声音分类(Environmental Sound Classification，ESC)近期受到了许多专家学者的关注，成为了热门话题。ESC是机器分析其声学环境的最重要技术之一，广泛应用于监视、智能家居、场景分析和机器视听等领域。例如监管系统需要检测周围异常的声音来自动报告紧急情况以启动应急方案，机器人需要对周围的环境声音进行分类和识别来做出判断等。与语音和音乐不同，环境声音的音频具有更多的多样性，拥有广泛的频率范围。近年来随着医疗保健、安全监控、预测生态环境变化等应用的增加，环境声音的分类识别越来越重要，环境声音的特征提取和分类准确率决定了系统的性能，这将决定在应用领域上的系统性能是否能更好的满足人类活动的需求。

传统的对环境声音分类的方法有基于机器学习以及浅层卷积神经网络结构模型进行训练预测分类，通过对声音文件进行提取log mel谱图(Mels)和gammatone谱图(GTs)等属性作为输入数据进行训练，最终得出分类预测模型进行预测。传统的基于机器学习的方法在处理此问题上表现出的效果往往不尽如意，得出的模型无法有效进行分类预测；而基于浅层卷积网络的模型结构往往训练出的模型准度依然有待提高。浅层卷积神经网络模型结构单一，无法确定是否达到最优结构，并且该模型结构单一，鲁棒性不足，多次的训练差别比较大。总之，传统的对环境声音分类的方法得出的分类结果准确率较低。

因此，如何能够提高环境声音分类的准确率是本领域技术人员亟需解决的技术问题。

发明内容

本申请的目的是提供一种环境声音分类方法、系统、设备及计算机可读存储介质，能够提高环境声音分类的准确率。

为解决上述技术问题，本申请提供一种环境声音分类方法，包括：

对目标区域内的环境声音进行采集，得到音频文件；

对所述音频文件进行频谱图处理，提取出所述环境声音对应的物理特性数据；

将所述物理特性数据输入预设混合分类预测模型，输出分类结果；其中，所述预设混合分类预测模型的网络结构是由深度卷积神经网络模型的网络结构和Light GBM模型的网络结构组合而成。

优选地，所述将所述物理特性数据输入预设混合分类预测模型，输出分类结果，包括：

根据VGG模型的网络结构，构造原始深度卷积神经网络模型；

利用样本物理特性数据对所述原始深度卷积神经网络模型进行模型训练，得到所述深度卷积神经网络模型；

在构建原始Light GBM模型后，利用所述深度卷积神经网络模型的输出数据对所述原始Light GBM模型进行模型训练，得到所述Light GBM模型；

依次将所述深度卷积神经网络模型和所述Light GBM模型进行组合，得到所述预设混合分类预测模型；

将所述物理特性数据输入所述预设混合分类预测模型，输出所述分类结果。

优选地，所述利用样本物理特性数据对所述原始深度卷积神经网络模型进行模型训练，得到所述深度卷积神经网络模型，包括：

在将所述样本物理特性数据输入所述原始深度卷积神经网络模型后，依次经过所述原始深度卷积神经网络模型的卷积层、池化层及全连接层的处理，得到对应的输出值；

计算所述输出值与预设的目标值之间的误差值，并判断所述误差值是否大于预设期望值；

若所述误差值大于所述预设期望值，则根据所述误差值分别调整所述卷积层、所述池化层及所述全连接层的权值；

将所述样本物理特性数据输入所述权值调整后的原始深度卷积神经网络模型，得到对应的输出值；

在计算出所述输出值对应的误差值后，判断所述误差值是否大于所述预设期望值；

若所述误差值不大于所述预设期望值，则得到所述深度卷积神经网络模型。

优选地，所述在构建原始Light GBM模型后，利用所述深度卷积神经网络模型的输出数据对所述原始Light GBM模型进行模型训练，得到所述Light GBM模型，包括：

在构建所述原始Light GBM模型后，利用所述输出数据对所述原始Light GBM模型中的各个弱分类器进行训练，并根据训练误差确定各个所述弱分类器的权重；

判断训练次数是否达到预设最大迭代次数；

若所述训练次数没有达到所述预设最大迭代次数，则返回执行所述利用所述输出数据对所述原始Light GBM模型中的各个弱分类器进行训练，并根据训练误差确定各个所述弱分类器的权重的步骤；

若所述训练次数达到所述预设最大迭代次数，则将各个所述弱分类器合并为强分类器作为所述Light GBM模型。

本申请还提供一种环境声音分类系统，包括：

环境声音采集模块，用于对目标区域内的环境声音进行采集，得到音频文件；

物理特性数据提取模块，用于对所述音频文件进行频谱图处理，提取出所述环境声音对应的物理特性数据；

分类结果输出模块，用于将所述物理特性数据输入预设混合分类预测模型，输出分类结果；其中，所述预设混合分类预测模型的网络结构是由深度卷积神经网络模型的网络结构和Light GBM模型的网络结构组合而成。

优选地，所述分类结果输出模块，包括：

原始深度卷积神经网络模型构造单元，用于根据VGG模型的网络结构，构造原始深度卷积神经网络模型；

深度卷积神经网络模型获取单元，用于利用样本物理特性数据对所述原始深度卷积神经网络模型进行模型训练，得到所述深度卷积神经网络模型；

Light GBM模型获取单元，用于在构建原始Light GBM模型后，利用所述深度卷积神经网络模型的输出数据对所述原始Light GBM模型进行模型训练，得到所述Light GBM模型；

预设混合分类预测模型获取单元，用于依次将所述深度卷积神经网络模型和所述Light GBM模型进行组合，得到所述预设混合分类预测模型；

分类结果输出单元，用于将所述物理特性数据输入所述预设混合分类预测模型，输出所述分类结果。

优选地，所述深度卷积神经网络模型获取单元，包括：

处理子单元，用于在将所述样本物理特性数据输入所述原始深度卷积神经网络模型后，依次经过所述原始深度卷积神经网络模型的卷积层、池化层及全连接层的处理，得到对应的输出值；

第一判断子单元，用于计算所述输出值与预设的目标值之间的误差值，并判断所述误差值是否大于预设期望值；

权值调整子单元，用于若所述误差值大于所述预设期望值，则根据所述误差值分别调整所述卷积层、所述池化层及所述全连接层的权值；

输出值获取子单元，用于将所述样本物理特性数据输入所述权值调整后的原始深度卷积神经网络模型，得到对应的输出值；

第二判断子单元，用于在计算出所述输出值对应的误差值后，判断所述误差值是否大于所述预设期望值；

深度卷积神经网络模型获取子单元，用于若所述误差值不大于所述预设期望值，则得到所述深度卷积神经网络模型。

优选地，所述Light GBM模型获取单元，包括：

权重确定子单元，用于在构建所述原始Light GBM模型后，利用所述输出数据对所述原始Light GBM模型中的各个弱分类器进行训练，并根据训练误差确定各个所述弱分类器的权重；

次数判断子单元，用于判断训练次数是否达到预设最大迭代次数；

步骤返回执行子单元，用于若所述训练次数没有达到所述预设最大迭代次数，则返回执行所述利用所述输出数据对所述原始Light GBM模型中的各个弱分类器进行训练，并根据训练误差确定各个所述弱分类器的权重的步骤；

弱分类器合并子单元，用于若所述训练次数达到所述预设最大迭代次数，则将各个所述弱分类器合并为强分类器作为所述Light GBM模型。

本申请还提供一种设备，包括：

存储器和处理器；其中，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序时实现上述所述的环境声音分类方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的环境声音分类方法的步骤。

本申请所提供的一种环境声音分类方法，包括：对目标区域内的环境声音进行采集，得到音频文件；对所述音频文件进行频谱图处理，提取出所述环境声音对应的物理特性数据；将所述物理特性数据输入预设混合分类预测模型，输出分类结果；其中，所述预设混合分类预测模型的网络结构是由深度卷积神经网络模型的网络结构和Light GBM模型的网络结构组合而成。

该方法是将环境声音对应的物理特性数据输入预设混合分类预测模型，输出分类结果。由于该预设混合分类预测模型的网络结构是由深度卷积神经网络模型的网络结构和Light GBM模型的网络结构组合而成，即该预设混合分类预测模型综合了深度卷积神经网络模型和Light GBM模型的优点，增强了鲁棒性，能够提高环境声音分类的准确率。本申请还提供一种环境声音分类系统、设备及计算机可读存储介质，均具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种环境声音分类方法的流程图；

图2为本申请实施例所提供的一种环境声音分类系统的结构框图。

具体实施方式

本申请的核心是提供一种环境声音分类方法，能够提高环境声音分类的准确率。本申请的另一核心是提供一种环境声音分类系统、设备及计算机可读存储介质。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

传统的对环境声音分类的方法有基于机器学习以及浅层卷积神经网络结构模型进行训练预测分类，通过对声音文件进行提取log mel谱图(Mels)和gammatone谱图(GTs)等属性作为输入数据进行训练，最终得出分类预测模型进行预测。传统的基于机器学习的方法在处理此问题上表现出的效果往往不尽如意，得出的模型无法有效进行分类预测；而基于浅层卷积网络的模型结构往往训练出的模型准度依然有待提高。浅层卷积神经网络模型结构单一，无法确定是否达到最优结构，并且该模型结构单一，鲁棒性不足，多次的训练差别比较大。总之，传统的对环境声音分类的方法得出的分类结果准确率较低。本申请提供的一种环境声音分类方法，能够提高环境声音分类的准确率，具体请参考图1，图1为本申请实施例所提供的一种环境声音分类方法的流程图，该环境声音分类方法具体包括：

S101、对目标区域内的环境声音进行采集，得到音频文件；

本申请实施例先是对目标区域内的环境声音进行采集，得到音频文件。在此对目标区域的位置、区域范围及目标区域内的环境声音均不作具体限定，应由本领域技术人员根据实际情况作出相应的设定。在此对采集环境声音的音频采集设备及采集时间也均不作具体限定，例如音频采集设备可以具体为录音机，采集时间可以是24小时。对于音频文件也不作具体限定，需根据实际情况而定。

S102、对音频文件进行频谱图处理，提取出环境声音对应的物理特性数据；

本申请实施例在得到音频文件后，对音频文件进行频谱图处理，提取出环境声音对应的物理特性数据。在此对于频谱图处理的方式不作具体限定，只要能够提取出环境声音对应的物理特性数据即可。

S103、将物理特性数据输入预设混合分类预测模型，输出分类结果；其中，预设混合分类预测模型的网络结构是由深度卷积神经网络模型的网络结构和Light GBM模型的网络结构组合而成。

本申请实施例在提取出环境声音对应的物理特性数据后，将物理特性数据输入预设混合分类预测模型，输出分类结果。本申请实施例中的预设混合分类预测模型的网络结构是由深度卷积神经网络模型的网络结构和Light GBM模型的网络结构组合而成，也即该预设混合分类预测模型是深度卷积神经网络模型和Light GBM模型融合而成的，综合了两种模型的优点，增强了模型的鲁棒性，分类预测的效果更好。在此对于预设混合分类预测模型的构成方式不作具体限定，需根据实际情况而定。

进一步地，上述将物理特性数据输入预设混合分类预测模型，输出分类结果，通常包括：根据VGG模型的网络结构，构造原始深度卷积神经网络模型；利用样本物理特性数据对原始深度卷积神经网络模型进行模型训练，得到深度卷积神经网络模型；在构建原始Light GBM模型后，利用深度卷积神经网络模型的输出数据对原始Light GBM模型进行模型训练，得到Light GBM模型；依次将深度卷积神经网络模型和Light GBM模型进行组合，得到预设混合分类预测模型；将物理特性数据输入预设混合分类预测模型，输出分类结果。本申请实施例中的原始深度卷积神经网络模型的网络层结构是根据VGG模型的网络结构而构造的，即原始深度卷积神经网络模型的网络层结构类似于VGG模型的网络结构。利用深度卷积神经网络模型的输出数据对原始Light GBM模型进行模型训练，能够达到提高混合模型分类预测的准确率效果。

进一步地，上述利用样本物理特性数据对原始深度卷积神经网络模型进行模型训练，得到深度卷积神经网络模型，通常包括：在将样本物理特性数据输入原始深度卷积神经网络模型后，依次经过原始深度卷积神经网络模型的卷积层、池化层及全连接层的处理，得到对应的输出值；计算输出值与预设的目标值之间的误差值，并判断误差值是否大于预设期望值；若误差值大于预设期望值，则根据误差值分别调整卷积层、池化层及全连接层的权值；将样本物理特性数据输入权值调整后的原始深度卷积神经网络模型，得到对应的输出值；在计算出输出值对应的误差值后，判断误差值是否大于预设期望值；若误差值不大于预设期望值，则得到深度卷积神经网络模型。本申请实施例对预设期望值不作具体限定，应由本领域技术人员根据实际情况进行设定。

进一步地，上述在构建原始Light GBM模型后，利用深度卷积神经网络模型的输出数据对原始Light GBM模型进行模型训练，得到Light GBM模型，通常包括：在构建原始Light GBM模型后，利用输出数据对原始Light GBM模型中的各个弱分类器进行训练，并根据训练误差确定各个弱分类器的权重；判断训练次数是否达到预设最大迭代次数；若训练次数没有达到预设最大迭代次数，则返回执行利用输出数据对原始Light GBM模型中的各个弱分类器进行训练，并根据训练误差确定各个弱分类器的权重的步骤；若训练次数达到预设最大迭代次数，则将各个弱分类器合并为强分类器作为Light GBM模型。在此对预设最大迭代次数不作具体限定，应由本领域技术人员根据实际情况进行设定。

本申请是将环境声音对应的物理特性数据输入预设混合分类预测模型，输出分类结果。由于该预设混合分类预测模型的网络结构是由深度卷积神经网络模型的网络结构和Light GBM模型的网络结构组合而成，即该预设混合分类预测模型综合了深度卷积神经网络模型和Light GBM模型的优点，增强了鲁棒性，能够提高环境声音分类的准确率。

下面对本申请实施例提供的一种环境声音分类系统、设备及计算机可读存储介质进行介绍，下文描述的环境声音分类系统、设备及计算机可读存储介质与上文描述的环境声音分类方法可相互对应参照。

请参考图2，图2为本申请实施例所提供的一种环境声音分类系统的结构框图；该环境声音分类系统包括：

环境声音采集模块201，用于对目标区域内的环境声音进行采集，得到音频文件；

物理特性数据提取模块202，用于对音频文件进行频谱图处理，提取出环境声音对应的物理特性数据；

分类结果输出模块203，用于将物理特性数据输入预设混合分类预测模型，输出分类结果；其中，预设混合分类预测模型的网络结构是由深度卷积神经网络模型的网络结构和Light GBM模型的网络结构组合而成。

基于上述实施例，本实施例中分类结果输出模块203，通常包括：

深度卷积神经网络模型获取单元，用于利用样本物理特性数据对原始深度卷积神经网络模型进行模型训练，得到深度卷积神经网络模型；

Light GBM模型获取单元，用于在构建原始Light GBM模型后，利用深度卷积神经网络模型的输出数据对原始Light GBM模型进行模型训练，得到Light GBM模型；

预设混合分类预测模型获取单元，用于依次将深度卷积神经网络模型和LightGBM模型进行组合，得到预设混合分类预测模型；

分类结果输出单元，用于将物理特性数据输入预设混合分类预测模型，输出分类结果。

基于上述实施例，本实施例中深度卷积神经网络模型获取单元，通常包括：

处理子单元，用于在将样本物理特性数据输入原始深度卷积神经网络模型后，依次经过原始深度卷积神经网络模型的卷积层、池化层及全连接层的处理，得到对应的输出值；

第一判断子单元，用于计算输出值与预设的目标值之间的误差值，并判断误差值是否大于预设期望值；

权值调整子单元，用于若误差值大于预设期望值，则根据误差值分别调整卷积层、池化层及全连接层的权值；

输出值获取子单元，用于将样本物理特性数据输入权值调整后的原始深度卷积神经网络模型，得到对应的输出值；

第二判断子单元，用于在计算出输出值对应的误差值后，判断误差值是否大于预设期望值；

深度卷积神经网络模型获取子单元，用于若误差值不大于预设期望值，则得到深度卷积神经网络模型。

基于上述实施例，本实施例中Light GBM模型获取单元，通常包括：

权重确定子单元，用于在构建原始Light GBM模型后，利用输出数据对原始LightGBM模型中的各个弱分类器进行训练，并根据训练误差确定各个弱分类器的权重；

步骤返回执行子单元，用于若训练次数没有达到预设最大迭代次数，则返回执行利用输出数据对原始Light GBM模型中的各个弱分类器进行训练，并根据训练误差确定各个弱分类器的权重的步骤；

弱分类器合并子单元，用于若训练次数达到预设最大迭代次数，则将各个弱分类器合并为强分类器作为Light GBM模型。

本申请还提供一种设备，包括：存储器和处理器；其中，存储器用于存储计算机程序，处理器用于执行计算机程序时实现上述任意实施例的环境声音分类方法的步骤。

本申请还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述任意实施例的环境声音分类方法的步骤。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言，由于其与实施例提供的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的一种门禁开启方法、系统、门禁控制系统及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种环境声音分类方法，其特征在于，包括：

对目标区域内的环境声音进行采集，得到音频文件；

将所述物理特性数据输入预设混合分类预测模型，输出分类结果；其中，所述预设混合分类预测模型的网络结构是由深度卷积神经网络模型的网络结构和Light GBM模型的网络结构组合而成；

所述将所述物理特性数据输入预设混合分类预测模型，输出分类结果，包括：

根据VGG模型的网络结构，构造原始深度卷积神经网络模型；

2.根据权利要求1所述的环境声音分类方法，其特征在于，所述利用样本物理特性数据对所述原始深度卷积神经网络模型进行模型训练，得到所述深度卷积神经网络模型，包括：

3.根据权利要求1所述的环境声音分类方法，其特征在于，所述在构建原始Light GBM模型后，利用所述深度卷积神经网络模型的输出数据对所述原始Light GBM模型进行模型训练，得到所述Light GBM模型，包括：

判断训练次数是否达到预设最大迭代次数；

4.一种环境声音分类系统，其特征在于，包括：

分类结果输出模块，用于将所述物理特性数据输入预设混合分类预测模型，输出分类结果；其中，所述预设混合分类预测模型的网络结构是由深度卷积神经网络模型的网络结构和Light GBM模型的网络结构组合而成；

所述分类结果输出模块，包括：

5.根据权利要求4所述的环境声音分类系统，其特征在于，所述深度卷积神经网络模型获取单元，包括：

6.根据权利要求4所述的环境声音分类系统，其特征在于，所述Light GBM模型获取单元，包括：

7.一种环境声音分类设备，其特征在于，包括：

存储器和处理器；其中，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序时实现如权利要求1至3任一项所述的环境声音分类方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述的环境声音分类方法的步骤。