CN110047512B - 一种环境声音分类方法、系统及相关装置 - Google Patents
一种环境声音分类方法、系统及相关装置 Download PDFInfo
- Publication number
- CN110047512B CN110047512B CN201910339723.7A CN201910339723A CN110047512B CN 110047512 B CN110047512 B CN 110047512B CN 201910339723 A CN201910339723 A CN 201910339723A CN 110047512 B CN110047512 B CN 110047512B
- Authority
- CN
- China
- Prior art keywords
- model
- neural network
- convolutional neural
- deep convolutional
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007613 environmental effect Effects 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 90
- 238000012545 processing Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims description 58
- 238000011176 pooling Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 238000003062 neural network model Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 3
- 238000013075 data extraction Methods 0.000 claims description 3
- 230000000704 physical effect Effects 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请所提供的一种环境声音分类方法,包括:对目标区域内的环境声音进行采集,得到音频文件;对音频文件进行频谱图处理,提取出环境声音对应的物理特性数据;将物理特性数据输入预设混合分类预测模型,输出分类结果;其中,预设混合分类预测模型的网络结构是由深度卷积神经网络模型的网络结构和Light GBM模型的网络结构组合而成。该方法中预设混合分类预测模型的网络结构是由深度卷积神经网络模型的网络结构和Light GBM模型的网络结构组合而成,即该预设混合分类预测模型综合了深度卷积神经网络模型和Light GBM模型的优点,增强了鲁棒性,能够提高环境声音分类的准确率。本申请还提供一种环境声音分类系统、设备及计算机可读存储介质,均具有上述有益效果。
Description
技术领域
本申请涉及环境声音分类领域,特别涉及一种环境声音分类方法、系统、设备及计算机可读存储介质。
背景技术
随着互联网和信息技术的迅速发展,人们的生活水平日益提高,对生活的质量及工作要求也越来越高,音频作为人们日常生活及商业活动过程中的一种媒介,深深影响着日常生活的行为。音频识别在如今的模式识别领域中是个前沿的研究课题,作为音频识别的一个主要研究分支,环境声音分类(Environmental Sound Classification,ESC)近期受到了许多专家学者的关注,成为了热门话题。ESC是机器分析其声学环境的最重要技术之一,广泛应用于监视、智能家居、场景分析和机器视听等领域。例如监管系统需要检测周围异常的声音来自动报告紧急情况以启动应急方案,机器人需要对周围的环境声音进行分类和识别来做出判断等。与语音和音乐不同,环境声音的音频具有更多的多样性,拥有广泛的频率范围。近年来随着医疗保健、安全监控、预测生态环境变化等应用的增加,环境声音的分类识别越来越重要,环境声音的特征提取和分类准确率决定了系统的性能,这将决定在应用领域上的系统性能是否能更好的满足人类活动的需求。
传统的对环境声音分类的方法有基于机器学习以及浅层卷积神经网络结构模型进行训练预测分类,通过对声音文件进行提取log mel谱图(Mels)和gammatone谱图(GTs)等属性作为输入数据进行训练,最终得出分类预测模型进行预测。传统的基于机器学习的方法在处理此问题上表现出的效果往往不尽如意,得出的模型无法有效进行分类预测;而基于浅层卷积网络的模型结构往往训练出的模型准度依然有待提高。浅层卷积神经网络模型结构单一,无法确定是否达到最优结构,并且该模型结构单一,鲁棒性不足,多次的训练差别比较大。总之,传统的对环境声音分类的方法得出的分类结果准确率较低。
因此,如何能够提高环境声音分类的准确率是本领域技术人员亟需解决的技术问题。
发明内容
本申请的目的是提供一种环境声音分类方法、系统、设备及计算机可读存储介质,能够提高环境声音分类的准确率。
为解决上述技术问题,本申请提供一种环境声音分类方法,包括:
对目标区域内的环境声音进行采集,得到音频文件;
对所述音频文件进行频谱图处理,提取出所述环境声音对应的物理特性数据;
将所述物理特性数据输入预设混合分类预测模型,输出分类结果;其中,所述预设混合分类预测模型的网络结构是由深度卷积神经网络模型的网络结构和Light GBM模型的网络结构组合而成。
优选地,所述将所述物理特性数据输入预设混合分类预测模型,输出分类结果,包括:
根据VGG模型的网络结构,构造原始深度卷积神经网络模型;
利用样本物理特性数据对所述原始深度卷积神经网络模型进行模型训练,得到所述深度卷积神经网络模型;
在构建原始Light GBM模型后,利用所述深度卷积神经网络模型的输出数据对所述原始Light GBM模型进行模型训练,得到所述Light GBM模型;
依次将所述深度卷积神经网络模型和所述Light GBM模型进行组合,得到所述预设混合分类预测模型;
将所述物理特性数据输入所述预设混合分类预测模型,输出所述分类结果。
优选地,所述利用样本物理特性数据对所述原始深度卷积神经网络模型进行模型训练,得到所述深度卷积神经网络模型,包括:
在将所述样本物理特性数据输入所述原始深度卷积神经网络模型后,依次经过所述原始深度卷积神经网络模型的卷积层、池化层及全连接层的处理,得到对应的输出值;
计算所述输出值与预设的目标值之间的误差值,并判断所述误差值是否大于预设期望值;
若所述误差值大于所述预设期望值,则根据所述误差值分别调整所述卷积层、所述池化层及所述全连接层的权值;
将所述样本物理特性数据输入所述权值调整后的原始深度卷积神经网络模型,得到对应的输出值;
在计算出所述输出值对应的误差值后,判断所述误差值是否大于所述预设期望值;
若所述误差值不大于所述预设期望值,则得到所述深度卷积神经网络模型。
优选地,所述在构建原始Light GBM模型后,利用所述深度卷积神经网络模型的输出数据对所述原始Light GBM模型进行模型训练,得到所述Light GBM模型,包括:
在构建所述原始Light GBM模型后,利用所述输出数据对所述原始Light GBM模型中的各个弱分类器进行训练,并根据训练误差确定各个所述弱分类器的权重;
判断训练次数是否达到预设最大迭代次数;
若所述训练次数没有达到所述预设最大迭代次数,则返回执行所述利用所述输出数据对所述原始Light GBM模型中的各个弱分类器进行训练,并根据训练误差确定各个所述弱分类器的权重的步骤;
若所述训练次数达到所述预设最大迭代次数,则将各个所述弱分类器合并为强分类器作为所述Light GBM模型。
本申请还提供一种环境声音分类系统,包括:
环境声音采集模块,用于对目标区域内的环境声音进行采集,得到音频文件;
物理特性数据提取模块,用于对所述音频文件进行频谱图处理,提取出所述环境声音对应的物理特性数据;
分类结果输出模块,用于将所述物理特性数据输入预设混合分类预测模型,输出分类结果;其中,所述预设混合分类预测模型的网络结构是由深度卷积神经网络模型的网络结构和Light GBM模型的网络结构组合而成。
优选地,所述分类结果输出模块,包括:
原始深度卷积神经网络模型构造单元,用于根据VGG模型的网络结构,构造原始深度卷积神经网络模型;
深度卷积神经网络模型获取单元,用于利用样本物理特性数据对所述原始深度卷积神经网络模型进行模型训练,得到所述深度卷积神经网络模型;
Light GBM模型获取单元,用于在构建原始Light GBM模型后,利用所述深度卷积神经网络模型的输出数据对所述原始Light GBM模型进行模型训练,得到所述Light GBM模型;
预设混合分类预测模型获取单元,用于依次将所述深度卷积神经网络模型和所述Light GBM模型进行组合,得到所述预设混合分类预测模型;
分类结果输出单元,用于将所述物理特性数据输入所述预设混合分类预测模型,输出所述分类结果。
优选地,所述深度卷积神经网络模型获取单元,包括:
处理子单元,用于在将所述样本物理特性数据输入所述原始深度卷积神经网络模型后,依次经过所述原始深度卷积神经网络模型的卷积层、池化层及全连接层的处理,得到对应的输出值;
第一判断子单元,用于计算所述输出值与预设的目标值之间的误差值,并判断所述误差值是否大于预设期望值;
权值调整子单元,用于若所述误差值大于所述预设期望值,则根据所述误差值分别调整所述卷积层、所述池化层及所述全连接层的权值;
输出值获取子单元,用于将所述样本物理特性数据输入所述权值调整后的原始深度卷积神经网络模型,得到对应的输出值;
第二判断子单元,用于在计算出所述输出值对应的误差值后,判断所述误差值是否大于所述预设期望值;
深度卷积神经网络模型获取子单元,用于若所述误差值不大于所述预设期望值,则得到所述深度卷积神经网络模型。
优选地,所述Light GBM模型获取单元,包括:
权重确定子单元,用于在构建所述原始Light GBM模型后,利用所述输出数据对所述原始Light GBM模型中的各个弱分类器进行训练,并根据训练误差确定各个所述弱分类器的权重;
次数判断子单元,用于判断训练次数是否达到预设最大迭代次数;
步骤返回执行子单元,用于若所述训练次数没有达到所述预设最大迭代次数,则返回执行所述利用所述输出数据对所述原始Light GBM模型中的各个弱分类器进行训练,并根据训练误差确定各个所述弱分类器的权重的步骤;
弱分类器合并子单元,用于若所述训练次数达到所述预设最大迭代次数,则将各个所述弱分类器合并为强分类器作为所述Light GBM模型。
本申请还提供一种设备,包括:
存储器和处理器;其中,所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序时实现上述所述的环境声音分类方法的步骤。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的环境声音分类方法的步骤。
本申请所提供的一种环境声音分类方法,包括:对目标区域内的环境声音进行采集,得到音频文件;对所述音频文件进行频谱图处理,提取出所述环境声音对应的物理特性数据;将所述物理特性数据输入预设混合分类预测模型,输出分类结果;其中,所述预设混合分类预测模型的网络结构是由深度卷积神经网络模型的网络结构和Light GBM模型的网络结构组合而成。
该方法是将环境声音对应的物理特性数据输入预设混合分类预测模型,输出分类结果。由于该预设混合分类预测模型的网络结构是由深度卷积神经网络模型的网络结构和Light GBM模型的网络结构组合而成,即该预设混合分类预测模型综合了深度卷积神经网络模型和Light GBM模型的优点,增强了鲁棒性,能够提高环境声音分类的准确率。本申请还提供一种环境声音分类系统、设备及计算机可读存储介质,均具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的一种环境声音分类方法的流程图;
图2为本申请实施例所提供的一种环境声音分类系统的结构框图。
具体实施方式
本申请的核心是提供一种环境声音分类方法,能够提高环境声音分类的准确率。本申请的另一核心是提供一种环境声音分类系统、设备及计算机可读存储介质。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
传统的对环境声音分类的方法有基于机器学习以及浅层卷积神经网络结构模型进行训练预测分类,通过对声音文件进行提取log mel谱图(Mels)和gammatone谱图(GTs)等属性作为输入数据进行训练,最终得出分类预测模型进行预测。传统的基于机器学习的方法在处理此问题上表现出的效果往往不尽如意,得出的模型无法有效进行分类预测;而基于浅层卷积网络的模型结构往往训练出的模型准度依然有待提高。浅层卷积神经网络模型结构单一,无法确定是否达到最优结构,并且该模型结构单一,鲁棒性不足,多次的训练差别比较大。总之,传统的对环境声音分类的方法得出的分类结果准确率较低。本申请提供的一种环境声音分类方法,能够提高环境声音分类的准确率,具体请参考图1,图1为本申请实施例所提供的一种环境声音分类方法的流程图,该环境声音分类方法具体包括:
S101、对目标区域内的环境声音进行采集,得到音频文件;
本申请实施例先是对目标区域内的环境声音进行采集,得到音频文件。在此对目标区域的位置、区域范围及目标区域内的环境声音均不作具体限定,应由本领域技术人员根据实际情况作出相应的设定。在此对采集环境声音的音频采集设备及采集时间也均不作具体限定,例如音频采集设备可以具体为录音机,采集时间可以是24小时。对于音频文件也不作具体限定,需根据实际情况而定。
S102、对音频文件进行频谱图处理,提取出环境声音对应的物理特性数据;
本申请实施例在得到音频文件后,对音频文件进行频谱图处理,提取出环境声音对应的物理特性数据。在此对于频谱图处理的方式不作具体限定,只要能够提取出环境声音对应的物理特性数据即可。
S103、将物理特性数据输入预设混合分类预测模型,输出分类结果;其中,预设混合分类预测模型的网络结构是由深度卷积神经网络模型的网络结构和Light GBM模型的网络结构组合而成。
本申请实施例在提取出环境声音对应的物理特性数据后,将物理特性数据输入预设混合分类预测模型,输出分类结果。本申请实施例中的预设混合分类预测模型的网络结构是由深度卷积神经网络模型的网络结构和Light GBM模型的网络结构组合而成,也即该预设混合分类预测模型是深度卷积神经网络模型和Light GBM模型融合而成的,综合了两种模型的优点,增强了模型的鲁棒性,分类预测的效果更好。在此对于预设混合分类预测模型的构成方式不作具体限定,需根据实际情况而定。
进一步地,上述将物理特性数据输入预设混合分类预测模型,输出分类结果,通常包括:根据VGG模型的网络结构,构造原始深度卷积神经网络模型;利用样本物理特性数据对原始深度卷积神经网络模型进行模型训练,得到深度卷积神经网络模型;在构建原始Light GBM模型后,利用深度卷积神经网络模型的输出数据对原始Light GBM模型进行模型训练,得到Light GBM模型;依次将深度卷积神经网络模型和Light GBM模型进行组合,得到预设混合分类预测模型;将物理特性数据输入预设混合分类预测模型,输出分类结果。本申请实施例中的原始深度卷积神经网络模型的网络层结构是根据VGG模型的网络结构而构造的,即原始深度卷积神经网络模型的网络层结构类似于VGG模型的网络结构。利用深度卷积神经网络模型的输出数据对原始Light GBM模型进行模型训练,能够达到提高混合模型分类预测的准确率效果。
进一步地,上述利用样本物理特性数据对原始深度卷积神经网络模型进行模型训练,得到深度卷积神经网络模型,通常包括:在将样本物理特性数据输入原始深度卷积神经网络模型后,依次经过原始深度卷积神经网络模型的卷积层、池化层及全连接层的处理,得到对应的输出值;计算输出值与预设的目标值之间的误差值,并判断误差值是否大于预设期望值;若误差值大于预设期望值,则根据误差值分别调整卷积层、池化层及全连接层的权值;将样本物理特性数据输入权值调整后的原始深度卷积神经网络模型,得到对应的输出值;在计算出输出值对应的误差值后,判断误差值是否大于预设期望值;若误差值不大于预设期望值,则得到深度卷积神经网络模型。本申请实施例对预设期望值不作具体限定,应由本领域技术人员根据实际情况进行设定。
进一步地,上述在构建原始Light GBM模型后,利用深度卷积神经网络模型的输出数据对原始Light GBM模型进行模型训练,得到Light GBM模型,通常包括:在构建原始Light GBM模型后,利用输出数据对原始Light GBM模型中的各个弱分类器进行训练,并根据训练误差确定各个弱分类器的权重;判断训练次数是否达到预设最大迭代次数;若训练次数没有达到预设最大迭代次数,则返回执行利用输出数据对原始Light GBM模型中的各个弱分类器进行训练,并根据训练误差确定各个弱分类器的权重的步骤;若训练次数达到预设最大迭代次数,则将各个弱分类器合并为强分类器作为Light GBM模型。在此对预设最大迭代次数不作具体限定,应由本领域技术人员根据实际情况进行设定。
本申请是将环境声音对应的物理特性数据输入预设混合分类预测模型,输出分类结果。由于该预设混合分类预测模型的网络结构是由深度卷积神经网络模型的网络结构和Light GBM模型的网络结构组合而成,即该预设混合分类预测模型综合了深度卷积神经网络模型和Light GBM模型的优点,增强了鲁棒性,能够提高环境声音分类的准确率。
下面对本申请实施例提供的一种环境声音分类系统、设备及计算机可读存储介质进行介绍,下文描述的环境声音分类系统、设备及计算机可读存储介质与上文描述的环境声音分类方法可相互对应参照。
请参考图2,图2为本申请实施例所提供的一种环境声音分类系统的结构框图;该环境声音分类系统包括:
环境声音采集模块201,用于对目标区域内的环境声音进行采集,得到音频文件;
物理特性数据提取模块202,用于对音频文件进行频谱图处理,提取出环境声音对应的物理特性数据;
分类结果输出模块203,用于将物理特性数据输入预设混合分类预测模型,输出分类结果;其中,预设混合分类预测模型的网络结构是由深度卷积神经网络模型的网络结构和Light GBM模型的网络结构组合而成。
基于上述实施例,本实施例中分类结果输出模块203,通常包括:
原始深度卷积神经网络模型构造单元,用于根据VGG模型的网络结构,构造原始深度卷积神经网络模型;
深度卷积神经网络模型获取单元,用于利用样本物理特性数据对原始深度卷积神经网络模型进行模型训练,得到深度卷积神经网络模型;
Light GBM模型获取单元,用于在构建原始Light GBM模型后,利用深度卷积神经网络模型的输出数据对原始Light GBM模型进行模型训练,得到Light GBM模型;
预设混合分类预测模型获取单元,用于依次将深度卷积神经网络模型和LightGBM模型进行组合,得到预设混合分类预测模型;
分类结果输出单元,用于将物理特性数据输入预设混合分类预测模型,输出分类结果。
基于上述实施例,本实施例中深度卷积神经网络模型获取单元,通常包括:
处理子单元,用于在将样本物理特性数据输入原始深度卷积神经网络模型后,依次经过原始深度卷积神经网络模型的卷积层、池化层及全连接层的处理,得到对应的输出值;
第一判断子单元,用于计算输出值与预设的目标值之间的误差值,并判断误差值是否大于预设期望值;
权值调整子单元,用于若误差值大于预设期望值,则根据误差值分别调整卷积层、池化层及全连接层的权值;
输出值获取子单元,用于将样本物理特性数据输入权值调整后的原始深度卷积神经网络模型,得到对应的输出值;
第二判断子单元,用于在计算出输出值对应的误差值后,判断误差值是否大于预设期望值;
深度卷积神经网络模型获取子单元,用于若误差值不大于预设期望值,则得到深度卷积神经网络模型。
基于上述实施例,本实施例中Light GBM模型获取单元,通常包括:
权重确定子单元,用于在构建原始Light GBM模型后,利用输出数据对原始LightGBM模型中的各个弱分类器进行训练,并根据训练误差确定各个弱分类器的权重;
次数判断子单元,用于判断训练次数是否达到预设最大迭代次数;
步骤返回执行子单元,用于若训练次数没有达到预设最大迭代次数,则返回执行利用输出数据对原始Light GBM模型中的各个弱分类器进行训练,并根据训练误差确定各个弱分类器的权重的步骤;
弱分类器合并子单元,用于若训练次数达到预设最大迭代次数,则将各个弱分类器合并为强分类器作为Light GBM模型。
本申请还提供一种设备,包括:存储器和处理器;其中,存储器用于存储计算机程序,处理器用于执行计算机程序时实现上述任意实施例的环境声音分类方法的步骤。
本申请还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述任意实施例的环境声音分类方法的步骤。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言,由于其与实施例提供的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的一种门禁开启方法、系统、门禁控制系统及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
Claims (8)
1.一种环境声音分类方法,其特征在于,包括:
对目标区域内的环境声音进行采集,得到音频文件;
对所述音频文件进行频谱图处理,提取出所述环境声音对应的物理特性数据;
将所述物理特性数据输入预设混合分类预测模型,输出分类结果;其中,所述预设混合分类预测模型的网络结构是由深度卷积神经网络模型的网络结构和Light GBM模型的网络结构组合而成;
所述将所述物理特性数据输入预设混合分类预测模型,输出分类结果,包括:
根据VGG模型的网络结构,构造原始深度卷积神经网络模型;
利用样本物理特性数据对所述原始深度卷积神经网络模型进行模型训练,得到所述深度卷积神经网络模型;
在构建原始Light GBM模型后,利用所述深度卷积神经网络模型的输出数据对所述原始Light GBM模型进行模型训练,得到所述Light GBM模型;
依次将所述深度卷积神经网络模型和所述Light GBM模型进行组合,得到所述预设混合分类预测模型;
将所述物理特性数据输入所述预设混合分类预测模型,输出所述分类结果。
2.根据权利要求1所述的环境声音分类方法,其特征在于,所述利用样本物理特性数据对所述原始深度卷积神经网络模型进行模型训练,得到所述深度卷积神经网络模型,包括:
在将所述样本物理特性数据输入所述原始深度卷积神经网络模型后,依次经过所述原始深度卷积神经网络模型的卷积层、池化层及全连接层的处理,得到对应的输出值;
计算所述输出值与预设的目标值之间的误差值,并判断所述误差值是否大于预设期望值;
若所述误差值大于所述预设期望值,则根据所述误差值分别调整所述卷积层、所述池化层及所述全连接层的权值;
将所述样本物理特性数据输入所述权值调整后的原始深度卷积神经网络模型,得到对应的输出值;
在计算出所述输出值对应的误差值后,判断所述误差值是否大于所述预设期望值;
若所述误差值不大于所述预设期望值,则得到所述深度卷积神经网络模型。
3.根据权利要求1所述的环境声音分类方法,其特征在于,所述在构建原始Light GBM模型后,利用所述深度卷积神经网络模型的输出数据对所述原始Light GBM模型进行模型训练,得到所述Light GBM模型,包括:
在构建所述原始Light GBM模型后,利用所述输出数据对所述原始Light GBM模型中的各个弱分类器进行训练,并根据训练误差确定各个所述弱分类器的权重;
判断训练次数是否达到预设最大迭代次数;
若所述训练次数没有达到所述预设最大迭代次数,则返回执行所述利用所述输出数据对所述原始Light GBM模型中的各个弱分类器进行训练,并根据训练误差确定各个所述弱分类器的权重的步骤;
若所述训练次数达到所述预设最大迭代次数,则将各个所述弱分类器合并为强分类器作为所述Light GBM模型。
4.一种环境声音分类系统,其特征在于,包括:
环境声音采集模块,用于对目标区域内的环境声音进行采集,得到音频文件;
物理特性数据提取模块,用于对所述音频文件进行频谱图处理,提取出所述环境声音对应的物理特性数据;
分类结果输出模块,用于将所述物理特性数据输入预设混合分类预测模型,输出分类结果;其中,所述预设混合分类预测模型的网络结构是由深度卷积神经网络模型的网络结构和Light GBM模型的网络结构组合而成;
所述分类结果输出模块,包括:
原始深度卷积神经网络模型构造单元,用于根据VGG模型的网络结构,构造原始深度卷积神经网络模型;
深度卷积神经网络模型获取单元,用于利用样本物理特性数据对所述原始深度卷积神经网络模型进行模型训练,得到所述深度卷积神经网络模型;
Light GBM模型获取单元,用于在构建原始Light GBM模型后,利用所述深度卷积神经网络模型的输出数据对所述原始Light GBM模型进行模型训练,得到所述Light GBM模型;
预设混合分类预测模型获取单元,用于依次将所述深度卷积神经网络模型和所述Light GBM模型进行组合,得到所述预设混合分类预测模型;
分类结果输出单元,用于将所述物理特性数据输入所述预设混合分类预测模型,输出所述分类结果。
5.根据权利要求4所述的环境声音分类系统,其特征在于,所述深度卷积神经网络模型获取单元,包括:
处理子单元,用于在将所述样本物理特性数据输入所述原始深度卷积神经网络模型后,依次经过所述原始深度卷积神经网络模型的卷积层、池化层及全连接层的处理,得到对应的输出值;
第一判断子单元,用于计算所述输出值与预设的目标值之间的误差值,并判断所述误差值是否大于预设期望值;
权值调整子单元,用于若所述误差值大于所述预设期望值,则根据所述误差值分别调整所述卷积层、所述池化层及所述全连接层的权值;
输出值获取子单元,用于将所述样本物理特性数据输入所述权值调整后的原始深度卷积神经网络模型,得到对应的输出值;
第二判断子单元,用于在计算出所述输出值对应的误差值后,判断所述误差值是否大于所述预设期望值;
深度卷积神经网络模型获取子单元,用于若所述误差值不大于所述预设期望值,则得到所述深度卷积神经网络模型。
6.根据权利要求4所述的环境声音分类系统,其特征在于,所述Light GBM模型获取单元,包括:
权重确定子单元,用于在构建所述原始Light GBM模型后,利用所述输出数据对所述原始Light GBM模型中的各个弱分类器进行训练,并根据训练误差确定各个所述弱分类器的权重;
次数判断子单元,用于判断训练次数是否达到预设最大迭代次数;
步骤返回执行子单元,用于若所述训练次数没有达到所述预设最大迭代次数,则返回执行所述利用所述输出数据对所述原始Light GBM模型中的各个弱分类器进行训练,并根据训练误差确定各个所述弱分类器的权重的步骤;
弱分类器合并子单元,用于若所述训练次数达到所述预设最大迭代次数,则将各个所述弱分类器合并为强分类器作为所述Light GBM模型。
7.一种环境声音分类设备,其特征在于,包括:
存储器和处理器;其中,所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序时实现如权利要求1至3任一项所述的环境声音分类方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述的环境声音分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910339723.7A CN110047512B (zh) | 2019-04-25 | 2019-04-25 | 一种环境声音分类方法、系统及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910339723.7A CN110047512B (zh) | 2019-04-25 | 2019-04-25 | 一种环境声音分类方法、系统及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110047512A CN110047512A (zh) | 2019-07-23 |
CN110047512B true CN110047512B (zh) | 2021-04-16 |
Family
ID=67279393
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910339723.7A Active CN110047512B (zh) | 2019-04-25 | 2019-04-25 | 一种环境声音分类方法、系统及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110047512B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110755108A (zh) * | 2019-11-04 | 2020-02-07 | 合肥望闻健康科技有限公司 | 一种基于智能听诊器的心脏声音分类方法、系统、装置及可读存储介质 |
CN111028852A (zh) * | 2019-11-06 | 2020-04-17 | 杭州哲信信息技术有限公司 | 一种基于cnn的智能呼叫系统中的噪声去除方法 |
CN111314329B (zh) * | 2020-02-03 | 2022-01-28 | 杭州迪普科技股份有限公司 | 流量入侵检测系统和方法 |
CN111370019B (zh) * | 2020-03-02 | 2023-08-29 | 字节跳动有限公司 | 声源分离方法及装置、神经网络的模型训练方法及装置 |
CN111540346A (zh) * | 2020-05-13 | 2020-08-14 | 慧言科技(天津)有限公司 | 一种远场声音分类方法和装置 |
CN112634946B (zh) * | 2020-12-25 | 2022-04-12 | 博瑞得科技有限公司 | 一种语音质量分类预测方法、计算机设备及存储介质 |
CN113658607A (zh) * | 2021-07-23 | 2021-11-16 | 南京理工大学 | 基于数据增强和卷积循环神经网络的环境声音分类方法 |
CN114234061B (zh) * | 2021-12-20 | 2024-06-21 | 北京工业大学 | 一种基于神经网络的带压运行供水管道漏水音智能判别方法 |
CN114420163B (zh) * | 2022-01-18 | 2023-04-07 | 小米汽车科技有限公司 | 声音识别方法、装置、存储介质、电子设备及车辆 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109065030A (zh) * | 2018-08-01 | 2018-12-21 | 上海大学 | 基于卷积神经网络的环境声音识别方法及系统 |
CN109448713A (zh) * | 2018-11-13 | 2019-03-08 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104240720A (zh) * | 2013-06-24 | 2014-12-24 | 北京大学深圳研究生院 | 一种基于多重分形和信息融合的语音情感识别方法 |
US10360901B2 (en) * | 2013-12-06 | 2019-07-23 | Nuance Communications, Inc. | Learning front-end speech recognition parameters within neural network training |
US10373073B2 (en) * | 2016-01-11 | 2019-08-06 | International Business Machines Corporation | Creating deep learning models using feature augmentation |
CN107545890A (zh) * | 2017-08-31 | 2018-01-05 | 桂林电子科技大学 | 一种声音事件识别方法 |
CN108829810A (zh) * | 2018-06-08 | 2018-11-16 | 东莞迪赛软件技术有限公司 | 面向健康舆情的文本分类方法 |
CN109241524B (zh) * | 2018-08-13 | 2022-12-20 | 腾讯科技(深圳)有限公司 | 语义解析方法及装置、计算机可读存储介质、电子设备 |
CN109378014A (zh) * | 2018-10-22 | 2019-02-22 | 华中师范大学 | 一种基于卷积神经网络的移动设备源识别方法及系统 |
CN109473120A (zh) * | 2018-11-14 | 2019-03-15 | 辽宁工程技术大学 | 一种基于卷积神经网络的异常声音信号识别方法 |
CN109657470A (zh) * | 2018-12-27 | 2019-04-19 | 北京天融信网络安全技术有限公司 | 恶意网页检测模型训练方法、恶意网页检测方法及系统 |
CN109584888A (zh) * | 2019-01-16 | 2019-04-05 | 上海大学 | 基于机器学习的鸣笛识别方法 |
-
2019
- 2019-04-25 CN CN201910339723.7A patent/CN110047512B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109065030A (zh) * | 2018-08-01 | 2018-12-21 | 上海大学 | 基于卷积神经网络的环境声音识别方法及系统 |
CN109448713A (zh) * | 2018-11-13 | 2019-03-08 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110047512A (zh) | 2019-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110047512B (zh) | 一种环境声音分类方法、系统及相关装置 | |
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
CN103503060B (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
US10832685B2 (en) | Speech processing device, speech processing method, and computer program product | |
KR20210020007A (ko) | 보험 녹음의 품질 검사 방법, 장치, 기기와 컴퓨터 저장 매체 | |
CN108364662B (zh) | 基于成对鉴别任务的语音情感识别方法与系统 | |
CN108899033B (zh) | 一种确定说话人特征的方法及装置 | |
CN113330511B (zh) | 语音识别方法、装置、存储介质及电子设备 | |
CN111862951B (zh) | 语音端点检测方法及装置、存储介质、电子设备 | |
EP3726435A1 (en) | Deep neural network training method and apparatus, and computer device | |
KR101667557B1 (ko) | 실시간 음원 분류 장치 및 방법 | |
CN111081223A (zh) | 一种语音识别方法、装置、设备和存储介质 | |
CN112712809A (zh) | 一种语音检测方法、装置、电子设备及存储介质 | |
JP7266390B2 (ja) | 行動識別方法、行動識別装置、行動識別プログラム、機械学習方法、機械学習装置及び機械学習プログラム | |
CN107578774A (zh) | 用于促进对时间序列模式的检测的方法和系统 | |
CN109065026B (zh) | 一种录音控制方法及装置 | |
CN113889077A (zh) | 声音识别方法、装置、电子设备及存储介质 | |
CN116645956A (zh) | 语音合成方法、语音合成系统、电子设备及存储介质 | |
CN112037772B (zh) | 基于多模态的响应义务检测方法、系统及装置 | |
CN114822557A (zh) | 课堂中不同声音的区分方法、装置、设备以及存储介质 | |
CN114898527A (zh) | 一种基于声音辅助的可穿戴式老人跌倒检测系统与方法 | |
CN112489678A (zh) | 一种基于信道特征的场景识别方法及装置 | |
CN112216286B (zh) | 语音唤醒识别方法、装置、电子设备及存储介质 | |
US11270109B2 (en) | Interactive method and interactive system for smart watch | |
CN117636909B (zh) | 一种数据处理方法、装置、设备以及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |