CN117690451A - 一种基于集成学习的神经网络噪声源分类的方法及装置 - Google Patents

一种基于集成学习的神经网络噪声源分类的方法及装置 Download PDF

Info

Publication number
CN117690451A
CN117690451A CN202410116989.6A CN202410116989A CN117690451A CN 117690451 A CN117690451 A CN 117690451A CN 202410116989 A CN202410116989 A CN 202410116989A CN 117690451 A CN117690451 A CN 117690451A
Authority
CN
China
Prior art keywords
noise
classification
neural network
classification model
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410116989.6A
Other languages
English (en)
Other versions
CN117690451B (zh
Inventor
纪盟盟
高峰
张静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Aihua Instruments Co ltd
Original Assignee
Hangzhou Aihua Instruments Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Aihua Instruments Co ltd filed Critical Hangzhou Aihua Instruments Co ltd
Priority to CN202410116989.6A priority Critical patent/CN117690451B/zh
Publication of CN117690451A publication Critical patent/CN117690451A/zh
Application granted granted Critical
Publication of CN117690451B publication Critical patent/CN117690451B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/098Distributed learning, e.g. federated learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本申请涉及环境噪声识别技术领域,解决了现有技术中因噪声类别过多而导致的神经网络模型难以训练以及准确率难以得到提升的问题,公开了一种基于集成学习的神经网络噪声源分类的方法及装置,该方法先通过初级噪声分类模型对噪声进行分大类,根据所述第一推理结果和预设的次级噪声分类模型选择策略匹配出次级噪声分类模型,再利用大类对应的次级噪声分类模型对噪声进行分小类,最后结合两次分类结果得出最终的分类结果,通过设置多个模型有效的降低了每一个模型中的类别,进而有效的降低了模型训练的难度,同时大大的提高了模型预测的准确率。

Description

一种基于集成学习的神经网络噪声源分类的方法及装置
技术领域
本申请涉及环境噪声识别技术领域,尤其是一种基于集成学习的神经网络噪声源分类的方法及装置。
背景技术
近年来,随着工业技术的迅速发展与人民生活水平的日益提升,生活中的噪声源种类越来越多,包括生活噪声、环境噪声、工业噪声等。由噪声污染所产生的矛盾、纠纷越来越多,随着人们生活质量的提高,人们对于环境噪声的影响也愈发重视,与噪声相关的法律维权事件也越来越多了。因此,在新的噪声法颁布的背景下,噪声源类别的分辨也成为了众多监管部门面临的重要课题。
噪声源分类是指分辨出噪声发声源所属的类别,目前有基于传统算法和神经网络算法两种实现方式。传统的噪声源分类算法对音频特征进行人工提取,然后依据其特征之间的差异进行分类,存在分类准确率难以提升并且噪声源分类类别较为单一的问题。现阶段基于神经网络算法的方法普遍受制于训练样本少,导致模型精度较差,并且模型在实际使用中参数数量和计算量过于庞大的问题。
传统噪声分类算法的主要思路是通过提取噪声的特征并使用经典的机器学习算法进行分类。这种方法通常需要手工设计特征提取方法和选择适当的分类器,对噪声的理解和特征设计的准确性直接影响分类结果的准确性。然而,在一些复杂和多变的噪声环境中,传统算法的性能可能受限,因此,近年来,深度学习等方法在噪声分类领域也取得了显著的进展,但由于目前自然界的环境噪声和人们生活中人为产生的噪声种类很多,多达几十上百种。由于种类过多,且可能会存在两种或多种相似噪声,众所周知,基于神经网络的噪声分类模型中其类别数越少,分类准确率就越高,当类别数达到一定多的数量时,神经网络模型会极难训练,且其准确率很难提升,会导致现有技术中基于神经网络的噪声分类模型分类准确率不高的问题。
发明内容
本申请的目的在于克服现有技术中因噪声类别过多而导致的神经网络模型难以训练以及准确率难以得到提升的问题,提供一种基于集成学习的神经网络噪声源分类的方法及装置。
第一方面,提供了一种基于集成学习的神经网络噪声源分类的方法,包括:
获取噪声音频;
将所述噪声音频经过频谱转换成log-mel特征矢量;
将所述log-mel特征矢量输入到初级噪声分类模型中,以推理得出第一推理结果;
根据所述第一推理结果和预设的次级噪声分类模型选择策略匹配出次级噪声分类模型;
将所述log-mel特征矢量输入到次级噪声分类模型中,以推理得出第二推理结果;
根据第一推理结果和第二推理结果得出所述噪声音频的最终类别与概率。
进一步的,所述第一推理结果包括初级噪声类别与第一概率,所述第二推理结果包括次级噪声类别与第二概率。
进一步的,所述初级噪声类别包括动物噪声、工业噪声、社交噪声、自然噪声和施工噪声。
进一步的,预设的次级噪声分类模型选择策略包括:
从第一推理结果中选出第一概率最大的初级噪声类别记为P(A);
将第一推理结果中除P(A)以外的初级噪声类别记为P(i);
计算P(A)与P(i)的差值X;
将所述差值X与阈值M进行比较,其中,0.05≤M≤0.15,若存在差值X小于阈值M的情况,则将差值X对应的P(i)以及P(A)对应的次级噪声分类模型作为匹配出的次级噪声分类模型,若不存在差值X小于阈值M的情况,则将P(A)对应的次级噪声分类模型作为匹配出的次级噪声分类模型。
进一步的,预设的次级噪声分类模型选择策略还包括:若存在差值X小于阈值M的情况,则进一步判断差值X小于阈值M的P(i)的数量是否大于预设值N,其中,1≤N≤4,若判断结果为否,则将差值X对应的P(i)以及P(A)对应的次级噪声分类模型作为匹配出的次级噪声分类模型,若判断结果为是,则将差值X对应的P(i)中概率排名靠前的N个P(i)以及P(A)对应的次级噪声分类模型作为匹配出的次级噪声分类模型。
进一步的,根据第一推理结果和第二推理结果得出所述噪声音频的最终类别与概率,包括:将第一概率与对应的第二概率相乘分别计算出第二推理结果中的所有次级噪声类别的最终概率,将最终概率值最大的次级噪声类别作为最终类别。
进一步的,将噪声音频分为若干大类对第一卷积神经网络模型进行训练以得到初级噪声分类模型,将每一大类中的细分噪声音频单独对第二卷积神经网络模型进行训练以得到若干个次级噪声分类模型。
进一步的,所述第一卷积神经网络模型和第二卷积神经网络模型均依次包括:二维conv层、特征提取模块、二维DepthwiseConv层、mean池化层、二维conv层、池化层、Reshape层、二维conv层和Softmax层,其中,所述特征提取模块包括4个TransitionBlock块和12个NormalBlock块。
第二方面,提供了一种基于集成学习的神经网络噪声源分类的装置,包括:
工控机,所述工控机包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面中任意一种实现方式所述的方法;
麦克风,所述麦克风与所述处理器电性连接;
显示屏,所述显示屏与所述处理器电性连接。
第三方面,提供了一种计算机可读存储介质,所述计算机可读介质存储用于设备执行的程序代码,该程序代码包括用于执行如第一方面中的任意一种实现方式中方法的步骤。
第四方面,提供了一种电子设备,所述电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面中的任意一种实现方式中的方法。
本申请具有如下有益效果:本申请先将小类别进行归类,减少每个模型的分类数量,在保证准确率的同时,还可以根据初级噪声分类模型的分类结果自动选择次级噪声分类模型来进行细分类,从而通过设置多个模型有效的降低了每一个模型中的类别,进而有效的降低了模型训练的难度,并且先通过初级噪声分类模型对噪声进行分大类,再利用大类对应的次级噪声分类模型对噪声进行分小类,最后结合两次分类结果得出最终的分类结果,大大的提高了模型预测的准确率。
附图说明
构成本申请的一部分的附图用于来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例1的基于集成学习的神经网络噪声源分类的方法的流程图;
图2是本申请实施例1的基于集成学习的神经网络噪声源分类的方法中卷积神经网络模型的结构图;
图3是本申请实施例1的基于集成学习的神经网络噪声源分类的方法中transition_block模块结构图;
图4是本申请实施例1的基于集成学习的神经网络噪声源分类的方法中normal_block模块结构图;
图5是本申请实施例2的基于集成学习的神经网络噪声源分类的装置的结构框图。
附图标记:
100、工控机;101、处理器;102、存储器;200、麦克风;300、显示屏。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1
本申请实施例1所涉及的一种基于集成学习的神经网络噪声源分类的方法,包括:获取噪声音频;将所述噪声音频经过频谱转换成log-mel特征矢量;将所述log-mel特征矢量输入到初级噪声分类模型中,以推理得出第一推理结果;根据所述第一推理结果和预设的次级噪声分类模型选择策略匹配出次级噪声分类模型;将所述log-mel特征矢量输入到次级噪声分类模型中,以推理得出第二推理结果;根据第一推理结果和第二推理结果得出所述噪声音频的最终类别与概率,在该方法中先将小类别进行归类,减少每个模型的分类数量,在保证准确率的同时,还可以根据初级噪声分类模型的分类结果自动选择次级噪声分类模型来进行细分类,从而通过设置多个模型有效的降低了每一个模型中的类别,进而有效的降低了模型训练的难度,并且先通过初级噪声分类模型对噪声进行分大类,再利用大类对应的次级噪声分类模型对噪声进行分小类,最后结合两次分类结果得出最终的分类结果,大大的提高了模型预测的准确率。
具体的,图1示出了申请实施例1中的基于集成学习的神经网络噪声源分类的方法的流程图,包括:
对于生活中常见的一些噪声,本发明根据其发生的环境和活动进行类别总结,将噪声音频分为若干大类对第一卷积神经网络模型进行训练以得到初级噪声分类模型,将每一大类中的细分噪声音频单独对第二卷积神经网络模型进行训练以得到若干个次级噪声分类模型,在本实施例中,以将噪声分为五大类为例进行说明,对细分的噪声类别进行了归类,其类别所属如下表所示:
如上表所示,共有 33 个噪声类别,一共分为 5 个大的噪声类,每个大噪声类别包含若干个细分噪声类别。首先将噪声音频分为5个大类对第一卷积神经网络模型进行训练以得到初级噪声分类模型,训练一个 5(5个目标噪声类别) 分类的初级噪声分类模型。对于每一个归类类别噪声,按照其中的具体噪声类型进行专属模型的训练,将每一大类中的细分噪声音频单独对第二卷积神经网络模型进行训练以得到5个次级噪声分类模型,一共可以得到 5 个次级噪声分类模型。如下表所示:
如图2所示,初级噪声分类模型和次级噪声分类模型所采用的神经网络模型结构完全相同,即第一卷积神经网络模型和第二卷积神经网络模型均依次包括:二维conv层、特征提取模块、二维DepthwiseConv层、mean池化层、二维conv层、池化层、Reshape层、二维conv层和Softmax层,其中,所述特征提取模块包括4个TransitionBlock块和12个NormalBlock块。
神经网络模型的工作流程:提取原始音频(P×1)的log_mel特征(M×N)作为网络的原始特征输入log_mel特征先经过一个二维conv层,然后输入到特征提取模块,特征提取模块由4个TransitionBlock块和12个NormalBlock块组成,提取出的特征图经过一个二维DepthwiseConv层,经过Mean层后输入二维Conv层,通过池化层后,通过Reshape层进行维度调整,在经过二维Conv层,最后经过Softmax层得到相应的类别分数。具体参数设置如下表所示:
其中,transition_block模块的具体构建如图3所示,transition_block模块的具体参数设置如下表所示:
其中,normal_block模块的具体构建如图4所示,normal_block模块的具体参数设置如下表所示:
S101、获取噪声音频,示例性的,在对噪声进行分类时,需要先通过麦克风等设备采集环境中的噪声音频;
S102、将所述噪声音频经过频谱转换成log-mel特征矢量;
S103、将所述log-mel特征矢量输入到初级噪声分类模型中,以推理得出第一推理结果,其中,第一推理结果包括初级噪声类别与第一概率,示例性的,初级噪声类别与第一概率为:[“动物噪声”: 0.01, “工业噪声”: 0.39, “社交噪声”: 0.05, “自然噪声”:0.49, “施工噪声”: 0.01, “其他噪声”: 0.05 ];
S104、根据所述第一推理结果和预设的次级噪声分类模型选择策略匹配出次级噪声分类模型;
具体的,预设的次级噪声分类模型选择策略包括:
从第一推理结果中选出第一概率最大的初级噪声类别记为P(A);
将第一推理结果中除P(A)以外的初级噪声类别记为P(i);
计算P(A)与P(i)的差值X;
将所述差值X与阈值M进行比较,其中,0.05≤M≤0.15,若存在差值X小于阈值M的情况,则将差值X对应的P(i)以及P(A)对应的次级噪声分类模型作为匹配出的次级噪声分类模型,若不存在差值X小于阈值M的情况,则将P(A)对应的次级噪声分类模型作为匹配出的次级噪声分类模型。
示例性的,以M为0.1为例,对于步骤S103中得到的第一推理结果为 [“动物噪声”:0.01, “工业噪声”: 0.39, “社交噪声”: 0.05, “自然噪声”: 0.49, “施工噪声”: 0.01,“其他噪声”: 0.05 ],其中概率最大的类别为:[“自然噪声”: 0.49],此时类别A则为“自然噪声”,记其概率为P(A) = 0.49,满足公式P(A) - P(i) ≤ 0.1的类别i只有“工业噪声”一个类别,此时满足次级模型条件的类别为“自然噪声”和“工业噪声”两个,则选择自然噪声模型和 工业噪声模型两个次级噪声分类模型。
在进一步的实施例中,考虑到硬件算力有限,需要对参与运算的次级噪声分类模型的数量进行限定,具体为,预设的次级噪声分类模型选择策略还包括:若存在差值X小于阈值M的情况,则进一步判断差值X小于阈值M的P(i)的数量是否大于预设值N,其中,1≤N≤4,若判断结果为否,则将差值X对应的P(i)以及P(A)对应的次级噪声分类模型作为匹配出的次级噪声分类模型,若判断结果为是,则将差值X对应的P(i)中概率排名靠前的N个P(i)以及P(A)对应的次级噪声分类模型作为匹配出的次级噪声分类模型,通过设定N的值能够使得实际参与运算的次级噪声分类模型的最大数量根据实际硬件算力进行设置,以防止硬件算力不足的情况发生。
示例性的,以N为2,M为0.1为例,对于步骤S103中得到的第一推理结果 [“动物噪声”: 0.01, “工业噪声”: 0.39, “社交噪声”: 0.45, “自然噪声”: 0.49, “施工噪声”:0.41, “其他噪声”: 0.05 ],其中概率最大的类别为:[“自然噪声”: 0.49],此时类别A则为“自然噪声”,记其概率为P(A) = 0.49,满足公式P(A) - P(i) ≤ 0.1的类别i有“工业噪声、社交噪声、自然噪声”三个类别,其中,“工业噪声、社交噪声、施工噪声”的概率排名为:社交噪声、施工噪声和工业噪声,由于N为2,则取排名靠前的两个:社交噪声、施工噪声,此时满足次级模型条件的类别为“自然噪声”、“社交噪声”和“施工噪声”三个,则选择自然噪声模型、社交噪声模型和施工噪声模型三个次级噪声分类模型。
S105、将所述log-mel特征矢量输入到次级噪声分类模型中,以推理得出第二推理结果,其中,第二推理结果包括次级噪声类别与第二概率,示例性的,自然噪声模型推理得到的第二推理结果为:[“风声”:0.08,“雨声”:0.8,“雷声”:0.01,“海浪声”:0.01,“河流声”:0.1],工业噪声模型推理得到的第二推理结果为:[“机械设备噪声”:0.40, “制造过程噪声”: 0.50, “通风系统噪声”: 0.02, “电气设备噪声”: 0.05, “重型交通噪声”:0.03];
S106、根据第一推理结果和第二推理结果得出所述噪声音频的最终类别与概率。
具体的,根据第一推理结果和第二推理结果得出所述噪声音频的最终类别与概率,包括:将第一概率与对应的第二概率相乘分别计算出第二推理结果中的所有次级噪声类别的最终概率,将最终概率值最大的次级噪声类别作为最终类别。
示例性的,假设第一推理结果为:[“动物噪声”: 0.01, “工业噪声”: 0.39, “社交噪声”: 0.05, “自然噪声”: 0.49, “施工噪声”: 0.01, “其他噪声”: 0.05 ],自然噪声模型推理得到的第二推理结果为:[“风声”:0.08,“雨声”:0.8,“雷声”:0.01,“海浪声”:0.01,“河流声”:0.1],工业噪声模型推理得到的第二推理结果为:[“机械设备噪声”:0.40,“制造过程噪声”: 0.50, “通风系统噪声”: 0.02, “电气设备噪声”: 0.05, “重型交通噪声”: 0.03],则两种概率相乘的策略为:自然噪声的最终概率 = 第二推理结果概率*0.49,工业噪声的最终概率 = 工业噪声模型概率 * 0.39。分别得到最终的类别概率:[“风声”:0.0392,“雨声”:0.392,“雷声”:0.0049,“海浪声”:0.0049,“河流声”:0.049],[“机械设备噪声”:0.156, “制造过程噪声”:0.195, “通风系统噪声”:0.0078, “电气设备噪声”:0.0195, “重型交通噪声”:0.0117],可以看出最终概率值最大的次级噪声类别为[“雨声”:0.392],则此次噪声音频的识别结果为:[“雨声”:0.392]。
在现有技术中使用神经网络进行分类时,类别的数量对于分类准确率的影响很大,当类别数很多时,模型分类的准确率会急剧降低,而在该实施例中,通过集成学习首先分类出音频归属的大类,然后再分类出具体的类别,尽管要分类的类别总数很多,但具体到每个模型要分类的数量不多,模型的准确率得以大幅度提升,还可以根据初级噪声分类模型的分类结果自动选择次级噪声分类模型来进行细分类,最终通过计算两次分类结果的乘积来得出最终的分类结果,大大的提高了模型预测的准确率。
实施例2
如图5所示,本申请实施例2所涉及的一种基于卷积神经网络的噪声源分类的装置,包括:
100工控机,所述工控机100包括处理器101、存储器102及存储在所述存储器102上并可在所述处理器101上运行的程序或指令,所述程序或指令被所述处理器101执行时实现如实施例1中任意一种实施方式所述的方法;
麦克风200,所述麦克风200与所述处理器101电性连接;
显示屏300,所述显示屏300与所述处理器101电性连接。
需要说明的是,本发明实施例中基于卷积神经网络的噪声源分类的装置的其他具体实施方式,可参见上述基于卷积神经网络的噪声源分类的方法的具体实施方式,为避免冗余,此处不再赘述,在使用时,麦克风200采集音频信息传输给工控机100,工控机100搭载可在所述处理器101上运行的程序或指令,程序或指令被所述处理器101执行时实现如实施例1中任意一种实施方式所述的方法,音频信息经过工控机100处理后得到音频所属类别,将类别信息传输到显示屏300上面进行显示。
实施例3
本申请实施例3所涉及的一种计算机可读存储介质,所述计算机可读介质存储用于设备执行的程序代码,该程序代码包括用于执行如本申请实施例1中的任意一种实现方式中方法的步骤;
其中,计算机可读存储介质可以是只读存储器(read only memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(random access memory,RAM);计算机可读存储介质可以存储程序代码,当计算机可读存储介质中存储的程序被处理器执行时,处理器用于执行如本申请实施例1中的任意一种实现方式中方法的步骤。
以上,仅为本申请较佳的具体实施方式;但本申请的保护范围并不局限于此。任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,根据本申请的技术方案及其改进构思加以等同替换或改变,都应涵盖在本申请的保护范围内。

Claims (10)

1.一种基于集成学习的神经网络噪声源分类的方法,其特征在于,包括:
获取噪声音频;
将所述噪声音频经过频谱转换成log-mel特征矢量;
将所述log-mel特征矢量输入到初级噪声分类模型中,以推理得出第一推理结果;
根据所述第一推理结果和预设的次级噪声分类模型选择策略匹配出次级噪声分类模型;
将所述log-mel特征矢量输入到次级噪声分类模型中,以推理得出第二推理结果;
根据第一推理结果和第二推理结果得出所述噪声音频的最终类别与概率。
2.根据权利要求1所述的基于集成学习的神经网络噪声源分类的方法,其特征在于,所述第一推理结果包括初级噪声类别与第一概率,所述第二推理结果包括次级噪声类别与第二概率。
3.根据权利要求2所述的基于集成学习的神经网络噪声源分类的方法,其特征在于,所述初级噪声类别包括动物噪声、工业噪声、社交噪声、自然噪声和施工噪声。
4.根据权利要求2或3所述的基于集成学习的神经网络噪声源分类的方法,其特征在于,预设的次级噪声分类模型选择策略包括:
从第一推理结果中选出第一概率最大的初级噪声类别记为P(A);
将第一推理结果中除P(A)以外的初级噪声类别记为P(i);
计算P(A)与P(i)的差值X;
将所述差值X与阈值M进行比较,其中,0.05≤M≤0.15,若存在差值X小于阈值M的情况,则将差值X对应的P(i)以及P(A)对应的次级噪声分类模型作为匹配出的次级噪声分类模型,若不存在差值X小于阈值M的情况,则将P(A)对应的次级噪声分类模型作为匹配出的次级噪声分类模型。
5.根据权利要求4所述的基于集成学习的神经网络噪声源分类的方法,其特征在于,预设的次级噪声分类模型选择策略还包括:若存在差值X小于阈值M的情况,则进一步判断差值X小于阈值M的P(i)的数量是否大于预设值N,其中,1≤N≤4,若判断结果为否,则将差值X对应的P(i)以及P(A)对应的次级噪声分类模型作为匹配出的次级噪声分类模型,若判断结果为是,则将差值X对应的P(i)中概率排名靠前的N个P(i)以及P(A)对应的次级噪声分类模型作为匹配出的次级噪声分类模型。
6.根据权利要求2或3所述的基于集成学习的神经网络噪声源分类的方法,其特征在于,根据第一推理结果和第二推理结果得出所述噪声音频的最终类别与概率,包括:将第一概率与对应的第二概率相乘分别计算出第二推理结果中的所有次级噪声类别的最终概率,将最终概率值最大的次级噪声类别作为最终类别。
7.根据权利要求1所述的基于集成学习的神经网络噪声源分类的方法,其特征在于,将噪声音频分为若干大类对第一卷积神经网络模型进行训练以得到初级噪声分类模型,将每一大类中的细分噪声音频单独对第二卷积神经网络模型进行训练以得到若干个次级噪声分类模型。
8.根据权利要求7所述的基于集成学习的神经网络噪声源分类的方法,其特征在于,所述第一卷积神经网络模型和第二卷积神经网络模型均依次包括:二维conv层、特征提取模块、二维DepthwiseConv层、mean池化层、二维conv层、池化层、Reshape层、二维conv层和Softmax层,其中,所述特征提取模块包括4个TransitionBlock块和12个NormalBlock块。
9.一种基于集成学习的神经网络噪声源分类的装置,其特征在于,包括:
工控机,所述工控机包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-8中任一项所述的方法;
麦克风,所述麦克风与所述处理器电性连接;
显示屏,所述显示屏与所述处理器电性连接。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储用于设备执行的程序代码,该程序代码包括用于执行如权利要求1-8中任一项所述方法的步骤。
CN202410116989.6A 2024-01-29 2024-01-29 一种基于集成学习的神经网络噪声源分类的方法及装置 Active CN117690451B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410116989.6A CN117690451B (zh) 2024-01-29 2024-01-29 一种基于集成学习的神经网络噪声源分类的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410116989.6A CN117690451B (zh) 2024-01-29 2024-01-29 一种基于集成学习的神经网络噪声源分类的方法及装置

Publications (2)

Publication Number Publication Date
CN117690451A true CN117690451A (zh) 2024-03-12
CN117690451B CN117690451B (zh) 2024-04-16

Family

ID=90132247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410116989.6A Active CN117690451B (zh) 2024-01-29 2024-01-29 一种基于集成学习的神经网络噪声源分类的方法及装置

Country Status (1)

Country Link
CN (1) CN117690451B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693724A (zh) * 2011-03-22 2012-09-26 张燕 一种基于神经网络的高斯混合模型的噪声分类方法
KR20180122171A (ko) * 2017-05-02 2018-11-12 서강대학교산학협력단 심층 신경망을 기반으로 한 사운드 이벤트 검출 방법 및 사운드 이벤트 검출 장치
CN109767785A (zh) * 2019-03-06 2019-05-17 河北工业大学 基于卷积神经网络的环境噪声识别分类方法
CA3040961A1 (en) * 2018-04-25 2019-10-25 Metropolitan Airports Commission Airport noise classification method and system
RU2718144C1 (ru) * 2019-09-26 2020-03-30 Федеральное государственное бюджетное учреждение науки Институт проблем морских технологий Дальневосточного отделения Российской академии наук (ИПМТ ДВО РАН) Способ классификации, определения координат и параметров движения шумящего в море объекта в инфразвуковом диапазоне частот
RU2759498C1 (ru) * 2020-05-25 2021-11-15 Акционерное Общество "Концерн "Океанприбор" Способ классификации гидроакустических сигналов шумоизлучения морского объекта
CN113850300A (zh) * 2021-09-02 2021-12-28 支付宝(杭州)信息技术有限公司 训练分类模型的方法和装置
CN114758675A (zh) * 2022-04-15 2022-07-15 中国民航大学 一种基于卷积神经网络的机场噪声识别与测量装置
KR20230061179A (ko) * 2021-10-28 2023-05-08 에스케이텔레콤 주식회사 노이즈 분류를 이용한 화질 개선 방법 및 장치
CN116246644A (zh) * 2023-02-27 2023-06-09 西安电子科技大学广州研究院 一种基于噪声分类的轻量级语音增强系统
CN116959477A (zh) * 2023-09-19 2023-10-27 杭州爱华仪器有限公司 一种基于卷积神经网络的噪声源分类的方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693724A (zh) * 2011-03-22 2012-09-26 张燕 一种基于神经网络的高斯混合模型的噪声分类方法
KR20180122171A (ko) * 2017-05-02 2018-11-12 서강대학교산학협력단 심층 신경망을 기반으로 한 사운드 이벤트 검출 방법 및 사운드 이벤트 검출 장치
CA3040961A1 (en) * 2018-04-25 2019-10-25 Metropolitan Airports Commission Airport noise classification method and system
CN109767785A (zh) * 2019-03-06 2019-05-17 河北工业大学 基于卷积神经网络的环境噪声识别分类方法
RU2718144C1 (ru) * 2019-09-26 2020-03-30 Федеральное государственное бюджетное учреждение науки Институт проблем морских технологий Дальневосточного отделения Российской академии наук (ИПМТ ДВО РАН) Способ классификации, определения координат и параметров движения шумящего в море объекта в инфразвуковом диапазоне частот
RU2759498C1 (ru) * 2020-05-25 2021-11-15 Акционерное Общество "Концерн "Океанприбор" Способ классификации гидроакустических сигналов шумоизлучения морского объекта
CN113850300A (zh) * 2021-09-02 2021-12-28 支付宝(杭州)信息技术有限公司 训练分类模型的方法和装置
KR20230061179A (ko) * 2021-10-28 2023-05-08 에스케이텔레콤 주식회사 노이즈 분류를 이용한 화질 개선 방법 및 장치
CN114758675A (zh) * 2022-04-15 2022-07-15 中国民航大学 一种基于卷积神经网络的机场噪声识别与测量装置
CN116246644A (zh) * 2023-02-27 2023-06-09 西安电子科技大学广州研究院 一种基于噪声分类的轻量级语音增强系统
CN116959477A (zh) * 2023-09-19 2023-10-27 杭州爱华仪器有限公司 一种基于卷积神经网络的噪声源分类的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张少康;王超;孙芹东;: "基于多类别特征融合的水声目标噪声识别分类技术", 西北工业大学学报, no. 02, 15 April 2020 (2020-04-15) *

Also Published As

Publication number Publication date
CN117690451B (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
CN110263673B (zh) 面部表情识别方法、装置、计算机设备及存储介质
WO2022042123A1 (zh) 图像识别模型生成方法、装置、计算机设备和存储介质
CN113011570B (zh) 一种采用神经网络压缩系统的人脸表情识别方法
CN112287986B (zh) 一种图像处理方法、装置、设备及可读存储介质
CN110672323B (zh) 一种基于神经网络的轴承健康状态评估方法及装置
CN113657421B (zh) 卷积神经网络压缩方法和装置、图像分类方法和装置
CN112288025B (zh) 基于树结构的异常案件识别方法、装置、设备及存储介质
WO2021189830A1 (zh) 样本数据优化方法、装置、设备及存储介质
CN111178312B (zh) 基于多任务特征学习网络的人脸表情识别方法
CN112926645B (zh) 一种基于边缘计算的窃电检测方法
CN116307059A (zh) 配电网区域故障预测模型构建方法及装置、电子设备
CN112347910A (zh) 一种基于多模态深度学习的信号指纹识别方法
CN116665390A (zh) 基于边缘计算及优化YOLOv5的火灾检测系统
CN115081515A (zh) 能效评价模型构建方法、装置、终端及存储介质
US20210357695A1 (en) Device and method for supporting generation of learning dataset
CN116959477B (zh) 一种基于卷积神经网络的噪声源分类的方法及装置
CN112244863A (zh) 信号识别方法、信号识别装置、电子设备及可读存储介质
CN110866609B (zh) 解释信息获取方法、装置、服务器和存储介质
CN117690451B (zh) 一种基于集成学习的神经网络噪声源分类的方法及装置
CN115587616A (zh) 网络模型训练方法、装置、存储介质及计算机设备
CN116432664A (zh) 一种高质量数据扩增的对话意图分类方法及系统
CN114265954B (zh) 基于位置与结构信息的图表示学习方法
CN115762530A (zh) 声纹模型训练方法、装置、计算机设备和存储介质
CN113590720A (zh) 数据分类方法、装置、计算机设备和存储介质
CN114722893A (zh) 模型生成方法、图像标注方法、装置以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant