CN117690451A

CN117690451A - 一种基于集成学习的神经网络噪声源分类的方法及装置

Info

Publication number: CN117690451A
Application number: CN202410116989.6A
Authority: CN
Inventors: 纪盟盟; 高峰; 张静
Original assignee: Hangzhou Aihua Instruments Co ltd
Current assignee: Hangzhou Aihua Instruments Co ltd
Priority date: 2024-01-29
Filing date: 2024-01-29
Publication date: 2024-03-12
Anticipated expiration: 2044-01-29
Also published as: CN117690451B

Abstract

本申请涉及环境噪声识别技术领域，解决了现有技术中因噪声类别过多而导致的神经网络模型难以训练以及准确率难以得到提升的问题，公开了一种基于集成学习的神经网络噪声源分类的方法及装置，该方法先通过初级噪声分类模型对噪声进行分大类，根据所述第一推理结果和预设的次级噪声分类模型选择策略匹配出次级噪声分类模型，再利用大类对应的次级噪声分类模型对噪声进行分小类，最后结合两次分类结果得出最终的分类结果，通过设置多个模型有效的降低了每一个模型中的类别，进而有效的降低了模型训练的难度，同时大大的提高了模型预测的准确率。

Description

一种基于集成学习的神经网络噪声源分类的方法及装置

技术领域

本申请涉及环境噪声识别技术领域，尤其是一种基于集成学习的神经网络噪声源分类的方法及装置。

背景技术

近年来，随着工业技术的迅速发展与人民生活水平的日益提升，生活中的噪声源种类越来越多，包括生活噪声、环境噪声、工业噪声等。由噪声污染所产生的矛盾、纠纷越来越多，随着人们生活质量的提高，人们对于环境噪声的影响也愈发重视，与噪声相关的法律维权事件也越来越多了。因此，在新的噪声法颁布的背景下，噪声源类别的分辨也成为了众多监管部门面临的重要课题。

噪声源分类是指分辨出噪声发声源所属的类别，目前有基于传统算法和神经网络算法两种实现方式。传统的噪声源分类算法对音频特征进行人工提取，然后依据其特征之间的差异进行分类，存在分类准确率难以提升并且噪声源分类类别较为单一的问题。现阶段基于神经网络算法的方法普遍受制于训练样本少，导致模型精度较差，并且模型在实际使用中参数数量和计算量过于庞大的问题。

传统噪声分类算法的主要思路是通过提取噪声的特征并使用经典的机器学习算法进行分类。这种方法通常需要手工设计特征提取方法和选择适当的分类器，对噪声的理解和特征设计的准确性直接影响分类结果的准确性。然而，在一些复杂和多变的噪声环境中，传统算法的性能可能受限，因此，近年来，深度学习等方法在噪声分类领域也取得了显著的进展，但由于目前自然界的环境噪声和人们生活中人为产生的噪声种类很多，多达几十上百种。由于种类过多，且可能会存在两种或多种相似噪声，众所周知，基于神经网络的噪声分类模型中其类别数越少，分类准确率就越高，当类别数达到一定多的数量时，神经网络模型会极难训练，且其准确率很难提升，会导致现有技术中基于神经网络的噪声分类模型分类准确率不高的问题。

发明内容

本申请的目的在于克服现有技术中因噪声类别过多而导致的神经网络模型难以训练以及准确率难以得到提升的问题，提供一种基于集成学习的神经网络噪声源分类的方法及装置。

第一方面，提供了一种基于集成学习的神经网络噪声源分类的方法，包括：

获取噪声音频；

将所述噪声音频经过频谱转换成log-mel特征矢量；

将所述log-mel特征矢量输入到初级噪声分类模型中，以推理得出第一推理结果；

根据所述第一推理结果和预设的次级噪声分类模型选择策略匹配出次级噪声分类模型；

将所述log-mel特征矢量输入到次级噪声分类模型中，以推理得出第二推理结果；

根据第一推理结果和第二推理结果得出所述噪声音频的最终类别与概率。

进一步的，所述第一推理结果包括初级噪声类别与第一概率，所述第二推理结果包括次级噪声类别与第二概率。

进一步的，所述初级噪声类别包括动物噪声、工业噪声、社交噪声、自然噪声和施工噪声。

进一步的，预设的次级噪声分类模型选择策略包括：

从第一推理结果中选出第一概率最大的初级噪声类别记为P（A）；

将第一推理结果中除P（A）以外的初级噪声类别记为P（i）；

计算P（A）与P（i）的差值X；

将所述差值X与阈值M进行比较，其中，0.05≤M≤0.15，若存在差值X小于阈值M的情况，则将差值X对应的P（i）以及P（A）对应的次级噪声分类模型作为匹配出的次级噪声分类模型，若不存在差值X小于阈值M的情况，则将P（A）对应的次级噪声分类模型作为匹配出的次级噪声分类模型。

进一步的，预设的次级噪声分类模型选择策略还包括：若存在差值X小于阈值M的情况，则进一步判断差值X小于阈值M的P（i）的数量是否大于预设值N，其中，1≤N≤4，若判断结果为否，则将差值X对应的P（i）以及P（A）对应的次级噪声分类模型作为匹配出的次级噪声分类模型，若判断结果为是，则将差值X对应的P（i）中概率排名靠前的N个P（i）以及P（A）对应的次级噪声分类模型作为匹配出的次级噪声分类模型。

进一步的，根据第一推理结果和第二推理结果得出所述噪声音频的最终类别与概率，包括：将第一概率与对应的第二概率相乘分别计算出第二推理结果中的所有次级噪声类别的最终概率，将最终概率值最大的次级噪声类别作为最终类别。

进一步的，将噪声音频分为若干大类对第一卷积神经网络模型进行训练以得到初级噪声分类模型，将每一大类中的细分噪声音频单独对第二卷积神经网络模型进行训练以得到若干个次级噪声分类模型。

进一步的，所述第一卷积神经网络模型和第二卷积神经网络模型均依次包括：二维conv层、特征提取模块、二维DepthwiseConv层、mean池化层、二维conv层、池化层、Reshape层、二维conv层和Softmax层，其中，所述特征提取模块包括4个TransitionBlock块和12个NormalBlock块。

第二方面，提供了一种基于集成学习的神经网络噪声源分类的装置，包括：

工控机，所述工控机包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面中任意一种实现方式所述的方法；

麦克风，所述麦克风与所述处理器电性连接；

显示屏，所述显示屏与所述处理器电性连接。

第三方面，提供了一种计算机可读存储介质，所述计算机可读介质存储用于设备执行的程序代码，该程序代码包括用于执行如第一方面中的任意一种实现方式中方法的步骤。

第四方面，提供了一种电子设备，所述电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面中的任意一种实现方式中的方法。

本申请具有如下有益效果：本申请先将小类别进行归类，减少每个模型的分类数量，在保证准确率的同时，还可以根据初级噪声分类模型的分类结果自动选择次级噪声分类模型来进行细分类，从而通过设置多个模型有效的降低了每一个模型中的类别，进而有效的降低了模型训练的难度，并且先通过初级噪声分类模型对噪声进行分大类，再利用大类对应的次级噪声分类模型对噪声进行分小类，最后结合两次分类结果得出最终的分类结果，大大的提高了模型预测的准确率。

附图说明

构成本申请的一部分的附图用于来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例1的基于集成学习的神经网络噪声源分类的方法的流程图；

图2是本申请实施例1的基于集成学习的神经网络噪声源分类的方法中卷积神经网络模型的结构图；

图3是本申请实施例1的基于集成学习的神经网络噪声源分类的方法中transition_block模块结构图；

图4是本申请实施例1的基于集成学习的神经网络噪声源分类的方法中normal_block模块结构图；

图5是本申请实施例2的基于集成学习的神经网络噪声源分类的装置的结构框图。

附图标记：

100、工控机；101、处理器；102、存储器；200、麦克风；300、显示屏。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1

本申请实施例1所涉及的一种基于集成学习的神经网络噪声源分类的方法，包括：获取噪声音频；将所述噪声音频经过频谱转换成log-mel特征矢量；将所述log-mel特征矢量输入到初级噪声分类模型中，以推理得出第一推理结果；根据所述第一推理结果和预设的次级噪声分类模型选择策略匹配出次级噪声分类模型；将所述log-mel特征矢量输入到次级噪声分类模型中，以推理得出第二推理结果；根据第一推理结果和第二推理结果得出所述噪声音频的最终类别与概率，在该方法中先将小类别进行归类，减少每个模型的分类数量，在保证准确率的同时，还可以根据初级噪声分类模型的分类结果自动选择次级噪声分类模型来进行细分类，从而通过设置多个模型有效的降低了每一个模型中的类别，进而有效的降低了模型训练的难度，并且先通过初级噪声分类模型对噪声进行分大类，再利用大类对应的次级噪声分类模型对噪声进行分小类，最后结合两次分类结果得出最终的分类结果，大大的提高了模型预测的准确率。

具体的，图1示出了申请实施例1中的基于集成学习的神经网络噪声源分类的方法的流程图，包括：

对于生活中常见的一些噪声，本发明根据其发生的环境和活动进行类别总结，将噪声音频分为若干大类对第一卷积神经网络模型进行训练以得到初级噪声分类模型，将每一大类中的细分噪声音频单独对第二卷积神经网络模型进行训练以得到若干个次级噪声分类模型，在本实施例中，以将噪声分为五大类为例进行说明，对细分的噪声类别进行了归类，其类别所属如下表所示：

如上表所示，共有 33 个噪声类别，一共分为 5 个大的噪声类，每个大噪声类别包含若干个细分噪声类别。首先将噪声音频分为5个大类对第一卷积神经网络模型进行训练以得到初级噪声分类模型，训练一个 5（5个目标噪声类别）分类的初级噪声分类模型。对于每一个归类类别噪声，按照其中的具体噪声类型进行专属模型的训练，将每一大类中的细分噪声音频单独对第二卷积神经网络模型进行训练以得到5个次级噪声分类模型，一共可以得到 5 个次级噪声分类模型。如下表所示：

如图2所示，初级噪声分类模型和次级噪声分类模型所采用的神经网络模型结构完全相同，即第一卷积神经网络模型和第二卷积神经网络模型均依次包括：二维conv层、特征提取模块、二维DepthwiseConv层、mean池化层、二维conv层、池化层、Reshape层、二维conv层和Softmax层，其中，所述特征提取模块包括4个TransitionBlock块和12个NormalBlock块。

神经网络模型的工作流程：提取原始音频（P×1）的log_mel特征（M×N）作为网络的原始特征输入log_mel特征先经过一个二维conv层，然后输入到特征提取模块，特征提取模块由4个TransitionBlock块和12个NormalBlock块组成，提取出的特征图经过一个二维DepthwiseConv层，经过Mean层后输入二维Conv层，通过池化层后，通过Reshape层进行维度调整，在经过二维Conv层，最后经过Softmax层得到相应的类别分数。具体参数设置如下表所示：

其中，transition_block模块的具体构建如图3所示，transition_block模块的具体参数设置如下表所示：

其中，normal_block模块的具体构建如图4所示，normal_block模块的具体参数设置如下表所示：

S101、获取噪声音频，示例性的，在对噪声进行分类时，需要先通过麦克风等设备采集环境中的噪声音频；

S102、将所述噪声音频经过频谱转换成log-mel特征矢量；

S103、将所述log-mel特征矢量输入到初级噪声分类模型中，以推理得出第一推理结果，其中，第一推理结果包括初级噪声类别与第一概率，示例性的，初级噪声类别与第一概率为：[“动物噪声”: 0.01, “工业噪声”: 0.39, “社交噪声”: 0.05, “自然噪声”:0.49, “施工噪声”: 0.01, “其他噪声”: 0.05 ]；

S104、根据所述第一推理结果和预设的次级噪声分类模型选择策略匹配出次级噪声分类模型；

具体的，预设的次级噪声分类模型选择策略包括：

将第一推理结果中除P（A）以外的初级噪声类别记为P（i）；

计算P（A）与P（i）的差值X；

示例性的，以M为0.1为例，对于步骤S103中得到的第一推理结果为 [“动物噪声”:0.01, “工业噪声”: 0.39, “社交噪声”: 0.05, “自然噪声”: 0.49, “施工噪声”: 0.01,“其他噪声”: 0.05 ]，其中概率最大的类别为：[“自然噪声”: 0.49]，此时类别A则为“自然噪声”，记其概率为P(A) = 0.49，满足公式P(A) - P(i) ≤ 0.1的类别i只有“工业噪声”一个类别，此时满足次级模型条件的类别为“自然噪声”和“工业噪声”两个，则选择自然噪声模型和工业噪声模型两个次级噪声分类模型。

在进一步的实施例中，考虑到硬件算力有限，需要对参与运算的次级噪声分类模型的数量进行限定，具体为，预设的次级噪声分类模型选择策略还包括：若存在差值X小于阈值M的情况，则进一步判断差值X小于阈值M的P（i）的数量是否大于预设值N，其中，1≤N≤4，若判断结果为否，则将差值X对应的P（i）以及P（A）对应的次级噪声分类模型作为匹配出的次级噪声分类模型，若判断结果为是，则将差值X对应的P（i）中概率排名靠前的N个P（i）以及P（A）对应的次级噪声分类模型作为匹配出的次级噪声分类模型，通过设定N的值能够使得实际参与运算的次级噪声分类模型的最大数量根据实际硬件算力进行设置，以防止硬件算力不足的情况发生。

示例性的，以N为2，M为0.1为例，对于步骤S103中得到的第一推理结果 [“动物噪声”: 0.01, “工业噪声”: 0.39, “社交噪声”: 0.45, “自然噪声”: 0.49, “施工噪声”:0.41, “其他噪声”: 0.05 ]，其中概率最大的类别为：[“自然噪声”: 0.49]，此时类别A则为“自然噪声”，记其概率为P(A) = 0.49，满足公式P(A) - P(i) ≤ 0.1的类别i有“工业噪声、社交噪声、自然噪声”三个类别，其中，“工业噪声、社交噪声、施工噪声”的概率排名为：社交噪声、施工噪声和工业噪声，由于N为2，则取排名靠前的两个：社交噪声、施工噪声，此时满足次级模型条件的类别为“自然噪声”、“社交噪声”和“施工噪声”三个，则选择自然噪声模型、社交噪声模型和施工噪声模型三个次级噪声分类模型。

S105、将所述log-mel特征矢量输入到次级噪声分类模型中，以推理得出第二推理结果，其中，第二推理结果包括次级噪声类别与第二概率，示例性的，自然噪声模型推理得到的第二推理结果为：[“风声”：0.08，“雨声”：0.8，“雷声”：0.01，“海浪声”：0.01，“河流声”：0.1]，工业噪声模型推理得到的第二推理结果为：[“机械设备噪声”：0.40, “制造过程噪声”: 0.50, “通风系统噪声”: 0.02, “电气设备噪声”: 0.05, “重型交通噪声”:0.03]；

S106、根据第一推理结果和第二推理结果得出所述噪声音频的最终类别与概率。

具体的，根据第一推理结果和第二推理结果得出所述噪声音频的最终类别与概率，包括：将第一概率与对应的第二概率相乘分别计算出第二推理结果中的所有次级噪声类别的最终概率，将最终概率值最大的次级噪声类别作为最终类别。

示例性的，假设第一推理结果为：[“动物噪声”: 0.01, “工业噪声”: 0.39, “社交噪声”: 0.05, “自然噪声”: 0.49, “施工噪声”: 0.01, “其他噪声”: 0.05 ]，自然噪声模型推理得到的第二推理结果为：[“风声”：0.08，“雨声”：0.8，“雷声”：0.01，“海浪声”：0.01，“河流声”：0.1]，工业噪声模型推理得到的第二推理结果为：[“机械设备噪声”：0.40,“制造过程噪声”: 0.50, “通风系统噪声”: 0.02, “电气设备噪声”: 0.05, “重型交通噪声”: 0.03]，则两种概率相乘的策略为：自然噪声的最终概率 = 第二推理结果概率*0.49，工业噪声的最终概率 = 工业噪声模型概率 * 0.39。分别得到最终的类别概率：[“风声”：0.0392，“雨声”：0.392，“雷声”：0.0049，“海浪声”：0.0049，“河流声”：0.049]，[“机械设备噪声”：0.156, “制造过程噪声”：0.195, “通风系统噪声”：0.0078, “电气设备噪声”：0.0195, “重型交通噪声”：0.0117]，可以看出最终概率值最大的次级噪声类别为[“雨声”：0.392]，则此次噪声音频的识别结果为：[“雨声”：0.392]。

在现有技术中使用神经网络进行分类时，类别的数量对于分类准确率的影响很大，当类别数很多时，模型分类的准确率会急剧降低，而在该实施例中，通过集成学习首先分类出音频归属的大类，然后再分类出具体的类别，尽管要分类的类别总数很多，但具体到每个模型要分类的数量不多，模型的准确率得以大幅度提升，还可以根据初级噪声分类模型的分类结果自动选择次级噪声分类模型来进行细分类，最终通过计算两次分类结果的乘积来得出最终的分类结果，大大的提高了模型预测的准确率。

实施例2

如图5所示，本申请实施例2所涉及的一种基于卷积神经网络的噪声源分类的装置，包括：

100工控机，所述工控机100包括处理器101、存储器102及存储在所述存储器102上并可在所述处理器101上运行的程序或指令，所述程序或指令被所述处理器101执行时实现如实施例1中任意一种实施方式所述的方法；

麦克风200，所述麦克风200与所述处理器101电性连接；

显示屏300，所述显示屏300与所述处理器101电性连接。

需要说明的是，本发明实施例中基于卷积神经网络的噪声源分类的装置的其他具体实施方式，可参见上述基于卷积神经网络的噪声源分类的方法的具体实施方式，为避免冗余，此处不再赘述，在使用时，麦克风200采集音频信息传输给工控机100，工控机100搭载可在所述处理器101上运行的程序或指令，程序或指令被所述处理器101执行时实现如实施例1中任意一种实施方式所述的方法，音频信息经过工控机100处理后得到音频所属类别，将类别信息传输到显示屏300上面进行显示。

实施例3

本申请实施例3所涉及的一种计算机可读存储介质，所述计算机可读介质存储用于设备执行的程序代码，该程序代码包括用于执行如本申请实施例1中的任意一种实现方式中方法的步骤；

其中，计算机可读存储介质可以是只读存储器(read only memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(random access memory，RAM)；计算机可读存储介质可以存储程序代码，当计算机可读存储介质中存储的程序被处理器执行时，处理器用于执行如本申请实施例1中的任意一种实现方式中方法的步骤。

以上，仅为本申请较佳的具体实施方式；但本申请的保护范围并不局限于此。任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，根据本申请的技术方案及其改进构思加以等同替换或改变，都应涵盖在本申请的保护范围内。

Claims

1.一种基于集成学习的神经网络噪声源分类的方法，其特征在于，包括：

获取噪声音频；

将所述噪声音频经过频谱转换成log-mel特征矢量；

2.根据权利要求1所述的基于集成学习的神经网络噪声源分类的方法，其特征在于，所述第一推理结果包括初级噪声类别与第一概率，所述第二推理结果包括次级噪声类别与第二概率。

3.根据权利要求2所述的基于集成学习的神经网络噪声源分类的方法，其特征在于，所述初级噪声类别包括动物噪声、工业噪声、社交噪声、自然噪声和施工噪声。

4.根据权利要求2或3所述的基于集成学习的神经网络噪声源分类的方法，其特征在于，预设的次级噪声分类模型选择策略包括：

将第一推理结果中除P（A）以外的初级噪声类别记为P（i）；

计算P（A）与P（i）的差值X；

5.根据权利要求4所述的基于集成学习的神经网络噪声源分类的方法，其特征在于，预设的次级噪声分类模型选择策略还包括：若存在差值X小于阈值M的情况，则进一步判断差值X小于阈值M的P（i）的数量是否大于预设值N，其中，1≤N≤4，若判断结果为否，则将差值X对应的P（i）以及P（A）对应的次级噪声分类模型作为匹配出的次级噪声分类模型，若判断结果为是，则将差值X对应的P（i）中概率排名靠前的N个P（i）以及P（A）对应的次级噪声分类模型作为匹配出的次级噪声分类模型。

6.根据权利要求2或3所述的基于集成学习的神经网络噪声源分类的方法，其特征在于，根据第一推理结果和第二推理结果得出所述噪声音频的最终类别与概率，包括：将第一概率与对应的第二概率相乘分别计算出第二推理结果中的所有次级噪声类别的最终概率，将最终概率值最大的次级噪声类别作为最终类别。

7.根据权利要求1所述的基于集成学习的神经网络噪声源分类的方法，其特征在于，将噪声音频分为若干大类对第一卷积神经网络模型进行训练以得到初级噪声分类模型，将每一大类中的细分噪声音频单独对第二卷积神经网络模型进行训练以得到若干个次级噪声分类模型。

8.根据权利要求7所述的基于集成学习的神经网络噪声源分类的方法，其特征在于，所述第一卷积神经网络模型和第二卷积神经网络模型均依次包括：二维conv层、特征提取模块、二维DepthwiseConv层、mean池化层、二维conv层、池化层、Reshape层、二维conv层和Softmax层，其中，所述特征提取模块包括4个TransitionBlock块和12个NormalBlock块。

9.一种基于集成学习的神经网络噪声源分类的装置，其特征在于，包括：

工控机，所述工控机包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-8中任一项所述的方法；

麦克风，所述麦克风与所述处理器电性连接；

显示屏，所述显示屏与所述处理器电性连接。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储用于设备执行的程序代码，该程序代码包括用于执行如权利要求1-8中任一项所述方法的步骤。