CN113140229A

CN113140229A - 基于神经网络的声音检测方法、工业声学检测系统及方法

Info

Publication number: CN113140229A
Application number: CN202110431912.4A
Authority: CN
Inventors: 朱宝鹤; 任百吉; 孙永吉
Original assignee: Shanghai Fund Acoustics Engineering Co ltd
Current assignee: Shanghai Fund Acoustics Engineering Co ltd
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2021-07-20

Abstract

本发明公开了一种基于卷积神经网络的声音检测方法，以及在工业上的应用，包括卷积神经网络模型的训练阶段和预测阶段，其中，在训练阶段，首先，对已标记标签的声音信号做预处理，将一定数量的声音信号转换为二维音频特征；然后，将所有二维音频特征作为样本，输入至未训练的卷积神经网络模型进行训练，获得具有训练好参数的卷积神经网络模型；在预测阶段，实时将获取的声音信号转换为二维音频特征，并输入至训练好的卷积神经网络模型，获取卷积神经网络模型输出的声音预测。提高了声音处理的预测准确率。应用该方法对工业产品异响进行检测，对工业异响数据集进行测试，预测准确率达到95％。

Description

基于神经网络的声音检测方法、工业声学检测系统及方法

技术领域

本发明属于声音处理领域，具体涉及一种基于神经网络的声音检测方法、工业声学检测系统及方法。

背景技术

声音异响对工业生产企业判断产品的质量起着至关重要的作用。现有的工业声音异响检测主要还是依赖于人工听。这需要工人有较丰富的经验，存在很大的主观性。同一个工业产品发出的声音，两个工人可能一个认为是声音合格，另一个认为是不合格。这种潜在的不一致性，影响了生产企业对产品良品率的质量把控。另外，人工听异响也影响了生产线的效率，无法在自动化生产线全面推广。

深度学习的卷积神经网络在人工智能图像处理方面获得很大的成功，人们提出各种模型框架应用于图像分类等领域。但如果把这些模型直接应用于声音检测分类，则缺乏针对性，预测准确率也不高。

发明内容

本发明所要解决的技术问题是：提供一种基于神经网络的声音检测方法，解决了现有技术中卷积神经网络模型直接用于声音检测，准确率低的问题。

本发明为解决上述技术问题采用以下技术方案：

基于卷积神经网络的声音检测方法，包括卷积神经网络模型的训练阶段和预测阶段，其中，在训练阶段，首先，对已标记标签的声音信号做预处理，将一定数量的声音信号转换为二维音频特征；然后，将所有二维音频特征和标签作为样本，输入至未训练的卷积神经网络模型进行训练，获得具有训练好参数的卷积神经网络模型；

在预测阶段，实时将获取的声音信号转换为二维音频特征，并输入至训练好的卷积神经网络模型，获取卷积神经网络模型输出的声音预测。

将一定数量的声音信号转换为二维音频特征的过程如下：

对声音信号设定时间长度进行分帧，得到N个声音片段，每一个声音片段即为一帧，对每一帧声音信号计算对数梅尔特征，将所有分帧的对数梅尔特征合成得到二维音频特征，

对数梅尔特征的计算方法如下所示：

每帧声音信号→傅里叶变换→取模→梅尔滤波器→对数变换→对数梅尔特征。

卷积神经网络模型的训练流程如下：

步骤1、将已经标记过“正常”或“异常”标签的声音信号按比例划分为训练集和测试集；

步骤2、将训练集中的所有数据分批依次输入卷积神经网络模型，每输入一批数据计算一次模型输出值，利用输出值和标签计算损失函数值，应用损失函数值对卷积神经网络模型的参数进行一次更新，同时计算训练集预测准确率，输入完所有批次数据即完成一个训练周期；

步骤3、一个训练周期结束后，将测试集数据导入当前参数更新的卷积神经网络模型，计算测试集的预测准确率和损失函数值；

步骤4、重复执行步骤2、步骤3，直至预先设定的训练周期总数完成，获取具有训练好参数的卷积神经网络模型。

卷积神经网络模型输出的声音预测过程如下：

将实时采集的声音信号转换为二维音频特征，输入训练好的卷积神经网络模型，输出一个概率值，该概率值范围为[0,1]，当概率值小于0.5时，预测为“正常”，否则，预测为“异常”。

卷积神经网络模型的构建方法如下：

所述卷积神经网络模型由多个卷积层块、一个池化层和一个全连接层按顺序连接构成，其中，卷积层块是3路分支结构，分别是3ⅹ3卷积层(卷积核尺寸为3ⅹ3)、1ⅹ1卷积层和残差分支；3路分支各自经过批规范层后相加，由ReLU激活函数运算输出新的音频特征。

为了进一步解决工业异响检测主观性强，自动化程度低的问题，以及工业生产线依赖人工判断产品异响的主观性和低效性的问题，本发明还提供一种工业声学检测系统及方法，具体的技术方案如下：

工业声学智能检测方法，首先，在工业现场获取一定数量的声音信号，并对所有声音信号标记标签；其次，对已标记标签的声音信号做预处理，转换为二维音频特征；然后，将所有二维音频特征和标签作为样本，输入至未训练的卷积神经网络模型进行训练，获得具有训练好参数的卷积神经网络模型；最后，应用训练好参数的卷积神经网络模型进行声音预测，实时将在工业现场获取的声音信号转换为二维音频特征，并输入至训练好参数的卷积神经网络模型，获取卷积神经网络模型输出的声音预测，判断工业现场的声音信号是否合格。

在工业现场，通过声音采集装置获取一定数量的声音信号，并对所有声音信号进行人工标记标签，作为训练神经网络模型的声音样本。

工业声学智能检测系统，包括声音采集模块、信号处理模块、智能检测模块、控制模块、通信模块、显示模块；其中，

声音采集模块用于采集工业现场的模拟音频信号，进行模数转换，将数字音频信号输出至信号处理模块；

信号处理模块对数字音频信号进行声音信号预处理，将音频数据转变为二维音频特征，并将二维音频特征作为样本传递给智能检测模块；

智能检测模块对已标记标签的声音信号进行卷积神经网络模型的训练，并应用训练好的卷积神经网络模型对实时声音信号进行判断，并输出声音的判断结果；

控制模块用于控制工作流程以及各模块之间的协调工作；

通信模块用于与工业现场之间的数据交互；

显示模块用于显示参数设置界面、设置控制参数及显示检测结果。

所述声音采集模块包括传声器、前置放大器、信号采集卡；所述传声器和前置放大器获取工业现场的模拟音频信号，信号采集卡根据接收到的控制指令及采集时间，采集由传声器和前置放大器传入的音频信号并转换成数字音频信号。

所述通信模块接收自动化生产线PLC的“检测触发”信号，传给控制模块使之驱动声音采集模块采集声音信号，智能检测模块检测完成后，控制模块获取检测结果和“检测结束”信号，通过通信模块发送给PLC。

所述通信模块包括网络端口、串口以及PLC软件通讯库，通信模块与工业现场PLC之间的数据交互采用串口或网络端口通信。

与现有技术相比，本发明具有以下有益效果：

1、本方案的基于卷积神经网络的工业声学智能检测技术，利用对数梅尔特征提取方法，生成二维音频训练样本，使用具有3路分支卷积层块的卷积神经网络模型进行训练，提高了声音处理的预测准确率。

2、本发明改进了现有卷积神经网络的结构，提出了3路分支的卷积层块，适用于声音信号的二维音频特征，对工业声音异响判断有很高的预测准确率，应用该方法对工业产品异响进行检测，对工业异响数据集MIMII①和ToyADMOS②进行测试，预测准确率达到95％。

3、本申请集成采用PLC(可编程逻辑控制器)串口通信和网络通信模块，无缝对接自动化生产线，能根据PLC信号实时触发检测，并上传检测结果，完全适应工业自动化的生产线节拍。

①MIMII Dataset:sound dataset for malfunctioning industrial machineinvestigation and inspection.Purohit et al.

②ToyADMOS:a dataset of miniature-machine operating sounds foranomalous sound detection.Koizumi et al.

附图说明

图1为本发明卷积神经网络模型训练集计算流程图。

图2为本发明卷积神经网络模型测试集计算流程图。

图3为本发明卷积神经网络模型声音预测计算流程图。

图4为卷积神经网络模型示意图。

图5为本发明卷积层块示意图。

图6为本发明工业声学智能检测方法流程图。

图7为本发明工业声学智能检测系统的系统构架图。

图8为本发明工业声学智能检测系统的软件界面图。

具体实施方式

下面结合附图对本发明的结构及工作过程作进一步清楚、完整的描述说明，所描述的实施例是本发明的一部分实施例，而不是全部实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有实施例，都应属于本发明技术方案保护的范围。

本发明的实施例可以用于各种声音处理领域，例如，工业声学检测，环境噪音监测，实验室教学展示等。

具体实施例一，本实施例卷积神经网络模型的训练及测试流程如图1、图2所示，具体过程如下：

把已经标记过“正常”或“异常”标签的声音信号按比例划分为训练集和测试集(例如8：2比例)，训练集数据用来训练卷积神经网络模型的参数，当每完成一个训练周期，使用测试集验证当前更新参数模型的预测准确率和损失函数值；期望随着训练周期的增加，测试集的预测准确度不断提高，损失函数值不断降低。把训练集中的一组数据输入卷积神经网络模型，执行一步计算流程，更新卷积神经网络模型参数；同时，根据卷积神经网络模型的输出值和标签，更新训练集预测准确率，当训练集中的所有数据完成上述流程，称为训练的一个周期；训练的周期总数，预先设定。

训练集的计算流程如图1所示：训练集随机抽取一批二维音频特征，输入卷积神经网络，输出一批概率值，值范围为[0,1]，其值小于0.5，预测为“正常”，其值大于0.5，预测为“异常”。根据预测标签和已标记标签进行对比，更新一次预测准确率。另外，输出的概率值和已标记的标签一起输入二值交叉熵损失函数，计算损失函数值。损失函数值通过Adam优化器对卷积神经网络模型的参数进行一次更新。然后，训练集随机抽取另外一批二维音频特征，进行下一次的模型参数更新。当训练完成一周期，记录本周期结束时的训练集预测准确率和损失函数值。随着训练周期数的增加，训练集损失函数值不断降低，训练集预测准确率不断提高。当训练完成指定的周期总数，训练结束。

当训练集每完成一个周期的训练，都要评估测试集的预测准确率，把测试集输入参数更新后的模型，计算得到测试集的预测准确率和损失函数值。测试集中的数据不参与训练，可用来测试模型的泛化能力，评估对未知数据的预测准确率。

同时测试集可用来估计训练周期数，当测试集的损失函数值不再降低或者测试集预测准确率不再提高，此时的周期数可设为训练周期数。

测试集的计算流程如图2所示：测试集按顺序抽取一批二维音频特征，输入当前周期训练完的卷积神经网络模型，输出一批概率值，值范围为[0,1]，其值小于0.5，预测为“正常”，其值大于0.5，预测为“异常”。根据预测标签和已标记标签进行对比，更新一次预测准确率。另外，输出的概率值和已标记的标签一起输入二值交叉熵损失函数，计算损失函数值。然后，测试集按顺序抽取下一批二维音频特征，进行下一次的计算。当测试集所有数据完成计算，记录测试集的预测准确率和损失函数值。

上述实施例中，将已经标记过“正常”或“异常”标签的声音信号转换为二维音频特征的过程如下：

对声音信号设定时间长度进行分帧，得到N个声音片段，每一个声音片段即为一帧，对每一帧声音信号计算对数梅尔特征，将所有分帧的对数梅尔特征合成得到二维音频特征，作为一个样本传递给智能检测模块做进一步的处理。

对数梅尔特征的计算方法如下所示：

上述实施例中，核心算法是基于3路分支卷积层块的卷积神经网络模型进行深度学习，使其用于声音处理预测。

卷积神经网络模型由多个卷积层块、一个池化层和一个全连接层按顺序连接构成，如图4所示。

卷积层块中有卷积层，卷积层包含卷积核，功能是提取输入数据特征，输出特征图；池化层的作用是为特征图降维；全连接层将经过卷积层提取到的特征进行整合后，用于分类。

卷积层块数量由实验确定。卷积层块之间的区别是卷积层卷积核的通道数不同。随着卷积层块的深度增加，通道数递增，可取值64、128、256和512等。

为了更进一步优化卷积神经网络模型，本实施例将卷积层块设计成3路分支结构，如图5所示。卷积层块的3路分支分别是3ⅹ3卷积层(卷积核尺寸为3ⅹ3)、1ⅹ1卷积层和残差分支；3路分支各自经过批规范层后相加，由ReLU激活函数运算输出新的音频特征。

批规范层使数据经过归一化和标准化后可以加快训练速度。ReLU激活函数的作用是增加神经网络模型的非线性。

卷积层块的残差分支参考了ResNet模型结构。本实施例卷积块与ResNet模型卷积块的区别是：

1)增加了1ⅹ1卷积层分支，ResNet模型只有2个分支；

2)ResNet模型的残差分支是跨层连接，而本实施例卷积块是单层连接。

具体实施例二，如图6、图7所示，

本实施例针对工业声学智能检测方法及系统做详细的阐述，该实施例的工业声学智能检测方法主要通过安装在主机上的软件实现，首先，在任何工业现场获取一定数量的声音信号，并对所有声音信号标记标签；其次，对已标记标签的声音信号做预处理，转换为二维音频特征；然后，将所有二维音频特征作为样本，输入至未训练的卷积神经网络模型进行训练，获得具有训练好参数的卷积神经网络模型；最后，应用训练好参数的卷积神经网络模型进行声音预测，实时将在工业现场获取的声音信号转换为二维音频特征，并输入至训练好参数的卷积神经网络模型，获取卷积神经网络模型输出的声音预测，判断工业现场的声音信号是否合格。

该实施例的工业声学智能检测系统，如图7所示，以智能硬件平台为基础，以深度学习算法为核心，系统构架的软硬件可划分为通信模块、采集模块、信号处理模块、智能预测模块、控制模块和显示模块，共6个模块。6个模块的软件部分组成了SmartAcoustics软件，SmartAcoustics软件为自主研发的工业声学智能检测软件，实现对声音信号的采集、训练、分析、预测和显示的一体化流程，能运用于各种工业环境的异响自动检测分析。

1)采集模块

采集模块采集模拟音频信号，通过模数转换，输出数字音频信号，硬件构成有：传声器、前置放大器和信号采集卡。

SmartAcoustics软件的控制模块接收到通信模块发来的“触发检测”的信号，驱动信号采集卡采集指定时间长度的声音信号。

基于高灵敏度信号采集卡设计，通过芯片选择和电子电路去噪设计，实现声音信号的模数转换，具备产品异响采集的高灵敏度。

2)信号处理模块

信号处理模块对声音信号进行预处理，将音频数据转变为二维音频特征，并将二维音频特征作为样本传递给智能检测模块；SmartAcoustics软件的信号处理模块，主要包括了对声音信号进行分帧操作，然后进行声音特征提取，得到二维音频特征。

声音信号的特征提取，对于声音信号的每一帧提取特征，然后N帧的特征合并成二维音频特征，作为一个样本传递给智能检测模块做进一步的处理。

对数梅尔特征的计算方法如下所示：

3)智能检测模块

智能检测模块导入未训练的深度学习神经网络模型，对已标记标签的声音信号进行卷积神经网络模型的训练，并应用训练好的卷积神经网络模型对实时声音信号进行判断，并输出声音的判断结果，SmartAcoustics软件的智能检测模块把预测后的结果发送给通信模块。

SmartAcoustics软件的核心算法采用3路分支结构的卷积神经网络。其中，卷积层块的3路分支分别是3ⅹ3卷积层(卷积核尺寸为3ⅹ3)、1ⅹ1卷积层和残差分支；3路分支各自经过批规范层后相加，由ReLU激活函数运算输出新的音频特征。SmartAcoustics软件可修改卷积层块的参数，包括卷积层块数和卷积核通道数。

4)通信模块

通信模块接收PLC的触发信号，发送给采集模块“触发检测”的信号。检测完成后，把检测结果发送给PLC。

硬件构成有：系统主机的COM口和网络接口，SmartAcoustics软件开放与PLC的串口通信和网络通信的API。

工业声学智能检测系统软件与PLC有两种通信方式：

串口通信，用串口线连接工业声学智能检测系统主机的COM口和PLC的COM口；软件用串口通信命令接收PLC发出的“触发检测”的信号和发送给PLC检测结果。

网络口通信，用网线连接工业声学智能检测系统主机的网络口和PLC的网络口。软件用网络通信库命令接收PLC发出的“触发检测”的信号和发送给PLC检测结果。

5)显示模块

显示模块包含触摸屏，可操作SmartAcoustics软件，用于显示参数设置界面、设置控制参数及显示检测结果。

6)控制模块

控制模块用于控制工作流程以及各模块之间的协调工作。

SmartAcoustics软件有“声压级监测”和“智能监测”两种检测模式，如图8所示。

“声压级监测”模式采集指定时间长度声音信号,根据计算所得的A计权声压级，对比预设定的声压级阈值判断声音信号是否正常。如果声压级超过阈值则判断为异常。

“智能监测”模式采集指定时间长度声音信号，提取二维音频特征导入预训练的深度学习神经网络模型，根据模型的输出值实时判断设备运行声音是否正常，并返回分析结果，其流程如图6所示，实线是模型预训练流程，虚线是软件实现预测流程。

SmartAcoustics软件有三种触发模式：“实时触发”、“按钮触发”和“PLC触发”。

1、实时触发，如果设置成“实时触发”，则主机采集卡接口连接上麦克风，将实时计算A计权声压级，并在“检测”标签页实时刷新显示声压级数值、声音判断结果(“OK”或“NG”)、A计权声压级的时间域曲线图和A计权声压级的1/3倍频程图。关闭“实时模式”按钮，则停止刷新实时声压级、时间域曲线图和1/3倍频程图。

“实时触发”判断声音，只采用“声压级监测”的检测模式，而无论“声压级监测”按钮是否打开。

2、“按钮触发”是指通过单击按钮，执行一次检测，检测完成，在“检测”标签页显示结果。

如果同时启动了“实时触发”，则“按钮触发”后暂停“实时触发”的刷新，采样、计算和显示“按钮触发”的结果。在等待片刻后，恢复“实时触发”的刷新。

“按钮触发”模式有两种检测模式：“声压级监测”和“智能检测”。

3、“PLC触发”是指主机和PLC通信，当获得PLC发出的检测信号，则执行一次检测。检测完成，在“检测”标签页显示结果，并把结果发回PLC。

如果同时启动了“实时触发”，则“PLC触发”后，当从PLC收到检测信号时，暂停“实时触发”的刷新，采样、计算和显示“PLC触发”的结果。在等待片刻后，恢复“实时触发”的刷新。

“PLC触发”模式有两种检测模式：“声压级监测”和“智能检测”。

SmartAcoustics软件的深度学习模型对工业异响数据集进行测试，对于监督学习训练，预测准确率可达到95％。另外针对异响标本稀少的情况，也可以进行无监督学习训练。

SmartAcoustics软件开放PLC(可编程逻辑控制器)通信接口，无缝对接自动化生产线，能根据PLC信号实时触发检测，并上传检测结果。

工业声学智能检测系统的硬件主要包括高精度传声器、前置放大器、信号采集卡、触摸屏和主机，

为满足工业环境要求，主机具有较宽的温度应用范围，外壳采用优质全铝合金机身，坚固耐用，可满足持续运行要求。

电容传声器是精密的声学测量用声-电换能器，用于将声信号转换为电信号。采用镍或钛合金振膜和外壳，并进行特殊的稳定性处理，具有频率范围宽、频率响应好、动态范围宽、动态特性好、温度和长时间稳定性好等优点。

前置放大器是输入电阻很高、输入电容很小、输出阻抗很低的特种放大器，用来与传声器配合，进行阻抗变换和前置放大。

信号采集卡是一款为测试音频和振动信号而设计的PCI总线高精度数据采集卡，该板卡提供8路同步模拟输入通道，24bit分辨率，单通道采样速率最高102.4kSPS，每通道集成独立的IEPE激励源，可实现加速度传感器及麦克风等相关的信号调理；支持AC/DC两种耦合方式，每通道均可通过软件独立配置；板载数字抗混叠滤波器，可有效降低高频噪声并抑制频率混叠。PCI信号采集卡具备灵活的通道配置，对于多通道的动态信号采集应用，适用于诸如动态结构测试、音频/振动测试等高通道数的动态信号采集应用场合。

以上所述，仅对本发明的较佳实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施；任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例，这并不影响本发明的实质内容。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围。

Claims

1.基于卷积神经网络的声音检测方法，其特征在于：包括卷积神经网络模型的训练阶段和预测阶段，其中，在训练阶段，首先，对已标记标签的声音信号做预处理，将一定数量的声音信号转换为二维音频特征；然后，将所有二维音频特征和标签作为样本，输入至未训练的卷积神经网络模型进行训练，获得具有训练好参数的卷积神经网络模型；

2.根据权利要求1所述的基于卷积神经网络的声音检测方法，其特征在于：将一定数量的声音信号转换为二维音频特征的过程如下：

对数梅尔特征的计算方法如下所示：

3.根据权利要求1所述的基于卷积神经网络的声音检测方法，其特征在于：卷积神经网络模型的训练流程如下：

4.根据权利要求1所述的基于卷积神经网络的声音检测方法，其特征在于：卷积神经网络模型输出的声音预测过程如下：

5.根据权利要求1所述的基于卷积神经网络的声音检测方法，其特征在于：卷积神经网络模型的构建方法如下：

所述卷积神经网络模型由多个卷积层块、一个池化层和一个全连接层按顺序连接构成，其中，卷积层块是3路分支结构，分别是3ⅹ3卷积层、1ⅹ1卷积层和残差分支；3路分支各自经过批规范层后相加，由ReLU激活函数运算输出新的音频特征。

6.工业声学智能检测方法，其特征在于：首先，在工业现场获取一定数量的声音信号，并对所有声音信号标记标签；其次，对已标记标签的声音信号做预处理，转换为二维音频特征；然后，将所有二维音频特征和标签作为样本，输入至未训练的卷积神经网络模型进行训练，获得具有训练好参数的卷积神经网络模型；最后，应用训练好参数的卷积神经网络模型进行声音预测，实时将在工业现场获取的声音信号转换为二维音频特征，并输入至训练好参数的卷积神经网络模型，获取卷积神经网络模型输出的声音预测，判断工业现场的声音信号是否合格。

7.根据权利要求6所述的工业声学智能检测方法，其特征在于：在工业现场，通过声音采集装置获取一定数量的声音信号，并对所有声音信号进行人工标记标签，作为训练神经网络模型的声音样本。

8.工业声学智能检测系统，其特征在于：包括声音采集模块、信号处理模块、智能检测模块、控制模块、通信模块、显示模块；其中，

控制模块用于控制工作流程以及各模块之间的协调工作；

通信模块用于与工业现场之间的数据交互；

9.根据权利要求8所述的工业声学智能检测系统，其特征在于：所述声音采集模块包括传声器、前置放大器、信号采集卡；所述传声器和前置放大器获取工业现场的模拟音频信号，信号采集卡根据接收到的控制指令及采集时间，采集由传声器和前置放大器传入的音频信号并转换成数字音频信号。

10.根据权利要求8所述的工业声学智能检测系统，其特征在于：所述通信模块接收自动化生产线PLC的“检测触发”信号，传给控制模块使之驱动声音采集模块采集声音信号，智能检测模块检测完成后，控制模块获取检测结果和“检测结束”信号，通过通信模块发送给PLC。

11.根据权利要求10所述的工业声学智能检测系统，其特征在于：所述通信模块包括网络端口、串口以及PLC软件通讯库，通信模块与工业现场PLC之间的数据交互采用串口或网络端口通信。