CN111370027B

CN111370027B - 一种离线嵌入式异常声音检测系统和方法

Info

Publication number: CN111370027B
Application number: CN202010135741.6A
Authority: CN
Inventors: 王旺旺
Original assignee: Espressif Systems Shanghai Co Ltd
Current assignee: Espressif Systems Shanghai Co Ltd
Priority date: 2020-03-02
Filing date: 2020-03-02
Publication date: 2023-04-07
Anticipated expiration: 2040-03-02
Also published as: US20210272580A1; US11984135B2; CN111370027A

Abstract

本发明提供了一种离线嵌入式异常声音检测系统，包含声音采集模块、声音音频特征提取模块和神经网络模块。声音音频特征提取模块使用快速傅里叶变换，在频域对由声音采集模块利用数字麦克风得到的采样数据进行处理后，输入到神经网络模块完成异常分类。神经网络模块包含CNN特征提取层、LSTM长短期记忆层、全连接及分类层和触发判决层。其中CNN特征提取层的网络层数动态可调，全连接及分类层的网络结构动态可变，触发判决层用于消除神经网络产生的泛化误差。本发明还包含一种利用离线嵌入式异常声音检测系统进行异常检测的方法。本发明工作于离线环境，对网络依赖少，性能强工作可靠，能够适应变化的异常诊断工作环境。

Description

一种离线嵌入式异常声音检测系统和方法

技术领域

本发明涉及嵌入式设备领域，特别是一种离线嵌入式异常声音检测系统和方法。

背景技术

声音是一种传递信息的方便、有效和快捷的方式。目前车辆工作的异常检测，压缩机、电机等机械设备的故障检测，房间异常声音的检测，儿童哭声的检测等主要还是基于人为判断，过于依赖人的主观经验，所以导致定位这些异常误差大且消耗的成本高。

近年来有出现一些基于深度学习的异常声音检测方法，可以表现出较好的实际应用效果，但是也存在一些缺陷：

1、系统复杂，计算量大，依赖于复杂的计算单元甚至GPU(Graphic Process Unit，视频处理单元)，对于空调，压缩机等设备而言，故障检测系统部署困难且成本太高。

2、庞大的检测系统需要部署在服务器，通过使待检测设备联网后将工作数据传送至服务器，在服务器上进行检测后再通过网络回传至设备。这样有以下几点问题：

过于依赖网络环境，网络不通时，故障检测系统将无法工作。

由于空调，压缩机等待检测设备工作声音频域上跨度大，需要使用48KHz作为声音采样频率，因此传送的数据量大，对网络压力大。

网络传输实时音频时极其容易出现掉帧现象，当音频流出现掉帧时其频谱特征可能会随之变化，造成故障检测失败。

发明内容

本发明的目的在于提供一种离线嵌入式异常声音检测系统和方法，主要解决上述现有技术存在的问题，它可以减少对网络的依赖，提高异常声音检测的可靠性。

为了实现上述目的，本发明所采用的技术方案是提供一种离线嵌入式异常声音检测系统，其特征在于，包含嵌入端系统；所述嵌入端系统包含声音采集模块、声音音频特征提取模块和神经网络模块；

所述声音采集模块将被检测发出的声音转换成音频数字信号，然后传输给所述声音音频特征提取模块；所述声音音频特征提取模块在频域上对所述音频数字信号进行处理，得到音频频率采样，作为所述神经网络模块的输入；

所述神经网络模块由CNN特征提取层和全连接及分类层组成；所述CNN特征提取层的网络层数动态可调；所述CNN特征提取层对所述音频频率采样进行特征提取后，由所述全连接及分类层从异常种类中选出一个作为异常检测结果，完成异常分类；

所述神经网络模块的工作参数由异常检测模型决定；所述异常种类的数量由所述异常检测模型决定；所述全连接及分类层的网络结构根据所述异常种类的数量决定，动态可变，输出的所述异常种类包含N种异常、未识别异常和无异常。

进一步地，所述神经网络模块还包含LSTM长短期记忆层；所述LSTM长短期记忆层处理所述CNN特征提取层的输出，完成时间维度信息的筛选，然后输出到所述全连接及分类层。

进一步地，其特征在于，所述神经网络模块还包含触发判决层；所述触发判决层对所述全连接及分类层的输出做最后分类，排除泛化误差。

进一步地，所述触发判决层的工作流程是：

步骤101、得到所述全连接及分类层的所述异常检测结果；如果所述异常检测结果是所述N种异常中的一种或者所述未识别异常时，进入步骤102，否则进入步骤105；

步骤102、计数器递增，进入步骤103；

步骤103、如果在L帧内，所述异常检测结果为同一异常的次数大于等于阈值，进入步骤104，否则跳转到步骤105；

步骤104、所述计数器清零，上报有异常，完成；

步骤105、所述计数器清零，无异常，不上报，完成。

进一步地，所述神经网络模块的输入，是将当前帧以及所述当前帧之前的连续N帧的所述音频频率采样拼接后，形成的采样信息。

进一步地，所述声音采集模块采用数字麦克风作为采集器件。

进一步地，所述数字麦克风的音频采样频率为48KHz。

进一步地，所述声音音频特征提取模块采用快速傅里叶变换提取所述音频频率采样。

进一步地，所述快速傅里叶变换为512点快速傅里叶变换。

本发明所采用的技术方案是还包含一种利用所述离线嵌入式异常声音检测系统进行异常检测的方法，其特征在于，包含步骤：

步骤201、使用所述声音采集模块收集所述待测音源发出的声音，得到所述音频数字信号；

步骤202、使用所述声音音频特征提取模块在频域上对所述音频数字信号进行处理，得到所述音频数字信号的音频频率采样；

步骤203.1、使用所述CNN特征提取层对所述音频频率采样进行卷积操作，完成特征提取；

步骤203.2、使用所述LSTM长短期记忆层，对被提取的所述特征进行时间维度信息的筛选；

步骤203.2、使用所述全连接及分类层完成异常种类；

步骤204、利用所述触发判决层做最后分类，排除泛化误差，得到异常检测结果。

鉴于上述技术特征，本发明具有如下优点：

1、本发明工作于离线环境，对网络依赖少，性能强工作可靠。

2、本发明通过加入LSTM层，用以选择性的保留或丢弃时间轴上的历史信息，从而可以将历史信息加入判断依据，提升异常检测的准确性。

3、本发明引入触发判决层，用于处理softmax的输出结果是否为误差结果，以进一步提升异常检测的准确性。

4、本发明使用数字麦克风作为声音采集的采集器件，避免了传统的驻极体麦克风性能稳定性差，一致性差的缺点，同时也避免了使用模拟麦克风在使用时需要配合后级的ADC将模拟信号转为可以处理的数字信号，简化了系统设计，降低成本。

5、本发明采用48KHz作为音频采样频率，避免了采用8KHz或者16kHz采样引起的部分声音特征频率丢失，导致异常检测的效果变差甚至不能检测某些异常的情况。

6、本发明采用FFT算法代替MFCC算法，最大程度上保留了异常声音的频域特性。因为MFCC算法中采用的mel滤波器为针对人耳听觉的优化，即两个响度不等的声音作用于人耳时，则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受，使其变得不易察觉。但是异常检测任务中声音来源不是人声，不符合人声的发音特征和人耳的听觉特征。

附图说明

图1是本发明一个实施例的嵌入端系统的结构示意图；

图2是本发明一个实施例的触发判决层的工作流程图。

图中：1–待检测音频，2–声音采集模块，3–声音音频特征提取模块，4–CNN特征提取层，5–LSTM长短期记忆层，6–全连接及分类层，7–触发判决层，8–嵌入式异常检测系统。

具体实施方式

下面结合具体实施方式，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

请参阅图1，本实施例的一种离线嵌入式异常声音检测系统，在待测音源内部或附近可设置嵌入端系统；所述异常声音检测系统可以适用于多种场景，例如：可以应用于工业领域，以进行机械设备故障检测，也可以通过婴幼儿哭声来判断婴幼儿的健康状况等等。

嵌入端系统包含声音采集模块2、声音音频特征提取模块3和神经网络模块；

声音采集模块2用以将待测音源处发出的待检测音频1转换成音频数字信号，具体的，待测音源可以为被检测设备，也可以为人或其他的发声物体，然后传输给声音音频特征提取模块3；声音采集模块2选用系统器件最少且稳定的数字麦克风作为采集麦克风，采用48KHz作为音频采样频率。

声音音频特征提取模块3利用傅里叶变换对音频进行特征提取，在频域上对音频数字信号进行处理，得到音频数字信号的音频频率采样，作为所述神经网络模块的输入。采样过程以每次以48KHz，16bit，单声道采集10.67ms的音频数据，即512个音频点，再将该512个点的声音信号x通过快速傅里叶变换得到257个特征值点X。

x＝(x₁,x₂,...,x_t)t＝512

X＝FFT(x)

神经网络模块的工作参数由异常检测模型决定。神经网络模块由CNN特征提取层4、LSTM长短期记忆层5、全连接及分类层6组成和触发判决层7构成,其中具体的网络层数可以针对最终的异常诊断系统剩余资源来进行灵活增添或适当缩小。本实施例CNN特征提取层4为4层(layer1至layer 4)，用于对所述音频频率采样进行特征提取。在进入layer1前，会将当前的X和当前帧的前10帧X₁,X₂,...,X₁₀进行拼接得到一个存有时间轴上历史信息的特征矩阵X_I，X_I的大小为(11*257),将X_I依次送入layer1-layer4进行特征提取，最终得到卷积层输出结果X_O，大小为(30*400)。

LSTM长短期记忆层5为layer5，接收X_O作为输入，筛选时间维度信息。通过LSTM长短期记忆层5中的遗忘门、输出门和输入门来决定丢弃或者保留哪些时间维度上的历史信息。这样在每一帧计算时会考虑到之前的时间维度上的信息，即可以不考虑当前帧长是否足够长。这样既解决了帧长过长带来的计算量过大和资源消耗多的问题，也解决了针对较长以及变长异常周期的异常声音检测，从而可以提取传入特征的时间序列上的依赖关系。因为异常音频通常具有一定的周期关系，单独从几帧音频中很难提取到完整的异常音频特征信息，因此通过LSTM长短期记忆层5可以很好的顾及时间维度上的异常特征信息，而且相比RNN，可以解决RNN存在的长期依赖问题。在经过LSTM长短期记忆层5后，得到输出X_OR，大小为(30*400)。

全连接及分类层6为3层结构(layer6-layer8)，分别包含layer6和layer7的全连接层和layer8的softmax分类层。LSTM长短期记忆层5的输出X_OR会作为全连接及分类层6的输入。假设异常种类为n，n的取值会根据异常声音检测模型的改变，如果更新异常声音检测模型，那么n的取值也可以随之改变。最终输出(1*(n+2))大小的输出结果，即分类一共有N种异常、未识别异常和无异常共N+2种异常种类。经过softmax层后即可从异常种类中选出一个作为异常声音检测结果，完成对所述音频频率采样的异常声音分类。

鉴于神经网络模型的泛化误差，在softmax后的输出结果往往存在一定的误差。因此在softmax后引入触发判决层7用于最后分类。

请参阅图2，本实施例的一种离线嵌入式异常声音检测系统和方法的触发判决层的工作流程是：

步骤101、得到softmax的异常声音检测结果；如果异常声音检测结果是N种异常中的一种或者未识别异常时，进入步骤102，否则进入步骤105。

步骤102、计数器递增，进入步骤103。

步骤103、当在指定帧数L内(L为50-500帧)，异常声音检测结果为同一异常的次数大于等于阈值，进入步骤104，否则跳转到步骤105。

步骤104、计数器清零，上报有异常，完成。

步骤105、计数器清零，无异常，不上报，完成。

本实施例还包含一种利用离线嵌入式异常声音检测系统进行异常检测的方法,包含步骤：

步骤201、使用声音采集模块收集待测音源发出的声音，得到音频数字信号；

步骤202、使用声音音频特征提取模块在频域上对音频数字信号进行处理，得到音频数字信号的音频频率采样；

步骤203.1、使用CNN特征提取层对音频频率采样进行卷积操作，完成特征提取；

步骤203.2、使用LSTM长短期记忆层，对被提取的特征进行时间维度信息的筛选；

步骤203.2、使用全连接及分类层完成异常种类；

步骤204、利用触发判决层做最后分类，排除泛化误差，得到异常声音检测结果。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种离线嵌入式异常声音检测系统，其特征在于，包含嵌入端系统；所述嵌入端系统包含声音采集模块、声音音频特征提取模块和神经网络模块；

所述声音采集模块将待测音源发出的声音转换成音频数字信号，然后传输给所述声音音频特征提取模块；所述声音音频特征提取模块在频域上对所述音频数字信号进行处理，得到音频频率采样，作为所述神经网络模块的输入；

所述神经网络模块的工作参数由异常声音检测模型决定；所述异常种类的数量由所述异常声音检测模型决定；所述全连接及分类层的网络结构根据所述异常种类的数量决定，动态可变，输出的所述异常种类包含N种异常、未识别异常和无异常。

2.根据权利要求1所述的离线嵌入式异常声音检测系统，其特征在于，所述神经网络模块还包含LSTM长短期记忆层；所述LSTM长短期记忆层处理所述CNN特征提取层的输出，完成时间维度信息的筛选，然后输出到所述全连接及分类层。

3.根据权利要求2所述的离线嵌入式异常声音检测系统，其特征在于，所述神经网络模块还包含触发判决层；所述触发判决层对所述全连接及分类层的输出做最后分类，排除泛化误差。

4.根据权利要求3所述的离线嵌入式异常声音检测系统，其特征在于，所述触发判决层的工作流程是：

步骤101、得到所述全连接及分类层的所述异常声音检测结果；如果所述异常声音检测结果是所述N种异常中的一种或者所述未识别异常时，进入步骤102，否则进入步骤105；

步骤102、计数器递增，进入步骤103；

步骤103、如果在L帧内，所述异常声音检测结果为同一异常的次数大于等于阈值，进入步骤104，否则跳转到步骤105；

步骤104、所述计数器清零，上报有异常，完成；

步骤105、所述计数器清零，无异常，不上报，完成。

5.根据权利要求1所述的离线嵌入式异常声音检测系统，其特征在于，所述神经网络模块的输入，是将当前帧以及所述当前帧之前的连续N帧的所述音频频率采样拼接后，形成的采样信息。

6.根据权利要求1所述的离线嵌入式异常声音检测系统，其特征在于，所述声音采集模块采用数字麦克风作为采集器件。

7.根据权利要求6所述的离线嵌入式异常声音检测系统，其特征在于，所述数字麦克风的音频采样频率为48KHz。

8.根据权利要求1所述的离线嵌入式异常声音检测系统，其特征在于，所述声音音频特征提取模块采用快速傅里叶变换提取所述音频频率采样。

9.根据权利要求8所述的离线嵌入式异常声音检测系统，其特征在于，所述快速傅里叶变换为512点快速傅里叶变换。

10.一种利用如权利要求3所述的离线嵌入式异常声音检测系统进行异常检测的方法，其特征在于，包含步骤：

步骤203.2、使用所述全连接及分类层完成异常种类；