CN109192222A

CN109192222A - 一种基于深度学习的声音异常检测系统

Info

Publication number: CN109192222A
Application number: CN201810810077.3A
Authority: CN
Inventors: 刘勇; 李雅纯
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-07-23
Filing date: 2018-07-23
Publication date: 2019-01-11

Abstract

一种基于深度学习的声音异常检测系统，包括声音特征提取模块、深度学习分类模块和检测结果后处理模块；声音特征提取模块处理获取的原始声音数据得到相应的音频特征，组合多个极短时间声音片段语音特征获取短时间声音特征表达；深度学习分类模块与声音特征提取模块连接，对原始声音数据进行标注，深度学习分类模块使用标注后的声音数据训练得到深度学习异常检测模型；生成深度学习异常检测模型后，将声音特征提取模块生成的短时间声音特征输入深度学习异常检测模型进行分类；检测结果后处理模块与深度学习分类模块连接，检测结果后处理模块对深度学习分类模块输出的结果进行封装，将短时间声音的检测结果组合共同预测较长时间的异常检测结果。

Description

一种基于深度学习的声音异常检测系统

技术领域

本发明涉及声音异常检测领域，具体的，涉及一种基于深度学习的声音异常检测系统。

背景技术

变电站内设备运行过程中会出现各种各样的声音，可能是运行状态下发出的正常声音，也可能是设备在故障情况下发出的异常声音。电力巡检人员在经过专门的培训后，能够根据设备发出的不同声音判断设备的正常或异常情况。然而，要求电力巡检人员全天24小时对所有的变电站点进行监控是不现实的，而间歇性的巡检无法实时、有效地检测到变电站的异常情况。与此同时，技术的进步推动着变电站监管向自动化、智能化发展。针对这一现象，需要利用智能技术代替人工来检测识别变电站的异常情况。

发明内容

本发明提供了一种基于深度学习的声音异常检测系统，通过深度学习方法有效地监控变电站声音，判断异常情况。本发明采用以下技术方案。

一种基于深度学习的声音异常检测系统，所述系统包括声音特征提取模块、深度学习分类模块和检测结果后处理模块；

所述声音特征提取模块处理获取的原始声音数据得到相应的音频特征，通过滑动窗口获取极短时间声音片段对应的语音特征，组合多个极短时间声音片段语音特征获取短时间声音特征表达；

所述深度学习分类模块与所述声音特征提取模块连接，对所述原始声音数据进行标注，所述深度学习分类模块使用标注后的声音数据训练得到深度学习异常检测模型；生成所述深度学习异常检测模型后，将所述声音特征提取模块生成的短时间声音特征输入所述深度学习异常检测模型进行分类，做出声音正常或声音异常分类判断；

所述检测结果后处理模块与所述深度学习分类模块连接，所述检测结果后处理模块对深度学习分类模块输出的结果进行封装，将短时间声音的检测结果组合共同预测较长时间的异常检测结果。

优选的，所述通过滑动窗口获取极短时间声音片段对应的语音特征进一步包括，利用所述滑动窗口所述原始声音数据的极短时间声音片段，对所述极短时间声音片段进行短时傅里叶变换得到极短时间声音片段的高维频谱特征，对所述高维频谱特征经过梅尔频率倒谱分析获取梅尔频率倒谱系数MFCC，计算所述梅尔频率倒谱系数MFCC的差值得到第一差值ΔMFCC，计算所述第一差值ΔMFCC的差值得到第二差值Δ²MFCC，将所述梅尔频率倒谱系数MFCC、第一差值ΔMFCC和第二差值Δ²MFCC组合得到极短时间声音片段对应的语音特征表达。

优选的，所述滑动窗口的长度为100ms，所述滑动窗口移动的步进为25ms。

优选的，所述极短时间声音片段的时长为100ms，所述短时间声音的时长为1.325s。

优选的，所述深度学习分类模块采用全连接网络训练模型对标注后的声音数据进行训练。

优选的，所述全连接网络为3层全连接网络。

本发明的有益效果是：一方面，通过自动化的声音异常检测技术，24小时全天候智能监控变电站的异常情况，及时、有效地对变电站情况作出反馈和预警，同时也减少了电力巡检人员的整体工作量。另一方面，在音频特征表示部分，本发明通过短时傅里叶变换得到极短时间的高维频谱特征，经过梅尔（Mel）频率倒谱分析获取梅尔频率倒谱系数（MFCC），进一步可以获取MFCC的差值ΔMFCC，以及ΔMFCC的差值Δ²MFCC，三者合并得到极短时间对应的语音特征表达，在保证音频特征表达性的同时，降低了极短时间语音特征的维度，使得极短时间对应的语音特征数据量大大降低，并且因此降低了后续深度学习分类模块的计算量。

附图说明

图1 是本发明中短时间声音特征获取示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于深度学习的声音异常检测系统，包括声音特征提取模块、深度学习分类模块和检测结果后处理模块。声音特征提取模块处理获取的原始声音数据得到相应的音频特征，通过滑动窗口获取极短时间声音片段对应的语音特征，组合多个极短时间声音片段语音特征获取短时间声音特征表达。声音特征提取模块，提取模块通过语音信号分析得到输入声音的特征表达，获得表示短时间声音的整体特征。深度学习分类模块与声音特征提取模块连接，对原始声音数据进行标注，深度学习分类模块使用标注后的声音数据训练得到深度学习异常检测模型；生成深度学习异常检测模型后，将声音特征提取模块生成的短时间声音特征输入深度学习异常检测模型进行分类，做出声音正常或声音异常分类判断。深度学习分类模块利用预先标注好的声音数据进行分类训练，储存训练好的模型以便调用，供声音的异常识别检测使用。检测结果后处理模块与深度学习分类模块连接，检测结果后处理模块对深度学习分类模块输出的结果进行封装，将短时间声音的检测结果组合共同预测较长时间的异常检测结果。

变电站按照固定的较长时间提供现场获取的音频。如1分钟存储一次音频，并传送给声音异常检测系统进行识别。

声音特征提取部分，以滑动窗口方式得到极短声音片段，经过短时傅里叶变换、梅尔频率倒谱分析、合并得到极短时间的梅尔倒谱系数（MFCC）表达，通过多个极短时间MFCC语音特征表达组合得到短时间的语音特征。对获取的较长时间声音数据，如1分钟的声音数据，首先采用滑动窗口方式得到极短声音片段的语音特征，如图1所示，具体而言，通过短时傅里叶变换得到极短时间的高维频谱特征，经过梅尔（Mel）频率倒谱分析获取梅尔频率倒谱系数（MFCC），进一步可以获取MFCC的差值ΔMFCC，以及ΔMFCC的差值Δ²MFCC，三者合并得到极短时间对应的语音特征表达。如可设定短时傅里叶变换的窗长为2048，则得到极短时间的高维频谱为1025维，MFCC、ΔMFCC和Δ²MFCC均为13维的，将其组合则得到极短时间对应的语音特征为39维的，无论是与原始音频数据或是与之前1025维的高维频谱特征相比，本发明中获取的极短时间对应的语音特征数据量都大大降低，并且因此降低了后续深度学习分类模块的计算量。之后通过多个极短时间语音特征的组合融合，得到短时间的语音特征。对于每个传送到检测系统的较长时间声音数据，可以提取得到多个短时间的音频特征作为样本，输入至深度神经网络中分别得到对应的异常检测结果。

如可设定极短时间为100毫秒（ms），滑动窗口每次移动25毫秒（ms），50个极短时间组合得到短时间（25ms*50）-25ms+100ms=1.325秒（s）对应的音频特征，最终1分钟（min）的较长时间音频可得到约60s/1.325s ≈ 45个短时间声音样本。

对当前已采集的多处变电站数据进行正常或异常的标注，标注内容包括每个较长时间的音频对应标注一个正常或异常的标签（1表示正常，0表示异常），将音频和其对应的标签存储，以备后续深度学习分类模型的训练使用。

深度学习分类模块，采用了包含3层全连接层的深度神经网络，加入丢弃（dropout）以及批标准化（Batch Normalization）以提高深度学习模型的整体拟合和泛化能力，模型输出结果为输入语音特征对应的正常或异常概率值，在0~1范围内，输出值接近1表示短时间语音为正常的概率较大，而输出值接近0表示短时间语音为异常的概率较大。训练过程使用预先标注好的音频数据，输入数据经过声音特征提取模型后得到音频特征，将特征分批送到深度网络中，使得深度模型逐渐学习到输入音频特征和输出异常情况预测之间的映射关系。存储训练好的模型供后续声音的异常检测调用。

利用开源深度网络框架（本方法实现中使用了PyTorch框架）搭建3层全连接深度网络，将预先采集并标注好的变电站声音处理得到的短时间音频特征用于训练，每个短时间音频特征的标签与其所属的较长时间音频一致。存储训练好的模型，提供接口用于分析短时间音频特征，检测声音的异常情况。

检测结果后处理部分，将深度学习模型输出的结果进行更高层级的封装，深度模型输出表示了短时间声音的正常或异常检测情况，后处理部分组合多个深度网络预测的短时间音频异常检测结果，得到较长时间对应的异常识别检测结果，从而提高检测方法的可靠性。

具体的说，对于较长时间内的多个短时间声音异常检测结果，设定阈值。当正常或异常预测的结果数目大于设定阈值时，将检测结果判断为正常或异常，阈值设置情况可根据应用场景作出调整。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于深度学习的声音异常检测系统，其特征在于，所述系统包括声音特征提取模块、深度学习分类模块和检测结果后处理模块；

2.根据权利要求1所述的一种基于深度学习的声音异常检测系统，其特征在于，所述通过滑动窗口获取极短时间声音片段对应的语音特征进一步包括，利用所述滑动窗口所述原始声音数据的极短时间声音片段，对所述极短时间声音片段进行短时傅里叶变换得到极短时间声音片段的高维频谱特征，对所述高维频谱特征经过梅尔频率倒谱分析获取梅尔频率倒谱系数MFCC，计算所述梅尔频率倒谱系数MFCC的差值得到第一差值ΔMFCC，计算所述第一差值ΔMFCC的差值得到第二差值Δ²MFCC，将所述梅尔频率倒谱系数MFCC、第一差值ΔMFCC和第二差值Δ²MFCC组合得到极短时间声音片段对应的语音特征表达。

3.根据权利要求2所述的一种基于深度学习的声音异常检测系统，其特征在于，所述滑动窗口的长度为100ms，所述滑动窗口移动的步进为25ms。

4.根据权利要求1所述的一种基于深度学习的声音异常检测系统，其特征在于，所述极短时间声音片段的时长为100ms，所述短时间声音的时长为1.325s。

5.根据权利要求1所述的一种基于深度学习的声音异常检测系统，其特征在于，所述深度学习分类模块采用全连接网络训练模型对标注后的声音数据进行训练。

6.根据权利要求5所述的一种基于深度学习的声音异常检测系统，其特征在于，所述全连接网络为3层全连接网络。