CN115438698A

CN115438698A - 一种基于图像处理的电力设备声音识别方法及系统

Info

Publication number: CN115438698A
Application number: CN202211065821.4A
Authority: CN
Inventors: 周勇; 崔智博; 包伟伟; 李明轩; 张楠; 王光; 胡恩怀; 翟永杰
Original assignee: Spic Power Operation Technology Institute; North China Electric Power University
Current assignee: Spic Power Operation Technology Institute; North China Electric Power University
Priority date: 2022-09-01
Filing date: 2022-09-01
Publication date: 2022-12-06

Abstract

本发明公开了一种基于图像处理的电力设备声音识别方法及系统，涉及声音识别分类技术领域，本方法包括：获取原始声音信号；根据原始声音信号进行短时傅里叶变换，得到频谱图；采用尺度不变特征变换方法对频谱图进行特征提取，得到特征向量；利用设备识别模型对特征向量进行识别，得到原始声音信号对应的设备名称；设备名称包括：磨煤机、引风机、供油泵、凝结水泵、连接轴和循环水泵；设备识别模型是基于支持向量机构建的。本发明加入了STFT+SIFT+SVM图像特征识别方法，将声音信号处理转为图像处理，将声音数据全部应用，避免了因声音数据利用不完整、特征表达不细致而导致的识别不准确，提高了电力设备声音识别分类的准确性。

Description

一种基于图像处理的电力设备声音识别方法及系统

技术领域

本发明涉及声音识别技术领域，特别是涉及一种基于图像处理的电力设备声音识别方法及系统。

背景技术

随着电厂设备逐渐走向大型化、集成化、高速化、自动化和智能化，突发的故障停机造成的损失也越来越大，定期维修会造成较高的维修成本和较多设备机器寿命损耗，因此做到预知维修能有效降低维修成本，降低事故停机率，具有很高的投资收益比。状态监测是一种感知设备健康的技术，在潜在问题变得严重之前，通过适当的恢复措施进行校正，也可以准确判断设备是否出现故障，从而有效降低误判带来的风险损失。

在实际工业系统中，设备工作状态的改变往往会引起声音信号结构的变化从而出现不同的声音信号特征，因此可以通过设备声音信号特征的变化判断出设备的运行状态，判别设备故障类型和发生部位，从而制定精准的应对策略。

随着近年来研究人员对电力系统设备监测方法研究的不断深入，音频信号作为一种有效监测信息在电力系统设备监测领域逐渐显现其优越性。但目前，基于音频信号的电力系统设备识别的研究还较为匮乏，现阶段的声音信号处理技术大多基于人耳可接收到的频段进行声音处理，现有技术导致很多人耳接收范围以外的高频、低频声音信号无法被高效利用，造成大量有效信号数据的丢失，并且在对声音信号进行特征提取后，当下广泛使用的方法是采取特征降维处理，这样的方法具有很大的局限性，很多声音的细节无法充分表达，从而导致系统识别率大大降低。引入图像处理技术可以将音频信号全频段利用，并且通过图像来表达声音特征更直观、更细致，有利于准确分类识别。

常用的声音信号识别分类方法包括：(1)采用基于独立分量分析的信号分离方法处理声音源信号，提取MFCC特征参数并与专家库信号匹配，根据动态时间规整算法判断电气设备故障类型；(2)基于最优IMF分量与K-SVD字典学习相结合的轴承故障特征提取方法；(3)利用傅立叶算法采集故障噪声信号特征，将其分为三种特征进行提取,并对采集取样的声音信号基于傅里叶算法进行数据分析。将优化的特征信息输入到卷积神经网络模型中进行故障识别和故障类型判断；(4)基于HOG+SVM的图像特征分类算法，将声音数据进行小波变换得到小波系数图像，再利用HOG特征提取算法进行图像的特征提取，最后利用支持向量机进行分类识别。但是(1)和(2)方法均是将声音信号以基于人耳所能接收到的频段进行处理，因此应用的数据并不全面，很多高、低频的数据被舍弃，并且信号特征经过降维处理后，特征表达不够充分，对特征的分类和识别产生很大的局限性。(3)用了傅里叶变换来进行声音数据的处理及特征提取，傅里叶变换后的声音信号图像并不能将时域和频域的特性结合起来进行表达，因此图像特征表达不全面。(4)用了小波变换和HOG算法来进行声音数据的处理及特征提取，而小波变换后的图像虽然特征鲜明，但图像区分较为困难；HOG特征提取算法描述子生成过程冗长、速度慢、实时性很差且对噪点相当敏感。可见，上述方法声音频段丢失，导致声音数据利用不完整；图像特征表达不全面，均存在声音信号识别分类不准确的问题。

发明内容

本发明的目的是提供一种基于图像处理的电力设备声音识别方法及系统，提高了电力设备声音识别分类的准确性。

为实现上述目的，本发明提供了如下方案：

一种基于图像处理的电力设备声音识别方法，所述方法包括：

获取原始声音信号；

根据所述原始声音信号进行短时傅里叶变换，得到频谱图；

采用尺度不变特征变换方法对所述频谱图进行特征提取，得到特征向量；

利用设备识别模型对所述特征向量进行识别，得到所述原始声音信号对应的设备名称；所述设备名称包括：磨煤机、引风机、供油泵、凝结水泵、连接轴和循环水泵；所述设备识别模型是基于支持向量机构建的。

可选地，所述设备识别模型的训练过程为：

获取训练数据集；所述训练数据集中的样本包括：设备的声音和名称；

以设备的声音为输入，设备的名称为输出对所述支持向量机进行训练得到所述设备识别模型。

可选地，所述根据所述原始声音信号进行短时傅里叶变换得到频谱图，具体包括：

对所述原始声音图像进行预处理，得到预处理后的声音信号；所述预处理依次包括切分、预加重、归一化和分帧加窗处理；

对所述预处理后的声音信号进行短时傅里叶变换得到频谱图。

可选地，所述采用尺度不变特征变换方法对所述频谱图进行特征提取，得到特征向量，具体包括：

根据所述频谱图构建尺度空间；

根据所述尺度空间确定候选特征点；

删去所述候选特征点中的非正常点，得到关键点；所述非正常点包括：对比度低的候选特征点和不稳定的边缘响应点；所述对比度低的候选特征点为所述尺度空间的极值点处的空间尺度函数的前两项之和小于第一预设值的候选特征点；所述不稳定的边缘响应点根据所述候选特征点的邻域位置求得；

根据梯度直方图确定所述关键点的方向；

根据所述方向确定所述特征向量。

一种基于图像处理的电力设备声音识别系统，包括：

原始声音信号获取模块，用于获取原始声音信号；

频谱图获取模块，用于根据所述原始声音信号进行短时傅里叶变换，得到频谱图；

特征向量获取模块，用于采用尺度不变特征变换方法对所述频谱图进行特征提取，得到特征向量；

设备名称获取模块，用于利用设备识别模型对所述特征向量进行识别，得到所述原始声音信号对应的设备名称；所述设备名称包括：磨煤机、引风机、供油泵、凝结水泵、连接轴和循环水泵；所述设备识别模型是基于支持向量机构建的。

可选地，所述设备名称获取模块包括，设备识别模型训练单元；所述设备识别模型训练单元包括：

训练数据集获取子单元，用于获取训练数据集；所述训练数据集中的样本包括：设备的声音和名称；

设备识别模型获取子单元，用于以设备的声音为输入，设备的名称为输出对所述支持向量机进行训练得到所述设备识别模型。

可选地，所述频谱图获取模块，具体包括：

预处理单元，用于对所述原始声音图像进行预处理，得到预处理后的声音信号；所述预处理依次包括切分、预加重、归一化和分帧加窗处理；

频谱图获取单元，用于对所述预处理后的声音信号进行短时傅里叶变换得到频谱图。

可选地，所述特征向量获取模块，具体包括：

尺度空间构建单元，用于根据所述频谱图构建尺度空间；

候选特征点确定单元，用于根据所述尺度空间确定候选特征点；

关键点确定单元，用于删去所述候选特征点中的非正常点，得到关键点；所述非正常点包括：对比度低的候选特征点和不稳定的边缘响应点；所述对比度低的候选特征点为所述尺度空间的极值点处的空间尺度函数的前两项之和小于第一预设值的候选特征点；所述不稳定的边缘响应点根据所述候选特征点的邻域位置求得；

方向确定单元，用于根据梯度直方图确定所述关键点的方向；

特征向量确定单元，用于根据所述方向确定所述特征向量。。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开了一种基于图像处理的电力设备声音识别方法及系统，方法包括：获取原始声音信号；根据原始声音信号进行短时傅里叶变换，得到频谱图；采用尺度不变特征变换方法对频谱图进行特征提取，得到特征向量；利用设备识别模型对特征向量进行识别，得到原始声音信号对应的设备名称；设备名称包括：磨煤机、引风机、供油泵、凝结水泵、连接轴和循环水泵；设备识别模型是基于支持向量机构建的。本发明优势在于加入了短时傅里叶变换+SIFT+SVM图像特征识别方法，将传统的声音信号处理转为图像处理，可以将声音数据全部应用而不需要进行滤波、降维等操作，这样极大程度上避免了因声音数据利用不完整、特征表达不细致而导致的识别分类不准确，提高了电力设备声音识别分类的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于图像处理的电力设备声音识别方法流程图；

图2为本发明实施例提供的基于图像处理的电力设备声音识别系统框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种基于图像处理的电力设备声音识别方法及系统，旨在提高电力设备声音识别分类的准确性，可应用于声音识别分类技术领域。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明实施例提供的基于图像处理的电力设备声音识别方法流程图。如图1所示，本实施例中的基于图像处理的电力设备声音识别方法，方法包括：

步骤101：获取原始声音信号。

步骤102：根据原始声音信号进行短时傅里叶变换，得到频谱图。

步骤103：采用尺度不变特征变换方法对频谱图进行特征提取，得到特征向量。

步骤104：利用设备识别模型对特征向量进行识别，得到原始声音信号对应的设备名称；设备名称包括：磨煤机、引风机、供油泵、凝结水泵、连接轴和循环水泵；设备识别模型是基于支持向量机构建的。

作为一种可选的实施方式，设备识别模型的训练过程为：

获取训练数据集；训练数据集中的样本包括：设备的声音和名称。

以设备的声音为输入，设备的名称为输出对支持向量机进行训练得到设备识别模型。

作为一种可选的实施方式，步骤102，具体包括：

对原始声音图像进行预处理，得到预处理后的声音信号；预处理依次包括切分、预加重、归一化和分帧加窗处理。

对预处理后的声音信号进行短时傅里叶变换得到频谱图。

作为一种可选的实施方式，步骤103，具体包括：

根据频谱图构建尺度空间。

根据尺度空间确定候选特征点。

删去候选特征点中的非正常点，得到关键点；非正常点包括：对比度低的候选特征点和不稳定的边缘响应点；对比度低的候选特征点为尺度空间的极值点处的空间尺度函数的前两项之和小于第一预设值的候选特征点；不稳定的边缘响应点根据候选特征点的邻域位置求得。

根据梯度直方图确定关键点的方向。

根据方向确定特征向量。

图2为本发明实施例提供的基于图像处理的电力设备声音识别系统框图。如图2所示，本实施例中的基于图像处理的电力设备声音识别系统，包括：

原始声音信号获取模块201，用于获取原始声音信号。

频谱图获取模块202，用于根据原始声音信号进行短时傅里叶变换，得到频谱图。

特征向量获取模块203，用于采用尺度不变特征变换方法对频谱图进行特征提取，得到特征向量。

设备名称获取模块204，用于利用设备识别模型对特征向量进行识别，得到原始声音信号对应的设备名称；设备名称包括：磨煤机、引风机、供油泵、凝结水泵、连接轴和循环水泵；设备识别模型是基于支持向量机构建的。

作为一种可选的实施方式，设备名称获取模块204包括，设备识别模型训练单元；设备识别模型训练单元包括：

训练数据集获取子单元，用于获取训练数据集；训练数据集中的样本包括：设备的声音和名称。

设备识别模型获取子单元，用于以设备的声音为输入，设备的名称为输出对支持向量机进行训练得到设备识别模型。

作为一种可选的实施方式，频谱图获取模块202，具体包括：

预处理单元，用于对原始声音图像进行预处理，得到预处理后的声音信号；预处理依次包括切分、预加重、归一化和分帧加窗处理。

频谱图获取单元，用于对预处理后的声音信号进行短时傅里叶变换得到频谱图。

作为一种可选的实施方式，特征向量获取模块203，具体包括：

尺度空间构建单元，用于根据频谱图构建尺度空间。

候选特征点确定单元，用于根据尺度空间确定候选特征点。

关键点确定单元，用于删去候选特征点中的非正常点，得到关键点；非正常点包括：对比度低的候选特征点和不稳定的边缘响应点；对比度低的候选特征点为尺度空间的极值点处的空间尺度函数的前两项之和小于第一预设值的候选特征点；不稳定的边缘响应点根据候选特征点的邻域位置求得；

方向确定单元，用于根据梯度直方图确定关键点的方向。

特征向量确定单元，用于根据方向确定特征向量。

具体的，基于图像处理的电力设备声音识别的实现步骤如下：

步骤1：数据集准备

本实验采集的实验对象为发电厂车间的六类设备在正常运行工况下的声音。采用的设备为96通道声像仪。设备采用一体化集成设计，包括96通道麦克风阵列，数据采集器和摄像头。麦克风阵列采用平面多臂对数螺旋阵结构，平面阵中心安装摄像头。该设备小巧轻便，可手持或用三脚架支撑测量，适于狭小空间内的声场测量，可应用于工业设备噪声源分析等方面。采集到的设备声音共六种包括磨煤机、引风机、供油泵、凝结水泵、连接轴和循环水泵，每种共有240s，以此作为实验原始数据。

步骤2：声音信号预处理

2-1切分。为了统一声音样本的时长，将整段音频的声音信号进行切分，切分为1s为一个声音样本

2-2预加重。为了使声音信号的频谱变得平坦，能在低频到高频段中用同样的信噪比求频谱，对每个样本的声音信号进行预加重处理。预加重处理即将声音信号通过一个高通滤波器。

H(z)＝1-μz^-1。

其中，H(z)是传递函数符号、z表示切分后的音频信号、μ是预加重系数0.9<μ<1.0。

2-3归一化。对预处理后的声音信号的频谱进行归一化处理，减小不同类别声音频率范围的差异：

其中，X₁表示归一化后的数据，X代表原始数据集(即预处理后的声音信号的频谱)，max(X)原始数据集的最大值，min(X)分别代表原始数据集的最小值

2-4分帧加窗。声音信号在短时是平稳的。这个短时长一般为10-30ms，为便于特征分析，需要对声音信号就进行分帧处理，为保证相邻两帧之间的平滑过渡，需要对帧信号进行叠加处理，之后用每一帧乘以一定长度的窗函数，进行加窗处理，本文采用汉明窗，窗函数如式(3)所示：

其中，N为窗口宽度，n为时间，ω表示窗函数。

步骤3：进行短时傅里叶变换。

3-1傅里叶变换只反映出信号在频域的特性，无法在时域内对信号进行分析。为了将时域和频域相联系，Gabor于1946年提出了短时傅里叶变换(short-timeFouriertransform，STFT)，其实质是加窗的傅里叶变换。STFT的过程是：在信号做傅里叶变换之前乘一个时间有限的窗函数h(t)，并假定非平稳信号在分析窗的短时间隔内是平稳的，通过窗函数h(t)在时间轴上的移动，对信号进行逐段分析得到信号的一组局部“频谱”。信号x(t)的短时傅里叶变换定义为：

其中，t为信号选取时间，f为频率，τ为窗口截取时间，X(τ)表示在τ时刻的信号。

由上式知，信号x(t)在时间t处的短时傅里叶变换就是信号乘上一个以t为中心的“分析窗”函数h(τ-t)后所作的傅里叶变换。x(t)乘以分析窗函数h(τ-t)等价于取出信号在分析时间点t附近的一个切片。对于给定时间t，STFT(t,f)可以看作是该时刻的频谱。特别是，当窗函数取h(t)≡1时，则短时傅里叶变换就退化为传统的傅里叶变换。要得到最优的局部化性能，时频分析中窗函数的宽度应根据信号特点进行调整，即正弦类信号用大窗宽，脉冲型信号用小窗宽。

步骤4：SIFT图像特征提取

利用短时傅里叶变换后的频谱图进行SIFT特征提取。

4-1构建尺度空间：构建尺度空间是一个初始化操作，尺度空间理论目的是模拟图像数据的多尺度特征。高斯卷积核是实现尺度变换的唯一线性核，于是一副二维图像的尺度空间定义为：

L(x,y,σ)＝G(x,y,σ)*I(x,y)；

其中L(x,y,σ)是高斯图像，I(x,y)为输入的原始图像，G(x,y,σ)是尺度可变高斯函数，(x,y)是空间坐标，σ是尺度坐标。σ大小决定图像的平滑程度，大尺度对应图像的概貌特征，小尺度对应图像的细节特征。大的σ值对应粗糙尺度(低分辨率)，反之，对应精细尺度(高分辨率)。为了有效的在尺度空间检测到稳定的关键点，提出了高斯差分尺度空间(DOG(Difference of Gaussian)scale-space)。利用不同尺度的高斯差分核与图像卷积生成。

其中，k是相邻尺度空间的倍数，取为常量。

4-2检测DOG尺度空间极值点：通过检测D(x,y,σ)的局部极值点可以发现SIFT候选关键点，可首先选定DOG尺度空间图像的某个像素(x,y)，然后与26个相邻像素逐一对比，若该像素是周围26个相邻像素点的极值点，则可判定其是SIFT候选关键点(即候选关键点)。

4-3特征点筛选：通过拟合三位二次函数以精确确定关键点的位置和尺度(达到亚像素精度)，同时去除低对比度的关键点和不稳定的边缘相应点，以增强匹配稳定性、提高抗噪声能力。

空间尺度函数泰勒展开式如下：

其中，X＝(x,y,σ)^T。对上式求导，并令其为0，得到精确的位置，得：

其中，

代表相对插值中心的偏移量。在已经检测到的SIFT候选关键点中，要去掉低对比度的特征点和不稳定的边缘响应点。

去除低对比度的点：在DOG Space的极值点处D(x)取值，只取前两项可得：

若

该特征点就保留下来，否则丢弃。

边缘响应的去除：

一个定义不好的高斯差分算子的极值在横跨边缘的地方有较大的主曲率，而在垂直边缘的方向有较小的主曲率。主曲率通过一个2×2的Hessian矩阵H求出：

其中D_XX、D_XY、D_YY是候选点邻域对应位置的差分求得的，H的特征值α和β代表x和y方向的梯度。D(DOG算子)的主曲率和H的特征值成正比，令α为较大特征值，β为较小特征值，则：

Tr(H)表示矩阵H对角线元素之和，Det(H)表示矩阵H的行列式。若γ为最大特征值和最小特征值之间的比例，那么令α＝γβ，则：

(γ+1)²/γ的值在两个特征值相等的时候最小，随着γ的增大而增大，因此，为了检测主曲率是否在某域值γ下，只需检测：

如果(α+β)/αβ>(γ+1)²/γ，则扔掉该点。

4-4指定关键点(即经过4-3特征点筛选之后剩余的SIFT关键点)的大小及方向参数：为了使DOG算子具备旋转不变性，采用梯度直方图来确定关键点的主方向，点(x,y)处梯度的模值和方向的计算公式如下：

以图像的每个SIFT关键点为中心，对其邻域窗口进行采样，得到梯度直方图。找到梯度方向直方图的最大值，可以计算出该SIFT关键点的方向参数。当所有关键点的方向参数确定后，DOG算子便具有了旋转不变性。

4-5生成SIFT特征向量：以图像的关键点的方向(即4-4中得到的SIFT关键点的方向参数)做参照，将坐标轴旋转到关键点对应的方向，然后以某个SIFT关键点为中心,划出M×M像素的窗口，然后再分割为K×K像素的子窗(K<M)，检测并统计出各子窗的梯度方向直方图。每个关键点的方向由M/K各种子点的方向决定，而每个种子点包含8个维度的信息，因此，图像中每个关键点就包含8M/K维的信息，从而构成8M/K维的SIFT特征向量(即特征向量)。

步骤5：SVM支持向量机分类识别

获取训练数据集；训练数据集中的样本包括：设备的声音和名称；

以设备的声音为输入，设备的名称为输出对支持向量机进行训练得到设备识别模型；

利用设备识别模型对所述特征向量进行识别，得到所述原始声音信号对应的设备名称。

实验结果可验证，本文方法首先在音频数据预处理是就没有加入滤波环节，而是将音频信号全频段输入，在经过短时傅里叶变换后，开始将声音信号处理转换为图像处理方法，利用图像处理的优势得到更高效的识别方法。相对传统声音信号处理方法而言，不仅能有效避免数据丢失利用不全面的局限性，同时也能更全面的表达和利用声音特征的细节。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的装置及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于图像处理的电力设备声音识别方法，其特征在于，所述方法包括：

获取原始声音信号；

根据所述原始声音信号进行短时傅里叶变换，得到频谱图；

2.根据权利要求1所述的基于图像处理的电力设备声音识别方法，其特征在于，所述设备识别模型的训练过程为：

3.根据权利要求1所述的基于图像处理的电力设备声音识别方法，其特征在于，所述根据所述原始声音信号进行短时傅里叶变换得到频谱图，具体包括：

4.根据权利要求1所述的基于图像处理的电力设备声音识别方法，其特征在于，所述采用尺度不变特征变换方法对所述频谱图进行特征提取，得到特征向量，具体包括：

根据所述频谱图构建尺度空间；

根据所述尺度空间确定候选特征点；

根据梯度直方图确定所述关键点的方向；

根据所述方向确定所述特征向量。

5.一种基于图像处理的电力设备声音识别系统，其特征在于，包括：

原始声音信号获取模块，用于获取原始声音信号；

6.根据权利要求5所述的基于图像处理的电力设备声音识别系统，其特征在于，所述设备名称获取模块包括，设备识别模型训练单元；所述设备识别模型训练单元包括：

7.根据权利要求5所述的基于图像处理的电力设备声音识别系统，其特征在于，所述频谱图获取模块，具体包括：

8.根据权利要求5所述的基于图像处理的电力设备声音识别系统，其特征在于，所述特征向量获取模块，具体包括：

尺度空间构建单元，用于根据所述频谱图构建尺度空间；

特征向量确定单元，用于根据所述方向确定所述特征向量。