CN113566948A

CN113566948A - 机器人化煤机故障音频识别及诊断方法

Info

Publication number: CN113566948A
Application number: CN202110779130.XA
Authority: CN
Inventors: 王雷; 崔明明; 刘佳; 李梁; 任成鹏; 刘国营; 王恩明
Original assignee: Shenyang Research Institute Co Ltd of CCTEG
Current assignee: Shenyang Research Institute Co Ltd of CCTEG
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2021-10-29

Abstract

本发明公开了一种机器人化煤机故障音频识别及诊断方法，包括：对采集的煤矿设备声音信息进行预处理，得到具有若干短时声音帧的预处理声音信息；获取预处理声音信息对应的包含有若干语谱帧的语谱图；将语谱图输入训练好的混合神经网络模型，输出故障诊断结果。其中，混合神经网络模型包括：ALEXTet网络模型、LSTM网络模型、Softmax分类层。本发明通过混合神经网络模型对煤矿设备异常声音进行识别，其中，ALEXTet网络模型简化了传统的CNN卷积层，减小了算法复杂度；采用LSTM网络模型进行图像序列的循环采集，学习和记忆序列关联信息，结合单图像信息和序列关联信息进行判别，提高煤矿井下设备异常声音识别准确性和鲁棒性。

Description

机器人化煤机故障音频识别及诊断方法

技术领域

本发明涉及煤矿设备检测领域，特别是机器人化煤机故障音频识别及诊断方法。

背景技术

现有煤矿设备巡检方式主要包括人工巡检、设备监测方式，人工巡检主要通过煤矿安监技术人员携带相关点检设备或传感器对巡检线路当中的设备运行状况，设备监测按照监测设备不同可分为瓦斯抽放监测系统、运输巷监测系统、供电监测系统、矿压监测系统等等。但两种巡检方式缺点明显：人工巡检劳动强度高、检测结果受到巡检人员水平差异影响而存在很大的不确定性；另外由于监测系统复杂、布网面积大、监测设备种类繁多，造成投入成本高且管理和维护难以持续跟进日常巡检。

煤矿大型设备在运行时会发出声音，并且声音会随着运行状态的变化而发生改变，人工巡检可以根据这些声音来判断设备的状态，但是这十分依赖巡检人员的个人经验，而且仅靠人工巡检，也就不能保证对设备实时检测，无法及时发现故障，一旦设备发生异常故障，特别是大型设备，其产生的损失可能非常巨大。

发明内容

本发明针对上述现有技术存在的问题，提供了一种机器人化煤机故障音频识别及诊断方法，主要以包含CNN和LSTM的混合神经网络模型为核心，对煤矿设备声音的语谱图进行特征提取和分类，最后达到对煤矿设备异常声音识别目的。

本发明公开了一种机器人化煤机故障音频识别及诊断方法，包括：

对采集的煤矿设备声音信息进行预处理，得到具有若干短时声音帧的预处理声音信息；

获取所述预处理声音信息对应的包含有若干语谱帧的语谱图；

将所述语谱图输入训练好的混合神经网络模型，输出故障诊断结果。

其中，所述混合神经网络模型包括：ALEXTet网络模型，用于对所述语谱图进行特征提取得到若干组特征序列；LSTM网络模型，用于对所述特征序列进行特征提取；Softmax分类层，用于对所述LSTM网络模型的输出进行异常声音分类，输出反映异常声音类别的置信度。

进一步地，所述对采集的煤矿设备声音信息进行预处理，包括：对所述声音信息进行预加重处理、加窗分帧处理、端点检测处理。

进一步地，获取所述预处理声音信息对应的包含有若干语谱帧的语谱图，包括：基于所述预处理声音信息，依次通过短时傅里叶变换、离散时域傅里叶变换、离散傅里叶变换得到语谱图表达式。

进一步地，该方法还包括：基于所述语谱图建立训练数据集；建立训练网络模型，并基于所述训练数据集对所述训练网络模型进行训练，得到所述混合神经网络。

其中，所述训练网络模型包括：

时间戳层，用于向所述LSTM网络模型传递处理时间序列长短信息；

输出切分层，用于分割最后一层LSTM网络模型输出序列末元素。

进一步地，所述ALEXTet网络模型具体包括依次设置的：第一全连接层、第二全连接层、第三全连接层，以及分别与各全连接层对应的激活函数。

进一步地，所述LSTM网络模型，包括全连接方式设置的：输入层、隐藏层、输出层，并且每一层同时具有特征序列输入和用于反映与上一时刻特征连续关系的信息连续状态输入。

所述LSTM网络模型还包括：设置于所述输出层下一级的全连接层人工神经网络，包括若干感知器，用于输出对应所识别不同异常声音类别。

进一步地，所述将所述语谱图输入训练好的混合神经网络模型，包括：

所述ALEXTet网络模型对所述语谱图进行特征提取得到的所述特征序列表示为：Xⁱ＝{x₁ ⁱ,xi2,x₃i,...,xi_n}；其中，xi_n表示第i组第n个语谱帧提取出的语音特征

或者，在所述语谱帧少于预定数量时，所述特征序列表示为：Xⁱ＝{x₁i,xi₂,x₃i,...,xi_m,0,...0}。

本发明还公开了一种巡检机器人，包括：

音频采集模块，用于采集煤矿设备的声音信息；

数据处理模块，用于采用如上文所述的机器人化煤机故障音频识别及诊断方法，检测煤机故障。

本发明还公开了一种机器人化煤机故障检测系统，包括：

后台服务器模块，用于构建训练数据库并训练混合神经网络模型；

嵌入式前端模块，用于：采集煤矿设备的声音信息；从后台服务器模块获取所述混合神经网络模型，并采用如上文所述的机器人化煤机故障音频识别及诊断方法，根据输入的所述声音信息输出故障诊断结果；

井上监控室，用于接收所述故障诊断结果并向运维人员反馈。

本发明至少具有以下有益效果：

本发明通过混合神经网络模型对煤矿设备异常声音进行识别，其中，ALEXTet网络模型简化了传统的CNN卷积层，减小了算法复杂度；采用LSTM网络模型进行图像序列的循环采集，学习和记忆序列关联信息，结合单图像信息和序列关联信息进行判别，提高煤矿井下设备异常声音识别准确性和鲁棒性。

本发明增加时间戳层(cont)以解决LSTM长短不同图像序列关联性学习，增加输出切分层(slice)用于LSTM最后一层输出序列元素分割，使得每输出序列最后元素和标签计算误差反馈用于权值校正或预测分类，这样大大减少了网络处理数据量，减小了算法复杂度以适应算法在嵌入式设备运行。

本发明的其他有益效果将在具体实施方式部分详细说明。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明优选实施例公开的机器人化煤机故障音频识别及诊断方法流程图。

图2是本发明优选实施例公开的混合神经网络模型的部署模型结构图。

图3是本发明优选实施例公开的训练网络模型的结构图。

图4是本发明优选实施例公开的ALEXTet网络模型结构图。

图5是本发明优选实施例公开的技术路线流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

如图1～图4所示，本发明公开了一种机器人化煤机故障音频识别及诊断方法，包括：

S1：对采集的煤矿设备声音信息进行预处理，得到具有若干短时声音帧的预处理声音信息。由于声音信号本身的物理特性以及声音信号采集环境因素，采集的设备声音信号通常不能直接用于处理，否则会影响后续对声音信号分析的效率和准确性等。

S2：获取所述预处理声音信息对应的包含有若干语谱帧的语谱图。

S3：将所述语谱图输入训练好的混合神经网络模型，输出故障诊断结果。

如图2所示，所述混合神经网络模型包括：

ALEXTet网络模型，用于对所述语谱图进行特征提取得到若干组特征序列。Alexnet是一种常用的CNN网络，特点是第一个在CNN中加入ReLU、Dropout和LRN网络层，把网络做的很深且宽，正常需要GPU并行计算设备运行，ALEXTNet为在Alexnet经典卷积网络模型基础上改进调整所得，所用卷积层较少，计算复杂度低，更适合在嵌入式设备移植，便于巡检机器人上部署，对其具体说明详见下文以及图2～4、表1～表2。

LSTM网络模型，用于对所述特征序列进行特征提取，能够输出对应所识别不同异常声音类别，用于进入下一步，即语谱图帧序列异常声音识别分类过程。

Softmax分类层，用于对上层的所述LSTM网络模型的输出进行异常声音分类，输出反映异常声音类别的置信度。

本发明提出的混合神经网络模型是将卷积神经网络(CNN)和长短时循环递归神经网络(LSTM)统一到一个框架中，简化CNN层，减小算法计算量；增加LSTM网络模型，加强算法对序列学习能力，使收敛速度更快。

下面将对上述各步骤展开详细说明。

在本发明的一些实施例中，所述步骤S1中所述的预处理，包括：

一是预加重处理，其目的是提升高频段频谱值，降低低频段信息的所占比重，从而使声音信号整体频谱显得平坦，以便进行后续对设备声音信号的特征提取及分类识别。声音信号的预加重可等同于对声音信号的高通滤波过程，如公式(1)所示:

其中，x(n)为输入的声音信号,n表示声音信号时域采样点；H(z)为预加重滤波器，z表示频率，μ为预加重系数，一般取值为0.9～0.97，本实施例中μ＝0.9375；y(n)为经预加重处理后的声音信号。

而是加窗分帧处理，进行加窗分帧时，需避免因分帧处理而丢失声音信号部分信息，在相邻帧设置部分重叠，即帧移小于帧长。窗函数滑动步长即为帧移，加窗分帧过程为声音信号每帧上加一个窗函数，加窗分帧如公式(2)所示。

S_ω(n)＝s(n)*ω(n) (2)

式(2)中，x(n)为原始声音信号，ω(n)为窗函数，S_ω(n)表示加窗分帧完成后的一帧声音信号。优选的，本发明采用汉明窗作为加窗分帧处理的窗函数。

汉明窗的表达式如公式(3)所示。

式(3)中，N为帧长。

三是端点检测，端点检测可检测出声音信号中有效声音起止点，可以此剔除声音信号中的无效静音和环境噪音，降低干扰信息的负面影响。本发明采用时域端点检测方法，以短时音量为主，辅之以短时过零率作为重要检测参数，该方法计算量小，运算速度快，同时避免了只用音量来进行端点检测而造成的误判。

短时音量代表声音强度，由声音信号一帧内的振幅来衡量。短时音量的计算方法有两种(详见下文a和b):

a：一帧中幅值的绝对值总和，计算公式如式所示。

其中s_n，为该帧第n个采样点幅值大小，N为帧长，即该帧包含的采样点个数，该式volume表示音量。

b：一帧中幅值平方和的常数对数的10倍，计算公式如式所示。

式中s_n，为该帧第n个采样点幅值大小，N为帧长，该式volume表示音量。计算单位为分贝，是一个对数强度值。

短时过零率(zcr)是指在声音信号一帧中，波形通过零点的次数。短时过零率的数学形式化定义如式所示。

其中，s_n为该帧第n个时间采样点的值，N为帧长，函数π{A}表示在A为真时值为1，否则为0。

端点检测具体过程包括：

设置音量最低音量阈值，高于此阈值认为是有声音段，低于此阈值进行下一步操作，后续结合短时过零率来综合检测。

高于音量阈值音段可认为是浊音声段，而低于阈值声段可能为静音、环境噪音或清音声段。要区分某低音量部分是否是清音，依据短时过零率来判断。在室内环境下，清音短时过零率要明显高于环境噪音以及静音短时过零率，因此，设置一个短时过零率阈值，高于该阈值的认为是清音，低于该阈值的认为是环境噪音或静音。

将音量阈值检测出来的有声部分的前后截止时间点设为有声起始点和有声终止点。自有声起始点一帧帧往前推，判断其短时过零率是否高于阈值，若高于阈值，认为是清音部分，该点为新的有声起始点；若低于阈值，认为该点往前部分为环境噪音或静音，不再往前推算。同理，自有声终止点一帧帧往后移，方法与有声起始点相同。

在本发明的一些实施例中，获取所述预处理声音信息对应的包含有若干语谱帧的语谱图，包括：基于所述预处理声音信息，依次通过短时傅里叶变换、离散时域傅里叶变换、离散傅里叶变换得到语谱图表达式。

经过前面的声音信号预处理步骤后，煤矿设备原始声音信号就被切分成了10～30ms之间的短时声音帧。由于传统的特征提取方式是使用各种人工设计的滤波器组来提取特征，这样会带来的频域上的信息丢失。为了避免这个问题，CNN+LSTM模型直接将煤矿设备声音语谱图输入到网络中，这样最大程度的保留了声音信号的时频信息。

设声音信号x(n)经过分帧处理后表示为x_n(m)，n,m＝0,1,...,N-1，其中，n为帧序号，m是一帧内采样点序号，N为帧长。则信号x(n)的短时傅里叶变换(STFT)如式(7)所示：

其中，ω(n)为窗函数。信号x_n(m)的离散时域傅里叶变换(DTFT)公式如式(8)所示：

离散傅里叶变换(DFT)如式(9)所示：

其中，0≤k≤N-1，则X(n,k)就是x(n)的短时幅度谱估计。

m处频谱能量密度函数p(n,k)如式(10)所示：

P(n,k)＝|X(n,k)|² (10)

其中，n表示语谱图横坐标，为帧序号，k表示语谱图纵坐标，为频率，用灰度或彩色表示P(n,k)的值，得到的二维图即为语谱图。经10log₁₀(P(n,k))公式变换可得到语谱图颜色表示。

如图3所示，在本发明的一些实施例中，在使用混合神经网络模型钱应该先建立和训练该网络，因此，本发明还包括以下方法：基于所述语谱图建立训练数据集；建立训练网络模型，并基于所述训练数据集对所述训练网络模型进行训练，得到所述混合神经网络。表1为训练网络模型结构参数表。

表1

如图3所示，所述训练网络模型包括：时间戳层，用于向所述LSTM网络模型传递处理时间序列长短信息；输出切分层，用于分割最后一层LSTM网络模型输出序列末元素，该元素用于和标签计算误差反馈用于权值校正或预测分类，这样大大减少了网络处理数据量，减小了算法复杂度以适应算法在嵌入式设备运行。

如图4所述，在本发明的一些实施例中，所述ALEXTet网络模型具体包括依次设置的：第一全连接层、第二全连接层、第三全连接层，以及分别与各全连接层对应的激活函数。此外，还包括有过拟合层，防止过拟合。

在本发明的一些实施例中，将连续ALEXTNet语谱帧局部特征提取模型输出特征，输出组成特征序列

其中

表示第i组第j个语谱图像帧提取出的语音特征，其中每个语谱图提取特征的维度为1024。同时还可能存在一种情况是输入到ALEXTNet语谱帧局部特征提取模型的语谱图像帧序列Xⁱ＝{X¹,X²,X³,...,X^M}，可能因为语谱图帧数量不足，小于固定长度N，本发明设置固定长度N＝10,这时可以通过补充0向量的方法，组成输出特征序列

LSTM语谱帧局部序列特征提取，负责提取语谱图帧局部特征定长序列序列信息，主要是利用LSTM对每组向量进行特征提取，所用LSTM网络主要分为三层，分为输入层、隐藏层、输出层(对应图2中的LSTM1～LSTM3)，采用全连接方式，每层都同时有两个输入，一个是序列特征信息输入，另一个是序列是否连续信息输入(对应图2中的改变输入数据、时间维度)，具体的，该项输入中0表示当前时刻输入特征信息和上个时刻特征不连续，1表示当前时刻特征信息和上个时刻特征连续，这些信息来源是语谱图像同组序列标注，第一个语谱图像标注为0，表示和上组序列中图像不连续，之后该组每张图片标注为1，表示和上张图片连续。输入层设置1024个LSTM单元，隐藏层有512个LSTM单元，输出层有256个LSTM单元，在输出层后的是全连接层人工神经网络(fc4)，有7个感知器，输出分别对应所识别不同异常声音类别，最后将提取序列特征输入到语谱图帧序列识别分类过程。

语谱图帧序列异常声音识别分类过程，主要负责对上层全连接神经网络输出进行异常声音分类，采用Softmax分类，它的输出为一组归一化的各种异常声音类别的置信度。

混合神经网络模型的部署模型结构参数如表2所示：

表2

如图5所示，本发明技术路线分为以下五步：

(1)在服务器上构建实验训练数据库，利用caffe c++深度学习框架分别构建声音识别的CNN+LSTM+Softmax网络，并训练模型，将训练完成的模型参数传送到嵌入式前端。

(2)在嵌入式前端数据采集，采集开放环境中声音序列。

(3)在嵌入式前端，生成语谱图结果图像序列传送到服务器训练数据库。

(4)在嵌入式前端特征提取，利用训练完成CNN网络提取语谱图特征。

(5)在嵌入式前端将提取语谱图特征组成序列输入声音LSTM网络模型后送到Softmax层分类，输出最后识别结果。

本发明还公开了一种巡检机器人，包括：

音频采集模块，用于采集煤矿设备的声音信息；

本发明还公开了一种机器人化煤机故障检测系统，包括：

后台服务器模块，用于构建训练数据库并训练混合神经网络模型。

嵌入式前端模块，用于：采集煤矿设备的声音信息；从后台服务器模块获取所述混合神经网络模型，并采用如上文所述的机器人化煤机故障音频识别及诊断方法，根据输入的所述声音信息输出故障诊断结果。

优选的，本发明后台服务器训练完成的混合神经网络模型移植到Huawei-atlas-200dk(一款集CPU、NPU、ISP的片上系统)嵌入式平台上，实现机器人化煤机故障音频辨识及诊断。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种机器人化煤机故障音频识别及诊断方法，其特征在于，包括：

将所述语谱图输入训练好的混合神经网络模型，输出故障诊断结果；

2.根据权利要求1所述的机器人化煤机故障音频识别及诊断方法，其特征在于，所述对采集的煤矿设备声音信息进行预处理，包括：

对所述声音信息进行预加重处理、加窗分帧处理、端点检测处理。

3.根据权利要求1所述的机器人化煤机故障音频识别及诊断方法，其特征在于，获取所述预处理声音信息对应的包含有若干语谱帧的语谱图，包括：

基于所述预处理声音信息，依次通过短时傅里叶变换、离散时域傅里叶变换、离散傅里叶变换得到语谱图表达式。

4.根据权利要求1所述的机器人化煤机故障音频识别及诊断方法，其特征在于，该方法还包括：

基于所述语谱图建立训练数据集；建立训练网络模型，并基于所述训练数据集对所述训练网络模型进行训练，得到所述混合神经网络；

其中，所述训练网络模型包括：

5.根据权利要求1所述的机器人化煤机故障音频识别及诊断方法，其特征在于，所述ALEXTet网络模型具体包括依次设置的：

第一全连接层、第二全连接层、第三全连接层，以及分别与各全连接层对应的激活函数。

6.根据权利要求1所述的机器人化煤机故障音频识别及诊断方法，其特征在于，所述LSTM网络模型，包括全连接方式设置的：输入层、隐藏层、输出层，并且每一层同时具有特征序列输入和用于反映与上一时刻特征连续关系的信息连续状态输入；

7.根据权利要求1所述的机器人化煤机故障音频识别及诊断方法，其特征在于，所述将所述语谱图输入训练好的混合神经网络模型，包括：

所述ALEXTet网络模型对所述语谱图进行特征提取得到的所述特征序列表示为：

其中，

表示第i组第n个语谱帧提取出的语音特征；

或者，在所述语谱帧少于预定数量时，所述特征序列表示为：

8.一种巡检机器人，其特征在于，包括：

音频采集模块，用于采集煤矿设备的声音信息；

数据处理模块，用于采用如权利要求1-7中任一项所述的机器人化煤机故障音频识别及诊断方法，检测煤机故障。

9.一种机器人化煤机故障检测系统，其特征在于，包括：

嵌入式前端模块，用于：采集煤矿设备的声音信息；从后台服务器模块获取所述混合神经网络模型，并采用如权利要求1-7中任一项所述的机器人化煤机故障音频识别及诊断方法，根据输入的所述声音信息输出故障诊断结果；