CN113033490B

CN113033490B - 基于声音信号的工业设备通用故障检测方法及系统

Info

Publication number: CN113033490B
Application number: CN202110443273.3A
Authority: CN
Inventors: 汪付强; 朱庆晨; 吴晓明; 李阳; 李昌盛; 王京首; 张鹏; 刘祥志; 张建强; 刘宏
Original assignee: Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2023-09-19
Anticipated expiration: 2041-04-23
Also published as: CN113033490A

Abstract

本公开提供了一种基于声音信号的工业设备通用故障检测方法及系统，获取待识别的工业设备音频数据；将获取的音频数据输入到预设分类模型中，得到故障检测结果；其中，在基于Deep‑SVDD构建的预设分类模型中，提取梅尔频率倒谱系数特征和短时过零率特征，将获取的特征通过BP神经网络编码并计算编码后的向量距离超球体圆心的距离，依照距离得到检测评分，根据评分与预设阈值的对比得到故障检测结果；本公开利用基于Deep‑SVDD构建的预设分类模型，能够最大限度上模拟人的判断行为，实现了快速精准的故障检测。

Description

基于声音信号的工业设备通用故障检测方法及系统

技术领域

本公开涉及声信息与人工智能领域，特别涉及一种基于声音信号的工业设备通用故障检测方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术，并不必然构成现有技术。

随着计算机信息技术和人工智能技术的发展，针对声音信号的研究也已从语音识别拓展到环境声音识别方面，声音信号识别属于信息处理领域的研究内容之一，涵盖了声学，语音处理，信息处理与人工智能的多个方面。

声音信号识别的研究中，通常采用神经网络算法，神经网络算法的设计受人脑工作模式的启发，希望程序能做出与人类相似的判断。在神经网络算法中，定义神经元来实现数据接收，处理，以及传播，再由多个神经元组成的神经网络完成数据接收和决策信息输出。深度学习算法通过对训练集的学习可以处理如数据的预测、分类等多种特定的问题。

异常检测技术是深度学习算法应用的一个方向，不同于常规模式下的问题和任务，异常检测针对的是少数、不可预测或不确定、罕见的事件，它具有独特的复杂性。故障检测主要是监控系统，在故障发生时可以识别，并且准确指出故障的种类以及出现位置。

发明人发现，目前异常声音识别领域的研究大都仍停留在实验室中，识别模型较大多采用多分类方式，采用有监督方法进行训练，但多数其识别模型采用较为传统的支持向量机方法(Support Vector Machine，SVM)，故障检测的准确度较低。

发明内容

为了解决现有技术的不足，本公开提供了一种基于声音信号的工业设备通用故障检测方法及系统，具有在线连续监测能力，能够不间断采集工业设备的数据进行集中分析，排除了人工判断的主观因素，利用基于Deep-SVDD(Deep Support Vector DataDescription，深度支持向量数据描述)构建的预设分类模型，能够最大限度上模拟人的判断行为，实现了快速精准的故障检测。

为了实现上述目的，本公开采用如下技术方案：

本公开第一方面提供了一种基于声音信号的工业设备通用故障检测方法。

一种基于声音信号的工业设备通用故障检测方法，包括以下过程：

获取待识别的工业设备音频数据；

将获取的音频数据输入到预设分类模型中，得到故障检测结果；

其中，在基于Deep-SVDD构建的预设分类模型中，提取梅尔频率倒谱系数特征和短时过零率特征，将获取的特征通过BP神经网络编码并计算编码后的向量距离超球体圆心的距离，依照距离得到检测评分，根据评分与预设阈值的对比得到故障检测结果。

进一步的，预设分类模型采用训练好的自编码器分类模型，训练过程如下：

提取预设训练集的特征数据，利用特征数据训练自编码器，待自编码器的损失值降到预设值后，将自编码器中编码部分的神经网络取出用于收敛超球体；

利用训练集提取的特征数据初始化超球体的圆心和超球体的半径，圆心的位置取训练集在编码器传导结果各维度的平均值，半径初始为零；

训练自编码器的神经网络使提取出的特征尽可能地接近圆心，利用神经网络中的参数不断修正超球体半径，最终得到超球体。

进一步的，预设阈值为训练集得分集合的最大值与训练集得分集合的均值的三分之一的差值。

进一步的，对获取的音频数据分帧处理，采用Hanning窗进行加窗操作，对加窗操作后的音频数据进行特征提取。

本公开第二方面提供了一种基于声音信号的工业设备通用故障检测系统。

一种基于声音信号的工业设备通用故障检测系统，包括：

数据获取模块，被配置为：获取待识别的工业设备音频数据；

故障检测模块，被配置为：将获取的音频数据输入到基于Deep-SVDD构建的预设分类模型中，得到故障检测结果；

本公开第三方面提供了一种基于声音信号的工业设备通用故障检测系统。

一种基于声音信号的工业设备通用故障检测系统，包括：音频采集终端和数据处理终端，音频采集终端与数据处理终端通信连接；

音频采集终端，被配置为：采集待识别的工业设备音频数据，并发送给数据处理终端；

数据处理终端，被配置为：将获取的音频数据输入到基于Deep-SVDD构建的预设分类模型中，得到故障检测结果；

进一步的，音频采集终端与数据处理终端进行通信前，进行安全验证，包括以下过程：

音频采集终端与数据处理终端共同定义一个密钥；

数据处理终端定义auth()函数，功能为生成一个随机32位字符串，将此字符串发送给音频采集终端，使用hmac库将此字符串与密钥进行哈希运算得到一个结果，将此结果与音频采集终端发送回的结果对比，对比相同则继续通信，不同则断开连接；

音频采集终端定义auth()函数，功能为接收一个随机字符串，使用hmac库将此字符串与密钥进行哈希运算得到一个结果，将此结果返回给数据处理终端进行验证，验证成功则继续通信，失败则断开通信。

进一步的，音频采集终端与数据处理终端之间单独发送或接受数据，包括以下过程：

数据处理终端不断监听本地端口，等待建立连接；

音频采集终端首先定义单文件传输函数，输入为文件名，功能为成功建立连接后将文件名对应的文件传输至数据处理终端；

单文件传输函数内需要判断传入的文件名对应的是否为一个文件，然后使用struct库定义文件信息与文件头信息并将这些信息发送至数据处理终端，发送完毕后将待传输文件以二进制的形式分多次上传至数据处理终端，传输结束关闭此连接；

数据处理终端运行后将读取指定文件夹下的所有文件名并存入列表，每次调用传输函数传输位于列表首位的文件，完成后删除列表首位并将此文件删除，若文件名列表为空则进入等待状态，长时间等待无新文件后将自动结束运行；

数据处理终端首先定义数据处理函数，功能为处理连接收到的数据，此函数将请相同大小的空间存放发送过来的文件名与文件大小信息，接收文件名与文件大小信息，接收到文件头信息后获取文件名和文件大小，将分批次传输的二进制流依次写入到文件，传输结束后断开连接。

本公开第四方面提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本公开第一方面所述的基于声音信号的工业设备通用故障检测方法中的步骤。

本公开第五方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开第一方面所述的基于声音信号的工业设备通用故障检测方法中的步骤。

与现有技术相比，本公开的有益效果是：

1、本公开所述的方法、系统、介质或电子设备，具有在线连续监测能力，能够不间断采集工业设备的数据进行集中分析，排除了人工判断的主观因素，利用基于Deep-SVDD(Deep Support Vector Data Description，深度支持向量数据描述)构建的预设分类模型，能够最大限度上模拟人的判断行为，实现了快速精准的故障检测。

2、本公开所述的方法、系统、介质或电子设备，具有部署方便，兼容性强以及可扩展性强等特点，用户可通过简单的操作实现本方法在不同设备的应用，能够实现对长时间，单一状态运行的工业设备产生非预期状态的监控和告警。

本公开附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例1提供的基于声音信号的工业设备通用故障检测系统的架构图。

图2为本公开实施例1提供的Deep-SVDD分类器的工作流程示意图。

图3为本公开实施例1提供的分类器中自编码器的结构示意图。

图4为本公开实施例1提供的基于声音信号的工业设备通用故障检测方法的流程示意图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例1：

如图1-4所示，本公开实施例1提供了一种基于声音信号的工业设备通用故障检测方法，所述方法中涉及两种类型设备：发送端、控制处理端。

发送端由声信号采集设备与具有Wi-Fi模块的微型电脑组成，在同一个网络中，可以存在多个发送端。

控制处理端为一台可运行python编程语言的处理设备，在同一个网络中，控制处理端是唯一的。

各发送端维持到控制处理端的双向路径，上行路径用于采集的音频信号传输，下行路径接收来自控制处理端的管理配置数据。

图1中的①用于发送端到控制处理端的音频信号传输和状态传输，图1中的②用于控制处理端到发送端的控制信号传输。图3中Encoder代表自编码器的编码过程，Decoder代表自编码器的解码过程。input layer代表输入层，output layer代表输出层，hiddenlayer代表隐藏层。在每一层小括号中的内容，如，“189to 128”代表该层的数据输入维度为189，输出维度为128。

图1中的声音特征提取模块提取的是声音信号的完整特征，DeepSVDD单分类器中的自编码器是对完整特征进行第二次特征提取，以降低训练时的算力要求。可以理解为声音特征提取后采用DeepSVDD中的自编码器对特征进行提取和筛选，保留影响力较大的特征。

本实施例所述基于声音信号及Deep-SVDD的工业设备通用故障检测方法包含如下内容：

S110：噪声信号采集与音频文件传输：

本过程的实现基础是基于Python的Pyaudio库。Pyaudio是一种跨平台的音频I/O库，可以在Python程序中处理音频信号，用于实现录音功能。第一阶段实现噪声信号的采集，使用多线程的交替录音的方式记录完整的噪声信号。第二阶段是对音频文件的传输，使用socket建立客户端与服务端，客户端用于在树莓派上传输音频文件，服务端用于在云服务器上接收音频文件。连接过程有验证机制，使用hmac进行双向验证。且使用struct库保证数据包的完整性，避免传输过程出现粘包现象。

S120：噪声信号特征提取：噪声信号本质上是音频信号，音频信号具有时域与频域两大特征，时域特征反映音频信号随时间的变化关系，频域特征反映音频信号在频率方面的特性，对噪声信号进行时域特征与频域特征提取，能够很好地反映一段噪声信号中所包含的重要信息。本步骤所述特征提取之后的数据，是样本的完整特征数据，这些特征数据将用于训练S130中所述的自编码器。

S130：基于Deep-SVDD的深度学习单分类方法处理

本实施例采用Deep-SVDD分类方法，Deep-SVDD的运行过程中会训练一个自编码器(autoencoder)用于提取样本的特征，并在训练的过程中不断优化编码器的参数，使其能够最大限度的提取出样本的特征。但为了适应音频信号特征的提取需求，本实施例使用BP神经网络代替原方法中的CNN神经网络对音频的MFCC特征和短时过零率进行二次提取，收敛超球体对正常的音频进行归类。

在自编码器训练结束后，将编码部分的神经网络用作特征提取器，利用训练集构造超球体，并不断优化特征提取器使其能够学习到训练集中的共有特征，最终使各个样本点尽可能地靠近球心，不断调整超求体的圆心及半径，使超球体不断收敛，最终生成一个最小化的超球体。

本实施例中构建的Deep SVDD单分类器的工作流程分为两个阶段，第一阶段接收正常音频信号进行训练(自编码器及超球体参数的训练)，在第二阶段接收未知音频样本进行分类，根据第一阶段构建的超球体分类出异常的样本点。该方法能够很好的实现音频信号的单分类任务。

S140：故障告警与可视化:

故障告警与可视化部分系统由基于Python的Django框架实现。本系统基于MTV模式，将系统的数据通过html+bootstrap在浏览器端展示，为用户提供简洁高效的前端交互。

所述S110中，噪声信号采集与音频文件传输，包括：

S111：音频信号采集：

音频信号使用Pyaudio库进行操作，核心是定义一个record_voice()函数，此函数功能为录制音频信号，输入为音频文件存储位置与录制时长，输出为一段音频文件。参数设置中音频采样率(RATE)需要重点调式，音频采样率是指录音设备在一秒钟内对声音信号的采样次数，采样频率越高声音的还原就越真实越自然。测试得出RATE范围需在8000至44100间，实际使用时可取中值16000。

由于录音结束后保存文件需要1秒到2秒的时间，如果重复调用录音函数进行长时间录音会导致部分音频信号的缺失，因此需要采用多线程的方式交替运行录音函数，从而达到完整录音的效果。定义新的函数，此函数功能为双线程调用录音函数，使用threading库实现。

S112：音频文件传输：

采用socket实现Client/Server间文件传输，首先分别实现client建立连接与server监听功能，由于server端需要长时间监听，为保证服务器安全需进行连接端的验证，具体过程如下：

1)Server端与Client端共同定义一个key。

2)Server端定义auth()函数，功能为生成一个随机32位字符串，将此字符串发送给Client端，使用hmac库将此字符串与key进行哈希运算得到一个结果，将此结果与Client端发送回的结果对比，对比相同则继续通信，不同则断开连接(ip可加入黑名单并在限定时间内拒绝此ip连接请求)。

3)Client端定义auth()函数，功能为接收一个随机字符串，使用hmac库将此字符串与key进行哈希运算得到一个结果，将此结果返回给Server端进行验证，验证成功则继续通信，失败则断开通信。

其次实现文件传输功能，由于音频采集程序运行后将不断创建新的音频文件，为保证存储空间足够，当Client完成文件传输后将自动删除此文件。且由于多个文件同时传输会产生粘包现象，Client端/Server将单独发送/接收每个文件，具体实现过程如下：

1)Server端不断监听本地端口，等待建立连接。

2)Client端首先定义单文件传输函数，输入为文件名，功能为成功建立连接后将文件名对应的文件传输至Server端。函数内需要判断传入的文件名对应的是否为一个文件，然后使用struct库定义文件信息与文件头信息并将这些信息发送至Server端，发送完毕后将待传输文件以二进制的形式分多次上传至服务器，传输结束则关闭此连接。

Client端运行后将读取指定文件夹下的所有文件名并存入列表，每次调用传输函数传输位于列表首位的文件。完成后删除列表首位并将此文件删除。若文件名列表为空则进入等待状态，长时间等待无新文件后将自动结束运行。

3)Server端首先定义数据处理函数，功能为处理连接收到的数据，此函数将请相同大小的空间存放发送过来的文件名与文件大小信息，接收文件名与文件大小信息，接收到文件头信息后获取文件名和文件大小，将分批次传输的二进制流依次写入到文件，传输结束后断开连接。

Server端成功建立连接后即开启接受数据的线程，使用threading库开启多线程处理数据，加快数据接收处理的时间。

所述S120中，噪声信号特征提取(用于模型训练)，包括：

S121：音频信号加窗分帧：

声音信号在宏观上是不平稳的，在微观上是平稳的，具有短时平稳性，在声音信号特征提取中，需要对声音信号进行傅立叶变换，而傅立叶变换要求输入信号是平稳的，所以需要先对音频信号进行分割操作，将声音信号分割成较短的段，每一段称其为一帧，帧长度称为帧长。

由于声音信号是连续性信号，分帧过程中，需保证每个帧之间有一定重合部分，相邻两帧之间的时间差称为帧偏移。由于噪声信号通常原本就具有一定连续性，故采用较长的100ms作为帧长，帧偏移为50ms。

在对音频分帧之后，由于后续特征提取步骤中需要对音频帧进行短时傅立叶变换，而帧信号中包含不连续的周期片段。这些不连续片段在短时傅立叶变换中显示为高频成分。这些高频成分不存在于原信号中。这些频率可能远高于奈奎斯特(Nyquist)频率，与原信号的频率产生混叠，进而产生误差。

为了解决这一问题，需选用窗函数对音频信号进行加窗操作，本实施例中选用汉宁(Hanning)窗对音频信号进行加窗。汉宁(Hanning)窗可以看成是升余弦窗的一个特例，是3个sinc(t)型函数之和，括号中的两项相对于第一个谱窗向左、右各移动了π/T，从而使旁瓣互相抵消，消去高频干扰和能量泄露。

其公式如下：

其中，n属于

S122：梅尔倒谱系数(MFCC)特征提取：

对加窗分帧后对信号以帧为单位，提取其梅尔倒谱系数(MFCC)特征。

梅尔倒谱系数，也叫梅尔频率倒谱系数，梅尔频率是基于人耳听觉特性提出来的，它与Hz频率成非线性对应关系。梅尔频率倒谱系数(MFCC)则是利用它们之间的这种关系，计算得到的Hz频谱特征。可以简单理解梅尔特征能够反映声音信号的能量在不同频率范围的分布。

梅尔倒谱系数的特征提取步骤简述为：

1)对信号进行分帧处理

2)功率谱(power spectrum)估计

3)入Mel滤波器组进行滤波，计算每个滤波器里的能量

4)对每个滤波器的能量取对数

5)进行DCT变换(离散余弦变换)，保留第2至第13个结果系数(去除高频信号)。

把每一帧的能量作为一个特征，再加上12个DCT系数得到13维的特征向量。然后计算这13维特征向量的Delta以及Delta-Delta得到39维的MFCC特征。

S123：短时平均过零率提取：

过零率是时域分析中的一种特征参数，是指每帧内信号通过零值的次数。对有时间横轴的连续音频信号，观察其时域波形通过横轴的情况，如果相邻的采样具有不同的代数符号就称为发生了过零。

单位时间内过零的次数就称为过零率，过零率的数学定义如下：

其中，

一段时间内的过零率称为平均过零率，在对音频信号进行加窗分帧后，计算每一帧的平均过零率，即可得到短时平均过零率，短时平均过零率能够在一定反映音频信号的频率信息。

S126：帧序号与秒数转换：

由于对音频信号进行了加窗分帧，在对音频信号的某一段进行定位时，需依照帧序号索引，帧序号与秒数的对应数学关系如下：

其中F为总帧数，S为音频总长度，s为要访问的秒数，f为s秒对应的帧序号。

所述S130中，基于Deep-SVDD的深度学习单分类方法处理，包括：

S131：自编码器模型的构建

本实施例的神经网络开发基于Pytorch机器学习库实现。自编码器的构建基于BP神经网络。编码器为具有一个189维(包含180维的MFCC特征和9维的短时过零率)输入的输入层，三个隐藏层和一个输出为32维的输出层。隐藏层的数据输入维度分别为128、96、64。最终输出为32维的向量。编码器神经网络中每两层之间对输出的数据进行一次归一化处理而后传入下一层神经元中。解码器的神经网络构造与编码器类似，接收输入和最终输出的数据格式分别为32维和189维，输入层与输出层之间的隐藏层接收数据的维度分别为64、96、128、189。在各个网络层间使用LeakyRelu作为激活函数。

S132：自编码器模型训练过程中的参数设置

训练过程中的计算原始输入和经过编码和解码过程后的输入之间的差异用作神经网络的损失值。采用均方损失函数计算损失值并使用Adam优化器对神经网络中各参数进行优化。训练过程中超参数的设置方面，将训练过程中每批训练样本的数量设置为32。本实施例中可选择设置目标损失值，降到目标损失值以下之前会进行多次学习。初始学习率lr设置为0.001，采用动态学习率的方法，单次学习次数设置为200，当学习次数达到50,80,100,120时会对学习率做出调整，学习率降为原来的二分之一。

S133：Deep SVDD模型的构建：

本实施例使用Deep-SVDD方法完成音频样本的单分类工作，即，训练自编码器，初始化超球体圆心及半径，不断训练编码器使其输出点聚集，修正半径达到收敛超球体的目的。其目标函数如下：

其中，w为神经网络的参数，C为向量空间中超球体的圆心，R为超球体的半径。样本点异常值的计算由如下公式计算：

d(x)＝||φ(x_i；W)-c||²

该模块的工作分为初始化和分类两个过程，初始化的过程需要接收一段连续的音频用作训练集。利用S120中所述的方法提取训练集的音频特征，将特征数据用于训练自编码器神经网络，待自编码器模型的损失值降到预设值后，将自编码器中编码部分的神经网络取出用于收敛超球体。训练集提取的特征数据继续初始化超球体的圆心C和超球体的半径R。圆心C的位置取训练集在编码器传导结果各维度的平均值，半径R初始为0。

训练过程分为两个阶段，第一阶段训练编码器神经网络使其提取出的特征尽可能地接近圆心C，第二阶段利用神经网络中的参数不断修正超球体半径，最终确定一个超球体。

S134：Deep SVDD模型的训练过程中的超参数设置：

设置第一阶段和第二阶段的训练次数均为100次。初始学习率为0.0001，当训练到第50和第80次时学习率调整为先前的二分之一。

S13：工作流程及其判断标准

分类器的工作分为训练和分类两个阶段，在第一阶段接收完全正常或者大部分正常的样本点用作训练集，将最后一次训练过程中各训练样本获得的得分用于生成分类器的判定阈值。设最终训练集得分的集合为S，集合中的最大值为Max，平均值为M，根据如下公式计算其阈值：

在第二阶段接收待判定的音频样本点，经过分类器后得到其得分scores，当得分scores＞U时判定为异常点。然后根据如下公式计算该样本点的风险：

VaR＝min{1.0，(Sigmoid(scores×10)-0.5)×100}

其中，VaR为所计算风险值，Sigmoid为Sigmoid函数。

并最终计算样本点所在的位置向调用程序反馈结果。

实施例2：

本公开实施例2提供了一种基于声音信号的工业设备通用故障检测方法，包括以下过程：

获取待识别的工业设备音频数据；

详细的工作方法与实施例1提供的相同，这里不再赘述。

实施例3：

本公开实施例3提供了一种基于声音信号的工业设备通用故障检测系统，包括：

所述系统的工作方法与实施例1提供的相同，这里不再赘述。

实施例4：

本公开实施例4提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本公开实施例2所述的基于声音信号的工业设备通用故障检测方法中的步骤。

实施例5：

本公开实施例5提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开实施例2所述的基于声音信号的工业设备通用故障检测方法中的步骤。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于声音信号的工业设备通用故障检测方法，其特征在于：包括以下过程：

获取待识别的工业设备音频数据；

其中，在基于Deep-SVDD构建的预设分类模型中，提取梅尔频率倒谱系数特征和短时过零率特征，将获取的特征通过BP神经网络编码并计算编码后的向量距离超球体圆心的距离，依照距离得到检测评分，根据评分与预设阈值的对比得到故障检测结果；

Deep-SVDD的运行过程中会训练一个自编码器autoencoder用于提取样本的特征，并在训练的过程中不断优化编码器的参数，使其能够最大限度的提取出样本的特征；

自编码器模型的构建

自编码器的构建基于BP神经网络；编码器为具有一个189维包含180维的MFCC特征和9维的短时过零率输入的输入层，三个隐藏层和一个输出为32维的输出层；隐藏层的数据输入维度分别为128、96、64；最终输出为32维的向量；编码器神经网络中每两层之间对输出的数据进行一次归一化处理而后传入下一层神经元中；解码器的神经网络构造与编码器类似，接收输入和最终输出的数据格式分别为32维和189维，输入层与输出层之间的隐藏层接收数据的维度分别为64、96、128、189；在各个网络层间使用LeakyRelu作为激活函数；

自编码器模型训练过程中的参数设置

训练过程中的计算原始输入和经过编码和解码过程后的输入之间的差异用作神经网络的损失值；采用均方损失函数计算损失值并使用Adam优化器对神经网络中各参数进行优化；训练过程中超参数的设置方面，将训练过程中每批训练样本的数量设置为32；选择设置目标损失值，降到目标损失值以下之前会进行多次学习；初始学习率lr设置为0.001，采用动态学习率的方法，单次学习次数设置为200，当学习次数达到50,80,100,120时会对学习率做出调整，学习率降为原来的二分之一；

Deep SVDD模型的构建：

使用Deep-SVDD方法完成音频样本的单分类工作，即，训练自编码器，初始化超球体圆心及半径，不断训练编码器使其输出点聚集，修正半径达到收敛超球体的目的；其目标函数如下：

其中，W为神经网络的参数，c为向量空间中超球体的圆心，R为超球体的半径；样本点异常值的计算由如下公式计算：

Deep SVDD模型的构建工作分为初始化和分类两个过程，初始化的过程需要接收一段连续的音频用作训练集；提取训练集的音频特征，将特征数据用于训练自编码器神经网络，待自编码器模型的损失值降到预设值后，将自编码器中编码部分的神经网络取出用于收敛超球体；训练集提取的特征数据继续初始化超球体的圆心c和超球体的半径R；圆心c的位置取训练集在编码器传导结果各维度的平均值，半径R初始为0；

训练过程分为两个阶段，第一阶段训练编码器神经网络使其提取出的特征尽可能地接近圆心c，第二阶段利用神经网络中的参数不断修正超球体半径，最终确定一个超球体；

工作流程及其判断标准

分类器的工作分为训练和分类两个阶段，在第一阶段接收完全正常或者大部分正常的样本点用作训练集，将最后一次训练过程中各训练样本获得的得分用于生成分类器的判定阈值；设最终训练集得分的集合为S，集合中的最大值为Max，平均值为mean，根据如下公式计算其阈值：

在第二阶段接收待判定的音频样本点，经过分类器后得到其得分scores，当得分scores>U时判定为异常点；然后根据如下公式计算该样本点的风险：

VaR＝min{1.0，(Sigmoid(scores×10)-0.5)×100}

其中，VaR为所计算风险值，Sigmoid为Sigmoid函数；

并最终计算样本点所在的位置向调用程序反馈结果。

2.如权利要求1所述的基于声音信号的工业设备通用故障检测方法，其特征在于：

对获取的音频数据分帧处理，采用Hanning窗进行加窗操作，对加窗操作后的音频数据进行特征提取。

3.一种基于声音信号的工业设备通用故障检测系统，利用如权利要求1所述的基于声音信号的工业设备通用故障检测方法实现，其特征在于：包括：

4.一种基于声音信号的工业设备通用故障检测系统，利用如权利要求1所述的基于声音信号的工业设备通用故障检测方法实现，其特征在于：

包括：音频采集终端和数据处理终端，音频采集终端与数据处理终端通信连接；

5.如权利要求4所述的基于声音信号的工业设备通用故障检测系统，其特征在于：

音频采集终端与数据处理终端进行通信时，需进行安全验证，包括以下过程：

音频采集终端与数据处理终端共同定义一个密钥；

6.如权利要求4所述的基于声音信号的工业设备通用故障检测系统，其特征在于：

音频采集终端与数据处理终端之间单独发送或接受数据，包括以下过程：

数据处理终端不断监听本地端口，等待建立连接；

7.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时实现如权利要求1-2任一项所述的基于声音信号的工业设备通用故障检测方法中的步骤。

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-2任一项所述的基于声音信号的工业设备通用故障检测方法中的步骤。