CN118155652A

CN118155652A - 基于自适应双通道模型的通用机器声音异常检测方法

Info

Publication number: CN118155652A
Application number: CN202410267532.5A
Authority: CN
Inventors: 陈圣兵; 徐之奇
Original assignee: Hefei University
Current assignee: Hefei University
Filing date: 2024-03-08
Publication date: 2024-06-07

Abstract

本发明公开了一种基于自适应双通道模型的通用机器声音异常检测方法及装置，该方法包括：对预处理后的音频数据进行平稳性分析；基于平稳性分析结果自适应确定音频数据的下一步处理通道，当平稳性分析结果满足第一条件时，将音频数据输入第一处理通道进行处理，当平稳性分析结果满足第二条件时，将音频数据输入第二处理通道进行处理；基于第一处理通道和第二处理通道的输出结果确定设备声音异常检测结果。本发明通过一个自适应选择机制，根据信号的平稳性自动选择最适合的处理方法。该方法不仅简化了处理流程，还提高了异常检测的准确性和效率。

Description

基于自适应双通道模型的通用机器声音异常检测方法

技术领域

本发明涉及机器设备异常检测技术领域，具体涉及一种基于自适应双通道模型的通用机器声音异常检测方法。

背景技术

在智能化与工业化背景下，机器声音信号的异常检测成为关键技术领域，作为机器声音分析的前提步骤，信号的采集、特征提取、去噪、加强以及特征选择。这些步骤的执行效果对异常检测精度至关重要，在实际应用中，机器设备包括但不限于工业风扇、泵机、滑轨、阀门和变速箱，每种设备都有其特定的声音特征，需要精确和有效的处理方法。

现有技术在处理机器声音数据时通常采用单一的方法或需要运行多个模型以获得最佳结果，这不仅增加了计算复杂性，也增加了成本，并且限制了方法的泛化能力。例如，CN116935888A公开了一种工业设备异常声音检测方法及系统，提出了一种基于评价指标AUC得分的异常检测模型。该模型通过对两个检测网络得出的正常与异常分数进行综合评价，最终获得AUC分数，从而确定设备的异常状态。这一方法属于集成学习范畴，涉及多个方法的实验迭代，导致实现复杂度高和成本增加。CN117235437A公开了基于卷积网络结合自空间注意力机制的传感器故障识别方法，该方法首先采集振动传感器数据，然后进行EMD分解并通过卷积网络提取空间特征，最终通过空间注意力机制增强信号处理能力。尽管这种方法在传感器故障识别上有效，但它主要针对传感器数据，而非机器声音。此外，该方法仅基于卷积网络，限制了特征提取能力和适用的数据类型。

发明内容

针对上述现有技术存在的问题，本发明提供了一种基于自适应双通道模型的通用机器声音异常检测方法及装置，在双通道前设置基于信号平稳性分析的自适应选择器，减少了模型复杂度，提高了检测精度，降低成本。该技术方案如下：

第一方面，提供了一种基于自适应双通道模型的机器设备声音异常检测方法，包括如下步骤：

对音频数据进行预处理；

对预处理后的音频数据进行平稳性分析；

基于平稳性分析结果自适应确定音频数据的下一步处理通道，当平稳性分析结果满足第一条件时，将音频数据输入第一处理通道进行处理，当平稳性分析结果满足第二条件时，将音频数据输入第二处理通道进行处理；

基于第一处理通道和第二处理通道的输出结果确定设备声音异常检测结果。

在一些实施方式中，所述对预处理后的音频数据进行平稳性分析，包括：

采用振幅标准差作为时域上音频数据的第一平稳性分析结果，所述振幅标准差基于样本点振幅和所有样本点振幅平均值的平均偏差计算得到；

采用音频频谱平坦度作为频域上音频数据的第二平稳性分析结果，所述频谱平坦度基于音频数据功率谱的几何平均值除以功率谱的算术平均值得到；

基于第二平稳性分析结果和第一平稳性分析结果融合确定预处理后的音频数据的平稳性分析结果。

在一些实施方式中，基于第二平稳性分析结果和第一平稳性分析结果融合确定预处理后的音频数据的平稳性分析结果，包括：

基于第二平稳性分析结果中的音频频谱平坦度，去掉最高和最低值，剩下的取平均，获取平均频谱平坦度，对于在平均频谱平坦度上下20％幅度范围记为平均频谱平坦度区间；

对于音频频谱平坦度大于平均频谱平坦度区间上限值的音频数据确定为相对不平稳数据；

对于音频频谱平坦度小于平均频谱平坦度区间下限值的音频数据确定为相对平稳数据；

对于音频频谱平坦度在平均频谱平坦度区间内的音频数据，采用第一平稳性分析结果的振幅标准差确定，当音频振幅标准差大于平均振幅标准差，则确定音频数据为相对不平稳数据，当音频振幅标准差小于平均振幅标准差，则确定音频数据为相对平稳数据。

在一些实施方式中，所述第一条件表征声音数据平稳性高，所述第一处理通道包括：VAE网络。

在一些实施方式中，所述VAE网络的训练获得方法包括如下步骤：

将训练样本的音频数据提取MFCC和F-bank音频特征；

将MFCC和F-bank音频特征输入空间注意力融合模块，获取优化后的音频特征；

将空间注意力融合模块输出的数据输入VAE网络的编码网络，获取隐变量特征；

基于隐变量特征和训练样本对应的机器类别参数共同作为VAE网络的解码网络的输入；

基于解码网络的输出计算损失函数，基于损失函数训练VAE网络的编码网络和解码网络；

基于训练完成的VAE网络的解码网络对输入第一处理通道的音频数据进行处理，获得机器设备声音异常检测结果。

在一些实施方式中，所述第二条件表征声音数据平稳性低，所述第二处理通道包括VGG-GRU网络。

在一些实施方式中，所述VGG-GRU网络的训练获取方法包括如下步骤：

将训练样本的音频数据提取MFCC和F-bank音频特征；

将空间注意力融合模块输出的数据输入VGG卷积网络获得音频卷积特征；

基于VGG卷积网络输出的数据输入GRU网络获取声音异常检测结果；

基于GRU网络的输出计算损失函数，基于损失函数训练VGG卷积网络和GRU网络；

基于训练完成的VGG-GRU网络对输入第二处理通道的音频数据进行处理，获得声音异常检测结果。

第二方面，提供了一种基于自适应双通道模型的机器设备声音异常检测装置，包括：

音频预处理模块，用于对音频数据进行预处理；

音频预分析模块，用于对预处理后的音频数据进行平稳性分析；

异常检测模块，用于基于平稳性分析结果自适应确定音频数据的下一步处理通道，当平稳性分析结果满足第一条件时，将音频数据输入第一处理通道进行处理，当平稳性分析结果满足第二条件时，将音频数据输入第二处理通道进行处理；

检测结果获取模块，用于基于第一处理通道和第二处理通道的输出结果确定设备声音异常检测结果。

第三方面，提供了一种电子设备，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现如上述第一方面所述的机器设备声音异常检测方法。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机指令，所述指令被处理器执行时实现如上述第一方面所述的机器设备声音异常检测方法的步骤。

本发明的一种基于自适应双通道模型的通用机器声音异常检测方法及装置，对音频数据进行预处理；对预处理后的音频数据进行平稳性分析；基于平稳性分析结果自适应确定音频数据的下一步处理通道，当平稳性分析结果满足第一条件时，将音频数据输入第一处理通道进行处理，当平稳性分析结果满足第二条件时，将音频数据输入第二处理通道进行处理；基于第一处理通道和第二处理通道的输出结果确定设备声音异常检测结果。本发明通过一个自适应选择机制，根据信号的平稳性自动选择最适合的处理方法。该方法不仅简化了处理流程，还提高了异常检测的准确性和效率。

附图说明

图1是本申请实施例的自适应双通道模型的通用机器声音异常检测方法流程图；

图2是本申请实施例的改进后的基于重构的变分自编码器声音异常检测算法的数据处理过程示意图；

图3是本申请实施例的改进后的基于卷积的VGG与GRU融合声音异常检测算法的数据处理过程示意图；

图4是本申请实施例的自适应双通道模型的通用机器声音异常检测装置的结构示意图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本申请实施例提供了一种基于自适应双通道模型的机器设备声音异常检测方法，包括如下步骤：

步骤1，对音频数据进行预处理；

步骤2，对预处理后的音频数据进行平稳性分析；

步骤3，基于平稳性分析结果自适应确定音频数据的下一步处理通道，当平稳性分析结果满足第一条件时，将音频数据输入第一处理通道进行处理，当平稳性分析结果满足第二条件时，将音频数据输入第二处理通道进行处理；

步骤4，基于第一处理通道和第二处理通道的输出结果确定设备声音异常检测结果。

针对现有技术中在机器设备声音异常检测方面检测精度常受限于所采用的算法的问题，本申请实施例增加了自适应选择机制，通过平稳性分析结果自适应确定处理通道，使得处理通道更加适配不同平稳性特征的音频数据，提高音频特征捕捉能力和机器设备异常检测精度。

在一种实施方式中，上述步骤1中对音频数据进行预处理，包括将信号通过Wiener滤波器等操作进行数据去噪加强。

在一种实施方式中，上述步骤2中，对预处理后的音频数据进行平稳性分析，包括：

(A)采用振幅标准差作为时域上音频数据的第一平稳性分析结果，所述振幅标准差基于样本点振幅和所有样本点振幅平均值的平均偏差计算得到；

(B)采用音频频谱平坦度作为频域上音频数据的第二平稳性分析结果，所述频谱平坦度基于音频数据功率谱的几何平均值除以功率谱的算术平均值得到；

(C)基于第二平稳性分析结果和第一平稳性分析结果融合确定预处理后的音频数据的平稳性分析结果。

本申请实施例中，自适应选择机制基于振幅标准差和音频频谱平坦度确定，本申请中分别从时域和频域分析机器设备声音的稳定性，振幅标准差是用来衡量波形振幅的一致性，根据振幅变化的统计度量在时域上反应声音稳定性的有效估计，标准差是度量数据分布离散程度的统计量。如果声音信号相对较平稳，振幅随时间变化不大，相应的标准差值会较小，反之则会较高。

频谱平坦度是反应声音频谱的均匀性的一个特性，首先对声音信号进行快速傅里叶变化得到频域信号，计算每个频率点的功率谱密度，最后计算频谱的平坦度，即频谱功率的几何平均值与算数平均值的比值。

在一种实施方式中，上述(C)中，基于第二平稳性分析结果和第一平稳性分析结果融合确定预处理后的音频数据的平稳性分析结果，包括：

步骤21，基于第二平稳性分析结果中的音频频谱平坦度，去掉最高和最低值，剩下的取平均，获取平均频谱平坦度，对于在平均频谱平坦度上下20％幅度范围记为平均频谱平坦度区间；

步骤22，对于音频频谱平坦度大于平均频谱平坦度区间上限值的音频数据确定为相对不平稳数据；

步骤23，对于音频频谱平坦度小于平均频谱平坦度区间下限值的音频数据确定为相对平稳数据；

步骤24，对于音频频谱平坦度在平均频谱平坦度区间内的音频数据，采用第一平稳性分析结果的振幅标准差确定，当音频振幅标准差大于平均振幅标准差，则确定音频数据为相对不平稳数据，当音频振幅标准差小于平均振幅标准差，则确定音频数据为相对平稳数据。

音频频谱平坦度的数值与机器声音平稳性的相关度更高，本申请实施例中以频谱平坦度为主，通过去首位平均法，去掉最高和最低值，剩下的取平均，考虑误差的存在，本申请实施例中，将频谱平坦度在平均值上下20％幅度内定为难以区分平稳性的声音数据并考虑基于振幅标准差分析平稳性，在光谱平坦度20％以上的定为相对不平稳数据，20％以下的定为相对平稳数据，在此之间的数据再对振幅标准差进行分析，如果大于平均振幅标准差的定位相对不平稳数据，小于平均振幅标准差的定位相对平稳数据。本申请实施例中，以频谱平坦度为主要判断标准，同时以振幅标准差作为辅助判断标准，并且考虑误差的存在，将用于区分平稳性类型的频谱平坦度界限值改进为频谱平坦度界限区间(频谱平坦度平均值上下20％幅度)，为设备声音平稳性提供了准确的分析方法，经过该平稳性分析结果得到的相对平稳数据更适配后续第一处理通道中用于对平稳数据异常分析的VAE网络，经过该平稳性分析结果得到的非平稳数据更加适配后续第二处理通道中用于对非平稳数据进行异常检测的VGG-GRU网络。

在一种实施方式中，上述步骤3中，第一条件表征声音数据平稳性高，所述第一处理通道包括：VAE网络。本申请实施例中，第一通道使用基于重构的变分自编码器，适合处理较为平稳的信号，变分自编码器基于重构，对平稳型号具有相对较高的敏感度，并且使用概率特征可以更好的理解数据变化中的不确定性，对于声音检测中的细微异常非常重要，具有更好的泛化能力。具体来说，上述步骤3中第一处理通道采用的VAE网络的训练获得方法包括如下步骤：

步骤311，将训练样本的音频数据提取MFCC和F-bank音频特征；

步骤312，将MFCC和F-bank音频特征输入空间注意力融合模块，获取优化后的音频特征；

步骤313，将空间注意力融合模块输出的数据输入VAE网络的编码网络，获取隐变量特征；

步骤314，基于隐变量特征和训练样本对应的机器类别参数共同作为VAE网络的解码网络的输入；

步骤315，基于解码网络的输出计算损失函数，基于损失函数训练VAE网络的编码网络和解码网络；

步骤316，基于训练完成的VAE网络的解码网络对输入第一处理通道的音频数据进行处理，获得机器设备声音异常检测结果。

本申请实施例中，对VAE网络进行了两点改进，一是将训练样本对应的机器类别参数作为额外输入，为了使潜在的特征形式更加的紧密，以便于提取相对某种机器型号更加准确的特征，所以，对于不同的机器类型将机器经过大类进行分类，这种分类形态作为模型输入的附加信息，通过这些额外的信息输入，可以在特征空间中按照不同机器种类的类别进行分别收敛，防止出现一种机器异常的声音状态与其他机器正常声音的状态比较相似而导致判断错误的情况，提高异常检测准确性。

另外，本申请实施例中，对VAE网络进行的另一改进之处为：在模型输入前将MFCC和F-bank音频特征利用空间注意力机制进行音频特征优化，得到更加有效的特征。

需要说明的是，VAE网络的编码网络包括3层卷积层，解码网络采用3层反卷积层，VAE网络训练过程中采用的损失函数为：

编码器q_φ(z|x)即为编码器输入x输出为z的概率分布,解码器p_θ(z|x)即为编码器输入z输出为x的概率分布,使用附加信息d改进变分自编码器，将D设置为D＝[Di]，Di为机器种类标签，β是KL散度项的标量权重，将β和φ最小化。

解码网络的输出包括机器类别预测值，可以理解，VAE网络是基于重构的数据处理模型，在进行设备声音异常检测时，当输出和输入的重构误差较小时，表征设备声音正常的概率越大，在具体实施时，可以基于对应类型机器的声音异常预设阈值和VAE网络的重构误差来确定对应设备的声音是正常还是异常。

在一种实施方式中，上述步骤3中，第二条件表征声音数据平稳性低，所述第二处理通道包括VGG-GRU网络。本申请实施例中，基于卷积的改进VGG-GRU模型处理非平稳信号，基于卷积的异常检测模型对于非平稳信号具有较强的敏感度，通过深层卷积网络结构加强特征提取能力，通过GRU捕捉对时间依赖特征的理解。卷积神经网络擅长从声音的频谱图中提取局部的特征。门控循环单元擅长处理的是时间序列的数据，它可以有效的捕捉声音信号随时间的动态变化，通过内部的门控机制能记忆并且利用长期的时间依赖关系。通过两部分的融合可以综合时间和空间的信息，加强检测的精度。具体来说，上述步骤3中第二处理通道的VGG-GRU网络的训练获取方法包括如下步骤：

步骤321，将训练样本的音频数据提取MFCC和F-bank音频特征；

步骤322，将MFCC和F-bank音频特征输入空间注意力融合模块，获取优化后的音频特征；

步骤323，将空间注意力融合模块输出的数据输入VGG卷积网络获得音频卷积特征；

步骤324，基于VGG卷积网络输出的数据输入GRU网络获取声音异常检测结果；

步骤325，基于GRU网络的输出计算损失函数，基于损失函数训练VGG卷积网络和GRU网络；

步骤326，基于训练完成的VGG-GRU网络对输入第二处理通道的音频数据进行处理，获得声音异常检测结果。

本申请实施例中，基于卷积的改进VGG-GRU网络的改进之处类似于上述VAE网络，一是将声音数据对应的机器类型标签作为额外输入信息，二是在模型输入前将MFCC和F-bank音频特征输入空间注意力融合模块进行优化。改进后的VGG-GRU模型的有益效果与上述VAE网络类似，通过将声音数据对应的机器类型标签作为额外输入信息，提高异常检测准确性；通过将MFCC和F-bank音频特征输入空间注意力融合模块进行优化，提高模型输入特征的有效性。

其中，VGG-GRU网络训练过程中的损失函数采用分类交叉熵损失函数：其中，N是数据集中样本的总数，M是类别的总数，Y_ic表示样本i属于类别c的概率值，Y_ic取值0或者1，p_ic是模型预测样本i属于类别c的概率。

具体来说，VGG-GRU网络中，VGG卷积网络中包括5个卷积池化模块，第1个卷积层包括16个3*3卷积，步长为1，第一个池化层池化窗口为2*2，步长为2，其余卷积池化模块类似，参数逐层调整，输出图像大小逐层减小。GRU网络中包括3层GRU层。VGG-GRU模型经全连接层输出模型预测结果。

GRU网络输出的声音异常检测结果即为表征机器类别预测值的多维向量数据，可以理解，GRU网络输出结果基于预测概率值最大值对应的机器类别确定为输入声音的机器类型，并且基于该类机器声音异常预设判断阈值确定输入声音是否异常，例如，当输入声音为泵机的声音，VGG-GRU网络输出结果中预测概率值最大对应的机器类别为泵机且预测概率值最大值为0.8，在泵机声音异常预设判断阈值为0.7的情况下，可以确定该输入的泵机声音为正常泵机设备的声音，泵机设备无异常。

VAE网络是基于重构的数据处理模型，在进行设备声音异常检测时，当输出和输入的重构误差较小时，表征设备声音正常的概率越大，在具体实施时，可以基于对应类型机器的声音异常预设阈值和VAE网络的重构误差来确定对应设备的声音是正常还是异常。

本申请实施例提供了一种基于自适应双通道模型的机器设备声音异常检测装置，包括：

音频预处理模块，用于对音频数据进行预处理；

本申请实施例提供的基于自适应双通道模型的机器设备声音异常检测装置可以采用软硬件结合的方式实现，作为示例，本发明申请实施例提供的机器设备声音异常检测装置可以直接体现为由处理器执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器，处理器读取存储器中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器以及连接到总线的其他组件)完成上述的基于自适应双通道模型的机器设备声音异常检测方法。

关于基于自适应双通道模型的机器设备声音异常检测装置的具体限定可以参见上文中对于基于自适应双通道模型的机器设备声音异常检测方法的限定，在此不再赘述。

本申请实施例提供了一种电子设备，该电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现前述的基于自适应双通道模型的机器设备声音异常检测方法。

本申请实施例提供的电子设备包括通过系统总线连接的处理器、存储器和网络接口。处理器用于提供计算和控制能力。存储器用于存储操作系统、可执行指令和数据库，还用于为操作系统和可执行指令的运行提供环境。网络接口用于与外部的终端通过网络连接通信。可执行指令被处理器执行时以实现基于自适应双通道模型的机器设备声音异常检测方法。

本申请实施例提供了一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述指令被处理器执行时实现前述的基于自适应双通道模型的机器设备声音异常检测方法的步骤。该计算机可读存储介质可以是只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、只读光盘(compact disc read-only memory，CD-ROM)、磁带、软盘和光数据存储节点等。

本发明不局限于上述具体的实施方式，本领域的普通技术人员从上述构思出发，不经过创造性的劳动，所做出的种种变换，均落在本发明的保护范围之内。

Claims

1.基于自适应双通道模型的机器设备声音异常检测方法，其特征在于，包括如下步骤：

对音频数据进行预处理；

对预处理后的音频数据进行平稳性分析；

2.根据权利要求1所述的机器设备声音异常检测方法，其特征在于，所述对预处理后的音频数据进行平稳性分析，包括：

采用振幅标准差作为时域上音频数据的第一平稳性分析结果，所述振幅标准差基于每个样本点振幅和所有样本点振幅平均值的平均偏差计算得到；

3.根据权利要求2所述的机器设备声音异常检测方法，其特征在于，基于第二平稳性分析结果和第一平稳性分析结果融合确定预处理后的音频数据的平稳性分析结果，包括：

4.根据权利要求1所述的机器设备声音异常检测方法，其特征在于，所述第一条件表征声音数据平稳性高，所述第一处理通道包括：VAE网络。

5.根据权利要求4所述机器设备声音异常检测方法，其特征在于，所述VAE网络的训练获得方法包括如下步骤：

将训练样本的音频数据提取MFCC和F-bank音频特征；

将MFCC和F-bank音频特征输入空间空间注意力融合模块，获取优化后的音频特征；

将空间空间注意力融合模块输出的数据输入VAE网络的编码网络，获取隐变量特征；

6.根据权利要求4所述的机器设备声音异常检测方法，其特征在于，所述第二条件表征声音数据平稳性低，所述第二处理通道包括VGG-GRU网络。

7.根据权利要求6所述的机器设备声音异常检测方法，其特征在于，所述VGG-GRU网络的训练获取方法包括如下步骤：

将训练样本的音频数据提取MFCC和F-bank音频特征；

8.音频预处理模块，用于对音频数据进行预处理；

9.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现如权利要求1-7中任一项所述的机器设备声音异常检测方法。

10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任一项所述机器设备声音异常检测方法的步骤。