CN116206625A

CN116206625A - 基于频谱与时间信息结合的自监督异常声音检测方法

Info

Publication number: CN116206625A
Application number: CN202211673797.2A
Authority: CN
Inventors: 谢文博; 高毫林; 于博; 李永才; 叶森
Original assignee: Zhengzhou Xinda Institute of Advanced Technology
Current assignee: Zhengzhou Xinda Institute of Advanced Technology
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-06-02

Abstract

本发明提供了一种基于频谱与时间信息结合的自监督异常声音检测方法，包括以下步骤：预先收集各个目标设备的原始音频片段，并以机器ID作为标识进行关联存储，利用预置的梅尔滤波器，提取原始音频片段的梅尔频谱图；通过预置的时间特征提取网络，提取原始音频片段的时间频谱特征图；分别对各台目标设备的梅尔频谱图及时间频谱特征图进行特征融合；将每台目标设备的梅尔与时间融合特征输入分类器中，以每台目标设备的机器ID作为类别标签，进行训练，得到目标分类模型；在测试时，将待测声音信息输入得到的目标分类模型中，得到每台目标设备的实时特征声音指标，根据实时特征声音指标与临界值的比较结果，判断目标设备是否处于异常状态。

Description

基于频谱与时间信息结合的自监督异常声音检测方法

技术领域

本发明涉及工业设备无损缺陷检测技术领域，具体的说，涉及了一种基于频谱与时间信息结合的自监督异常声音检测方法。

背景技术

对于工业设备缺陷的方法分为破坏性检测和无损检测，其中，破坏性检测需要将零件剖切开后通过目测或者化学液体浸泡后检查是否存在缺陷，工业上常用的无损检测方法主要包括射线探伤技术、渗透检测技术、磁粉检测技术、涡流探伤技术和异常声音检测技术等。

其中，异常声音检测的目的是，通过机器或设备发出的声音来自动识别机器或设备是正常的，还是异常的。随着科技的发展，对机器或设备异常声音的检测或监测手段也逐渐丰富，从耳朵听，到借助便携式听音器具，再到人工智能“听音辨病”。

目前，常用的设备异响判断/诊断方式，主要包括耳听法、超声仪检测法和AI智能声学故障检测法；

（1）耳听法

适合具有较多经验的工作人员，可以利用机器或设备(如机器或设备)运行的声音以及产生的振动，人工判别机器或设备是否存在缺陷；

（2）超声仪检测法

用耳朵听不见机器或设备有异音，并不代表机器或设备就是正常的，因此还可以借助便携超声波检测仪对机器或设备进行超声波检测，反映出机器或设备噪声的幅值大小和频带信息；

（3）AI智能声学故障检测法，主要包括：

1）根据机器部件的基本物理建模，来预测其何时开始磨损；2）将具体的声音标记、分类，然后通过深度学习将特定异常声音与具体故障联系起来，经过对声音数据集学习和训练后的软件，在故障发生前示警即将发生的问题。

需要说明的是，AI智能声学故障检测法的第二种方式，依赖于预先采集的特定异常声音，以及预先建立的特定异常声音与具体故障之间的关联关系，来区分机器或设备是正常的还是异常的；

然而，同一批设备的异音数据也可能是不同的，每个设备都有各自的声音特征，因此，在现实世界中异常声音数据存在多样性和稀缺性的特点。且，由于异常声音数据是一种非稳态信号，因此收集及检测异常声音数据并不是一项微不足道的任务，一旦实际异常声音与预先采集的特定异常声音不同，则极有可能检测不出来，甚至出现误检。

为解决该问题，AI智能声学故障检测法还采用以下方式：预先采集设备的正常声音，学习正常声音的特征，然后利用这些学习到的正常声音的特征，来区分机器或设备是正常的还是异常的。然而，现有技术通常使用自编码器(AE)，通过最小化重构误差来学习正常声音的特征，并将重构误差作为分数来检测异常。然而，由于训练过程中不涉及异常声音，这种模型的有效性是有限的。

为了解决以上存在的问题，人们一直在寻求一种理想的技术解决方案。

发明内容

本发明的目的是针对现有技术的不足，从而提供一种基于频谱与时间信息结合的自监督异常声音检测方法。

为了实现上述目的，本发明所采用的技术方案是：一种基于频谱与时间信息结合的自监督异常声音检测方法，其特征在于，包括以下步骤：

步骤1，利用全向麦克风，预先收集各个目标设备在真实工厂环境下的原始音频片段，并以机器ID作为标识进行关联存储；

其中，所述全向麦克风分别设置在每台目标设备的监测重点部位，所述目标设备为同一类型且细节结构不同的设备，所述原始音频片段包括目标设备的正常运行声音和目标设备周围机器设备的运行声音；

步骤2，利用预置的梅尔滤波器对每台目标设备的原始音频片段进行处理，提取出每台目标设备对应的梅尔频谱图；通过预置的时间特征提取网络对每台目标设备的原始音频片段进行处理，提取出每台目标设备对应的时间频谱特征图；

分别对各台目标设备的梅尔频谱图及时间频谱特征图进行特征融合，得到各台目标设备的梅尔与时间融合特征；

步骤3，将每台目标设备的梅尔与时间融合特征输入预置的分类器模型中，以每台目标设备的机器ID作为类别标签，使用Arcface 损失函数指导所述分类器模型收敛；

步骤4，在训练过程中，每N轮，计算所述分类模型在测试集上的准确率；

迭代训练m×N轮，取准确率最优的模型，作为目标分类模型；

以最大似然估计算法，对训练过程中分类模型的输出值进行拟合，得到输出值的高斯分布概率密度函数，再基于所述高斯分布概率密度函数确定异常声音检测的临界值；

步骤5，在现场监测目标设备的健康状态时，采集每台目标设备的实时运行声音片段，在单声道采样后得到待测声音信息；

将所述待测声音信息输入步骤4得到的目标分类模型中，得到每台目标设备的实时特征声音指标；

在所述实时特征声音指标≤所述临界值，判定所述目标设备处于正常状态；

在所述实时特征声音指标＞所述临界值，判定所述目标设备处于异常状态。

本发明相对现有技术具有突出的实质性特点和显著的进步，具体的说：

1）本发明对每台目标设备的原始音频片段的梅尔频谱图及时间频谱特征图，进行特征融合得到梅尔与时间融合特征，并利用分类器模型，以每台目标设备的机器ID作为类别标签，实现了异常声音的快速准确检测，减少了工业设备状态监测的难度，提高了工厂的自动化数字化水平；

2）本发明利用卷积网络提取设备运行声音的时间频谱信息，作为设备运行声音的梅尔频谱图的补充信息；时间频谱信息包括低频信息和高频信息，因此，梅尔与时间融合特征能够有效改善仅使用梅尔频谱图对音频信号的高频信息的缺失；

3）仅使用正常的音频信号进行建模，本身是没有标签的，本发明使用自监督的思想，利用机器ID数据作为标签，将无监督问题转化为有监督的分类问题，提高模型对异常数据的建模能力。

附图说明

图1是本发明的基于频谱与时间信息结合的自监督异常声音检测方法的流程图；

图2（a）至图2（c）是本发明的音频采集和音频切割示意图；

图3是本发明的时间频谱信息提取网络结构图；

图4是本发明的模型流程示意图；

图5是本发明的分类器模型的网络结构图

图6是本发明的分类器模型中的bottleneck模块的结构示意图。

具体实施方式

下面通过具体实施方式，对本发明的技术方案做进一步的详细描述。

实施例1

如附图1所示，一种基于频谱与时间信息结合的自监督异常声音检测方法，其包括以下步骤：

步骤2，利用预置的梅尔滤波器，提取每台目标设备的原始音频片段的梅尔频谱图；

通过预置的时间特征提取网络，提取每台目标设备的原始音频片段的时间频谱特征图；

步骤3，将每台目标设备的梅尔与时间融合特征，输入预置的分类器模型中，以每台目标设备的机器ID作为类别标签，并使用Arcface 损失函数指导所述分类器模型收敛；

步骤4，预先设置N=10，m=30；

在训练过程中，每10轮，计算所述分类模型在测试集上的准确率；

迭代训练300轮，取准确率最优的模型，作为目标分类模型；

以最大似然估计方法对训练过程中分类模型的输出值进行拟合，得到输出值的高斯分布概率密度函数，再基于所述高斯分布概率密度函数确定异常声音检测的临界值，将阈值0.95对应的输出值作为临界值；

步骤5，在现场监测目标设备的健康状态时，每隔一分钟采集每台目标设备10s的实时运行声音，在单声道采样后，得到待测声音信息；

将待测声音信息输入步骤4得到的目标分类模型中，得到每台目标设备的实时特征声音指标；

需要说明的是，融合后的特征进入一个以机器个数为类别数（每台目标设备对应一种类别）的分类器，所有收集样本均可同时进行训练，解决生成式方法训练只可使用一个机器ID数据从而过拟合的难题，使用Arcface损失函数指导模型收敛，有助于增加类之间的距离和减少类内的距离，提高分类准确率。

可以理解，在工厂环境中，往往存在大量同类机器但是细节结构有所不同，通过在这些机器监测重点部位二十厘米位置处固定安装一只全向麦克风(SHURE SM11-CN)来收集机器正常运行的声音，以机器ID区别不同的机器，如附图2（a）所示；

收集方式分两种，一种是机器从开启到关闭，采集整个操作过程中十秒的声音，如附图2（b）所示；一种是机器连续运行十分钟，然后进行切割，切成十秒长的音频wav文件，所有音频文件全被处理成单声道，如附图2（c）所示。因为第一种在采集时的成本比第二种高的多，所以收集正常样本采集，两种方案交替使用，在采集异常声音时，仅采用第一种方案。

当所述实时特征声音指标小于临界值时，代表机器状态正常，所述实时特征声音指标越小代表此时机器状态越佳；当所述实时特征声音指标大于临界值时，代表机器状态出现异常，所述实时特征声音指标越大代表此时机器状态越差，由此建立机器的健康状态监测表，全天候输出每个机器的健康监测信息。

当所述实时特征声音指标大于临界值，出现异常时，需要进行二次判断，既再采样一段音频进行判断，如果连续两次出现异常，则判定机器出现故障，需要及时进行维护，从而降低误判率。

需要说明的是，梅尔频谱是基于人的听觉感知设计的，利用梅尔滤波器来捕捉不同频率的信息，但是梅尔频谱会过滤掉声音的高频部分，这部分存在着明显的特征，因此本实施例设计卷积网络来提取声音的时间频谱特征图对梅尔频谱进行补充，融合后得到既包含低频又包含高频的完整特征；

具体的，所述步骤2中梅尔滤波器的具体结构，在此不再赘述。

进一步的，所述步骤2中的时间信息特征提取网络包括第一卷积层、第一特征提取模块、第二特征提取模块和第三特征提取模块，所述第一特征提取模块、所述第二特征提取模块和所述第三特征提取模块均包括依次设置的LayerNorm层、LeakyReLU层和第二卷积层，如附图3所示。

进一步的，时间信息特征提取网络的具体参数如下表所示：

为了消除更多的变量，让时间频谱特征和梅尔频谱特征融合效果更好点，上表中的参数n_mel、win-length、hop-length和提取音频梅尔频谱图时的参数设置保持一致，确保提取后的特征均为128×313大小，方便后续特征融合。

在一种具体实施方式中，梅尔频谱提取采用以下步骤：

首先采取python的librosa库进行音频信号读取，采样率为16000，进行单声道读取；

对读取的音频信号进行短时傅里叶变换，参数包括hop_length:帧移取值为512，win_length:窗长取值为1024，n_fft:FFT窗口大小取值为1024；

对傅里叶变换后的信号提取梅尔特征，参数包括帧移，窗长，FFT窗口大小，n_mel:梅尔滤波器个数取值为128以及power:幅度谱的指数，取值为2；然后转换到对数刻度，得到Log-mel频谱特征。

时间频谱特征图提取：构建一个时间信息特征提取网络，音频信号首先经过一个大核的一维卷积，设置卷积的通道数，核大小和步长设置为与Log-mel频谱图的n_mel，win_length和hop_length相同；

然后，经过三个堆叠的LayerNorm，LeakyReLU和核大小为3的1维卷积，进行特征提取。同时卷积块不影响输出的时态特征的维度，和Log-mel频谱的维度保持一致。

进一步的，所述步骤2中，分别对各台目标设备的梅尔频谱图及时间频谱特征图进行特征融合，得到各台目标设备的梅尔与时间融合特征时，执行：

获取某台目标设备的梅尔频谱图及时间频谱特征图，所述梅尔频谱图的维度为128×313，所述时间频谱特征图的维度为128×313；

对获取到的梅尔频谱图及时间频谱特征图进行cat操作，得到维度为128×313×2的梅尔与时间融合特征。

可以理解，梅尔频谱和时间频谱的维度保持一致，在通道维度进行合并，得到融合特征图。

具体的，预置的分类器模型包括两个卷积模块以及设置在两个卷积模块之间的18个bottleneck模块，如附图5所示；

18个bottleneck模块的结构如附图6所示，首先是输入进入一个二维卷积，这里会进行维度的扩张，有个扩张系数e，然后经过BN，ReLU，进入第二个Conv2D，这个卷积输入输出维度相同，但用的是组卷积，就是卷积时，组groups参数设置为输入通道数相同，后面可选的有SE模型，在不同阶段不同，然后再经过一个Conv2D把通道数变为参数out数量，输出和输入有一个add操作。

在一种具体实施方式中，预置的分类器模型采取类似MobileNetV3的结构，得到的1×1×512维度的向量，经过输出节点数量为K（K指的是类别的个数，等于机器个数，每一个机器就是一个类）的线性层Linear获得输出，如附图5和6所示。所述分类器模型采用堆叠的残差，可分离卷积实现音频特征的进一步提取，但在最后一层不使用线性的分类器，选择Arcface损失，通过实施一个较大的边距弧距离，来得到预测类别输出值；

本实施例采用Arcface损失来指导模型收敛而不是传统的交叉熵损失，Arcface损失从交叉熵损失的余弦表达式着手，将特征向量和权重分别进行归一化，在权重和输入特征之间的角度上加上间隔m，惩罚了特征和权重的角度，从而减小了类内差异加大了类间差异；Arcface损失函数的公式如下：

其中，s和m是Arcface Loss上的两个超参数，s取值为32，m取值为0.5。

进一步的，所述步骤4包括以下步骤：

步骤4a，迭代模型训练300轮，训练过程种使用Mixup数据增强，强化模型的拟合能力，mixup在一个批次数据种随机选取两个数据，使用lambd的比例分别混合Log-mel频谱特征和时间频谱特征图，同时混合标签，计算损失时计算混合损失；

步骤4b，每十轮迭代，使用python的sklearn库的metrics函数计算模型的准确率，选取表现最优的迭代模型作为最终模型参数；

步骤4c，得到最优模型后，加载所有正常样本，对正常样本的输出，使用python的scipy库，进行最大似然估计拟合高斯分布，得到正常样本的概率密度函数。

需要说明的是，其他的工业设备异常声音检测人工智能方法，只使用了声音的梅尔频谱特征，同时没有加入额外的监督信号，导致效果较差。本发明提取音频的时间信号特征结合梅尔频谱特征，补充了梅尔频谱缺失的有效特征，同时引入机器ID作为额外的监督信号，将无监督的异常声音检测问题转化为有监督的分类问题，实现了设备异常声音的无损快速检测，可以精确有效的对设备健康状态进行监控。

为了更好地对正常声音特征进行建模，本发明提出了一种自监督分类方法，该方法利用机器类型和机器ID元数据以及条件(正常/异常)，并伴随音频文件，进行异常声音的检测，效果优于使用自编码器的方法。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制；尽管参照较佳实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换；而不脱离本发明技术方案的精神，其均应涵盖在本发明请求保护的技术方案范围当中。

Claims

1.一种基于频谱与时间信息结合的自监督异常声音检测方法，其特征在于，包括以下步骤：

步骤3，将每台目标设备的梅尔与时间融合特征输入预置的分类器模型中，以每台目标设备的机器ID作为类别标签，并使用Arcface 损失函数指导所述分类器模型收敛；

迭代训练m×N轮，取准确率最优的模型，作为目标分类模型；

2.根据权利要求1所述的基于频谱与时间信息结合的自监督异常声音检测方法，其特征在于：所述步骤2中的时间信息特征提取网络包括第一卷积层、第一特征提取模块、第二特征提取模块和第三特征提取模块，所述第一特征提取模块、所述第二特征提取模块和所述第三特征提取模块均包括依次设置的LayerNorm层、LeakyReLU层和第二卷积层。

3.根据权利要求1所述的基于频谱与时间信息结合的自监督异常声音检测方法，其特征在于：所述步骤2中，分别对各台目标设备的梅尔频谱图及时间频谱特征图进行特征融合，得到各台目标设备的梅尔与时间融合特征时，执行：