CN116230012B

CN116230012B - 一种基于元数据对比学习预训练的两阶段异音检测方法

Info

Publication number: CN116230012B
Application number: CN202310177110.4A
Authority: CN
Inventors: 关键; 肖飞扬; 柳友德; 张合静
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2023-02-28
Filing date: 2023-02-28
Publication date: 2023-08-08
Anticipated expiration: 2043-02-28
Also published as: CN116230012A

Abstract

本发明提出了一种基于元数据对比学习预训练的两阶段异音检测方法，属于声音检测领域，解决了现有单阶段异音检测方法对声音信号与其对应元数据信息匹配关系发掘程度不高，难以区分不同元数据信息下声音信号差异的问题。本发明提供的两阶段异音检测方法包含元数据对比学习预训练和自监督微调两个阶段，元数据对比学习预训练阶段加强了相同元数据信息下的声音信号关联，放大了不同元数据信息下声音信号的距离，学习到了能够根据元数据信息区分不同声音信号的能力；自监督微调部分在元数据对比学习获得的预训练参数基础上，进行优化微调，进一步提升了对不同元数据信息下声音信号的区别能力，进而提升了异音检测方法的性能表现与稳定性。

Description

一种基于元数据对比学习预训练的两阶段异音检测方法

技术领域

本发明涉及声音检测领域，具体是一种基于元数据对比学习预训练的两阶段异音检测方法。

背景技术

异音检测(Anomalous Sound Detection，ASD)，是一项根据机器设备运转的声音信号，进行声学建模分析，进而判断机器设备是否发生异常状态的技术。

由于异常状态所对应的异常声音，在实际生产场景中较为罕见，难以有效低成本地进行采集，同时，导致异常的原因是多种多样的，故难以通过遍历采集异常状态的方式，进行异常检测方法的训练。现阶段，主流异音检测技术大多以从深度学习理论入手，发展出了无监督特征重构异音检测方法和自监督元数据分类异音检测方法这两类主流的单阶段异音检测方法。

其中，无监督特征重构异音检测方法通过重构输入特征，学习正常声学数据的分布特性，并借助重构误差衡量声音数据状态，但该方法误检率较高，不能区分不同的声学数据差异。自监督元数据分类异音检测方法，则是考虑到声音数据对应的元数据信息(如：机器ID、运转参数)，通过对元数据信息进行分类，借助分类误差来判断声音数据状态。自监督方法通过这种方式，在一定程度上区分了不同的声学数据特性，但并未加强相同声学特性的声音数据的联系，使得在区分不同声音数据的异常时，仍存在着不够准确、不够稳定的问题。

发明内容

为了更进一步的区分不同元数据信息下声学特性的差异，提升异音检测方法的检测性能与稳定性，本发明提供了一种基于元数据对比学习预训练的两阶段异音检测方法，通过引入基于元数据信息匹配关系的对比学习预训练阶段，为异音检测提供了更高质量的声学特性表示能力，加强了相同元数据信息下声音信号的关联，放大了不同元数据信息下声音信号的差异，并借助自监督微调阶段，进一步放大了不同元数据信息下不同声学信号特性之间的差异，使得异音检测方法能够有效区别不同声音信号，不受不同声音特性差异的影响，提升异音检测的性能表现和稳定性。

一种基于元数据对比学习预训练的两阶段异音检测方法，包括如下步骤：

包含元数据对比学习预训练阶段与自监督微调阶段，在元数据对比学习预训练阶段，借助声音信号相对应的元数据信息构建声学特征对比关系，从而增强同一机器设备声学特征的相关性，放大不同机器设备声学特征的差异性；在自监督微调阶段，进一步通过对元数据信息的自监督分类训练，深化不同设备声学特征的差异性质，从而使得异音检测系统获得对不同设备运行状态判别能力，实现对于异常状态的有效检测，提升异音检测稳定性。

进一步的，在元数据对比学习预训练阶段，依据声音信号所对应的元数据信息的差异，构建对比学习模型，设定一组输入声音信号为X＝[x₁,x₂,…,x_i,…,x_N]，其中，x_i表示第i个声音信号(1≤i≤N)，N表示这一组声音信号所包含的声音信号总数，对于任一声音信号x_i，将提取其对应的音频向量表示z_i，并将其与其他(N-1)条声音信号的音频向量表示进行对比学习目标函数计算。

进一步的，通过声学特征提取模块对输入的任一声音信号x_i，提取其音频特征，具体包括如下步骤：声音信号x_i经过短时傅里叶变换与对数化Mel滤波器组滤波为Log-Mel谱频域特征，同时，经过卷积网络获取时域的谱图特征，将Log-Mel谱频域特征和时域的谱图特征拼接在一起，输入到MobileFaceNet网络结构中，经过维度压缩，获得音频信号x_i对应的音频特征其中，D为音频特征f_i的向量维度数值。

需要注意的是，本发明中，输入MobileFaceNet网络结构中的Log-Mel谱频域特征和时域的谱图特征拼接融合的谱图特征，在精简结构的情况下，也可替换为Log-Mel谱频域特征。

优选的，非线性映射模块，将音频特征f_i映射变换为声音信号x_i对应的音频向量表示非线性映射模块在元数据对比学习预训练阶段由3个非线性块组成，每个块各包含1个线性映射层网络、1个ReLU激活函数层和1个批正则化函数层。

进一步优选的，对比学习目标函数通过某一元数据信息与其他元数据信息之间的匹配关系计算，

首先，对于任意两条音频，在提取音频向量表示的同时，提取其元数据信息，若其元数据信息相同，则为匹配关系；若其元数据信息不同，则为不匹配关系；假定x_j是任一不为x_i的声音信号(1≤j≤N,i≠j)，其对应的音频向量表示为z_j，则z_i与z_j的余弦相似度s_ij表示为：

其中，表示向量转置操作，*表示矩阵乘法计算，||·||₂表示向量的L2范数，

随后，根据声音信号对应的元数据信息匹配关系进行对比学习目标优化，假定x_i的元数据信息为l_i，x_j的元数据信息为l_j，期望l_i＝l_j时，z_i与z_j的余弦相似度s_ij趋向最大，反之趋向最小。

进一步优选的，对比学习目标函数公式如下：

其中，K(i)＝{k|1≤k≤N,andk≠i,l_i＝l_k}表示与声音信号x_i具有相同元数据信息的声音信号索引集合，k为K(i)中的一个元素，参数τ为一个超参数，用于放缩余弦相似度数值范围，以突出相似度差异性。

进一步的，完成元数据对比学习预训练后，将得到的声学特征提取模块、非线性映射模块预训练参数，传递给自监督微调部分作为声学特征提取模块、非线性映射模块预训练参数模型参数的初始化，并且，在自监督微调阶段，非线性映射模块仅保留第一个非线性块，并添加了一个线性映射层，此时非线性映射模块演变为一个非线性映射分类器。

进一步的，在自监督微调阶段，利用特征提取模块提取声音信号的音频特征，随后输入非线性映射分类器，得到对于声音元数据信息分类的预测向量，并采用了ArcFace损失公式进行优化微调。

优选的，在自监督微调阶段，将数据分类预测误差，作为异音检测方法的异常分数，随后，异常分数经过阈值判定策略，判定任一声音信号x_i的状态，对于任一声音信号x_i的异常分数e，阈值判定机制对这一异常分数序列的处理方式如下：

其中，H(e,θ)表示阈值判定机制的数学形式，θ表示针对声学目标k的目标类型所提供的阈值，当异常分数大于阈值θ，即可认为该声音信号x_i超出了系统所学习到的常规数据分布的范围，判定声音信号x_i为异常；反之则说明声音信号x_i处于系统所学习到的常规数据分布的范围，可以判定声音信号x_i为正常。

与现有技术相比，本发明的有益效果：

本发明提供了一种基于元数据对比学习预训练的两阶段异音检测方法，通过引入基于元数据信息匹配关系的对比学习预训练阶段，为异音检测提供了更高质量的声学特性表示能力，加强了相同元数据信息下声音信号的关联，放大了不同元数据信息下声音信号的差异，并借助自监督微调阶段，进一步放大了不同元数据信息下不同声学信号特性之间的差异，使得异音检测方法能够有效区别不同声音信号，不受不同声音特性差异的影响，提升异音检测的性能表现和稳定性。

1、本发明针对现有单阶段异音检测方法，难以有效区分不同声音信号差异，异音检测判别能力受限的问题，设计了基于元数据对比学习的预训练阶段，将异音检测方法的训练过程拓展为两阶段方法，从而在元数据对比学习预训练阶段学习感知不同元数据信息下声音信号的差异，并捕获了相同元数据信息下声音信号的联系，由此，本发明所提出的异音检测方法将获得区别不同元数据信息所对应的设备差异性质的能力，进而有效区分不同设备的正常/异常声音差异，避免相同设备声学特征之间可能存在的干扰，提升异音检测方法的判别能力与稳定性。本发明设计了目标函数公式，并通过余弦相似度对比声音信号的差异，通过对比声音元数据信息是否匹配，放大了不同元数据信息对应的声音信号的向量表示距离，缩小了相同元数据信息对应的声音信号的向量表示距离，使得声音特性更为清晰可区分，提升了异音检测的性能表现。

2、本发明通过自监督微调阶段，对设备声学特征自身所对应的元数据信息进行自监督式的分类学习，在分类学习中进一步强化了不同元数据信息下声音信号的差异性质，实现了对异音检测方法判别能力的微调，获得了更清晰的机器声音信号感知能力，能够有效消除不同声音信号之间声学特性的差异性带来的影响。

3、本发明提供了针对多种机器类型的一个统一泛化的模型，可以同时对多个机器类型的声音信号进行两阶段训练，获得一个统一的泛化异音检测模型，相比于传统方法针对每个机器类型单独训练模型的方式大大降低了训练异音检测系统的复杂度，提升了训练效率，有效降低了异音检测方法的工业化部署难度，并提升了检测性能表现与稳定性。

附图说明

图1是本发明的总体技术路线图；

图2是本发明中声学特征提取模块结构图；

图3展示了本发明中非线性映射模块在不同阶段的结构图。

具体实施方式

下面结合附图以及具体实施方法对本发明一种基于元数据对比学习预训练的两阶段异音检测方法作进一步详细说明。

相比现有的异音检测方法，本发明将对比学习思想引入异音检测方法设计过程中，提出了一种以元数据信息为对比标准的元数据对比学习预训练策略，用于异音检测方法的训练过程，强化了异音检测方法对于不同设备声学特征的表示能力，从而提升对不同设备的异音检测表现与稳定性。

本发明提供一种基于元数据对比学习预训练的两阶段异音检测方法，包括元数据对比学习预训练阶段和自监督微调阶段，模型结构包括声学特征提取模块和非线性映射模块，非线性映射模块在不同阶段内结构有变化。

元数据对比学习预训练阶段中，一组声音信号输入到声学特征提取模块中，提取得到一组音频特征，随后，将这组音频特征输入到非线性映射模块中，获得一组音频向量表示。对该组音频向量表示中的任一音频向量表示，将其与其他音频向量表示计算余弦相似度，并通过对比学习损失，使得相同元数据信息的音频向量表示之间余弦相似度趋于最大值，使得不同元数据信息的音频向量表示之间余弦相似度趋于最小值。由此在预训练阶段获得了声学特征提取模块与非线性映射模块的预训练模型参数。

随后，借助该预训练参数，作为自监督微调阶段声学特征提取模块与非线性映射模块的模型参数初始化参数，此时，非线性映射模块变形为非线性映射分类器。通过对元数据信息进行分类，以自监督目标函数ArcFace完成微调优化，进一步放大了不同元数据信息下音频向量表示的差异，进而获得了更为有效地判别不同机器设备声音信号的能力，提升了对于机器设备异常状态声音的感知能力，实现了检测性能与稳定性的提高。

具体的，本发明在实现过程中包括如下步骤：

1、元数据对比学习预训练

(1)音频向量表示提取

假定机器设备声音信号为x，机器设备声音信号的采样频率为16kHZ。

首先，声音信号x经过短时傅里叶变换(Short-Time Fourier Transform,STFT)，转换为频谱图特征，频谱图包含了采样频率所规定的所有频段范围。在采样率为16kHz的条件下，设定短时傅里叶变换的时间窗为1024个采样点(即64ms)，相邻的时间窗之间重叠率为50％，即时间窗的偏移步长为512个采样点(32ms)。频谱图特征经过Mel滤波器组完成滤波过程，从而得到Mel谱图。为放大频谱特征中人类听觉感知所敏感的区间，对Mel谱图进行对数放缩，得到频域特征Log-Mel谱图。频域特征的整体计算流程可归纳如下：

其中，F_Sgram表示频域特征Log-Mel谱，M表示Mel滤波的维数，而T表示频域特征的时间帧数。/>表示Mel滤波器组，Mel滤波器组的维数M为128维。||STFT(x)||²表示对频谱图特征取其功率谱。

同时，声音信号x经过一个谱图转换器和三层声学建模块结构(合称为TgramNet)，获得时域可学习谱图特征。谱图转换器用于将单信道的一维音频原始信号转换为类似于Log-Mel谱特征维度的谱图形式，以便于后续的时频域融合。谱图转换器借助于一个超大卷积核的一维卷积层实现，卷积核尺度为1024个采样点(64ms)，步长512个采样点(32ms)，从而保证了时频谱图特征的各个时序帧能够一一对应。谱图转换器的输出通道数为128维，保障了时频谱图特征在单一时间帧的通道特征维度上能够适配。单个声学建模块包含一层Layer Normalization、Leaky ReLU激活和一层3×3卷积核且步长为1的卷积层。三层声学建模块串联处理谱图转换器转换而来的时域谱图，为时域谱图添加可根据数据学习调整的适应能力。时域可学习谱图特征的提取过程的数学形式如下：

F_Tgram＝TgramNet(x)

拼接F_Sgram和F_Tgram拼接，形成双通道的时频融合谱图特征F_SRgram，并随后输入到MobileFaceNet网络结构中，经过网络降维压缩得到音频特征其中，D为音频特征ff的向量维度数值。

随后，将音频特征f输入到非线性映射模块当中，获得声音信号x对应的音频向量表示该非线性映射模块在预训练阶段由3个非线性块组成，每个块各包含1个线性映射层网络、1个ReLU激活函数层、1个批正则化函数层。

上述步骤的流程示意如图1-图2所示。

(2)余弦相似度计算

对于一组机器设备声音信号输入X＝[x₁,x₂,…,x_N]，其中，N表示这一组声音信号所包含的声音信号总数，任选两个声音信号x_i,x_j(1≤i,j≤N,i≠j)，经上述音频向量表示提取步骤，获得其对应的音频向量表示z_i,z_j。

随后，计算z_i,z_j之间的余弦相似度s_ij：

其中，表示向量转置操作，*表示矩阵乘法计算，||·||₂表示向量的L2范数。

对于这一组输入声音信号，将会得到N×(N-1)个余弦相似度分数，构成相似度矩阵 (N-1)是由于每一个声音信号无需与其自身计算余弦相似度，只需要与除其本身以外的(N-1)个声音信号进行余弦相似度计算。

(3)对比学习损失优化

机器设备运转发出的声音信号x会存在相对应的元数据信息(如：机器ID、运转参数)，可以记为l。对于声音信号x_i，其对应的元数据信息为l_i，对于声音信号x_j，其对应的元数据信息为l_j。本发明所涉及的基于元数据对比学习预训练的两阶段异音检测方法，在元数据对比学习预训练阶段，期望比较不同声音信号的元数据信息，将具有相同元数据信息的声音信号视为同一类，将具有不同元数据信息的声音信号视为不同类，通过使具有相同元数据信息的声音信号音频向量表示之间的余弦相似度趋向最大，使具有不同元数据信息的声音信号音频向量表示之间的余弦相似度区域最小，构建如下对比学习损失函数进行声学特征提取模块与非线性映射模块的模型参数预训练优化：

其中，K(i)＝{k|1≤k≤N,andk≠i,l_i＝l_k}表示与声音信号x_i具有相同元数据信息的声音信号索引集合，k为K(i)中的一个元素。参数τ为一个超参数，用于放缩余弦相似度数值范围，以突出相似度差异性。

本发明提出的对比学习预训练策略，通过对比声音元数据信息是否匹配，放大了不同元数据信息对应的声音信号的向量表示距离，缩小了相同元数据信息对应的声音信号的向量表示距离，使得声音特性更为清晰可区分，提升了异音检测的性能表现。预训练所获得的声学特征提取模块与非线性映射模块的模型参数将服务于自监督微调阶段的参数初始化。

2、自监督微调

(1)模型参数初始化

自监督微调阶段，首先加载预训练所获得的声学特征提取模块与非线性映射模块的模型参数，用于对自监督阶段的声学特征提取模块与非线性映射模块进行参数初始化。需要说明的是，在自监督微调阶段，非线性映射模块的结果出现了变化，如图3所示，非线性映射模块的后2个非线性映射快被替换为1个线性映射层，构成了非线性映射分类器，用于对音频向量表示进行元数据信息分类。

(2)音频向量表示提取与自监督目标函数优化

机器设备的声音信号x经过声学特征提取模块获得音频特征f，随后，音频特征f输入到非线性映射分类器模块，输出对于声音信号x的元数据信息分类概率向量h，并采用了ArcFace目标函数进行优化微调。ArcFace目标函数计算方式如下：

其中C表示元数据信息的种类总数，s和m为ArcFace损失涉及的两个超参数，本发明设置为适用于异音检测的数值s＝30和m＝0.7。h_i表示指向声音信号x所对应的实际元数据信息标签的概率向量，为该向量的空间夹角，此时j表示其他元数据分类标签索引，θ_j为指向其他元数据分类的概率向量空间夹角。

3、异常声音判定机制

异音检测的异常声音判断机制，将自监督微调策略的元数据分类预测误差，作为异音检测方法的异常分数。该误差使用自监督微调中所使用的ArcFace目标函数计算，将该目标函数的值作为异常分数e。

随后，异常分数经过阈值判定策略，判定任一声音信号x_i的状态。

对于任一声音信号x_i的异常分数e，阈值判定机制对这一异常分数序列的处理方式如下：

其中，H(e,θ)表示阈值判定机制的数学形式，θ表示针对声学目标k的目标类型所提供的阈值。当异常分数大于阈值θ，即可认为该声音信号x_i超出了系统所学习到的常规数据分布的范围，判定声音信号x_i为异常；反之则说明声音信号x_i处于系统所学习到的常规数据分布的范围，可以判定声音信号x_i为正常。

4、针对多种机器类型的统一泛化训练

本发明所提供的基于元数据对比学习预训练的两阶段异音检测方法，可以同时对多个机器类型的声音信号进行两阶段训练，获得一个统一的泛化异音检测模型，而无需针对每个机器类型的声音单独训练一个独立模型，大大降低了训练过程的复杂程度，并降低了对应模型数量的需求。具体来说，多种机器类型的数据，其相互之间也属于元数据信息匹配关系中，不同元数据信息所代表的不匹配关系，本发明所提供的两阶段方法，将有效利用机器类型之间的差异，进一步学习不同类型下不同设备的差异信息，从而获得对于多种机器设备类型数据的泛化判别能力。

5、检测性能与稳定性提升的说明

本发明所提供的基于元数据对比学习预训练的两阶段异音检测方法，通过元数据对比学习预训练和自监督微调，充分发掘了不同声音信号的不同声学特性，消除了不同声音信号差异性带来的影响。下述为本发明所提方法(下表中CLP-SCF)与现有方法的性能对比与稳定性对比：

表1本发明所提CLP-SCF方法与现有方法性能对比

由表1可以发现，本发明所提出的两阶段异音检测方法CLP-SCF在性能评价指标AUC与pAUC上的整体表现均优于现有方法。

表2本发明所提CLP-SCF方法与现有方法稳定性对比

由表2可以发现，本发明所提出的两阶段异音检测方法CLP-SCF在稳定性评价指标mAUC上的各机器类型表现均优于现有方法STgram-MFN。

上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于元数据对比学习预训练的两阶段异音检测方法，其特征在于：

包含元数据对比学习预训练阶段与自监督微调阶段，在元数据对比学习预训练阶段，借助声音信号相对应的元数据信息构建声学特征对比关系，从而增强同一机器设备声学特征的相关性，放大不同机器设备声学特征的差异性；在自监督微调阶段，进一步通过对元数据信息的自监督分类训练，深化不同设备声学特征的差异性质，从而使得异音检测系统获得对不同设备运行状态判别能力，实现对于异常状态的有效检测，提升异音检测稳定性；

其中，元数据是机器设备运转发出的声音信号相对应的机器ID和运转参数，在自监督微调阶段，利用特征提取模块提取声音信号的音频特征，随后输入非线性映射分类器，得到对于声音元数据信息分类的预测向量，并采用了ArcFace损失公式进行优化微调，将数据分类预测误差，作为异音检测方法的异常分数，随后，异常分数经过阈值判定策略，判定任一声音信号x_i的状态，

2.根据权利要求1所述的一种基于元数据对比学习预训练的两阶段异音检测方法，其特征在于：

在元数据对比学习预训练阶段，依据声音信号所对应的元数据信息的差异，构建对比学习模型，设定一组输入声音信号为X＝[x₁,x₂,…,x_i,…,x_N]，其中，x_i表示第i个声音信号(1≤i≤N)，N表示这一组声音信号所包含的声音信号总数，对于任一声音信号x_i，将提取其对应的音频向量表示z_i，并将其与其他(N-1)条声音信号的音频向量表示进行对比学习目标函数计算。

3.根据权利要求2所述的一种基于元数据对比学习预训练的两阶段异音检测方法，其特征在于，

通过声学特征提取模块对输入的任一声音信号x_i，提取其音频特征，具体包括如下步骤：声音信号x_i经过短时傅里叶变换与对数化Mel滤波器组滤波为Log-Mel谱频域特征，同时，经过卷积网络获取时域的谱图特征，将Log-Mel谱频域特征和时域的谱图特征拼接在一起，输入到MobileFaceNet网络结构中，经过维度压缩，获得音频信号x_i对应的音频特征其中，D为音频特征f_i的向量维度数值。

4.根据权利要求3所述的一种基于元数据对比学习预训练的两阶段异音检测方法，其特征在于：

将输入到MobileFaceNet网络结构中的Log-Mel谱频域特征和时域的谱图特征拼接融合的谱图特征替换为Log-Mel谱频域特征。

5.根据权利要求3或4所述的一种基于元数据对比学习预训练的两阶段异音检测方法，

其特征在于：

非线性映射模块，将音频特征f_i映射变换为声音信号x_i对应的音频向量表示非线性映射模块在元数据对比学习预训练阶段由3个非线性块组成，每个块各包含1个线性映射层网络、1个ReLU激活函数层和1个批正则化函数层。

6.根据权利要求5所述的一种基于元数据对比学习预训练的两阶段异音检测方法，其特征在于，

对比学习目标函数通过某一元数据信息与其他元数据信息之间的匹配关系计算，

随后，根据声音信号对应的元数据信息匹配关系进行对比学习目标优化，假定x_i的元数据信息为l_j，x_j的元数据信息为l_j，期望l_i＝l_j时，z_i与z_j的余弦相似度s_ij趋向最大，反之趋向最小。

7.根据权利要求6所述的一种基于元数据对比学习预训练的两阶段异音检测方法，其特征在于，

在元数据对比学习预训练阶段，所使用的具体对比学习目标函数公式如下：

其中，K(i)＝{k|1≤k≤N,and k≠i,l_i＝l_k}表示与声音信号x_i具有相同元数据信息的声音信号索引集合，k为K(i)中的一个元素，参数τ为一个超参数，用于放缩余弦相似度数值范围，以突出相似度差异性。

8.根据权利要求7所述的一种基于元数据对比学习预训练的两阶段异音检测方法，其特征在于：

完成元数据对比学习预训练后，将得到的声学特征提取模块、非线性映射模块预训练参数，传递给自监督微调部分作为声学特征提取模块、非线性映射模块预训练参数模型参数的初始化，并且，在自监督微调阶段，非线性映射模块仅保留第一个非线性块，并添加了一个线性映射层，此时非线性映射模块演变为一个非线性映射分类器。