CN116230015A

CN116230015A - 一种基于音频时序信息加权的频域特征表示异音检测方法

Info

Publication number: CN116230015A
Application number: CN202310240262.4A
Authority: CN
Inventors: 关键; 张合静; 柳友德; 肖飞扬
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2023-03-14
Filing date: 2023-03-14
Publication date: 2023-06-06
Anticipated expiration: 2043-03-14
Also published as: CN116230015B

Abstract

本发明提出一种基于音频时序信息加权的频域特征表示异音检测方法，能够有效区分正常信息和异常信息，提升异常声音检测的稳定性和对不同机器的适应性。本发明通过对原始音频信号获取Log‑Mel谱频域特征，并在时间维度上对其应用全局加权排序池化，得到音频信号的基于音频时序信息加权的频域特征表示，解决了对稳定音频信号和非稳定音频信号的平衡问题。并基于音频时序信息加权的频域特征表示，针对不同机器类型，根据最佳检测性能，找到全局加权排序池化最合适的池化参数，实现用于异常声音检测的更鲁棒性的音频特征表示。

Description

一种基于音频时序信息加权的频域特征表示异音检测方法

技术领域

本发明涉及于声音检测技术领域，具体是一种基于音频时序信息加权的频域特征表示异音检测方法。

背景技术

异常声音检测(Anomalous Sound Detection，ASD)，通过识别目标设备或机器发出的声音是正常还是异常，从而及时检测机器的异常状态。

随着深度学习在音频处理方向的应用，现有研究提供了无监督和自监督这两种实现声音异常检测的方法。因为实际的异常声音很少发生且非常多样，所以在无监督的异常声音检测系统中，通常只接受正常声音样本作为训练数据来检测未知的异常声音。无监督方法中最常用的是自编码器模型，通过最小化重构误差来学习正常声音的特征，并将重构误差作为异常分数来检测异常。这样的工业异常声音检测方法能够提供一定程度的异常声音检测性能，但其误检率较高，受先验设置的阈值影响大。

虽然深度学习是无监督异常声音检测中的主流方法，如常用的自编码器，但以统计音频表示作为输入的高斯混合模型(Gaussian Mixture Model，GMM)可以用低得多的模型复杂度和更少的参数获得可以比较的结果。

在现有的声音异常检测中，大部分方法所处理的音频特征是对数梅尔谱(Log-MelSpectrogram)。Log-Mel谱特征是一种模仿人类主观听觉感知所设计的频率滤波特征，Log-Mel会过滤掉人类不易察觉的声学频带，从而压缩数据维度，突出人类听觉所敏感的声学频带区间。

现有的统计音频表示，例如对Log-Mel谱图在时间维度上取平均值或最大值，对于不同的机器并不总是工作良好。对Log-Mel谱取最大值(Max-GMM)只考虑了有着最大声音能量的时间帧，忽略了其它所有时间帧，因此静态特征(正常声音的关键特征之一)没有被考虑到。相反，对Log-Mel谱取均值(Mean-GMM)考虑了整个时间跨度上的每个时间帧，这很好地捕捉了静态特征，但是由于平均操作，可能不能捕捉到短期信号的瞬态特征。

发明内容

为了解决统计音频表示模型对不同机器的适用性差、模型复杂性高以及如何对音频信号的平稳特征和非平稳特征进行适当的折中等问题，本发明提供了一种基于音频时序信息加权的频域特征表示异音检测策略异音检测方法，为声音异常检测方法提供能有效区分正常信息和异常信息的统计音频表示特征，提升异常声音检测的稳定性和对不同机器的适应性，并进一步对平稳音频信号和非平稳音频信号都提供了有效的音频特征表示。同时，相对于深度学习方法本发明具有较低的模型复杂度的优势。

一种基于音频时序信息加权的频域特征表示异音检测方法，包括如下步骤：通过对原始音频信号获取Log-Mel谱频域特征，并在时间维度上对其应用全局加权排序池化，得到音频信号的基于音频时序信息加权的频域特征表示，解决了对稳定音频信号和非稳定音频信号的平衡问题。

进一步的，基于音频时序信息加权的频域特征表示，针对不同机器类型，根据最佳检测性能，找到全局加权排序池化最合适的池化参数，实现用于异常声音检测的更鲁棒性的音频特征表示。

进一步的，定义原始音频信号为

L为原始音频信号的时长，声学目标的原始单通道音频信号/>

经过短时傅里叶变换转变为频谱图特征，并经过Mel滤波器组完成滤波过程，得到Mel谱图，对Mel谱图进行对数放缩，最终结果为Log-Mel谱频域特征X：

其中，Log-Mel谱频域特征

M表示Mel滤波的维数，而N表示频域特征的时间帧数，log(·)为对数化运算，/>

为Mel滤波器组的滤波器矩阵，||STFT(x)||²为由声学目标的原始信号x提取得到的频谱图特征。

优选的，短时傅里叶变换采用重叠时间窗的方式进行采样，时间窗长度为1024个采样点，即16kHz采样频率下的64ms时长，重叠步长为512个采样点，即16kHz采样频率下的32ms时长，Mel滤波器组维数M为128维。

进一步的，Log-Mel谱频域特征X的第i个行向量X_i

中的数值降序排列，按照声音能量递减顺序重新排列行向量上X_i的值，以忽略时间顺序影响，得到时间维度能量降序行向量Y_i。由此，所有时间维度能量降序行向量，组合产生了时间维度能量降维序列Y＝[Y₁,Y₂,...,Y_M]。

Log-Mel谱频域特征X的基于音频时序信息加权的频域特征表示

为：

其中，P(r)是池化向量，池化方式具体为：

其中，r是池化参数(0<r<1)，

是池化向量中的数值约束项，用于进行规范化操作约束池化向量内权重数值大小，上标T表示转置操作；通过该池化方式给拥有更高能量的声音时间帧更大的权重，用以平衡平稳信号和非平稳信号，以形成音频信号的简单频域表示。

优选的，针对不同机器类型，从0到1按0.01的间隔选取池化参数r的数值，并分别在测试数据集进行异常声音检测，根据其最佳检测性能，为不同机器找到最合适的池化参数r，适用于不同的机器类型以实现用于异常声音检测的更鲁棒性的音频特征表示。

进一步的，使用高斯混合模型估计器计算每条音频的异常分数，作为判断异常音频的判断标准，减少模型所用参数，降低模型复杂度。

用事件训练好的高斯混合模型，对测试数据进行负对数似然性的计算，并将计算结果作为每条测试音频的异常分数。

其中，高斯混合模型估计器训练过程是：

首先，输入正常声音的音频数据，高斯混合模型用于将正常声音的分数拟合成有限数量的高斯分布的混合物，

得到对于每种机器类型最佳的高斯混合模型估计器后，对测试音频数据的Log-Mel声谱图

提取基于音频时序信息加权的频域特征表示/>

将测试音频的基于音频时序信息加权的频域特征表示

输入高斯混合模型估计器，并根据负对数似然性计算测试音频的异常。

其中，对数似然性计算测试音频的异常公式为：

其中，

表示测试音频的异常分数。测试时，会针对一类机器的测试音频提供一个阈值θ，当异常分数大于阈值θ时，将判断测试音频为异常，反之则判断测试音频为正常。/>

是已训练好的高斯混合模型的第k个高斯分布，/>

是均值向量，

是协方差矩阵，/>

是测试数据的Log-Mel声谱图。

与现有技术相比，本发明的有益效果：

本发明提供了一种基于音频时序信息加权的频域特征表示异音检测策略异音检测方法，可以有效解决统计音频表示模型对不同机器的适用性差、模型复杂性高以及如何对音频信号的平稳特征和非平稳特征进行适当的折中等问题。本发明为声音异常检测方法提供能有效区分正常信息和异常信息的统计音频表示特征，提升异常声音检测的稳定性和对不同机器的适应性，并进一步对平稳音频信号和非平稳音频信号都提供了有效的音频特征表示。同时，相对于深度学习方法本发明具有较低的模型复杂度的优势。

1、本发明针对不同机器类型，分别根据其最佳检测性能，为其找到最合适的池化参数r，因此本发明中的基于音频时序信息加权的频域特征表示可以适用于不同的机器类型以实现用于异常声音检测的更鲁棒性的音频特征表示。

2、本发明基于音频时序信息加权的频域特征表示通过应用预先选择的简单时域加权来适应每种机器类型，这种加权用于平衡稳定和非稳定音频信号，以形成音频信号的简单统计频域表示。

3、本发明使用非深度学习方法，应用高斯混合模型估计器估计异常声音，降低了模型复杂度。

附图说明

图1是本发明的总体技术路线图；

图2是本发明中模型参数量与现有常用模型参数量比较图。

具体实施方式

下面结合附图以及具体实施方法对本发明一种基于音频时序信息加权的频域特征表示异音检测方法作进一步详细说明。

本发明提出一种基于音频时序信息加权的频域特征表示异音检测方法，如图1所示，包括Log-Mel声谱图的提取、对Log-Mel声谱图在时间维度上应用全局加权排序池(Global Weighted Ranking Pooling，GWRP)、使用高斯混合模型估计器识别异常以及针对不同机器类型设置不同的加权参数r：

待检测的声学目标原始音频经过频率数据域的Log-Mel谱滤波器组得到频域的Log-Mel谱特征(Log-Mel Spectrogram)。

随后，对Log-Mel谱图在时间维度上应用全局加权排序池化(Global WeightedRanking Pooling，GWRP)，以对具有较高声能的时间帧基于较高的权重。具体池化过程是：先对Log-Mel谱中的每个频率组分别进行降序排序，按能量递减顺序重新排列每个频率组的时间帧上的值，并忽略时间顺序，得到新的特征谱图；将新的特征谱图与池化向量P(r)进行矩阵乘运算，得到一维的TWFR特征。

最后，使用正常声音的TWFR特征训练高斯混合模型(Gaussian Mixture Model，GMM)，并根据负对数似然性检测测试声音是否异常。

对于异常声音检测系统，非深度学习方法通过使用GMM估计器来进行尝试，该估计器的输入来自时间维度上的Log-Mel谱的统计音频表示。这种模型通常包含更少的参数和更低的复杂度，但是提供了可比较的检测性能。

该模型在训练阶段为每种机器类型的最佳检测性能找到从0到1的合适的池化参数r，从而使TWFR可以适应不同的机器类型，以实现由于异常声音检测的更鲁棒的音频特征表示。

本发明在实现过程中包括如下具体步骤：

1.得到声学信号的基于音频时序信息加权的频域特征表示

将每一条原始音频加载为浮点时间序列，即得到原始音频单通道信号。假定声学目标所对应的原始音频单通道信号为

其中1通道维度为1，L表示音频数字信号的采样点数，反映了原始音频的时长，原始声学信号的采样频率为16000Hz。

(1)Log-Mel声谱特征提取

首先，原始音频信号

经过短时傅里叶变换(Short-Time FourierTransform,STFT)，转换为频谱图特征(Spectrogram)，频谱图特征包含了采样频率所规定的频段范围。其中，原始音频信号定义为/>

L为原始音频信号的时长。短时傅里叶变换计算过程的时间窗为1024个采样点(即64ms)，相邻的时间窗之间重叠率为50％，即时间窗的偏移步长为512个采样点(32ms)。

随后，频谱图特征经过Mel滤波器组完成滤波过程，从而得到Mel谱图。为放大频谱特征中人类听觉感知所敏感的区间，对Mel谱图进行对数放缩，得到频域特征Log-Mel谱图。log-Mel谱图特征的整体计算流程可归纳如下：

其中，X表示频域特征Log-Mel谱，

M表示Mel滤波器组的维数，而N表示频域特征的时间帧数。/>

表示Mel滤波器组，Mel滤波器组的维数为128维。||STFT(x)||²表示对频谱图特征取其功率谱，从而忽略短时傅里叶变换结果在复数域所带来的计算成本。

(2)在时间维度上对Log-Mel声谱图应用全局加权排序池化(GWRP)

为了给更高声能的时间帧更大的权重，在时间维度上对Log-Mel声谱图特征应用全局加权排序池(GWRP)。

考虑具有M个Mel滤波器组和N个时间帧的音频信号的Log-Mel谱特征

把X的第i个行向量X_i/>

中的数值降序排列得到时间维度能量降序行向量Y_i,按照声音能量递减顺序重新排列每个频率组的时间帧上的值，并忽略时间顺序。由此产生的时间维度能量降维序列Y＝[Y₁,Y₂,...,Y_M]是从X按时间降序排序获得的。X的基于音频时序信息加权的频域特征表示/>

可写为

其中，

池化向量是：

其中，r是池化参数(0<r<1)，

是池化向量中的数值约束项，用于进行规范化操作，作为池化向量内权重数值的分母，从而约束池化向量内权重数值大小，上标T表示转置操作。

上面所述的池化方式能给拥有更高能量的声音时间帧更大的权重，这种加权用以平衡平稳信号和非平稳信号，以形成音频信号的简单频域表示。其中，非平稳信号是指音频谱图中声能突然增加的时间帧，其中可能包含异音检测所需要的有效信息。

2.使用高斯混合模型估计器估计异常声音

高斯混合模型(Gaussian Mixture Model,GMM)用于将正常声音的分布拟合为有限数量的高斯分布的混合物。GMM在正常声音上被训练，并将负对数似然作为测试声音的异常分数，负对数似然性被定义为：

其中，

是已训练的GMM的第k个高斯分布，使用均值向量/>

和协方差矩阵/>

是测试音频的Log-Mel声谱图。

对于某一测试音频的Log-Mel声谱图

是其异常分数值，θ是用以检测异常音频的阈值。当/>

时，则认为该段音频是异常的，反之，认为该段音频是正常的。对测试音频的状态判定如下式所示：

其中，为了确定异常检测阈值θ，假设

服从训练正常声音的异常分数的伽马分布，而θ确定为该伽马分布中第90％的值。

使用非深度学习方法，应用高斯混合模型(Gaussian Mixture Model，GMM)估计器根据上述的基于音频时序信息加权的频域特征表示计算每条音频的异常分数，作为判断异常音频的判断标准。由于使用的是非深度学习方法，与常用的深度学习方法(如自编码器)相比，可以有效降低模型复杂度及减少所用参数。具体模型参数量比较见附图2。其中，TWFR-GMM是上述步骤所涉及的技术方案简写，SMOTE-TWFR-GMM是在TWFR-GMM的基础上对机器音频样本进行数据扩充，对数据量较少的机器类型进行随机增广，从而缓解样本不足、机器类型分布不均的问题。

3.实现用于异常声音检测的更具鲁棒性的音频特征表示

上述步骤1中(2)记录了一种池化向量，计算方式如下：

其中，r是池化参数(0<r<1)，

是进行归一化操作，上标T表示转置操作。

针对不同机器类型，从0到1按0.01的间隔选取池化参数r的数值，并分别在测试数据集进行异常声音检测，根据其最佳检测性能，为不同机器找到最合适的池化参数r，因此基于音频时序信息加权的频域特征表示(Time-Weighted Frequency DomainRepresentation，TWFR)可以适用于不同的机器类型以实现用于异常声音检测的更鲁棒性的音频特征表示。

池化参数r的选取对于异常声音检测性能的表现有着较大影响。平均池化和最大池化是全局加权排序池化(GWRP)的两种特殊情况。r＝0，GWRP退化为最大池化；r＝1，GWRP变成平均池化。该发明中在训练阶段为每种机器类型的最佳检测性能在0到1的范围内选择r。因此，基于音频时序信息加权的频域特征表示(TWFR)可以适应不同的机器类型，生成用于异常声音检测的更鲁棒性的音频特征表示。

本发明涉及的机器类型有Toycar、ToyTrain、Fan、Gearbox、Bearing、Slider和Valve，其各自对应的池化参数r如下所示：

机器类型	池化参数r取值
		Toycar	0.99
ToyTrain	0.81
		Fan	1.00
Gearbox	0.99
		Bearing	1.00
Slider	0.88
		Valve	0.45

上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围之内。