CN115035913A

CN115035913A - 一种声音异常检测方法

Info

Publication number: CN115035913A
Application number: CN202210963446.9A
Authority: CN
Inventors: 赵帆; 刘海峰; 艾坤; 王子磊
Original assignee: Hefei Zhongke Leinao Intelligent Technology Co ltd
Current assignee: Hefei Zhongke Leinao Intelligent Technology Co ltd
Priority date: 2022-08-11
Filing date: 2022-08-11
Publication date: 2022-09-09
Anticipated expiration: 2042-08-11
Also published as: CN115035913B

Abstract

一种声音异常检测方法，包括训练阶段和测试阶段，训练阶段接收正常声音信号，并提取正常声音信号的特征，测试阶段将待检测声音信号的特征与正常的声音样本标准库进行比较，若二者的比对误差大于或等于预设的阈值，则判断待检测声音信号为异常声音，若二者的比对误差小于预设的阈值，则判断待检测声音信号为正常声音。

Description

一种声音异常检测方法

技术领域

本发明涉及声音异常检测，尤其涉及基于多任务损失和自监督技术的设备异常声音检测方法。

背景技术

声音信号具有丰富的信息量，在很多视觉、触觉、嗅觉不合适的场合下，具有独特的优势。声音异常检测在医疗卫生、制造业、交通运输、安防、仓储、农林牧渔业、水利、环境和公共设施管理业、建筑业、采矿业、日常生活、身份识别、军事等数多个领域具有众多应用。目前该领域在国内外已开始起步发展，但在许多研究和应用领域仍接近于空白，具有无限广阔的发展前景。

比如在洗衣机制造领域，洗衣机出厂销售之前，需要对制造的洗衣机运行时的声音进行检测，从而判断出待检测洗衣机是否存在某些故障。传统洗衣机制造领域该中，该检测过程需要专门的工作人员进行操作，但是此方式存在一定的问题。首先，这项工作对工作人员有一定的要求，声音检测员需要通过专门的培训过程才可以分辨正常的声音和异常的声音。而且由于声音检测人员长时间机械工作的原因，可能会产生误判，对洗衣机质量造成影响。其次，在检测过程中长期暴露于工业生产以及洗衣机运行的噪声之中，该工作可能会对声音检测员的身体健康产生危害。此外，由于需要人工的参与，会影响生产线向自动化以及智能化发展，成为限制整条产线产能的瓶颈与短板。空调等家电的声音检测也存在同样的问题。

声音是由物体的振动产生的，并通过传播媒介传播开来，基于这个基础，我们可以通过检测洗衣机运行时振动所发出的声音来判断出它当前所处的运行状态是否正常。但是由于声音信号的多样性、不确定性和模糊性，异常声音检测一直是一个具有挑战性的领域。此外在实际工业生产场景中，相比于正常声音，异常声音的数量是较少的且更无规律性，基于异常样本缺少的前提，本发明提出一种基于多任务损失和自监督技术的洗衣机异常声音检测方法。

现有技术已经有利用声学特征应用于工业检测的方案，比如公开号为CN113213101A的中国专利提供了一种托辊异常检测方法,其特点包括：采集托辊的声音信号并滤波；利用时域特征参数函数处理所述声音信号,输出时域特征参数分析结果,当其中的时域特征参数超过预设阈值时发出初步故障报警。公开号为CN111259921A的中国专利描述了一种基于改进小波包和深度学习的变压器声音异常检测方法,如附图1，其特点包括以下几个步骤：A)采集N个变压器在不同运行状态下的音频信号；B)对步骤A)中采集的每个音频信号进行小波包变换,得到P个分量信号,采用改进样本熵确定样本熵的阈值λ,并重新计算每个分量的小波系数η,重构分量信号,获得重构后的音频信号；C)对每个重构后的音频信号进行短时傅里叶变换,生成特征图像；D)按照变压器运行状态将提取的特征图像分类；E)建立卷积神经网络模型,并使用步骤D)中分类后的特征图像训练,训练后卷积的神经网络模型用于变压器声音异常的检测。以上两种专利都是对工业设备的异常声音检测方法进行改进，提高检测准确率和鲁棒性，但是均需要大量负样本，且特征提取能力还有待改进。

目前异常声音检测的一般做法是对正常声音与异常声音进行建模，然后对检测到的声音提取特征，并对特征进行分类。一方面，如何设计有效的特征具有一定的挑战性，目前常见的声学特征有MFCC、MPEG-7等，这些手工特征缺乏泛化性且不易迭代优化。基于现有技术的缺陷，本发明针对现有技术中的缺陷，提出一种声音异常检测方案，并在以下方面进行了改进提升：（1）改进预处理中声音特征的提取方式；（2）基于自监督的方式解决工业场景下异常声音样本过少的问题；（3）提高自监督的特征提取的有效性和完备性；（4）改进测试算法，以及其他算法效率、性能优化。

发明内容

本发明采用基于深度学习的方法提取特征，可有效提升特征提取的有效性和鲁棒性，且在不断增加训练样本的过程中，特征的表达能力进一步增强。另一方面特征分类会涉及到分类器的设计。目前主流的分类器多基于卷积神经网络，它在训练的时候一般为有监督方式，这种方式在训练时需要样本数基本均衡的正常声音样本和异常声音样本，这在异常声音稀少且难以获取的工业场景下是难以实现的。此外，正常的声音样本通常较为接近，而异常声音样本则个体差异巨大，即使针对大量的异常声音样本进行训练，也会存在无法识别新型的异常声音的情况。本发明采用的自监督技术可以有效避免这些局限性，在仅利用正常声音样本的前提下，实现对异常声音的检测，同时本发明的方案也具有一定的通用性，可以用于任何行业和设备的声音异常检测。

先对于本发明中的专业术语进行说明。MFCC：梅尔倒谱系数（Mel-scaleFrequency Cepstral Coefficients）,是基于Mel标度（梅尔标度）频率域提取出的倒谱参数，Mel标度描述了人耳频率的非线性特性，它是语音特征参数提取方法之一，因其独特的基于梅尔倒谱的提取方式，更加的符合人类的听觉原理，因而也是最为普遍、最有效的语音特征提取算法。GMM算法：多元高斯混合模型，它试图找到多元高斯模型概率分布的混合表示，从而拟合出任意形状的数据分布。EM（Expectation-Maximum）算法也称期望最大化算法，EM算法是最常见的隐变量估计方法，在机器学习中有极为广泛的用途，可用来学习GMM算法的参数。

图2展示了本发明的一种基于多任务损失和自监督技术的异常声音检测方法的算法框架。本发明的算法整体上包括训练阶段和测试阶段，对于已经构建好标准库的情况下，仅需测试阶段的算法。首先是需要对声音样本进行预处理，将声音样本转化为模型能够识别的特征，并构建算法模型，将预处理提取的特征输入该模型进行分析。在训练阶段，声音样本为正常声音，利用正常声音样本预处理提取的特征对该模型进行训练，优化模型内参数。利用训练好的模型，输入一定量的正常声音样本，提取特征并拟合来构建标准库。测试阶段则使用训练好的模型对待检测声音样本进行特征提取，并与标准库对比。训练阶段进一步包括预处理步骤和自监督训练步骤，其中预处理阶段，正常声音样本经过小波变换等算法提取MFCC特征，预处理后的特征输入基于标准resnet50网络(50层残差模型)和自定义的多任务损失函数进行自监督训练，利用训练好的模型构建标准库。测试阶段需基于训练阶段中GMM算法已经构建好的标准库，首先对待测声音样本进行预处理，将预处理后的MFCC特征输入训练好的模型来提取特征，并计算其属于标准库分布的可能性概率，大于等于阈值则为正常声音样本，否则即为异常声音样本。以下对于本发明的算法进行具体阐述。

进行信号预处理，提取信号MFCC特征输入模型。人类听觉系统对声音高低的感知与实际频率是一种非线性映射关系，而与Mel频率成线性关系。根据人的听觉机理，我们提取MFCC特征用于模拟对声音的感知特性。在传统的语音信号频谱中，主要采用的是固定窗的傅里叶变换，在短时平稳的假设基础上得到的MFCC特征参数，但是基于短时平稳假设的固定窗傅里叶变换将会模糊语音的细节特征，从而引起一些非常重要的信息丢失。故本发明基于自适应多分辨率分析的思想，利用小波变换从语音信号中有效地提取信息，小波变换在进行特征提取时，具有时域局部性和频域局部性，其时频窗口可以根据不同频率自适应地调节，从而能够精确的反映非平稳信号的瞬间变化，使得最后获取的频谱分辨率提高了一倍。当然也可以采用小波变换、分层FFT(Fast Fourier Transform, 快速傅里叶变换)和频率合成的其中之一或者组合来代替原来的MFCC中的FFT部分。下文将频谱图简称为图像。

使用自监督技术（如mocov2算法、simsiam算法等）对工业上源源不断的声音数据提取到的MFCC特征进行自监督训练，使得模型能够提取更深层次特征。在模型训练过程中，自监督算法不需要数据的标注标签信息，相对于主流的有监督算法节省了巨大的人工标注成本。同时自监督的特性有助于模型学习到深层不变的语义信息，具有更强的下游任务泛化能力。此外，为了学习得更充分，模型主要采用了多任务损失函数（multi-task loss）来实现自监督训练，具体包括以下几个部分：1）重构损失；2）对比损失；3）方向损失；4）剪切-粘贴损失。在自监督算法中，算法根据这4个损失对特征添加伪标签，然后模型基于伪标签进行自监督训练，这里的伪标签就类似于传统有监督训练中的真实标签。上述损失函数可作为优化目标，优化模型参数。

1）重构损失（Reconsitution loss）

重构损失主要来源于图像空间上的异常检测方法。主要的思想是只采用正常样本训练编解码网络，则重构出来的图像会偏置于正常样本。利用这一个性质，在实际测试阶段，当输入的图像是异常样本时，最终重构出来的图像会趋向正常样本。所以只需比对原图和重构后的图的距离，就可以判断输入的图像是否为异常，进一步地可以实现定位到异常区域。此外，重构损失可以有助于网络学习到细腻度的特征信息，它在训练阶段的损失函数公式如下：

上式中，

是输入图像，

是经过掩膜操作（掩盖了局部区域）后的图像，损失基于L1范数。

2）对比损失（Contrastive loss）

对比损失函数在自监督学习中常用来学习样本的不变特征。它的公式如下所示：

上式中，L是批处理的尺寸，f^q是单个样本，f^pos是该样本经过增广之后的一个副本，fⁱ指代这一批样本中除去样本f^q后剩下的样本。可以发现它类似于Softmax交叉熵的形式，将属于同一个样本的若干个增广后的副本拉近，不同样本之间拉远。

3）方向损失（Rotation loss）

方向损失常用来学习图像的纹理细节信息，训练时将样本随机地按{0, 45, 90,135, 180, 225, 270, 315}中的角度值进行旋转，并通过网络的一个输出头预测图像旋转的角度，损失函数形式如下：

上式中，

是属于

角度的概率。

4)剪切-粘贴(cut-paste)损失

剪切-粘贴是一种图像增广策略，即用原始图像中的一块矩形区域填充这个图像上的其他区域。在这里我们将其视为负样本（原始图像作为正样本），然后进行二分类自监督训练。损失函数如下：

上式中，y为图像的真实标签（0或1），x为图像属于0类（即正类）的概率，整个计算公式呈二分类交叉熵的形式。

最终，总的损失函数为上述四种损失函数之和，形式如下：

利用训练好的模型提取正常声音样本的更深层次特征，进行标准库的构建。将正常声音样本进行预处理后输入模型，模型进行处理后提取特征，利用模型提取特征构建标准库。在对标准库特征进行建模时，主要采用的是多元高斯混合模型（Gaussian mixturemodel，GMM）。一个M阶高斯混合模型的概率密度函数是由M个高斯概率密度函数加权求和得到的，如下面公式所示：

式中，X为一个D维随机矢量（在本文中即提取到的特征矢量），

为子分布，ω_i为混合权重。每个子分布是D维的联合高斯概率分布。在建模过程中，GMM模型基于EM算法拟合所有正常声音所提取出的特征向量，直到模型收敛，最后用训练得到的GMM模型表示标准库的分布，更进一步地，该GMM分布代表了正常声音的分布。

这种做法相当于建模了一个连续分布来拟合正常声音的分布，它相对于常见的用抽样分布来拟合正常声音分布的做法，一方面，由于可以直接从数学上计算采样点和连续分布模型之间的距离从而可以节约代码层面遍历标准库计算相似度带来的耗时，另一方面，由于连续分布比离散点分布更加稠密，可以有效避免采样不完备的弊端。

对测试音频进行预处理后，输入到训练完成的无监督模型中进行特征提取，利用标准库进行比较判别，识别出相应的结果。

具体的测试流程如图3所示。首先利用步骤三中基于EM算法得到的GMM分布模型，它的概率密度公式如下：

其中，k表示该GMM模型由k个高斯模型组成，

和

分别表示第k个高斯模型的均值和协方差矩阵。

对于测试样本，先提取它的特征，然后代入上式GMM分布的概率密度公式，计算其属于该分布的概率，即特征比对阶段，若结果大于等于阈值则为正常声音，否则即为异常声音。

训练阶段，本发明针对标准resnet50网络的损失函数提出了改进。舍弃resnet50最后一层全连接层，使用这一层之前的特征构建三条并行支路输出损失，其中两条分别接全连接层计算剪切-粘贴损失和方向损失，另外一条直接计算对比损失。此外我们提取renset50的中间特征层接转置卷积层计算对比损失。整个网络基于这四个损失之和进行训练。测试阶段，本专利主要设计了一种基于GMM算法的度量学习方法。具体地，基于大量的正常声音样本提取后的特征，使用GMM模型（多元高斯混合模型）去拟合正常声音的连续分布。然后提取待测样本的特征，计算它属于正常声音分布的概率，大于等于阈值即为正常声音，否则即为异常声音。

本发明通过上述方案，通过小波变换提取MFCC特征的预处理方式能够根据不同频率自适应地调节，从而能够精确的反映非平稳信号的瞬间变化；使用基于多任务损失函数的自监督网络提取特征，相对于手工设计特征（MFCC特征等）可以提取更加深层次且更具有区分度、泛化性的特征；使用多元高斯混合模型对标准库进行建模有利于提高测试效率，并避免标准库表征不完备的缺点。

附图说明

图1是现有技术中描述的一种基于深度学习的变压器异常声音检测方法。

图2是本发明的声音异常检测方法的算法框架。

图3是本发明的算法测试流程。

具体实施方式

下面结合附图详细说明本发明的具体实施例。然而，应当将本发明理解成并不局限于以下描述的这种实施方式，并且本发明的技术理念可以与其他公知技术或功能与那些公知技术相同的其他技术组合实施。

在以下具体实施例的说明中，为了清楚展示本发明的结构及工作方式，将借助诸多方向性词语进行描述，但是应当将“前”、“后”、“左”、“右”、“外”、“内”、“向外”、“向内”、“轴向”、“径向”等词语理解为方便用语，而不应当理解为限定性词语。

实施例一

如图3所示，本实施例提供一种技术方案：一种基于多任务损失和自监督技术的声音异常检测方法，包括以下步骤：

第一步：首先基于自监督算法和多任务损失训练特征提取网络，训练过程参见图2中的“训练阶段”部分；

第二步：对正常声音的音频信号进行预处理，主要采用小波变换、分层FFT(FastFourier Transform, 快速傅里叶变换)和频率合成代替原来的MFCC中的FFT部分，从而获得分辨率更高的声音特征；

第三步：基于第一步中训练好的特征提取网络对第二步中的正常声音预处理后的特征进行进一步特征提取；

第四步：基于GMM模型对经过网络提取获得特征的分布进行建模，构建一个标准库，该库的本质是一个数学形式的GMM分布模型；

第五步：传入测试声音音频信号，并按第二、三步中相同的操作提取特征；

第六步：将测试声音对应的特征和标准库进行比对，具体地，即计算该特征属于标准库中的分布的概率，若大于或等于阈值则为正常声音，否则即判断为异常声音。

实施例二

以下就本发明的声音异常检测方法在洗衣机检测领域的应用进行举例说明，本发明的算法也可以应用于空调等一切可以用声音判断故障的家电或者设备。

第一步：探测到洗衣机，通过麦克风采集洗衣机声音；

第二步：对音频进行预处理，提取音频的MFCC特征；

第三步：对MFCC特征利用本发明的算法模型进行特征提取；

第四步：对于提取到的特征，放入标准库中进行高斯模型比较，计算其属于标准库的概率；

第五步：如果计算的概率大于等于阈值则判定为正常声音样本，否则即判定为异常声音，对于判定为异常声音的洗衣机，进行故障上报。

提取特征的算法模型、标准库可以在检测之前的训练阶段构建。模型训练的具体步骤为：

第一步：通过麦克风采集正常洗衣机的声音，或输入已有的正常声音数据；

第二步：对音频进行预处理，提取MFCC特征；

第三步：基于提取出的MFCC特征，使用自监督算法优化模型参数，形成训练好的模型；

第四步：将正常声音样本进行预处理后输入所述训练好的模型，提取特征并建立标准库。

本说明书中所述的只是本发明的较佳具体实施例，以上实施例仅用以说明本发明的技术方案而非对本发明的限制。凡本领域技术人员依本发明的构思通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在本发明的范围之内。

Claims

1.一种声音异常检测方法，其特征在于，包括训练阶段和测试阶段，所述训练阶段提取正常声音信号的特征以训练模型，所述测试阶段使用训练后的模型提取待检测声音信号的特征作为模型提取特征，并将所述模型提取特征与标准库进行比较以识别所述待检测声音信号是否属于异常声音，其中，

所述训练模型的步骤为自监督训练步骤，包括在卷积神经网络的基础上采用多任务损失函数优化模型，所述多任务损失函数包括以下至少一种损失函数：（1）重构损失；（2）对比损失；（3）方向损失；（4）剪切粘贴损失；

所述标准库构建步骤包括：对正常声音样本进行预处理后，利用训练好的模型提取出模型提取特征，采用多元高斯混合模型对标准库特征进行建模，基于EM算法拟合所有所述模型提取特征，直到模型收敛。

2.如权利要求1所述的声音异常检测方法，其特征在于，所述训练阶段或测试阶段提取声音信号的特征的步骤之前还包括预处理步骤：

第一步：输入声音信号；

第二步：提取声音信号的MFCC特征；

第三步：将提取的MFCC特征输入模型。

3.如权利要求2所述的声音异常检测方法，其特征在于，所述提取声音信号的MFCC特征步骤又进一步包括，采用小波变换或分层FFT或频率合成，或是小波变换、分层FFT和频率合成的组合方法进行提取。

4.如权利要求1所述的声音异常检测方法，其特征在于，所述重构损失函数为：

其中，

是输入图像，

是经过掩膜操作后的图像，所述重构损失基于L1范数。

5.如权利要求1所述的声音异常检测方法，其特征在于，所述对比损失函数为：

其中，L是批处理的尺寸，f^q是单个样本，f^pos是该样本经过增广之后的一个副本，fⁱ指代这一批样本中除去样本f^q后剩下的样本。

6.如权利要求1所述的声音异常检测方法，其特征在于，所述方向损失函数为：

其中，

是属于

角度的概率。

7.如权利要求1所述的声音异常检测方法，其特征在于，所述剪切粘贴损失函数为：

其中，y为图像的真实标签，x为图像属于正类的概率。

8.如权利要求1所述的声音异常检测方法，其特征在于，识别所述待检测声音信号是否属于异常声音的具体方法为：将模型提取特征代入多元高斯混合模型的概率密度公式，计算所述模型提取特征属于标准库的概率，如果概率结果大于等于阈值即为正常声音，否则即为异常声音，其中，所述概率密度公式为：

其中，k表示该多元高斯混合模型模型由k个高斯模型组成，

和

分别表示第k个高斯模型的均值和协方差矩阵。

9.一种声音异常检测方法，其特征在于，包括以下步骤：

第一步：输入待检测声音信号；

第二步：对待检测声音信号进行预处理，提取待检测声音信号的MFCC特征并输入模型；

第三步：使用模型提取待检测声音信号的模型提取特征；

第四步：将模型提取特征代入多元高斯混合模型的概率密度公式，计算所述模型提取特征属于标准库的概率，计算所述模型提取特征属于标准库的概率；

第五步：若二者的比对误差大于或等于预设的阈值，则判断所述待检测声音信号为异常声音，若二者的比对误差小于预设的阈值，则判断所述待检测声音信号为正常声音。

10.如权利要求9所述的声音异常检测方法，其特征在于，第二步的提取待检测声音信号的MFCC特征的方法进一步包括，采用小波变换或分层FFT或频率合成，或是小波变换、分层FFT和频率合成的组合方法进行提取。

11.如权利要求9所述的声音异常检测方法，其特征在于，所述标准库通过以下方法构建：

第一步：接收正常声音信号，并提取所述正常声音信号的MFCC特征；

第二步：接收所述正常声音信号的MFCC特征进行自监督训练步骤，使用训练后的模型提取正常声音信号的模型提取特征；

第三步：采用多元高斯混合模型对标准库特征进行建模，基于EM算法拟合所有正常声音信号的模型提取特征，直到模型收敛。

12.如权利要求11所述的声音异常检测方法，其特征在于，所述自监督训练步骤包括，在卷积神经网络的基础上采用多任务损失函数优化模型，所述多任务损失函数包括以下至少一种损失函数：（1）重构损失；（2）对比损失；（3）方向损失；（4）剪切粘贴损失。

13.一种应用权利要求1或9的声音异常检测方法的产品检测方法，其特征在于，包括以下步骤：

第一步：探测到产品，通过麦克风采集产品声音；

第二步：对产品声音利用所述声音异常检测方法进行特征提取并判定是否属于异常声音；

第三步：如果判断为异常声音，进行故障上报。

14.如权利要求13所述的产品检测方法，其特征在于，在检测产品之前先训练算法模型并构建标准库，具体步骤为：

第一步：通过麦克风采集正常产品的声音，或输入已有的正常声音数据；

第二步：对声音或声音数据进行预处理，提取MFCC特征；