CN113327632A

CN113327632A - 一种基于字典学习的无监督异常声检测方法和装置

Info

Publication number: CN113327632A
Application number: CN202110523125.2A
Authority: CN
Inventors: 苏新萍; 王晨; 邵曦; 姚瑶; 邱慧贞
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2021-08-31
Anticipated expiration: 2041-05-13
Also published as: CN113327632B

Abstract

本发明公开了一种基于字典学习的无监督异常声检测方法和装置，包括：生成训练集和测试集，训练集中只有正常运行状态下的机械声音频样本；对训练集中的样本数据进行预处理，分隔得到若干个音频帧；对音频帧进行特征提取，采用K‑SVD算法和OMP算法求解得到音频的本质特征和训练集稀疏系数；将求解得到的音频的本质特征和稀疏系数导入分类模型，对模型进行训练；该分类模型用于对导入的测试集稀疏系数进行处理，输出该测试集稀疏系数对应的音频样本的类别。本发明能够采用传统特征参数进行字典学习和稀疏表示进行样本更加精确的分类从而提高机械检测灵敏度和准确度。

Description

一种基于字典学习的无监督异常声检测方法和装置

技术领域

本发明涉及听觉异常检测技术技术领域，具体而言涉及一种基于字典学习的无监督异常声检测方法和装置。

背景技术

随着工业技术的快速发展，机械化生产已经成为主流，极大地提高了产品生产效率，保障了产品生产质量。机械系统的稳定运行对机械生产的效率、质量，乃至安全都有重要的作用，所以在机械运行过程中做好监测和及时警报具有重大意义。在大部分时间里，机器都处于稳定运行阶段，这段时间机器发生的故障很少，但种类较多，难以收集到机器的所有故障声进行有监督地训练。

除了工业设备之外，由于近年来安全问题频出，视频监控越来越为人们所接受，并且已经成为防范安全的主要方法，但是隐私问题又使人对视频监控望而却步，这一趋势促使异常音频事件检测成为安防领域的一个新的热门话题。它将异常音频事件检测系统与视频监控系统结合，既满足了人们对安全的监控需求，又解决了隐私问题。通过音频信号的无障碍性，可以解决视觉盲区的问题，增强用户隐私性，并且可以节约人力资源，有利于人力资源结构优化。音频异常事件检测系统可以代替或者结合视频监控，双管齐下，解决视觉盲区问题，缓解监控人员压力，起到几全其美的作用。但目前由于异常音频数量少，同样存在前述难以有监督地训练的技术问题。

发明内容

本发明针对现有技术中的不足，提供一种基于字典学习的无监督异常声检测方法和装置，能够采用传统特征参数进行字典学习和稀疏表示进行样本更加精确的分类从而提高机械检测灵敏度和准确度。

为实现上述目的，本发明采用以下技术方案：

第一方面，本发明实施例提出了一种基于字典学习的无监督异常声检测方法，所述检测方法包括：

S1，针对处于运行状态的待检测设备，采集不同频率的机械声音频样本数据，对采集结果进行划分，生成训练集和测试集，其中，训练集中只有正常运行状态下的机械声音频样本，测试集中同时包含正常运行状态和异常运行状态的机械声音频样本；

S2，对训练集中的样本数据进行预处理，分隔得到若干个音频帧；

S3，遍历分隔得到的所有音频帧，对其进行特征提取，将提取的特征进行归一化后导入下述优化关系式，在满足优化关系式的基础上采用K-SVD算法和OMP算法求解得到音频的本质特征D和训练集稀疏系数X：

式中，m为特征维数，N为样本数，K为字典原子数，Y为原始样本Y，D为字典矩阵，F为范数函数运算，i为输入音频样本的下标，ε为收敛到的指定误差；

S4，基于CNN构建3级分类模型，将求解得到的音频的本质特征D和稀疏系数X导入分类模型，对模型进行训练，直至模型收敛；该分类模型用于对导入的测试集稀疏系数X‘进行处理，输出该测试集稀疏系数X‘对应的音频样本的类别，音频样本的类别包括正常音频数据、包含随机噪声的正常音频数据以及其他类型的音频数据三种。

可选的，步骤S3中，提取的特征包括用于反映待检测设备运行状态的时域特征参数，以及用于反映设备发生故障位置和原因的频域特征参数。

可选的，步骤S1中，所述待检测设备包括风扇和水泵。

可选的，步骤S3中，当待检测设备为风扇时，提取的时域特征参数包括峰值指标、波形指标、脉冲指标、峭度、歪度指标和裕度指标，提取的频域特征参数包括均方根频率、均值频率和能量谱特征；当待检测设备为水泵时，提取的时域特征参数包括峰值指标、波形指标、脉冲指标、峭度、歪度指标和裕度指标，提取的频域特征参数包括均方根频率、均值频率、能量谱特征、频率方差、重心频率和频率标准差。

可选的，步骤S2中，所述对训练集中的样本数据进行预处理，分隔得到若干个音频帧的过程包括：

遍历训练集中的每个音频样本数据，根据音频长度在时域上对其进行分帧加窗的预处理，再在频域加窗，分隔得到若干个音频帧。

可选的，所述分类模型用于对以下三种数据进行分类：正常数据、随机噪声的正常数据和其他类型的数据，并且利用分类模型的中层验证异常检测的有效性。

可选的，所述利用分类模型的中层验证异常检测的有效性的过程包括：

将通过字典学习和稀疏表示的训练集样本输入到分类模型中，经过模型检测再输出样本数据标签；

对输出的样本数据标签进行分类，与机器运行状态做对比，得出无监督机械故障的准确度数据。

第二方面，本发明实施例提出了一种基于字典学习的无监督异常声检测装置，所述无监督异常声检测装置包括：

样本数据采集模块，用于针对处于运行状态的待检测设备，采集不同频率的机械声音频样本数据，对采集结果进行划分，生成训练集和测试集，其中，训练集中只有正常运行状态下的机械声音频样本，测试集中同时包含正常运行状态和异常运行状态的机械声音频样本；

样本数据预处理模块，用于对训练集中的样本数据进行预处理，分隔得到若干个音频帧；

特征提取模块，用于遍历分隔得到的所有音频帧，对其进行特征提取；

字典学习和稀疏表示模块，用于将提取的特征进行归一化后导入下述优化关系式，在满足优化关系式的基础上采用K-SVD算法和OMP算法求解得到音频的本质特征D和训练集稀疏系数X：

分类模型构建模块，用于基于CNN构建3级分类模型，将求解得到的音频的本质特征D和稀疏系数X导入分类模型，对模型进行训练，直至模型收敛；

分类模型，用于对导入的测试集稀疏系数X‘进行处理，输出该测试集稀疏系数X‘对应的音频样本的类别，音频样本的类别包括正常音频数据、包含随机噪声的正常音频数据以及其他类型的音频数据三种。

第三方面，本发明实施例提及一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如前所述的基于字典学习的无监督异常声检测方法。

第四方面，本发明实施例提及一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如前所述的基于字典学习的无监督异常声检测方法。

本发明的有益效果是：

本发明提出了一种新的无监督学习的异常机械声检测方法，在异常音频样本数据集很少的情况下可以发挥巨大的作用，通过比对训练集正常样本库里的特征和新出现的异常样本特征，可以检测到异常的音频事件。尤其是，本方法在信号处理领域针对信号特征选取相应特征参数，通过稀疏表示和字典学习加大特征区分度再通过分类器进行有效分类，实验效果显著提高，机器声检测精度和灵敏度提升。对比现有的无监督异常声机械检测中，本声音检测方法在准确率上表现优于其他基线方法的性能，其无监督异常声检测系统能迅速有效地发现机械故障，在保障机械和人身安全上具有重要的现实意义和社会意义。

附图说明

图1是本发明实施例的基于字典学习的无监督异常声检测方法流程图。

图2为本发明实施例的本系统和baseline的风扇(fan)性能对比柱形图。

图3为本发明实施例的风扇(fan)机器性能提升示意图。

图4为本发明实施例的本系统和baseline的水泵(valve)性能对比柱形图。

图5为本发明实施例的水泵(valve)机器性能提升示意图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。

需要注意的是，发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

实施例一

图1是本发明实施例一的基于字典学习的无监督异常声检测方法流程示意图。本实施例可事用于通过服务器等设备检测待检测设备异常声的情况，该方法可以由基于字典学习的无监督异常声检测装置来执行，该装置可以采用软件和/或硬件的方式实现，并可集成在电子设备中，例如集成服务器设备中。

参见图1，该检测方法包括：

S1，针对处于运行状态的待检测设备，采集不同频率的机械声音频样本数据，对采集结果进行划分，生成训练集和测试集，其中，训练集中只有正常运行状态下的机械声音频样本，测试集中同时包含正常运行状态和异常运行状态的机械声音频样本。

S2，对训练集中的样本数据进行预处理，分隔得到若干个音频帧。

在数据预处理阶段选取几段频率适中的机械声音频用于实验，训练集中只有正常样本没有异常样本，接着对训练集原始音频进行预处理，根据音频长度在时域上对它进行分帧加窗的预处理，并且在频域加窗，以此得到更加准确的信息，对分隔下来的每一帧进行特征提取，并进行归一化处理。

例如，假设使用的音频为采样频率一定的单声道机械声，在进行特征提取之前，首先对原始音频信号进行分帧加窗，以得到更多更加准确的信息。根据音频长度，再在时域上将每10秒分为300帧，将窗口的长度设置为1024个点，单跳大小设置为512个点，然后对每一帧进行传统特征计算，并在字典学习之前进行归一化处理。

在特征选择方面，由于本发明面对的是带有故障的机械声，信噪比很低，且具有机械特性，如振动特性，旋转特性，摩擦性等，所以可以选择16个传统信号参数组成的特征集。传统的特征包含故障信息，更有利于学习异常的相关分布，从而提高分类精度。

首先是时域特征，时域特征表征的是信号在时间和空间中的变化规律及其内在特性。通常机械信号的时域统计特征主要分为两大类型：有量纲特征参数与无量纲特征参数。其中，有量纲特征参数表征机器的运行状态，并且会随负荷，转速的变化而产生相应的变化。无量纲特征参数是相同量纲参数的比值，它能够反映机器运行过程中的故障情况。以上特征参数中，峰值指标、脉冲指标和峭度可以用来检测信号有无冲击；歪度指标可以反映数据分布情况；裕度指标，峰值和波形指标等都可以反映设备的磨损情况。我们通常用敏感性和稳定性来衡量这些指标的性能，并且由于稳定性和敏感性往往不会同时处于最优，所以这些参数指标常常会被组合一起运用来兼顾这两方便的性能。机械信号的频域特征参数可以反映出机械信号的能量随频率分布的情况。当机器出现故障时，机械设备的振动幅值会保持一个较高的值，这时时域特征参数仅可以表示机械设备发生了故障，而频域特征参数可以帮助分析设备发生故障的具体位置和原因。这样，就获得了所需要的16维特征，包括了5个有量纲的时域特征，5个无量纲的时域特征和6个频域特征。

实例1

在实际测试中，本发明选取了风扇制造厂中多台风扇(fan)进行了实验，具体选取4-5台正在运行的风扇，仔细收集了下了它们运行的机械运作声音，并且对每台机器的具体运行情况进行了记录以便最后对检测系统性能提升的检测。

首先运用matlab对收集到的fan数据集进行时域的分帧加窗处理并进行了归一化处理。再提取对应的特征参数，例如，针对风扇正常运行时发出的风声和机械声响，在传统特征参数中选取了时域特征参数——峰值指标、脉冲指标、峭度、歪度指标、裕度指标，峰值和波形指标来综合检测风扇性能。峰值指标、脉冲指标和峭度用来检测信号有无冲击，歪度指标反映数据分布情况，裕度指标，峰值和波形指标反映设备的磨损情况。在频域特征参数中选取均方根频率、均值频率、能量谱特征，用来帮助分析设备发生故障的具体位置和原因。

实例2

针对蔬菜种植基地的场地里的水泵(valve)，本发明采集水泵机械运作声音音频，主要实验方法和上述实例1相同，不同的是针对种植园区大而广、水泵相连喷洒的特点，在特征选择中的频域特征参数中除了均方根频率、均值频率、能量谱特征，还增加了频率方差、重心频率、频率标准差用来更加精准地帮助分析设备发生故障的具体位置和原因，以方便整个园区基地水泵系统的维修。

由此可见，时域特征参数和频域特征参数的选择是根据待检测设备的运行特性动态和异常判断需求综合决定的，并非一成不变。

在完成特征提取后，本发明还在信号处理领域针对信号特征选取相应特征参数，通过稀疏表示和字典学习加大特征区分度再通过分类器进行有效分类，实验效果显著提高，机器声检测精度和灵敏度提升。

字典学习模型在过去几十年中备受关注，并已经运用到了包括图像处理，信号还原和模式识别等领域。对于输入的音频特征，当用一组过完备基对它进行表示时，在满足一定稀疏度或者重构误差的条件下，可以得到对原始音频片段的近似表示。字典学习和稀疏表示是两个共同优化、相辅相成的方法。通过OMP算法字典D求解稀疏表示系数X；在已知X的情况下采用K-SVD算法，求解字典D，经过K次迭代或收敛到指定误差内，完成字典D和系数矩阵X的联合优化。

具体的，利用训练字典D和稀疏表示扩大特征区分度，稀疏表示有三个要素，分别是原始样本Y、字典矩阵D和稀疏系数X；三个要素的维度都各有要求，需要满足矩阵相乘的维度法则。其中，m代表特征维数，N代表样本数，K代表字典原子数。

即，目标是满足上述的优化关系式，在满足Y和DX乘积的差距足够小的情况下，尽量减小X的非零原子数，使得X非常稀疏，得到Y的最本质的特征D，并且获得在最本质的基特征D上的简洁表示X，这样可以减小特征的冗余度，减小运算量

对于实例1中的风扇，运用字典学习稀疏表示时，可以将处理过的样本音频带入到整个优化关系式，在满足优化关系式的情况下运用K-SVD算法和OMP算法求解出音频的最本质的特征D和稀疏系数X，样本特征区分度大大提高。正常样本和异常样本在稀疏性上有很明显的区分，正常运作的机械音频可以通过训练过的字典D轻松构建，稀疏度很好，对选取的风扇(fan)原始音频可以完成近似表示，但是收集的异常的机械音频和非fan机械音频和训练后的字典D里的核心基特征很不相似，从而稀疏性就会很差，从而通过字典学习和稀疏表示之后异常的音频样本不能被正常地近似表示出来。实例2或者其他待检测设备同理。

运用卷积神经网络(Convolutional Neural Networks-简称CNN)来进行样本的区分，无监督异常检测有望具有检测未知异常的能力，为了避免没有足够的正常数据时检测精度往往不高这种情况，本发明创建了一个基于CNN的3级分类模型，对3种数据(正常数据、随机噪声的正常数据和不同类型的数据)进行分类，使用了CNN的中间输出的模型,利用CNN分类模型的中层验证异常检测的有效性，具体的，将通过字典学习和稀疏表示的训练集样本输入到CNN模型中，经过模型检测再输出样本数据标签；再对输出的样本数据标签进行分类，与机器运行状态做对比，得出无监督机械故障的准确度数据。

通过使用CNN模型的潜在空间，使用学习时不存在的信息，并且与任何异常无关。由于CNN的特征检测层通过训练数据进行学习，所以在使用CNN时，避免了显示的特征抽取，而隐式地从训练数据中进行学习；再者由于同一特征映射面上的神经元权值相同，所以网络可以并行学习，这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性，其布局更接近于实际的生物神经网络，权值共享降低了网络的复杂性，特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度

针对实例1，选择构建一个CNN模型来将正常样本和异常样本进行区分，创建一个基于CNN的3级分类模型，对3个正常数据(正常数据、随机噪声的正常数据和不同类型的正常数据)进行分类，将经过机器学习的所有fan机械音频片段输入到CNN模型之中，CNN自动给输出数据贴上标签，正常风扇机械音频标签为1，包含有随机噪声的正常fan音频标签为-1，异常数据或其他类型的的音频标签为0。

在后处理阶段，采用异常帧连续积分制。分类器对音频的每一帧进行预测，得到1、-1和0的标签。遍历这些连续0帧的标签来计算得分，运用计分器公式，由此可以得到每一段音频的异常分数，分数越高，这段音频是异常的可能性就越大。参见图2和图3，采用fan机器进行测试，检测性能平均值由65.83％提升到了68.12％。

此种对风扇(fan)机械声音检测的研究可以在将来风扇工厂检测产品质量等级中发挥重大的作用，甚至在其他机械领域也可以有相对的探究和运用，在目前风扇的质量检测过程中，大多还是停留在工人用眼睛看转速和用耳朵听故障的阶段，而此研究可以用于仅通过声音检测工具就可以判断风扇质量甚至可以判断出具体故障问题，给产品质量检测提供了更好的方法。

同样的，针对实例2，参见图4和图5，采用水泵(valve)机器进行测试，检测性能平均值由66.28％提升到了72.33％。此项技术如能继续研究进行并推广，可以帮助园区整体检修，减少大量人力物力。

本发明提供了一种基于传统特征参数的无监督机械故障检测技术。在已有研究的基础进行改进上，选取几段频率适中的机械声音频用于实验，接着对训练集原始音频进行预处理，根据音频长度在时域上对它进行分帧加窗的预处理，并且在频域加窗并进行归一化处理；在特征选择方面，选择了16个传统机械参数作为特征，分别是有量纲的时域特征参数，无量纲时域特征参数和频域特征参数，再通过字典学习和稀疏表示扩大特征区分度，最后通过CNN模型输出标签进行对比分类。本发明的有益效果：提高分类精度，大大提高了无监督机器异常声检测的准确性和灵敏度，为无监督机械工作增加了保障。

实施例二

本发明实施例提出了一种基于字典学习的无监督异常声检测装置，所述无监督异常声检测装置包括样本数据采集模块、样本数据预处理模块、特征提取模块、字典学习和稀疏表示模块、分类模型构建模块和分类模型。

样本数据采集模块，用于针对处于运行状态的待检测设备，采集不同频率的机械声音频样本数据，对采集结果进行划分，生成训练集和测试集，其中，训练集中只有正常运行状态下的机械声音频样本，测试集中同时包含正常运行状态和异常运行状态的机械声音频样本。

样本数据预处理模块，用于对训练集中的样本数据进行预处理，分隔得到若干个音频帧。

特征提取模块，用于遍历分隔得到的所有音频帧，对其进行特征提取。

分类模型构建模块，用于基于CNN构建3级分类模型，将求解得到的音频的本质特征D和稀疏系数X导入分类模型，对模型进行训练，直至模型收敛。

应当理解，测试集稀疏系数X‘的获取过程类似于训练集稀疏系数X，只是将训练集样本数据更换成测试集样本数据。同样的，对于后续实时采集的机械音频数据，也是同样的处理过程。只是彼时分类模型已经构建完成，直接导入实时采集数据对应的稀疏系数即可实现实时检测的技术效果。

实施例三

本申请实施例提供了一种电子设备，包括处理器、存储器、输入装置和输出装置；电子设备中，处理器的数量可以一个或多个；电子设备中的处理器、存储器、输入装置和输出装置可以通过总线或其他方式连接。

存储器作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的检测方法对应的程序指令/模块。处理器通过运行存储在存储器中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现本发明实施例所提供的基于字典学习的无监督异常声检测方法。

存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入，可以包括键盘、鼠标等。输出装置可包括显示屏等显示设备。

实施例四

本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如前所述基于字典学习的无监督异常声检测方法。

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的基于环境上下文一致性的统一处理方法中的相关操作。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于字典学习的无监督异常声检测方法，其特征在于，所述检测方法包括：

2.根据权利要求1所述的基于字典学习的无监督异常声检测方法，其特征在于，步骤S3中，提取的特征包括用于反映待检测设备运行状态的时域特征参数，以及用于反映设备发生故障位置和原因的频域特征参数。

3.根据权利要求2所述的基于字典学习的无监督异常声检测方法，其特征在于，步骤S1中，所述待检测设备包括风扇和水泵。

4.根据权利要求3所述的基于字典学习的无监督异常声检测方法，其特征在于，步骤S3中，当待检测设备为风扇时，提取的时域特征参数包括峰值指标、波形指标、脉冲指标、峭度、歪度指标和裕度指标，提取的频域特征参数包括均方根频率、均值频率和能量谱特征；当待检测设备为水泵时，提取的时域特征参数包括峰值指标、波形指标、脉冲指标、峭度、歪度指标和裕度指标，提取的频域特征参数包括均方根频率、均值频率、能量谱特征、频率方差、重心频率和频率标准差。

5.根据权利要求1所述的基于字典学习的无监督异常声检测方法，其特征在于，步骤S2中，所述对训练集中的样本数据进行预处理，分隔得到若干个音频帧的过程包括：

6.根据权利要求1所述的基于字典学习的无监督异常声检测方法，其特征在于，所述分类模型用于对以下三种数据进行分类：正常数据、随机噪声的正常数据和其他类型的数据，并且利用分类模型的中层验证异常检测的有效性。

7.根据权利要求6所述的基于字典学习的无监督异常声检测方法，其特征在于，所述利用分类模型的中层验证异常检测的有效性的过程包括：

8.一种基于字典学习的无监督异常声检测装置，其特征在于，所述无监督异常声检测装置包括：

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一项所述的基于字典学习的无监督异常声检测方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的基于字典学习的无监督异常声检测方法。