CN116705059B

CN116705059B - 一种音频半监督自动聚类方法、装置、设备及介质

Info

Publication number: CN116705059B
Application number: CN202310987930.XA
Authority: CN
Inventors: 梁磊; 瞿千上; 庄焰; 谭熠
Original assignee: Shuocheng Xiamen Technology Co ltd
Current assignee: Shuocheng Xiamen Technology Co ltd
Priority date: 2023-08-08
Filing date: 2023-08-08
Publication date: 2023-11-10
Anticipated expiration: 2043-08-08
Also published as: CN116705059A

Abstract

本发明提供了一种音频半监督自动聚类方法、装置、设备及介质，包括：逐秒分割工业设备环境音频，并提取出2维梅尔标度的谱图；分别通过在AudioSet预训练的视觉自注意力模型和基于原始波形的1D卷积网络提取两组嵌入特征；将两组嵌入特征通过TSNE分别降维至2维，在2维特征空间，采用谱聚类、K‑means聚类和OPTICS聚类三种方式生成九组候选聚类结果；基于聚类相似度实现九组候选聚类结果的集成。本发明在面对未见的类别场景时，能够通过预训练模型生成具有代表性和区分度的特征，实现未知场景音频的自动聚类，提高聚类效果的鲁棒性。

Description

一种音频半监督自动聚类方法、装置、设备及介质

技术领域

本发明涉及工业设备环境音频处理技术领域，具体涉及一种音频半监督自动聚类方法、装置、设备及介质。

背景技术

当前在工业设备监测领域中，对工业设备环境音频的自动聚类和分类的技术具有重要意义。然而，现有的工业设备环境音频聚类存在一些局限性，例如，对于复杂的环境音频的识别效果不佳，以及在未知场景下的适应性有限，导致对设备环境音频的监测和分析的效率和准确性不高。

有鉴于此，提出本申请。

发明内容

有鉴于此，本发明的目的在于提供一种音频半监督自动聚类方法、装置、设备及介质，能够有效解决现有技术中的工业设备环境音频聚类存在一些局限性，例如，对于复杂的环境音频的识别效果不佳，以及在未知场景下的适应性有限，导致对设备环境音频的监测和分析的效率和准确性不高的问题。

本发明公开了一种音频半监督自动聚类方法, 包括：

获取工业设备的环境音频，并提取所述环境音频的梅尔频谱特征图像；

采用视觉自注意力模型和1D卷积模型，分别对所述梅尔频谱特征图像和所述环境音频的原始波形进行提取处理，生成第一嵌入特征和第二嵌入特征；

采用TSNE算法对所述第一嵌入特征和所述第二嵌入特征进行降维处理，将所述第一嵌入特征的维度和所述第二嵌入特征的维度降至二维，并在二维特征空间，采用谱聚类、K-means聚类和OPTICS聚类三种方式对降维后的所述第一嵌入特征和所述第二嵌入特征进行处理，生成九组候选聚类结果；

计算所述九组候选聚类结果的聚类相似度矩阵，并基于其轮廓系数确定类簇数，生成所述九组候选聚类结果的集成。

优选地，获取工业设备的环境音频，并提取所述环境音频的梅尔频谱特征图像，具体为：

获取工业设备的环境音频，采用预设时间间隔分割所述环境音频，其中，所述预设时间间隔为1秒；

利用梅尔频谱从分割后的一维的所述环境音频中提取二维梅尔标度的谱图，生成所述环境音频的逐秒的梅尔频谱特征图像，其中，提取过程的参数为：傅里叶变化数量为1024，跳跃长度为320，窗口长度为1024，窗口类型为汉宁，梅尔滤波器个数为64。

优选地，采用视觉自注意力模型和1D卷积模型，分别对所述梅尔频谱特征图像和所述环境音频的原始波形进行提取处理，生成第一嵌入特征和第二嵌入特征，具体为：

调用训练好的基于视觉自注意力模块搭建的深度学习模型，对所述梅尔频谱特征图像进行提取，生成768维的第一嵌入特征，其中，在audio-set数据集上对基于视觉自注意力模块搭建的深度学习模型进行预训练；

调用训练好的基于1D卷积的学习模型，对所述环境音频的原始波形进行提取，生成512维的第二嵌入特征，其中，在ESC-50数据集上对基于1D卷积的学习模型进行预训练。

优选地，调用训练好的基于视觉自注意力模块搭建的深度学习模型，对所述梅尔频谱特征图像进行提取，生成768维的第一嵌入特征，具体为：

对所述梅尔频谱特征图像进行划分窗口处理，在其每一个划分后的窗口内以时间帧、频率维度为标准，划分子块，生成子块嵌入；

以基于移动窗口的视觉自注意力模型层级结构为基础架构，叠加四层自注意力模型结构，每一层叠加的自注意力模型结构通过子块合并来压缩序列长度，将所述梅尔频谱特征图像的时间帧和频率维度的长度压缩至原来的1/8；

通过2D CNN将所述梅尔频谱特征图像的深度映射为类别数，生成逐帧的类别概率，并在时间帧和频率维度做平均值池化处理，以实现类别预测；

在Audio-set数据集上使用AdamW 优化器，采用热启动策略对基于视觉自注意力模块搭建的深度学习模型进行预训练，其中，批处理大小为32。

优选地，调用训练好的基于1D卷积的学习模型，对所述环境音频的原始波形进行提取，生成512维的第二嵌入特征，具体为：

通过两个1D的空洞卷积和池化层逐帧提取所述环境音频的底层的工业设备环境音频特征；

将所述底层的工业设备环境音频特征的维度从第一维度转为第二维度，再通过10个二维卷积提取高层的工业设备环境音频特征，并将每两个卷积层后通过一个最大值池化层扩大感受野，其中，所述第一维度包括通道、频率和时间，所述第二维度包括通道、频率和时间；

通过平均值池化层和全连接层将特征映射为类别数。

优选地，采用TSNE算法对所述第一嵌入特征和所述第二嵌入特征进行降维处理，将所述第一嵌入特征的维度和所述第二嵌入特征的维度降至二维，并在二维特征空间，采用谱聚类、K-means聚类和OPTICS聚类三种方式对降维后的所述第一嵌入特征和所述第二嵌入特征进行处理，生成九组候选聚类结果，具体为：

采用TSNE降维算法，基于主成分分析的初始化方法对所述第一嵌入特征、所述第二嵌入特征、以及所述第一嵌入特征和所述第二嵌入特征的结合特征进行处理，生成降维后的三组维度为2的特征；

采用k-means聚类、谱聚类、和OPTICS聚类算法对三组降维后特征进行处理，生成九组候选聚类结果。

优选地，计算所述九组候选聚类结果的聚类相似度矩阵，并基于其轮廓系数确定类簇数，生成所述九组候选聚类结果的集成，具体为：

计算所述九组候选聚类结果中每一组聚类结果的相似度矩阵，且在二维矩阵中，属于同一类簇的矩阵值为1，其他值为0；

将多个聚类结果的相似度矩阵求平均，再通过谱聚类算法拟合该矩阵，生成多组聚类结果的集成；

通过无监督的聚类评价指标轮廓系数，从所述多组聚类结果的集成中选择最优聚类结果和最优的类簇数，以实现未知场景工业设备环境音频的自动聚类。

本发明还公开了一种音频半监督自动聚类装置，包括：

环境音频梅尔频谱特征获取单元，用于获取工业设备的环境音频，并提取所述环境音频的梅尔频谱特征图像；

工业设备环境音频嵌入提取单元，用于采用视觉自注意力模型和1D卷积模型，分别对所述梅尔频谱特征图像和所述环境音频的原始波形进行提取处理，生成第一嵌入特征和第二嵌入特征；

候选聚类簇生成单元，用于采用TSNE算法对所述第一嵌入特征和所述第二嵌入特征进行降维处理，将所述第一嵌入特征的维度和所述第二嵌入特征的维度降至二维，并在二维特征空间，采用谱聚类、K-means聚类和OPTICS聚类三种方式对降维后的所述第一嵌入特征和所述第二嵌入特征进行处理，生成九组候选聚类结果；

集成聚类算法单元，用于计算所述九组候选聚类结果的聚类相似度矩阵，并基于其轮廓系数确定类簇数，生成所述九组候选聚类结果的集成。

本发明还公开了一种音频半监督自动聚类设备，包括处理器、存储器以及存储在所述存储器中且被配置由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上任意一项所述的一种音频半监督自动聚类方法。

本发明还公开了一种可读存储介质，存储有计算机程序，所述计算机程序能够被该存储介质所在设备的处理器执行，以实现如上任意一项所述的一种音频半监督自动聚类方法。

综上所述，本实施例提供的一种音频半监督自动聚类方法、装置、设备及介质，对于未见的类别场景，能够通过mel谱和原始波形两种预训练模型生成具有代表性和区分度的特征，结合集成聚类方法，实现对未知场景音频的自动聚类，具有更高的鲁棒性。从而解决现有技术中的工业设备环境音频聚类存在一些局限性，例如，对于复杂的环境音频的识别效果不佳，以及在未知场景下的适应性有限，导致对设备环境音频的监测和分析的效率和准确性不高的问题。

附图说明

图1是本发明第一方面提供的一种音频半监督自动聚类方法的流程示意图。

图2是本发明第二方面提供的一种音频半监督自动聚类方法的流程示意图。

图3是本发明实施例提供的一种音频半监督自动聚类装置的结构示意图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

以下结合附图对本发明的具体实施例做详细说明。

本发明公开了一种音频半监督自动聚类方法、装置、设备及介质，至少在一定程度上解决了现有技术的不足。

请参阅图1至图2，本发明的第一实施例提供了一种音频半监督自动聚类方法,其可由音频半监督自动聚类设备（以下简称聚类设备）来执行，特别的，由聚类设备内的一个或者多个处理器来执行，以实现如下步骤：

S101，获取工业设备的环境音频，并提取所述环境音频的梅尔频谱特征图像；

具体地，步骤S101包括：获取工业设备的环境音频，采用预设时间间隔分割所述环境音频，其中，所述预设时间间隔为1秒；

利用梅尔频谱梅尔频谱从分割后的一维的所述环境音频中提取二维mel标度的谱图，生成所述环境音频的逐秒的梅尔频谱特征图像，其中，提取过程的参数为：傅里叶变化数量为1024，跳跃长度为320，窗口长度为1024，窗口类型为汉宁，mel滤波器个数为64。

在本实施例中，所述聚类设备可为用户终端设备（如智能手机、智能电脑或者其他智能设备），该用户终端设备可与云端的网关建立通讯连接，以实现数据的交互。

具体地，在本实施例中，对于工业设备环境音频，采用1s间隔分割音频，能够在保留音频特征的同时，细化聚类结果；利用梅尔频谱从1维的音频信号中提取2维mel标度的谱图，从而支持视觉自注意力。即，针对工业设备环境音频数据，采用1秒的时间间隔对音频进行分割，以细化聚类结果。然后从音频的一维信号中提取出2维mel标度的谱图。具体参数如下：傅里叶变化数量为1024，跳跃长度为320，窗口长度为1024，窗口类型为汉宁，梅尔滤波器个数为64。其中，梅尔标度谱图是通过语谱图与若干个梅尔滤波器点乘得到，y轴转换为对数刻度，像素值转换为分贝，能够强化对高频段变化的敏感性。

S102，采用视觉自注意力模型和1D卷积模型，分别对所述梅尔频谱特征图像和所述环境音频的原始波形进行提取处理，生成第一嵌入特征和第二嵌入特征；

具体地，步骤S102包括：调用训练好的基于视觉自注意力模块搭建的深度学习模型，对所述梅尔频谱特征图像进行提取，生成768维的第一嵌入特征，其中，在audio-set数据集上对基于视觉自注意力模块搭建的深度学习模型进行预训练；

通过平均值池化层和全连接层将特征映射为类别数。

具体地，在本实施例中，工业设备环境音频嵌入提取，采用视觉自注意力和1D卷积两种不同的模型，分别基于梅尔频谱图像和原始波形提取两组嵌入特征。

首先，基于视觉自注意力的嵌入特征提取：在audio-set数据集上预训练基于视觉自注意力模块搭建的深度学习模型，在工业设备环境音频数据上提取768维的嵌入特征。在audio-set数据集上预训练基于视觉自注意力模块搭建的深度学习模型，在工业设备环境音频数据上提取768维的嵌入特征；视觉自注意力将二维图片分为多个子块，再将每个子块进行子块嵌入和位置编码，最后通过多头注意力机制学习子块间的特征。

所述的基于视觉自注意力的嵌入特征提取具体为：在梅尔频谱的时间帧维度划分窗口，在每一个窗口内以时间帧、频率维度划分子块，实现子块嵌入，梅尔频谱的维度为（1024，64），子块大小为4*4，子块窗口长度为256。以基于移动窗口的视觉自注意力模型为基础架构，叠加四层自注意力模型结构，每个自注意力模型后通过子块合并来压缩序列长度，将时间帧和频率维度的长度压缩至原来的1/8，自注意力模型中注意力窗口大小为8*8，四层自注意力模型结构中，每层的自注意力模块数量分别为2，4，4，2。通过2D CNN将深度映射为类别数，在时间帧和频率维度做平均值池化，实现类别预测。在Audio-set数据集上使用AdamW 优化器进行训练，批处理大小为32，采用热启动策略进行预训练，热启动学习率为0.05，0.1，0.2。

其次，基于1D卷积的嵌入特征提取：在ESC-50数据集上预训练基于1D卷积的学习模型，在工业设备环境音频数据上提取512维的嵌入特征。在ESC-50数据集上预训练基于1D卷积的学习模型，在工业设备环境音频数据上提取512维的嵌入特征。通过两个1D的空洞卷积和池化层逐帧提取底层的工业设备环境音频特征；其中，池化层的核大小根据输入音频长度，采样率决定，本例中，音频长度为1s，采样率为36000。将特征的维度从（通道，频率，时间）转为（频率，通道，时间）,再通过10个二维卷积提取高层的工业设备环境音频特征，每两个卷积层后通过一个最大值池化层扩大感受野；其中卷积核的大小均为3*3，步长均为1*1。最后通过平均值池化层和全连接层将特征映射为类别数。

S103，采用TSNE算法对所述第一嵌入特征和所述第二嵌入特征进行降维处理，将所述第一嵌入特征的维度和所述第二嵌入特征的维度降至二维，并在二维特征空间，采用谱聚类、K-means聚类和OPTICS聚类三种方式对降维后的所述第一嵌入特征和所述第二嵌入特征进行处理，生成九组候选聚类结果；

具体地，步骤S103包括：采用TSNE降维算法，基于主成分分析的初始化方法对所述第一嵌入特征、所述第二嵌入特征、以及所述第一嵌入特征和所述第二嵌入特征的结合特征进行处理，生成降维后的三组维度为2的特征；

具体地，在本实施例中，候选聚类簇生成，采用TSNE分别将两组嵌入特征降至2维，在二维特征空间，采用谱聚类、K-means聚类和OPTICS聚类三种方式生成九组候选聚类结果。分别基于768维、512维和两组结合的特征，采用TSNE降维算法，基于主成分分析的初始化方法，得到降维后的三组维度为2的特征；基于三组降维后特征，采用k-means聚类、谱聚类、和OPTICS聚类算法生成九组候选聚类结果。进一步的，TSNE算法中初始化方式为主成分分析；进一步的，k-means聚类、谱聚类的类簇数通过从2-6迭代，基于轮廓系数最优判断确定。

S104，计算所述九组候选聚类结果的聚类相似度矩阵，并基于其轮廓系数确定类簇数，生成所述九组候选聚类结果的集成。

具体地，步骤S104包括：计算所述九组候选聚类结果中每一组聚类结果的相似度矩阵，且在二维矩阵中，属于同一类簇的矩阵值为1，其他值为0；

具体地，在本实施例中，成聚类算法，计算聚类相似度矩阵，基于轮廓系数确定类簇数，实现九组候选聚类结果的集成。计算每组聚类结果的相似度矩阵，二维矩阵中，属于同一类簇的矩阵值为1，其他值为0；将多个聚类结果的相似度矩阵求平均，再通过谱聚类算法拟合该矩阵，实现多组聚类结果的集成。通过无监督的聚类评价指标轮廓系数选择最优聚类结果和最优的类簇数，实现未知场景工业设备环境音频的自动聚类。其中，轮廓系数结合了内聚合度和分离度两种因素来评价聚类算法，通过样本到类内其他样本的平均距离与其到类外所有样本的平均距离得到。

综上，所述音频半监督自动聚类方法能够有效地处理工业设备环境音频数据，并实现自动聚类，以提高监测和分析的效率和准确性；其对于未见的类别场景，能够通过梅尔谱和原始波形两种预训练模型生成具有代表性和区分度的特征，结合集成聚类方法，实现对未知场景音频的自动聚类，具有更高的鲁棒性。这种深度集成学习的方法能够提高工业设备环境音频聚类的准确性和效率，为工业监测和分析提供了有力支持，具有广泛的应用前景，并且在工业设备维护、故障检测和工业监测等领域具有重要的实际应用价值。简单来说，所述音频半监督自动聚类方法在面对未见的类别场景时，能够通过预训练模型生成具有代表性和区分度的特征，实现未知场景音频的自动聚类，提高聚类效果的鲁棒性。

请参阅图3，本发明的第二实施例提供了一种音频半监督自动聚类装置，包括：

环境音频梅尔频谱特征获取单元201，用于获取工业设备的环境音频，并提取所述环境音频的梅尔频谱特征图像；

工业设备环境音频嵌入提取单元202，用于采用视觉自注意力模型和1D卷积模型，分别对所述梅尔频谱特征图像和所述环境音频的原始波形进行提取处理，生成第一嵌入特征和第二嵌入特征；

候选聚类簇生成单元203，用于采用TSNE算法对所述第一嵌入特征和所述第二嵌入特征进行降维处理，将所述第一嵌入特征的维度和所述第二嵌入特征的维度降至二维，并在二维特征空间，采用谱聚类、K-means聚类和OPTICS聚类三种方式对降维后的所述第一嵌入特征和所述第二嵌入特征进行处理，生成九组候选聚类结果；

集成聚类算法单元204，用于计算所述九组候选聚类结果的聚类相似度矩阵，并基于其轮廓系数确定类簇数，生成所述九组候选聚类结果的集成。

本发明的第三实施例提供了一种音频半监督自动聚类设备，包括处理器、存储器以及存储在所述存储器中且被配置由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上任意一项所述的一种音频半监督自动聚类方法。

本发明的第四实施例提供了一种可读存储介质，存储有计算机程序，所述计算机程序能够被该存储介质所在设备的处理器执行，以实现如上任意一项所述的一种音频半监督自动聚类方法。

示例性地，本发明第三实施例和第四实施例中所述的计算机程序可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述实现一种音频半监督自动聚类设备中的执行过程。例如，本发明第二实施例中所述的装置。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述一种音频半监督自动聚类方法的控制中心，利用各种接口和线路连接整个所述实现对一种音频半监督自动聚类方法的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现一种音频半监督自动聚类方法的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、文字转换功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、文字消息数据等）等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘、智能存储卡（Smart Media Card, SMC）、安全数字（SecureDigital, SD）卡、闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述实现的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一个计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。

Claims

1.一种音频半监督自动聚类方法,其特征在于，包括：

采用视觉自注意力模型和1D卷积模型，分别对所述梅尔频谱特征图像和所述环境音频的原始波形进行提取处理，生成第一嵌入特征和第二嵌入特征，具体为：

调用训练好的基于1D卷积的学习模型，对所述环境音频的原始波形进行提取，生成512维的第二嵌入特征，其中，在ESC-50数据集上对基于1D卷积的学习模型进行预训练；

2.根据权利要求1所述的一种音频半监督自动聚类方法，其特征在于，获取工业设备的环境音频，并提取所述环境音频的梅尔频谱特征图像，具体为：

利用梅尔频谱梅尔频谱从分割后的一维的所述环境音频中提取二维mel标度的谱图，生成所述环境音频的逐秒的梅尔频谱特征图像，其中，提取过程的参数为：傅里叶变化数量为1024，跳跃长度为320，窗口长度为1024，窗口类型为汉宁窗，梅尔滤波器个数为64。

3.根据权利要求1所述的一种音频半监督自动聚类方法，其特征在于，调用训练好的基于视觉自注意力模块搭建的深度学习模型，对所述梅尔频谱特征图像进行提取，生成768维的第一嵌入特征，具体为：

以基于移动窗口的视觉自注意力模型层级结构为基础架构，叠加四层自注意力结构，每一层叠加的自注意力结构通过子块合并来压缩序列长度，将所述梅尔频谱特征图像的时间帧和频率维度的长度压缩至原来的1/8；

在Audio-set数据集上使用AdamW优化器，采用热启动策略对基于视觉自注意力模块搭建的深度学习模型进行预训练，其中，批处理大小为32。

4.根据权利要求1所述的一种音频半监督自动聚类方法，其特征在于，调用训练好的基于1D卷积的学习模型，对所述环境音频的原始波形进行提取，生成512维的第二嵌入特征，具体为：

通过平均值池化层和全连接层将特征映射为类别数。

5.根据权利要求1所述的一种音频半监督自动聚类方法，其特征在于，采用TSNE算法对所述第一嵌入特征和所述第二嵌入特征进行降维处理，将所述第一嵌入特征的维度和所述第二嵌入特征的维度降至二维，并在二维特征空间，采用谱聚类、K-means聚类和OPTICS聚类三种方式对降维后的所述第一嵌入特征和所述第二嵌入特征进行处理，生成九组候选聚类结果，具体为：

6.根据权利要求1所述的一种音频半监督自动聚类方法，其特征在于，计算所述九组候选聚类结果的聚类相似度矩阵，并基于其轮廓系数确定类簇数，生成所述九组候选聚类结果的集成，具体为：

7.一种音频半监督自动聚类装置，其特征在于，包括：

工业设备环境音频嵌入提取单元，用于采用视觉自注意力模型和1D卷积模型，分别对所述梅尔频谱特征图像和所述环境音频的原始波形进行提取处理，生成第一嵌入特征和第二嵌入特征，具体为：

8.一种音频半监督自动聚类设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至6任意一项所述的一种音频半监督自动聚类方法。

9.一种可读存储介质，其特征在于，存储有计算机程序，所述计算机程序能够被该存储介质所在设备的处理器执行，以实现如权利要求1至6任意一项所述的一种音频半监督自动聚类方法。