CN113470695B

CN113470695B - 声音异常检测方法、装置、计算机设备及存储介质

Info

Publication number: CN113470695B
Application number: CN202110745065.9A
Authority: CN
Inventors: 司世景; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2024-02-09
Anticipated expiration: 2041-06-30
Also published as: CN113470695A

Abstract

本申请涉及智能决策技术，尤其涉及分类模型，提供了一种声音异常检测方法、装置、计算机设备及存储介质，所述方法包括：获取待检测的音频数据；对所述待检测的音频数据进行分段处理，得到多个音频序列；对多个所述音频序列进行特征提取处理，得到多个音频特征数据；对多个所述音频特征数据进行归类，确定多个所述音频特征数据各自对应的类别标识；根据所述多个所述音频特征数据各自对应的类别标识，确定多个所述音频特征数据中的目标音频特征数据；根据所述目标音频特征数据，输出异常告警信息。本申请还涉及区块链技术，得到的异常告警信息可以存储于区块链中。

Description

声音异常检测方法、装置、计算机设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种声音异常检测方法、装置、计算机设备及存储介质。

背景技术

目前监控系统主要基于视频实现，实际应用存在局限性，例如，视线被遮挡时存在盲区，而且容易受到光线、恶劣天气等因素的影响。异常事件通常会伴随异常声音的发生，异常声音能有效地反应重大事故和危急情况的发生，且具有复杂度低、易获取、不受空间限制等优点。声音信号承载着丰富的信息量，基于声音信号实现异常检测，在很多视觉、嗅觉、触觉不适合的场合下具有独到的优势。

发明内容

本申请提供了一种声音异常检测方法、装置、计算机设备及存储介质，能够基于提取的音频特征进行归类，以根据类别标识确定异常的数据，从而根据异常的数据发布异常告警信息，以使相关人员得知异常情况。

第一方面，本申请提供了一种声音异常检测方法，其特征在于，所述方法包括：

获取待检测的音频数据；

对所述待检测的音频数据进行分段处理，得到多个音频序列；

对多个所述音频序列进行特征提取处理，得到多个音频特征数据；

对多个所述音频特征数据进行归类，确定多个所述音频特征数据各自对应的类别标识；

根据所述多个所述音频特征数据各自对应的类别标识，确定多个所述音频特征数据中的目标音频特征数据；

根据所述目标音频特征数据，输出异常告警信息。

第二方面，本申请提供了一种声音异常检测装置，其特征在于，包括：

数据获取模块，用于获取待检测的音频数据；

分段处理模块，用于对所述待检测的音频数据进行分段处理，得到多个音频序列；

特征提取模块，用于对多个所述音频序列进行特征提取处理，得到多个音频特征数据；

数据归类模块，用于对多个所述音频特征数据进行归类，确定多个所述音频特征数据各自对应的类别标识；

目标确定模块，用于根据所述多个所述音频特征数据各自对应的类别标识，确定多个所述音频特征数据中的目标音频特征数据；

告警发布模块，用于根据所述目标音频特征数据，输出异常告警信息。

第三方面，本申请提供了一种计算机设备，所述计算机设备包括存储器和处理器；所述存储器用于存储计算机程序；所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现上述的声音异常检测方法。

第四方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，若所述计算机程序被处理器执行，实现上述的声音异常检测方法。

本申请公开了一种声音异常检测方法、装置、计算机设备及存储介质，通过获取待检测的音频数据；对所述待检测的音频数据进行分段处理，得到多个音频序列；对多个所述音频序列进行特征提取处理，得到多个音频特征数据；对多个所述音频特征数据进行归类，确定多个所述音频特征数据各自对应的类别标识；根据所述多个所述音频特征数据各自对应的类别标识，确定多个所述音频特征数据中的目标音频特征数据；根据所述目标音频特征数据，输出异常告警信息。实现基于提取的音频特征进行归类，从而根据类别标识确定异常的数据，提升声音异常检测的准确度。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的一种声音异常检测方法的流程示意图；

图2是本申请一实施例提供的一种孪生网络的结构示意图；

图3是本申请一实施例提供的一种声音检测装置的结构示意框图；

图4是本申请一实施例提供的一种计算机设备的结构示意框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。另外，虽然在装置示意图中进行了功能模块的划分，但是在某些情况下，可以以不同于装置示意图中的模块划分。

本申请的实施例提供了一种声音异常检测方法、装置、计算机设备及计算机可读存储介质。用于基于对比学习模型提高声音异常检测的准确性。示例性的，目前监控系统主要基于视频实现，监控范围具有局限性，例如摄像头视线被遮挡时存在盲区，可以根据本申请实施例的声音异常检测方法，基于从音频序列中提取的音频特征进行归类，以根据类别标识确定异常的数据，从而根据异常的数据发布异常告警信息，以使相关人员得知异常情况，弥补视频监控的局限性，提高声音异常检测的准确性。

其中，该声音异常检测方法可以用于服务器，当然也可以用于终端，其中，终端可以是手机、平板电脑、笔记本电脑、台式电脑等电子设备；服务器例如可以为单独的服务器或服务器集群。但为了便于理解，以下实施例将以应用于服务器的声音异常检测方法进行详细介绍。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参阅图1，图1是本申请实施例提供的一种声音异常检测方法的示意流程图。

如图1所示，该声音异常检测方法可以包括以下步骤S110-步骤S160。

步骤S110、获取待检测的音频数据。

示例性的，所述音频数据可以是实时获取的声音信号，也可以是获取后存放在存储空间中的声音信号。

示例性的，所述音频数据可以直接获取，例如从录音设备直接获取音频信号，也可以从视音频信号等其他含音频的混合信号中分离出音频数据。

具体的，本实施例中，所述音频数据为时域音频信号；具体实施时，所述音频数据也可以是频域音频信号。

步骤S120、对所述待检测的音频数据进行分段处理，得到多个音频序列。

示例性的，根据预设的帧长对所述待检测的音频数据进行分帧处理，所有所述音频序列的帧长相同。通过统一所述音频序列的帧长，方便后续的数据处理。

示例性的，在所述音频数据的位置相邻的两个音频序列之间偏移的帧数不超过所述预设的帧长，以确保所述音频数据中的每一帧数据都在所述音频序列中有对应的数据。

步骤S130、对多个所述音频序列进行特征提取处理，得到多个音频特征数据。

示例性的，步骤S130具体包括步骤S131-S132。

S131、对所述音频序列进行声学特征提取，以获得所述音频序列的声学特征；

通过声学特征提取，可以大幅压缩所述音频序列中与声学特征无关的信号，提高后续检测的准确度。

示例性的，本实施例中，步骤S131具体包括步骤S131a-S131c。

S131a、对所述音频序列进行傅里叶变换，以获得所述音频序列的傅里叶频谱；

通过傅里叶变换，将时域的所述音频序列转换成频域的所述傅里叶频谱。

S131b、通过梅尔滤波器对所述音频序列的傅里叶频谱进行滤波处理，以获得所述音频序列的梅尔频谱；

梅尔滤波器是根据人耳滤波器组的中心频率和带宽设计的一组滤波器，通过梅尔滤波器，可以提取人耳听觉相关的声学特征。

S131c、对所述音频序列的梅尔频谱进行倒谱分析，以获得所述音频序列的声学特征。

示例性的，对所述梅尔频谱求对数，然后对求对数的结果进行傅里叶逆变换，得到所述声学特征。

其他实施例中，也可以根据实际检测需要，采用提取基频特征、提取共振峰特征或根据深度学习模型提取声学特征等声学特征提取方法。

S132、将所述音频序列的声学特征输入所述对比学习模型，以获取所述音频序列的所述音频特征数据，所述对比学习模型用于通过对比学习(contrastive learning)对所述声学特征进行特征分析。

示例性的，在对比学习中，通过在输入样本之间进行比较来学习表示，例如正样本之间进行正对比较，正样本和负样本之间进行负对比较，即最大化正样本之间的相似性，最小化正样本与负样本之间的相似性。通过对比学习，所述对比学习模型能够获取更高层次的隐藏特征。

示例性的，本申请提供的声音异常检测方法中，还包括通过步骤S100-S108获取所述训练过的对比学习模型。

S100、获取训练数据，所述训练数据包括正常状态下的若干音频序列；

示例性的，在所述检测数据相同或相似的场景中，获取所述训练数据。

S101、对所述音频序列进行随机增强，得到所述音频序列对应的多个增强数据。

示例性的，步骤S102具体包括步骤S101a-步骤S101b。

S101a、对所述音频序列进行声学特征提取，以获得所述音频序列的声学特征；

示例性的，可以参考步骤S131a-S131c中的声学特征提取方法，实现步骤S103a。

S101b、通过在所述声学特征中添加随机的噪声和/或随机改变所述声学特征的部分数据的值，获取每个所述音频序列的多个增强数据。

由于增强是随机的，对应同一个所述音频序列的若干增强数据之间一般都是不同的。

S102、获取训练模型，所述训练模型包括孪生网络，所述孪生网络包括第一编码器、第二编码器及预测头，所述第一编码器与所述第二编码器共享相同的编码器网络参数，所述预测头包括多层感知器网络；

孪生网络结构的模型作为对学习的训练模型，具有结构简单，不需要引入负样本，训练样本不需要有很大的批大小(batch size)的优点。当然，具体实施时，训练模型也可以采用BYOL、Simclr等其他用于对比学习的模型。

示例性的，所述编码器包括用于特征嵌入的骨干网络及用于对所述骨干网络的输出向量进行数据转换的投影头，所述投影头为多层感知器网络(mlp)。

S103、将所述多个增强数据中的一个增强数据输入所述第一编码器以获取所述第一编码器的输出向量，另一个增强数据输入所述第二编码器以获取所述第二编码器的输出向量。

例如，将增强数据X1输入所述编码器，得到所述第一编码器的输出向量Z1；将增强数据X2输入第二编码器，得到所述第二编码器的输出向量Z2。

S104、将所述第一编码器的输出向量输入所述预测头，以获取第一预测数据。

例如，将Z1输入所述预测头，以获取第一预测数据P1。

S105、将所述第二编码器的输出向量输入所述预测头，以获取第二预测数据。

例如，将Z2输入所述预测头，以获取第二预测数据P2。

S106、根据所述第一预测数据与所述第二编码器的输出向量的相似度、所述第二预测数据与所述第一编码器的输出向量的相似度，确定对称损失。

示例性的，对称损失的计算公式为:

其中，D(P1,Z2)为所述第一预测数据P1与所述第二编码器的输出向量Z2的负余弦相似度，D(P2,Z1)为所述第二预测数据P2与所述第一编码器的输出向量Z1的负余弦相似度。

S107、根据所述对称损失，通过梯度反向传播调整所述孪生网络的网络参数。

示例性的，求一批(batch)所述音频序列对应的所述对称损失之和，得到总对称损失；

示例性的，对于由所述第一预测数据与所述第二编码器的输出向量的负余弦相似度得到的损失，在所述第一编码器及所述预测头中进行梯度反向传播，在所述第二编码器中停止梯度反向传播；对于由所述第二预测数据P2与所述第一编码器的输出向量Z1的负余弦相似度得到的损失，在所述第二编码器及所述预测头中进行梯度反向传播，在所述第一编码器中停止梯度反向传播。

S108、若所述训练模型收敛，根据所述第一编码器和/或所述第二编码器，确定所述对比学习模型。

示例性的，迭代执行步骤S103-步骤S107，若出现所述总对称损失小于预设的阈值、两次迭代之间的网络参数变化小于预设的阈值或迭代的次数超过预设的最大迭代次数，则所述训练模型收敛。

示例性的，若所述训练模型收敛，将所述第一编码器或所述第二编码器中的所述骨干网络确定为所述对比学习模型。

通过训练，使得所述对比学习模型能够学习到正常状态下的音频序列之间的相似性，获得的所述音频特征数据中，对正常状态下的音频序列的声学特征进行了相似化编码，缩小了正常状态下的所述音频序列之间的差异，使得异常状态下的所述音频序列与正常状态下的所述音频序列之间的差异更加明显，从而提高声音异常检测的准确度。

步骤S140、对多个所述音频特征数据进行归类，确定多个所述音频特征数据各自对应的类别标识。

一实施例中，通过聚类类别数自适应的聚类算法实现步骤S140,具体包括步骤S140a-S140c。

S140a、获取多个对应正常状态的所述音频特征数据，作为正常特征样本集。

示例性的，可以在状态一直正常的情况下获取连续的多个音频序列，参考步骤S130,对每个所述音频序列进行特征提取处理，以获得所述正常特征样本集的样本。

S140b调整聚类类别数自适应的聚类算法的参数，直至所述聚类算法对所述特征样本集进行聚类后所述正常特征样本集的所有样本聚为一类。

聚类是一种无监督的归类方法，即所述聚类算法不需要先验的归类知识来确定聚类方案，而是通过分析将相似对象归为一类。

聚类类别数自适应，即所述聚类算法通过在聚类过程中自适应得到聚类结果中的类别数，所述类别数不是直接通过预设得到的。

示例性的，所述聚类类别数自适应的聚类算法可以采用迭代自组织数据分析算法(ISODATA)。迭代自组织数据分析算法具有归并与分裂的机制，例如，当两个类别的聚类中心距离小于预设的距离阈值时，归并机制将它们合并为一类，当某个类别的标准差大于预设的标准差阈值时，分裂机制将其分为两类，如此，通过迭代，自动调节优化所述类别数，最终得到一个比较理想的分类结果。

示例性的，通过所述迭代自组织数据分析算法对所述正常特征样本集进行聚类，若没有将所述正常特征样本集的所有样本聚为一类，则不断调整所述迭代自组织数据分析算法的控制参数，例如调整所述距离阈值和/或所述标准差阈值，直到所述正常特征样本集的所有样本聚为一类。

S140c、确定待聚类的音频特征子集，所述音频特征子集包括所述正常特征样本集的所有样本及待检特征样本集的至少部分样本，所述待检特征样本集包括所述待检测的音频数据的多个所述音频特征数据，在所述音频特征子集的所述音频特征数据的总数中，所述正常特征样本集的样本数量占比超过一半。

例如，所述音频特征子集中，有正常特征样本集的50个样本，则所述音频特征子集中所述待检特征样本集的样本个数不允许超过50个；实际应用时，还可以设定各种样本的比例，例如所述音频特征子集中所述待检特征样本集的样本个数不允许超过所述正常特征样本集的样本个数的百分之十，则所述待检测特征样本集的样本个数不允许超过5个。

S140d、通过所述聚类算法，对所述音频特征子集进行聚类；

由于所述对比学习模型学习了正常状态下声音信号的相似性，得到的所述音频特征数据能对正常状态下的声音信号进行相似化处理而突出异常状态的下的声音信号，因此,理想情况下，对应正常状态的所述待检特征样本集的样本将与所述正常特征样本集的所有样本聚为一类，对应异常状态的所述待检特征样本集的样本聚为其他类。

S140e、根据聚类结果中各聚类类别对应的音频特征数据的数量，确定数量满足预设条件的聚类类别，所述数量满足预设条件的聚类类别包括以下任一种：所有多个聚类类别中对应的音频特征数据的数量最少的聚类类别、所有聚类类别中对应的音频特征数据的数量低于预设阈值的聚类类别。

例如，所述音频特征子集中，有正常特征样本集的50个样本，有待检特征样本集的5个样本，得到的聚类类别有3个，第一个聚类类别有50个音频特征数据，第二个聚类类别有3个音频特征数据，第三个聚类类别有2个音频特征数据；第三个聚类类别的音频特征数据数量最少，据此，可以确定第三个聚类类别为数量满足预设条件的聚类类别；所述阈值为5，第二个聚类类别的音频特征数量少于5，据此，可以确定第二个聚类类别为数量满足预设条件的聚类类别。

S140f、在数量满足预设条件的聚类类别中，确定对应的所述待检特征样本集的样本的类别标识为异常的类别标识。

示例性的，多次执行步骤S140c-s140f,直至所述待检特征样本集的所有样本都参与了所述聚类。

另一实施例中，直接通过分类算法，对所述音频序列的音频特征数据进行归类。

分类是一种监督的归类方法，即所述分类方法需要根据先验的归类知识才能确定分类方案，例如，根据带标签的数据学习先验的归类知识，从而预测未知数据的标签，以根据标签进行归类。

示例性的，可以通过K近邻(KNN)分类算法，对所述音频序列的音频特征数据进行归类。

K近邻法依据最邻近的若干个先验样本的类别来决定待分类样本所属的类别。首先，获取先验样本，例如，一组正常状态下的所述音频特征数据构成正常类别的先验样本集，若干组异常状态下的所述音频特征数据对应构成若干异常类别的先验样本集；然后计算待检测的音频数据的音频特征数据到每个所述先验样本的距离；确定距离最小的K个所述先验样本；对距离最小的K个所述先验样本的类别进行比较，根据少数服从多数的原则，将待检测的音频数据的音频特征数据归入占比最高的那一类，根据占比最高的那一类对应的所述先验样本，确定所述待检测的音频数据的音频特征数据的类别标识。

S150、根据所述多个所述音频特征数据各自对应的类别标识，确定多个所述音频特征数据中的目标音频特征数据。

示例性的，步骤S140基于聚类类别数自适应的聚类算法实现的实施例中，将所述异常的类别标识对应的所述待检特征样本集的样本确定为所述目标音频特征数据。

示例性的，直接通过分类算法实现步骤S140的另一实施例中，确定与异常状态对应的若干分类标识为目标分类标识，将所述目标分类标识对应的待检测的音频数据的音频特征数据确定为所述目标音频特征数据。

S160、根据所述目标音频特征数据，输出异常告警信息。

示例性的，步骤S140基于聚类类别数自适应的聚类算法实现的实施例中，实时获取所述待检测的音频数据，一旦出现所述目标音频特征数据，说明出现了异常状态下的声音信号，发布所述异常告警信息，以提醒相关人员及时发现异常。

示例性的，直接通过分类算法实现步骤S140的另一实施例中，根据所述目标特征数据对应的类别标识，发布所述异常告警信息中异常的种类信息，以使相关人员了解发生了何种异常。

示例性的，根据所述目标音频特征数据对应的所述音频序列，发布所述检测数据的异常告警信息。例如，根据所述音频序列对应的时间信息，发布所述异常告警信息中异常发生的时间信息，根据所述音频序列对应的设备信息，发布所述异常告警信息中异常发生于何处的信息。

在一些实施方式中，异常告警信息可以储存在区块链节点中。其中，区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

请参阅图3，图3是本申请一实施例提供的一种声音异常检测装置的示意图，该声音异常检测装置可以配置于服务器或终端中，用于执行前述的声音异常检测方法。

如图3所示，该声音异常检测装置，包括：数据获取模块110、分段处理模块120、特征提取模块130、数据归类模块140、目标确定模块150及告警发布模块160。

数据获取模块110，用于获取待检测的音频数据；

分段处理模块120，用于对所述待检测的音频数据进行分段处理，得到多个音频序列；

特征提取模块130，用于对多个所述音频序列进行特征提取处理，得到多个音频特征数据；

数据归类模块140，用于对多个所述音频特征数据进行归类，确定多个所述音频特征数据各自对应的类别标识；

目标确定模块150，用于根据所述多个所述音频特征数据各自对应的类别标识，确定多个所述音频特征数据中的目标音频特征数据；

告警发布模块160，用于根据所述目标音频特征数据，输出异常告警信息。

示例性的，特征提取模块130包括声学特征提取子模块及对比学习子模块。

声学特征提取子模块，用于对所述音频序列进行声学特征提取，以获得所述音频序列的声学特征；

对比学习子模块，用于将所述音频序列的声学特征输入对比学习模型，以获取所述音频序列的音频特征数据，所述对比学习模型用于通过对比学习对所述声学特征进行特征分析。

示例性的，声学特征提取子模块包括傅里叶变换单元、梅尔滤波单元及倒谱单元。

傅里叶变换单元，用于对所述音频序列进行傅里叶变换，以获得所述音频序列的傅里叶频谱。

梅尔滤波单元，用于通过梅尔滤波器对所述音频序列的傅里叶频谱进行滤波处理，以获得所述音频序列的梅尔频谱。

倒谱单元，用于对所述音频序列的梅尔频谱进行倒谱分析，以获得所述音频序列的声学特征。

示例性的，所述声音异常检测装置还包括模型训练装置。

模型训练装置包括训练数据获取单元、增强单元、训练模型获取单元、编码单元、第一预测单元、第二预测单元、损失确定单元、模型参数调整单元及模型确定单元。

数据获取单元，用于获取训练数据，所述训练数据包括正常状态下的若干音频序列；

增强单元，用于对所述音频序列进行随机增强，得到所述音频序列对应的多个增强数据；

示例性的，所述增强单元包括声学特征提取增强子模块及增强处理子模块。

声学特征提取增强子模块，用于对所述音频序列进行声学特征提取，以获得所述音频序列的声学特征；

增强处理子模块，用于通过在所述声学特征中添加随机的噪声和/或随机改变所述声学特征的部分数据的值，获取每个所述音频序列的多个增强数据。

训练模型获取单元，用于获取训练模型，所述训练模型包括孪生网络，所述孪生网络包括第一编码器、第二编码器及预测头，所述第一编码器与所述第二编码器共享相同的编码器网络参数，所述预测头包括多层感知器网络；

编码单元，用于将所述多个增强数据中的一个增强数据输入所述第一编码器以获取所述第一编码器的输出向量，另一个增强数据输入所述第二编码器以获取所述第二编码器的输出向量；

第一预测单元，用于将所述第一编码器的输出向量输入所述预测头，以获取第一预测数据；

第二预测单元，用于将所述第二编码器的输出向量输入所述预测头，以获取第二预测数据；

损失确定单元，用于根据所述第一预测数据与所述第二编码器的输出向量的相似度、所述第二预测数据与所述第一编码器的输出向量的相似度，确定对称损失；

模型参数调整单元，用于根据所述对称损失，通过梯度反向传播调整所述孪生网络的网络参数；

模型确定单元，用于若所述训练模型收敛，根据所述第一编码器和/或所述第二编码器，确定所述对比学习模型。

示例性的，数据归类模块140包括待正常样本获取单元、算法优化单元、待聚类数据确定单元、聚类单元、数量判断单元及标识确定单元。

正常样本获取单元，用于获取多个对应正常状态的所述音频特征数据，作为正常特征样本集；

算法优化单元，用于调整聚类类别数自适应的聚类算法的参数，直至所述聚类算法对所述特征样本集进行聚类后所述正常特征样本集的所有样本聚为一类；

待聚类数据确定单元，用于确定待聚类的音频特征子集，所述音频特征子集包括所述正常特征样本集的所有样本及待检特征样本集的至少部分样本，所述待检特征样本集包括所述待检测的音频数据的多个所述音频特征数据，在所述音频特征子集的所述音频特征数据的总数中，所述正常特征样本集的样本数量占比超过一半；

聚类单元，用于通过所述聚类算法，对所述音频特征子集进行聚类；

数量判断单元，用于根据聚类结果中各聚类类别对应的音频特征数据的数量，确定数量满足预设条件的聚类类别，所述数量满足预设条件的聚类类别包括以下任一种：所有多个聚类类别中对应的音频特征数据的数量最少的聚类类别、所有聚类类别中对应的音频特征数据的数量低于预设阈值的聚类类别；

标识确定单元，用于在数量满足预设条件的聚类类别中，确定对应的所述待检特征样本集的样本的类别标识为异常的类别标识。

示例性的，目标确定模块150包括目标音频特征确定子模块，所述目标音频特征确定子模块用于将所述异常的类别标识对应的所述待检特征样本集的样本确定为所述目标音频特征。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请的方法、装置可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

示例性地，上述的方法、装置可以实现为一种计算机程序的形式，该计算机程序可以在如图4所示的计算机设备上运行。

请参阅图4，图4是本申请实施例提供的一种计算机设备的示意图。该计算机设备可以是服务器或终端。

如图4所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种声音异常检测方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种告声音异常检测方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，该计算机设备的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一些实施方式中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：获取待检测的音频数据；对所述待检测的音频数据进行分段处理，得到多个音频序列；对多个所述音频序列进行特征提取处理，得到多个音频特征数据；对多个所述音频特征数据进行归类，确定多个所述音频特征数据各自对应的类别标识；根据所述多个所述音频特征数据各自对应的类别标识，确定多个所述音频特征数据中的目标音频特征数据；根据所述目标音频特征数据，输出异常告警信息。

示例性的，处理器用于实现对多个所述音频序列进行特征提取处理，得到多个音频特征数据时，实现：对所述音频序列进行声学特征提取，以获得所述音频序列的声学特征；将所述声学特征输入对比学习模型，以获取所述音频序列的所述音频特征数据，所述对比学习模型用于通过对比学习对所述声学特征进行特征分析。

示例性的，处理器用于实现对所述音频序列进行声学特征提取，以获得所述音频序列的声学特征时，实现：对所述音频序列进行傅里叶变换，以获得所述音频序列的傅里叶频谱；通过梅尔滤波器对所述音频序列的傅里叶频谱进行滤波处理，以获得所述音频序列的梅尔频谱。对所述音频序列的梅尔频谱进行倒谱分析，以获得所述音频序列的声学特征。

示例性的，处理器还用于实现：获取训练数据，所述训练数据包括正常状态下的若干音频序列；对所述音频序列进行随机增强，得到所述音频序列对应的多个增强数据；获取训练模型，所述训练模型包括孪生网络，所述孪生网络包括第一编码器、第二编码器及预测头，所述第一编码器与所述第二编码器共享相同的编码器网络参数，所述预测头包括多层感知器网络；将所述多个增强数据中的一个增强数据输入所述第一编码器以获取所述第一编码器的输出向量，另一个增强数据输入所述第二编码器以获取所述第二编码器的输出向量；将所述第一编码器的输出向量输入所述预测头，以获取第一预测数据；将所述第二编码器的输出向量输入所述预测头，以获取第二预测数据；根据所述第一预测数据与所述第二编码器的输出向量的相似度、所述第二预测数据与所述第一编码器的输出向量的相似度，确定对称损失；根据所述对称损失，通过梯度反向传播调整所述孪生网络的网络参数；若所述训练模型收敛，根据所述第一编码器和/或所述第二编码器，确定所述对比学习模型。

示例性的，处理器用于实现对所述音频序列进行随机增强，得到所述音频序列对应的多个增强数据时，实现：对所述音频序列进行声学特征提取，以获得所述音频序列的声学特征；通过在所述声学特征中添加随机的噪声和/或随机改变所述声学特征的部分数据的值，获取每个所述音频序列的多个增强数据。

示例性的，处理器用于实现对多个所述音频特征数据进行归类，确定多个所述音频特征数据各自对应的类别标识时，实现：获取多个对应正常状态的所述音频特征数据，作为正常特征样本集；调整聚类类别数自适应的聚类算法的参数，直至所述聚类算法对所述特征样本集进行聚类后所述正常特征样本集的所有样本聚为一类；确定待聚类的音频特征子集，所述音频特征子集包括所述正常特征样本集的所有样本及待检特征样本集的至少部分样本，所述待检特征样本集包括所述待检测的音频数据的多个所述音频特征数据，在所述音频特征子集的所述音频特征数据的总数中，所述正常特征样本集的样本数量占比超过一半；通过所述聚类算法，对所述音频特征子集进行聚类；根据聚类结果中各聚类类别对应的音频特征数据的数量，确定数量满足预设条件的聚类类别，所述数量满足预设条件的聚类类别包括以下任一种：所有多个聚类类别中对应的音频特征数据的数量最少的聚类类别、所有聚类类别中对应的音频特征数据的数量低于预设阈值的聚类类别；在数量满足预设条件的聚类类别中，确定对应的所述待检特征样本集的样本的类别标识为异常的类别标识。

示例性的，处理器用于实现根据所述多个所述音频特征数据各自对应的类别标识，确定多个所述音频特征数据中的目标音频特征数据时，实现：将所述异常的类别标识对应的所述待检特征样本集的样本确定为所述目标音频特征。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法，如：

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序中包括程序指令，所述处理器执行所述程序指令，实现本申请实施例提供的任一项声音异常检测方法。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种声音异常检测方法，其特征在于，所述方法包括：

获取待检测的音频数据；

根据所述目标音频特征数据，输出异常告警信息；

所述对多个所述音频序列进行特征提取处理，得到多个音频特征数据，包括：

对所述音频序列进行声学特征提取，以获得所述音频序列的声学特征；

将所述声学特征输入对比学习模型，以获取所述音频序列的所述音频特征数据；所述对比学习模型用于根据对比学习对对应正常状态的所述声学特征进行相似编码；

所述方法还包括：

获取训练数据，所述训练数据包括正常状态下的若干音频序列；

对所述音频序列进行随机增强，得到所述音频序列对应的多个增强数据；

获取训练模型，所述训练模型包括孪生网络，所述孪生网络包括第一编码器、第二编码器及预测头，所述第一编码器与所述第二编码器共享相同的编码器网络参数，所述预测头包括多层感知器网络；

将所述多个增强数据中的一个增强数据输入所述第一编码器以获取所述第一编码器的输出向量，另一个增强数据输入所述第二编码器以获取所述第二编码器的输出向量；

将所述第一编码器的输出向量输入所述预测头，以获取第一预测数据；

将所述第二编码器的输出向量输入所述预测头，以获取第二预测数据；

根据所述第一预测数据与所述第二编码器的输出向量的相似度、所述第二预测数据与所述第一编码器的输出向量的相似度，确定对称损失；

根据所述对称损失，通过梯度反向传播调整所述孪生网络的网络参数；

若所述训练模型收敛，根据所述第一编码器和/或所述第二编码器，确定所述对比学习模型；

所述对多个所述音频特征数据进行归类，确定多个所述音频特征数据各自对应的类别标识，包括：

获取多个对应正常状态的所述音频特征数据，作为正常特征样本集；

调整聚类类别数自适应的聚类算法的参数，直至所述聚类算法对所述特征样本集进行聚类后所述正常特征样本集的所有样本聚为一类；

确定待聚类的音频特征子集，所述音频特征子集包括所述正常特征样本集的所有样本及待检特征样本集的至少部分样本，所述待检特征样本集包括所述待检测的音频数据的多个所述音频特征数据，在所述音频特征子集的所述音频特征数据的总数中，所述正常特征样本集的样本数量占比超过一半；

通过所述聚类算法，对所述音频特征子集进行聚类；

根据聚类结果中各聚类类别对应的音频特征数据的数量，确定数量满足预设条件的聚类类别，所述数量满足预设条件的聚类类别包括以下任一种：所有多个聚类类别中对应的音频特征数据的数量最少的聚类类别、所有聚类类别中对应的音频特征数据的数量低于预设阈值的聚类类别；

在数量满足预设条件的聚类类别中，确定对应的所述待检特征样本集的样本的类别标识为异常的类别标识。

2.根据权利要求1所述的声音异常检测方法，其特征在于，所述对所述音频序列进行声学特征提取，以获得所述音频序列的声学特征，包括：

对所述音频序列进行傅里叶变换，以获得所述音频序列的傅里叶频谱；

通过梅尔滤波器对所述音频序列的傅里叶频谱进行滤波处理，以获得所述音频序列的梅尔频谱；

对所述音频序列的梅尔频谱进行倒谱分析，以获得所述音频序列的所述声学特征。

3.根据权利要求1所述的声音异常检测方法，其特征在于，所述对所述音频序列进行随机增强，得到所述音频序列对应的多个增强数据，包括：

通过在所述声学特征中添加随机的噪声和/或随机改变所述声学特征的部分数据的值，获取每个所述音频序列的多个增强数据。

4.根据权利要求1所述的声音异常检测方法，其特征在于，所述根据所述多个所述音频特征数据各自对应的类别标识，确定多个所述音频特征数据中的目标音频特征数据，包括：

将所述异常的类别标识对应的所述待检特征样本集的样本确定为所述目标音频特征。

5.一种声音异常检测装置，其特征在于，所述装置包括：

数据获取模块，用于获取待检测的音频数据；

告警发布模块，用于根据所述目标音频特征数据，输出异常告警信息；

对比学习子模块，用于将所述音频序列的声学特征输入对比学习模型，以获取所述音频序列的音频特征数据，所述对比学习模型用于通过对比学习对所述声学特征进行特征分析；

模型确定单元，用于若所述训练模型收敛，根据所述第一编码器和/或所述第二编码器，确定所述对比学习模型；

6.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述的计算机程序并在执行所述的计算机程序时实现如权利要求1-4任一项所述的声音异常检测方法。

7.一种计算机可读存储介质，所述计算机的可读存储介质存储有计算机程序，其特征在于，若所述计算机程序被处理器执行，实现如权利要求1-4任一项所述的声音异常检测方法。