CN114155879A

CN114155879A - 一种利用时频融合补偿异常感知及稳定性的异音检测方法

Info

Publication number: CN114155879A
Application number: CN202111475597.1A
Authority: CN
Inventors: 关键; 柳友德; 肖飞扬
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2021-12-06
Filing date: 2021-12-06
Publication date: 2022-03-08
Anticipated expiration: 2041-12-06
Also published as: CN114155879B

Abstract

本发明公开的属于异音检测方法技术领域，具体为一种利用时频融合补偿异常感知及稳定性的异音检测方法，借助从声学目标原始音频信号x∈R^1*L获取的时域信息和频域信息形成感知互补；时频域融合特征输入深度神经网络，经过网络学习从而获得对于待检测声学目标的状态感知，针对现有异音检测方法所采用的Log‑Mel谱特征对一定声学目标缺乏感知能力的问题，本发明设计了从时域角度构建的可学习特征与Log‑Mel谱相融合，实现了时频域信息互补的双赢增益机制，本发明设计的时频域融合的可学习特征能够有效地提升异音检测系统的稳定性，解决现有工业异音检测方法稳定性不足，检测结果可信度低的问题。

Description

一种利用时频融合补偿异常感知及稳定性的异音检测方法

技术领域

本发明涉及异音检测方法技术领域，具体为一种利用时频融合补偿异常感知及稳定性的异音检测方法。

背景技术

异常声音检测(Anomalous Sound Detection，ASD)，目的是自动识别目标(如机器或设备)是否存在异常的声音，出现异常的行为或状态。

随着深度学习在音频处理方向的应用，现有研究提供了无监督和自监督这两种实现声音异常检测的方法。现有无监督方法是通过最小化重构误差来学习正常声音的特征，并将重构误差作为分数来检测异常。这样的工业声音异常检测方法能够提供一定程度的异常声音检测性能，但其误检率较高，受先验设置的阈值影响大。现有的自监督方法通过将音频数据所附带的元数据(如机器类型)引入建模过程，借助于对音频元数据属性的判断状态(正常/异常)来判定音频数据的状态(正常/异常)，并能取得相对无监督方法而言更为可观的平均检测性能。

在现有的无监督/自监督声音异常检测中，方法所处理的音频特征均为对数梅尔谱(Log-Mel Spectrogram)。Log-Mel谱特征是一种模仿人类主观听觉感知所设计的频率滤波特征，其会过滤掉人类不易察觉的声学频带，从而压缩数据维度，突出人类听觉所敏感的声学频带区间。这种逼近人耳的滤波特征并不完全适用于客观场景的各类声学目标——甚至会将异常音频所包含的代表性特征过滤掉，从而导致无监督/自监督声音异常检测方法无法有效进行声音异常检测工作，限制了现有异音检测系统的精度上限。

同时，现有的无监督/自监督异音检测方法尽管能够取得相对可观的平均检测精度表现，但其在具体的某一个声学目标的检测表现并不稳定，一组目标的检测结果可能整体平均性能较为可观，但其性能平均的最优表现和最差表现相差甚大，容易导致对于个别目标的误检行为，不利于实际生产维护当中进行部署与产品化。另外，现有方法在面对不同类型的声学目标异常检测任务时，需要针对每个声学目标单独训练模型，增加了部署成本与异音检测系统的复杂程度。

发明内容

本发明的目的在于提供一种一种利用时频融合补偿异常感知及稳定性的异音检测方法，以解决上述背景技术中提出的Log-Mel谱特征导致的异音检测性能受限、稳定性不足与现有方法处理不同类型声学目标时的多模型复杂度过高的问题。

为实现上述目的，本发明提供如下技术方案：一种利用时频融合补偿异常感知及稳定性的异音检测方法，借助从声学目标原始音频信号x∈R^1*L获取的时域信息和频域信息形成感知互补；

时频域融合特征输入深度神经网络，经过网络学习从而获得对于待检测声学目标的状态感知。

优选的，其声学目标的原始单信道音频经过短时傅里叶变换转变为频谱图功率谱特征，并经过对数化Mel滤波器组滤波为Log-Mel谱频域特征F_s：

F_S＝log(W_M·||STFT(x)||²)；

其中，F_s∈R^M*N，M表示Mel滤波的维数，N表示频域特征的时间帧数，W_M为Mel滤波器组的滤波器矩阵，||STFT(x)||²是由声学目标的原始信号x提取得到的频谱图功率谱特征。

优选的，其短时傅里叶变换采用重叠时间窗的方式进行采样，时间窗长度为1024个采样点，即16kHz采样频率下的64ms时长，重叠步长为512个采样点，即16kHz采样频率下的32ms时长，Mel滤波器组维数为128维。

优选的，其声学目标的原始单信道音频经过时域可学习特征网络来计算求得包含时域信息的可学习音频特征F_T：

F_T＝TgramNet(x)；

其中，对于同一个x，时域可学习音频特征F_T与频域音频特征F_s的形状一致，则有F_T∈R^M*N；

所述时域可学习特征网络包含一个谱图转换器和三层声学建模块。

优选的，所述谱图转换器借助于一个超大卷积核的1D卷积层实现，卷积核尺度为1024个采样点，步长512个采样点，所述谱图转换器的输出通道数为128维，所述声学建模块包含一层Layer Normalization正则化处理、Leaky ReLU激活函数和3×3卷积核且步长为1的卷积层，此外，声学建模块的结构并不局限于上述结构，可替换为注意力机制的深度网络层。

优选的，所述融合频域音频特征F_s与时域可学习音频特征F_T，获得双通道的时频域融合可学习音频特征F_ST∈R^2*M*N，补偿Log-Mel谱在感知异常信息能力上的不足，F_ST可经过注意力筛选，加强对于声学目标异常特征信息的关注，所述双通道的时频域融合可学习音频特征F_ST，在无监督异音检测和自监督异音检测方法中可有效提高检测过程的稳定性，借助其可学习特性获得对于单个声学目标音频的异常检测适应性。

优选的，所述自监督异音检测方法用于统合不同声学类型目标，将双通道的时频域融合可学习音频特征F_ST用于训练无监督异音检测方法和自监督异音检测方法，同时将训练数据集所包含的所有类型的所有声学目标同时用于模型训练。

优选的，所述无监督异音检测方法通过时频域融合可学习特征F_ST输入无监督特征重构建模模块，所述无监督特征重构建模模块通过对F_ST进行重构学习正常数据分布。

优选的，所述无监督特征重构建模模块基于注意力机制的结构实现，所述无监督特征重构建模模块输出重构特征F_ST，将F_ST与重构后的融合特征

进行L-范数距离计算，获得误差序列，所述误差序列经过无监督异常分数计算模块得到异常分数序列，并通过阈值判定机制输出检测结果——待检测声学目标的状态预测，所述重构建模过程的损失计算如下所示：

其中，||·||_l表示L-范数计算，e＝[e₁，e₂，…e_n]表示对应于F_ST的时间帧数量维度N的重构误差序列，也可以一次选择多个帧进行，此时e的序列长度将小于N，所述误差序列e经过异常分数计算转变为异常分数，满足阈值判定机制的输入要求；

对于某一个特定的声学目标k所输出的异常分数序列e^k，阈值判定机制对这一异常分数序列的处理方式如下：

其中，H(e，θ)表示阈值判定机制的数学形式，A(e)表示异常分数，θ表示针对声学目标k的目标类型所提供的阈值，当异常分数大于阈值θ，则该特定声学目标k超出了系统所学习到的常规数据分布的范围，判定目标k为异常；反之则说明目标k处于系统所学习到的常规数据分布的范围，可以判定目标k为正常。

优选的，对于所述自监督异音检测方法通过时频域融合可学习特征F_ST输入其声学目标识别模块，通过分析输入的F_ST所对应的声学目标元数据属性来进行异常检测判定，所述声学目标识别模块基于MobileFaceNet构建，实现细粒度的自监督式的元数据属性挖掘；

所述音频时频域融合可学习特征F_ST是双通道的时频域跨数据域的融合信息数据，其每个通道都分属于不同的数据域范围，所述时频域融合可学习特征F_ST的两个通道特征同源且互补；

基于STgram对于元数据属性的深入挖掘，自监督声学目标识别模块能够在元数据属性层面实现细粒度多层次的划分，训练过程中，作为标签的元数据属性不局限于声学目标类型，细化到各类型中各个个体。

训练损失上，采用ArcFace损失，ArcFace损失计算方式如下：

其中，C表示同时进行训练的所有声学目标数量，s和m为ArcFace损失涉及的两个超参数，取数值s＝30、m＝0.7。

与现有技术相比，本发明的有益效果是：

1)针对现有异音检测方法所采用的Log-Mel谱特征对一定声学目标缺乏感知能力的问题，本发明设计了从时域角度构建的可学习特征与Log-Mel谱相融合，实现了时频域信息互补的双赢增益机制，获取了更广阔的异常信息感知范围；

2)本发明设计的时频域融合的可学习特征能够有效地提升异音检测系统的稳定性，解决现有工业异音检测方法稳定性不足，检测结果可信度低的问题；

3)本发明提供了针对不同声学目标类型的统合训练方式，能够针对不同声学目标类型训练一个统一泛化的模型，相比于传统方法针对每个声学目标单独训练模型的方式大大降低了训练异音检测系统的复杂度，提升了训练效率，有效降低了异音检测方法的工业化部署难度。

附图说明

图1是本发明的总体技术路线图；

图2是本发明中可学习时域特征提取模块结构图；

图3展示了本发明中统合训练方式对无监督方法的适应调整；

图4展示了本发明中统合训练方式对自监督方法的适应调整；

图5展示了基于MobileFaceNet构建的声学目标识别模块结构；

图6是本发明附表；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“上”、“下”、“内”、“外”、“顶/底端”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“设置有”、“套设/接”、“连接”等，应做广义理解，例如“连接”，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例：

请参阅图1-6，本发明提供一种技术方案：

一种利用时频融合补偿异常感知及稳定性的异音检测方法，借助从声学目标原始音频信号x∈R^1*L获取的时域信息和频域信息形成感知互补，融合为时频域的可学习特征，解决了传统频域特征Log-Mel谱在现有工业异音检测方法中难以区分异常特征的问题；

时频域融合特征输入深度神经网络，经过网络学习从而获得对于待检测声学目标的状态感知，这种感知相比于Log-Mel谱所能提供的更为广阔和精细，并能提升异音检测方法的稳定性。

其声学目标的原始单信道音频经过短时傅里叶变换转变为频谱图功率谱特征，并经过对数化Mel滤波器组滤波为Log-Mel谱频域特征F_s：

F_S＝log(W_M·||STFT(x)||²)；

其短时傅里叶变换采用重叠时间窗的方式进行采样，时间窗长度为1024个采样点，即16kHz采样频率下的64ms时长，重叠步长为512个采样点，即16kHz采样频率下的32ms时长，Mel滤波器组维数为128维。

其声学目标的原始单信道音频经过时域可学习特征网络来计算求得包含时域信息的可学习音频特征F_T：

F_T＝TgramNet(x)；

其中，对于同一个x，时域可学习音频特征F_T与频域音频特征F_s的形状一致，则有F_T∈R^M*N。

谱图转换器用于将单信道的一维音频原始信号转换为类似于Log-Mel谱特征维度的谱图形式，以便于后续的时频域融合，所述谱图转换器借助于一个超大卷积核的1D卷积层实现，卷积核尺度为1024个采样点(64ms)，步长512个采样点(32ms)，从而保证了Tgram与Sgram的各个时序帧能够一一对应，所述谱图转换器的输出通道数为128维，从而保证了Tgram与Sgram的各个时序帧能够一一对应。

所述声学建模块包含一层Layer Normalization正则化处理、Leaky ReLU激活函数和3×3卷积核且步长为1的卷积层，此外，声学建模块的结构并不局限于上述结构，可替换为注意力机制的深度网络层，其创新点在于借助网络建模适应性地从原始音频信号中学习表示时序信息的谱图特征。

所述融合频域音频特征F_s与时域可学习音频特征F_T，获得双通道的时频域融合可学习音频特征F_ST∈R^2*M*N，补偿Log-Mel谱在感知异常信息能力上的不足，F_ST可经过注意力筛选，加强对于声学目标异常特征信息的关注。

所述双通道的时频域融合可学习音频特征F_ST，在无监督异音检测和自监督异音检测方法中可有效提高检测过程的稳定性，借助其可学习特性获得对于单个声学目标音频的异常检测适应性，提供可信度高的异常检测系统。

所述自监督异音检测方法用于统合不同声学类型目标，将双通道的时频域融合可学习音频特征F_ST用于训练无监督异音检测方法和自监督异音检测方法，同时将训练数据集所包含的所有类型的所有声学目标同时用于模型训练，而不是像现有方法一样需要为训练数据集中的不同类型训练不同的模型，避免了重复训练多个模型的资源浪费和高昂的工业部署成本。

所述无监督异音检测方法通过时频域融合可学习特征F_ST输入无监督特征重构建模模块，所述无监督特征重构建模模块通过对F_ST进行重构学习正常数据分布，得益于F_ST所补偿的异常感知能力，基于本发明构建的无监督异音检测系统可将不同类型的声学目标数据同时放在一个模型训练进程中，而不用担心不同类型声源的干扰。

所述无监督特征重构建模模块基于注意力机制的结构实现，所述无监督特征重构建模模块输出重构特征F_ST，将F_ST与重构后的融合特征

进行L-范数距离计算，获得误差序列，所述误差序列经过无监督异常分数计算模块得到异常分数序列，并通过阈值判定机制输出检测结果——待检测声学目标的状态预测(正常/异常)，所述重构建模过程的损失计算如下所示：

对于所述自监督异音检测方法通过时频域融合可学习特征F_ST输入其声学目标识别模块，通过分析输入的F_ST所对应的声学目标元数据属性来进行异常检测判定，所述声学目标识别模块基于MobileFaceNet构建，实现细粒度的自监督式的元数据属性挖掘，将不同类型声学目标元数据属性统合在同一模型感知下进行训练；

本发明基于MobileFaceNet结构所设计的声学目标识别模块所处理的物理问题与图像领域有着根本区别。人类面容数据是三通道的RGB色彩图，其内容包含的源信息是人类面容这一单一类数据。本发明涉及的声音异常检测策略所处理的音频时频域融合可学习特征F_ST则是双通道的时频域跨数据域的融合信息数据，其每个通道都分属于不同的数据域范围，而非像RGB三通道图那样仅仅是颜色的简单区分。时频域融合可学习特征F_ST的两个通道特征同源且互补，对于本发明的异常声音检测策略而言缺一不可；

基于于STgram对于元数据属性的深入挖掘，自监督声学目标识别模块能够在元数据属性层面实现细粒度多层次的划分，故可将训练集中不同类型不同元数据属性的声学目标数据统合在一个系统中进行训练。训练过程中，作为标签的元数据属性不在局限于声学目标类型，而是细化到各类型中各个个体，实现了声源目标的显著划分与深入感知，从而实现了统合训练，避免了传统方法需要针对每个类型单独训练模型的复杂流程。

训练损失上，采用ArcFace损失，ArcFace损失计算方式如下：

本发明在实现过程中包括如下步骤：

1.时频域融合可学习特征提取：

假定声学目标所对应的原始音频单通道信号为x∈R1*L，其中1表示单通道对应的通道维度，L表示音频数字信号的采样点数，反映了原始音频的时长，原始声学信号的采样频率为16kHZ。

(1)频域特征(Sgram)提取：

首先，原始音频信号x经过短时傅里叶变换(Short-Time Fourier Transform,STFT)，转换为频谱图特征(Spectrogram)，频谱图包含了采样频率所规定的所有频段范围。计算过程短时傅里叶变换的时间窗为1024个采样点(即64ms)，相邻的时间窗之间重叠率为50％，即时间窗的偏移步长为512个采样点(32ms)。

随后，频谱图特征经过Mel滤波器组完成滤波过程，从而得到Mel谱图。为放大频谱特征中人类听觉感知所敏感的区间，对Mel谱图进行对数放缩，得到频域特征Log-Mel谱图。频域特征的整体计算流程可归纳如下：

F_S＝log(W_M·||STFT(x)||²)；

忽略短时傅里叶变换结果在复数域所带来的计算成本。

(2)时域可学习特征(Tgram)提取：

时域可学习特征Tgram由原始音频信号x输入时域可学习特征网络(TgramNet)计算得来。时域可学习特征网络结构如附图图2所示，网络包含一个谱图转换器和三层声学建模块。

单个声学建模块包含一层Layer Normalization、Leaky ReLU激活和一层3×3卷积核且步长为1的卷积层。三层声学建模块串联处理谱图转换器转换而来的时域谱图，为时域谱图添加可根据数据学习调整的适应能力。

时域可学习特征的提取过程的数学形式如下：

F_T＝TgramNet(x)；

同时，时域可学习特征网络还可以使用大规模预训练的音频模式识别方式学习更为丰富的音频事件数据库，从而借助于预训练的先验知识实现更高效率、更丰富立体的时域信息抽象化提取。

(3)时频域特征融合：

上述获得的F_T与F_s特征联立融合，得到时频域融合特征F_ST∈R^2*M*N，由于在频域特征提取和时域可学习特征提取过程中预先将频域特征和时域特征的维度进行了对齐，融合后的F_ST在同一时间帧上将同时包含时域与频域的声学特征，获得更为广阔的异常信息感知范围，从而补偿了Log-Mel谱所缺失的异常感知能力。

为了获得能针对数据进行调整的学习能力，F_ST还可经过深度网络结构的处理，从而获得可学习的时频域融合特征。

2.统合不同声学目标类型的训练方式

(1)针对无监督方法的训练方式：

无监督异音检测系统的训练中，时频域融合可学习特征F_ST输入其特征重构建模模块。无监督特征重构建模模块通过对F_ST进行重构来学习正常数据的分布。得益于F_ST所补偿的异常感知能力，基于本发明构建的无监督异音检测系统可将不同类型的声学目标数据同时放在一个模型训练进程中，而不用担心不同类型声源的干扰。

1)附图图3展示了统合训练方式对无监督方法的适应调整，重构建模模块可基于注意力机制的结构实现，有助于筛选出适合于判断声学目标状态的“决定性”特征。不同注意力机制的重构建模模块会对筛选过程有所影响，但对统合训练的结构影响不大。

2)特征重构建模模块会输出重构特征

将F_ST与重构后的融合特征

进行L-范数距离计算，从而获得误差序列。误差序列经过无监督异常分数计算模块得到异常分数序列，并通过阈值判定机制输出检测结果——待检测声学目标的状态预测(正常/异常)。重构建模过程的损失计算如下所示：

误差序列e经过异常分数计算转变为异常分数，从而满足阈值判定机制的输入要求。基于平均池化的异常分数计算过程如下：

除了基于平均池化的异常分数计算方式，本发明还为无监督异常分数计算引入了全局序列权重计算方式(gwrp)，计算方式如下：

其中，r是一个外部超参数，其数值范围0≦r≦1，本发明选择Z(r)进行异常分数数值的约束，有

当r＝0时，该方法会退化为基于最大池化的异常分数计算：

A(e)_max＝max(e)；

当r＝1时，该方法则退化为基于平均池化的异常分数计算。

3)阈值判定机制会根据训练数据的整体分布与异常重构建模模块学习筛选的关键声学信息给出一组适用于不同声学目标的阈值，并为全局序列权重计算方式提供一组适用于不同声学目标的r值。

4)从统合训练的角度出发，本发明的异音检测策略由于统合了不同类型的声学目标进行训练，其训练过程可以引入深度聚类的过程辅助重构建模模块对于不同类别声学目标的区分过程。

深度聚类方法帮助不同的声学目标类型在训练过程中映射到相距较远的高维数据分布，帮助同一类型的声学目标聚拢到相近的高维数据分布当中。

这一概念可用如下的数学形式来表示：

其中，C表示用于训练的声学类别数量，c表示当前计算的声学类型，F_C表示当前计算的声学类型样本，

表示重构建模模块针对F_C输出的重构样本。j表示不同于当前计算类型的其他类型，F_j表示其他类型的声学样本。S(·，·)用于衡量两个数据样本之间的高维相似性质，η是一种超参数，用于补偿高维数据样本相似性的衡量误差。

值得注意的是，本发明提供的异音检测策略中，针对于无监督方法，S(·，·)的选择并不是单一的，其可以使用传统方法常见的欧氏距离，例如：

S(a，b)＝(a-b)²，

也可以使用衡量向量投影映射的余弦相似度计算：

还可以使用预训练的相似度度量网络灵活替换，本发明涉及的距离计算方式而不局限于单一的距离计算方式，而更注重于引入距离计算方式来实现深度聚类，进而辅助无监督异音检测方法这一策略思路。

(2)针对自监督方法的训练方式

附图图4展示了统合训练方式对自监督方法的适应调整。对于自监督异音检测系统，时频域融合可学习特征F_ST输入其声学目标识别模块，通过分析输入的F_ST所对应的声学目标元数据属性来进行异常检测判定。声学目标识别模块基于MobileFaceNet构建，实现自监督式的元数据属性挖掘。

附图图5展示了基于MobileFaceNet构建的声学目标识别模块结构，需要注意的是，MobileFaceNet是原本用于图像领域人类面容识别的网络，本发明基于MobileFaceNet结构所设计的声学目标识别模块所处理的物理问题与图像领域有着根本区别。

训练损失上，本发明涉及的统合训练方法放弃了传统的交叉熵损失计算(CrossEntropy Error,CEE)，而是采用了更为精细化且更利于处理异常序列的ArcFace损失。ArcFace损失计算方式如下：

3.高度稳定的异音检测特性

本发明提供的时频域融合补偿异常感知与稳定性的策略有力解决了现有异音检测方法稳定性不足的缺陷，附图6展示了传统方法与应用本发明提供策略后方法异音检测性能的对比，借助于常用的异常检测评价指标AUC来反映整体测试性能，借助最小AUC数值(min AUC,mAUC)来说明异音检测方法在测试过程中的下限，从而反映方法的稳定性。

根据附图6，本发明提供的融合补偿策略在传统CEE损失训练模式下也能取得远超现有传统方法的性能和稳定性。在使用统合训练模式的情况下，应用ArcFace损失能够取得更为出色的AUC表现和更强的mAUC评价，有力地说明了本发明策略的能够出色地异音检测方法的性能，并带来更良好的稳定性。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点,对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明；因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种利用时频融合补偿异常感知及稳定性的异音检测方法，其特征在于：借助从声学目标原始音频信号x∈R^1*L获取的时域信息和频域信息形成感知互补；

2.根据权利要求1所述的利用时频融合补偿异常感知及稳定性的异音检测方法，其特征在于：其声学目标的原始单信道音频经过短时傅里叶变换转变为频谱图功率谱特征，并经过对数化Mel滤波器组滤波为Log-Mel谱频域特征F_s：

F_S＝log(W_M·||STFT(x)||²)；

3.根据权利要求2所述的利用时频融合补偿异常感知及稳定性的异音检测方法，其特征在于：其短时傅里叶变换采用重叠时间窗的方式进行采样，时间窗长度为1024个采样点，即16kHz采样频率下的64ms时长，重叠步长为512个采样点，即16kHz采样频率下的32ms时长，Mel滤波器组维数为128维。

4.根据权利要求2所述的利用时频融合补偿异常感知及稳定性的异音检测方法，其特征在于：其声学目标的原始单信道音频经过时域可学习特征网络来计算求得包含时域信息的可学习音频特征F_T：

F_T＝TgramNet(x)；

其中，对于同一个x，时域可学习音频特征F_T与频域音频特征F_s的形状一致，则有F_T∈R^M ^*N；

5.根据权利要求4所述的利用时频融合补偿异常感知及稳定性的异音检测方法，其特征在于：所述谱图转换器借助于一个超大卷积核的1D卷积层实现，卷积核尺度为1024个采样点，步长512个采样点，所述谱图转换器的输出通道数为128维，所述声学建模块包含一层Layer Normalization正则化处理、Leaky ReLU激活函数和3×3卷积核且步长为1的卷积层，此外，声学建模块的结构并不局限于上述结构，可替换为注意力机制的深度网络层。

6.根据权利要求4所述的利用时频融合补偿异常感知及稳定性的异音检测方法，其特征在于：所述融合频域音频特征F_s与时域可学习音频特征F_T，获得双通道的时频域融合可学习音频特征F_ST∈R^2*M*N，补偿Log-Mel谱在感知异常信息能力上的不足，F_ST可经过注意力筛选，加强对于声学目标异常特征信息的关注，所述双通道的时频域融合可学习音频特征F_ST，在无监督异音检测和自监督异音检测方法中可有效提高检测过程的稳定性，借助其可学习特性获得对于单个声学目标音频的异常检测适应性。

7.根据权利要求6所述的利用时频融合补偿异常感知及稳定性的异音检测方法，其特征在于：所述自监督异音检测方法用于统合不同声学类型目标，将双通道的时频域融合可学习音频特征F_ST用于训练无监督异音检测方法和自监督异音检测方法，同时将训练数据集所包含的所有类型的所有声学目标同时用于模型训练。

8.根据权利要求7所述的利用时频融合补偿异常感知及稳定性的异音检测方法，其特征在于：所述无监督异音检测方法通过时频域融合可学习特征F_ST输入无监督特征重构建模模块，所述无监督特征重构建模模块通过对F_ST进行重构学习正常数据分布。

9.根据权利要求8所述的利用时频融合补偿异常感知及稳定性的异音检测方法，其特征在于：所述无监督特征重构建模模块基于注意力机制的结构实现，所述无监督特征重构建模模块输出重构特征F_ST，将F_ST与重构后的融合特征

10.根据权利要求9所述的利用时频融合补偿异常感知及稳定性的异音检测方法，其特征在于：对于所述自监督异音检测方法通过时频域融合可学习特征F_ST输入其声学目标识别模块，通过分析输入的F_ST所对应的声学目标元数据属性来进行异常检测判定，所述声学目标识别模块基于MobileFaceNet构建，实现细粒度的自监督式的元数据属性挖掘；

基于STgram对于元数据属性的深入挖掘，自监督声学目标识别模块能够在元数据属性层面实现细粒度多层次的划分，训练过程中，作为标签的元数据属性不局限于声学目标类型，细化到各类型中各个个体；

训练损失上，采用ArcFace损失，ArcFace损失计算方式如下：