CN117940996A

CN117940996A - 用于检测异常声音的方法和系统

Info

Publication number: CN117940996A
Application number: CN202280062389.5A
Authority: CN
Inventors: G·维切恩; A·查克拉巴尔蒂; 王中秋; J·勒鲁克斯
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2021-09-19
Filing date: 2022-05-12
Publication date: 2024-04-26
Also published as: US11978476B2; US20230086355A1; WO2023042485A1

Abstract

公开了一种用于检测异常声音的系统和方法。该方法包括接收音频信号的谱图，所述谱图所具有的元素由谱图的时频域中的值限定。每个值均对应于谱图的由时频域中的坐标标识的元素。将谱图的时频域划分为上下文区域和目标区域。由神经网络使用注意力神经过程处理上下文区域和目标区域，以针对坐标在目标区域中的元素恢复谱图的值。将目标区域的元素的恢复值与所划分的目标区域的元素的值进行比较。基于所述比较来确定异常分数。使用所述异常分数执行控制动作。

Description

用于检测异常声音的方法和系统

技术领域

本公开总体上涉及异常检测，更具体地涉及用于检测异常声音的方法和系统。

背景技术

机器操作性能的诊断和监测对于各种各样的应用是重要的。诊断和监测操作通常可以由技术人员手动进行。例如，技术人员可以收听和分析由机器产生的声音以确定异常声音。分析声音的手动过程可以自动化以处理由机器产生的声音信号并检测声音信号中的异常声音。这种自动声音诊断可以根据基于深度学习的技术来训练以检测异常声音。通常，可以使用对应于声音诊断的正常操作条件的训练数据来训练自动声音诊断以检测异常声音。基于此类训练数据的异常声音检测是无监督方法。无监督异常声音检测可以适合于检测特定类型的异常，例如可基于突然的时间变化检测到的突然瞬时干扰或者脉冲声音。

然而，突然的时间变化可能缺乏声音频域变化的信息来检测异常声音。缺少用于检测异常声音的频率变化可能导致结果不准确，这是不期望的。在一些情况下，可以处理非稳态声音的整个音频信号以检测音频信号中的异常声音。然而，音频信号中出现的异常声音可能较少。对异常声音出现较少的音频信号进行如此冗长的处理可能会耗费时间和计算资源，这是不可行的。在其它一些情况下，由于冗长的处理，可能无法检测到出现较少的异常声音。

因此，需要克服上述问题。更具体地，需要开发一种用于以高效且可行的方式检测音频信号中的异常声音的方法和系统。

发明内容

本公开的各种实施方式公开了一种用于检测音频信号中的异常声音的系统和方法。一些实施方式的目的是使用深度学习技术进行异常声音检测。

传统上，可以基于自动编码器或变分自动编码器来检测音频信号中的异常声音。自动编码器可以压缩音频信号且从经压缩的数据重构原始音频信号。变分自动编码器可以确定音频信号中的概率分布(例如，高斯分布)的参数以重构原始音频信号。可以将重构的音频信号与原始音频信号进行比较，以确定用于检测音频信号中的异常声音的重构误差。更具体地，音频信号可以被表示为谱图，该谱图包括音频信号在各种频率下随时间推移的信号强度或响度的视觉表示。

在一些实施方式中，可以在音频信号的时域和频域的某些区域中掩蔽谱图。可以在神经网络的训练期间预先指定掩蔽区域。神经网络处理未掩蔽区域以生成音频信号的掩蔽区域的重构谱图。将重构的表示与原始谱图区域进行比较以获得重构误差。重构误差是原始谱图与重构谱图之间的差异。重构误差可以用于检测异常声音。

本公开的一些实施方式基于以下理解：可以基于与非异常声音数据(诸如机器的正常操作的正常声音)相对应的训练数据来训练自动编码器以用于异常声音检测。使用非异常数据训练的自动编码器可以对“正常”(非异常)数据样本的数据分布进行建模。然而，重构误差可能较高，因为学习重构正常数据的自动编码器可能检测到异常声音。在一些情况下，可以在具体的预定区域上针对固定和预定时间和频率位置来训练自动编码器，以重构音频信号的区域。然而，自动编码器可能不适合于进行动态搜索来确定可区别于正常声音的区域。可区别的区域是对应于音频信号中的潜在异常声音的区域。

然而，基于正常声音数据训练的自动编码器可能无法重构不同于正常声音的异常声音。在推断期间，一些声音可能表现出时变和高度非稳态的行为。例如，由机器(例如，阀或滑块)生成的非稳态声音可以表现出时变和非稳态行为。对于自动编码器而言，时变和非稳态声音可能难以重构异常声音。在这种情况下，由自动编码器确定的对应于时变和非稳态声音的重构误差可能不准确。即使对于可能难以检测到异常声音的机器的正常操作条件，重构误差也可能很高。

本公开的一些实施方式基于以下认识：可以处理音频信号中来自周围信息的时间信号的一部分。处理该部分时间信号的这种方法可以排除处理整个长度的音频信号来生成重构谱图。音频信号的该部分的处理还可以改进包括语音信号和具有变更频率的声波的非稳态声音的性能。

为此，可以基于该部分时间信号来掩蔽音频信号的谱图的某些区域。自动编码器可以处理谱图的掩蔽区域以生成重构谱图。可以将重构的谱图与谱图进行比较以获得重构误差。重构误差可以在谱图的掩蔽区域上用作异常分数。然而，自动编码器可能呈现音频信号的频率信息，这对于检测异常声音可能不准确。自动编码器还可能无法并入关于谱图中可能发生异常声音的时间和/或频率区域的先验信息。

一些实施方式基于以下认识：非稳态音频信号的异常检测的困难可以与对应谱图的异常区域的时间和频率位置的可变性和多变性相对应。具体地，重构非稳态音频信号的区域(例如，语音、心电图(ECG)信号、机器声音等)并对该区域进行异常测试，可以从音频信号的剩余区域的波动中排除该区域，并将异常检测集中在感兴趣的区域上。然而，非稳态音频信号的多变性可能导致可能包括异常声音的时间和频率位置的多变性。因此，可以在在线模式、在线异常声音检测中的异常检测期间测试音频信号的特定区域。另外地或另选地，可以在在线异常声音检测中测试音频信号中的潜在异常区域。

为此，本公开的一些实施方式公开了一种神经网络，该神经网络使用注意力神经过程架构来检测非稳态音频信号中的异常声音。注意力神经过程架构是用于估计信号上的分布的元学习框架。一些实施方式基于以下理解：注意力神经过程架构可以用于恢复图像的缺失部分。例如，当手指意外遮挡相机的捕获照片的部分时，可能无法完全捕获人脸的照片。捕获的照片可以包括部分被受遮挡部分覆盖的人脸，诸如人脸的前额部分被受遮挡部分覆盖。由于受遮挡部分是已知的，因此可以恢复人脸的受遮挡部分。为此，在一些实施方式中，注意力神经过程架构可以适于搜索和恢复音频信号的谱图中的不同区域。不同区域可以包括可以对应于谱图中的潜在异常声音的区域。在一些实施方式中，可以基于信号属性或先验知识(诸如声音的已知异常行为)来确定潜在异常声音的区域。信号属性或先验知识的使用排除了在训练时需要区域的预限定数据。

因此，音频信号的谱图可以被划分成多个区域，诸如用于异常声音检测的上下文区域和目标区域。上下文区域可以包括谱图中的所选时频单元。目标区域对应于谱图中的用于异常声音检测的预测时频单元。在一些实施方式中，可以通过将训练谱图的不同分区随机或伪随机地选择到上下文区域或目标区域中来训练神经网络。经训练的谱图可以对应于可以用于创建异常谱图库的异常声音。异常谱图库可以用于在神经网络的测试期间识别谱图中难以预测的目标区域。在一些实施方式中，所识别的目标区域可以用作一个或多个假设来确定最大异常分数。最大异常分数对应于谱图中的高度潜在的异常区域(即，异常声音)。在一些实施方式中，一个或多个假设可以包括：中间帧假设程序，用于恢复谱图的时间相关的中间部分；频率掩蔽假设程序，用于从谱图的高频区域或低频区域恢复谱图的某些频率区域；频率掩蔽假设程序，用于从谱图中的相邻且谐波相关频率区域恢复单个频率区域；基于能量的假设程序，用于恢复谱图的高能量时频单元；用于恢复谱图的掩蔽频率区域和时间帧的随机选择的子集的程序；似然引导程序，用于执行谱图的不同上下文区域并恢复具有高重构似然的整个谱图；以及集成过程，其可以组合上述假设生成程序以找到最大异常分数。

此外，在神经网络的测试期间，可以产生谱图的多个分区，并且可以基于预定协议(诸如计算均方误差、高斯对数似然或重构误差的任何其它统计表示)来确定对应的异常分数。可以从异常分数确定最大异常分数，该最大异常分数可以用于检测异常声音。在检测到异常声音之后，可以执行控制动作。

一些实施方式公开了用于确定可能难以从谱图重构的区域的迭代方法。为此，可以将谱图划分成上下文区域或目标区域的不同组合，以产生上下文区域集合和对应的目标区域集合。将上下文区域集合提交给神经网络。神经网络可以被执行多次以处理上下文区域集合。特别地，针对上下文区域集合中的每个上下文区域执行一次神经网络以产生恢复目标区域。可以将从神经网络的每次执行获得的每个恢复目标区域汇总以获得恢复目标区域集合。可以将恢复目标区域集合与目标区域集合进行比较以获得异常分数集合。更具体地，将恢复目标区域集合中的每一个恢复目标区域与目标区域集合中的对应目标区域进行比较。该比较确定恢复目标区域集合中的每一者与目标区域集合中的每一者之间的重构误差。重构误差可以在目标区域上用作异常分数。在一些实施方式中，异常分数可以对应于可以基于对异常分数集合进行的汇聚操作确定的平均或组合异常分数。汇聚操作可以包括平均汇聚操作、加权平均汇聚操作、最大(max)汇聚操作、中值汇聚操作等。

在一些实施方式中，组合的异常分数可以用作第一异常分数，以进一步将谱图划分为另一上下文区域和目标区域。由神经网络处理上下文区域以输出恢复目标区域。将恢复目标区域与划分的目标区域进行比较以获得第二异常分数。可以使用汇聚操作来组合第一异常分数和第二异常分数以获得最终异常分数。最终异常分数可以用于异常声音检测，并因此基于最终异常分数执行控制动作。神经网络可以使用注意力神经网络架构来处理上下文区域。

在一些实施方式中，注意力神经过程架构可以包括编码器神经网络、交叉注意力模块和解码器神经网络。可以训练编码器神经网络以适应任意大小的输入集合。输入集合的每个元素可以包括上下文区域的元素的值和坐标。编码器神经网络还可以针对输入集合的每个元素输出嵌入向量。在一些示例性实施方式中，编码器神经网络可以使用自注意力机制来联合编码上下文区域的所有元素。自注意力机制对应于使得能够交互或关联每个元素以计算上下文区域的元素的编码表示的注意力机制。

交叉注意力模块可以被训练为通过注意力上下文区域的元素在相邻坐标处的嵌入向量来计算目标区域的每个元素的唯一嵌入向量。在一些示例性实施方式中，交叉注意力模块可以使用多头注意力来计算唯一嵌入向量。多头注意力可以运行用于并行计算嵌入向量的注意力机制。解码器神经网络输出目标区域的每个元素的概率分布。可以从目标区域的坐标和目标区域中对应元素的嵌入向量中获得概率分布。在一些示例性实施方式中，解码器神经网络输出概率分布的参数。概率分布可以对应于条件独立高斯分布。在一些其它示例性实施方式中，解码器神经网络可以输出可以对应于高斯分布的条件独立混合的概率分布的参数。

另外地或另选地，可以使用音频信号的谱图上的滑动窗口来确定音频信号中的异常声音。可以由神经网络使用注意力神经网络架构来处理滑动窗口，以确定用于检测异常声音的异常分数。在滑动窗口内完成异常声音检测，可以提高检测异常声音的速度。

因此，一个实施方式公开了一种用于检测异常声音的计算机实施的方法。该方法包括接收音频信号的谱图，所述谱图所具有的元素由时频域中的值限定。谱图的每个元素的值均由时频域中的坐标标识。该方法包括将谱图的时频域划分为上下文区域和目标区域。该方法包括将上下文区域的元素的值和上下文区域的元素的坐标提交到包括注意力神经过程架构的神经网络中，以针对具有目标区域中的坐标的元素恢复谱图的值。该方法包括基于目标区域的元素的恢复值与划分的目标区域的元素的值的比较来确定用于检测音频信号的异常声音的异常分数。该方法包括基于异常分数执行控制动作。

因此，另一实施方式公开了一种用于检测异常声音的系统。该系统包括：至少一个处理器；以及存储器，存储器上存储有指令，所述指令使得在由所述至少一个处理器执行时，使得系统接收音频信号的谱图，所述谱图所具有的元素由谱图的时频域中的值限定。谱图的每个元素的值均由时频域中的坐标标识。所述至少一个处理器可以使得系统将谱图的时频域划分为上下文区域和目标区域。所述至少一个处理器可以使得系统将上下文区域的元素的值和上下文区域的元素的坐标提交到包括注意力神经过程架构的神经网络中，以针对具有目标区域中的坐标的元素恢复谱图的值。所述至少一个处理器可以使得系统基于目标区域的元素的恢复值与划分的目标区域的元素的值的比较来确定用于检测音频信号的异常声音的异常分数。所述至少一个处理器还可以使得系统基于异常分数执行控制动作。

当结合附图进行以下详细描述时，另外的特征和优点将变得更加显而易见。

以本公开的示例性实施方式的非限制性实施例的方式，在下面的详细描述中参考所指出的多个附图进一步描述本公开，其中类似的附图标记代表附图的各视图中的类似部分。所示的附图不一定按比例绘制，而是通常将重点放在示出当前公开的实施方式的原理。

附图说明

[图1]

图1示出了根据本公开的实施方式用于检测音频输入信号中的异常声音的系统的示意性框图。

[图2]

图2示出了根据本公开的实施方式用于检测音频信号的异常声音的逐步过程。

[图3]

图3示出了根据本公开的一些其它实施方式用于检测音频信号的异常声音的逐步过程。

[图4A]

图4A示出了根据本公开的实施方式描绘音频信号的谱图的上下文区域和对应目标区域集合的示例性表示。

[图4B]

图4B示出了根据本公开的一些实施方式描绘音频信号的谱图上的滑动窗口的示例性表示。

[图5A]

图5A示出了根据本公开的一些实施方式描绘音频输入信号的谱图的上下文区域和对应目标区域的示例性表示。

[图5B]

图5B示出了根据本公开的一些其它实施方式描绘音频输入信号的谱图的上下文区域和对应目标区域的示例性表示。

[图5C]

图5C示出了根据本公开的一些其它实施方式描绘音频输入信号的谱图的上下文区域和对应目标区域的示例性表示。

[图5D]

图5D示出了根据本公开的一些其它实施方式描绘音频输入信号的谱图的上下文区域和对应目标区域的示例性表示。

[图5E]

图5E示出了根据本公开的一些其它实施方式描绘音频输入信号的谱图的上下文区域和对应目标区域的示例性表示。

[图6]

图6示出了描绘根据本公开的一些实施方式用于检测音频信号中的异常声音的异常库的示意图。

[图7]

图7示出了根据本公开的一些实施方式用于检测音频信号中的异常声音的架构的示意图。

[图8]

图8示出了根据本公开的实施方式用于检测异常声音的方法的流程图。

[图9]

图9是根据本公开的实施方式用于检测异常声音的系统的框图。

[图10]

图10示出了根据本公开的实施方式用于使用图9的系统检测异常声音的用例。

[图11]

图11示出了根据本公开的其它实施方式用于使用图9的系统检测异常声音的用例。

[图12]

图12示出了根据本公开的又一些其它实施方式用于使用图9的系统检测异常声音的用例。

虽然上面指出的附图阐述了当前公开的实施方式，但是如讨论中所指出的，也可以构想其它实施方式。本公开通过表示而非限制的方式呈现说明性实施方式。本领域技术人员可以设计出落入本公开实施方式的原理的范围和精神内的许多其它变型和实施方式。

具体实施方式

在以下描述中，出于解释的目的，阐述了许多具体细节以便提供对本公开的透彻理解。然而，对于本领域技术人员显而易见的是，可以在没有这些具体细节的情况下实践本公开。在其它情况下，为了避免模糊本公开，仅以框图形式示出了设备和方法。在不脱离所附权利要求中阐述的所公开的主题的精神和范围的情况下，可以构想元件的功能和布置的各种改变。

如在本说明书和权利要求书中所使用的，术语“例如”、“譬如”和“诸如”以及动词“包括”、“具有”、“包含”及其其他动词形式在与一个或多个部件或其它项目的列举结合使用时各自被解释为开放式的，这是指该列举不被视为排除其它附加部件或项目。术语“基于”是指至少部分地基于。此外，应当理解，本文采用的措辞和术语是出于描述的目的，而不应被认为是限制性的。在本说明书中使用的任何标题仅是为了方便，并不具有法律或限制效果。

在以下描述中给出了具体细节以提供对实施方式的透彻理解。然而，本领域普通技术人员可以理解，可以在没有这些具体细节的情况下实践这些实施方式。例如，所公开的主题中的系统、过程和其它元件可以以框图形式示出为部件，以便不会以不必要的细节模糊这些实施方式。在其它情况下，可以在没有不必要细节的情况下示出众所周知的过程、结构和技术，以避免模糊实施方式。此外，各个附图中相同的附图标记和标号指示相同的元素。

虽然大多数描述使用机器声音作为目标声源，但是相同的方法可以应用于其它类型的音频信号。

系统概述

图1示出了根据本公开的实施方式用于检测音频输入信号108中的异常声音的系统100的框图。下文中称为系统100的音频处理系统100包括处理器102和存储器104。存储器104配置为存储用于检测异常声音的指令。在一些实施方式中，存储器104配置为存储用于异常声音检测的神经网络106。在一些示例性实施方式中，音频输入信号108可以对应于非稳态声音，诸如人类语音、操作机器的声音等。音频输入信号108可以表示成谱图。在一些情况下，谱图可以对应于表示音频输入信号108的声学时频表示的对数梅尔谱图。

处理器102配置为执行所存储的指令以使系统100接收音频信号的谱图。谱图包括由谱图的时频域中的值限定的元素。谱图108的每个元素的值均由时频域中的坐标标识。谱图的时频域被划分为上下文区域和目标区域。上下文区域对应于时频区域的一个或多个子集，诸如谱图中的时频单元。目标区域对应于谱图中可用于异常检测的预测时频单元。

上下文区域的元素的值和上下文区域的元素的坐标被提交给神经网络106。神经网络106包括注意力神经过程架构106A，用于恢复具有目标区域中的坐标的元素的值。恢复的值可以对应于谱图中的异常声音。基于恢复的值获得恢复目标区域。将恢复目标区域与划分的目标区域进行比较以确定用于检测异常声音的异常分数。异常分数是确定恢复目标区域与划分的目标区域之间的差异的重构误差。

在一些示例性实施方式中，注意力神经过程架构106A可以对上下文区域中的每个元素的坐标连同观察值进行编码。观察值可以对应于声音的已知异常行为，诸如人类语音的尖叫、在机器操作期间机器声音中的粘连声。

在一些示例性实施方式中，可以通过将训练谱图的不同分区随机或伪随机地选择到上下文区域和目标区域中来训练神经网络106。另外地或另选地，可以基于信号属性或先验知识(诸如声音的已知异常行为)来训练神经网络106。例如，声音的已知异常行为可以对应于机器的损坏部分的异常声音。此外，在神经网络106的执行期间，根据预定协议生成谱图的多个分区和对应的异常分数。可以在一个或多个随机上下文区域或目标区域上计算多个分区的平均值，以获得用于检测异常声音的异常分数。

在一个示例性实施方式中，可以使用随机RowCol选择方法来训练神经网络106以划分谱图。随机RowCol方法通过随机选择谱图的列中的一个或两个时间帧以及谱图的行中的最多两个频带作为目标区域集合来训练神经网络106。谱图中剩余的时频单元作为上下文区域集合。

在另一示例性实施方式中，可以使用中间帧选择方法来训练神经网络106。中间帧选择方法选择中间帧作为谱图的L个帧的目标区域。在另一示例性实施方式中，可以使用似然引导方法来训练神经网络106。似然引导方法执行多个前向传递，以执行谱图的多个分区而分成上下文区域或目标区域的不同组合。上下文区域或目标区域的不同组合可以由注意力神经过程架构106A处理，以恢复具有难以重构音频输入信号108中的潜在异常声音的帧和频率的值的目标区域。

在一些实施方式中，谱图可以被划分成上下文区域和目标区域的不同组合，以产生上下文区域集合和对应目标区域集合。上下文区域集合被提交给神经网络106。神经网络106可以被执行多次以处理上下文区域集合。特别地，针对上下文区域集合中的每个上下文区域执行一次神经网络106以输出恢复目标区域。使用注意力神经过程架构106A输出恢复目标区域。可以对从神经网络106的每次执行获得的每个恢复目标区域汇总，得到恢复目标区域集合。可以将恢复目标区域集合与目标区域集合进行比较以确定异常分数集合。更具体地，将恢复目标区域集合中的每一者与目标区域集合中的对应目标区域进行比较。该比较确定恢复目标区域集合中的每一者与目标区域集合中的每一者之间的重构误差。重构误差可以在目标区域上用作异常分数，诸如异常分数110。在一些实施方式中，异常分数110可以对应于平均异常分数，可以基于异常分数集合的加权组合来确定该平均异常分数。

在一些示例性实施方式中，异常分数110可以由异常分数函数限定，例如A_θ:R^L×F→R。异常分数函数学习参数θ，并且音频输入信号108(例如，由机器产生的声音信号)被表示为谱图，即对数幅度谱图Y∈R^L×F，其中L是时间帧数量，并且F是谱图中的频带数量。谱图的异常分数(A_θ(Y))对于正常声音可能较小，而对于异常声音可能较大。异常分数110用于进行期望应用的控制动作。例如，异常分数110可以用于工件的计算机数控(CNC)加工中的异常声音检测、患者的超声诊断中的异常声音检测、在线异常声音检测(诸如婴儿监测应用中的哭声检测)等。

在一些情况下，可能难以检测出音频输入信号108中对应于异常声音的一些声音。例如，由机器的损坏或故障部分生成的声音可能是异常的。如果损坏部分的声音低于机器的其它声音，则损坏部分的声音可能难以被检测为异常声音。在一些其它情况下，基于正常声音的训练数据训练异常声音检测可能无法准确检测音频输入信号108中的异常声音。这种异常声音可能难以从谱图的对应区域(即，异常声音的时频值)重构。为此，系统100可以将音频输入信号108的谱图划分为用于异常声音检测的上下文区域或目标区域的不同组合，接下来参考图2对此进行进一步解释。

图2示出了根据本公开的实施方式的用于检测音频输入信号108的异常声音的逐步过程200。过程200由图1的系统100执行。在步骤202处，系统100接收音频输入信号108。音频输入信号108可以对应于由机器产生的声音，诸如工件的CNC加工。CNC机器可以包括多个致动器(例如，马达)，这些致动器辅助一个或多个工具进行一项或多项任务，如焊接或组装工件。多个致动器中的每一者均可以产生振动，该振动可以由加工工件期间工件的变形引起。振动可以与来自移动CNC的切削工具的马达的信号混合。混合的信号可以包括由于CNC的一部分中的故障(诸如切削工具中的故障)引起的声音。

在步骤204处，处理音频输入信号108以提取音频输入信号108的谱图。谱图是音频输入信号108的声学时频域。谱图包括由时频域中的值诸如像素限定的元素。各个元素的各个值均由时频域中的坐标标识。例如，时频域中的时间帧表示为列，并且时频域中的频带表示为行。

在步骤206处，谱图的时频域被划分成上下文区域或目标区域的不同组合。上下文区域对应于时频区域的一个或多个子集，诸如谱图中的时频单元。目标区域对应于谱图中可用于异常检测的预测时频单元。掩蔽上下文区域或目标区域的不同组合中的每一者以产生上下文区域集合和对应的目标区域集合。例如，将上下文区域集合和对应的目标区域集合掩蔽为上下文-目标区域掩码集合，诸如上下文-目标区域掩码₁206A、上下文-目标区域掩码₂206B和上下文-目标区域掩码_N206N(下文中称为上下文目标区域掩码206A-206N)。

在一个示例性实施方式中，可以基于随机RowCol选择方法来掩蔽上下文区域集合和对应的目标区域集合。随机RowCol选择方法随机选择谱图的一个或两个时间帧和最多两个频带中的值作为目标区域集合。上下文区域集合对应于谱图中的剩余时频单元。在另一示例性实施方式中，可以基于中间帧选择方法掩蔽上下文区域集合及对应的目标区域集合。中间帧选择方法选择谱图中的中间帧作为谱图的L个帧的目标区域集合。在又一示例性实施方式中，可以基于似然引导方法来掩蔽上下文区域集合和对应的目标区域集合。似然引导方法可以执行谱图的值的多个前向传递，以执行谱图的多个分区而分成上下文区域或目标区域的不同组合，诸如上下文-目标区域掩码206A-206N。

此外，上下文-目标区域掩码206A-206N被输入到神经网络106。神经网络106使用注意力神经过程架构106A来处理上下文-目标区域掩码206A-206N。

在步骤208处，注意力神经过程架构106A被执行多次以处理上下文-目标区域掩码206A-206N中的上下文区域。上下文-目标区域掩码206A-206N的集合中的每个上下文区域被执行一次以输出对应的恢复目标区域。每个恢复目标区域被汇总以形成恢复目标区域集合。将恢复目标区域集合中的每个目标区域与上下文-目标区域掩码206A-206N的集合中的对应目标区域进行比较。

在步骤210处，基于比较确定异常分数集合。异常分数集合可以表示为异常分数向量。异常分数向量汇总上下文区域集合中可能与目标区域集合中的每个频率箱最相关的信息。

在步骤212处，使用注意力神经过程架构106A将汇总异常分数向量与目标区域集合中的对应目标区域的向量位置级联，以获得目标区域的组合区域。具体地，可以对异常分数向量进行区域组合以获得组合区域。异常分数向量的每个元素对应于恢复目标区域的异常分数。在一些示例性实施方式中，可以使用汇聚操作(诸如平均汇聚操作、加权平均汇聚操作、最大(max)汇聚操作、中值汇聚操作等)来进行区域组合。

在步骤214处，获得最终异常分数，例如异常分数110。最终异常分数对应于谱图中异常的区域。在一些示例性实施方式中，可以基于异常分数集合的加权组合来确定最终异常分数。例如，可以计算异常分数集合的平均值以获得最终异常分数。

最终异常分数可以用于进一步划分谱图以确定可能难以从谱图重构的区域。参考接下来的图3进一步详细描述使用最终异常分数对谱图的划分。

图3示出了根据本公开的一些其它实施方式的用于检测音频输入信号108的异常声音的逐步过程300。过程300由系统100执行。在步骤302处，接收音频输入信号108。在步骤304处，从音频输入信号108提取谱图。步骤302和步骤304类似于过程200的步骤202和步骤204。

在步骤306处，谱图被划分为第一上下文区域和对应的第一目标区域。掩蔽第一上下文区域和第一目标区域以产生第一上下文-目标区域掩码。可以基于随机RowCol选择方法、中间帧选择方法、似然引导方法等中的一者来掩蔽第一上下文区域和第一目标区域。第一上下文-目标区域掩码被输入到神经网络106。神经网络106使用注意力神经过程架构106A来处理第一上下文-目标区域掩码。

在步骤308处，执行注意力神经过程架构106A以处理第一上下文-目标区域掩码中的上下文区域并且从上下文区域输出恢复目标区域。将恢复目标区域与第一上下文-目标区域掩码中的对应目标区域进行比较。目标区域与恢复目标区域之间的比较确定第一异常分数。在一些示例性实施方式中，可以利用第二上下文区域的值和坐标来重复神经网络的执行，以恢复第二目标区域。值和坐标可以对应于谱图中的第二上下文区域的时频单元。

在步骤310处，可以基于由注意力神经过程恢复的全谱图来对第二上下文区域的时频单元进行采样。在一些示例性实施方式中，恢复的谱图可以包括原始谱图的具有低重构似然的时频单元。

在步骤312处，使用第一异常分数来识别谱图即恢复的谱图的第二划分。特别地，可以通过将在步骤310处获得的恢复的谱图与在步骤304处获得的原始谱图进行比较来进行第二划分。为此，基于第二划分将恢复的谱图划分为第二上下文区域和第二目标区域。第二目标区域可以包括原始谱图的具有高重构似然的区域，并且第二目标区域可以包括原始谱图的具有低重构似然的区域。此外，第二上下文区域和第二目标区域被输入到神经网络106。神经网络106使用注意力神经过程架构106A来处理第二上下文区域。

在步骤314处，利用第二上下文区域的值和坐标重复注意力神经过程架构106A的执行以输出恢复的第二目标区域。将恢复的第二目标区域与划分的第二目标区域进行比较以确定第二异常分数。

在步骤316处，输出第二异常分数作为最终异常分数。最终异常分数可以用于检测异常声音并对检测到的异常声音执行控制动作。在一些其它实施方式中，可以基于第一异常分数和第二异常分数的组合或两者来执行控制动作。

在一些情况下，可以通过利用恢复目标区域作为一个或多个假设来确定最大异常分数。在对应的图4A和图4B、图图5A、图5B、图5C、图5D和图5E中描述一个或多个假设。图6中进一步解释基于恢复目标区域对最大异常分数的确定。

图4A示出了根据本公开的实施方式描绘音频输入信号402的谱图404的上下文区域集合406和对应的目标区域集合408的示例性表示400A。音频输入信号402是音频输入信号108的实施例。系统100从音频输入信号402提取谱图404。谱图404包括由时频域中的值限定的元素。谱图404的元素的每个值对应于时频域中的坐标。谱图404的时频域被划分为上下文区域集合406和目标区域集合408。上下文区域集合406对应于谱图404中的时频单元的一个或多个子集。目标区域集合408对应于谱图404中的预测时频单元。

在一些示例性实施方式中，谱图404是对数梅尔谱图。谱图404可以被划分成上下文区域或目标区域的不同组合。在一些示例性实施方式中，谱图404可以被掩蔽以产生上下文区域集合406和目标区域集合408。例如，如图4A中所示，上下文区域集合406可以通过使用竖直条从谱图404掩蔽一个或多个时间帧。可以随机地掩蔽一个或多个时间帧以获得上下文区域集合406。上下文区域集合406表示为目标区域集合408表示为/>

此外，上下文区域集合406被提交给神经网络106。神经网络106执行注意力神经过程架构106A以处理上下文区域集合406并输出谱图404的恢复目标区域。

在一些情况下，音频输入信号402可以对应于可包括异常声音(例如音频输入信号402中的瞬时干扰)的长音频信号。在这种情况下，可以使用滑动窗口程序来确定异常，在图4B中对此进行描述。

图4B示出了根据本公开的一些实施方式描绘音频输入信号402的谱图404上的滑动窗口410的示例性表示400B。音频输入信号402可以包括长音频信号。例如，音频输入信号402的谱图404可以包括1024个样本的帧长度，在连续帧之间具有512跳长度，诸如谱图404的列和128个梅尔频带。滑动窗口410可以被输入到神经网络106。可以执行神经网络106以使用注意力神经过程架构106A来处理滑动窗口410以确定异常分数。

在一些示例性实施方式中，可以使用五个帧的多个滑动窗口，其中一个帧跳作为神经网络106的输入。可以计算多个滑动窗口的平均值以获得谱图404中的每个样本的异常分数。可以使用汇聚操作来组合对应样本的每个异常分数，以获得用于检测音频输入信号402中的异常声音的最终异常分数。由于在滑动窗口410中完成异常声音检测，因此滑动窗口410的使用防止处理音频输入信号402的整个长度。

在一些示例性实施方式中，谱图404可以划分为上下文区域集合和对应的目标区域集合，该目标区域集合包括谱图404中的频带的掩蔽。图5A和图5B中示出了这样的上下文区域集合和对应的目标区域集合。

图5A示出了根据本公开的一些其它实施方式描绘音频输入信号402的谱图404的上下文区域502和对应目标区域504的示例性表示500A。上下文区域502和目标区域504可以通过中间帧选择方法获得(如400A中所示)。例如，可以从谱图404的时频域中的L个帧中选择谱图404的中间帧。中间帧可以被确定为帧以将谱图404划分为上下文区域502和目标区域504。上下文区域502可以通过在谱图404的上部中添加水平条来掩蔽一系列连续频带，如图5A中所示。目标区域504可以对应于通过在谱图404的下部中添加水平条来掩蔽一系列连续频带，如图5A中所示。

注意力神经过程架构106A从上下文区域502恢复频带(即，目标区域)。恢复的频带可以对应于从上下文区域502的下部重构高频带。例如，可以从上下文区域502的下部恢复高频带。下部可以包括谱图404中的低频带。将恢复的频带与目标区域504的频带进行比较，以获得用于检测音频输入信号402中的异常声音的异常分数(诸如异常分数110)。

在一些情况下，可以掩蔽谱图404的单独频带以获得对应的上下文区域和目标区域，这示出在图5B中。

图5B示出了根据本公开的一些其它实施方式描绘谱图404的上下文区域506和对应的目标区域508的示例性表示500B。在一些示例性实施方式中，谱图404由单独的频率区域划分而获得上下文区域506和目标区域508。上下文区域506和目标区域508可以被提交给神经网络106。神经网络106可以使用注意力神经过程架构106A来处理上下文区域506。注意力神经过程架构106A从上下文区域506中的相邻且谐波相关的频带恢复单独频带。将恢复的单独频带与目标区域508的频带进行比较，以确定用于检测音频输入信号402中的异常声音的异常分数。

图5C示出了根据本公开的一些其它实施方式的描绘谱图404的上下文区域510和对应的目标区域512的示例性表示500C。在一些示例性实施方式中，谱图404可以被划分成多个区域以获得上下文区域510和目标区域512，如图5C中所示。上下文区域510和目标区域512被提交给神经网络106。神经网络106使用注意力神经过程架构106A来处理上下文区域510，以从上下文区域510的未掩蔽时频单元恢复高能量时频单元。将恢复的高能量时频单元与目标区域512的高能量时频单元进行比较，以确定用于检测音频输入信号402中的异常声音的异常分数。

图5D示出了根据本公开的一些其它实施方式描绘谱图404的上下文区域514和对应的目标区域516的示例性表示500D。

在一些示例性实施方式中，通过随机选择掩蔽频带和时间帧的子集对谱图404进行划分，以获得上下文区域514和目标区域516，如图5D中所示。上下文区域514和目标区域516被提交给神经网络106。使用注意力神经过程架构106A来处理上下文区域514，以从上下文区域514恢复随机选择的掩蔽频带和时间帧的子集。将恢复的掩蔽频带和时间帧的子集与目标区域516的掩蔽频带和时间帧的子集进行比较，以确定用于检测音频输入信号402中的异常声音的异常分数。

图5E示出了根据本公开的一些其它实施方式描绘谱图404的多个分区的示例性表示500E。在一些示例性实施方式中，谱图404可以被划分成上下文区域或目标区域的不同组合。上下文区域或目标区域的不同组合可以对应于谱图404中的时频单元，这些时频单元与谱图404中的正常声音的时频单元有区别。本文中的谱图的分区被称为阶段518。在阶段518中，可以以不同百分比的时频单元对谱图404进行采样，以作为上下文区域，诸如上下文区域520。在一些示例性实施方式中，可以以一致方式对谱图404的时频单元进行降采样。可以对谱图404进行降采样以从音频输入信号108中移除样本，同时维持音频输入信号108相对于时间的对应长度。例如，可以按nC＝62.5％对谱图404的时频单元进行采样以获得上下文区域520。可以利用谱图404的多个分区在多个前向传递中对上下文区域520的时频单元进行采样。例如，对上下文区域的时频单元的采样可以被处理多次以重构整个谱图，诸如重构的谱图522，如图5E中所示。

重构的谱图522可以与谱图404进行比较以确定第一异常分数。第一异常分数可以用于识别谱图404中的时频区域的第二分区。在一些示例性实施方式中，第一异常分数可以用于进行动态搜索以确定可区别于正常声音的区域。可区别的区域可以对应于音频信号中的潜在异常声音。动态搜索可以使系统100能够处理音频信号的一部分，同时排除处理音频信号的整个长度的需要。谱图404的第二分区被称为阶段524，如图5E中所示。

在阶段524，使用第一异常分数将谱图522划分成第二上下文区域(诸如上下文区域526)和第二目标区域(诸如目标区域528)。上下文区域526包括谱图404中具有高重构似然的时频单元。谱图522的剩余时频单元可以对应于目标区域528。上下文区域526被提交给神经网络106。神经网络106可以使用注意力神经过程架构106A来处理上下文区域526的时频单元的值和坐标。注意力神经过程架构106A恢复具有低重构似然的时频单元的目标区域。将恢复目标区域与目标区域528进行比较以确定第二异常分数。第二异常分数用于检测异常声音并在检测到异常声音时执行控制动作。在一些实施方式中，可以基于第一异常分数和第二异常分数的组合或两者来执行控制动作。

在一些情况下，包括声音的异常行为(诸如机器操作期间的振动声音)的异常音频数据可以被创建为库，在图6中将对此进行进一步解释。

图6是根据本公开的一些其它实施方式的异常谱图库602的示意图600。在一些示例性实施方式中，基于声音的已知异常行为来创建异常谱图的库602。例如，库602可以包括异常数据604A、异常数据604N等。异常数据604A和异常数据604N中的每一者均可以包括具有上下文索引的对应上下文区域、具有目标索引的目标区域以及可以与对应异常分数606进行比较来确定是否已经发生异常的阈值。在一些示例性实施方式中，可以基于异常声音检测的先前观察结果来确定阈值。例如，可以根据与将谱图(例如，谱图404)划分为上下文区域(例如，上下文区域406)和目标区域(例如，目标区域408)相对应的先前观察到的异常分数确定异常分数。所确定的异常分数可以用作阈值。阈值可以存储在库602中，库602可以用于检测相同谱图的分区的任何声音样本中的异常。

在一些实施方式中，库602可以由注意力神经过程架构106A用来识别目标区域，即来自谱图404的上下文区域的时频单元。可能难以在音频输入信号402的谱图404中预测时频单元。这种识别的目标区域可以用作一个或多个假设以检测最大异常分数606。

在一些实施方式中，可以测试一个或多个假设以找到具有最大异常分数606的目标区域。一个或多个假设包括中间帧假设程序、旨在恢复特定频率区域的频率掩蔽假设程序、旨在恢复各个频带的频率掩蔽假设程序、旨在从上下文区域恢复高能量时频单元的基于能量的假设程序、旨在恢复随机选择的掩蔽频带子集的程序、似然引导程序(如图5E中所描述的)和集成程序。集成程序可以用于组合多个以上假设生成程序以找到最大异常分数606。

在一些实施方式中，中间帧假设程序可以用于从谱图的侧部分恢复谱图的时间相关的中间部分(在图4A和图4B中描述)，其中中间部分由侧部分从相对两侧夹持。频率掩蔽假设程序可以用于从未掩蔽的周围区域(例如，谱图的上下文区域502)恢复谱图的特定频率区域(在图5A中描述)。未掩蔽的周围区域对应于谱图的上部。恢复对应于至少从谱图的下部处的低频重构上部处的高频，并且从高频重构下部处的低频。频率掩蔽假设程序可以用于从相邻且谐波相关的频带恢复各个频带(在图5B中描述的)。基于能量的假设程序可以用于从谱图的剩余未掩蔽的时频单元中恢复谱图的高能量时频单元(在图5C中描述)。程序可以用于从谱图的未掩蔽的剩余区域恢复随机选择的掩蔽频带和时间帧的子集(在图5D中描述)。似然引导程序可用于进行多遍，其中通过首先将不同百分比的时频单元采样为上下文区域(例如，上下文区域520)来确定不同的上下文区域。上下文区域由注意力神经过程架构106A处理以重构整个谱图(诸如谱图522)，并确定重构谱图的具有高重构似然的时频单元(在图5E中描述)。时频单元被用作上下文来重构具有低重构似然的时频区域。

在图7中进一步解释了恢复用于检测异常声音的目标区域的注意力神经过程架构106A。

图7示出了根据本公开的一些实施方式的描绘用于检测异常声音的网络架构700的示意图。网络架构700对应于注意力神经过程架构106A。网络架构700包括编码器神经网络702、交叉注意力模块704和解码器神经网络706。

在一些实施方式中，网络架构700可以学习用于目标区域(例如，目标区域408)坐标/>和上下文区域406(C)的值的条件分布的模型。目标区域408中的每个值均可以是条件独立高斯分布。在目标区域中的每个值处的条件独立高斯分布表示为：

网络架构700接收与上下文区域(例如，上下文区域406)的元素的值以及上下文区域的元素的坐标相对应的值和坐标708。值和坐标708可以表达为x_i＝[l_i,f_i]^T∈R²，其表示箱i的时频坐标，并且箱i处的幅度例如，值和坐标708表示为如图7中所示。

在一些实施方式中，可以训练编码器神经网络702以适应灵活大小的输入集合。输入集合的每个元素均可以包括值和坐标708。编码器神经网络702对上下文区域406的每个值和坐标708以及观察值进行编码以输出嵌入向量710。观察值可以对应于可以存储在库602中的已知异常声音。在一些示例性实施方式中，编码器神经网络702可以使用自注意力对上下文区域406的值和坐标708中的附近坐标的元素进行联合编码，以输出嵌入向量710。

嵌入向量710)被限定为：/>

自注意力可以估计参数，诸如对应于条件独立高斯分布的参数716。为此，可以经由编码器神经网络702输入上下文区域406的级联值和坐标708来获得目标区域408的每个点处的参数716。

此外，嵌入向量710被输入到交叉注意力模块704。在一些实施方式中，可以训练交叉注意力模块704以通过注意上下文区域的相邻坐标处的嵌入向量710来计算目标区域408的每个元素的唯一嵌入向量。唯一嵌入向量对应于上下文向量使用多头注意力来计算该上下文向量。为此，交叉注意力模块704可以运行与上下文区域406的坐标位置相对应的查询712和密钥714，以在计算上下文向量之前获得学习的位置编码(即，坐标位置)。上下文向量可以使用多头注意力来汇总上下文区域406的可与目标区域408中的每个箱t_j最相关的信息。上下文向量/>表示为

其中，Attention_θ(Q,K,V)表示多头注意力。在一些示例性实施方式中，交叉注意力模块704可以对应于两个全连接层，诸如尺寸为128的归一化层和前馈层。

此外，解码器神经网络706接收来自交叉注意力模块704的汇总上下文向量与查询712的级联。解码器神经网络706基于包括目标区域408的坐标和唯一嵌入向量的上下文向量来输出目标区域408的每个元素的概率分布。特别地，概率分布被输出为条件独立高斯分布的参数716。在一些另选实施方式中，解码器神经网络输出高斯分布的条件独立混合的参数716。

对于目标区域408的每个元素，对应于高斯分布的参数716表示为和/>高斯参数表示为

可以通过最大化训练数据集(D)中的多个谱图上的对数似然来训练参数716。可以如下将对数似然最大化：

在一些示例性实施方式中，解码器神经网络706可以包括两个输出单元。第一输出单元可以包括用于估计的线性激活函数，并且第二输出单元可以包括正则化的softplus激活函数。正则化的softplus激活函数避免了标准偏差衰减到零，即

在网络架构700的推断时间，可以如下计算谱图(诸如谱图404)的异常分数(诸如异常分数610)

在目标区域408上使用异常分数来检测异常声音。可以在检测到异常时执行控制动作，在图10、图11和图12中对此进行进一步描述。

图8示出了根据本公开的实施方式的用于检测异常声音的方法800的流程图。方法800由系统200执行。在操作802处，方法800包括接收具有由时频域中的值限定的元素的音频信号(例如，音频输入信号402)的谱图(例如，谱图404)。谱图的每个元素的值由时频域中的坐标标识。

在操作804处，方法800包括将谱图的时频域划分为上下文区域和目标区域。在一些实施方式中，谱图被划分成上下文区域和目标区域的不同组合，以产生上下文区域集合和对应的目标区域集合(参考图2)。

在操作806处，方法800包括将上下文区域的元素的值和上下文区域的元素的坐标提交到包括注意力神经过程架构的神经网络中，以针对具有目标区域中的坐标的元素恢复谱图的值。在一些示例性实施方式中，可以多次执行神经网络以处理上下文区域集合。可以执行上下文区域集合中的每个上下文区域一次以产生恢复目标区域集合。在一些实施方式中，通过将训练谱图的不同分区随机或伪随机地选择到上下文区域或目标区域中来训练神经网络。

在操作808处，方法800包括基于目标区域的元素的恢复值与划分的目标区域的元素的值的比较来确定用于检测音频信号的异常声音的异常分数。在一些实施方式中，可以从恢复目标区域集合确定异常分数集合。例如，可以将恢复目标区域集合中的每个目标区域与对应的目标区域进行比较来确定异常分数集合。可以基于异常分数集合的加权组合来确定异常分数。

在操作810处，方法800包括基于异常分数执行控制动作。在一些示例性实施方式中，异常分数可以用作第一异常分数来识别谱图的第二分区。可以使用第一异常分数将谱图划分为第二上下文区域(例如，第二上下文区域526)和第二目标区域(例如，目标区域528)。第一上下文区域对应于谱图中具有高重构似然的时频区域。上下文区域526被提交给神经网络106以恢复谱图的目标区域。恢复目标区域对应于谱图的具有低重构似然的时频区域。将恢复目标区域与划分的目标区域进行比较以确定第二异常分数。第二异常分数可以用于执行控制动作。在一些实施方式中，可以基于第一异常分数和第二异常分数的组合或者两者来执行控制动作。

图9是根据本公开的实施方式的异常声音检测系统900的框图。异常声音检测系统900是系统100的实施例。异常声音检测系统900包括配置为执行存储的指令的处理器902以及存储关于神经网络906的指令的存储器904。神经网络906包括注意力神经过程架构(例如，注意力神经过程架构106A)。在一些实施方式中，注意力神经过程架构对应于编码器-解码器模型(例如，网络架构700)，其包括编码器神经网络(例如，编码器神经网络702)、交叉注意力模块(例如，交叉注意力模块704)和解码器神经网络(例如，解码器神经网络706)。

处理器902可以是单核处理器、多核处理器、图形处理单元(GPU)、计算集群或任何数量的其它配置。存储器904可以包括随机存取存储器(RAM)、只读存储器(ROM)、闪存或任何其它合适的存储器系统。存储器904还可以包括硬盘驱动器、光盘驱动器、拇指驱动器、驱动器阵列或其任何组合。处理器902借助总线912连接到一个或多个输入和输出接口/装置。

异常声音检测系统900还可以是输入接口918。输入接口918配置为接收音频数据910。在一些实施方式中，异常声音检测系统900可以使用网络接口控制器(NIC)914经由网络916接收音频数据910。NIC 914可以适于借助总线912将异常声音检测系统900连接到网络916。在一些情况下，音频数据910可以是在线数据，诸如经由网络916接收的在线音频流。在一些其它情况下，音频数据910可以是存储在存储装置908中的记录数据。在一些实施方式中，存储装置908配置为存储用于训练神经网络906的训练数据集。存储装置908还可以配置为存储异常声音库，诸如库602。

在一些示例性实施方式中，异常声音检测系统900可以从一个或多个传感器(统称为传感器924)接收音频数据。传感器924可以包括捕获音频信号的相机、音频接收器等。例如，相机可以捕获场景的视频，该场景的视频包括场景的音频信息。场景可对应于室内环境或具有场景中的一或多个对象或人的音频信息的室外环境。

异常声音检测系统900还可以包括输出接口920。输出接口920配置为经由输出装置926输出异常分数。输出装置922可以基于异常分数来输出检测到的异常声音。输出装置922可以包括计算机、膝上型计算机、移动电话、智能手表等的显示屏(例如，监测器)。输出装置922还可以包括计算机、膝上型计算机、移动电话、智能手表等的音频输出装置(例如，扬声器)。异常分数用于执行控制动作。例如，控制动作可以包括在检测到异常声音时向机器的操作者发送通知(诸如警报)。

图10示出了根据本公开的实施方式的用于使用异常声音检测系统900来检测异常声音的用例1000。

在说明性示例场景中，使用机器1004(诸如超声机器、心跳监测机器等)来诊断或监测患者1002。例如，机器1004监测患者1002的心跳。机器1004连接到系统100。在一些示例性实施方式中，机器1004可以经由网络连接到系统100。在一些其它示例性实施方式中，系统100可以在机器1004内实施。机器1004将监测到的数据传输到系统100。所监测的数据可以对应于与患者1002的心跳速率相对应的记录音频或实况音频流。系统100处理所监测的数据并计算异常分数以确定异常声音。当检测到异常声音时，可以将检测到的异常报告给操作室(诸如急诊室1008)以辅助患者。

在一些其它情况下，患者1002可以由相机(诸如相机1006)监测。相机1006连接到系统100。相机1006可以捕获患者1002的视频，该视频可以包括对应于患者1002的音频信息。音频信息可以由系统100处理以用于异常声音检测。例如，患者1002可能在睡眠期间严重咳嗽。包括对应咳嗽声音的音频数据可以被传输到系统100。系统100处理该音频数据并计算异常分数以检测异常声音(诸如患者1002的咳嗽声音)。在一些情况下，系统100可以利用包括异常咳嗽声音数据的库602来检测患者的咳嗽是否异常。可以根据检测到的这种异常警告急诊室1008并通知医生或护士辅助患者1002。

图11示出了根据本公开的实施方式的用于使用异常声音检测系统900检测机器1102中的异常声音的用例1100。机器1102可以包括统称为机器部件1104的一个或多个部件(例如，致动器)。机器部件1104中的每一者均可以执行唯一任务并且可以连接到协调装置1106。由机器部件1104进行的任务的实施例可以包括加工、焊接或组装机器1102。在一些情况下，机器部件1104可以同时操作，而协调装置1106可以单独地控制机器部件1104中的每一者。协调装置1106的实施例是用于进行任务的工具。

机器1102可以连接到包括音频装置(诸如麦克风或多个麦克风的阵列)的传感器1110。传感器1110可以捕获在机器1108的操作期间由每个机器部件1104产生的振动。另外，一些机器部件1104可以共同位于同一空间区域中，从而机器部件1104可能无法被传感器1110单独捕获。由传感器1110捕获的振动可以被记录为声学混合信号1112。声学混合信号1112可以包括由每个机器部件1104产生的振动信号的总和。

使用异常声音检测系统900传输声学混合信号1112。在一些实施方式中，由异常声音检测系统900提取声学混合信号1112的谱图(例如，谱图404)。谱图可以包括可占据声学混合信号1112中的相同时间、空间和频谱的声源中的至少一些声源。声学混合信号1112的谱图被划分成谱图的上下文区域和对应的预测目标区域。上下文区域由异常声音检测系统900的神经网络906处理。神经网络906使用注意力神经过程架构(例如，注意力神经过程架构106A)来恢复谱图的时间帧和频率区域。获得恢复的时间帧和频率区域作为谱图的恢复目标区域。恢复目标区域可以包括谱图中的最低重构似然值。此外，比较恢复目标区域和划分的目标区域以确定异常分数。异常声音检测系统900输出异常分数，该异常分数用于检测声学混合信号1112中的异常声音。异常声音的检测可以避免执行任务时的故障，同时维持机器1102的顺畅操作。可以向操作者1114通知检测到的异常声音以执行控制动作，诸如终止机器的操作、通知人工干预等。例如，操作者1114可以对应于自动化操作者，该自动化操作者可以被编程为在检测到异常声音时终止机器1102的操作。在一些其它情况下，操作者1114可以对应于手动操作者，该手动操作者可以执行动作来干预，诸如替换机器部件1104中的一者、修理机器部件1104等。

图12示出了根据本公开的实施方式的用于使用异常声音检测系统900来检测异常声音的用例1200。在一些示例性实施方式中，异常声音检测系统900可以用于婴儿监测应用中。例如，婴儿监测装置1202可以经由网络(诸如网络916)连接到异常声音检测系统900。另选地，异常声音检测系统900可以实施在婴儿监测装置1202内。

在说明性示例场景中，婴儿监测装置1202可以监测房间1206中的婴儿1204。婴儿监测装置1202可以捕获音频信号，该音频信号可以包括婴儿的哭声、白噪声或房间中播放的音乐等。在一些情况下，白噪声或音乐可能比哭声大。响亮的白噪声或响亮的音乐可以妨碍不同房间中的看护者1208听到哭声。在此类情况下，婴儿监测装置1202可以将音频信号发送到异常声音检测系统900。

异常声音检测系统900可以接收音频信号的谱图。谱图被划分为上下文区域和目标区域。神经网络106使用注意力神经过程架构106A来处理上下文区域以恢复目标区域。恢复目标区域可以包括谱图的时频域中的可对应于哭声的值和坐标。将恢复目标区域与划分的目标区域进行比较以确定异常分数。异常分数可以对应于由异常声音检测系统900检测为异常声音的哭声。可以经由用户装置1210将检测到的异常声音通知给看护者1208。例如，用户装置1210可以包括婴儿监测装置1202的应用接口。看护者1208可以在检测到异常声音时进行动作。

以这种方式，系统100可以用于以有效且可行的方式检测音频信号中的异常声音。更具体地，系统100可以依赖于仅包括正常数据的训练数据来检测异常声音。系统100处理包括时间和频率信息两者的音频数据，这可以提高检测异常声音的准确性。此外，系统100能够处理表现出时变和非稳态行为的音频数据，这使得系统100是多用途的。此外，系统100可以执行音频数据中的异常区域的动态搜索以检测异常声音。动态搜索可以使系统100能够处理音频数据的特定部分，这排除了处理整个长度的音频数据，从而可以提高整体计算速度。

此外，各个实施方式可以描述为过程，该过程被描绘为流图、流程图、数据流图、结构图或框图。尽管流图可以将操作描述为顺序过程，但是可以并行或并发地执行许多操作。此外，可以重新布置操作的顺序。过程可以在其操作完成时终止，但是可以具有图中未讨论或包括的附加步骤。此外，并非任何特别描述的过程中的所有操作都可以在所有实施方式中发生。过程可以对应于方法、函数、过程、子例程、子程序等。

此外，可以至少部分地手动或自动地实施所公开的主题的实施方式。可以通过使用机器、硬件、软件、固件、中间件、微代码、硬件描述语言或其任何组合来执行或至少辅助手动或自动的实施。当以软件、固件、中间件或微代码实施时，用于进行必要任务的程序代码或代码段可以存储在机器可读介质中。处理器可以进行必要的任务。

可以以多种方式中的任何一种来实施本公开的上述实施方式。例如，可以使用硬件、软件或其组合来实施实施方式。当以软件实施时，可以在任何合适的处理器或处理器集合(这些处理器设置在单个计算机中或者分布在多个计算机中)上执行软件代码。此类处理器可以实施为集成电路，其中一个或多个处理器位于集成电路部件中。然而，可以使用任何合适格式的电路来实施处理器。

此外，本文概述的各种方法或过程可以编码为软件，该软件可在采用各种操作系统或平台中的任何一者的一个或多个处理器上执行。另外，这样的软件可以使用多种合适的编程语言和/或编程或脚本工具中的任何一种来编写，并且还可以编译为在框架或虚拟机上执行的可执行机器语言代码或中间代码。通常，程序模块的功能可以根据需要在各种实施方式中组合或分布。

此外，本公开的实施方式可以实施为一种方法，已经提供了方法的实施例。作为方法的一部分进行的动作可以以任何合适的方式排序。因此，可以构造其中以不同于所示的顺序执行动作的实施方式，这可以包括并发地执行一些动作，即使这些动作在说明性实施方式中被示为顺序动作。因此，所附权利要求的目的是覆盖落入本公开的真实精神和范围内的所有这样的变化和变型。

尽管已经参考某些优选实施方式描述了本公开，但是应当理解，可以在本公开的精神和范围内进行各种其它修改和变型。因此，所附权利要求的方面覆盖落入本公开的真实精神和范围内的所有这样的变化和变型。

Claims

1.一种用于检测异常声音的音频处理系统，所述音频处理系统包括：至少一个处理器；以及存储器，所述存储器上存储有指令，所述指令在被所述至少一个处理器执行时致使所述系统：

接收音频信号的谱图，所述谱图所具有的元素由所述谱图的时频域中的值限定，其中，所述谱图的每个元素的值均由所述时频域中的坐标标识；

将所述谱图的所述时频域划分为上下文区域和目标区域；

将所述上下文区域的元素的值和所述上下文区域的元素的坐标提交到包括注意力神经过程架构的神经网络中，以针对具有所述目标区域中的坐标的元素恢复所述谱图的值；

基于所述目标区域的元素的恢复值与所划分的目标区域的元素的值的比较来确定用于检测所述音频信号的异常声音的异常分数；以及

基于所述异常分数执行控制动作。

2.根据权利要求1所述的音频处理系统，其中，所述至少一个处理器配置为：

将所述谱图划分为上下文区域和目标区域的不同组合，以产生上下文区域集合和对应的目标区域集合；

多次执行所述神经网络，针对所述上下文区域集合中的每个上下文区域执行一次，以产生恢复目标区域集合；

将所述恢复目标区域集合中的每个恢复目标区域与所述目标区域集合中的对应目标区域进行比较，以确定异常分数集合；以及

基于对所述异常分数集合的汇聚操作来确定所述异常分数。

3.根据权利要求2所述的音频处理系统，其中，所述上下文区域是第一上下文区域，所述目标区域是第一目标区域，并且所述异常分数是第一异常分数，并且其中，所述处理器配置为：

基于所述第一异常分数识别所述时频域的第二分区；

将所述谱图的所述第二分区执行为第二上下文区域和第二目标区域；

用所述第二上下文区域的值和坐标重复所述神经网络的所述执行，以恢复所述第二目标区域，并基于所恢复的第二目标区域和所划分的第二目标区域的比较产生第二异常分数；以及

基于所述第二异常分数、所述第一异常分数和所述第二异常分数的组合或两者来执行第二控制动作。

4.根据权利要求1所述的音频处理系统，其中，通过随机或伪随机地选择训练的谱图的不同分区到上下文区域或目标区域中来训练所述神经网络，并且其中，在所述神经网络的执行期间，所述处理器配置为根据预定协议产生所述谱图的多个分区和对应的异常分数，以基于最大异常分数执行所述控制动作。

5.根据权利要求1所述的音频处理系统，其中，所述至少一个处理器还配置为：

基于已知的异常行为创建异常谱图库；

使用所述异常谱图库来识别难以预测的目标区域；以及

利用所识别的目标区域作为一个或多个假设来检测所述最大异常分数。

6.根据权利要求5所述的音频处理系统，其中，所述至少一个处理器配置为测试所述一个或多个假设以确定具有所述最大异常分数的目标区域，其中，所述一个或多个假设包括：

中间帧假设程序，所述中间帧假设程序旨在从所述谱图的侧部分恢复所述谱图的时间相关的中间部分，所述侧部分从所述谱图的帧的相对两侧夹持所述帧的中间部分；

频率掩蔽假设程序，所述频率掩蔽假设程序旨在从所述谱图的未掩蔽的周围区域恢复所述谱图的特定频率区域，其中，所述特定频率区域的所述恢复对应于至少从所述谱图的低频重构所述谱图的高频，或者从所述谱图的高频重构所述低频；

频率掩蔽假设程序，所述频率掩蔽假设程序旨在从所述谱图的相邻的和/或谐波相关的频带恢复各个频带；

基于能量的假设程序，所述基于能量的假设程序旨在从所述谱图的剩余未掩蔽的时频单元中恢复所述谱图的高能量时频单元；

旨在从所述谱图的剩余未掩蔽区域恢复随机选择的时间帧和掩蔽频带的子集的程序；

似然引导程序，所述似然引导程序执行多遍，其中通过首先将不同百分比的时频单元采样为所述谱图的上下文并重构整个谱图来确定所述谱图的不同上下文区域，其中，确定所重构的谱图的具有高重构似然的时频区域，并且使用所重构的谱图的具有所述高重构似然的所述时频区域作为上下文来重构具有低重构似然的时频区域；

集成程序，在所述集成程序中，组合多个以上假设生成程序以找到所述最大异常分数。

7.根据权利要求1所述的音频处理系统，其中，所述注意力神经过程架构包括：

编码器神经网络，所述编码器神经网络被训练为接收任意大小的输入集合，所述输入集合对应于所述上下文区域的元素的所述值和坐标，并且编码器针对所述输入集合的每个元素产生嵌入向量；

交叉注意力模块，所述交叉注意力模块被训练为通过注意所述上下文区域的在相邻坐标处的元素的所述嵌入向量来计算所述目标区域的每个元素的唯一嵌入向量；以及

解码器神经网络，所述解码器神经网络基于目标区域元素的目标区域坐标和所述唯一嵌入向量来输出所述目标区域的每个元素的概率分布。

8.根据权利要求7所述的音频处理系统，其中，所述编码器神经网络使用自注意力机制来联合编码所述上下文区域的所有元素。

9.根据权利要求7所述的音频处理系统，其中，所述交叉注意力模块使用多头注意力。

10.根据权利要求7所述的音频处理系统，其中，所述解码器神经网络输出以下中的至少一者：条件独立高斯分布的多个参数；以及高斯分布的条件独立混合的多个参数。

11.根据权利要求1所述的音频处理系统，其中，所述至少一个处理器配置为在所述谱图上实施滑动窗口，所述滑动窗口由所述神经网络使用注意力神经网络架构来处理以确定用于检测所述异常声音的所述异常分数。

12.一种用于检测异常声音的计算机实施的方法，所述方法包括：

接收音频信号的谱图，所述谱图所具有的元素由时频域中的值限定，其中，所述谱图的每个元素的值均由所述时频域中的坐标标识；

将所述谱图的所述时频域划分为上下文区域和目标区域；

将所述上下文区域的元素的值和所述上下文区域的元素的坐标提交到包括注意力神经过程架构的神经网络中，以针对具有所述目标区域中的坐标的元素恢复所述谱图的值；以及

基于所述目标区域的元素的恢复值与所划分的目标区域的元素的值的比较来确定用于检测所述音频信号的所述异常声音的异常分数；以及

基于所述异常分数执行控制动作。

13.根据权利要求12所述的方法，所述方法还包括：

将所述恢复目标区域集合中的每个恢复目标区域与对应目标区域进行比较，以确定异常分数集合；以及

基于对所述异常分数集合的汇聚操作来确定所述异常分数。

14.根据权利要求13所述的方法，其中，所述上下文区域是第一上下文区域，所述目标区域是第一目标区域，并且所述异常分数是第一异常分数，并且所述方法还包括：

基于所述第一异常分数识别所述时频域的第二分区；

15.根据权利要求12所述的方法，所述方法还包括：

通过随机或伪随机地选择训练的谱图的不同分区到上下文区域或目标区域中来训练所述神经网络；

在所述神经网络的执行期间，根据预定协议产生所述谱图的多个分区和对应的异常分数；以及

基于所述最大异常分数执行所述控制动作。

16.根据权利要求12所述的方法，所述方法还包括：

基于已知的异常行为创建异常谱图库；

使用所述异常谱图库来识别难以预测的目标区域；以及

17.根据权利要求16所述的方法，所述方法还包括：测试所述一个或多个假设以找到具有所述最大异常分数的所述目标区域，所述一个或多个假设包括：

中间帧假设程序，所述中间帧假设程序旨在从所述谱图的侧部分恢复所述谱图的时间相关的中间部分，所述侧部分从相对两侧夹持所述中间部分；

频率掩蔽假设程序，所述频率掩蔽假设程序旨在从相邻的和/或谐波相关的频带恢复各个频带；

似然引导程序，所述似然引导程序执行多遍，其中通过首先将不同百分比的时频单元采样为上下文来确定不同上下文区域，并重构整个谱图，然后仅找到所重构的谱图的具有高重构似然的那些时频区域，并且使用所述具有高重构似然的时频区域作为上下文以重构具有低重构似然的时频区域；以及

集成程序，所述集成程序用于组合多个以上假设生成程序以找到所述最大异常分数。

18.根据权利要求12所述的方法，其中，所述注意力神经过程架构执行：

由所述注意力神经过程架构的经训练的编码器神经网络接收任意大小的输入集合，所述输入集合对应于所述上下文区域的元素的所述值和元素的所述坐标，并且其中，所述编码器神经网络输出所述输入集合的每个元素的嵌入向量；

由所述注意力神经过程架构的经训练的交叉注意力模块通过注意所述上下文区域的在相邻坐标处的元素的所述嵌入向量来计算所述目标区域的每个元素的唯一嵌入向量；以及

由经训练的解码器神经网络基于目标区域元素的目标区域坐标和所述唯一嵌入向量来输出所述目标区域的每个元素的概率分布。

19.根据权利要求18所述的方法，所述方法还包括由所述编码器神经网络使用自注意力机制来联合编码所述上下文区域的所有元素。

20.根据权利要求18所述的方法，所述方法还包括由所述解码器神经网络输出以下中的至少一者：条件独立高斯分布的多个参数；以及高斯分布的条件独立混合的多个参数。