CN110010156A

CN110010156A - 基于对事件子部分的序列的建模的声音事件检测

Info

Publication number: CN110010156A
Application number: CN201811376608.9A
Authority: CN
Inventors: 库巴·洛帕特卡; 托比亚斯·博克雷; 马特乌什·考特瑞斯基
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2017-12-07
Filing date: 2018-11-19
Publication date: 2019-07-12
Also published as: BR102018072809A2; US20190042881A1; DE102018127773A1; US11216724B2

Abstract

本公开涉及基于对事件子部分的序列的建模的声音事件检测。提供了用于声音事件检测的技术。根据实施例的实现该技术的方法包括从接收到的音频信号提取声音特征。声音特征可以包括例如，音频信号的一个或多个短期傅里叶变换帧或其他频谱能量特性。该方法还包括对所提取的声音特征应用受训分类器以识别并标记音频信号的声音事件子部分并生成与这些子部分相关联的分数。该方法还包括执行声音事件子部分和相关联的分数的序列解码，以基于事件子部分的分数和时间排序来检测感兴趣的目标声音事件。在通过对包括目标声音事件的训练数据应用的无监督子空间聚类技术生成的声音事件子部分上训练分类器。

Description

基于对事件子部分的序列的建模的声音事件检测

技术领域

本文的实施例一般地涉及基于对事件子部分的序列的建模的声音事件检测。

背景技术

声音事件检测在与物联网(IoT)、智能家居技术、以及数字监控系统有关的应用中扮演越来越重要的角色。通常有用的是，检测/辨认系统能够对所选择的感兴趣的声音事件(例如，射击、打碎玻璃、哭泣的婴儿、或者指示可能需要相关方关注的情况的其他声音)做出响应。现有的辨认系统一般需要在包含感兴趣的事件类型的声音训练数据序列上进行训练。需要对这些事件进行标记并且必须提供这些事件在数据序列中的位置，这通常是一项耗时且昂贵的任务。另外，这些现有的系统通常不能提供这些应用中的一些应用所必需的、期望等级的精确度(例如，在检测率和错误警报率方面)。

发明内容

根据本公开的一方面，提供了一种处理器实现的用于检测声音事件的方法，所述方法包括：由基于处理器的系统从音频信号提取一个或多个声音特征；由所述基于处理器的系统向所提取的一个或多个声音特征应用受训分类器，以识别所述音频信号的声音事件子部分并生成与所述子部分相关联的分数；以及由所述基于处理器的系统执行所述声音事件子部分和相关联的分数的序列解码，以检测声音事件。

根据本公开的另一方面，提供了一种用于声音事件检测的系统，所述系统包括：特征提取电路，其从音频信号提取声音特征；分类器电路，其基于所提取的声音特征识别所述音频信号的声音事件子部分，并生成与所述子部分相关联的分数；以及序列解码器电路，其执行所述声音事件子部分和相关联的分数的序列解码以检测声音事件。

根据本公开的又一方面，提供了至少一种非暂态计算机可读存储介质，其上编码有指令，所述指令在被一个或多个处理器执行时导致用于检测声音事件的操作，所述操作包括：从音频信号提取一个或多个声音特征；向所提取的一个或多个声音特征应用受训分类器以识别所述音频信号的声音事件子部分并生成与所述子部分相关联的分数；以及执行所述声音事件子部分和相关联的分数的序列解码以检测声音事件。

附图说明

本专利或申请文件包含至少一幅彩图。本专利或专利申请公开和彩图的副本将由官方根据请求和必要费用的支付提供。

参考附图，所请求的主题的实施例的特征和优点将随着下面的详细描述的进行而变得显而易见，其中，相同的标号描绘相似的部分。

图1是根据本公开某些实施例配置的声音事件检测系统的顶级框图。

图2是根据本公开某些实施例配置的聚类电路的更详细框图。

图3示出了根据本公开某些实施例的声波波形、声音特征、和标记。

图4示出了根据本公开某些实施例配置的受训分类器的输入和输出。

图5提供了根据本公开某些实施例的事件标记和聚类标记的图形比较。

图6示出了根据本公开某些实施例配置的序列解码器电路的状态。

图7是示出根据本公开某些实施例的用于声音事件检测的方法的流程图。

图8是示意性地示出根据本公开某些实施例的被配置为执行声音事件检测的计算平台的框图。

尽管将参考说明性实施例继续进行下面的详细描述，但是其很多替代、修改、和变形将根据本公开变得显而易见。

具体实施方式

总体而言，本公开提供了用于基于对感兴趣的事件的子部分序列的建模进行声音事件检测的技术。声音事件一般包括多个顺序子部分，这些子部分中的每个子部分都可以具有不同的可识别特性。根据本公开将明白的是，子部分的数目根据情况而不同，但是一般包括两个以上不同的可辨别子部分。例如，打碎玻璃的声音可以包括与最初的破碎相关联的尖锐的冲击声、然后是随着破碎传遍玻璃的噼啪声、再后是随着碎片破裂并掉落到周围区域的第三种不同的声音。根据本公开，任意数目的其他的这种多部分声音事件将是显而易见的。该技术总地包括训练阶段和推理或应用阶段，并且可以被实现在例如，计算系统或者可由这种系统控制或以其他方式执行的软件产品中(尽管其他实施例将是显而易见的)。该系统或产品被配置为检测给定的整体音频信号中可能出现的一个或多个感兴趣的声音事件(例如，目标声音事件)。注意，整体音频信号本身可以包括一个或多个实际的声音事件，每个声音事件包括多个子部分。

根据一个实施例，训练识别感兴趣的事件的每个声音子部分并对这些声音子部分进行评分的分类器。分类器可以是例如，深度神经网络。随后将受训分类器应用于从被提供用于分析的信号提取的声音特征，并且推断或以其他方式生成子部分分数的序列。如前所述，声音特征可以包括音频信号的短期傅里叶变换或任何其他频谱能量特性。序列解码器随后执行声音事件子部分和相关联的分数的序列解码，以辨认这些子部分的正确时间序列，根据这些子部分的正确时间序列可以确定事件检测。由于分类器有效地对给定的声音事件的多个子部分的不同特性进行建模而不是尝试辨认该事件整体，所以事件检测性能改善了(例如，更少的错误或不正确检测)。另外，由于序列解码将时间次序强加到子部分上，所以检测性能更加可靠和鲁棒。

在一些这样的实施例中，在通过对包括目标声音事件的训练数据应用的无监督子空间聚类技术生成的声音事件子部分上训练分类器，如下面将更详细地解释的。无监督子空间聚类技术的使用提供的额外好处在于，不需要利用声音事件的开始点和停止点对训练数据进行注释，如下面将解释的。这个好处允许训练数据的生成更高效且合算。

将明白的是，本文中描述的技术允许基于利用更精细等级的粒度对事件子部分进行建模来改善声音事件检测，这提高了分类器的辨别力(相比试图辨认事件整体的现有系统)。所公开的技术可以被实现在包括膝上型计算机、平板计算机、智能电话、工作台、嵌入系统或设备在内的各种平台上实现。这些技术尤其适合用在数字信号处理器(DSP)或其他专用超低功率硬件上。这些技术还可以被实现在硬件或软件或它们的组合中。

图1是根据本公开某些实施例配置的声音事件检测系统100的顶级框图。系统100被示出为包括特征提取电路109、聚类电路102、分类器训练电路104、受训分类器106、以及序列解码器电路108。在高等级，声音事件检测系统100接收包含目标声音事件的训练数据110，并使用无监督子空间聚类在这些事件的子部分120上执行分类器训练，如下面更详细地解释的。受训分类器106随后可以被用在操作模式中，以基于聚类的子部分来检测接收到的音频信号130中的感兴趣的声音事件(例如，目标事件)。特征提取电路109、聚类电路102、以及分类器训练电路104被用在声音事件检测系统100的训练模式中。特征提取电路109、受训分类器106、以及序列解码器电路108被用在声音事件检测系统100的操作模式中。

特征提取电路109被配置为从所提供的音频信号(例如，包含目标声音事件的训练数据或训练信号110、以及将在其上执行事件检测的音频信号130)提取声音特征。在一些实施例中，所提取的声音特征包括音频信号的短期傅里叶变换(STFT)帧。在一些实施例中，根据本公开，声音特征可以包括滤波器组特征、梅尔频率倒谱系数(MFCC)、频谱形状描述符、或者其他已知的声音特征度量。图3示出了从包含目标声音事件数据220的信号提取的示例声音特征160。在一些实施例中，STFT间隔或帧长度306可以大约为50毫秒(ms)。

如在声音特征160中可以看到的，事件开始处的特征特性显著不同于事件中间和末尾处的特征特性。因此，通过增加下至子部分等级的建模粒度，可以将分类器训练地更适合数据。

聚类电路102被配置为执行所提取的特征的无监督子空间聚类，以生成声音事件子部分120，声音事件子部分120被分类器训练电路104用来训练辨认目标声音事件的分类器。下面将结合图2和图3更详细地描述聚类电路102和分类器训练电路104的操作。

在操作模式中，特征提取电路109被配置为通过与上述从训练数据110提取特征相同的方式从音频信号130提取特征。音频信号130一般(尽管不一定)是未知信号，并且可以包含或可以不包含目标声音事件(例如，感兴趣的事件)。受训分类器106被配置为基于所提取的声音特征识别音频信号的声音事件子部分，并生成与这些子部分相关联的分数140。

在一些实施例中，分类器电路被实现为深度神经网络(DNN)、支持向量机、决策树分类器、k最近邻分类器、随机森林分类器、梯度提升分类器、基于逻辑回归的分类器、或者使用根据本公开的其他已知技术。图4示出了受训分类器106的深度神经网络实施方式。输入层410接收音频信号的所提取的特征170。这些声音特征被包括隐藏层420和最终的输出层430在内的每个层的节点操作。在该示例中，每个输出层节点与对应于目标声音事件的子部分的目标事件输出402之一或形成拒绝模型的非目标事件输出404相关联。这些输出节点生成来自该节点的分类输出的标记和分数。这些标记识别声音事件子部分。分数可以是指示该分类输出的置信度的归一化标尺上的相对值。

这在图5中示出，图5示出了音频信号130、所提取的声音特征170、以及包括分数和标记的DNN的输出504、506。图5提供了事件标记504和聚类标记506的图解比较。曲线图504示出了被训练为辨认标记为“输出1”的整个声音事件510的DNN分类器的输出，其中竖轴上是分数。可以看出，在事件等级标记上训练的这种分类器对于事件的中间部分更敏感，并且因此可能将目标事件和具有类似于中间部分的特征的其他声音混淆，从而产生更多错误检测。

曲线图506示出了根据本公开某些实施例的被训练为辨认声音事件的子部分的DNN分类器的输出。子部分520、530、540被分别标记为“输出1”、“输出2”、和“输出3”，其中竖轴上是分数。对于这种分类器，要求检测具有正确次序的所有三个不同子部分，以提高错误检测率。

序列解码器电路108被配置为执行由分类器106生成的经标记的声音事件子部分和相关联的分数的序列解码以检测声音事件。序列解码基于声音事件子部分的时间排序和对相关联的分数与所选择的阈值分数值的比较。解码器对于子部分状态的正常序列敏感。不同的是，当检测到具有足够高的分数的子部分的正确序列时，认为检测到了声音事件。在一些实施例中，序列解码器电路采用加权有限状态转换器、循环神经网络(RNN)、或者长短期记忆RNN中的一者或多者。

图6示出了根据本公开某些实施例配置的序列解码器电路108的状态图表示。解码器可以处于非目标事件状态602或目标事件状态604。在该示例中，在分类器生成非目标事件输出4、5、6、7时，解码器保持在状态零(S0)。当生成目标事件输出1时，序列解码器移位到状态1(S1)并在不同的事件输出被生成之前保持在状态1。响应于目标事件输出2的生成，序列解码器从状态1(S1)移位到状态2(S2)，并且在不同的事件输出被生成之前保持在状态2。随后，响应于目标事件输出3的生成，序列解码器从状态2(S2)移位到状态3(S3)。当序列解码器电路按照正确的次序穿越状态1至状态3时，可以检测到具有令人满意的分类器输出分数的声音事件。在一些实施例中，事件检测还可以要求序列解码器电路在三种状态中的每种状态中保持所选择的持续时间。例如，给定的声音事件的每个子部分的持续时间可以是已知的或者预计处于特定的时间持续值范围内。

现在转到图2，示出了根据本公开某些实施例配置的聚类电路102的更详细框图。聚类电路102被用在声音事件检测系统100的训练模式中，并且对从包含声音事件的训练数据110提取的声音特征160进行操作。至少一些训练数据将包含目标数据220(例如，将由分类器检测的感兴趣的声音事件)。在一些实施例中，训练数据还可以包含非目标数据230，这可以改善分类器的训练从而对目标声音事件和非目标声音事件进行区分。如果提供了非目标数据230，则执行分类处理202以提供一些适当类型的标记从而在目标数据220和非目标数据230之间进行区分。该处理可以手动或以自动方式执行，或者分类信息可以被包括作为由例如，第三方提供的声音记录的数据库的组成部分。

来自目标数据以及可选地来自非目标数据的声音特征160是使用无监督子空间聚类分别在操作208和210聚类的。在一些实施例中，无监督子空间聚类被实现为k-means聚类、高斯混合模型聚类、DenStream聚类、或者通过根据本公开的其他已知技术实现。

使用无监督子空间聚类技术的一个好处在于，数据的无声部分被聚类到与事件子部分聚类不同的聚类中。这允许自动检测训练数据中的事件子部分的开始点和结束点，因为这些事件子部分一般仅为训练数据的非无声部分。相反，基于整个事件的标记而非子部分聚类的检测系统一般需要经注释的训练数据来对事件的开始点和结束点做记号，这会是耗时且昂贵的处理。然而，在一些实施例中，训练数据的一些部分可以包括指示目标声音事件的子部分的位置的参考注释，这可以提高子空间聚类技术的效率并有助于子空间聚类技术的初始化。这些参考注释的生成在操作206示出。在这些实施例中，在有关训练数据的参考注释或其他先验知识可用时，可以采用半监督子空间聚类技术。半监督(或半自动)子空间聚类技术可以包括约束k-means聚类、播种k-means聚类、以及高斯混合模型聚类和DenStream聚类的半监督变体。

在一些其他实施例中，目标声音事件的所有或大多数子部分的参考注释可用，从而消除了执行子空间聚类操作的需要。

在聚类电路的操作212，所生成的聚类经历后处理操作以减少噪声(例如，可以与聚类相关联或不相关联的特异点或歧义点)。在一些实施例中，这可以通过对来自相邻帧的聚类结果的中值滤波和/或比较实现。

在聚类电路的操作214，例如，通过将声音特征与聚类索引相关联，生成每个聚类(子部分)的标记。这在图3中示出，图3示出了与目标声音事件的每个子部分相关联的聚类标记302。在该示例中，被标记为“玻璃破碎”的事件304被示出为包括被标记为“聚类1”、“聚类2”、以及“聚类3”的三个连续子部分。

收集大量训练声音事件110的经标记的声音事件子部分302和相关联的声音特征160，并且将这些经标记的声音事件子部分302和相关联的声音特征160提供给分类器训练电路104来使用根据本公开的已知技术训练区分事件子部分的分类器。

方法

图7是示出根据本公开某些实施例的用于声音事件检测的示例方法700的流程图。可以看出，示例方法包括多个阶段和子处理，这些阶段和子处理的顺序在不同实施例中可以不同。但是，当结合起来考虑时，这些阶段和子处理形成根据本文公开的某些实施例的用于声音事件检测的处理。这些实施例可以例如，使用如上所述的图1和图2中示出的系统架构来实现。但是，在其他实施例中可以使用其他系统架构，如根据本公开将显而易见的。至此，图7中所示的对于其他附图中示出的具体组件的各种功能的关联不用来暗示任何结构和/或使用限制。相反，其他实施例可以包括例如，改变集合的程度，其中，多个功能由一个系统有效执行。例如，在替代实施例中，具有解耦子模块的单个模块可以被用来执行方法700的所有功能。因此，取决于实现粒度，其他实施例可以具有更多或更少的模块和/或子模块。在其他实施例中，所描绘的方法可以被实现为包括一个或多个非暂态机器可读介质的计算机程序产品，该计算机程序产品在被一个或多个处理器执行时使得该方法被执行。根据本公开，多个变形和替代配置将显而易见。

如图7所示，在一个实施例中，用于声音事件检测的方法700开始于在操作710从接收到的音频信号提取声音特征。在一些实施例中，所提取的声音特征可以包括音频信号的短期傅里叶变换。在一些实施例中，音频信号可以由麦克风提供或者从预先记录的音频信号的数据库中获取。

接下来，在操作720，向所提取的声音特征应用受训分类器，以识别并标记音频信号的声音事件子部分并且生成与这些子部分相关联的分数。这些子部分可以表示例如，玻璃破碎、射击、或者关门之类的声音事件的开始、中间、或尾端部分。在一些实施例中，分类器被实现为深度神经网络、支持向量机、决策树分类器、或者k最近邻分类器。

在操作730，基于事件子部分的时间排序和相关联的分数，在声音事件子部分和相关联的分数上执行序列解码以检测声音事件。在一些实施例中，序列解码可以由加权有限状态转换器、循环神经网络(RNN)、或者长短期记忆RNN执行。

当然，在一些实施例中，可以执行附加操作，如前面结合系统所描述的。例如，在通过对包括目标声音事件的训练数据应用的无监督子空间聚类技术生成的声音事件子部分上训练分类器。在一些实施例中，无监督子空间聚类可以采用k-means聚类、高斯混合模型聚类、或DenStream聚类。

示例系统

图8示出了根据本公开某些实施例配置的执行声音事件检测的示例系统800。在一些实施例中，系统800包括计算平台810，该计算平台可以管控下述各项或者以其他方式结合在下述各项中：个人计算机、工作台、服务器系统、膝上型计算机、超膝上型计算机、平板计算机、触摸板、便携计算机、手持计算机、掌上计算机、个人数字助理(PDA)、蜂窝电话、组合蜂窝电话和PDA、智能设备(例如，智能电话或智能平板)、移动互联网设备(MID)、通讯设备、数据通信设备、成像设备、可穿戴设备、嵌入系统等。在某些实施例中可以使用不同设备的任意组合。

在一些实施例中，平台810可以包括处理器820、存储器830、声音事件检测系统100、网络接口840、输入/输出(I/O)系统850、用户接口860、音频捕捉设备862、以及存储系统870的任意组合。如可以进一步看出的，还提供总线和/或互连892以允许以上列出的各种组件和/或没有示出的其他组件之间的通信。平台810可以通过网络接口840耦合到网络894，以允许与其他计算设备、平台、或资源的通信。图8的框图中没有反映出来的其他组件和功能根据本公开将显而易见，并且将明白的是，其他实施例不限于任何特定的硬件配置。

处理器820可以是任何适当的处理器，并且可以包括一个或多个协处理器或控制器(例如，音频处理器、图形处理单元、或硬件加速器)以帮助控制和处理与系统800相关联的操作。在一些实施例中，处理器820可以被实现为任意数目的处理器核。处理器(或处理器核)可以为任意类型的处理器，例如，微处理器、嵌入处理器、数字信号处理器(DSP)、图形处理器(GPU)、网络处理器、现场可编程门阵列、或被配置为执行代码的其他设备。处理器可以是多线程核，其中，它们可以包括每个核的一个以上硬件线程上下文(或“逻辑处理器”)。处理器820可以被实现为复杂指令集计算机(CISC)或精简指令集计算机(RISC)处理器。在一些实施例中，处理器820可以被配置为x86指令集兼容处理器。

可以使用包括例如，闪存和/或随机存取存储器(RAM)在内的任意适当类型的数字存储设备来实现存储器830。在一些实施例中，存储器830可以包括本领域技术人员已知的存储器分级体系的各种层和/或存储器高速缓存。存储器830可以被实现为易失性存储器设备，例如但不限于，RAM、动态RAM(DRAM)、或者静态RAM(SRAM)设备。存储系统870可以被实现为非易失性存储设备，例如但不限于，硬盘驱动器(HDD)、固态驱动器(SSD)、通用串行总线(USB)驱动器、光盘驱动器、磁带驱动器、内部存储设备、附加存储设备、闪存、电池备份同步DRAM(SDRAM)、和/或网络可访问存储设备中的一者或多者。在一些实施例中，存储系统870可以包括在包括多个硬驱动时增加对于有价值的数字媒体的存储性能保护的技术。

处理器820可以被配置为执行操作系统(OS)880，该操作系统可以包括诸如，Google Android(加州山景城谷歌公司)、Microsoft Windows(华盛顿州雷德蒙德微软公司)、Apple OS X(加州库比蒂诺苹果公司)、Linux、或者实时操作系统(RTOS)之类的任何适当的操作系统。如根据本公开将明白的，本文中提供的技术可以在不考虑结合系统800提供的特定操作系统的条件下被实现，因此也可以使用任何现有的或后续开发出的平台来实现。

网络接口电路840可以是允许计算机系统800和/或网络894的其他组件之间的有线和/或无线连接，从而使得系统800能够与其他本地和/或远程计算系统、服务器、基于云的服务器、和/或其他资源通信的任何适当网络芯片或芯片集。有线通信可以遵循例如，以太网的现有(或者将开发出的)标准。无线通信可以遵循诸如，包括LTE(长期演进)、无线保真(Wi-Fi)、蓝牙、和/或近场通信(NFC)在内的蜂窝通信的现有(或将开发出的)标准。示例性无线网络包括但不限于，无线局域网、无线个人域网、无线城域网、蜂窝网络、以及卫星网络。

I/O系统850可以被配置为在各种I/O设备和计算机系统800的其他组件之间通过接口连接。I/O设备可以包括但不限于，用户接口860和音频捕捉设备862(例如，麦克风)。用户接口860可以包括诸如，显示元件、触摸板、键盘、鼠标、以及扬声器等的设备(未示出)。I/O系统850可以包括被配置为执行用于在显示元件上渲染的图像的处理的图形子系统。图形子系统可以是例如，图形处理单元或视觉处理单元(VPU)。模拟或数字接口可以被用来通信地耦合图形子系统和显示元件。例如，接口可以是高分辨率多媒体接口(HDMI)、显示端口、无线HDMI、和/或使用无线高分辨率兼容技术的任何其他适当接口中的任意接口。在一些实施例中，图形子系统可以被集成到处理器820或平台810的任意芯片集中。

将明白的是，在一些实施例中，系统800的各种组件可以结合或集成在片上系统(SoC)架构中。在一些实施例中，组件可以是硬件组件、固件组件、软件组件、或者硬件、固件、或软件的任意适当组合。

声音事件检测系统100被配置为基于感兴趣的事件的按照期望的时间次序出现的子部分的辨认或识别来检测该事件，如前所述。声音事件检测系统100可以包括图1和图2中所示的任意或全部电路/组件。可以结合耦合到平台810或以其他方式形成平台810的一部分的各种适当软件和/或硬件来实现或以其他方式使用这些组件。还可以结合能够向用户提供信息并从用户接收信息和命令的用户I/O设备来替代地或附加地实现或以其他方式使用这些组件。

在一些实施例中，这些电路可以被安装在系统800本地，如图8的示例实施例所示。替代地，系统800可以被实现在客户端-服务器部署中，其中，与这些电路相关联的至少一些功能是使用小应用程序(例如，JavaScript小应用程序)或其他可下载模块或子模块集提供给系统800的。这样的可远程访问模块或子模块可以响应于来自客户端计算系统的访问给定服务器的请求实时提供，该给定服务器具有客户端计算系统的用户感兴趣的资源。在这些实施例中，服务器可以在网络894本地，或者通过一个或多个其他网络和/或通信信道远程耦合到网络894。在一些情况下，对于给定网络或计算系统上的资源的访问可能需要诸如，用户名、密码、和/或根据任何其他适当的安全机制的凭证。

在各种实施例中，系统800可以被实现为无线系统、有线系统、或它们二者的组合。当被实现为无线系统时，系统800可以包括适于在诸如，一个或多个天线、发射机、接收机、收发机、放大器、滤波器、控制逻辑等的无线共享介质上通信的组件和接口。无线共享介质的示例可以包括无线频谱的部分，例如，射频频谱等。当被实现为有线系统时，系统800可以包括适合在诸如，输入/输出适配器、将输入/输出适配器和对应的有线通信介质连接的物理连接器、网络接口卡(NIC)、盘控制器、视频控制器、音频控制器等的有线通信介质上通信的组件和接口。有线通信介质的示例可以包括电线、电缆金属引线、印刷电路板(PCB)、背板、交换矩阵、半导体材料、双绞线、同轴电缆、光纤等。

可以使用硬件元件、软件元件、或它们二者的组合实现各种实施例。硬件元件的示例可以包括处理器、微处理器、电路、电路元件(例如，晶体管、电阻器、电容器、电感器等)、集成电路、ASIC、可编程逻辑器件、数字信号处理器、FPGA、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片集等。软件的示例可以包括软件组件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、功能、方法、进程、软件接口、应用程序接口、指令集、计算代码、计算机代码、代码段、计算机代码段、字、值、符号、或它们的任意组合。确定实施例是使用硬件元件和/或软件元件实现可以根据任意数目的因素来改变，这些因素是例如，期望的计算速率、功率电平、耐热性、处理周期预算、输入数据速率、输出数据速率、存储器资源、数据总线速度、以及其他设计或性能约束。

可以使用表达“耦合”和“连接”以及它们的衍生词描述一些实施例。这些术语不旨在作为彼此的同义词。例如，使用术语“连接”和/或“耦合”来描述一些实施例，以指示两个以上元件彼此直接物理或电接触。但是，术语“耦合”也可以表示两个以上元件不是彼此直接接触，但仍然相互协作或交互。

可以用各种形式的硬件、软件、固件、和/或专用处理器实现本文中公开的各种实施例。例如，在一些实施例中，至少一个非暂态计算机可读存储介质具有编码在其上的指令，这些指令在被一个或多个处理器执行时使得本文中公开的一种或多种声音事件检测方法被实现。可以使用诸如，C、C++、面向对象的C、Java、JavaScript、Visual Basic.NET、初学者通用符号指令代码(BASIC)的适当编程语言或者替代地使用定制或专用指令集来编码这些指令。可以通过有形地具体化在存储器设备上并且可以由具有任何适当架构的计算机执行的一个或多个计算机软件应用和/或小应用程序的形式提供指令。在一个实施例中，系统可以容宿在给定网站上并且例如，使用JavaScript或其他适当的基于浏览器的技术来实现。例如，在某些实施例中，系统可以利用经由网络894可访问的远程计算机系统提供的处理资源。在其他实施例中，本文中公开的功能可以结合到其他基于声音的软件应用中，例如，安全、监控、智能家居管理、机器人、以及物联网(IoT)应用。本文中公开的计算机软件应用可以包括任意数目的不同模块、子模块、或者不同功能的其他组件，并且可以向其他组件提供信息或从其他组件接收信息。这些模块可以被用来例如，与诸如，显示屏、触摸敏感表面、打印机、和/或任何其他适当设备的输入和/或输出设备通信。示图中没有反映出来的其他组件和功能根据本公开将显而易见，并且将明白的是，其他实施例不限于任何特定硬件或软件配置，因此，在其他实施例中，相比图8的示例实施例中包括的组件，系统800可以包括附加的、更少的、或者替代的子组件。

前述非暂态计算机可读介质可以是用于存储数字信息的任何适当介质，例如，硬盘驱动器、服务器、闪存、和/或随机存取存储器(RAM)、或存储器的组合。在替代实施例中，本文中公开的组件和/或模块可以利用包括诸如现场可编程门阵列(FPGA)的门级逻辑或者替代地诸如专用集成电路(ASIC)的专用半导体在内的硬件实现。其他实施例可以利用具有用于接收和输出数据的多个输入/输出端口的微控制器以及用于实现本文中公开的各种功能的多个嵌入例程实现。将显而易见的是，可以使用硬件、软件、以及固件的任意适当的组合，并且其他实施例不限于任何特定系统架构。

一些实施例可以例如，使用可以存储指令或指令集的机器可读介质或物品实现，其中，该指令或指令集在被机器执行时可以使得机器执行根据实施例的方法和/或操作。这样的机器可以包括例如，任何适当的处理平台、计算平台、计算设备、处理设备、计算系统、处理系统、计算机、处理等，并且可以使用硬件和/或软件的任何适当组合实现。机器可读介质或物品可以包括例如，任何适当类型的存储器单元、存储器设备、存储器物品、存储器介质、存储设备、存储物品、存储介质、和/或存储单元，例如，存储器、可移除或非可移除介质、可擦除或非可擦除介质、可写或可重写介质、数字或模拟介质、硬盘、软盘、压缩盘只读存储器(CD-ROM)、压缩盘可记录(CD-R)存储器、压缩盘可重写(CD-RW)存储器、光盘、磁性介质、磁-光介质、可移除存储器卡或盘、各种类型的数字通用盘(DVD)、磁带、磁盒等。指令可以包括使用任何适当的高级、低级、面向对象、可视、编译、和/或解释编程语言实现的任何适当类型的代码，例如，源代码、编译代码、可执行代码、静态代码、动态代码、加密代码等。

除非有相反的具体说明，否则可以理解的是，诸如“处理”、“计算”、“运算”、“确定”等的术语指代计算机或计算系统或类似计算设备将被表示为计算机系统的寄存器和/或存储器单元中的物理量(例如，电子)的数据操控和/或变换为被表示为计算机系统的寄存器、存储器单元、或者其他这种信息存储传输或显示器中的物理量的其他数据的动作和/或过程。实施例不限于该上下文。

本文中的任意实施例中使用的术语“电路”或“电路系统”是功能性的并且可以包括例如，硬件电路、可编程电路(例如，包括一个或多个单独指令处理核的计算机处理器)、静态机电路、和/或存储由可编程电路执行的指令的固件中的任一者或者它们的任意组合。电路可以包括被配置为执行一个或多个指令以执行本文中描述的一个或多个操作的处理器和/或控制器。指令可以被具体化为例如，被配置为促使电路执行前述操作中的任意操作的应用、软件、固件等。软件可以被具体化为记录在计算机可读存储设备上的软件包、代码、指令、指令集、和/或数据。软件可以被具体化或实现为包括任意数目的进程，并且这些进程进而可以被具体化或实现为按照分层的方式包括任意数目的线程等。固件可以被具体化为硬编码(例如，非易失性地)在存储器设备中的代码、指令、或指令集和/或数据。电路可以统一或分别被具体化为形成更大的系统(例如，集成电路(IC)、专用集成电路(ASIC)、片上系统(SoC)、桌面型计算机、膝上型计算机、平板计算机、服务器、智能电话等)的一部分的电路。其他实施例可以被实现为由可编程控制设备执行的软件。在这些情况中，术语“电路”或“电路系统”意欲包括软件和能够执行软件的硬件(例如，可编程控制设备或处理器)的组合。如本文中所述，可以使用硬件元件、软件元件、或者它们的任意组合来实现各种实施例。硬件元件的示例可以包括处理器、微处理器、电路、电路元件(例如，晶体管、电阻器、电容器、电感器等)、集成电路、专用集成电路(ASIC)、可编程逻辑器件(PLD)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片集等。

本文中已经提供了多个具体细节以提供对实施例的透彻理解。本领域普通技术人员将理解的是，可以在没有这些具体细节的条件下实施这些实施例。在其他实例中，没有描述公知的操作、组件、和电路，以避免模糊实施例。可以明白的是，本文中公开的具体结构和功能细节可以是说明性的并且不一定限制实施例的范围。另外，尽管使用专用于结构特征和/或方法动作的语言描述了主题，但是将理解的是，所附权利要求中限定的主题不一定局限于本文中描述的具体特征或动作。相反，本文中描述的具体特征和动作被公开作为实现权利要求的示例形式。

进一步的示例实施例

下面的示例涉及进一步的实施例，根据这些实施例各种排列和配置将变得显而易见。

示例1是一种处理器实现的用于检测声音事件的方法，该方法包括：由基于处理器的系统从音频信号提取一个或多个声音特征；由基于处理器的系统向所提取的一个或多个声音特征应用受训分类器，以识别音频信号的声音事件子部分并生成与子部分相关联的分数；以及由基于处理器的系统执行声音事件子部分和相关联的分数的序列解码，以检测声音事件。

示例2包括示例1的主题，其中，序列解码基于声音事件子部分的时间排序和对相关联的分数与阈值分数值的比较。

示例3包括示例1或2的主题，还包括：在通过对训练数据应用的子空间聚类生成的声音事件子部分上训练分类器，该训练数据包括目标声音事件。

示例4包括示例1至3中任一项的主题，其中，子空间聚类是基于k-means聚类、高斯混合模型聚类、以及DenStream聚类中的至少一者的无监督子空间聚类。

示例5包括示例1至4中任一项的主题，还包括：至少针对包括目标声音事件的训练数据的子集生成参考注释，该参考注释指示目标声音事件的子部分，并且其中，子空间聚类是基于约束k-means聚类、播种k-means聚类、以及高斯混合模型聚类和DenStream聚类的半监督变体中的至少一者的半监督子空间聚类。

示例6包括示例1至5中任一项的主题，其中，序列序解码基于加权有限状态转换器、循环神经网络(RNN)、以及长短期记忆RNN中的至少一者。

示例7包括示例1至6中任一项的主题，其中，所提取的一个或多个声音特征包括表示音频信号的至少一部分的短期傅里叶变换、表示音频信号的至少一部分的滤波器组特征、表示音频信号的至少一部分的梅尔频率倒谱系数、以及表示音频信号的至少一部分的频谱形状描述符中的至少一者。

示例8包括示例1至7中任一项的主题，其中，分类器是深度神经网络、支持向量机、决策树分类器、k最近邻分类器、随机森林分类器、梯度提升分类器、以及基于逻辑回归的分类器中的至少一者。

示例9是一种用于声音事件检测的系统，该系统包括：特征提取电路，其从音频信号提取声音特征；分类器电路，其基于所提取的声音特征识别音频信号的声音事件子部分并生成与子部分相关联的分数；以及序列解码器电路，其执行声音事件子部分和相关联的分数的序列解码以检测声音事件。

示例10包括示例9的主题，其中，序列解码基于声音事件子部分的时间排序和对相关联的分数与阈值分数值的比较。

示例11包括示例9或10的主题，还包括：分类器训练电路，其在通过对训练数据应用的子空间聚类生成的声音事件子部分上训练分类器，该训练数据包括目标声音事件。

示例12包括示例9至11中任一项的主题，其中，子空间聚类是基于k-means聚类、高斯混合模型聚类、以及DenStream聚类中的至少一者的无监督子空间聚类。

示例13包括示例9至12中任一项的主题，其中，训练数据的至少一个子集包括目标声音事件和相关联的参考注释，该参考注释指示目标声音事件的子部分，并且其中，子空间聚类是基于约束k-means聚类、播种k-means聚类、以及高斯混合模型聚类和DenStream聚类的半监督变体中的至少一者的半监督子空间聚类。

示例14包括示例9至13中任一项的主题，其中，序列解码器电路采用加权有限状态转换器、循环神经网络(RNN)、以及长短期记忆RNN中的至少一者。

示例15包括示例9至14中任一项的主题，其中，所提取的声音特征包括表示音频信号的至少一部分的短期傅里叶变换、表示音频信号的至少一部分的滤波器组特征、表示音频信号的至少一部分的梅尔频率倒谱系数、以及表示音频信号的至少一部分的频谱形状描述符中的至少一者。

示例16包括示例9至15中任一项的主题，其中，分类器电路是深度神经网络、支持向量机、决策树分类器、k最近邻分类器、随机森林分类器、梯度提升分类器、以及基于逻辑回归的分类器中的至少一者。

示例17是至少一种非暂态计算机可读存储介质，其上编码有指令，该指令在被一个或多个处理器执行时导致用于检测声音事件的操作，所述操作包括：从音频信号提取一个或多个声音特征；向所提取的一个或多个声音特征应用受训分类器以识别音频信号的声音事件子部分并生成与子部分相关联的分数；以及执行声音事件子部分和相关联的分数的序列解码以检测声音事件。

示例18包括示例17的主题，其中，序列解码基于声音事件子部分的时间排序和对相关联的分数与阈值分数值的比较。

示例19包括示例17或18的主题，所述操作还包括：在通过对训练数据应用的子空间聚类生成的声音事件子部分上训练分类器，该训练数据包括目标声音事件。

示例20包括示例17至19中任一项的主题，其中，子空间聚类是基于k-means聚类、高斯混合模型聚类、以及DenStream聚类中的至少一者的无监督子空间聚类。

示例21包括示例17至20中任一项的主题，所述操作还包括：至少针对包括目标声音事件的训练数据的子集生成参考注释，该参考注释指示目标声音事件的子部分，并且其中，子空间聚类是基于约束k-means聚类、播种k-means聚类、以及高斯混合模型聚类和DenStream聚类的半监督变体中的至少一者的半监督子空间聚类。

示例22包括示例17至21中任一项的主题，其中，序列解码基于加权有限状态转换器、循环神经网络(RNN)、以及长短期记忆RNN中的至少一者。

示例23包括示例17至22中任一项的主题，其中，所提取的一个或多个声音特征包括表示音频信号的至少一部分的短期傅里叶变换、表示音频信号的至少一部分的滤波器组特征、表示音频信号的至少一部分的梅尔频率倒谱系数、以及表示音频信号的至少一部分的频谱形状描述符中的至少一者。

示例24包括示例17至23中任一项的主题，其中，分类器是深度神经网络、支持向量机、决策树分类器、k最近邻分类器、随机森林分类器、梯度提升分类器、以及基于逻辑回归的分类器中的至少一者。

示例25是一种用于检测声音事件的系统，该系统包括：用于从音频信号提取一个或多个声音特征的装置；用于向所提取的一个或多个声音特征应用受训分类器以识别音频信号的声音事件子部分并生成与子部分相关联的分数的装置；以及用于执行声音事件子部分和相关联的分数的序列解码以检测声音事件的装置。

示例26包括示例25的主题，其中，序列解码基于声音事件子部分的时间排序和对相关联的分数与阈值分数值的比较。

示例27包括示例25或26的主题，还包括：用于在通过对训练数据应用的子空间聚类生成的声音事件子部分上训练分类器的装置，其中，训练数据包括目标声音事件。

示例28包括示例25至27中任一项的主题，其中，子空间聚类是基于k-means聚类、高斯混合模型聚类、以及DenStream聚类中的至少一者的无监督子空间聚类。

示例29包括示例25至28中任一项的主题，还包括：用于至少针对包括目标声音事件的训练数据的子集生成参考注释的装置，该参考注释指示目标声音事件的子部分，并且其中，子空间聚类是基于约束k-means聚类、播种k-means聚类、以及高斯混合模型聚类和DenStream聚类的半监督变体中的至少一者的半监督子空间聚类。

示例30包括示例25至29中任一项的主题，其中，序列解码基于加权有限状态转换器、循环神经网络(RNN)、以及长短期记忆RNN中的至少一者。

示例31包括示例25至30中任一项的主题，其中，所提取的一个或多个声音特征包括表示音频信号的至少一部分的短期傅里叶变换、表示音频信号的至少一部分的滤波器组特征、表示音频信号的至少一部分的梅尔频率倒谱系数、以及表示音频信号的至少一部分的频谱形状描述符中的至少一者。

示例32包括示例25至31中任一项的主题，其中，分类器是深度神经网络、支持向量机、决策树分类器、k最近邻分类器、随机森林分类器、梯度提升分类器、以及基于逻辑回归的分类器中的至少一者。

本文中使用的术语和表达被用作描述的术语而不是限制，并且使用这些术语和表达并不意味着排除所示出和描述的特征(或其部分)的任何等同形式，并且将认识到在权利要求的范围内各种修改是可能的。因此，权利要求意欲覆盖所有等同形式。本文中描述了各种特征、方面、和实施例。这些特征、方面、和实施例可以相互结合也可以与变形和修改结合，如本领域技术人员将理解的。因此，本公开应该被理解为覆盖这些组合、变形、和修改。希望本公开的范围不限于本具体描述，而是由所附权利要求限定。要求本申请的优先权的未来递交的申请可以通过不同方式请求保护所公开的主题，并且一般包括本文中不同地公开或阐明的一个或多个元素的任意集合。

Claims

1.一种处理器实现的用于检测声音事件的方法，所述方法包括：

由基于处理器的系统从音频信号提取一个或多个声音特征；

由所述基于处理器的系统向所提取的一个或多个声音特征应用受训分类器，以识别所述音频信号的声音事件子部分并生成与所述子部分相关联的分数；以及

由所述基于处理器的系统执行所述声音事件子部分和相关联的分数的序列解码，以检测声音事件。

2.如权利要求1所述的方法，其中，所述序列解码基于所述声音事件子部分的时间排序和对所述相关联的分数与阈值分数值的比较。

3.如权利要求1所述的方法，还包括：在通过对训练数据应用的子空间聚类生成的声音事件子部分上训练所述分类器，所述训练数据包括目标声音事件。

4.如权利要求3所述的方法，其中，所述子空间聚类是基于k-means聚类、高斯混合模型聚类、以及DenStream聚类中的至少一者的无监督子空间聚类。

5.如权利要求3所述的方法，还包括：至少针对包括目标声音事件的所述训练数据的子集生成参考注释，所述参考注释指示所述目标声音事件的子部分，并且其中，所述子空间聚类是基于约束k-means聚类、播种k-means聚类、以及高斯混合模型聚类和DenStream聚类的半监督变体中的至少一者的半监督子空间聚类。

6.如权利要求1-5中任一项所述的方法，其中，所述序列解码基于加权有限状态转换器、循环神经网络(RNN)、以及长短期记忆RNN中的至少一者。

7.如权利要求1-5中任一项所述的方法，其中，所提取的一个或多个声音特征包括表示所述音频信号的至少一部分的短期傅里叶变换、表示所述音频信号的至少一部分的滤波器组特征、表示所述音频信号的至少一部分的梅尔频率倒谱系数、以及表示所述音频信号的至少一部分的频谱形状描述符中的至少一者。

8.如权利要求1-5中任一项所述的方法，其中，所述分类器是深度神经网络、支持向量机、决策树分类器、k最近邻分类器、随机森林分类器、梯度提升分类器、以及基于逻辑回归的分类器中的至少一者。

9.一种用于声音事件检测的系统，所述系统包括：

特征提取电路，其从音频信号提取声音特征；

分类器电路，其基于所提取的声音特征识别所述音频信号的声音事件子部分，并生成与所述子部分相关联的分数；以及

序列解码器电路，其执行所述声音事件子部分和相关联的分数的序列解码以检测声音事件。

10.如权利要求9所述的系统，其中，所述序列解码基于所述声音事件子部分的时间排序和对所述相关联的分数与阈值分数值的比较。

11.如权利要求9所述的系统，还包括：分类器训练电路，其在通过对训练数据应用的子空间聚类生成的声音事件子部分上训练所述分类器，所述训练数据包括目标声音事件。

12.如权利要求11所述的系统，其中，所述子空间聚类是基于k-means聚类、高斯混合模型聚类、以及DenStream聚类中的至少一者的无监督子空间聚类。

13.如权利要求11所述的系统，其中，所述训练数据的至少一个子集包括目标声音事件和相关联的参考注释，所述参考注释指示所述目标声音事件的子部分，并且其中，所述子空间聚类是基于约束k-means聚类、播种k-means聚类、以及高斯混合模型聚类和DenStream聚类的半监督变体中的至少一者的半监督子空间聚类。

14.如权利要求9-11中任一项所述的系统，其中，所述序列解码器电路采用加权有限状态转换器、循环神经网络(RNN)、以及长短期记忆RNN中的至少一者。

15.如权利要求9-11中任一项所述的系统，其中，所提取的声音特征包括表示所述音频信号的至少一部分的短期傅里叶变换、表示所述音频信号的至少一部分的滤波器组特征、表示所述音频信号的至少一部分的梅尔频率倒谱系数、以及表示所述音频信号的至少一部分的频谱形状描述符中的至少一者。

16.如权利要求9-11中任一项所述的系统，其中，所述分类器电路是深度神经网络、支持向量机、决策树分类器、k最近邻分类器、随机森林分类器、梯度提升分类器、以及基于逻辑回归的分类器中的至少一者。

17.一种用于声音事件检测的系统，所述系统包括：

用于从音频信号提取一个或多个声音特征的装置；

用于向所提取的一个或多个声音特征应用受训分类器以识别所述音频信号的声音事件子部分并生成与所述子部分相关联的分数的装置；以及

用于执行所述声音事件子部分和相关联的分数的序列解码以检测声音事件的装置。

18.如权利要求17所述的系统，其中，所述序列解码基于所述声音事件子部分的时间排序和对所述相关联的分数与阈值分数值的比较。

19.如权利要求17所述的系统，还包括：用于在通过对训练数据应用的子空间聚类生成的声音事件子部分上训练所述分类器的装置，所述训练数据包括目标声音事件。

20.如权利要求19所述的系统，其中，所述子空间聚类是基于k-means聚类、高斯混合模型聚类、以及DenStream聚类中的至少一者的无监督子空间聚类。

21.如权利要求19所述的系统，还包括：用于至少针对包括目标声音事件的所述训练数据的子集生成参考注释的装置，所述参考注释指示所述目标声音事件的子部分，并且其中，所述子空间聚类是基于约束k-means聚类、播种k-means聚类、以及高斯混合模型聚类和DenStream聚类的半监督变体中的至少一者的半监督子空间聚类。

22.如权利要求17-21中任一项所述的系统，其中，所述序列解码基于加权有限状态转换器、循环神经网络(RNN)、以及长短期记忆RNN中的至少一者。

23.如权利要求17-21中任一项所述的系统，其中，所提取的一个或多个声音特征包括表示所述音频信号的至少一部分的短期傅里叶变换、表示所述音频信号的至少一部分的滤波器组特征、表示所述音频信号的至少一部分的梅尔频率倒谱系数、以及表示所述音频信号的至少一部分的频谱形状描述符中的至少一者。

24.如权利要求17-21中任一项所述的系统，其中，所述分类器是深度神经网络、支持向量机、决策树分类器、k最近邻分类器、随机森林分类器、梯度提升分类器、以及基于逻辑回归的分类器中的至少一者。

25.其上编码有指令的至少一种非暂态计算机可读存储介质，所述指令在被一个或多个处理器执行时实现权利要求1-8中任一项所述的用于检测声音事件的方法。