CN111742365A

CN111742365A - 用于监控系统中的音频事件检测的系统和方法

Info

Publication number: CN111742365A
Application number: CN201980015686.2A
Authority: CN
Inventors: A·萨勒金; 冯哲; S·加法扎德甘
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2018-02-28
Filing date: 2019-02-20
Publication date: 2020-10-02
Anticipated expiration: 2039-02-20
Also published as: US20210005067A1; US11810435B2; CN111742365B; EP3759710A1; WO2019166296A1

Abstract

公开了一种用于检测和定位音频剪辑中的目标音频事件的方法和系统。该方法和系统的使用利用分层级方案，其中扩张卷积神经网络用以基于高级音频特征来检测音频剪辑中任何地方的目标音频事件的存在。如果在音频剪辑中的某处检测到目标音频事件，则该方法和系统还利用鲁棒的音频向量表示，该音频向量表示对音频的固有状态以及音频状态与在音频剪辑中检测到的特定目标音频事件之间的学习的关系进行编码。双向长短期记忆分类器用于对长期依赖性建模，并基于音频向量表示确定目标音频事件在音频剪辑内的时间方面的边界。

Description

用于监控系统中的音频事件检测的系统和方法

本申请要求2018年2月28日提交的序列号为62/636,185的美国临时申请的优先权权益，所述美国临时申请的公开内容通过引用以其整体并入本文。

技术领域

本公开总地涉及音频分析和人机交互领域，并且更特别地，涉及音频监控领域。

背景技术

除非本文另有指示，否则本部分中描述的材料不是本申请中权利要求的现有技术，并且不因包含在本部分中而被承认为现有技术。

近年来，自动化监控系统已经在私密和公共环境两者中变得越来越流行和重要。大多数现有的监控系统主要工作在视觉级或基于视频信息。该类型的系统的有效性依赖于环境条件。特别地，该类型的系统在夜晚、雾天环境中或其他低可见度条件下很可能失败。热红外传感器可以是侵入性较小的替代方案，但它们高度依赖于温度，并且背景和前景对象之间的分离可能有问题。作为解决方案，使用音频向视频或红外传感器提供补充信息可以大幅增强现有系统。此外，音频模态本身可以提供非常丰富的信号，尤其是在感兴趣的事件具有非常明显的音频特性但不太明显的视觉特性的情景中，诸如婴儿啼哭、玻璃破碎、枪射击或人尖叫。

以理解环境并检测事件和异常为目的的音频事件检测（AED）可以在诸如智能家居和智能汽车之类的各种应用中是有用的。在给定具有安全生活方式的重要性的情况下，智能家居中对AED的需求正在快速增长。此外，使智能家居的行为个性化是增加舒适度和安全性水平的关键方面。随着自主和智能汽车系统的发展，自动化汽车监控系统也越来越令人感兴趣。由于许多现代汽车已经配备有嵌入式语音识别引擎，因此AED系统可以容易地部署在汽车中，并且可以相对容易地提供用于AED的附加计算处理。附加地，AED的私密、非侵入且鲁棒的特性使得在汽车和家庭中，音频监控比其他监控模态更合适。AED具有许多其他应用，诸如监视机器和基础设施、智能设施管理、用于驾驶辅助的外部音频感知等。

近年来，消费者在因特网上生成的音频数据经历了快速增长。据报道，单单流行的YouTube视频服务每分钟就接收300小时的多媒体数据上传。然而，这些消费者产生的数据中的绝大多数携带很少内容注释或没有内容注释。尽管存在包含用于自动化监控系统的事件级注释的一些可用的数据集，但标注的音频事件数据量非常低。因此，大多数音频事件检测研究是对小数据执行其评估的。因此，对检测记录音频数据中的音频事件的、不需要先前注释的训练数据的大语料库的系统的改进将是有益的。

发明内容

公开了一种用于检测和定位音频剪辑中的目标音频事件的方法。所述方法包括：利用处理器接收音频剪辑；利用处理器，基于音频剪辑确定多个音频特征；利用处理器，基于所述多个音频特征使用第一神经网络来确定目标音频事件是否存在于音频剪辑中；响应于确定目标音频事件存在于音频剪辑中，利用处理器基于（i）所述多个音频特征和（ii）目标音频事件来确定多个向量，所述多个向量中的向量指示所述多个音频特征中的音频特征与目标音频事件之间的相关性；以及利用处理器，基于所述多个向量使用第二神经网络来确定目标音频事件在音频剪辑内的时间方面的位置。

公开了一种用于检测和定位音频剪辑中的目标音频事件的系统。所述系统包括：麦克风，被配置为记录环境的音频剪辑；和可操作地连接到麦克风的处理器。处理器被配置为：接收由麦克风记录的音频剪辑；基于音频剪辑确定多个音频特征；基于所述多个音频特征，使用第一神经网络来确定目标音频事件是否存在于音频剪辑中；响应于确定目标音频事件存在于音频剪辑中，基于（i）所述多个音频特征和（ii）目标音频事件来确定多个向量，所述多个向量中的向量指示所述多个音频特征中的音频特征与目标音频事件之间的相关性；以及基于所述多个向量使用第二神经网络来确定目标音频事件在音频剪辑内的时间方面的位置。

附图说明

在结合附图进行的以下描述中解释了方法和系统的前述方面和其他特征。

图1是图示了音频监控系统的示意图。

图2示出了图示音频事件检测程序的音频特征提取器的操作的逻辑流程图。

图3示出了图示音频事件检测程序的扩张卷积神经网络音频标记模型的操作的逻辑流程图。

图4示出了图示音频事件检测程序的Audio2Vec特征模型的操作的逻辑流程图。

图5示出了图示用于确定对应性音频单词和音频向量表示的示例性算法的逻辑流程图。

图6示出了图示音频事件检测程序的双向长短期记忆分类器模型的操作的逻辑流程图。

图7示出了图示用于使用音频监控系统检测和定位音频剪辑中的目标音频事件的方法的逻辑流程图。

具体实施方式

为了促进对本公开原理的理解的目的，现在将参考附图中示出的和以下书面说明书中描述的实施例。应理解，并不由此意图有对本公开范围的限制。应进一步理解，本公开包括对所图示实施例的任何更改和修改，并且包括如本公开所属领域的技术人员通常将想到的本公开原理的另外应用。

系统概览

图1示出了监控系统10的示例性实施例，监控系统10至少部分地通过检测某些感兴趣的音频事件来提供监控，所述感兴趣的音频事件在本文被称为“目标音频事件”。监控系统10可以在各种各样的情境中被采用，所述情境包括但不限于家庭、汽车、商业建筑和某些公共场所。尽管监控系统10可以组合若干种监控技术，但是将领会，与基于视频的监控相比，基于音频的监控具有若干个优点。特别地，与性质上是三维的视频处理相比，音频处理归因于其一维性质而一般具有较低的存储器和处理要求。附加地，麦克风可以记录全向音频，而视频相机一般具有有限的视场角。此外，与较短波长的光相比，较长波长的声波允许在多得多的表面上进行镜面反射，使得音频监控对环境障碍更加鲁棒。音频监控对于光照和温度的广泛变化也更加鲁棒。附加地，许多目标音频事件具有明显的音频特征，但是具有难以或不可能分辨的视觉特征（例如，婴儿啼哭或枪击）。最后，与基于视频的监控相比，基于音频的监控一般更加隐私友好。

在所图示的实施例中，监控系统10包括一个或多个音频输入设备12、一个或多个输出设备14以及监控计算机20。音频输入设备12可以特别地包括布置在环境（例如，家庭、汽车等）中并被配置为记录音频监控信号的一个或多个麦克风，所述音频监控信号被提供给监控计算机20。如下面更详细讨论的，监控计算机20被配置为处理音频监控信号以检测某些目标音频事件。输出设备14可以包括例如显示屏、警报器、扬声器和其他类似设备，其可以用于例如警示用户对某些目标音频事件的检测，使得用户能够审查潜在的感兴趣的音频事件，或者在与安全相关的音频事件的情况下提供威慑效果。输出设备14可以布置在本地环境中或者远离环境布置。

音频输入设备12和输出设备14经由接口16、18与监控计算机20可操作地连接。在一些实施例中，接口16、18可以包括物理连接器，经由该物理连接器建立在音频输入设备12与监控计算机20之间和/或在输出设备14与监控计算机20之间的有线连接。在一些实施例中，接口16、18可以包括无线收发器，经由该无线收发器建立在音频输入设备12与监控计算机20之间和/或在输出设备14与监控计算机20之间的无线连接。在一些实施例中，可以利用有线和无线连接的混合。附加地，在一些实施例中，一些音频输入设备12和/或一些输出设备14可以直接与监控计算机20集成（例如，体现监控计算机的车载信息娱乐系统的显示屏和麦克风）。

在所图示的实施例中，监控计算机20包括处理器22、存储器24、用户接口26和通信模块28。然而，监控计算机20的所图示实施例仅是监控计算机20的一个示例性实施例，并且仅仅代表以本文阐述的方式操作的计算机系统等的各种配置中的任何一种。此外，将领会，监控计算机20不需要是仅用于音频监控的独立专用计算机，并且可以包括与音频监控无关的各种各样的附加功能。例如，除了专用计算机系统之外，监控计算机20可以替代地包括车载信息娱乐系统或其他多用途车辆计算机、用于家庭安全系统或更广泛的智能家庭自动系统的集线器、个人计算机、智能电话、平板计算机、远程服务器等。因此，监控计算机20可以包括本文没有描述或图示的若干个附加组件。

处理器22被配置为执行程序指令来操作监控计算机20，以使能实现如本文描述的特征、功能性、特性等。为此，处理器22可操作地连接到存储器24、用户接口26和通信模块28。处理器22一般包括一个或多个处理器，所述一个或多个处理器可以并行操作或者以其他方式彼此协同操作。本领域普通技术人员将认识到，“处理器”包括处理数据、信号或其他信息的任何硬件系统、硬件机构或硬件组件。因此，处理器22可以包括具有中央处理单元、多个处理单元、图形处理单元、数字信号处理器、专用集成电路（ASIC）、可编程或不可编程逻辑器件或用于实现所描述功能性的任何其他电路的系统。

存储器24可以具有能够存储可由处理器22访问的信息的任何设备类型，诸如存储卡、ROM、RAM、可写存储器、只读存储器、硬盘驱动器、磁盘、闪速存储器或本领域普通技术人员将认识到的充当数据存储设备的任何其他各种计算机可读介质。如下面讨论的，存储器24被配置为存储各种程序指令和各种数据，以使能实现本文所描述的特征、功能性、特性等。

监控计算机20的通信模块26提供了允许使用有线或无线通信技术与任何各种设备通信的接口。在一些实施例中，通信模块26可以包括局域网端口和/或广域网端口，其具有被配置用于与局域网或广域网进行有线通信的对应调制解调器或其他常规硬件。在一些实施例中，通信模块26可以包括一个或多个无线收发器，其被配置为使用诸如Wi-Fi、蓝牙、Z-波、ZigBee等无线通信技术来传输和接收通信信号。在一些实施例中，通信模块26可以包括被配置为与无线电话网络通信的一个或多个无线收发器，诸如CDMA或GSM收发器。

监控计算机20可以由用户本地或远程操作。为了促进本地操作，监控计算机20可以包括交互式用户接口110。经由用户接口28，用户可以访问和执行软件指令，并且可以从存储器24收集数据并将数据存储到存储器24。在至少一个实施例中，如本领域普通技术人员将认识到的，用户接口28可以适当地包括LCD显示屏等、鼠标或其他定点设备、键盘或其他小键盘、扬声器和麦克风。替代地，在一些实施例中，用户可以从另一个计算设备远程操作监控计算机20，该另一个计算设备经由通信模块26与之通信并且具有类似的用户接口。

音频事件检测模型

监控计算机20被配置为从音频输入设备12接收音频监控信号，并处理音频监控信号以检测某些目标音频事件。特别地，在一些实施例中，处理器22被配置为接收以具有预定长度（例如，30秒）的音频剪辑形式的音频监控信号。在一些实施例中，处理器被配置为接收以音频流形式的音频监控信号，并将音频流划分成具有预定长度（例如，30秒）的音频剪辑。处理器22被配置为处理个体音频剪辑，以检测目标音频事件的存在和时间方面的位置。为此，存储在存储器24上的程序指令包括音频事件检测程序30，该音频事件检测程序30由处理器22执行，以处理从音频输入设备12接收的音频监控信号并检测某些目标音频事件。

音频事件检测程序30利用鲁棒的音频事件检测模型，该音频事件检测模型包括四个主要组件：音频特征提取器32、扩张卷积神经网络（DCNN）音频标记模型34、音频到向量（Audio2Vec）特征模型36和双向长短期记忆（BLSTM）分类器模型38。音频特征提取器32被配置为将个体音频剪辑分段成多个优选重叠的窗口，并提取共同表示每个窗口中的音频剪辑的固有状态的低级描述符和高级描述符。DCNN音频标记模型34被配置为检测和标记音频剪辑中目标音频事件的存在。Audio2Vec特征模型36被配置为生成音频剪辑的每个窗口的鲁棒向量表示，该向量表示有利地传达固有音频状态与检测到的目标音频事件之间的关系。最后，BLSTM分类器模型38被配置为标识检测到的目标音频事件在音频剪辑中的时间方面的边界和/或位置。

如下面更详细讨论的，音频事件检测模型的一些组件利用可以被广泛地认为是机器学习模型的神经网络。如本文所使用的，术语“机器学习模型”指代被配置为实现算法、过程或数学模型的系统或程序指令和/或数据的集合，所述算法、过程或数学模型基于给定的输入来预测和提供期望的输出。将领会，机器学习模型的参数没有被明确地编程，并且在传统意义上，机器学习模型没有被明确地设计成遵循特定的规则以便为给定的输入提供期望的输出。取而代之地，神经网络被提供有训练数据的语料库，从所述语料库标识或“学习”数据中的模式和统计关系或结构，所述模式和统计关系或结构被一般化以关于新的数据输入做出预测。训练过程的结果体现在多个学习的参数、内核权重和/或滤波器值中，所述多个学习的参数、内核权重和/或滤波器值被用在神经网络的各层中以执行各种操作或功能。

在音频事件检测程序30和/或音频事件检测模型的描述中，软件组件或方法步骤执行某个过程/功能或被配置为执行某个过程/功能的陈述意味着处理器或控制器（例如，处理器22）执行存储在存储器（例如，存储器24）中的对应程序指令以执行所陈述的操作或功能。类似地，神经网络或神经网络层执行某个过程/功能或被配置为执行某个过程/功能的陈述意味着处理器或控制器（例如，处理器22）参考在相应训练过程中学习的参数、内核权重和/或滤波器值来执行存储在存储器（例如，存储器24）中的对应程序指令，以执行所陈述的操作或功能。

在至少一个实施例中，音频事件检测程序30和/或其音频事件检测模型利用合成数据集进行训练。特别地，将领会，在给定有限量的可用注释数据的情况下，开发在不同环境中鲁棒的音频事件检测系统是一个挑战。特别地，常规AED监控方案一般利用有限的领域特定数据集，并且因此遭受鲁棒性的缺乏。相比之下，音频事件检测程序30的音频事件检测模型通过生成在各种环境中的标注音频事件的大的合成混合体，来在具有有限标注音频事件数据的情况下有利地采用用于音频事件的鲁棒检测方案。以此方式，音频事件检测程序30的音频事件检测模型有利地为具有有限可用数据的音频监控应用提供鲁棒的模型。

音频事件检测程序30的音频事件检测模型被配置为检测预定数量的目标音频事件。为了简单性，音频事件检测模型在本文被描述为仅检测四个目标音频事件：（1）婴儿啼哭，（2）玻璃破碎，（3）枪射击，以及（4）人尖叫。然而，将领会，可以扩展音频事件检测模型以检测任何数量的独特目标音频事件。

可以基于针对每个目标音频事件的适度数量的孤立音频样本（例如，针对每个目标音频事件仅有~100-150个样本）与更大数量的背景音频剪辑（例如，~1000个背景音频剪辑）相组合，为每个目标音频事件生成合成训练数据集。孤立的音频样本可以手动生成或者从现有数据集（例如，自由声音数据集或MIVIA音频事件数据集）收集。类似地，背景音频剪辑也可以手动生成或者从现有数据集（例如，TUT声学场景2016开发数据集）收集。背景音频剪辑可以表示各种各样的环境和/或声学场景，诸如公共汽车、火车、咖啡馆、汽车、市中心、森林、商店、家庭、海滩、图书馆、地铁站、办公室、公园等。

针对特定目标音频事件的合成训练数据集是通过将针对目标音频事件的孤立音频样本与背景音频剪辑相组合而生成的。特别地，为了生成每个训练音频剪辑，随机数量的随机选择的孤立音频样本（其可以不包括孤立音频样本）被选择用于与随机选择的背景音频剪辑混合。孤立的音频样本在（一个或多个）随机选择的位置处与背景音频剪辑合成混合，以生成训练音频剪辑。在一个实施例中，训练音频剪辑以随机选择的事件与背景音量比率生成。在至少一个实施例中，训练音频剪辑被切割成预定长度（例如，30秒）。针对目标音频事件的存在或不存在来标注训练音频剪辑。附加地，包括目标音频事件的训练音频剪辑被注释以指示目标音频事件在训练音频剪辑内的时间方面的位置。

音频特征提取

图2示出了图示音频事件检测程序30的音频特征提取器32的操作的逻辑流程图。音频特征提取器32接收个体音频剪辑102作为输入。如上面讨论的，每个个体音频剪辑一般具有预定长度（例如，30秒）。处理器22被配置为执行对应于音频特征提取器32的程序指令，以将音频剪辑102分段（104）成窗口段序列

，其中N是针对相应音频剪辑102的窗口段的总数量。在至少一个实施例中，每个窗口段S_i具有第一预定长度（例如，500 ms），并且具有与相邻窗口段的预定量或百分比的时间重叠（例如，300 ms或60%重叠）。将领会，窗口段的总数量N（例如，148）是音频剪辑102的预定长度（例如，30秒）、每个窗口段的第一预定长度（例如，500 ms）以及与相邻窗口段的时间重叠的预定量或百分比（例如，300 ms或60%重叠）的函数。

处理器22被配置为执行对应于音频特征提取器32的程序指令，以从每个窗口段S_i提取一个或多个低级描述符（LLD）特征LLD_i，其中

（块106）。为了提取LLD特征，处理器22被配置为进一步将每个窗口段S_i分段成子段SS_ij的序列（未示出），其中，

，并且n是每个窗口段S_i中子段SS_ij的总数量。在至少一个实施例中，每个子段SS_ij具有小于每个窗口段S_i的第一预定长度的第二预定长度（例如，25 ms），并且具有与相邻子段的预定量或百分比的时间重叠（例如，10 ms或60%重叠）。将领会，每个窗口段中子段的总数量n（例如50）是每个窗口段的第一预定长度（例如500 ms）、每个子段的第二预定长度（例如25 ms）以及与相邻子段的时间重叠的预定量或百分比（例如10 ms或60%重叠）的函数。

由处理器22从每个子段SS_ij提取的LLD特征可以例如包括：每个子段SS_ij的过零率（1维）、每个子段SS_ij的能量（1维）、每个子段SS_ij的谱质心（1维）、每个子段SS_ij的节距（1维）、以及针对每个子段SS_ij的梅尔频率倒谱系数（MFCC）（13维）。在一些实施例中，处理器22还被配置为确定针对一些或所有LLD特征类型的德尔塔系数

（即改变速率）（从而将每个LLD特征类型的维度增至两倍）。在一些实施例中，处理器22被配置为确定针对一些或所有LLD特征类型的德尔塔系数

和德尔塔-德尔塔系数

（即，改变的加速度）二者（从而将每个LLD特征类型的维度增至三倍）。对于每个窗口段S_i，提取的特征LLD_i包括针对每个子段SS_ij（未示出）的特征LLD_ij的集合，其中

并且

。特征LLD_ij的每个集合具有维度m _LLD，其等于每个子段SS_ij的LLD特征维度的总数量（例如，如果使用所有示例性的LLD特征类型和对应的德尔塔系数

，则总共34个维度）。因此，每个窗口段S_i的提取特征LLD_i具有维度

，其中n是子段SS_ij的总数量，并且m _LLD是每个子段SS_ij的LLD特征维度的总数量。

处理器22被配置为执行对应于音频特征提取器32的程序指令，来基于相应窗口段S_i的相应提取特征LLD_i针对每个窗口段S_i提取一个或多个高级描述符（HLD）特征HLD_i（块108）。处理器22可以被配置为针对每个窗口段S_i确定各种HLD特征（其在本文也可以被称为“泛函”），所述HLD特征可以包括例如最小值、最大值、平均值、中值、标准偏差、方差、偏斜和峰度（每个是1维的）。针对相应窗口段S_i，相对于每个LLD特征类型确定每个HLD特征（即，确定针对相应窗口段S_i的每个LLD特征维度的最大值，确定针对相应窗口段S_i的每个LLD特征维度的平均值，以此类推）。因此，对于每个窗口段S_i，所提取的HLD特征HLD_i具有维度M（例如，272），其中

，m _LLD是LLD特征维度的总数量（例如，34），并且m _HLD是适用于每个LLD特征维度的HLD特征类型的数量（例如，如果使用上面列出的所有泛函，则为8）。因此，对于每个音频剪辑，所提取的HLD特征集

采取

矩阵的形式，其中N是针对相应音频剪辑102的窗口段的总数量，并且M是每窗口段S_i的HLD特征的总数量。所提取的HLD特征集

表示音频剪辑102的窗口段

的固有音频状态。

如本文所使用的，应当领会，术语“HLD特征”和“LLD特征”两者均涵盖从音频剪辑提取的任何类型的音频特征。如本文所使用的，短语“音频特征”指代相对于音频剪辑的一部分计算的任何定性或定量测量、度量等。HLD特征与LLD特征之间的区别仅在于HLD特征是相对于相对较长的窗口段S_i提取的，而LLD特征是相对于相对较短的子段 SS_ij提取的。

在一个实施例中，为了减小训练和模型过拟合的计算成本，处理器22被配置为执行特征选择过程以减小所提取的HLD特征集

的维数。特别地，处理器22被配置为选择针对每个窗口段S_i提取的HLD特征的子集（例如，从272个特征的池中选择30个特征），使得所提取的HLD特征集

的特征维度M减小为M _R。在一个实施例中，处理器22被配置为使用基于随机森林的特征选择技术来针对特定的目标音频事件选择HLD特征的最佳子集。将领会，对于每个目标音频事件，HLD特征的所选子集一般将是不同的。随机森林技术使用的基于树的策略自然地依据HLD特征多么好地改进节点纯度而对它们进行排序。这意味着所有树之上的杂质（称为基尼杂质）减少。具有最多的杂质减少的节点发生在树的开始处，而具有最少的杂质减少的节点出现在树的末端处。因此，在一个实施例中，处理器被配置为修剪特定节点下方的树（HLD特征），以创建最重要特征的所选子集。因此，在减小之后，所提取的HLD特征集

采取

矩阵的形式，其中M _R是每窗口段S_i的HLD特征的减小的数量（例如，来自272个的池的30个）。

音频事件标记

图3示出了图示音频事件检测程序30的DCNN音频标记模型34的操作的逻辑流程图。DCNN音频标记模型34针对个体音频剪辑102接收所提取的HLD特征集

作为输入。如上面讨论的，依赖于是否使用特征选择和/或特征减小过程，所提取的HLD特征集

采取

矩阵或

矩阵的形式。

DCNN音频标记模型34利用DCNN（扩张卷积神经网络）作为二进制分类器来检测和标记音频剪辑中目标音频事件的存在。更特别地，处理器22被配置为执行对应于DCNN音频标记模型34的程序指令，以确定指示特定目标音频事件的存在或不存在的分类输出。与传统卷积层相对，扩张卷积层的使用有利地使得DCNN音频标记模型34能够从不同的空间尺度捕获信息，平衡局部属性，并整合更广上下文知识。特别地，扩张卷积使网络的感受视野（全局视野）指数地增加，而仅仅使参数数量线性地增长。音频标记问题需要在不增加成本的情况下整合更广上下文知识。因此，与利用常规卷积层的具有相似数量的网络参数的网络相比，扩张卷积层在标记较大的音频剪辑方面表现更好。

将领会，包括DCNN在内的卷积神经网络（CNN）是一种类型的包含多个卷积层的前馈神经网络。常规的卷积层接收输入，并且将一个或多个卷积滤波器应用于输入。卷积滤波器（也称为内核）是权重（也称为参数或滤波器值）的矩阵，其被应用于输入矩阵的各种组块，使得权重矩阵在输入矩阵之上被卷积以提供输出矩阵。输出矩阵的维度由滤波器的内核大小（即权重矩阵的大小）和滤波器的“步幅”确定，所述“步幅”指示输入矩阵的组块在卷积期间彼此重叠或在卷积期间彼此间隔开多少。CNN的各种层和滤波器用于检测输入的各种“特征”。

卷积滤波器的内核大小定义滤波器的“感受域”。例如，用于音频事件检测的常规CNN可能包括卷积层序列，所述卷积层序列用于将来自层L处的音频信号F _L的时间系列与内核K卷积以获得层L+1处的时间系列F _L+1。结果，具有k长度的滤波器的CNN（没有池化）将具有大小为

的感受域，其中L是层索引。因此，单位的有效感受域仅能随着层而线性增长。另一方面，DCNN是常规CNN的扩展，其添加在内核k的元素之间的间隔，因此当计算F _L+1中的点x时，考虑到较大间距处的近邻点。在信号F与内核k之间的具有扩张因子l的扩张卷积被定义为：

其中

是具有扩张因子l的扩张卷积操作。该扩张卷积操作

与常规卷积操作

的不同之处在于在常规卷积操作中，上面的项

将取而代之为

。在扩张卷积操作中，内核在每第l个入口处处置信号。

在示例性图示的实施例中，DCNN音频标记模型34包括三个扩张卷积层110、114和118。扩张卷积层110、114和118中的每个充当特征提取层，并且具有预定数量的滤波器和/或内核（例如50）和预定扩张因子l，所述滤波器和/或内核具有预定长度和/或内核大小（例如4）。在至少一个实施例中，每个扩张卷积层110、114和118的扩张因子l在每层之间增加，即第一扩张卷积层110的扩张因子l（例如，2）小于第二扩张卷积层114的扩张因子l（例如4），并且第二扩张卷积层110的扩张因子l（例如4）小于第三扩张卷积层118的扩张因子l（例如6）。以此方式，感受域可以指数增长，而可训练参数的数量线性增长。在一个实施例中，扩张因子l在每层之间增加，使得在每层中可以使用相同数量的参数。扩张卷积层110、114和118中的每一个跟随有输出的整流线性单元（ReLU）激活（未示出）。

在示例性图示的实施例中，DCNN音频标记模型34包括池化层112、116和120。每个池化层112、116和120跟随着扩张卷积层110、114和118中的对应一个，并且被配置为以预定滤波器大小和/或窗口大小（例如，4）并且以预定池大小和/或降尺度因子（例如，2）对相应的扩张卷积层110、114和118的输出进行二次采样，以减小相应输出的维数。将领会，池化减小输出维数，而同时保持最显著的信息并且提供具有固定大小的输出矩阵，而不管输入的大小或滤波器的大小如何。在至少一个实施例中，池化层112、116和120是最大池化层，但是也可以应用其他池化技术，诸如平均池化。最大池化对于标记目标音频事件的存在是有利的，这是因为它维护音频存在信息，而同时牺牲针对音频事件的精确定时信息，所述精确定时信息对于标记目标音频事件的存在是不需要的。

在一些实施例中，DCNN音频标记模型34还可以包括一个或多个丢弃层（未示出），其在各层之后被应用并且被配置为丢弃激活的随机集合（例如，20%）。附加地，在一些实施例中，可以在各层之后应用批归一化、L1/L2正则化等（未示出）。

为了分类的目的，第三池化层120的输出被提供给具有预定数量的神经元的一对全连接密集层122和124。在一个实施例中，全连接密集层122和124各自跟随有输出的ReLU激活（未示出）。由具有sigmoid激活的单个神经元组成的最终输出层126接收第二全连接密集层124的输出，并提供关于个体音频剪辑102中特定目标音频事件的存在的分类输出C _tag。特别地，在sigmoid激活之后，输出层126提供音频信号102包括特定目标音频事件的概率（例如，0和1之间的值）和/或音频信号102不包括特定目标音频事件的概率。在至少一个实施例中，如果输出层126的sigmoid激活超过预定阈值（例如，80%），则个体音频剪辑102被认为包括特定的目标音频事件。

如上面讨论的，音频事件检测程序30的音频事件检测模型被配置为检测预定数量的目标音频事件（例如，婴儿啼哭、玻璃破碎、枪射击以及人尖叫）。通过将针对目标音频事件的孤立音频样本与背景音频剪辑相组合，来针对每个目标音频事件生成合成训练数据集。训练音频剪辑被标注为目标音频事件的存在或不存在。

在至少一个实施例中，在训练过程中，针对要被检测并且针对其生成了合成训练数据集的每个个体目标音频事件（例如，婴儿啼哭、玻璃破碎、枪射击以及人尖叫），导出DCNN音频标记模型34的权重和/或参数的独特集合。特别地，在训练过程期间，基于针对个体目标音频事件的对应合成训练数据集，来针对每个个体目标音频事件对于DCNN音频标记模型34中的所有滤波器学习和/或优化权重和/或参数的集合。在至少一个实施例中，通过最小化损失函数（例如，均方损失函数）来确定权重和/或参数的集合的优化值，该损失函数与由合成训练数据集中的标注训练数据标识的正确分类相比较地评估深度DCNN音频标记模型34的分类输出C _tag。权重和/或参数的集合可以在预定数量的时期（例如，30）内使用各种已知优化技术中的一种（例如，RMSprop优化）参考损失函数进行优化。在一些实施例中，权重和/或参数的集合利用随机值或者经由任何其他可接受的初始化技术进行初始化。尽管权重和/或参数的集合的优化值可以由处理器22生成，但是它们优选地由另一个处理系统（未示出）预先生成，并且然后存储在存储器24上。该另一个处理系统可以以用于具有至少处理器和存储器的计算机等的常规方式进行配置，该存储器被配置为存储训练数据集和用于训练权重和/或参数的集合的优化值的由处理器执行的程序指令。

因此，针对每个个体目标音频事件中的每一个，导出针对DCNN音频标记模型34的权重和/或参数的独特集合。针对每个个体目标音频事件的权重和/或参数的集合存储在存储器24中。在音频事件检测程序30的使用期间，处理器22被配置为参考存储在存储器24中的权重和/或参数的特定集合来执行对应于DCNN音频标记模型34的程序指令，以确定指示对应的目标音频事件的存在或不存在的分类输出C _tag。

然而，将领会，在一些替代实施例中，DCNN音频标记模型34可以包括其中输出层具有神经元的多类模型，该神经元对于要检测的每个目标音频事件（例如，四个）具有sigmoid激活，以提供多类分类输出C _tag。因此，可以学习权重和/或参数的单个集合，并将其用于检测要检测的所有目标音频事件的存在或不存在。

Audio2Vec特征表示

如果DCNN音频标记模型34的（一个或多个）分类输出C _tag指示个体音频剪辑102包括目标音频事件，则处理器22执行对应于Audio2Vec特征模型36和BLSTM分类器模型38的程序指令，以确定（一个或多个）检测到的目标音频事件的时间方面的（一个或多个）位置和/或边界。如果在个体音频剪辑102中没有检测到目标音频事件，则处理器22不执行对应于Audio2Vec特征模型36或BLSTM分类器模型38的程序指令，并前进以处理下一个音频剪辑。

图4示出了图示音频事件检测程序30的Audio2Vec特征模型36的操作的逻辑流程图。Audio2Vec特征模型36接收针对个体音频剪辑102的所提取的HLD特征集

以及DCNN音频标记模型34的（一个或多个）分类输出C _tag，作为输入。如上面讨论的，所提取的HLD特征集

依赖于是否使用特征选择和/或特征减小过程，而采取

矩阵或

矩阵的形式。处理器22被配置为执行对应于Audio2Vec特征模型36的程序指令，以将对应于每个窗口段S _i的所提取的HLD特征HLD_i转换成相应的音频向量表示v _i。音频向量表示v _i是鲁棒的，因为它不仅表示在相应窗口段S _i期间音频信号102的固有状态，而且它还有利地将音频状态与音频剪辑102的检测到的目标音频事件之间的固有关系考虑在内。

Audio2Vec特征模型36有利地利用两步过程来将所提取的HLD特征

转换为对应的音频向量表示

。特别地，每个提取的HLD特征集HLD_i首先被转换为相应的音频单词w _i（块128），并且然后每个音频单词w _i被转换成相应的音频向量表示v _i，该音频向量表示v _i将来自DCNN音频标记模型34的（一个或多个）分类输出C _tag考虑在内（块130）。

处理器22被配置为将每个提取的HLD特征集HLD_i转换为相应的音频单词w _i，该音频单词w _i是来自音频码本132中定义的可能音频单词的预定集合的音频单词。将领会，音频单词不是术语“单词”的正常意义上的单词。取而代之地，如本文所使用的，短语“音频单词”意味着表示一段时间期间音频信号状态的音频特征的集合或组合。音频码本132中的每个音频单词由HLD特征的独特集合定义。处理器22被配置为将针对每个窗口段S_i的所提取的HLD特征集HLD_i映射到来自音频码本132的最接近或最佳匹配的音频单词w _i。在至少一个实施例中，处理器22被配置为将所提取的HLD特征集HLD_i与定义音频码本132中的每个音频单词的HLD特征的独特集合进行比较。处理器22被配置为使用距离公式等来确定音频码本132中的哪个音频单词是最接近或最佳匹配。将领会，将所提取的HLD特征集转换成音频单词具有针对每个窗口段量化所提取的HLD特征集的效果，这是因为所提取的HLD特征的无限多种组合被映射到有限数量的可能音频单词上。

在至少一个实施例中，为了提供音频单词的鲁棒集合，使用高斯混合模型（GMM）聚类技术将来自合成训练数据集的随机选择的HLD特征集聚类成预定数量的簇K。然而，将领会，诸如K均值之类的其他已知的聚类技术也可以用于聚类HLD特征集。簇用于定义对应于音频码本132中每个音频单词的HLD特征的独特集合。在至少一个实施例中，对应于每个音频单词的HLD特征的独特集合对应于相应簇的高斯密度的平均特征。换言之，HLD特征的独特集合是由相应簇的中心定义的。音频码本132的码本大小对应于簇K的数量。将领会，音频码本132的辨别能力由码本大小掌控。一般而言，较大的码本更具辨别力，而较小的码本应当更好地一般化，尤其是当HLD特征因距离、环境噪声和混响而失真时，这是因为较小的码本对不正确的分配更鲁棒。尽管码本可以由处理器22生成，但是它优选地由另一个处理系统（未示出）预先生成，并且然后存储在存储器24上。该另一个处理系统可以以用于具有至少处理器和存储器的计算机等的常规方式进行配置，该存储器被配置为存储训练数据集和用于导出码本的由处理器执行的程序指令。

处理器22被配置为依赖于来自DCNN音频标记模型34的分类输出C _tag将每个音频单词w _i转换成相应的音频向量表示v _i。音频向量表示v _i被设计成表示、传达和/或指示音频单词w _i与特定目标音频事件之间的固有关系。特别地，由于来自特定目标音频事件的音频信号状态不同于其他音频信号状态，所以表示该目标音频事件的音频状态也不同于其他音频状态。附加地，与其他音频事件相比，一些音频状态在目标音频事件中出现得更频繁。

对应于来自码本132的特定音频单词w _i的音频向量表示v _i依赖于特定目标音频事件而不同。在至少一个实施例中，音频向量表示v _i具有预定维度D（例如，2）。音频向量表示v _i在D维空间中的位置指示相应音频单词w _i与特定目标音频事件之间的关系的强度或性质。在至少一个实施例中，多个单词到向量转换表134或等同物存储在存储器24上。单词到向量转换表134包括针对要检测的目标音频事件中的每个的相应转换表（例如，针对婴儿啼哭、玻璃破碎、枪射击和人尖叫中的每个有一个转换表）。对于个体音频剪辑102中的每个音频单词w _i，处理器22被配置为使用对应于分类输出C _tag的转换表134来将相应的音频单词w _i转换成相应的音频向量表示v _i。在至少一个实施例中，对于每个目标音频事件的音频单词w _i与音频向量表示v _i之间的对应性和/或转换基于对应于每个目标音频事件的合成训练数据集来确定。

图5示出了图示示例性算法200的逻辑流程图，算法200用于基于对应于每个目标音频事件的合成训练数据集来确定对于每个目标音频事件的音频单词w与音频向量表示v之间的最优对应性和/或转换。尽管算法200可以由处理器22执行，但是它优选地由另一个处理系统（未示出）预先执行，并且所得到的单词到向量转换表134存储在存储器24上。该另一个处理系统可以以用于具有至少处理器和存储器的计算机等的常规方式进行配置，该存储器被配置为存储训练数据集和用于训练经优化的转换（单词到向量转换）的由处理器执行的程序指令。

算法200从在D维向量空间中随机初始化一对向量正 _中心和负 _中心（块202和204）而开始。特别地，向量正 _中心的分量

利用第一预定范围（例如，其中

）中的随机值初始化（块202）。类似地，向量负 _中心的分量

利用第二预定范围（例如，其中

）中的随机值初始化，该第二预定范围不同于和/或小于第一预定范围（块204）。

接下来，对于音频码本132中的每个音频单词w（块206），基于对应于目标音频事件的合成训练样本，依赖于音频单词w （i）是仅出现在目标音频事件中，（ii）从未出现在目标音频事件中，还是（iii）出现在目标音频事件和其他音频事件两者中，来随机初始化对应的音频向量表示v。如上面讨论的，合成训练数据集中的音频剪辑被注释以指示目标音频事件在训练音频剪辑内的时间方面的位置。如果相应的音频单词w仅出现在目标音频事件中，则对应音频向量表示v的分量

利用第一预定范围（例如，其中

）中的随机值初始化（块208）。如果相应的音频单词w从未出现在目标音频事件中，则对应音频向量表示v的分量

利用第二预定范围（例如，其中

）中的随机值初始化（块210）。最后，如果相应的音频单词w出现在目标音频事件和其他音频事件中，则对应音频向量表示v的分量

利用第三预定范围（例如，其中

）中的随机值初始化，该第三预定范围在第一和第二预定范围之间（块212）。

在初始化之后，执行多次迭代（块214），其中基于相应音频单词w在目标音频事件内多么频繁地出现来优化和/或细化每个音频向量表示v。特别地，对于合成训练数据集中的每个训练音频剪辑A（块216），对于训练音频剪辑A中的每个音频单词w（块218），确定相应的音频单词w是否在相应的训练音频剪辑A的目标音频事件内。如果音频单词w在相应的训练音频剪辑A的目标音频事件内，则根据公式

（正 _中心- v）

调整音频向量表示v，其中

是小常数（块220）。相反，如果音频单词w不在相应训练音频剪辑A的目标音频事件内，则根据公式

（负 _中心- v）

来调整音频向量表示v，其中

是小常数（块222）。

算法200的迭代过程（块214）具有将与目标音频事件具有强正相关性的音频向量表示v移动得更接近向量空间中的向量正 _中心的效果。同样，算法200的迭代过程（块214）具有将与目标音频事件具有强负相关性的音频向量表示v移动得更接近向量空间中的向量负 _中心的效果。最后，算法200的迭代过程（块214）具有将与目标音频事件具有弱或无显著相关性的音频向量表示v移动到向量正 _中心与负 _中心之间的向量空间区域中的效果。附加地，将领会，由于目标音频事件一般是30秒的音频剪辑中的仅几秒钟，所以出现在目标音频事件内的音频单词的总数量显著少于没有出现在目标音频事件内的音频单词的总数量。在一个实施例中，为了减轻该偏差，根据公式

计算小常数

和

，其中N _p是在目标音频事件内的音频单词的总数量，并且N _n是不在目标音频事件内的音频单词的总数量。

算法200可以相对于要检测的每个目标音频事件（例如，婴儿啼哭、玻璃破碎、枪射击以及人尖叫）被执行，以便导出存储在存储器24上的相应的单词到向量转换表134。然而，将领会，可以使用任何其他合适的方法来导出单词到向量转换表134，使得所得到的音频向量表示v指示相应音频单词w _i与特定目标音频事件之间的关系的强度或性质。

双向LSTM分类器

图6示出了图示音频事件检测程序30的BLSTM分类器模型38的操作的逻辑流程图。DCNN音频标记模型34接收针对个体音频剪辑102的音频向量表示序列

作为输入。如上面讨论的，音频向量表示序列

对应于个体音频剪辑102的重叠窗口段序列

，并且表示每个窗口段S_i的固有音频状态以及固有音频状态与在音频剪辑102中检测到的特定目标音频事件之间的关系。BLSTM分类器模型38被配置为针对每个窗口段S_i确定它包括目标音频事件还是不包括目标音频事件。以此方式，BLSTM分类器模型38确定目标音频事件在个体音频剪辑102内的时间方面的边界。

尽管可以使用许多不同的分类器模型，但是所图示的BLSTM（双向长短期记忆）分类器模型38利用一种类型的被称为LSTM（长短期记忆）单元的递归神经网络（RNN），这对于建模长期依赖性是有利的。将领会，LSTM单元包含内部单元状态c _t，该内部单元状态c _t一般在LSTM单元链中从一个LSTM单元传递到下一个。LSTM单元被配置为选择性地向其内部单元状态c _t添加信息（即，记住）或从内部单元状态C _t移除信息（即，遗忘）。信息的添加和/或移除由LSTM单元的操作门来调节。在常规的LSTM单元中，操作门包括遗忘门、输入门和输出门。首先，遗忘门包括sigmoid神经网络层，该sigmoid神经网络层被配置为基于它的输入x _t和先前隐藏状态h _t-1（其也是链中先前LSTM单元的输出），来确定从旧的内部单元状态c _t-t移除什么信息。接下来，输入门包括sigmoid神经网络层和双曲正切（tanh）神经网络层，该sigmoid神经网络层和双曲正切（tanh）神经网络层被配置为基于它的输入x _t和先前隐藏状态h _t-1来确定向旧的内部单元状态c _t-1添加什么信息。LSTM单元基于旧的内部单元状态c _t-1以及遗忘门和输入门的确定来确定新的内部单元状态c _t。最后，输出门包括sigmoid神经网络层，该sigmoid神经网络层被配置为确定新的内部单元状态c _t的哪些部分提供为LSTM单元的输出h _t。将领会，也可以使用具有稍微不同操作的常规LSTM单元的变体。

BLSTM分类器模型38包括第一多个LSTM单元136和第二多个LSTM单元138。第一多个LSTM单元136包括N个个体LSTM单元136，其中N是相应音频剪辑102的窗口段S_i的总数量。每个LSTM单元136被配置为接收音频向量表示序列

中的相应一个音频向量表示作为其输入。类似地，第二多个LSTM单元138也包括N个个体LSTM单元138，并且每个LSTM单元138被配置为接收音频向量表示序列

中的相应一个音频向量表示作为其输入。第一多个LSTM单元136以前向布置链接在一起，并且第二多个LSTM单元138以反向布置链接在一起。

如本文所使用的，“前向布置”意味着LSTM单元的内部单元状态c _t被前向传递到下一个LSTM单元，该下一个LSTM单元接收对应于时间方面下一个窗口段S_i+1的音频向量表示v _i+1作为其输入。相反，如本文所使用的，“反向布置”意味着LSTM单元的内部单元状态c _t被反向传递到先前LSTM单元，该先前LSTM单元接收对应于时间方面先前的窗口段S_i-1的音频向量表示v _i-1作为其输入。以此方式，对于特定的窗口段S_i，BLSTM分类器模型38经由第一多个LSTM单元136的前向布置将过去的特征考虑在内，并且经由第二多个LSTM单元138状态的反向布置将未来的特征考虑在内。

第一多个LSTM单元136中和第二多个LSTM单元138中的个体LSTM单元的神经网络层参考权重和/或参数的集合来执行它们相应的功能，所述权重和/或参数在训练过程期间被学习和优化。权重和/或参数的优化集合被存储在存储器24中。在音频事件检测程序30的使用期间，处理器22被配置为参考存储在存储器24中的权重和/或参数的集合来执行对应于BLSTM分类器模型38的程序指令。尽管权重和/或参数的集合的最优值可以由处理器22生成，但是它们优选地由另一个处理系统（未示出）预先生成，并且然后存储在存储器24上。该另一个处理系统可以以用于具有至少处理器和存储器的计算机等的常规方式进行配置，该存储器被配置为存储训练数据集和用于训练权重和/或参数的集合的优化值的由处理器执行的程序指令。

处理器22被配置为参考存储在存储器24上的权重和/或参数的集合来执行对应于第一多个LSTM单元136的程序指令，以确定前向输出序列

。类似地，处理器22被配置为参考存储在存储器24上的权重和/或参数的集合来执行对应于第二多个LSTM单元138的程序指令，以确定反向输出序列

。处理器22被配置为通过将前向输出序列

与反向输出序列

组合来确定分类输出序列

。特别地，处理器22被配置为将前向输出序列

的个体元素与反向输出序列

的对应个体元素组合，以到达分类输出序列

的个体元素。处理器22可以被配置为使用各种不同的操作来组合个体元素，诸如但不限于求和、乘法、平均和级联。分类输出序列

的每个元素指示相应的窗口段S_i包括目标音频事件还是不包括目标音频事件。因此，以此方式，分类输出序列

定义目标音频事件在个体音频剪辑102内的时间方面的边界。

用于音频事件检测的方法

下面描述了用于操作音频监控系统10的方法。特别地，描述了操作音频监控系统10来检测和定位音频剪辑中的目标音频事件的方法。在方法的描述中，方法正在执行某个任务或功能的陈述指代控制器或通用处理器执行存储在操作性地连接到控制器或处理器的非暂时性计算机可读存储介质中的编程指令，以操控数据或操作音频监控系统10中的一个或多个组件来执行该任务或功能。特别地，上面的监控计算机20的处理器22可以是这样的控制器或处理器。替代地，控制器或处理器可以利用多于一个处理器和相关联的电路和组件来实现，其中每个被配置为形成本文描述的一个或多个任务或功能。将领会，该方法的一些或所有操作也可以由远程服务器或云处理基础设施来执行。附加地，方法步骤可以以任何可行的时间顺序执行，而不管图中所示的顺序或描述步骤的顺序如何。

图8示出了操作音频监控系统10来检测目标音频事件的方法300的逻辑流程图。方法300通过有利地利用新颖的音频事件检测模型，对音频监控系统10的运作、并且更具体地监控计算机20的处理器22的运作进行改进。如上面详细描述的，音频事件检测模型有利地利用分层级方案，其中扩张卷积神经网络用以检测音频剪辑中任何地方的目标音频事件的存在。如果在音频剪辑中的某处检测到目标音频事件，则音频事件检测模型利用鲁棒的音频向量表示，该音频向量表示对音频的固有状态以及音频状态与在音频剪辑中检测到的特定目标音频事件之间的学习的关系进行编码。双向长短期记忆分类器有利地用于对长期依赖性建模，并基于音频向量表示确定目标音频事件在音频剪辑内的时间方面的边界。

方法300以接收音频剪辑的步骤开始（块310）。特别地，监控计算机20的处理器22被配置为从音频输入设备12接收至少一个音频剪辑。如上面讨论的，在一些实施例中，处理器22被配置为接收以具有预定长度（例如，30秒）的音频剪辑的形式的音频监控信号。在一些实施例中，处理器22被配置为接收以音频流的形式的音频监控信号，并将音频流划分成具有预定长度（例如，30秒）的音频剪辑。

方法300以基于音频剪辑确定多个音频特征的步骤继续（块320）。特别地，监控计算机20的处理器22被配置为执行对应于音频事件检测程序30的音频特征提取器32的程序指令，以基于接收到的音频剪辑确定多个音频特征

。如上面讨论的，在至少一个实施例中，所述多个HLD音频特征

包括HLD音频特征HLD_i的集合，HLD音频特征HLD_i对应于具有预定长度和预定重叠量的音频剪辑的窗口段序列

中的每个窗口段S_i。如上面讨论的，在至少一个实施例中，处理器22被配置为通过针对每个窗口段S_i的子段序列中的每个子段S_ij确定LLD音频特征LLD_ij的集合来确定音频特征HLD_i的每个集合。

方法300以如下步骤继续：基于多个音频特征使用第一神经网络来确定目标音频事件是否存在于音频剪辑中（块330）。特别地，监控计算机20的处理器22被配置为执行对应于音频监控程序30的DCNN音频标记模型32的程序指令，以基于多个HLD音频特征

来确定目标音频事件是否存在于音频剪辑中。如上面讨论的，在至少一个实施例中，处理器22被配置为使用DCNN来确定指示目标音频事件是否存在于音频剪辑中的（一个或多个）分类输出C _tag，该DCNN具有扩张卷积层110、114、118的序列，扩张卷积层110、114、118的序列被配置为执行具有增加的扩张因子l的扩张卷积操作序列。

方法300以如下步骤继续：响应于确定目标音频事件存在于音频剪辑中，基于（i）多个音频特征和（ii）目标音频事件来确定多个向量，多个向量中的向量指示多个音频特征中的音频特征与目标音频事件之间的相关性（块340）。特别地，如果在音频剪辑中检测到目标音频事件，则监控计算机20的处理器22还被配置为执行对应于音频监控程序30的Audio2Vec特征模型36的程序指令，以基于多个音频特征

和（一个或多个）分类输出C _tag确定多个音频向量表示

。如上面讨论的，在至少一个实施例中，处理器22被配置为标识音频码本132中最接近匹配每个集合的对应于每个窗口段S_i的音频特征HLD_i的相应音频单词w _i。接下来，如上面讨论的，处理器22被配置为使用对应于在音频剪辑中检测到的特定目标音频事件的音频单词到向量转换表134将每个音频单词w _i转换成相应的音频向量表示v _i。

最后，方法300以基于多个向量使用第二神经网络来确定目标音频事件在音频剪辑内的时间方面的位置的步骤继续（块350）。特别地，监控计算机20的处理器22被配置为执行对应于音频监控程序30的BLSTM分类器模型38的程序指令，以基于多个音频向量表示

来确定目标音频事件在音频剪辑内的时间方面的位置。如上面讨论的，在至少一个实施例中，处理器22被配置为使用递归神经网络来确定目标音频事件在音频剪辑内的时间方面的位置，该递归神经网络具有以前向布置链接在一起的第一多个LSTM单元136和以反向布置链接在一起的第二多个LSTM单元138。处理器22被配置为将第一多个LSTM单元136的输出与第二多个LSTM单元138的输出相组合，以确定在每个个体窗口段S_i中是否检测到目标音频事件，从而确定目标音频事件在音频剪辑内的时间方面的位置。

在一些实施例中，处理器22被配置为以事件日志、事件时间线等的形式将关于检测到的目标音频事件和/或检测到的目标音频事件的时间方面的位置的信息存储在存储器24中。在一些实施例中，处理器22被配置为操作输出设备14中的一个来输出关于检测到的目标音频事件和/或检测到的目标音频事件的时间方面的位置的一些可感知输出，诸如来自扬声器的警报声音、显示屏上的通知或警示、或者显示屏上的交互式事件日志/事件时间线。

本公开范围内的实施例还可以包括非暂时性计算机可读存储介质或机器可读介质，用于携带或具有存储在其上的计算机可执行程序指令（例如，音频事件检测程序30）或数据结构。这样的非暂时性计算机可读存储介质或机器可读介质可以是可以由通用或专用计算机访问的任何可用介质。作为举例而非限制，这样的非暂时性计算机可读存储介质或机器可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储装置、磁盘存储装置或其他磁性存储设备、或者可以用于携带或存储以计算机可执行程序指令或数据结构形式的期望程序代码构件的任何其他介质。上面的组合也应当被包括在非暂时性计算机可读存储介质或机器可读介质的范围内。

计算机可执行程序指令包括例如使通用计算机、专用计算机或专用处理设备执行某个功能或功能组的指令和数据。计算机可执行程序指令还包括由独立计算机或网络环境中的计算机执行的程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件和数据结构等。计算机可执行程序指令、相关联的数据结构和程序模块表示用于执行本文公开方法的步骤的程序代码构件的示例。这样的可执行指令或相关联的数据结构的特定序列表示用于实现这样的步骤中描述的功能的对应动作的示例。

虽然已经在附图和前面的描述中详细图示并描述了本公开，但是其在性质上应当被认为是说明性而非限制性的。应理解的是，仅呈现了优选实施例，并且期望保护落入本公开的精神内的所有改变、修改和另外的应用。

Claims

1.一种用于检测和定位音频剪辑中的目标音频事件的方法，所述方法包括：

利用处理器接收音频剪辑；

利用处理器，基于音频剪辑确定多个音频特征；

利用处理器，基于所述多个音频特征使用第一神经网络来确定目标音频事件是否存在于音频剪辑中；

响应于确定目标音频事件存在于音频剪辑中，利用处理器基于（i）所述多个音频特征和（ii）目标音频事件来确定多个向量，所述多个向量中的向量指示所述多个音频特征中的音频特征与目标音频事件之间的相关性；以及

利用处理器，基于所述多个向量使用第二神经网络来确定目标音频事件在音频剪辑内的时间方面的位置。

2.根据权利要求1所述的方法，确定所述多个音频特征还包括：

将音频剪辑分段成具有第一预定长度的多个音频段；以及

针对所述多个音频段中的每个音频段，基于相应音频段确定第一音频特征的集合，所述多个音频特征包括对应于所述多个音频段的第一音频特征的集合。

3.根据权利要求2所述的方法，将音频剪辑分段还包括：

将音频剪辑分段成所述多个音频段，所述多个音频段具有第一预定长度和在所述多个音频段中的相邻音频段之间的第一预定重叠量。

4.根据权利要求2所述的方法，确定所述多个音频特征还包括：

将所述多个音频段中的每个音频段分段成多个音频子段，所述多个音频子段具有比第一预定长度短的第二预定长度；以及

针对每多个音频子段中的每个音频子段，基于相应的音频子段确定第二音频特征的集合；

针对所述多个音频段中的每个音频段，基于对应于相应音频段的多个音频子段的第二音频特征的集合确定音频特征的第一集合。

5.根据权利要求4所述的方法，将每个音频段分段还包括：

将所述多个音频段中的每个音频段分段成所述多个音频子段，所述多个音频子段具有第二预定长度和在所述多个音频子段中的相邻音频子段之间的第二预定重叠量。

6.根据权利要求1所述的方法，其中第一神经网络是卷积神经网络，其具有被配置为执行具有第一扩张因子的卷积操作的至少一个扩张卷积层。

7.根据权利要求6所述的方法，其中，卷积神经网络具有扩张卷积层序列，所述扩张卷积层序列被配置为执行具有增加的扩张因子的卷积操作序列。

8.根据权利要求2所述的方法，确定所述多个向量还包括：

针对所述多个音频段中的每个音频段，基于对应于相应音频段的第一音频特征的集合来确定向量，所述多个向量包括对应于所述多个音频段中的每个音频段的向量。

9.根据权利要求8所述的方法，确定所述多个向量还包括：

针对所述多个音频段中的每个音频段，从定义的音频单词集合标识与对应于相应音频段的第一音频特征的集合最接近匹配的音频单词；以及

针对所述多个音频段中的每个音频段，基于（i）针对相应音频段的所标识的音频单词和（ii）在所定义的音频单词集合中的音频单词与对应向量之间的预定义转换，来确定对应于相应音频段的向量，所述预定义转换依赖于目标音频事件。

10.根据权利要求9所述的方法，其中，通过使用高斯混合模型聚类技术对多个训练音频剪辑的音频特征进行聚类来生成所定义的音频单词集合。

11.根据权利要求9所述的方法，其中，在所定义的音频单词集合中的音频单词与对应向量之间的预定义转换指示在所定义的音频单词集合中的每个相应音频单词与目标音频事件之间的相关性。

12.根据权利要求11所述的方法，其中，在所定义的音频单词集合中的音频单词与对应向量之间的预定义转换是基于多个训练音频剪辑来确定的，所述多个训练音频剪辑被注释以指示目标音频事件的存在和时间方面的位置。

13.根据权利要求2所述的方法，确定目标音频事件在音频剪辑内的时间方面的位置还包括：

针对所述多个音频段中的每个音频段，使用第二神经网络基于所述多个向量，来确定目标音频事件是否存在于相应音频段中。

14.根据权利要求13所述的方法，其中第二神经网络是具有至少一个长短期记忆单元的递归神经网络。

15.根据权利要求14所述的方法，其中递归神经网络具有以前向布置连接的第一多个长短期记忆单元和以反向布置连接的第二多个长短期记忆单元。

16.根据权利要求15所述的方法，确定目标音频事件在音频剪辑内的时间方面的位置还包括：

将第一多个长短期记忆单元的输出与第二多个长短期记忆单元的输出进行组合。

17.根据权利要求1所述的方法，其中第一神经网络和第二神经网络使用合成训练音频剪辑来训练，所述合成训练音频剪辑是通过将包含目标音频事件的样本音频剪辑与不包含目标音频事件的背景音频剪辑进行组合而生成的，所述背景音频剪辑比所述样本音频剪辑长。

18.根据权利要求1所述的方法，还包括：

利用处理器操作存储器存储装置，以在事件日志中存储以下各项中的至少一项的指示：（i）目标音频事件是否存在于音频剪辑中，以及（ii）目标音频事件在音频剪辑内的时间方面的位置。

19.根据权利要求1所述的方法，还包括：

利用处理器操作输出设备，以生成指示以下各项中的至少一项的输出：（i）目标音频事件是否存在于音频剪辑中，以及（ii）目标音频事件在音频剪辑内的时间方面的位置。

20.一种用于检测和定位音频剪辑中的目标音频事件的系统，所述方法包括：

麦克风，被配置为记录环境的音频剪辑；和

处理器，可操作地连接到麦克风并且被配置为：

接收由麦克风记录的音频剪辑；

基于音频剪辑确定多个音频特征；

基于所述多个音频特征，使用第一神经网络来确定目标音频事件是否存在于音频剪辑中；

响应于确定目标音频事件存在于音频剪辑中，基于（i）所述多个音频特征和（ii）目标音频事件来确定多个向量，所述多个向量中的向量指示所述多个音频特征中的音频特征与目标音频事件之间的相关性；以及

基于所述多个向量使用第二神经网络来确定目标音频事件在音频剪辑内的时间方面的位置。