CN107223332B

CN107223332B - 基于声学相机的音频视觉场景分析

Info

Publication number: CN107223332B
Application number: CN201680011015.5A
Authority: CN
Inventors: N.卡希尔; H.M.卡尔; M.Y.凯利; K.诺兰; A.V.拉扎鲁特; K.A.埃利斯; R.J.奥`马利
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2015-03-19
Filing date: 2016-02-18
Publication date: 2021-02-05
Anticipated expiration: 2036-02-18
Also published as: TW201643688A; TWI616811B; CN107223332A; US9736580B2; WO2016148825A1; US20160277863A1

Abstract

公开了用于场景分析的技术，其包括使用声学成像和计算机音频视觉（CAV）过程用于监视应用。在一些实施例中，用麦克风阵列、图像传感器、声学图像控制器和控制器来利用声学图像设备。在一些情况下，控制器至少分析声学图像数据内的空间谱的部分以通过标识具有超过特定阈值的强度的像素的区域来检测声音变化。另外，控制器可以基于具有超过阈值的强度的像素之间的相对距离来检测两个或更多个共现的声音事件。可以使用计算机音频视觉、声音/语音识别和声学签名技术来分析图像像素数据、音频样本数据和声学图像数据的得到的数据融合，以识别/标识与事件相关联的音频和视觉特征并且凭经验或理论上确定引起每个事件的一个或多个状况。

Description

基于声学相机的音频视觉场景分析

背景技术

声学相机是可以用来再现场景中的声音能量的视觉表示的设备。该可视化的结果有时被称为声学图像或声学映射。与由标准相机产生的图像类似，声学图像是2-D像素网格。但是，与其中像素对应于场景内的光形态的基于光的图像不同，声学图像中的像素对应于在场景内发出的声音的强度。在一些情况下，可以利用结合1-D麦克风阵列的信号处理技术，其中输出图像的每个像素表示如在由1-D阵列麦克风的每个空间点处捕捉的来自独特到达角的声音强度。一个这样的示例技术是波束赋形，也被称为空间滤波。波束赋形包括使每个麦克风信号相对延迟并且添加它们。因此，来自特定方向的信号被放大（例如，同相），而来自其他方向（角度）的信号被减弱或以其他方式减轻。所得到的信号的强度然后可以被计算和映射，使得与到达角（或方向）对应的像素反映信号的功率。

附图说明

图1图示了依照本公开的实施例的声学监视系统的框图。

图2图示了依照本公开的实施例的具有空间对准的图像传感器的示例2-D麦克风阵列。

图3图示了依照本公开的实施例的用于利用声学成像和计算机处理及分析的场景分析的示例方法。

图4图示了依照本公开的实施例的用于图3的示例方法的示例过程流程，包括多个模块被配置成对所观察的场景内的事件进行检测和分类。

图5A-5C描绘了依照本公开的一些实施例的在通过图4的示例过程流程执行场景分析时生成的各种中间的和得到的声学图像。

图6图示了依照本公开的实施例配置的分布式声学监视系统。

图7图示了依照本公开的示例实施例的利用在本文中公开的场景分析技术配置的计算机系统。

图8示出了依照本公开的实施例配置的移动计算系统。

将通过阅读与在本文中描述的图一起采取的以下详细描述来更好地理解目前实施例的这些和其他特征。不意图附图按比例绘制。在图中，通过同样的数字来表示在各种图中图示的每个相同或几乎相同的部件。为了清楚的目的，可能没有在每个图中标注每个部件。

具体实施方式

公开了用于场景分析的技术，其包括使用声学成像和计算机音频视觉（CAV）过程用于视觉监视和检验应用。特别地，依照本公开的实施例配置的监视系统包括与CAV台（stage）可操作地耦合的声学相机。使用声学相机来登记声音变化，其在本文中被称为声音事件，发生在所观察的场景内，并且CV-台被配置成对导致那些声音事件的一个或多个状况（原因）进行分析和智能分类。声音变化可以包括例如引入声音（例如，安静 → 声音，或者声音1 → 声音1 + 声音2）、现有的声音改变（例如，声音变更大或更柔和）、第一声音改变到第二声音（例如，声音1 → 声音2）、移除声音（例如，声音 → 安静，或者声音1 + 声音2→ 声音1）的情况，以及与当前声音域中的改变相关联的任何其他事件。在任何这样的情况下，CAV-增强的声学监视系统可以用来将声音事件与在所观察的场景中标识的对象相关联，并且利用该关联将导致那些事件的一个或多个原因或状况联系起来。该技术基于如下认识：在某些环境中诸如在工业装备的状况监视期间定位和标识声音的源是有益的。例如，针对工业装备而监视进行的声学事件使得该机器的操作模式能够被更好地理解，使得与正常的或否则预期的操作的偏离可以用来标识例如发生的故障或者用于预防性维护的机会，视具体情况而定。在一些实施例中，控制器被配置成接收场景数据，场景数据包括图像帧、声学图像帧和多个经空间滤波的音频样本。控制器可以在观察到场景时实时地或接近实时地接收该场景数据，或者可以处理先前捕捉的场景数据。在任何这样的情况下，控制器包括事件识别模式，其被配置成（例如，通过声学图像）检测指示声音事件的在场景的空间谱中的变化，并且将与每个事件相关的声学图像和图像像素的区域隔离。这些相关的区域还可以包括每个事件的音频内容，其中音频内容起因于空间滤波，使得仅导致事件的那些声音信号在音频内容中最突出或以其他方式清楚地可听。为此，并且依据实施例，在监视系统的视场（FOV）中的每个事件可以经由数据融合来量化，其中多维事件签名（signature）有效地起因于光图像数据、声学图像数据和音频数据的融合。在实施例中，可以（例如，利用声学和图像签名技术）将这些事件签名或事件“指印”与先前分类的或以其他方式先验地导出的其他这样的事件签名进行比较，以对导致事件的可能状况进行分类。如将根据本公开领会的，这样的系统可以使能够实现在复杂的声音环境、特别是以噪声和其他干扰的存在为特征的那些环境中的准确的场景分析和状况监视。如将进一步领会的，该技术可以在能够捕捉声音和图像数据或否则接收所捕捉的声音和图像数据的各种电子设备中实现，所述各种电子设备包括例如智能电话、可穿戴计算机、膝上型计算机、平板计算机、片上系统配置或可以用于场景监视和分析的其他电子设备。如将进一步领会的，示例实施例可以以硬件、软件、固件或其任何组合来实现。

一般概述

如先前讨论的，诸如在工业环境中定位和标识声音的源可能是有益的。例如，机器的操作模式中的改变常常伴随着独特的可听改变、视觉改变或二者的组合，其中如果被适当地标识，则每个这样的改变指示可执行信息。一个这样的具体示例包括加热、通风和空气调节（HVAC）机器，诸如通过各种子系统和其相关联的循环（例如，冷却阶段、居留阶段、加热阶段等）发出不同的声音的冷却装置。这样的声音可以指示正常状态和异常状态二者。常常，这样的分析全部或部分地留给人类来听、识别和作出反应。然而，对未经训练的/无经验的耳朵而言听起来“正常”的事物可能对专家的耳朵而言听起来“异常”。不幸地，获得这样的专家知识是昂贵的，并且这样的专家知识是要求时间、投资和训练的技能组。另外，许多生产环境是特别嘈杂的地方，使得难以精确定位声音的源和清楚地听该声音，即使人们被以该方式训练。现今在市场上存在利用声学影像来帮助弥补这些问题的监视系统。然而，这些解决方案涉及由技术人员进行的手动交互和解释。另外，这些解决方案中的一些是受限的，因为多个同时的声音，是真实世界环境的典型特征，可能重叠并且防止或以其他方式复杂化准确的场景分析。出于该原因，现有的解决方案通常完全忽略声音或者认为其是次要方面。

因此，并且依照本公开的实施例，公开了使能够实现准确的场景分析以用于复杂的声音环境中的状况监视的技术。特别地，可以使用声学监视系统来检测指示环境中的事件的在声场中的改变，并且隔离每个事件以对导致其的原因或状况进行分类。一些这样的示例环境包括工业环境和非工业环境二者，仅举几例，其包括例如城市环境、军事环境、家庭环境和灾难地带。在任何这样的情况下，声学监视系统可以是在电子设备中实现的或以其他方式整合在电子设备内的硬件和软件的组合，所述电子设备包括例如移动电子设备（例如，膝上型计算机、智能电话、可穿戴计算机）、固定位置系统（例如，台式计算系统、计算机辅助的CCTV或相机监控系统、经由通信网络可操作地耦合的分布式计算系统）或其他基于计算机的设备和系统。注意，这些技术不限于实时场景分析，因为它们可以用来分析先前捕捉的场景数据以执行回顾性事件监测和分类。另外，这样的回顾性分析可以包括更新事件分类模型和/或配置改变（例如，阈值和检测灵敏度）以增加总体的分析准确性。此外，可以相对于被监视的区域本地或远程地执行分析。

一个具体示例实施例可以被至少部分地在计算设备内实现，以提供向用户警告机器内的潜在故障状况的声学监视系统或以其他方式监视机器状况。在一个这样的实施例中，声学监视系统可以被配置成以连续模式（例如，始终开启、始终捕捉）或周期性模式（例如，每隔几秒、按时间表或以其他方式延迟）来捕捉场景的音频和视频。另外，声学监视系统可以被以按需模式配置，由此用户通过选择用户接口选项或硬件按钮而发起捕捉。在一些这样的示例情况下，例如，计算设备可以包括或否则通信地耦合到麦克风阵列（例如，2-D麦克风阵列）和图像传感器以执行对声音和图像数据的捕捉。另外，计算设备可以包括或否则通信地耦合到被配置成基于所捕捉的音频而生成声学图像数据的声学图像控制器。在实施例中，所捕捉的音频由声学图像控制器处理并且被变换成表示所捕捉的场景的空间谱的2-D像素网格。在捕捉期间，2-D声学图像像素网格可以可选地通过（例如，在计算设备的显示器上的）用户接口而可视化，并且在一个这样的示例情况下，可以被描绘为叠加到目标/所观察的场景的一个或多个所显示的图像上。如将领会的，这样的叠加使来自监视系统的视场（FOV）的音频数据与来自监视系统的FOV的视觉数据有效地相关。一些这样的示例可视化包括所谓的“热点”或热图表示，其有助于将声音强度可视化，并且标识发出声音的位置（例如，到达角）。如根据本公开将领会的，这些热点可以被用到像素的每个集群（区域）是来自场景的音频域的不同的声音事件的程度，并且可以用来从场景的视觉域定位和隔离（例如，包含发出声音的对象或位置的）图像数据的对应像素。为此，依据实施例，监视系统的FOV有效地允许丰富的数据集被捕捉，所述数据集包括来自音频域和视觉域二者的分量。另外，这些热点可以用来将经空间滤波的声音信号加和或否则放大所述声音信号以生成声学图像数据。如根据本公开将进一步领会的，隔离的/放大的声音信号、声学图像数据和图像数据（例如，光图像）的这样的组合可以使能够实现针对每个事件的多维事件签名，并且可以将该签名与其他预先存储的事件签名（或模型）进行比较以对导致每个事件的状况或原因进行分类。

在实施例中，声学监视系统可以向用户提供警报消息，所述警报消息指示一个或多个检测到的事件中的至少一个、针对事件的一个或多个所确定的分类以及与事件相关联的补充数据（声音事件信息）。例如，如果声学监视系统已经在生产设施中观察到溅射机，则声学监视系统可以基于登记从螺线管发出的不同声音而检测到螺线管出故障或否则处于异常状态中。另外，这样的分析可以包括（例如，使用对象识别）视觉上确认机器是包括螺线管的类型的，从而增加声音识别的必然性和准确性。在该示例中，这样的事件可以被分类并且用来生成警报消息。警报消息的一些这样的示例包括文本或电子邮件消息、弹出窗口或可听钟声，用户先前将其与声学监视应用相关联（例如，一系列哔哔声指示机器故障或异常状况）。另一示例警报是警报的听觉表示，诸如经由实现声学监视系统的电子设备的扬声器预先记录的表达：在所观察的场景中检测到事件并对所述事件分类（例如，溅射机1中的“螺线管正在异常地操作。报告已经发电子邮件给你了”）。另一示例警报是通过压电致动器或一些其他适合的元件提供的触觉响应（例如，设备的振动）。许多通信方案可以用来传达警报，如将领会的那样。

在实施例中，警报消息可以存在于增强现实模式中，其中警报消息叠加到所观察的场景的（具有或不具有声学图像叠加的）一个或多个图像上。另外，警告消息可以存在于在与发出声音的机器/对象对应的位置处的这样的显示的图像内。应领会，这些技术不限于将这样的警报消息呈现到现场（live）/所捕捉的图像上。例如，机器的所生成的图像（例如，3-D线框图、剖面图或其他表示）可以被提供对检测到的事件的位置的指示（包括分类标签和其他补充数据），以便使能够实现对引起事件的状况的增强的观点。在较一般的意义上，一旦环境中的对象被标识，就存在一定范围的呈现选项，其包括真实的和生成的二者，以便将检测到的状况较精确地传送给用户。

另一具体示例实施例是分布式声学监视系统，使得系统的不同节点包括如在本文中公开的场景数据采集和/或场景分析技术。例如，在一个具体示例情况下，如本文中提供的一个或多个声学监视系统、声学相机和麦克风阵列可以分布或以其他方式部署在通信网络上。因此，分布式声学监视系统可以提供分布式的场景数据采集节点，其可以向中央位置或向能够访问来自这些（多个）节点的信息的实体提供音频、视频和声学图像数据。这样的环境可以例如在所谓的物联网（IoT）配置的背景下实现以提供通信地耦合到一个或多个分析节点的一个或多个场景数据采集节点，或其他这样的分布式声学监视系统。进一步注意，在这样的IoT系统中，这样的设备可以被整合在部署在特定位置处的固定位置节点布置（例如，闭路电视（CCTV）、检查相机、监控相机等）中并且不必定需要是移动的。

系统架构

图1图示了依照本公开的实施例配置的声学监视系统100。如可以看到的，系统100包括场景（数据）采集设备102、声学图像控制器108、图像控制器110和计算机音频视觉（CAV）控制器112。如将根据本公开领会的，依照本公开的实施例，数据采集设备102、声学图像控制器108和图像控制器110配置有空间对准的捕捉域（例如，公共视场）以生成空间和时间对准的视频和音频数据用于由CAV控制器112进行的处理和后续场景分析。注意，空间和时间对准可以由CAV控制器112以硬件、软件或其任何组合来执行。另外，CAV控制器112可以执行各种后处理例程以执行空间和时间对准（例如，相比执行这样的对准的声学图像设备）。在各种实施例中，在系统100中示出的部件中的一个或多个可以被完全整合和实现在单个芯片（例如，片上系统、专用集成电路（ASIC）、现场可编程门阵列（FPGA）或其他适合的逻辑器件）内，或者在其他实施例中，整合在一个或多个分离的芯片中并且被通信地耦合以实现在本文中不同地公开的技术。

如所示，数据采集设备102包括图像传感器104。图像传感器104可以被实现为能够捕捉光并且将其转换成成比例的电信号的任何类型的传感器，包括例如CMOS、CCD和混合CCD/CMOS传感器。一些这样的示例传感器包括例如彩色图像数据（RGB）、彩色和深度图像数据（RGBD相机）、深度传感器、立体相机（L/R RGB）、YUV、红外信号和x-射线。尽管在图1中描绘了单个图像传感器104，但是应领会，可以在不脱离本公开的范围的情况下利用附加传感器和传感器类型（例如，被布置成从不同的视角为场景拍照的多个相机）。为此，取决于特定应用，图像传感器104可以被实现为多个不同的传感器。例如，图像传感器104可以包括为红外检测器的第一传感器，以及为彩色图像传感器（例如，RGB、YUV）的第二传感器。在其他示例中，图像传感器104可以包括被配置用于捕捉图像信号的第一传感器（例如，彩色图像传感器、启用深度的图像感测（RGDB）、立体相机（L/R RGB）、YUV、红外和x-射线），以及与第一图像传感器不同的被配置成捕捉图像数据的第二传感器。

如在系统100中进一步所示，数据采集设备102包括麦克风阵列106。麦克风阵列106可以被实现为例如可以将声音（例如，声压）转换成成比例的电信号的任何数目的麦克风设备。在本文中讨论的技术的一般背景下，麦克风阵列106是具有MxN麦克风模式的2-D麦克风阵列，但其他麦克风阵列配置将根据本公开而是显然的。在图2中描绘了一个这样的示例2-D麦克风阵列200。如所示，描绘了以均匀线性阵列模式的8x8麦克风阵列200。每个麦克风202被定位在特定行和列中，并且因此可以在麦克风阵列200内被单独地寻址。应领会，在其他实施例中，麦克风阵列200可以被以不同的模式配置，诸如例如圆形的、螺旋的、随机的或其他的阵列模式。注意，在分布式声学监视系统（诸如下面关于图6讨论的那些）的背景下，麦克风阵列200可以包括对声学监视系统100而言本地或远程（或本地和远程二者）的多个麦克风阵列。

麦克风阵列200的每个麦克风202可以被实现为例如具有全向拾取响应使得响应等于来自任何方向的声音的麦克风设备。在实施例中，全向麦克风可以被配置成对来自垂直于麦克风阵列200的宽边的源的声音更敏感。这样的宽边阵列配置特别良好地适于相比于源自例如在麦克风阵列200后面的声音将在麦克风阵列200前面的声音源作为目标。取决于应用，可以利用其他适合的麦克风阵列，如将根据本公开而显然的那样。例如，可以在要求紧凑设计的应用或者要求高增益和锐方向性的那些应用中利用端射阵列。在其他实施例中，每个麦克风202可以包括双向、单向、猎枪、接触或抛物线样式的麦克风。如在本文中一般地提到的，接触麦克风可以使能够实现通过使麦克风与对象（例如，机器、人）接触或紧密接近来检测声音。例如，可以使接触麦克风与设备外侧（例如，底架）接触，其中具有有着要被监视的目标设备或对象的视线可能不是可能的或以其他方式可行的。

如在示例麦克风阵列200中所示，每个麦克风202包括相同麦克风设备。一个这样的具体示例包括MEMS类型的麦克风设备。在其他实施例中，可以基于例如形状因子、灵敏度、频率响应和其他应用特定的因素来实现其他类型的麦克风设备。在一般意义上，相同的麦克风设备是特别有利的，因为每个麦克风设备200可以具有匹配的灵敏度和频率响应以确保在音频捕捉和波束赋形（空间）分析期间的优化性能。在实施例中，麦克风阵列200可以被实现在外壳或其他适当的壳体内。在一些情况下，麦克风阵列200可以被以各种方式安装，包括例如壁式安装、天花板安装和三脚架安装。另外，麦克风阵列200可以是手持装置或以其他方式移动的（非固定的）。在一些情况下，每个麦克风202可以被配置成生成模拟或数字数据流（其可能或可能不涉及模拟到数字转换或数字到模拟转换）。

根据本公开应领会，可以利用其他类型的麦克风设备并且本公开不限于具体模型或单个类型的麦克风设备的使用。例如，在一些情况下，使麦克风设备的子集具有平坦频率响应并且使其他具有定制的或否则作为目标的频率响应可能是有利的。作为目标的频率响应的一些这样的示例包括例如被设计成强调人类语音中的频率而减轻低频背景噪声的响应模式。其他这样的示例可以包括例如被设计成强调将高或低频声音的响应模式，所述高或低频声音包括将正常地不可听或否则不可被人耳检测到的频率。其他示例包括麦克风阵列200的子集具有配置有宽频率响应的响应模式并且另一子集具有窄频率响应（例如，作为目标的或以其他方式定制的频率响应）。在任何这样的情况下，并且依照实施例，麦克风阵列202的子集可以被针对作为目标的频率响应进行配置，而剩余的麦克风可以利用不同的频率响应和灵敏度进行配置。

仍参考图2，在麦克风阵列200的中心描绘了图像传感器104。依照实施例，图像传感器104的中心放置将相机的图像捕捉域（视场）与麦克风阵列200的音频捕捉域空间对准。在其他实施例中，图像传感器104的放置不限于中心位置。例如，图像传感器104可以被定位成紧挨着麦克风阵列200或否则在麦克风阵列200附近，只要捕捉域的一部分重叠，或者可以另外以重叠方式彼此相关。在任何这样的情况下，依照本公开的实施例，可以执行校准例程或空间配准过程，使得图像传感器104的捕捉域和麦克风阵列200的捕捉域被对准以产生空间对准的图像和声音数据。

返回到图1，声学图像控制器108可以被实现例如为复杂指令集计算机（CISC）或精简指令集计算机（RISC）处理器、x86指令集处理器、多核、微控制器、ASIC或中央处理单元（CPU）。在一些实施例中，声学图像控制器108可以包括（多个）双核处理器、（多个）双核移动处理器等。声学图像控制器108可以包括（未示出的）记忆装置，诸如包括闪存的非易失性存储设备和/或易失性存储设备，诸如随机存取存储器（RAM）、动态随机存取存储器（DRAM）和静态Ram（SRAM）。

图像控制器110可以被实现例如为例如复杂指令集计算机（CISC）或精简指令集计算机（RISC）处理器、x86指令集处理器、多核、微控制器、ASIC或中央处理单元（CPU）。在一些实施例中，图像控制器110可以包括（多个）双核处理器、（多个）双核移动处理器等。图像控制器110可以包括（未示出的）记忆装置，诸如包括闪存的非易失性存储设备和/或易失性存储设备，诸如随机存取存储器（RAM）、动态随机存取存储器（DRAM）和静态Ram（SRAM）。在实施例中，图像控制器110包括（未示出的）图像管线，其包括图像信号处理器和一个或多个图像增强台用于图像数据的捕捉后的处理。在实施例中，利用图像控制器110来控制图像传感器104的相机到发起具有期望的特性的图像数据的捕捉所必需的程度，所述特性诸如锐度、噪声、对比度或任何其他期望的图像质量，视具体情况而定。

CAV控制器112可以被实现例如为复杂指令集计算机（CISC）或精简指令集计算机（RISC）处理器、x86指令集处理器、多核、微控制器、ASIC、FPGA、SOC或中央处理单元（CPU）。在一些实施例中，CAV控制器112可以包括（多个）双核处理器、（多个）双核移动处理器等。CAV控制器112可以包括（未示出的）记忆装置，诸如包括闪存的非易失性存储设备和/或易失性存储设备，诸如随机存取存储器（RAM）、动态随机存取存储器（DRAM）和静态Ram（SRAM）。在一些实施例中，CAV控制器112可以包括指令或否则被编程以使得下面讨论的方法300被执行。为此，可以以硬件、软件、固件或其任何组合来实现过程300。

在实施例中，系统100可以以变化的物理样式或形状因子来体现。在一些实施例中，例如，系统100或其部分可以被实现为具有无线能力的移动计算设备。例如，移动计算设备可以指的是具有处理系统和移动电源或电力供应（诸如一个或多个电池）的任何设备。移动计算设备的一些这样的示例可以包括个人计算机（PC）、膝上型计算机、超级膝上型计算机、平板计算机、触摸板、便携式计算机、手持计算机、掌上计算机、个人数字助理（PDA）、蜂窝电话、组合蜂窝电话/PDA、电视、智能设备（例如，智能电话、智能平板计算机或智能电视）、移动互联网设备（MID）、消息传送设备、数据通信设备等。

移动计算设备的示例还可以包括被布置成由人穿戴的计算机，诸如手腕计算机、手指计算机、戒指计算机、眼镜计算机、腰带夹计算机、臂带计算机、鞋计算机、衣服计算机以及其他可穿戴计算机。在一些实施例中，例如，移动计算设备可以被实现为能够执行计算机应用以及语音通信和/或数据通信的智能电话。尽管可能利用被实现为智能电话的移动计算设备作为示例描述了一些实施例，但是可以领会，也可以使用其他无线移动计算设备来实现其他实施例。实施例不限于该背景下。

在使用中，数据采集设备102捕捉针对所观察的场景的音频和视频。如上面所讨论的，这样的音频和视频数据被空间和时间对准，使得每个的捕捉域重叠。注意，可以（例如，通过耦合到监视系统的分离的相机和麦克风阵列）分离地捕捉音频和视频，并且本公开不应该被解释为在该点上是限制的。在一些情况下，所捕捉的音频和视频数据表示目标场景，诸如例如制造设施中的制造装备、城市街道或其他可观察的场景。为了说明而提供了这些示例使用情况，并且其不意图限制本公开。

在实施例中，声学图像控制器108可以被配置成基于（例如，来自麦克风阵列200的）经空间滤波的音频信号而生成声学图像数据以便视觉上表示所观察的场景中的声音能量。如上面所讨论的，声学图像关于标准图像类似，因为它们包括2-D像素网格，但不同在于像素的强度与从场景发出的声音的强度对应。为此，所生成的声学图像帧的每个像素的像素强度表示来自声音的每个独特的到达角（方位角和仰角）的声音强度。一般地，使用诸如例如半透明的着色的热图或其他可视的着色之类的遮蔽（mask）将声学图像叠加到相同场景的图像帧上。在图5A中描绘了一个这样的示例图像，其描绘了在半导体制造环境中的溅射机。如所示，利用具有第一颜色（例如，红色）的像素的（例如，表示到达角的）最高强度的那些区域来表示从溅射机的两个固定点（在该情况下，点A和B）发出的声音。因为声音在不同的到达角较不强烈，所以通过从第一颜色502褪色（fade）到第二颜色504（例如，红色到黄色）的像素来表示强度中的该差异。另外，声音强度中的其他差异可以通过从第一颜色502褪色到第二颜色504并且然后到第三颜色506（例如，红色到黄色、黄色到绿色）的像素来表示。如所示，相对声音强度也由每个着色的像素所具有的透明度的量来指示。例如，最接近到达角的像素（例如，在第一颜色502的区域内着色/渐变的像素）基本上是不透明的。相反，最远离到达角的那些像素包括几乎透明的遮蔽。在任何这样的实施例中，所应用的这些颜色和透明度渐变可以是用户可配置的。应领会，所选取的颜色的确切数目和特定色调不特别地与本公开相关并且不应被视为限制性的。如下面将进一步讨论的那样，依照一些实施例，声学图像帧中的声音强度的这些加亮（highlight）的区域允许所观察的场景中的声音源的定位和隔离以及对其的分析以将声音与场景内的视觉特征智能相关。

方法和架构

图3图示了依照本公开的实施例的用于分析声学图像和声音以对所观察的场景内的事件进行检测和分类的示例方法300。该方法可以例如由图1的系统100来实现，但是根据本公开许多实施例将是显然的。图4到5C图示了依照一些实施例的除执行在事件分析时生成的一些示例图像之外的用于方法300的示例过程流程。示例方法300包括如下动作：采集304所观察的场景的声音和图像数据以生成空间和时间对准的声学图像和声音数据、检测306在对准的声学图像、图像数据（光图像）和声音数据内发生的一个或多个事件、提取308一个或多个检测到的事件的特征，以及对场景特征进行分类310以凭经验或理论上确定引起事件的一个或多个状况，以及输出312分类数据。方法300在动作302中开始。

如所示，示例方法300包括采集304所观察的场景的声音和图像数据以生成空间和时间对准的声学图像和音频数据流的动作。参考图4，经由数据采集设备102采集304声音和图像数据的动作在示例过程流程内被表示为数据采集模块402。应领会，在一些示例实施例中，数据采集模块402可以被精确地称为场景采集模块，因为数据采集模块402可以被配置成监视场景（包括其中的所有对象）并且不仅是一件特定的装备或对象。注意，模块404、406和408中的每个可以被实现为CAV控制器112内的硬件、软件或其任何组合。进一步注意，CAV控制器112可以被配置成执行与数据采集模块402的那些例程类似的例程。一些这样的例程可以包括（多个）空间对准的声学图像403、音频帧405和（多个）图像帧407，生成与音频数据的信号处理（例如，波束赋形）相关的声学图像和各种信号处理。如所示，数据采集模块402包括声学图像设备，其被配置成捕捉和实时地提供声学图像、图像帧和音频数据。应领会，数据采集模块402可以是可选的或者被不同地配置以使能够实现预期的场景分析和状况监视。例如，系统100可以被配置成使得先前观察的场景的所捕捉的音频和视频可以从外部位置（例如，存储器、网络位置或其他存储位置）取回并且使用在本文中不同地公开的声学分析技术（例如，通过模块404-408）来处理。另外，并且在实施例中，数据采集模块402可以由两个或更多个分离的设备来实现，其中每个设备被配置成捕捉场景的不同方面（例如，相机设备用以捕捉光图像、声学图像控制器用以再现声音强度，以及一个或多个外部麦克风阵列）。为此，在图4中示出的数据采集模块402不应该被解释为限制性的。其他实现将根据本公开而是显然的，诸如混合配置，其中系统100进行的现场分析可以被转换成预期分析，如果期望的话。

在图4中示出的示例实施例中，数据采集模块402可以实现波束赋形或其他适合的技术用于对音频帧进行空间滤波以便生成所观察的场景的空间谱（声学图像数据）。应领会，可以利用不同于波束赋形的用于空间分析的其他技术并且其在本公开的范围内。虽然波束赋形技术可以被有利地用来生成经空间滤波的音频和声学图像二者，但是用于空间分析的其他类似的技术不生成经空间滤波的音频。代之以，它们产生空间谱（例如，声学图像）。例如，两个这样的技术被称为多信号分类（MUSIC）算法和经由旋转不变技术估计信号参数（ESPRIT）。这样的技术可以用来生成高分辨率声学图像。为此，除了通过波束赋形技术生成的声学图像之外，或者作为对通过波束赋形技术生成的声学图像的替代，可以使用这些声学图像。

尽管下面讨论的示例实施例引用所谓的“延迟和加和”或“迫零”波束赋形的一个具体实现，但是其他波束赋形技术将根据本公开而是显然的。例如，还可以利用滤波和加和以及自适应的波束赋形技术。如先前所讨论的，声学成像基于相对于在多个点（例如，麦克风阵列的每个空间位置）处检测到的声压的变化的像素强度使起源（origin）可视化为声波的强度。在图2的示例麦克风阵列200的背景内，每个麦克风设备202可以被定位在预定义的区域中的离散点处。为此，来自麦克风阵列200的所有麦克风信号的叠加使能够实现对每个作为目标的空间点的声压的估计，其转化成所生成的声学图像的一个或多个像素。为了集中在所观察的场景中或以其他方式将所观察的场景中的某个点作为目标，麦克风阵列200不一定必须被物理上移动。代之以，通过跨麦克风施加一系列适当的延迟并且将来自所述麦克风的所有信号加和，可以集中在（例如，引向）所观察的场景中的特定点（例如，到达角）。该延迟和加和技术本质上以使从所观察的场景中的目标点发出的所有声波同相并且因此当被加在一起时放大了从该目标点发出的声波的这样的方式使来自每个麦克风的信号延迟。从所观察的场景中的其他（非作为目标的）点发出的那些声波是异相的，并且因此被减弱。

作为示例，考虑实现一些这样的波束赋形技术的数据采集设备102的一个具体示例实施例。如在图2中所示，麦克风阵列200包括在总计64个离散空间点的线性阵列中的离散位置中的8x8麦克风模式以测量声压。在该示例实施例中，每个麦克风202具有相同的灵敏度和频率响应并且被配置成产生以例如16 kHz以16位字深采样的声音信号。另外，图像传感器104可以被配置成产生具有例如256x256（65536个像素）分辨率的图像帧。为了清楚和容易计算的目的，在本文中公开的示例实施例假设16 kHz音频采样速率和256x256（65536个像素）图像帧，但应领会，其他音频采样速率和图像分辨率可以被按需利用并且在本公开的范围内。如上面所讨论的，麦克风阵列106和图像传感器104被配置成使得它们空间对准。另外，麦克风阵列106和图像传感器104可以基于公共时钟或用以确保数据流同步（例如，接近实时或通过后处理例程实现）的其他定时方案而时间对准。

在第一阶段期间，并且依照实施例，声学图像控制器108将来自麦克风阵列200的每个麦克风202的声音信号划分成重叠的连续帧，其具有例如在512个样本内表示的32毫秒的持续时间。然后在声学图像控制器108内通过波束赋形算法来处理来自每个麦克风202（例如，64个帧）的同步帧。波束赋形算法的结果是65536个经空间滤波的音频帧405，其与通过图像传感器104捕捉的每个图像帧对应。不同地阐述，波束赋形技术可以使能够实现经由空间滤波器对所捕捉的音频信号的数字操纵，使得65536个独特的到达角中的每个与经滤波的音频帧对应。

在第二阶段期间，并且依照实施例，通过计算这些音频帧405中的每个中的能量（强度）和将强度转换成2-D网格以再现256x256图像（例如，65536个像素）而生成声学图像403。然后将得到的声学图像403、对应的音频帧405和图像帧407提供给事件检测模块404。

参考图4并且另外参考图3，在数据采集模块402生成包括声学图像403、音频帧405和图像帧407的数据流之后，方法以检测306这些数据流内的事件而继续。参考图4，利用示例过程流程将检测306由数据采集模块402生成的数据流内的事件表示为事件检测模块404。在一般意义上，并且依照实施例，事件检测模块404针对指示或以其他方式暗示在所观察的场景中发生的事件的在声场中的改变的位置来分析声学图像的流。

在实施例中，事件检测模块404通过确定409连续的声学图像帧403之间的绝对差而产生增量图像（delta image）的流。在一些情况下，基于计算连续声学图像之间的平方距离来生成增量图像。在其他情况下，可以利用其他适合的图像比较例程来生成增量图像，如将根据本公开而显然的那样。在任何这样的情况下，基于将增量图像内的像素值与阈值强度值进行比较来确定每个增量图像中的峰值。在实施例中，阈值是用户可配置的或否则预先确定的，并且表示最小像素强度，由此超过该值的增量像素强度被登记为与事件相关。为此，当增量像素超过阈值时，利用像素的索引来定义遮蔽413并且将遮蔽413应用在图像帧407内。在实施例中，所应用的遮蔽413包括长方形形状或其他几何形状（例如，圆、正方形或其他形状），其指示事件区域（或位置），在本文中也被称为感兴趣的区域。关于所应用的遮蔽413的参数可以是用户定义的并且可以包括例如线厚度、线颜色、拐角四舍五入值和线类型（例如，折线、连续线或虚线）。另外，诸如所应用的遮蔽413的高度和宽度之类的参数可以是预先确定的和/或用户供应的。

图5B描绘了依照本公开的实施例的由事件检测模块404输出的一个示例中间图像帧。如所示，得到的图像是合成图像，其包括图像帧407（描绘制造装备）、重叠的声学图像帧403和所应用的遮蔽413。并且如在图5B的具体示例中所示，两个不同的事件（事件1、事件2）和对应的事件区域被检测到并且基于所应用的遮蔽413被在得到的图像内指示。在该具体示例的背景内，这两个经标识的事件与从所观察的场景内的两个不同点发出的声音直接相关。如上面所讨论的，并且依照实施例，音频帧405和图像帧407可以被（例如，通过公共视点和/或对准例程）空间和时间配准。为此，根据实施例，所应用的遮蔽413使得事件检测模块404能够针对每个相应事件隔离/定位（多个）图像帧407和对应的（多个）声学图像帧403的对应部分，使得每个事件可以被单独地处理和分类。在实施例中，与每个所遮蔽的区域413相关联的音频帧可以被加和和求平均以再现针对每个相应事件的音频帧。可以利用用于音频信号处理的其他适合的技术来再现针对每个事件的音频帧，如将根据本公开而显然的那样。在一些情况下，声学图像数据和图像数据的相关和隔离的部分可以被称为所谓的“块（patch）”。在实施例中，将声学图像数据的这些块连同针对每个事件的再现的音频帧一起提供给特征提取模块406。

进一步参考图3，在通过事件检测模块404检测到一个或多个事件之后，方法以从隔离的事件区域/块提取308特征而继续。参考图4，在示例过程流程内将从隔离的事件区域/块提取308特征表示为特征提取模块406。如所示，声学图像数据、图像数据和音频帧的每个部分由对应的特征提取例程来处理。现在将依次讨论这些特征提取例程中的每个。

在实施例中，经由尺度不变特征变换（SIFT）或用于从图像提取显著的/相关的特征的其他适合的例程来分析声学图像和图像数据二者的区域/块内的视觉特征。在一些情况下，SIFT和基于SIFT的衍生例程特别良好地适于补偿小量的移动，由于例如不稳定的手握着包括系统100的智能设备或者因为所观察的场景中的移动。这样的SIFT处理的结果包括对象标识和对象的所谓的“特征描述”。每个可以被用来执行对象识别。如根据本公开将领会的，这样的方法特别有利，因为混乱和部分遮挡之中的对象仍可以被可靠地标识。

在实施例中，可以分析由事件检测模块404生成的来自每个事件的音频内容以识别声音和/或执行语音识别。在实施例中，如将根据本公开而显然的，可以使用梅尔频率倒谱系数（MFCC）或其他适合的声音分析例程来分析音频内容。在实施例中，MFCC特别良好地适于一定范围的应用，因为MFCC通常用在语音识别和声音场景分析二者中。

在实施例中，在依照上面讨论的特征提取例程针对每个事件提取视觉和音频特征之后，然后将导出的特征发送到特征标准化和向量化模块415。在该实施例中，所提取的特征（例如，来自声学图像块、图像块和再现的音频帧）被组合和聚集以针对每个检测到的声音事件创建特征向量。在实施例中，特征向量可以包括一个或多个格式，包括例如二进制数据结构、XML、JSON或其他适合的机器可读格式。如下面将讨论的，声学图像数据、图像数据和音频内容的该组合形成多维事件签名，其可以被在本文中公开的各种技术用来执行复杂的场景分析。如将领会的，这些技术使能够实现在复杂的声音环境中的准确的场景分析，其中可以在干扰的不和谐音（背景噪声、非关键噪声或任何其他普通的或否则不重要的噪声）之中辨别两个或更多个共现的声音。在实施例中，特征提取模块406然后向分类模块408提供针对每个事件的特征向量。

进一步参考图3，在从每个事件提取308特征并且生成针对每个事件的特征向量（多维事件签名）之后，方法以对场景特征进行分类310以确定事件分类和关联的元数据（补充数据）而继续。参考图4，在示例过程流程内将根据针对每个检测到的事件的特征向量对事件特征进行分类310表示为分类模块408。

在实施例中，分类模块408尝试根据由特征提取模块406生成的对应的特征向量将每个事件进行分类。在一些情况下，基于相对于多个预先训练的模型对特征向量评分来执行分类。更一般地，预先训练的模型可以包括声学和视觉签名，其允许声音事件与事件种类相关（例如，利用概率分布）或否则分类到事件种类。为此，在本文中不同地公开的技术利用声音事件和其特定特性对每个事件加“指印”，并且利用那些指印凭经验和/或理论上确定导致那些事件的原因。为此，在本文中不同地公开的技术有利地融合光数据、声学图像数据和声音数据。如根据本公开将领会的，可以利用其他适合的机器学习技术来构造和分析这样的指印。另外，这些生成的指印可以被存储并且在后续分析期间利用（例如，用于声学监视系统100的进行的训练）。

在利用基于GMM的机器学习的一个具体示例中，可以针对每个事件种类先验地预先确定29维GMM（13维分别用于声学图像、图像和声音）。在这些情况下，在例如设备的制造期间配置预定义的事件模型。在其他情况下，随时间过去通过例如训练例程或通过添加和/或更新来自外部位置（例如，网络服务器、USB拇指驱动器或其他位置）的模型，这些预定义的事件模型被学习或否则添加到系统100。在一个这样的示例情况下，系统100可以向用户呈现与检测到的事件相关的信息（例如，事件的视觉图像、来自事件的声音样本，或者其他隔离的和提取的特征），由此用户可以选择用户接口特征来手动地将事件分类和存储（例如，作为GMM模型），使得可以在将来适当地识别相同或否则类似的事件的将来发生。另外，用户可以将补充数据与所存储的事件相关联，其包括例如指南、笔记、照片或任何其他相关的元数据。在任何这样的情况下，可以使用期望最大化（EM）算法来计算用于每个模型的参数。为此，可以将每个特征向量传递给每个GMM，导致针对每个种类的评分，其中评分被跨种类标准化（例如，到1）使得针对每个事件生成后验的概率分布。因此，系统100可以基于最高评分模型中的一个或多个来推断每个事件的一个或多个状况。

如根据本公开将领会的，模型种类可以表示以其声学签名为特征的种种状况，包括例如机器部件故障（例如，螺线管失效、不合规范的压缩机循环，或其他异常状况）。另外，模型种类可以表示在这样的机器内发生的各种中间状态并且可以用来推断例如进行的状况的过程，其包括状况是否可能引起紧迫的问题（例如，关键状态或高严重性级别）或者状况是否指示问题的一些其他阶段（例如，建议将来的维护可能必要或者事件可忽略或否则具有低严重性的阶段）。为此，并且依照实施例，系统100可以向用户或其他感兴趣方（例如，另一计算机或过程）提供对机器内的潜在问题的早期警告。另外，系统100可以包括管理事件检测的相对灵敏度的用户定义的设置，由此用户可以在将事件传播给用户之前细调事件的最低严重性级别。

应进一步领会，可以使用这些模型来虚拟表示任何种类的状况相关的声音（例如，基于其声学和视觉签名），并且不一定限于工业机器监视和为该环境特有的声音。例如，模型可以表示状况事件，仅举几例，诸如在城市环境中的运载工具相关的噪声（例如，排气装置、引擎部件、路面上的轮胎的声音，以及其他这样的声音）、在战场上的敌人移动/活动噪声（例如，迫击炮火、枪声、军队移动、运载工具移动等），以及对灾难地带内的人类生命（例如，被困受害者）的指示。

在较一般的意义上，这些模型允许考虑事件的签名的每个方面/维度，从而做出关于什么状况可能引起声音事件的经验的或否则理论的推断。例如，可以通过每个GMM来分析事件签名的声学维度的那些方面以登记类似性（例如，诸如在像素强度、像素位置之间的类似性，以及其他声学类似性），并且因此最终产生得到的评分。在其他示例中，可以组合和分析签名的其他方面和维度，使得在总体评分中考虑到声音识别和对象标识中的每个。另外，应领会，这样的声音识别和对象标识可以被组合，从而提供背景感知的理解，其包括例如部分地基于确认经标识的对象能够产生这样的声音而证实经识别/标识的声音。在任何这样的情况下，如果在分类期间利用的每个模型的评分超过预先确定的阈值达概率（例如，25%、50%等），则事件向量被认为与事件模型相关或否则被标记为与事件模型相关。在其他实施例中，如果概率不超过预先确定的阈值，则忽略该事件，使得不向用户显示警报或其他指示符（例如，以减轻误报）。替代地，通过训练例程和/或在其他分类模型细化期间，可以保留不超过预先确定的阈值的那些概率供将来使用。事件何时可以被忽略的一些这样的情况包括不使预先存储的模型配置用于该事件。另外，并且其他这样的情况，分析为指示机器的正常操作的事件可能不一定向用户报告或针对进一步动作将事件升级。在其他实施例中，这样的事件可能没有被忽略并且可以充当用于训练例程的催化剂，如上面所讨论的，或者向用户提供机器/目标场景正在正常/预期参数内操作的指示。依照实施例，检测到的每个事件可以导致评分高于阈值的多个模型。在该实施例中，每个事件可以包括相对于具有最高评分的那些模型命令的多个评分，并且因此是引起事件的最可能的状况。

进一步参考图3，在事件分类310之后，方法以输出312分类数据而继续。在实施例中，然后可以将得到的事件分类提供给用户接口或其他高级别过程。如上面所讨论的，可以利用事件分类评分来执行各种分类后动作，其包括经由用户接口向用户提供警报消息、自动地执行后续动作（例如，关闭机器、闪光、切断继电器、响铃、发送电子邮件、发送SMS）以及（例如，在数据库或其他电子数据存储区域中）记录事件分类中的至少一个。在实施例中，这些动作与相应种类的模型相关联或否则可在分类被确定之后可取回。另外，可以向用户提供事件分类的一个或多个视觉表示，其包括例如对最高概率事件种类的指示（例如，人类可读描述或图像）和多个其他高概率的事件分类（例如，以从最高概率到最低概率的递减次序）的指示。

在实施例中，还可以经由用户接口通过警报消息来提供关于所述一个或多个事件分类的补充数据。一些这样的补充数据可以是元数据，仅举几例，其包括例如场景内的发出声音的对象的所谓的“易懂的英语”名称、用以对目标机器执行操作（例如，修理或其他维护）的指令、用户定义的笔记/标签、指南、蓝图、特定机器的图片（例如，包括剖视图、3-D模型）、用于机器的服务标签（例如，其标识号码）、GPS位置（地理位置）、检测的日期、检测的时间、建筑标识符、要呼叫的电话号码、要通知的电子邮件地址，以及检测到的事件分类的文本描述。替代地，或除了元数据之外，补充数据可以是音频和视频数据，其包括例如来自事件的声音样本、来自所观察的场景的视频/图像（例如，具有或不具有叠加到图像上的事件指示符的增强现实），或所观察的场景的声学图像数据、音频帧和图像帧的任何部分或组合，具有或不具有元数据叠加。

图5C描绘了依照本公开的实施例的由事件分类模块408输出的一个这样的示例图像帧。如所示，利用两个事件（例如，图5B的事件1和事件2）和事件标签（螺线管和活塞）来描绘得到的图像。在实施例中，诸如在图5C中描绘的示例图像之类的图像可以被再现和呈现在电子设备（例如，具有显示器的智能电话、膝上型计算机或其他设备）的显示器上。在该实施例中，电子设备可以在增强现实模式中呈现多个这些图像，由此显示器呈现所观察的场景的实时图像，其具有描绘事件的声学热图和/或元数据的叠加。注意，可以以暗示所确定的事件被认为正常还是异常的方式对长方形遮蔽413着色。例如，在图5C中，可以以绿色长方形来框定（frame）螺线管位置，并且标签也可以是绿色的，从而指示正常操作（例如，噪声，但噪声被分类为机器的正常操作）。相反，可以以红色长方形来框定活塞位置，其中用于事件（“活塞”）的标签也是红色的，从而指示异常操作（例如，在机器中发生的潜在故障）。可以使用许多其他这样的颜色编码方案，如将领会的。尽管事件区域被描绘为长方形，但应领会，可能没有示出这样的长方形或类似框架。同样地，应领会，所描绘的形状不限于长方形并且可以是例如正方形、圆和或梯形。另外，用于异常声音区域的形状可以与用于正常声音区域的形状不同。并且，在一些情况下，可以使用不同类型的加亮（例如，颜色、图像、符号）和动画（例如，闪光的文本、闪烁的符号和其他效果）来指示每个区域。另外，应领会，声音可能（例如，通过实现声学监视系统100的设备的扬声器）伴随这些图像，诸如例如包括预先记录的表达（例如，“在螺线管X中检测到异常状态；可能需要维护”）的状况的听觉呈现。在实施例中，这些图像可以被静态地显示或在增强现实模式中显示给用户，由此所观察的场景的一个或多个图像包括声学热图和元数据叠加。

示例使用情况

如上面关于图1所讨论的，用于在本文中公开的场景分析技术的许多附加应用应当根据本公开是显然的。一个这样的示例包括在城市或否则高业务量区域中的场景分析。在该示例中，可以检测到事件，诸如例如汽车碰撞、泛洪、爆炸、打破窗户（例如，抢劫）或其他典型的事件，其可以指示警察服务、消防和紧急医疗服务（EMS）可能是必要的。在实施例中，事件的检测可能导致位置连同事件的任何关联的元数据一起被传输到这样的第一响应者。另外，在一些应用中，对进入场景的运载工具的数目计数可能是必要的，并且在一些情况下，标识运载工具是汽车还是卡车也可能是必要的。为此，汽车相对于卡车产生的独特声音可以被建模并且用来执行这样的分析。其他这样的应用将根据本公开而是显然的。

另一这样的示例是包括战场的军事环境。在这些环境中，潜在的敌人位置可以通过其发出的声音来定位和分类。一些这样的示例声音可以是敌人武器的炮火（例如，AK-47的独特颤振）、迫击炮弹被丢到管中的砰的一声、嗓音（例如，包括讲特定语言的那些，将成人嗓音与孩子区分开、将男人与女人的嗓音区分开、检测所讲的特定语言），以及指示敌人/友好活动的任何其他声音。在实施例中，可以将敌人位置（和分类描述）呈现为叠加到战场的实时视频上的长方形或其他加亮。在该实施例中，可以在增强现实模式中将这些叠加的图像呈现在显示器上，诸如例如头盔中、基于地面的运载工具、航空器或例如观察战场的其他军用运载工具的平视显示器。

又一这样的示例是家庭环境。在该环境中，可以对声音进行检测和分类以（例如，基于课的中断、门被打破或其他类似的入室行窃噪声）确定抢劫是否正在发生。该环境的其他噪声还可能对分类目的有用，并且可以包括例如水淹、烟雾报警器响起、炮火的声音，仅举几例。

又一示例在灾难地带中的灾难恢复的场地中。在该环境中，使用声音来识别灾难地带中的对象可能对于发现被困受害者、标识气体泄漏、爆裂的管道、来自第一响应者“人下型”设备（例如，其在第一响应者被确定为水平时发出声音）的砰是有利的。许多变化将根据本公开是显然的，并且这些提供的示例环境不意图是限制性的。

分布式场景分析系统

图6图示了依照本公开的实施例配置的分布式声学监视系统600。如可以看见的，系统包括多个数据采集设备102，其通信地耦合到网络601。另外，系统包括一个或多个声学监视系统100’，其分别通信地耦合到网络601和网络605。在实施例中，每个声学监视系统100’可以包括图1的声学监视系统100的分离的实现。在该实施例中，每个声学监视系统100’可以是独立系统（例如，具有数据采集设备102、声学图像控制器108、图像控制器110和CAV控制器112）或者是分布式的，使得一个或多个远程数据采集设备102提供音频/视频场景数据。另外，每个声学监视系统100’可以是具有独立的质量的混合系统（具有一个或多个采集设备的自包含系统）并且还从一个或多个远程采集设备102接收音频/视频数据的一部分。为此，声学监视系统100’可以实时或接近实时地执行声学监视和/或以独立的或分布式的方式（例如，对先前捕捉的场景数据）执行预期分析。

如所示，分布式声学监视系统600可以包括两个或更多个网络（601和605），每个包括声学监视设备和多个采集设备。注意，分布式声学监视系统600不限于特定数目的网络，或那些网络内的声学监视系统/采集设备。为此，在图6中示出的网络布置不应该被认为是限制性的。如所示，两个网络601和605可以使能够实现协作的数据采集和声学监视过程。例如，网络601的声学监视系统100’可以远程地访问网络605中的来自任何采集设备102的场景数据。同样地，网络605的声学监视系统100’可以访问网络601中的来自数据采集设备102中的任一个的场景数据。在任何事件中，应领会，这样的布置使得一些声学监视系统能够分析场景数据以对第一类型的声音事件进行检测和分类，而其他声学监视系统可以对来自相同场景、来自不同角度的相同场景和不同场景中的至少一个的第二类型的声音事件进行检测和分类（例如，用于监视或训练目的）。如将领会的，这在例如利用分而治之方法来平衡计算上昂贵的场景分析的工作负荷时是特别有利的。同样地，应领会，来自不同场景（例如，远程场景、不同角度）的数据可能对训练和机器学习有用。例如，新部署的监视系统可能通过能够访问其他监视系统的场景数据、模型和在先分类而受益于其他监视系统。另外，应进一步领会，网络601和603中的每个的声学监视系统100’分别可以利用来自数据采集设备102的数据来执行进行的训练例程，并且不仅在首先部署时。

在实施例中，能够执行场景数据收集模块的应用服务器603被配置成访问各种数据采集设备102以从每个数据采集设备102获得声学图像、图像数据和音频样本。注意，附加的应用服务器603可以被（例如，在网络601中和/或网络605中）实现，并且在图6中示出的实施例不应被视为限制本公开。可以将通过服务器603接收的场景数据存储在场景数据记忆装置605中。如上面所讨论的，可以实时或接近实时地或者在预期模式中执行场景分析。为此，网络601和603的声学监视系统100’分别可以访问数据采集设备102中的一个或多个以接收场景数据的实时流（例如，实时传输协议（RTP））。替代地，或除了访问采集设备之外，一个或多个声学监视系统100’可以经由与应用服务器603通信的应用编程接口（API）或其他适当的部件来访问存储在场景数据仓库605内的场景数据以取回这样的数据。同样地，一个或多个客户端计算系统607也可能能够（例如，经由对基于云的状况监视系统的订阅或一些其他授权的使用）访问声学监视系统100’或数据采集设备102中的一个或多个。

网络601可以是任何通信网络或网络的组合，诸如因特网和一个或多个本地接入网络。可以使用无线和有线网络技术，如将领会的。虽然仅示出了一个客户端607和一个服务器603，但是将领会，可以按需在系统中包括任何数目的客户端607和服务器603。每个客户端607和服务器603可以利用任何适合的计算架构来实现，如通常进行的那样，并且被编程或以其他方式配置成执行从分布式声学监视系统的场景收集。（多个）服务器603可以是例如基于云的感测系统的部分，诸如具有部署在各种位置和/或围绕生产设施的其他位置中的声学相机设备的工业状况监视系统，使得用户（例如，技术人员、管理者和其他人员）可以访问系统以确定目标场景（例如一个或多个机器）是否正在以正常或否则如预期的方式操作。客户端计算系统607的用户接口（UI）可以呈现图像，例如与在图5A、图5B和图5C中示出的图像类似，但是可以使用任何数目的适合的UI方案。例如，可以呈现与检测到的事件相关的附加补充数据，其包括例如机器原理图、指南、维护过程、机器的内部工作的剖面图或可以有助于检测后动作的任何其他数据。如将进一步领会的，类似的UI方案还可以被关于应用服务器603使用并且用来提供对记忆装置605的访问，用于向该记忆装置写入数据和从该记忆装置读取数据二者。

可以例如在所谓的物联网（IoT）配置的背景下实现这样的实施例以提供一个或多个声学监视系统100和数据采集设备102。进一步注意，在这样的IoT系统中，这样的设备可以被包括在特定位置处部署的固定位置节点（例如，监控相机、CCTV相机）中。为此，声学监视系统100和数据采集设备102不需要是移动的。进一步注意，声学监视系统100和采集设备和任何其他计算系统一样在给定网络上诸如通过给定的IP地址、MAC地址和/或可以通过其访问给定网络上的元素的任何其他适合的寻址机制可寻址。采用分布式感测系统的许多变化和实施例将根据本公开而是显然的。

示例系统

图7图示了依照各种示例实施例的使用在本文中公开的技术利用声学监控系统实现的计算系统700。在一些实施例中，系统700可以是用于经由（未示出的）相机来捕捉和/或显示静止或移动的图像的系统，但是系统700不被限于该背景。例如，系统700可被合并到个人计算机（PC）、膝上型计算机、可穿戴计算设备、超级膝上型计算机、平板计算机、触摸板、便携式计算机、手持计算机、掌上计算机、个人数字助理（PDA）、蜂窝电话、组合蜂窝电话/PDA、电视、智能设备（例如智能电话、智能平板计算机或智能电视）、移动互联网设备（MID）、消息传送设备、数据通信设备、机顶盒、游戏控制台或能够执行图形再现操作并显示内容的其他这样的计算环境中。

在一些实施例中，系统700包括耦合至显示器720的平台702。平台702可从诸如（多个）内容服务设备730或（多个）内容递送设备740之类的内容设备或者其他类似的内容源接收内容。包括一个或多个导航特征的导航控制器750可被用来与例如平台702和/或显示器720交互，以便补充由用户进行的导航手势。在下面更详细地描述这些示例部件中的每个。

在一些实施例中，平台702可包括芯片组705、处理器710、存储器712、记忆装置714、图形子系统715、相机719、运动传感器721、应用716和/或无线电设备（radio）718的任何组合。芯片组705可提供处理器710、存储器712、记忆装置714、图形子系统715、应用716和/或无线电设备718之间的互相通信。例如，芯片组705可包括能够提供与记忆装置714的互相通信的记忆装置适配器（未被描绘）。

处理器710可被实现例如为复杂指令集计算机（CISC）或精简指令集计算机（RISC）处理器、x86指令集兼容处理器、多核或任何其他微处理器或中央处理单元（CPU）。在一些实施例中，处理器710可以包括（多个）双核处理器、（多个）双核移动处理器等。存储器712可以被实现例如为易失性存储器设备，诸如但不限于随机存取存储器（RAM）、动态随机存取存储器（DRAM）或静态RAM（SRAM）。记忆装置714可被实现例如为非易失性存储设备，诸如但不限于磁盘驱动器、光盘驱动器、磁带驱动器、内部存储设备、附接存储设备、闪存、电池备份SDRAM（同步DRAM）和/或网络可访问存储设备。在一些实施例中，当例如多个硬件驱动器被包括时，记忆装置714可包括用来增加对有价值的数字媒体的存储性能增强保护的技术。

图形子系统715可执行诸如用于显示的静止摄影或视频之类的图像的处理，并且在一些实施例中被配置成合成面部图像，如在本文中不同地描述的那样。图形子系统715可以是例如图形处理单元（GPU）或视觉处理单元（VPU）。模拟或数字接口可被用来通信地耦合图形子系统715和显示器720。例如，该接口可以是高清晰度多媒体接口、显示端口、无线HDMI和/或无线HD兼容技术中的任一个。图形子系统715可被整合在处理器710或芯片组705中。图形子系统715可以是通信地耦合至芯片组705的独立卡。可在各种硬件架构中实现图形和/或视频处理技术，其包括在本文中描述的用于标识和产生优选的面部朝向的技术。例如，图形和/或视频功能可被整合在芯片组内。替代地，可使用分立的图形和/或视频处理器。作为又一实施例，可通过通用处理器（包括多核处理器）来实现图形和/或视频功能。在另一实施例中，可在消费类电子设备中实现所述功能。

无线电设备718可包括能够使用各种适合的无线通信技术来传输和接收信号的一个或多个无线电设备。这样的技术可涉及跨一个或多个无线网络的通信。示例性无线网络包括（但不限于）无线局域网（WLAN）、无线个域网（WPAN）、无线城域网（WMAN）、蜂窝网以及卫星网。在跨这样的网络进行通信时，无线电设备718可依据任何版本的一个或多个可适用标准来操作。

在一些实施例中，（多个）内容服务设备730可通过任何国家的、国际的和/或独立的服务来托管并且因此经由例如因特网或其他网络对平台702而言是可访问的。（多个）内容服务设备730可被耦合至平台702和/或显示器720。平台702和/或（多个）内容服务设备730可被耦合至网络760以向和从网络760传送（例如，发送和/或接收）媒体信息。（多个）内容递送设备740也可被耦合至平台702和/或显示器720。在一些实施例中，（多个）内容服务设备730可包括有线电视盒、个人计算机、网络、电话、能够递送数字信息和/或内容的因特网使能设备或器具，以及能够经由网络760或者直接地在内容提供者与平台702和/或显示器720之间单向或双向地传送内容的任何其他类似设备。将领会到，可经由网络760单向和/或双向地向和从系统700中的部件和内容提供者中的任一个传送内容。内容的示例可包括任何媒体信息，包括例如视频、音乐、图形、文本、医疗和游戏内容等。

（多个）内容服务设备730接收内容，诸如包括媒体信息、数字信息和/或其他内容的有线电视节目。内容提供者的示例可包括任何有线或卫星电视或者无线电或因特网内容提供者。所提供的示例不意味着限制本公开。在一些实施例中，平台702可从具有一个或多个导航特征的导航控制器750接收控制信号。例如，控制器750的导航特征可被用来与用户接口722交互。在一些实施例中，导航控制器750可以是定点设备，其可以是允许用户将空间（例如连续且多维）数据输入到计算机中的计算机硬件部件（具体地，人性化接口设备）。诸如图形用户接口（GUI）和电视及监视器之类的许多系统允许用户使用物理手势、面部表情或声音等来控制数据和向计算机或电视提供数据。

控制器750的导航特征的移动可通过指针、光标、聚焦环或显示在显示器上的其他视觉指示器的移动被重复在显示器（例如显示器720）上。例如，在软件应用716的控制下，位于导航控制器750上的导航特征可被例如映射成显示在用户接口722上的视觉导航特征。在一些实施例中，控制器750可能不是分离的部件，而是可被整合到平台702和/或显示器720中。然而，如将领会的，实施例不限于本文中所示或所描述的元件或背景下。

在一些实施例中，（未示出的）驱动器可包括使得用户能够例如在初始启动之后、在被使能时利用按钮的触摸来立即打开和关闭平台702（比如电视）的技术。程序逻辑可允许平台702在平台被“关闭”时将内容流式传输至媒体适配器或其他（多个）内容服务设备730或（多个）内容递送设备740。此外，芯片组705可包括支持例如5.1环绕声音音频和/或高清晰度7.1环绕声音音频的硬件和/或软件。驱动器可包括用于集成图形平台的图形驱动器。在一些实施例中，图形驱动器可包括外围部件互连（PCI）express图形卡。

在各种实施例中，系统700中示出的部件中的任何一个或多个可被整合。例如，平台702和（多个）内容服务设备730可被整合，或者平台702和（多个）内容递送设备740可被整合，或者例如平台702、（多个）内容服务设备730和（多个）内容递送设备740可被整合。在各种实施例中，平台702和显示器720可以是集成单元。例如，显示器720和（多个）内容服务设备730可被整合，或者显示器720和（多个）内容递送设备740可被整合。这些示例不意味着限制本公开。

在各种实施例中，系统700可以被实现为无线系统、有线系统或二者的组合。当被实现为无线系统时，系统700可包括适于通过无线共享介质进行通信的部件和接口，诸如一个或多个天线、发射器、接收器、收发器、放大器、滤波器、控制逻辑等。无线共享介质的示例可包括无线频谱的部分，诸如RF频谱等。当被实现为有线系统时，系统700可包括适于通过有线通信介质进行通信的部件和接口，诸如输入/输出（I/O）适配器、连接I/O适配器与对应的有线通信介质的物理连接器、网络接口卡（NIC）、盘控制器、视频控制器、音频控制器等。有线通信介质的示例可包括电线、电缆、金属引线、印刷电路板（PCB）、背板、开关结构、半导体材料、双绞线、同轴电缆、光纤等。

平台702可建立一个或多个逻辑或物理通道来传送信息。信息可包括媒体信息和控制信息。媒体信息可指代表示打算用于用户的内容的任何数据。内容的示例可包括例如来自语音会话、视频会议、流式传输的视频、电子邮件或文本消息、语音邮件消息、字母数字符号、图形、图像（例如，自拍照等）、视频、文本等的数据。控制信息可指代表示打算用于自动化系统的命令、指令或控制字的任何数据。例如，控制信息可被用来通过系统来路由媒体信息或者指示节点（例如，使用帮助如在本文中描述的特权访问违反检查的硬件）以预先确定的方式处理媒体信息。然而，实施例不限于图7中所示或所描述的元件或背景。

如上面所描述的，系统700可以以变化的物理样式或形状因子来体现。图8图示了可在其中体现系统700的小形状因子设备800的实施例。在一些实施例中，例如，设备800可被实现为具有无线能力的移动计算设备。例如，移动计算设备可指代具有处理系统和移动电源或电力供应（诸如一个或多个电池）的任何设备。

如先前所描述的，移动计算设备的示例可包括个人计算机（PC）、膝上型计算机、超级膝上型计算机、平板计算机、触摸板、便携式计算机、手持计算机、掌上计算机、个人数字助理（PDA）、蜂窝电话、组合蜂窝电话/PDA、电视、智能设备（例如智能电话、智能平板计算机或智能电视）、移动互联网设备（MID）、消息传送设备、数据通信设备等。

移动计算设备的示例还可包括被布置成由人穿戴的计算机，诸如手腕计算机、手指计算机、戒指计算机、眼镜计算机、腰带夹计算机、臂带计算机、鞋计算机、衣服计算机以及其他可穿戴计算机。在一些实施例中，例如，移动计算设备可被实现为能够执行计算机应用以及语音通信和/或数据通信的智能电话。尽管可能利用被实现为智能电话的移动计算设备作为示例描述了一些实施例，但是可领会，也可使用其他无线移动计算设备来实现其他实施例。实施例不限于该背景下。

如图8中所示，移动电子设备800可包括外壳802、显示器804、输入/输出（I/O）设备806和天线808。设备800还可包括导航特征812。显示器804可包括用于显示适于移动计算设备的信息的任何适合的显示单元，其在一个示例实施例中是触摸屏显示器。I/O设备806可包括用于将信息输入到移动计算设备中的任何适合的I/O设备。I/O设备806的示例可包括字母数字键盘、数字小键盘、触摸板、输入键、按钮、相机、开关、翘板开关、麦克风、扬声器、语音识别设备和软件等。还可经由麦克风将信息输入到设备800中。这样的信息可通过语音识别设备来数字化。实施例不限于该背景下。

可使用硬件元件、软件元件或二者的组合来实现各种实施例。硬件元件的示例可包括处理器、微处理器、电路、电路元件（例如晶体管、电阻器、电容器、电感器等）、集成电路、专用集成电路（ASIC）、可编程逻辑器件（PLD）、数字信号处理器（DSP）、现场可编程门阵列（FPGA）、逻辑门、寄存器、片上系统、半导体器件、芯片、微芯片、芯片组等。软件的示例可包括软件部件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、函数、方法、过程、软件接口、应用程序接口（API）、指令集、计算代码、计算机代码、代码段、计算机代码段、字、数值、符号或其任何组合。是否使用硬件元件和/或软件元件可以依照任何数目的因素从一个实施例变化到下一个实施例，所述因素诸如期望的计算速率、功率级、热耐受性、处理周期预算、输入数据速率、输出数据速率、存储器资源、数据总线速度以及其他设计或性能约束。

一些实施例可以例如使用可以存储指令或指令集的机器可读介质或物品来实现，所述指令或指令集在被机器执行时可以使得机器执行依照本公开的实施例的方法和/或操作。这样的机器可以包括例如任何适合的处理平台、计算平台、计算设备、处理设备、计算系统、处理系统、计算机、处理器等，并且可以使用硬件和软件的任何适合的组合来实现。机器可读介质或物品可以包括例如任何适合的类型的存储器单元、存储器设备、存储器物品、存储器介质、存储设备、存储物品、存储介质和/或存储单元，例如存储器、可移除或不可移除介质、可擦除或不可擦除介质、可写或可重写介质、数字或模拟介质、影片、软盘、压缩盘只读存储器（CD-ROM）、可记录压缩盘（CD-R）、可重写压缩盘（CD-RW）、光盘、磁性介质、磁光介质、可移除存储器卡或盘，各种类型的数字通用盘（DVD）、磁带、盒式磁带等。指令可以包括使用任何适合的高级的、低级的、面向对象的、视觉的、编译的和/或解释的编程语言实现的任何适合类型的可执行代码。

其他示例实施例

以下示例关于其他实施例，根据其许多置换和配置将是显然的。

示例1是一种声学监视系统，其包括麦克风设备阵列；声学图像控制器，其被通信地耦合到麦克风设备阵列并且被配置成基于从麦克风设备阵列接收的多个音频信号而输出声学图像数据；以及计算机音频视觉（CAV）控制器，其通信地耦合到声学图像控制器并且包括事件识别模式，所述事件识别模式被配置成至少分析声学图像数据的部分以检测所观察的场景内的一个或多个声音事件，并且确定引起所述一个或多个声音事件的至少一个状况。

示例2包括示例1的主题，其中CAV控制器被进一步配置成响应于检测到一个或多个声音事件而生成针对用于每个相应的声音事件的多维事件签名，并且其中每个多维事件签名至少包括声学图像数据的部分和基于所述多个音频信号的一组经空间滤波的声音信号。

示例3包括示例2的主题，其中CAV控制器被进一步配置成将所述一个或多个声音事件的位置与通过视觉图像传感器捕捉的图像帧的对应部分相关。

示例4包括示例3的主题，其中CAV控制器被进一步配置成从针对所述一个或多个声音事件中的每个相应的声音事件的一个或多个声学图像帧的相关区域提取第一组视觉特征；从针对所述一个或多个声音事件中的每个相应的声音事件的一个或多个图像帧的相关区域提取第二组视觉特征；以及从针对所述一个或多个声音事件中的每个相应的声音事件的经空间滤波的声音信号提取音频特征。

示例5包括示例4的主题，其中CAV控制器被进一步配置成：针对所述一个或多个声音事件中的每个相应的声音事件，相对于一个或多个预定义的事件种类模型对多维事件签名进行评分，以及基于一个或多个经评分的事件种类模型对引起一个或多个事件中的至少一个声音事件的状况进行分类。

示例6包括示例1-5的主题，其中麦克风设备阵列中的每个麦克风设备包括全向频率响应。

示例7包括示例1-5的主题，其中麦克风设备阵列中的每个麦克风设备包括单向、双向、猎枪、接触和抛物线麦克风类型中的至少一个。

示例8包括示例1-7的主题，其中麦克风设备阵列中的每个麦克风设备包括相同的频率响应和灵敏度。

示例9包括示例1-8的主题，其中麦克风设备阵列的第一子集包括具有第一频率响应的麦克风设备，并且第二子集包括具有第二频率响应的麦克风设备。

示例10包括示例9的主题，其中第一子集和第二子集中的至少一个包括作为目标的频率响应。

示例11包括示例1-10的主题，其中麦克风设备阵列包括2-D阵列，2-D阵列包括MxN麦克风模式。

示例12包括示例1-11的主题，其中麦克风设备阵列包括宽边阵列。

示例13包括示例1-12的主题，进一步包括视觉图像传感器。

示例14包括示例13的主题，其中视觉图像传感器被定位在麦克风设备阵列的中心。

示例15包括示例13-14的主题，其中视觉图像传感器被配置成产生RGB图像流。

示例16包括示例13-15的主题，其中视觉图像传感器包括红外图像传感器。

示例17包括示例13-16的主题，其中视觉图像传感器和麦克风设备阵列每个都具有捕捉域并且被配置成使得捕捉域彼此空间对准。

示例18包括示例13-17的主题，其中基于公共时钟方案将通过视觉图像传感器输出的图像数据和通过麦克风阵列输出的多个音频信号时间对准。

示例19包括示例1-18的主题，进一步包括处理器，其被配置成响应于CAV控制器在所观察的场景中检测到至少一个声音事件并且确定引起所述至少一个声音事件的状况而发出警报。

示例20包括示例19的主题，进一步包括如下中的至少一个：用以视觉上呈现警报的显示器、用以呈现警报的触觉元件以及用以听觉上呈现警报的扬声器。

示例21包括示例20的主题，其中显示器是触摸屏显示器。

示例22包括示例1-21的主题，进一步包括用户接口，其被配置成响应于在所观察的场景内检测到的至少一个声音事件而呈现声音事件信息。

示例23包括示例22的主题，其中用户接口提供增强现实呈现，使得声音事件信息叠加在所观察的场景的一个或多个视觉图像上。

示例24包括示例23的主题，其中增强现实呈现进一步包括叠加到所观察的场景的一个或多个图像上的半透明的声学热图。

示例25包括示例22-24的主题，其中声音事件信息包括对象标识符、用户定义的标签和地理位置标识符中的至少一个。

示例26是一种片上系统（SOC），其包括如在前述示例中的任一个中限定的系统。

示例27是一种移动计算设备，其包括前述示例中的任一个的系统。

示例28包括示例27的主题，其中移动计算设备是可穿戴设备、智能电话、平板计算机或膝上型计算机中的一个。

示例29是至少一种编码有指令的非瞬态计算机程序产品，所述指令在被一个或多个处理器执行时使得过程被执行，过程包括：从声学成像控制器接收多个声学图像帧和多个经空间滤波的声音信号，所述多个声学图像帧和所述多个经空间滤波的声音信号表示所观察的场景的空间谱；确定一个或多个声音事件在所述多个声学图像帧内的位置；以及响应于确定一个或多个声音事件的位置而生成针对每个相应的声音事件的多维事件签名，其中每个多维事件签名至少包括声学图像帧的部分和来自所述多个经空间滤波的声音信号的一组经空间滤波的声音信号。

示例30包括示例29的主题，过程进一步包括接收表示所观察的场景的多个图像帧。

示例31包括示例30的主题，其中所述多个声学图像帧、所述多个经空间滤波的声音信号以及所述多个图像帧被空间和时间对准。

示例32包括示例29-31的主题，其中确定一个或多个声音事件的位置的动作进一步包括对增量图像利用峰值检出算法，增量图像从所述多个声学图像帧生成，其中仅在增量图像内的具有超过预定义的阈值的像素强度的那些像素被登记为声音事件。

示例33包括示例32的主题，其中所述一个或多个声音事件中的每个声音事件的位置与声学图像数据的超过预定义的阈值的那些像素的几何区域相关。

示例34包括示例30-33的主题，过程进一步包括将所述一个或多个声音事件的位置与图像帧的对应部分相关。

示例35包括示例29-34的主题，进一步包括将针对所述一个或多个声音事件中的每个相应的声音事件的该组经空间滤波的声音信号加和。

示例36包括示例35的主题，过程进一步包括从针对所述一个或多个声音事件中的每个相应的声音事件的一个或多个声学图像帧的相关区域提取第一组视觉特征，从针对所述一个或多个声音事件中的每个相应的声音事件的一个或多个图像帧的相关区域提取第二组视觉特征，以及从针对所述一个或多个声音事件中的每个相应的声音事件的被加和的经空间滤波的声音信号提取音频特征。

示例37包括示例36的主题，其中提取第一组视觉特征和第二组视觉特征进一步包括利用尺度不变特征变换（SIFT）。

示例38包括示例36-37的主题，其中从针对所述一个或多个声音事件中的每个相应的声音事件的被加和的经空间滤波的信号提取音频特征进一步包括利用梅尔频率倒谱系数（MFCC）。

示例39包括示例36-38的主题，其中针对每个相应的声音事件生成的多维事件签名至少包括第一组提取的视觉特征的部分、第二组提取的视觉特征的部分和提取的音频特征的部分。

示例40包括示例29-39的主题，过程进一步包括针对所述一个或多个声音事件中的每个相应的声音事件相对于一个或多个预定义的事件种类模型对多维事件签名进行评分，以及基于一个或多个经评分的事件种类模型对引起所述一个或多个声音事件中的至少一个声音事件的状况进行分类。

示例41包括示例40的主题，其中所述一个或多个预定义的事件种类模型每个包括高斯混合模型（GMM）。

示例42包括示例40-41的主题，其中所述一个或多个预定义的事件种类模型被先验地确定。

示例43包括示例40-42的主题，其中通过训练例程来生成所述一个或多个预定义的事件种类模型。

示例44包括示例40-43的主题，过程进一步包括基于针对所述一个或多个声音事件的每个分类的状况向用户呈现一个或多个警报。

示例45包括示例44的主题，其中经由显示屏幕视觉上呈现所述一个或多个警报。

示例46包括示例44-45的主题，其中经由扬声器听觉上呈现所述一个或多个警报。

示例47包括示例44-46的主题，其中过程进一步包括将所述一个或多个警报和针对所述一个或多个声音事件中的每个声音事件的补充数据记录在数据库中。

示例48包括示例47的主题，其中补充数据包括如下中的至少一个：检测的日期、检测的时间、检测的地理位置、对经分类的状况的描述，以及发出所述一个或多个声音事件中的每个相应的声音事件的对象标识符或标签。

示例49是一种用于状况监视的计算机实现方法，方法包括：通过处理器接收多个声学图像帧和多个经空间滤波的声音信号，所述多个声学图像帧和所述多个经空间滤波的声音信号表示所观察的场景的空间谱；确定一个或多个声音事件在所述多个声学图像帧内的位置；以及响应于确定一个或多个声音事件的位置而生成针对每个相应的声音事件的多维事件签名，其中每个多维事件签名至少包括声学图像帧的部分和来自所述多个经空间滤波的声音信号的一组经空间滤波的声音信号。

示例50包括示例49的主题，进一步包括针对所述一个或多个声音事件中的每个相应的声音事件相对于一个或多个预定义的事件种类模型对多维事件签名进行评分，基于一个或多个经评分的预定义的事件种类模型对引起所述一个或多个声音事件中的至少一个声音事件的状况进行分类，以及响应于对引起所述一个或多个声音事件中的每个相应的声音事件的状况进行分类而显示视觉上表示声音事件信息的用户接口。

示例51包括示例50的主题，其中显示描绘声音事件信息的用户接口进一步包括在增强现实模式中显示图像数据的一个或多个帧，其中声音事件信息在发出所述一个或多个声音事件中的每个相应的声音事件的位置处叠加在图像数据的所述一个或多个帧上。

示例52包括示例51的主题，其中增强现实模式进一步包括显示半透明的声学热图，其表示所述一个或多个声音事件中的每个相应的声音事件的响度强度和位置。

示例53包括示例49-52的主题，其中接收所述多个声学图像帧和所述多个经空间滤波的声音信号进一步包括从远程存储服务器至少接收所述多个声学图像帧和所述多个经空间滤波的声音信号的部分。

示例54包括示例49-53的主题，方法进一步包括接收至少一个新的或更新的预定义的事件种类模型。

出于说明和描述的目的呈现了示例实施例的前述描述。其不意图是详尽的或将本公开限于所公开的精确形式。根据本公开的许多修改和变化是可能的。意图本公开的范围不被该详细描述限制，而是由附着到其的权利要求书限制。要求本申请的优先权的将来提交的申请可以以不同的方式要求保护所公开的主题，并且一般可以包括如在本文中不同地公开或以其他方式展示的一个或多个限制的任何集合。

Claims

1.一种声学监视系统，其包括：

麦克风设备阵列；

声学图像控制器，其通信地耦合到麦克风设备阵列并且被配置成基于从麦克风设备阵列接收的多个音频信号而输出声学图像数据，其中声学图像数据包括2维像素网格，并且其中每个像素的强度表示来自独特到达角的声音强度；以及

计算机音频视觉（CAV）控制器，其通信地耦合到声学图像控制器并且包括事件识别模式，所述事件识别模式被配置成：

至少分析声学图像数据的部分以检测所观察的场景内的一个或多个声音事件，并且确定引起所述一个或多个声音事件的至少一个状况，

响应于检测到一个或多个声音事件而生成针对每个相应的声音事件的多维事件签名，并且其中每个多维事件签名至少包括声学图像数据的部分和基于所述多个音频信号的一组经空间滤波的声音信号，

针对所述一个或多个声音事件中的每个相应的声音事件，相对于一个或多个预定义的事件种类模型对多维事件签名进行评分；以及

基于一个或多个经评分的事件种类模型对引起所述一个或多个事件中的至少一个声音事件的状况进行分类。

2.根据权利要求1所述的系统，其中CAV控制器被进一步配置成将所述一个或多个声音事件的位置与通过视觉图像传感器捕捉的图像帧的对应部分相关。

3.根据权利要求2所述的系统，其中CAV控制器被进一步配置成：

从针对所述一个或多个声音事件中的每个相应的声音事件的一个或多个声学图像帧的相关区域提取第一组视觉特征；

从针对所述一个或多个声音事件中的每个相应的声音事件的一个或多个图像帧的相关区域提取第二组视觉特征；以及

从针对所述一个或多个声音事件中的每个相应的声音事件的经空间滤波的声音信号提取音频特征。

4.根据权利要求1所述的系统，其中麦克风设备阵列中的每个麦克风设备包括单向、双向、猎枪、接触和抛物线麦克风类型中的至少一个。

5.根据权利要求1所述的系统，进一步包括：

用户接口，其被配置成响应于在所观察的场景内检测到的至少一个声音事件而呈现声音事件信息，其中用户接口提供增强现实呈现，使得声音事件信息叠加到所观察的场景的一个或多个视觉图像上，并且其中增强现实呈现进一步包括叠加到所观察的场景的所述一个或多个图像上的半透明的声学热图。

6.根据权利要求5所述的系统，其中声音事件信息包括对象标识符、用户定义的标签和地理位置标识符中的至少一个。

7.一种片上系统（SOC），其包括根据前述权利要求中任一项所述的系统。

8.一种移动计算设备，其包括根据权利要求1-6中任一项所述的系统，其中移动计算设备包括可穿戴设备、智能电话、平板计算机或膝上型计算机。

9.一种计算机实现方法，方法包括：

从声学成像控制器接收多个声学图像帧和多个经空间滤波的声音信号，所述多个声学图像帧和所述多个经空间滤波的声音信号表示所观察的场景的空间谱，其中声学图像帧包括2维像素网格，并且其中每个像素的强度表示来自独特到达角的声音强度；

确定一个或多个声音事件在所述多个声学图像帧内的位置；

响应于确定一个或多个声音事件的位置而生成针对每个相应的声音事件的多维事件签名，其中每个多维事件签名至少包括声学图像帧的部分和来自所述多个经空间滤波的声音信号的一组经空间滤波的声音信号；

基于一个或多个经评分的事件种类模型对引起所述一个或多个声音事件中的至少一个声音事件的状况进行分类。

10.根据权利要求9所述的方法，方法进一步包括接收表示所观察的场景的多个图像帧。

11.根据权利要求9所述的方法，其中确定一个或多个声音事件的位置的动作进一步包括对增量图像利用峰值检出算法，增量图像从所述多个声学图像帧生成，其中仅在增量图像内的具有超过预定义的阈值的像素强度的那些像素被登记为声音事件。

12.根据权利要求11所述的方法，其中所述一个或多个声音事件中的每个声音事件的位置与声学图像数据的超过预定义的阈值的那些像素的几何区域相关。

13.根据权利要求12所述的方法，方法进一步包括将所述一个或多个声音事件的位置与图像帧的对应部分相关。

14.根据权利要求13所述的方法，方法进一步包括将针对所述一个或多个声音事件中的每个相应的声音事件的该组经空间滤波的声音信号加和。

15.根据权利要求14所述的方法，方法进一步包括：

从针对所述一个或多个声音事件中的每个相应的声音事件的被加和的经空间滤波的声音信号提取音频特征。

16.根据权利要求15所述的方法，其中针对每个相应的声音事件生成的多维事件签名至少包括第一组提取的视觉特征的部分、第二组提取的视觉特征的部分和提取的音频特征的部分。

17.根据权利要求9所述的方法，其中所述一个或多个预定义的事件种类模型每个包括高斯混合模型（GMM）。

18.一种装置，其包括：

用于从声学成像控制器接收多个声学图像帧和多个经空间滤波的声音信号的部件，所述多个声学图像帧和所述多个经空间滤波的声音信号表示所观察的场景的空间谱，其中声学图像帧包括2维像素网格，并且其中每个像素的强度表示来自独特到达角的声音强度；

用于确定一个或多个声音事件在所述多个声学图像帧内的位置的部件；

用于响应于确定一个或多个声音事件的位置而生成针对每个相应的声音事件的多维事件签名的部件，其中每个多维事件签名至少包括声学图像帧的部分和来自所述多个经空间滤波的声音信号的一组经空间滤波的声音信号；

用于针对所述一个或多个声音事件中的每个相应的声音事件、相对于一个或多个预定义的事件种类模型对多维事件签名进行评分的部件；以及

用于基于一个或多个经评分的事件种类模型对引起所述一个或多个声音事件中的至少一个声音事件的状况进行分类的部件。

19.根据权利要求18所述的装置，装置进一步包括用于接收表示所观察的场景的多个图像帧的部件。

20.根据权利要求18所述的装置，其中确定一个或多个声音事件的位置的动作进一步包括对增量图像利用峰值检出算法，增量图像从所述多个声学图像帧生成，其中仅在增量图像内的具有超过预定义的阈值的像素强度的那些像素被登记为声音事件。

21.根据权利要求20所述的装置，其中所述一个或多个声音事件中的每个声音事件的位置与声学图像数据的超过预定义的阈值的那些像素的几何区域相关。

22.根据权利要求21所述的装置，装置进一步包括用于将所述一个或多个声音事件的位置与图像帧的对应部分相关的部件。

23.根据权利要求22所述的装置，装置进一步包括用于将针对所述一个或多个声音事件中的每个相应的声音事件的该组经空间滤波的声音信号加和的部件。

24.根据权利要求23所述的装置，装置进一步包括：

用于从针对所述一个或多个声音事件中的每个相应的声音事件的一个或多个声学图像帧的相关区域提取第一组视觉特征的部件；

用于从针对所述一个或多个声音事件中的每个相应的声音事件的一个或多个图像帧的相关区域提取第二组视觉特征的部件；以及

用于从针对所述一个或多个声音事件中的每个相应的声音事件的被加和的经空间滤波的声音信号提取音频特征的部件。

25.根据权利要求24所述的装置，其中针对每个相应的声音事件生成的多维事件签名至少包括第一组提取的视觉特征的部分、第二组提取的视觉特征的部分和提取的音频特征的部分。

26.根据权利要求18所述的装置，其中所述一个或多个预定义的事件种类模型每个包括高斯混合模型（GMM）。

27.一种其上存储有指令的机器可读介质，所述指令在被执行时使得机器实行根据权利要求9-17中任一项所述的方法。