CN111465983B

CN111465983B - 用于确定占用的系统和方法

Info

Publication number: CN111465983B
Application number: CN201880082233.7A
Authority: CN
Inventors: 冯哲; A.雷斯; S.加法扎德甘; M.鲁斯; R.杜里肯
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2017-12-22
Filing date: 2018-12-14
Publication date: 2024-03-29
Anticipated expiration: 2038-12-14
Also published as: WO2019121397A1; US20210201889A1; CN111465983A; EP3729428A1; US11631394B2

Abstract

一种检测区域中的占用的方法包括：利用处理器从音频传感器获得音频样本，以及利用处理器从音频样本确定所选特征函数集合的特征函数值。特征函数值的确定包括从音频样本中提取所选特征函数集合中的特征，以及从所提取的特征确定所选特征集合的特征函数值。所述方法进一步包括利用处理器，基于所确定的特征函数值使用分类器来确定区域中的占用。

Description

用于确定占用的系统和方法

优先权要求

本申请要求2017年12月22日提交的题为“System and Method for DeterminingOccupancy”的美国临时申请序列号62/609,488的优先权，该美国临时申请的公开内容通过引用以其整体并入本文。

技术领域

本公开总体上涉及占用检测，并且更特别地涉及经由音频信号确定占用。

背景技术

包括占用空间的人的存在检测和数量检测（本文中也称为“头部计数”）的占用检测是智能家庭和建筑中的重要功能。特别地，占用检测使能实现在智能供暖、通风和空调（HVAC）系统中的效率改进，紧急情形中改进的智能疏散，发现安全系统的入侵者或占用者行为的异常模式，以及其他改进。

一些常规的占用检测系统依赖于热或红外传感器来检测空间的占用。然而，这些传感器受限于它们的特定视场，并且对于大的或复杂的区域可能需要多个传感器。此外，由于热源（例如器具）或受阳光影响的区域，热或红外传感器可能生成假阳性。

一些其他常规的系统使用雷达和声纳传感器、化学传感器或视频相机。然而，这些系统具有有限的检测距离，可能在检测静态的人方面有困难，和/或可能需要大量的计算复杂度。此外，特别是在视频传感器的情况下，在住宅或其他私人场所中使用视频信号进行占用检测可能存在隐私担忧。

另一种形式的占用检测使用音频传感器来确定空间是否被占用。然而，在某些环境、条件中，以及当空间中存在背景噪声时，使用音频系统来确定空间内的占用是困难的。例如，在开放的办公室环境中或者在TV、收音机或其他背景音频噪声存在的情况下的存在检测比在安静的单个房间环境中困难。此外，常规的基于音频的占用检测系统需要多个传感器来准确地确定存在或头部计数，这增加了用于操作系统的能量损耗、前期成本和计算复杂度。

因此，需要的是一种改进的占用检测系统。

发明内容

在一个实施例中，一种检测区域中的占用的方法包括利用处理器从音频传感器获得音频样本，以及利用处理器从音频样本确定所选特征函数集合的特征函数值。特征函数值的确定包括从音频样本中提取所选特征函数集合中的特征，以及从所提取的特征确定所选特征集合的特征函数值。所述方法进一步包括利用处理器，基于所确定的特征函数值使用分类器来确定区域中的占用。

在所述方法的一些实施例中，分类器是决策树分类器。

在另外的实施例中，决策树分类器具有在2与15之间的最大深度。在另一个实施例中，决策树分类器具有为五的最大深度。

在所述方法的又一个实施例中，特征函数集合包括在5个与25个之间的特征函数。在另一个实施例中，特征函数集合包括在10个与20个之间的特征函数。在一个特定实施例中，特征函数集合包括11个特征函数。

在一些实施例中，所述特征包括以下各项中的一个或多个：包络动态范围、零交叉率、能量、亮度、光谱方差、光谱滚降、光谱通量、至少一个MFCC系数、至少一个MFCC系数的德耳塔（delta）以及至少一个MFCC系数的德耳塔-德耳塔。在另外的实施例中，特征函数集合包括由以下各项组成的组中的至少一个：针对每个特征确定的均值、中值、标准差、绝对积分、最小值、最大值、动态范围、主频率和熵。

在一个实施例中，特征函数集合包括从由以下各项组成的组中选择的至少两个：最大MFCC-1；均值能量；包络动态范围的动态范围；亮度的均值；亮度的动态范围；亮度的中值；MFCC-4德耳塔的熵；光谱通量的标准差；MFCC-19的熵；包络动态范围的标准差；包络动态范围的熵；MFCC-5德耳塔的绝对积分；零交叉率的熵；亮度的绝对积分；光谱滚降的熵；亮度的熵；光谱通量的熵；光谱方差的熵；MFCC-7的熵；MFCC-2德耳塔的熵；MFCC-1德耳塔-德耳塔的熵；MFCC-5的熵；能量的熵；MFCC-3的熵；和MFCC-20德耳塔的熵。

在又一个实施例中，特征函数集合包括从由以下各项组成的组中选择的至少两个：最大MFCC-1；均值能量；包络动态范围的动态范围；亮度的均值；亮度的动态范围；亮度的中值；MFCC-4德耳塔的熵；光谱通量的标准差；MFCC-19的熵；包络动态范围的标准差；包络动态范围的熵。

在所述方法的一些实施例中，在机器学习训练过程中学习所选特征函数集合和分类器。

在所述方法的一个实施例中，特征函数值的确定进一步包括分割所提取的特征。

在另一个实施例中，一种用于确定区域中的占用的系统包括处理器和被配置为记录区域中的音频样本的至少一个音频传感器。处理器被配置为执行被存储在存储器中的编程指令，以从音频传感器获得音频样本，从音频样本确定所选特征函数集合的特征函数值，并且基于所确定的特征函数值使用分类器来确定区域中的占用。特征函数值的确定包括从音频样本中提取所选特征函数集合中的特征，并且从所提取的特征确定所选特征集合的特征函数值。

在所述系统的一个实施例中，分类器是决策树分类器。

在另一个实施例中，决策树分类器具有在2与15之间的最大深度。

在根据本公开的另外的实施例中，特征函数集合包括在10个与20个之间的特征函数。

在所述系统的一些实施例中，所述特征包括以下各项中的一个或多个：包络动态范围、零交叉率、能量、亮度、光谱方差、光谱滚降、光谱通量、至少一个MFCC系数、至少一个MFCC系数的德耳塔以及至少一个MFCC系数的德耳塔-德耳塔；并且特征函数集合包括由以下各项组成的组中的至少一个：针对每个特征确定的均值、中值、标准差、绝对积分、最小值、最大值、动态范围、主频率和熵。

在又一个实施例中，特征函数集合包括从由以下各项组成的组中选择的至少两个：MFCC-1的最大值；能量的均值；包络动态范围的动态范围；亮度的均值；亮度的动态范围；亮度的中值；MFCC-4德耳塔的熵；光谱通量的标准差；MFCC-19的熵；包络动态范围的标准差；包络动态范围的熵；MFCC-5德耳塔的绝对积分；零交叉率的熵；亮度的绝对积分；光谱滚降的熵；亮度的熵；光谱通量的熵；光谱方差的熵；MFCC-7的熵；MFCC-2德耳塔的熵；MFCC-1德耳塔-德耳塔的熵；MFCC-5的熵；能量的熵；MFCC-3的熵；和MFCC-20德耳塔的熵。

附图说明

图1是根据本公开的占用检测系统的示意图，其中仅使用一个音频传感器。

图2是根据本公开的占用检测系统的示意图，其中系统控制器确定占用。

图3是训练机器学习模型以检测区域中的占用的方法的过程图。

图4是使用机器学习模型检测区域中的占用的方法的过程图。

图5A是在实验性起居室场景中实际头部计数百分比的图表。

图5B是在实验性单个办公室场景中实际头部计数百分比的图表。

图6是在实验性起居室场景中决策树的最大深度相对于头部计数准确性的图表。

图7是示出了针对实验性起居室场景在决策树中使用的估计器的数量相对于头部计数准确性的图表。

图8是使用Chi2分析的针对实验性起居室场景所使用的特征函数的数量相对于头部计数准确性的图表。

图9是使用LASSO分析的针对实验性起居室场景所使用的特征函数的数量相对于头部计数准确性的图表。

图10是使用LASSO分析的针对实验性单个办公室场景所使用的特征函数的数量相对于头部计数准确性的图表。

图11是图示了针对实验性起居室场景的在表3中图示的十八个特征函数的LASSO特征系数的图表。

图12是图示了针对单个办公室场景的在表3中图示的十八个特征函数的LASSO特征系数的图表。

图13是来自表3的起居室和单个办公室场景二者的组合特征函数相对于起居室场景中的头部计数准确性绘制的图表。

图14是来自表3的起居室和单个办公室场景二者的组合特征函数相对于单个办公室场景中的头部计数准确性绘制的图表。

图15图示了根据实验性起居室场景确定的决策树算法。

图16A图示了图15的决策树算法的延续。

图16B图示了图15的决策树算法的延续。

图16C图示了图15的决策树算法的延续。

图16D图示了图15的决策树算法的延续。

图16E图示了图15的决策树算法的延续。

图16F图示了图15的决策树算法的延续。

图16G图示了图15的决策树算法的延续。

图16H图示了图15的决策树算法的延续。

图17是一个混淆矩阵，其描绘了在使用来自图13的图表的十一个特征函数的实验性起居室场景中的头部计数的准确性。

图18是一个混淆矩阵，其描绘了在使用来自图14的图表的十一个特征函数的实验性单个办公室场景中的头部计数的准确性。

具体实施方式

出于促进对本文中描述的实施例原理的理解的目的，现在对附图和以下书面说明书中的描述进行参考。参考不意图对本主题范围的任何限制。本公开还包括对所说明的实施例的任何变更和修改，并且包括如本文件所属领域的技术人员通常将想到的所描述实施例原理的另外应用。

以最有助于理解所要求保护的主题的方式，各种操作可以依次被描述为多个分立的动作或操作。然而，描述的次序不应当被解释为暗示这些操作必定依赖于次序。特别地，这些操作可以不按照呈现的次序来执行。所描述的操作可以以与所描述的实施例不同的次序来执行。在附加的实施例中，可以执行各种附加的操作和/或可以省略所描述的操作。

如关于本公开的实施例使用的术语“包含”、“包括”、“具有”等是同义的。如本文中所使用，术语“近似”指代在参考值的±20%之内的值。

如本文中所使用的，术语“存在检测”指代检测区域中是否存在任何个体，并且术语“头部计数”指代检测区域中个体数。如本文中所使用，术语“检测占用”和“占用检测”可以指代存在检测或头部计数。

图1示意性地图示了占用检测系统100的示例性实施例，该占用检测系统100检测区域104中的占用，例如检测至少一个个体的存在和/或检测人数。区域104可以是单个房间、多个房间、单个房间或多个房间的期望部分、室外区域、其中期望检测占用的任何其他区域或以上的任何组合。占用检测系统100被配置为监视从区域104获得的一个或多个音频信号的特性，并且确定区域104是否被占用，或者有多少人占用区域104。特别地，系统100可以利用机器学习模型来对检测到的音频的特征函数进行分类，以确定区域104的占用。

占用检测系统100包括传感器封装110，传感器封装110包括可操作地连接到存储器122的处理器120和单个音频传感器124，单个音频传感器124例如可以是麦克风或其他合适的音频接收设备。在一个实施例中，音频传感器124可以是形成为专用集成电路（ASIC）的MEMS音频传感器。音频传感器124被配置为感测声压波并且将声压波转换成数字或模拟电子信号。电子信号经由有线或无线通信从音频传感器124传输到处理器120。在一些实施例中，系统100还可以包括显示器128，显示器128可操作地连接到处理器120，并且被配置为通知用户关于区域104是否被占用和/或有多少人占用区域104。

在一些实施例中，传感器封装110可以是另一电子设备的部分。例如，在一个实施例中，传感器封装110可以集成在计算机、智能家庭集线器、警报控制器、便携式电子设备（诸如蜂窝电话、平板设备、智能手表）等中。此外，在这样的实施例中，处理器120和存储器122可以是电子设备中用于电子设备的一般运作的处理器和存储器，而音频传感器124可以是集成在电子设备中的麦克风。然而，在其他实施例中，传感器封装110可以是专用传感器封装。在另外的实施例中，处理器120、存储器122、音频传感器124和/或显示器128可以是分离的，而其他组件可以集成在电子设备中。

如下面更详细讨论的，处理器120被配置为处理音频信号，并且在检测到的音频信号上使用分类器模型来确定房间中的占用。本领域普通技术人员将认识到，“处理器”包括处理数据、信号或其他信息的任何硬件系统、硬件机构或硬件组件。处理器120可以包括具有中央处理单元、多个处理单元、用于实现功能性的专用电路的系统，或者其他系统。

存储器122被配置为存储程序指令，该程序指令当由处理器120执行时，使得传感器封装110能够执行下面描述的各种操作，其包括确定区域104中的占用。存储器122可以是能够存储由处理器120可访问的信息的任何类型的设备，诸如可写存储器、只读存储器或其他计算机可读介质。

特别地，存储器122被配置为存储对应于至少一个机器学习模型、特别是对应于占用分类模型及其分类参数的程序指令。处理器120被配置为利用占用分类模型从一个或多个音频信号中提取特征，并且对区域是否被占用和/或有多少个体占用区域进行分类。如本文中所使用的，术语“机器学习模型”指代被配置为实现算法或数学模型的系统或者程序指令和/或数据的集合，该算法或数学模型基于给定的输入预测并提供所期望的输出。将领会的是，机器学习模型的参数没有被明确地编程，或者机器学习模型不一定被设计成遵循特定的规则以便为给定的输入提供所期望的输出。取而代之，机器学习模型被提供有训练数据的语料库，处理器从该训练数据的语料库中标识或“学习”数据中的模式以及统计关系或结构，所述模式以及统计关系或结构被概括以关于新的数据输入做出预测。分类参数包括在训练过程期间学习的占用分类模型的参数的多个值。

虽然图1的实施例仅包括仅具有一个音频传感器124的一个传感器封装110，但是读者应当领会到，在如图2中所图示的其他实施例中，系统100可以包括两个、三个或如对于特定应用所期望的任何合适数量的传感器封装110或音频传感器124。

图2图示了包括多个传感器封装110的占用检测系统100A，该多个传感器封装110中的两个在图2中示出。然而，读者应当领会到，占用检测系统100A可以包括任何期望数量的传感器封装110A。每个传感器封装110A可以类似于图1中所图示的传感器封装110来配置，使得每个传感器封装110A可以包括处理器和音频传感器。在一些实施例中，传感器封装110A还可以包括无线数据收发器（未示出）和/或电池（未示出），以便使得传感器封装110A能够容易地定位在区域104内的期望位置处。在另外的实施例中，传感器封装110A可以包括：仅音频传感器；仅音频传感器和收发器；仅音频传感器和电池；或者仅音频传感器、收发器和电池。

占用检测系统100A还包括系统控制器140，系统控制器140与传感器封装110A通信，以从传感器封装110A获得对应于由相应音频传感器接收的音频信号的数字或模拟信号。系统控制器140然后被配置为确定区域104的占用，如下面详细讨论的。系统控制器可以位于区域104中，或者如图2中所图示，可以位于区域外部。系统控制器140可以连接到例如安全系统控制器、建筑紧急控制单元、HVAC控制器、计算机、便携式电子设备或另一个期望的控制器，或者集成在其中。在替代实施例中，传感器封装110A可以经由有线或无线连接彼此连接以进行数据传输，并且被配置为使得传感器封装110A之一的控制器执行占用的确定。在一些这样的实施例中，可以从传感器系统100A中省略系统控制器140。

系统控制器140包括可操作地连接到存储器148的处理器144、收发器152，以及在一些实施例中包括显示器156。收发器152包括例如Wi-Fi®收发器、ZigBee®收发器、Z-Wave®收发器、Bluetooth®收发器、无线电话收发器和RF收发器中的一个或多个，或者适合于向传感器封装110A发送通信信号和从传感器封装110A接收通信信号的另一个收发器。

本领域普通技术人员将认识到，“处理器”包括处理数据、信号或其他信息的任何硬件系统、硬件机构或硬件组件。处理器144可以包括具有中央处理单元、多个处理单元、用于实现功能性的专用电路的系统，或者其他系统。

存储器148可以是能够存储由处理器144可访问的信息的任何类型的设备，诸如可写存储器、只读存储器、存储卡、ROM、RAM、硬盘驱动器、磁盘、闪速存储器或其他计算机可读介质。存储器148被配置为存储程序指令，该程序指令当由处理器144执行时，使得控制器140能够执行在本文中别处描述的各种操作，与传感器封装110A通信以接收音频信号并且使用机器学习模型对区域的占用进行分类。

特别地，存储器148被配置为存储对应于至少一个机器学习模型、特别是对应于占用分类模型及其分类参数的程序指令。处理器144被配置为利用占用分类模型从一个或多个音频信号中提取特征，并且对区域是否被占用和/或有多少人占用区域进行分类。

系统训练

图3图示了机器学习过程200，其用于训练机器学习占用检测系统（诸如图1和图2的占用检测系统100、100A）以检测区域的占用。在所述方法的描述中，方法正在执行某个任务或功能的陈述指代控制器或通用处理器执行被存储在操作性地连接到控制器或处理器的非暂时性计算机可读存储介质中的编程指令，以操纵数据或操作占用检测系统100、100A中的一个或多个组件来执行该任务或功能。特别地，上述传感器封装110或110A的处理器120或系统控制器140的处理器144可以是这样的控制器或处理器。替代地，控制器或处理器可以利用多于一个的处理器以及相关联的电路和组件来实现，所述多于一个的处理器以及相关联的电路和组件中的每一个都被配置为形成本文中所述的一个或多个任务或功能。将领会的是，所述方法的一些或全部操作也可以由远程服务器或云处理基础设施来执行。附加地，所述方法的步骤可以以任何可行的时间次序执行，而不管各图中所示的次序或以之描述各步骤的次序如何。

过程200通过获得音频样本开始（框204）。在一个实施例中，音频样本由单个音频传感器感测，所述单个音频传感器例如音频传感器或麦克风124。在另一个实施例中，音频样本由多个音频传感器124感测，所述多个音频传感器124彼此相邻或者分散在其中执行占用检测确定的区域之上。处理器与一个或多个音频传感器通信，以接收与区域中检测到的音频相对应的声学值的时间序列。处理器经由直接连接或者经由有线或无线网络之上的通信从（一个或多个）音频传感器获得所感测的音频样本。

接下来，所述方法以从音频样本中提取特征继续（框208）。处理器使用无重叠的帧级滑动窗提取音频低级描述性（LLD）特征，如表1中总结的。从其中提取LLD特征的帧长度可以从近似5 ms到近似50 ms。在一些实施例中，帧的长度取决于在音频信号中检测到的特征。在另一个实施例中，LLD特征帧长度在近似10与近似30 ms之间。在一个特定实施例中，LLD特征帧长度近似为25 ms。

从音频样本中提取的LLD特征可以分组为三个主要类别：时域特征、频域特征和倒谱域（cepstral domain）特征。时域特征可以包括例如包络动态范围（即信号的时间包络的范围）和零交叉率（即处理帧内信号的时域零交叉的数量，其指示信号幅度符号改变的频率），二者均在单维中测量。频域特征可以包括：例如，信号的能量（即，信号的平方功率的总和）、亮度（即，使用信号的频谱形心或频率的加权均值来测量的信号中的高频内容的度量）、频谱方差（即，频率谱的统计方差）、频谱滚降（在其之下包含功率谱分布的总能量的指定N个百分位的频率；对于从无声噪声区分有声语音而言有用）和音频信号的频谱通量（由例如帧到帧频谱幅度差向量的两个范数表示，其定义了时间上的帧到帧波动量），其再次在单维中测量。

倒谱域特征是梅尔频率倒谱系数（MFCC）及其微分（也称为“德耳塔”或“d”）和加速度（也称为“德耳塔-德耳塔”或“dd”）系数。MFCC的系数是本领域中常用的系数，其用于使能实现自动化频率检测，以更像人耳那样解释频率差异。在一些实施例中，用于MFCC的系数的帧例如在近似10 ms到近似50 ms之间，在近似20 ms到近似40 ms之间，或者近似25 ms。在下面描述的实施例中，利用20个滤波器组来计算MFCC的系数。然而，读者应当领会到，在其他实施例中，MFCC的系数是使用20个与40个之间的梅尔频率滤波器组来计算的。在某些实施例中，仅保持较低的12-13个梅尔频率滤波器组的系数，而较高滤波器组的系数可以被丢弃，以得到每个帧的MFCC的系数。在其他实施例中，较低的20个梅尔频率滤波器组的系数被保留，而剩余的滤波器组被丢弃。

表1：低级描述性（LLD）特征和函数：

。

过程200通过将特征分区成具有时间上的固定长度和一个帧的移位的区段来继续（框212）。因此，在区段长度之上聚集特征帧以确定所分割的特征。区段可以具有例如在1秒与600秒之间的长度。在一个实施例中，区段具有在3秒与60秒之间的长度。在一个特定实施例中，特征被分区成30秒的区段。在其他实施例中，取决于被应用于特定特征的特征函数，特征被分区成不同的区段长度。此外，在一些实施例中，处理器分析用于特征的不同区段长度，以研究用于特定占用检测任务的最优时间窗。最优时间窗可以基于音频信号中的特征和/或其中执行占用检测的区域的特征。

在一些实施例中，区段可以彼此重叠，使得每个区段移位一个特征帧而被计算。在其他实施例中，区段可以仅部分地重叠，使得每个区段从相邻区段移位5、10、25、50、100或任何期望的移位。在另外的实施例中，区段可以不彼此重叠。

接下来，过程200以如下继续：针对每个区段，处理器将函数应用于所确定的LLD特征以及LLD的相应德耳塔和加速度系数（框216）。如表1中所图示，所应用的函数是统计操作，其包括例如确定所确定的和分割的LLD的均值、中值、标准差、绝对积分、最小值、最大值、动态范围、主频率或（例如使用香农熵方程所确定的）熵中的一个或多个。处理器可以被配置为将每个LLD特征的每个函数确定为所确定的特征函数。替代地，处理器可以被配置为确定有限数量的特征函数，以减少对于特征函数的确定所必需的计算资源。

过程200以如下继续：处理器从确定的特征函数中选择包含与区域占用最相关的信息的特征函数（框220）。特别地，控制器分析从LLD确定的不同音频特征类型对于分类准确性的贡献。在一些实施例中，由于在音频样本中可以存在大量的可能音频特征，因此特征的选择可以包括执行特征的变换或者仅选择特征的子集来分析。减少用于分类的特征数量改进了速度并且降低了计算的复杂度。特别地，特征选择方法将最相关且非关联的特征汇集在一起，并且定义了每个特征在存在检测和头部计数任务中的效果。

特征选择作为用于选择与建模问题最相关的特征的自动方法具有许多益处，诸如改进性能，提供需要减少的计算资源的更快且更简单的模型，以及允许对数据及其底层过程的更好理解。不同的特征选择方法将重点放在一个方面上多于其他方面。在一些实施例中，特征选择可以包括单变量卡方（或Chi2）统计分析和/或最小绝对收缩和选择算子（LASSO）统计，特别是使用/>惩罚的LASSO。这两个特征选择方法均提供了简单、快速和有效的特征选择。

在特征选择中，使用卡方和/或LASSO分析来确定各种不同特征函数的关联性或独立性。处理器确定不同特征函数之间的关联性以及特征与已知结果（即区域中的已知存在或头部计数）之间的关联性。展现与已知结果低关联性的特征函数被移除（即未被选择），因为这些特征函数不包含与存在或头部计数确定相关的足够信息。相反，与已知结果强关联的特征被保留。附加地，可以丢弃彼此强关联的特征，使得仅留下强关联特征之一。这使得存在检测或头部计数过程能够以更少的特征计算来执行，并且因此更少的计算资源对于该过程而言是必要的。

特征提取可以包括可以从数据中提取的多于500个特征函数。然而，这些特征函数中的许多彼此关联，或者与存在检测和/或头部计数非关联。在特征选择步骤中，处理器被配置为对用于确定存在或头部计数的最佳特征函数进行排序。在一个特定实施例中，选择20个特征函数。在另外的实施例中，处理器在特征选择步骤中仅选择11个最佳特征函数（即展现与已知结果的高关联性的特征函数，同时将彼此关联的特征函数限制为仅关联特征函数之一）。

在不同的实施例中，基于该系统是被配置用于存在检测还是用于头部计数，所选的特征函数的数量可以变化。特别地，准确的头部计数可能需要比存在检测更多的特征，因为头部计数不仅需要确定人是否存在，而且需要确定区域中存在的人数。

最终，该过程通过对所选特征进行分类而结束（框224）。在一些实施例中，控制器120、140生成决策树分类器，该决策树分类器有利地具有快速的推断时间，易于解释，并且计算上高效。决策树是一种类型的监督式机器学习，其中，控制器沿着决策节点连续地拆分数据，直到抵达叶子或最终结果。在其他实施例中，取决于例如可用的训练数据量、可用的计算资源和所需要的在线因素，诸如支持向量机、深度神经网络等之类的其他分类器可以用来代替决策树分类器。

在过程200中，可以使用递归二进制拆分过程、例如使用贪婪拆分和/或Gini杂质决策准则来确定决策树。决策树可以针对多个参数进行配置。在一个实施例中，决策树分类器可以配置有预先指定的深度、用于拆分的最小尺寸、最小叶子尺寸等。此外，在某些实施例中，集成决策树使用音频数据组合多个独立生成的决策树（即，多个“估计器”）来概括分类器，其在一些实施例中可以改进过程200的鲁棒性。

在各种实施例中，可以利用例如1个与5个之间的估计器、2与15之间的最大深度、2与15之间的用于拆分的最小尺寸以及1与15之间的最小叶子尺寸来生成决策树。在一个特定的实施例中，使用一个估计器、为5的最大深度、为5的用于拆分的最小尺寸、为1的最小叶子尺寸以及Gini杂质决策准则来生成决策树。然而，读者应当领会到，在其他实施例中，任何期望的值都可以用于估计器的数量、最大深度、用于拆分的最小尺寸和最小叶子尺寸。

在至少一个实施例中，训练过程在诸如服务器（未示出）的外部设备上执行，并且结果得到的分类参数被提供给占用检测系统100、100A，以供存储在存储器122、148中以及后续使用。在这样的实施例中，该系统可以在降低的支出和安装成本的情况下容易地适于多种不同用途。

在另一个实施例中，当安装了占用检测系统100、100A时，作为系统校准来执行训练过程，并且然后将训练数据存储在存储器122、148中以供后续使用。因此，占用检测系统机器学习算法是针对其中安装该系统的特定区域而定制的。在这样的实施例中，由于分类参数基于其中安装该系统的区域的特定特性，因此可获得高程度的准确性。

占用检测

图4图示了用于确定区域中的占用的过程300的流程图。过程300指代例如处理器120或144的处理器执行被存储在例如存储器122或148的存储器中的编程指令，以执行下面描述的功能来检测区域的占用。在所述方法的描述中，方法正在执行某个任务或功能的陈述指代控制器或通用处理器执行被存储在操作性地连接到控制器或处理器的非暂时性计算机可读存储介质中的编程指令，以操纵数据或操作占用检测系统100、100A中的一个或多个组件来执行该任务或功能。特别地，上述传感器封装110或110A的处理器120或系统控制器140的处理器144可以是这样的控制器或处理器。替代地，控制器或处理器可以利用多于一个的处理器以及相关联的电路和组件来实现，所述多于一个的处理器以及相关联的电路和组件中的每一个都被配置为形成本文中所述的一个或多个任务或功能。将领会的是，所述方法的一些或全部操作也可以由远程服务器或云处理基础设施来执行。附加地，所述方法的步骤可以以任何可行的时间次序执行，而不管各图中所示的次序或以之描述各步骤的次序如何。通过示例的方式，在一些实施例中，过程300可以由计算机、智能家庭集线器、HVAC控制器、警报控制器、便携式电子设备（诸如蜂窝电话、平板设备或智能手表）等来执行。

在一些实施例中，过程300通过校准或训练该系统开始（框304）。训练可以例如使用图3的过程200来执行。根据该系统的校准或训练选择的特征、函数和/或分类器（例如决策树）存储在与处理器相关联的存储器（例如存储器122或148）中。在其他实施例中，该系统可以利用所选的特征、函数和/或分类算法预先编程，使得机器学习占用检测系统的一些或全部校准或训练不是必需的。在一个实施例中，选择在5个与25个之间的特征函数。在另一个实施例中，选择在10个与20个之间的特征函数。在一个特定实施例中，选择11个特征函数。

然后，该过程以处理器使用音频传感器（例如麦克风）获得音频样本继续（框308）。在一个实施例中，音频样本由单个音频传感器感测，所述单个音频传感器例如音频传感器或麦克风124。在一些实施例中，音频样本由计算机、智能家庭集线器、警报控制器、便携式电子设备（诸如蜂窝电话、平板设备或智能手表）等感测。在另一个实施例中，音频样本由多个音频传感器感测，所述多个音频传感器彼此相邻或者分散在其中执行占用检测确定的区域之上。处理器与一个或多个音频传感器通信，以接收与区域中检测到的音频相对应的声学值的时间序列。处理器经由直接连接或者经由有线或无线网络之上的通信从（一个或多个）音频传感器获得所感测的音频样本。

接下来，处理器从音频样本确定所选特征函数（框312）。处理器120或144提取音频LLD特征，分割所提取的特征，并且以与上面在图4的过程200中描述的类似的方式确定特征函数。从其中提取LLD特征的帧长度可以从近似5 ms到近似50 ms。在一些实施例中，帧的长度取决于在音频信号中检测到的特征。在另一个实施例中，LLD特征帧长度在近似10与近似30 ms之间。在一个特定实施例中，LLD特征帧长度近似为25 ms。

如在上述过程200中，区段可以具有例如在1秒与600秒之间的长度。在一个实施例中，区段具有在3秒与60秒之间的长度。在一个特定实施例中，特征被分区成30秒的区段。在其他实施例中，取决于被应用于特定特征的特征函数，特征被分区成不同的区段长度。此外，在一些实施例中，处理器分析用于特征的不同区段长度，以研究用于特定占用检测任务的最优时间窗。最优时间窗可以基于音频信号中的特征和/或其中执行占用检测的区域的特征。在一些实施例中，区段可以彼此重叠，使得每个区段移位一个特征帧而被计算。在其他实施例中，区段可以仅部分地重叠，使得每个区段从相邻区段移位5、10、25、50、100个或任何期望数量的帧。在另外的实施例中，区段可以相邻并且不彼此重叠。

与上述训练过程200形成对比，用于确定占用的过程300被限制在所确定的特征函数的数量中。然而，读者应当领会到，取决于期望的准确性和可用的计算资源，可以使用任何期望数量的特征函数。附加地，所选的特征可以基于从执行机器学习模型接收的数据而变化。如上面关于训练和校准过程200所讨论的，并且如下面将参考实验性结果所解释的，所选的特征函数可以是提供与区域中的存在和/或头部计数相关的最大量信息的那些特征函数。

表2列出了25个特征函数，其被确定为包括与来自下面详细讨论的实验性训练过程的头部计数相关的信息。在一个实施例中，从表中选择全部25个特征函数。在另一个实施例中，从表2中选择在10个与20个之间的特征函数。在另一个实施例中，从表2中选择11个特征函数。在一些实施例中，被选择的所选特征函数号可以从表2中按降序选择（即，具有11个所选特征函数的实施例可以使用表2中的特征函数1-11）。

表2：通过实验被确定为与头部计数相关的25个特征函数

	特征	函数
			1	MFCC-1	最大值
2	能量	均值
			3	包络动态范围	动态范围
4	亮度	均值
			5	亮度	动态范围
6	亮度	中值
			7	MFCC-4德耳塔	熵
8	频谱通量	标准差
			9	MFCC-19	熵
10	包络动态范围	标准差
			11	包络动态范围	熵
12	MFCC-5德耳塔	绝对积分
			13	零交叉率	熵
14	亮度	绝对积分
			15	频谱滚降	熵
16	亮度	熵
			17	频谱通量	熵
18	频谱方差	熵
			19	MFCC-7	熵
20	MFCC-2德耳塔	熵
			21	MFCC-1德耳塔-德耳塔	熵
22	MFCC-5	熵
			23	能量	熵
24	MFCC-3	熵
			25	MFCC-20德耳塔	熵

过程300以处理器120或144使用分类器基于特征函数来确定区域的占用继续（框316）。如上面所讨论的，分类器可以使用诸如图3的机器学习训练过程之类的机器学习模型来开发。可以使用决策树来执行占用的确定。

在一个特定实施例中，所使用的决策树可以具有例如2与15之间的深度。在一个特定实施例中，所使用的决策树具有为5的最大深度。然而，读者应当领会到，在其他实施例中，任何期望值都可以用于决策树的最大深度和其他参数。

决策树分类器基于如经由特征函数分割和分析的输入音频数据来确定区域的占用很可能是什么样。在一个实施例中，决策树输出可以是在区域中存在某一数量的人的概率，或者任何个体在区域中存在的概率。在另一个实施例中，决策树输出可以是区域中存在的个体的确定数量的值，或者区域中的存在或不存在。

方法300通过基于占用的确定而生成输出来继续（框320）。在一个实施例中，输出可以是在显示器128或156上描绘的可感知的输出，其取决于使用分类器做出的占用确定。可感知的输出可以包括基于使用分类器做出的确定在区域中是否检测到存在或者在区域中是否没有检测到存在的指示。在另一个实施例中，可感知的输出可以是显示器上基于使用分类器做出的确定在区域中的人数的指示。在其他实施例中，可感知的输出可以是诸如警告或警报之类的听觉指示器，或灯指示器。

在另外的实施例中，输出是传输到另一个电子设备或存储在一存储器或存储器122、148中的电子信号。例如，输出可以是输出到计算机、智能家庭集线器、HVAC控制器、警报控制器、便携式电子设备（诸如蜂窝电话、平板设备或智能手表）等的电子信号。接收到的输出可以使得电子设备执行编程指令，例如，以激活警报、操作HVAC系统、激活或去激活灯或者执行其他自动化功能。

所公开的系统100、100A和过程200、300通过提供一种高效且成本有效的方式来在常规系统之上增加占用检测性能，从而对计算机和占用检测技术提供了许多改进。系统100和过程200、300使能实现仅使用从环境收集的音频信号对现实场景中的占用和头部计数的检测。音频处理一般比其他占用检测技术（例如视频处理）更不计算密集，并且因此与常规占用检测系统相比，所公开的基于音频的占用检测系统需要更少的计算资源。此外，音频信号的使用使得系统100能够容易地在多种不同的环境和场景中可访问。

此外，与常规系统相比，使用音频信号改进了不同应用中占用检测的准确性。在一些应用中，仅使用音频信号是更期望的，因为与其他常规占用检测系统和方法（诸如例如，视频占用检测）相比，音频检测被认为是对隐私侵犯更少。附加地，与具有有限视场（例如基于红外或视频的系统）或基于传感器位置而受约束的常规占用检测系统相比，所公开的系统和过程提供了极佳的房间覆盖。

此外，在所公开的系统和过程中使用的占用检测使能实现对有限数量的特征和特征函数的确定，所述有限数量的特征和特征函数很可能提供关于区域是否被占用和/或有多少人占用区域的信息。结果，减少了所需要的计算资源，并且因此降低了系统的能量成本。因此，与常规方法相比，占用检测过程可以在具有降低的计算能力的设备上执行。例如，占用检测过程可以在诸如蜂窝电话、平板设备或智能手表之类的便携式电子设备上执行。

实验性结果

在模拟起居室环境中以及在模拟办公室环境中使用系统100和过程200、300执行了两个实验。在这两个实验中，应用了具有为5秒的时间窗的函数。此外，在实验中使用了留一记录交叉验证方法（leave-one -recording-out cross-validation method ）作为评估技术。因此，在起居室和单个办公室场景中相应地使用9折和7折交叉验证。最终，分类准确性被用作性能测量。

在第一实验中利用的音频样本从多感知占用检测语料库汲取，所述多感知占用检测语料库包括在单个办公室环境（代表商业场景）中收集的记录，而来自第二实验的音频样本从模拟起居室环境（代表住宅场景）汲取。音频数据是使用由Robert Bosch GmbH制造的具有为AKU 151型号的MEMS声学传感器以44.1 kHz记录的。注意到，所使用的传感器是针对在空间受约束的消费者电子设备（例如便携式电子设备）中使用而特别设计的。基于视频记录，在实验性环境中在给定时间处存在的人的数量贯穿整个语料库是可用的，以核实占用检测的准确性。

单个办公室数据是在包括一个装备齐全的办公室场所的小的封闭房间中获取的。在工作日的白天期间在七天内实施了所述记录。所记录的音频数据主要包括单人的常规办公室工作，其包括电话交谈和与第二同事的较长会议。附加地，为了增加数据多样性并且平衡存在比率，在休息日以及在一夜内记录了数据。从单个办公室场景收集了近似75小时的音频数据。图5A中图示了单个办公室场景中每个头部计数的采样时间的百分比。

起居室数据是在被布置为简单的起居室设置的更大的实验室房间中获取的。在六个会话中记录了数据，每个会话遵循预定义的协议，其具有以不同次序的活动。实施了以下活动：看TV、阅读报纸、谈话和玩纸牌游戏。协议中限定了房间中存在的人的数量以及每项活动的近似时长。从起居室场景收集了近似22小时的音频数据。图5B中图示了模拟起居室中每个头部计数的采样时间的百分比。

在图6和图7中示出了在起居室环境中的全特征集合上的分类器性能。图6图示了在具有一个估计器、为5的用于拆分的最小尺寸、为1的最小叶子尺寸以及Gini杂质决策准则的情况下，关于最大深度的决策树性能的绘图。如在实验性实施例中观察到的，使用更深的树可能导致过度拟合的模型，并且此外，更深的树增加模型的计算复杂度。

图7图示了在模型的其他参数保持相同的情况下，关于估计器数量的提升决策树分类性能。基于该图，在实验性实施例中，通过使用集成方法的性能增益最小。最终，由于性能和计算成本权衡，选择具有为五的最大深度且仅一个估计器的简单决策树作为用于实验性实施例的基线系统。因为图6和图7中描绘的实验需要冗长的计算，所以不针对全特征集合上的单个办公室环境而重复相同的实验，并且取而代之针对起居室和单个办公室环境二者使用了相同的决策树参数。

在接下来的实验中，在起居室场景中使用Chi2和LASSO方法分析了头部计数任务中的特征变量信息贡献。图8示出了关于经由Chi2方法选择的特征数量的系统准确性。如图8中所见，在数百个特征函数中，仅选择在特征变量与已知结果之间具有最高Chi2值的两个特征函数使性能改进高达7%绝对值，并且大大增加了分类器的速度。

图9描绘了关于如在起居室场景中使用LASSO方法选择的特征的分类器准确性。LASSO选择的特征函数的结果一般与来自Chi2特征选择的结果一致。给定在起居室场景中Chi2和LASSO方法之间类似的准确性趋势，实验使用针对单个办公室环境的LASSO特征函数选择而继续。如图10中所图示的，选择相对低数量的特征函数也在单个办公室场景中提供了合理的分类性能。读者应当注意到，来自LASSO和Chi2特征函数选择方法的结果与在图6和图7中的决策树分类结果一致，在图6和图7中仅一层或两层决策树可以产生准确的分类结果。

表3：用于两个实验性实施例的所选特征函数

。

表3总结了针对起居室和单个办公室环境二者确定的前十八个最相关的特征函数。图11和图12相应地以表3的次序描绘了相应地用于起居室和单个办公室场景的每个特征函数的LASSO系数。如表3中所示，在两个实验性环境中选择的最重要的特征是能量项（注意到，第一MFCC系数也是音频信号能量表示的表示）。该结果被启发性预期。然而，两个不同的函数——即最大值和均值相应地被选为用于起居室和单个办公室场景的具有最高LASSO系数的函数。此外，从实验性实施例中的所选特征显现出，与倒谱（MFCC）特征相比，时间和频率音频特征被认为在实验性头部计数场景中更相关。

为了跨两种环境来比较最佳特征函数，然后研究了头部计数性能相对于属性，如在图13和图14中相应地针对起居室和单个办公室环境所图示的。在这些图中，x轴表示每个实验中采用的属性。#-LR和#-SO相应地表示从表3在起居室（LR）和单个办公室（SO）场景中选择的特征号。此外，x轴标签的开始处的+符号示出了来自先前步骤的属性累积。例如，绘图中的第一点（1-LR）表示当在起居室场景中使用第一最佳特征（最大值-mfcc1）时的准确性，1-LR+1-SO示出了当使用两个环境的第一特征（最大值-mfcc1和均值-能量）时的性能，+2-LR表示当使用3维特征（1-LR、1-SO和2-LR）时的准确性，依此类推。基于两个绘图，选择了11维特征（x轴上的6-LR点）作为最终集合，其具有相应地针对起居室和单个办公室环境的63%和91%的头部计数准确性。

图15和图16A-16H图示了根据实验性起居室场景的数据确定的决策树算法。在图15-16的流程图中，X拆分变量的下标是来自上面表2的特征函数号减一（即，X₀指代特征1-MFCC1的最大值；X₁指代特征2-能量的均值；等等）。“值”阵列具有四个值，其对应于实验性起居室场景中[0，1，2，3]的实际（已知）头部计数。

读者应当领会到，图15和图16的决策树仅是实验性示例。在其他实施例中使用的节点、叶子和拆分可以取决于多个因素而变化，所述多个因素包括面积的尺寸、面积的使用、所选的特征函数、所使用的期望处理能力、期望的准确性、头部计数数据的期望使用等。

此外，如图17和图18中所图示的，使用11维最终特征集合来计算用于两种环境的头部计数任务的混淆矩阵。如图17和图18中所见，存在检测仅使用单个音频信号而具有高性能率，其具有针对起居室场景的95%的准确性以及针对单个办公室场景的96%的准确性。结果，显然的是，音频传感器可以自信地用作存在检测的第一步骤。在一些实例中，一旦检测到存在，就可以在计算中使用附加的传感器、例如附加的音频传感器，以在不过度增加计算要求的情况下增加头部计数准确性。这样，可以在不牺牲检测准确性的情况下优化计算资源和能量资源二者的使用。

此外，仅使用特征子集的总体头部计数准确性提供了准确的分类性能，其具有相应地针对起居室和单个办公室环境的63%和91%的分类准确性。基于混淆矩阵，单个办公室环境中的性能对于0、1和2头部计数是准确的。因此，与常规系统相比，与实验性参数一起使用的所公开的占用检测系统在降低的成本和计算资源需求的情况下提供了准确的占用检测结果。

最终，提取不同的区段长度（5、10、30、60、120、300、600秒）来研究在特征函数确定中使用不同时间窗的效果。实验表明，30秒的窗长度在单个办公室场景中将针对头部计数任务的准确性从91%改进到95%，并且将针对存在检测的准确性从96%改进到99%。在起居室场景中，使用30秒的时间窗将针对头部计数的性能从63%改进到70%，并且将针对存在检测的性能从95%改进到96%。结果说明与使用几十毫秒到若干秒范围中的较短时间窗的其他音频分析任务（诸如自动化语音识别（“ASR”）、情感识别等）相比，较长的时间窗有利于头部计数。

使用11维最终特征和30秒区段的三种其他环境上的系统性能。在开放式办公室（9向）、卧室（2向）和会议室（7向）环境中，该系统得到48%、61%和81%的准确性。这些结果说明，从单个办公室和起居室场景中选择的特征函数也适用于训练集合外部的场景。结果，所公开的占用检测系统对于使用来自实验性结果的所选特征函数和分类器模型的多种场景是准确的。

将领会的是，上述和其他的特征和功能的变体或其替代方案可以合期望地组合到许多其他不同的系统、应用或方法中。各种目前未预见或未预料到的替代方案、修改、变型或改进可以后续由本领域技术人员进行，所述替代方案、修改、变型或改进也意图被前述公开内容所包含。

Claims

1.一种检测区域中的占用的方法，包括：

从训练数据中选择所选特征函数集合，对所选特征函数集合的选择包括：

从训练数据中提取训练数据特征函数；

确定训练数据特征函数与区域的已知占用之间的关联性；和

丢弃训练数据特征函数中与已知占用不关联的特征函数，以选择所选特征函数集合；

利用处理器从音频传感器获得音频样本；

利用处理器从音频样本确定所选特征函数集合的特征函数值，特征函数值的确定包括：

从音频样本中提取所选特征函数集合中的特征；和

从所提取的特征确定所选特征函数集合的特征函数值；以及

利用处理器，基于所确定的特征函数值使用分类器来确定区域中的占用。

2.根据权利要求1所述的方法，其中分类器是决策树分类器。

3.根据权利要求2所述的方法，其中决策树分类器具有在2与15之间的最大深度。

4.根据权利要求2所述的方法，其中决策树分类器具有为五的最大深度。

5.根据权利要求2所述的方法，其中特征函数集合包括在5个与25个之间的特征函数。

6.根据权利要求2所述的方法，其中特征函数集合包括在10个与20个之间的特征函数。

7.根据权利要求2所述的方法，其中特征函数集合包括11个特征函数。

8.根据权利要求2所述的方法，其中所述特征包括以下各项中的一个或多个：包络动态范围、零交叉率、能量、亮度、光谱方差、光谱滚降、光谱通量、至少一个MFCC系数、至少一个MFCC系数的德耳塔以及至少一个MFCC系数的德耳塔-德耳塔。

9.根据权利要求8所述的方法，其中特征函数集合包括由以下各项组成的组中的至少一个：针对每个特征确定的均值、中值、标准差、绝对积分、最小值、最大值、动态范围、主频率和熵。

10.根据权利要求2所述的方法，其中特征函数集合包括从由以下各项组成的组中选择的至少两个：MFCC-1的最大值；能量的均值；包络动态范围的动态范围；亮度的均值；亮度的动态范围；亮度的中值；MFCC-4德耳塔的熵；光谱通量的标准差；MFCC-19的熵；包络动态范围的标准差；包络动态范围的熵；MFCC-5德耳塔的绝对积分；零交叉率的熵；亮度的绝对积分；光谱滚降的熵；亮度的熵；光谱通量的熵；光谱方差的熵；MFCC-7的熵；MFCC-2德耳塔的熵；MFCC-1德耳塔-德耳塔的熵；MFCC-5的熵；能量的熵；MFCC-3的熵；和MFCC-20德耳塔的熵。

11.根据权利要求2所述的方法，其中特征函数集合包括从由以下各项组成的组中选择的至少两个：最大MFCC-1；均值能量；包络动态范围的动态范围；亮度的均值；亮度的动态范围；亮度的中值；MFCC-4德耳塔的熵；光谱通量的标准差；MFCC-19的熵；包络动态范围的标准差；包络动态范围的熵。

12.根据权利要求1所述的方法，其中在机器学习训练过程中学习所选特征函数集合和分类器。

13.权利要求1所述的方法，其中特征函数值的确定进一步包括分割所提取的特征。

14.一种用于确定区域中的占用的系统，包括：

至少一个音频传感器，其被配置为记录区域中的音频样本；

处理器，其被配置为执行被存储在存储器中的编程指令，以：

从训练数据中提取训练数据特征函数；

确定训练数据特征函数与区域的已知占用之间的关联性；和

从音频传感器获得音频样本

从音频样本确定所选特征函数集合的特征函数值，特征函数值的确定包括：

从音频样本中提取所选特征函数集合中的特征；和

从所提取的特征确定所选特征函数集合的特征函数值；以及

基于所确定的特征函数值使用分类器来确定区域中的占用。

15.根据权利要求14所述的系统，其中分类器是决策树分类器。

16.根据权利要求15所述的系统，其中决策树分类器具有在2与15之间的最大深度。

17.根据权利要求15所述的系统，其中特征函数集合包括在10个与20个之间的特征函数。

18.根据权利要求15所述的系统，其中：

所述特征包括以下各项中的一个或多个：包络动态范围、零交叉率、能量、亮度、光谱方差、光谱滚降、光谱通量、至少一个MFCC系数、至少一个MFCC系数的德耳塔以及至少一个MFCC系数的德耳塔-德耳塔；并且

特征函数集合包括由以下各项组成的组中的至少一个：针对每个特征确定的均值、中值、标准差、绝对积分、最小值、最大值、动态范围、主频率和熵。

19.根据权利要求15所述的系统，其中特征函数集合包括从由以下各项组成的组中选择的至少两个：MFCC-1的最大值；能量的均值；包络动态范围的动态范围；亮度的均值；亮度的动态范围；亮度的中值；MFCC-4德耳塔的熵；光谱通量的标准差；MFCC-19的熵；包络动态范围的标准差；包络动态范围的熵；MFCC-5德耳塔的绝对积分；零交叉率的熵；亮度的绝对积分；光谱滚降的熵；亮度的熵；光谱通量的熵；光谱方差的熵；MFCC-7的熵；MFCC-2德耳塔的熵；MFCC-1德耳塔-德耳塔的熵；MFCC-5的熵；能量的熵；MFCC-3的熵；和MFCC-20德耳塔的熵。