CN109858472B

CN109858472B - 一种嵌入式实时人形检测方法和装置

Info

Publication number: CN109858472B
Application number: CN201910280194.8A
Authority: CN
Inventors: 郑威; 程小科
Original assignee: Wuhan Linptech Co Ltd
Current assignee: Wuhan Linptech Co Ltd
Priority date: 2019-04-09
Filing date: 2019-04-09
Publication date: 2023-08-04
Anticipated expiration: 2039-04-09
Also published as: CN109858472A

Abstract

本发明涉及计算机视觉领域，具体涉及一种嵌入式实时人形检测方法和装置，方法包括：预先通过训练得到基于卷积神经网络的人形检测模型；利用人形检测装置在待测空间范围内进行图像采集，并计算ROI区域；根据ROI区域选择检测阶段，动态调整图像分辨率并将调整后的图像输入人形检测模型；利用人形检测模型，结合多核并行算法和快速卷积算法对输入图像进行卷积运算，提取到特征数据；根据特征数据得到多个人形候选框，进行筛选融合后最终确定人形目标。本发明基于卷积神经网络进行模型训练，检测精度高，同时结合多核并行与快速卷积算法，并动态调整模型分辨率和焦距，硬件要求低，可满足人体检测模块小型化要求。

Description

一种嵌入式实时人形检测方法和装置

【技术领域】

本发明涉及计算机视觉领域，更具体地，涉及一种嵌入式实时人形检测方法和装置。

【背景技术】

人形检测是计算机视觉中的重要研究课题，被广泛应用于智能视频监控、车辆辅助驾驶、智能交通、智能机器人等领域。主流的人形检测方法分为基于人工图像特征的统计学习方法和基于人工神经网络的深度学习方法。统计学习方法对于人体目标的对数平均漏检率一般为15％左右，速度运行较快，可在CPU上进行实时检测，但是易受遮挡和背景的影响。而深度学习方法的对数平均漏检率低至7％，抗干扰能力强对遮挡和背景有较好的区分，但运行速度较慢，不利于在硬件资源受限的嵌入式系统上实现实时检测。

由此可见，现有的人体检测方法存在严重的精度与性能的矛盾，当检测速度快时，检测精度较低；而如果希望检测精度高，则对硬件性能要求高，难以满足人体检测模块小型化要求的问题。

鉴于此，克服上述现有技术所存在的缺陷是本技术领域亟待解决的问题。

【发明内容】

本发明需要解决的技术问题是：

传统的人形检测方法存在严重的精度与性能的矛盾，当检测速度快时，检测精度较低；而如果希望检测精度高，则对硬件性能要求高，难以满足人体检测模块小型化要求的问题。

本发明通过如下技术方案达到上述目的：

第一方面，本发明提供了一种嵌入式实时人形检测方法，预先通过训练得到基于卷积神经网络的人形检测模型，并保存在人形检测装置中；则人形检测方法包括：

利用人形检测装置在待测空间范围内进行图像采集，并针对当前采集到的图像计算ROI区域；

根据ROI区域选择检测策略中的检测阶段，进而动态调整图像分辨率，并将调整后的ROI区域图像输入所述人形检测模型；

利用所述人形检测模型，结合多核并行算法和快速卷积算法对输入的图像进行卷积运算，进而提取到特征数据；

根据特征数据得到多个人形候选框，通过对所述多个人形候选框进行筛选融合，最终确定待测空间范围内的人形目标；

其中，所述检测策略包括至少两个检测阶段，所述人形检测装置根据预设的状态转移条件在所述至少两个检测阶段间进行动态转移。

优选的，所述预先通过训练得到基于卷积神经网络的人形检测模型具体为：

从人体姿态数据集中筛选多个符合要求的人形样本，以生成包含多姿态、多视角、多尺度人形样本的人形数据集；

利用卷积神经网络算法，对所述人形数据集中各人形样本的图像特征进行深度学习，得到基于卷积神经网络的人形检测模型。

优选的，所述从人体姿态数据集中筛选多个符合要求的人形样本，以生成包含多姿态、多视角、多尺度人形样本的人形数据集，具体包括：

遍历所述人体姿态数据集中的每一个人形，得到多个人形样本；

随机对所述多个人形样本中的一个或多个进行图像变换，得到更多数量的人形样本；其中，所述图像变换包括剪裁、平移、旋转、色彩变换、缩放和模糊处理中的一项或者多项；

根据遍历操作以及图像变换操作得到的各个人形样本，生成包含多姿态、多视角、多尺度人形样本的人形数据集；

其中，对于人形像素低于第一预设阈值的人形样本，和/或人形姿态倒立的人形样本，从所述人形数据集中剔除。

优选的，所述利用卷积神经网络算法，对所述人形数据集中各人形样本的图像特征进行深度学习，得到基于卷积神经网络的人形检测模型，具体包括：

利用卷积神经网络算法，对所述人形数据集中各人形样本图像进行一系列卷积和池化操作，使得对于每个人形样本，分别得到第一分辨率和第二分辨率两种分辨率维度下的特征数据；

对每个人形样本，将两种分辨率维度下的特征数据相关联，并根据每个人形样本两种分辨率维度下的特征数据建立人形检测模型；

其中，所述第二分辨率高于所述第一分辨率。

优选的，所述针对当前采集到的图像计算ROI区域具体为：

将当前帧与上一帧做分块差分运算，得到当前帧的运动前景区域；

对上一帧的人形目标位置检测结果提取最小外接矩形，作为当前帧的静态前景区域；

取所述运动前景区域与所述静态前景区域的外接矩形，作为当前帧的ROI区域；

其中，如果当前帧为采集的第一帧图像，则对应的ROI区域为整幅图。

优选的，所述人形检测装置包括红外热释电传感器和红外摄像头，所述检测策略包括阶段一、阶段二和阶段三总共三个检测阶段；

在阶段一，所述红外热释电传感器处于开启状态，以便进行人形检测，而所述红外摄像头处于关闭状态；

在阶段二，所述红外热释电传感器处于开启状态，所述红外摄像头也处于开启状态，以便进行图像采集，且采集的图像分辨率调整至第一分辨率，以便使用第一分辨率的图像进行人形检测；

在阶段三，所述红外热释电传感器处于开启状态，所述红外摄像头也处于开启状态，以便进行图像采集，且采集的图像分辨率调整至第二分辨率，以便使用第二分辨率的图像进行人形检测；

其中，所述第二分辨率高于所述第一分辨率。

优选的，所述人形检测装置初始处于阶段一，则在所述待测空间范围内，所述人形检测装置在三个阶段之间进行状态转移的预设条件具体为：

当所述红外热释电传感器未检测到人时，所述人形检测装置将保持在阶段一；

当所述红外热释电传感器检测到人时，所述人形检测装置进入阶段二，进而开启红外摄像头，并使用第一分辨率进行检测；

当使用第一分辨率检测到人且ROI区域在整幅图的占比在预设比例以下时，所述人形检测装置将保持在阶段二；

当使用第一分辨率检测到人且ROI区域在整幅图的占比在预设比例以上时，或使用第一分辨率未检测到人时，所述人形检测装置进入阶段三，进而换用第二分辨率进行检测；

当使用第二分辨率检测到人且ROI区域在整幅图的占比在预设比例以下时，所述人形检测装置进入阶段二，进而换用第一分辨率进行检测；

当使用第二分辨率检测到人且ROI区域在整幅图的占比在预设比例以上时，所述人形检测装置将保持在阶段三；

当使用第二分辨率未检测到人时，所述人形检测装置进入阶段一，关闭所述红外摄像头。

优选的，所述根据ROI区域选择检测策略中的检测阶段，进而动态调整焦距和图像分辨率，并将调整后的ROI区域图像输入所述人形检测模型，具体包括：

将所述红外摄像头采集的图像转换为RGB图，并计算ROI区域在整幅图的占比；

提取ROI区域，并按照检测策略将提取的RGB图缩放至相应分辨率的大小；其中，若ROI区域在整幅图的占比在预设比例以下，则缩放为第一分辨率的大小；若ROI区域在整幅图的占比在预设比例以上，则缩放为第二分辨率的大小；

将缩放后的图像作去均值归一化处理后，输入所述人形检测模型进行人形检测。

优选的，所述将调整后的ROI区域图像输入所述人形检测模型之后，所述方法还包括：

根据ROI区域的大小和位置，对所述红外摄像头的焦距进行调整，并按照调整后的焦距继续进行下一帧图像的采集；

其中，当所述人形检测装置由阶段一进入阶段二时，所述红外摄像头处于第一焦距状态；当调至所述红外摄像头处于第二焦距状态时，所述人形检测装置进入阶段三；所述第一焦距大于所述第二焦距。

优选的，当所述红外摄像头当前采集的图像为第一帧图像时，对应ROI区域在整幅图的占比为1，此时将对应的RGB图缩放为第一分辨率的大小，所述人形检测装置仍保持在阶段二。

优选的，所述利用人形检测装置在待测空间范围内进行图像采集，具体为：

利用所述红外热释电传感器在待测空间范围内进行人形检测，当所述红外热释电传感器检测到人时，开启所述红外摄像头，进而利用所述红外摄像头在待测空间范围内进行图像采集。

优选的，所述根据ROI区域选择检测策略中的检测阶段之后，所述方法还包括：

根据所述人形检测装置当前所处的检测阶段，动态调整人形检测装置的系统运行速度和/或时钟频率；

其中，所述人形检测装置处于阶段二或阶段三时的系统运行速度和/或时钟频率，高于所述人形检测装置处于阶段一时对应的系统运行速度和/或时钟频率。

优选的，所述利用所述人形检测模型，结合多核并行算法和指令集加速对输入的图像进行快速卷积运算，进而提取到特征数据，具体为：

利用所述人形检测模型中的卷积神经网络结构，对输入的图像进行一系列卷积和池化操作，并将第一分辨率维度的特征反馈回第二分辨率维度的特征，最终输出两种分辨率维度的特征数据。

优选的，在进行卷积运算时，使用pthreadpool线程池技术以及Facebook快速卷积计算库的nnpack库函数，对卷积运算进行多核并行运算以及快速卷积运算。

优选的，所述第一分辨率的图像大小为192x144，所述第二分辨率的图像大小为384x288；则当输入所述人形检测模型的图像为第二分辨率时，经过卷积运算后得到的第一分辨率特征维度和第二分辨率特征维度分别为12x9x18和24x18x18，分别表示一幅图被划分为12x9个格子和24x18个格子；

其中，每个格子预测3个人形候选框，每个人形候选框为6个维度，包括4个维度的位置、1个维度的置信度和1个维度的类别概率，则最终输出两种分辨率维度的特征数据后，得到1620个人形候选框。

优选的，每个人形候选框具有各自的置信度和类别概率，则所述通过对所述多个人形候选框进行筛选融合，最终确定待测空间范围内的人形目标，具体包括：

根据置信度和类别概率，得到每个人形候选框的人形置信度，并将人形置信度低于第二预设阈值的人形候选框剔除；

将剩余的人形候选框按照人形置信度从高到低的顺序进行排序，并采取非极大值抑制算法计算两两之间的IOU系数；

若任两个人形候选框的IOU系数大于第三预设阈值，则将两个人形候选框中人形置信度较低的候选框剔除，最终得到筛选后的人形候选框以及对应的人形置信度。

第二方面，本发明提供了一种嵌入式实时人形检测装置，可用于实现上述第一方面所述的嵌入式实时人形检测方法，则所述人形检测装置包括红外热释电传感器、红外摄像头和处理模块，所述处理模块分别与所述红外热释电传感器和所述红外摄像头连接；

所述红外热释电传感器和所述红外摄像头用于在待测空间范围内进行人形检测，并将采集数据传送至所述处理模块；所述处理模块中预存有基于卷积神经网络的人形检测模型，以便通过所述人形检测模型对采集数据进行卷积运算，得到待测空间范围内的人形目标。

优选的，还包括与所述处理模块相连的wifi模块，所述wifi模块与Web数据库无线连接，以便将所述处理模块得到的检测结果数据传送至所述Web数据库，并通过所述Web数据库进行实时监测和数据访问。

优选的，所述处理模块具体为基于ARM Cortex-A53的A64微处理器。

与现有技术相比，本发明的有益效果是：

本发明基于卷积神经网络的深度学习方法进行人形检测模型的训练，对遮挡和背景有较好区分，检测精度高；针对硬件资源受限的嵌入式设备，进行多核并行与快速卷积算法，充分利用了多核处理器的优势，并动态调整模型分辨率，使得嵌入式系统具备实时人形检测的能力，能够满足人体检测模块小型化要求。同时在检测过程中还可配合红外摄像头的焦距变换，使得检测精度进一步提高，对于环境和人体姿态的适应性增强。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种人形检测模型的训练流程图；

图2为本发明实施例提供的一种嵌入式实时人形检测方法的流程图；

图3为本发明实施例提供的一种ROI区域的计算方法示意图；

图4为本发明实施例提供的一种人形检测中的检测策略转移图；

图5为本发明实施例提供的一种对采集图像进行处理的流程图；

图6为本发明实施例提供的一种人形候选框的筛选融合流程图；

图7为本发明实施例提供的一种人形检测的效果图；

图8为本发明实施例提供的人形检测模型中卷积神经网络的结构图；

图9为本发明实施例提供的一种嵌入式实时人形检测方法的完整流程图；

图10为本发明实施例提供的一种嵌入式实时人形检测装置的结构图。

【具体实施方式】

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在本发明的描述中，术语“内”、“外”、“纵向”、“横向”、“上”、“下”、“顶”、“底”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明而不是要求本发明必须以特定的方位构造和操作，因此不应当理解为对本发明的限制。

在本发明各实施例中，符号“/”表示同时具有两种功能的含义，而对于符号“A和/或B”则表明由该符号连接的前后对象之间的组合包括“A”、“B”、“A和B”三种情况。

此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。下面就参考附图和实施例结合来详细说明本发明。

实施例1：

本发明实施例提供了一种嵌入式实时人形检测方法，可应用于智能视频监控、车辆辅助驾驶、智能交通、智能机器人等领域的人形检测。在进行实时人形检测之前，需预先通过学习训练得到基于卷积神经网络的人形检测模型，并保存在人形检测装置中。其中，人形检测模型的训练过程具体可参考图1，包括以下步骤：

步骤101，从人体姿态数据集中筛选多个符合要求的人形样本，以生成包含多姿态、多视角、多尺度人形样本的人形数据集。

其中，所述人体姿态数据集中含有从多个包含人形的图片和/或视频中提取出的人形图像，具体可按照以下步骤进行操作：第一，遍历所述人体姿态数据集中的每一个人形，得到多个人形样本。第二，随机对所述多个人形样本中的一个或多个进行图像变换，得到更多数量的人形样本；其中，所述图像变换包括剪裁、平移、旋转、色彩变换、缩放和模糊处理中的一项或者多项，通过进行图像变换，一个人形样本又可分化成多个人形样本，从而可丰富训练图像的多样性，增加模型的鲁棒性。第三，根据遍历操作以及图像变换操作得到的各个人形样本，生成包含多姿态、多视角、多尺度人形样本的人形数据集；其中，对于人形像素过小的人形样本，和/或人形姿态倒立的人形样本，可采用从所述人形数据集中剔除的方法，从而减小模型误差。这里的人形像素过小具体是指，人形像素低于第一预设阈值，所述第一预设阈值可根据实际需求自行选择；一般来讲，当人形像素低于第一预设阈值时，对应的人形图像已经比较模糊，难以判断是否为人形，所以应该剔除。

步骤102，利用卷积神经网络算法，对所述人形数据集中各人形样本的图像特征进行深度学习，得到基于卷积神经网络的人形检测模型。

具体可按照以下步骤进行操作：第一，利用卷积神经网络算法，对所述人形数据集中各人形样本图像进行一系列卷积和池化操作，使得对于每个人形样本，分别得到第一分辨率和第二分辨率两种分辨率维度下的特征数据；其中，所述第二分辨率高于所述第一分辨率，因此，本实施中又以“高分辨率”来描述第二分辨率，以“低分辨率”来描述第一分辨率。第二，对每个人形样本，将两种分辨率维度下的特征数据相关联，进而根据每个人形样本两种分辨率维度下的特征数据建立人形检测模型。这是考虑到在实际检测时，待测图像中的人形大小存在差异，有的使用低分辨率效果更好，而有的则使用高分辨率效果更好，因此，在预先训练模型时对每个人形样本都采取高低两种分辨率的特征输出，实际检测时可按需进行分辨率选择，进而提高检测精度和速度。

其中，本发明实施例是以选择两种分辨率进行模型训练为例，相应地在实际检测时可动态在两种分辨率间进行调整，但并不用以限制本发明；在实际应用中，还可选择三种及三种以上不同的分辨率进行模型训练，则在实际检测时可动态在相应的三种及三种以上不同的分辨率间进行调整，在此不再赘述。

在上述模型训练中，针对难以检测受遮挡人体、难以适应颜色和轮廓外形变化、难以检测小目标、难以实时运行的问题，使用了多姿态、多视角、多尺度的人形数据集和基于卷积神经网络的深度学习算法进行人形模型的训练，由此得到的人形检测模型的检测精度高，对于环境和人体姿态的适应性强，即使是遮挡严重、复杂环境的场景下也能够进行检测。

通过步骤101和步骤102的预先训练得到人形检测模型后，进一步进行实际检测时，具体的人形检测方法可参考图2，包括：

步骤201，利用人形检测装置在待测空间范围内进行图像采集，并针对当前采集到的图像计算ROI区域。

在本发明实施例中，所述人形检测装置中设有红外热释电传感器、红外摄像头和处理模块，所述红外摄像头在待测空间范围内进行图像采集后，可将图像传送至所述处理模块，由所述处理模块进行感兴趣区域(Region of Interest，简写为ROI)的计算。这里的ROI区域可以认为是，从采集的整幅图中以方框、圆、椭圆、不规则多边形等方式勾勒出的一个包含图中所有人形在内的区域，是进行人形检测的重点区域。

步骤202，根据ROI区域选择检测策略中的检测阶段，进而动态调整图像分辨率，并将调整后的ROI区域图像输入所述人形检测模型。

为了保障检测精度，同时提高检测速度、节省系统功耗，本发明实施例中针对所述人形检测装置制定一套检测策略，所述检测策略包括至少两个检测阶段，所述人形检测装置可根据预设的状态转移条件在所述至少两个检测阶段间进行动态转移。其中，不同检测阶段对应的图像分辨率不同，进而带来的检测速度和系统功耗也不同，且各阶段间的转移条件与ROI区域有关，因此可根据ROI区域来确定人形检测装置应属的检测阶段，动态调整图像分辨率，在保障检测精度的前提下，通过降低分辨率可提高检测速度。

步骤203，利用所述人形检测模型，结合多核并行算法和快速卷积算法对输入的图像进行卷积运算，进而提取到特征数据。

在该步骤中，利用所述人形检测模型中的卷积神经网络结构，对输入的待检测图像进行一系列卷积和池化操作，并将低分辨率维度的特征反馈回高分辨率维度的特征，则无论输入的图像是高分辨率还是低分辨率，最终都可输出两种分辨率维度的特征数据，进而提高检测精度。

步骤204，根据特征数据得到多个人形候选框，通过对所述多个人形候选框进行筛选融合，最终确定待测空间范围内的人形目标。

对于步骤203中卷积神经网络的输出结果，可分成多个人形候选框；其中，所述人形候选框的个数与输出的两种分辨率大小有关。先对得到的多个人形候选框进行阈值分割，通过筛选剔除掉一部分人形候选框，再对保留下的人形候选框使用非极大值抑制算法(Non-Maximum Suppression，简写为NMS)进行融合，从而得到更准确的人形目标外接矩形。

本发明提供的上述人形检测方法中，基于卷积神经网络的深度学习方法进行人形检测模型的训练，对遮挡和背景有较好区分，检测精度高；针对硬件资源受限的嵌入式设备，进行多核并行与快速卷积算法，充分利用了多核处理器的优势，并动态调整模型分辨率和摄像头焦距，使得嵌入式系统具备实时人形检测的能力，能够实现图像采集和人形检测一体化的小型嵌入式要求。

其中，所述人形检测装置处于实时检测状态，则所述红外摄像头会不断进行图像采集，随着时间的推移可得到多帧图像，在步骤201中，针对当前采集到的图像计算ROI区域的过程可参考图3：

首先，将当前帧图像与上一帧图像做分块差分运算，通过差分前景检测方法得到当前帧图像的动态前景区域。然后，对上一帧图像的人形目标位置检测结果提取最小外接矩形，作为当前帧图像的静态前景区域。最后，取所述运动前景区域与所述静态前景区域的外接矩形，作为当前帧图像的ROI区域。其中，这里结合上一帧图像的检测结果来计算是考虑到，从上一帧到当前帧的过程中，人形可能是移动的也可能是静止的，动态前景区域可将移动的人形包括在内，而静态前景区域则可将静止的人形包括在内，从而可使最终得到的ROI区域更为全面和准确。特别地，如果当前帧图像为采集的第一帧图像，此时没有对应的“上一帧”，则当前第一帧图像的ROI区域为整幅图。

在本发明实施例中，所述检测策略包括阶段一、阶段二和阶段三总共三个检测阶段。如图4所示，在阶段一，所述红外热释电传感器处于开启状态，以便通过人体发射的红外线进行人形检测，而所述红外摄像头处于关闭状态，使得所述人形检测装置保持在低功耗状态；在阶段二，除所述红外热释电传感器处于开启状态外，所述红外摄像头也处于开启状态，以便进行图像采集，且采集的图像分辨率被调整至第一分辨率，以便使用低分辨率的图像进行人形检测，即使用低分辨率模型检测；在阶段三，除所述红外热释电传感器处于开启状态外，所述红外摄像头也处于开启状态，以便进行图像采集，且采集的图像分辨率被调整至第二分辨率，以便使用高分辨率的图像进行人形检测，即使用高分辨率模型检测。由此可知，阶段一的功耗最低，阶段二的分辨率低于阶段三，但检测速度大于阶段三。

进一步参考图4，假设所述人形检测装置初始处于阶段一，则所述人形检测装置在三个阶段之间进行状态转移的预设条件具体为：

条件1，当在所述待测空间范围内，所述红外热释电传感器未检测到人时，可说明待测空间范围内无人，则所述人形检测装置将保持在阶段一，即保持在低功耗状态；

条件2，当在所述待测空间范围内，所述红外热释电传感器检测到人时，所述人形检测装置进入阶段二，即开启所述红外摄像头，并使用第一分辨率(低分辨率)进行图像检测；其中，当所述人形检测装置由阶段一进入阶段二时，所述红外摄像头处于第一焦距状态；

条件3，当在所述待测空间范围内，使用低分辨率检测到人且ROI区域在整幅图的占比在预设比例以下时，所述红外摄像头会根据ROI区域不断调整焦距，所述人形检测装置将保持在阶段二；

条件4，当在所述待测空间范围内，使用低分辨率检测到人且ROI区域在整幅图的占比在预设比例以上时，或使用低分辨率未检测到人时，所述红外摄像头处于第二焦距状态，所述人形检测装置进入阶段三，即换用第二分辨率(高分辨率)进行图像检测；

条件5，当在所述待测空间范围内，使用高分辨率检测到人且ROI区域在整幅图的占比在预设比例以下时，所述红外摄像头会根据ROI区域调整焦距，所述人形检测装置进入阶段二，换用第一分辨率进行检测；

条件6，当在所述待测空间范围内，使用高分辨率检测到人且ROI区域在整幅图的占比在预设比例以上时，所述人形检测装置将保持在阶段三；

条件7，当在所述待测空间范围内，使用高分辨率未检测到人时，所述人形检测装置进入阶段一，即关闭所述红外摄像头。

其中，所述预设比例可根据实际需求灵活选择，一般在50％-80％之间，比如可选取为60％。所述第一焦距大于所述第二焦距，因此，本实施例中又采用“近焦距”来描述第二焦距，采用“远焦距”来描述第一焦距。

结合所述检测策略以及各检测阶段间的状态转移条件，则在所述步骤201中，所述利用人形检测装置在待测空间范围内进行图像采集，具体为：首先利用所述红外热释电传感器在待测空间范围内进行人形检测，当所述红外热释电传感器检测到人时，则开启所述红外摄像头，进而利用所述红外摄像头在待测空间范围内进行图像采集。

结合所述检测策略以及各检测阶段间的状态转移条件，则所述步骤202具体可参考图5，包括以下步骤：

步骤2021，将所述红外摄像头采集的图像转换为RGB图，并计算ROI区域在整幅图的占比。其中，所述红外摄像头拍摄的图像为YUV420图像，需进一步转换为RGB图。

步骤2022，提取ROI区域，并按照检测策略将提取的RGB图缩放至相应分辨率的大小。

首先按照步骤201中计算得到的ROI的大小，对RGB图进行图片裁剪，以达到在相同图像分辨率的情况下，提高ROI的分辨率，进而提高检测精度。其中，若ROI区域在整幅图的占比在预设比例以下，则将裁剪后的RGB图缩放为第一分辨率的大小；若ROI区域在整幅图的占比在预设比例以上，则将裁剪后的RGB图缩放为第二分辨率的大小。特别地，当所述红外摄像头当前采集的图像为第一帧图像时，ROI区域在整幅图的占比为1，则将对应的RGB图直接先缩放为第一分辨率的大小，所述人形检测装置仍保持在阶段二。

步骤2023，将缩放后的图像作去均值归一化处理后，输入所述人形检测模型进行人形检测。

进一步地，在所述步骤2023后，还可根据ROI区域的大小以及位置，动态自适应调整所述红外摄像头的焦距，并按照调整后的焦距继续进行下一帧图像的采集，从而进一步提高小目标的分辨率，进而提高检测精度。其中，当所述人形检测装置由阶段一进入阶段二时，即刚开启所述红外摄像头时，将所述红外摄像头的焦距拉长，使所述红外摄像头处于远焦距状态，此时将图像分辨率调整至第一分辨率，使用低分辨率模型进行检测；当行人靠近时，可逐渐拉短焦距，扩大视野；当焦距达到最短(第二焦距)时，即处于近焦距状态时，图像分辨率调整为第二分辨率，使用高分辨率模型进行检测。

在上面的步骤中，采取分策略改变模型分辨率以及红外摄像头自动变焦的方法，提高了装置的精度以及检测速度。其中，通过在不同阶段间进行灵活转移切换，可在保障检测精度的同时，尽量提高检测速度、降低功耗；通过焦距的调整，进一步可使得到的图像更加清晰，提高检测精度。

进一步地，为降低所述人形检测装置的整体功耗，在所述根据ROI区域选择检测策略中的检测阶段之后，所述方法还包括：

根据所述人形检测装置当前所处的检测阶段，动态调整人形检测装置的系统运行速度和/或时钟频率；其中，所述人形检测装置处于阶段二或阶段三时的系统运行速度和/或时钟频率，高于所述人形检测装置处于阶段一时的系统运行速度和/或时钟频率。通过动态调整系统运行速度和/或时钟频率，可在保障所述人形检测装置响应速度的前提下，降低装置的功耗，延长装置的使用寿命。

将图像输入所述人形检测模型后，在所述步骤203中，利用人形检测模型对输入的图像进行一系列的卷积和池化操作，最后输出高低两种分辨率的特征。其中，在进行计算时，对待检测图像利用多核并行算法以及指令集的加速，采取快速卷积算法，基于Fouriertransform和Winograd transform算法，从而降低卷积过程的时间复杂度。由于卷积计算是相互独立的，因此可使用pthreadpool线程池技术以及Facebook快速卷积计算库的nnpack库函数，对卷积运算进行多核并行运算以及快速卷积运算。另外，嵌入式系统可使用基于ARM Cortex-A53的微处理器，支持NEON指令集，可进行单指令多数据流(Singleinstruction,multiple data，简写为SIMD)的单核并行运算，从而可进一步加速计算。

进一步地，在所述步骤204中，得到的每个人形候选框都具有各自的置信度和类别概率，则参考图6，所述步骤204具体又包括：

步骤2041，根据置信度和类别概率，得到每个人形候选框的人形置信度，并将人形置信度低于第二预设阈值的人形候选框剔除。

其中，人形置信度的具体计算方法为，候选框的置信度乘以类别概率；如果人形置信度过低，则可认为对应的人形候选框中包含人形的可能性较低，则可将对应的人形候选框剔除。这里的人形置信度过低是指人形置信度低于第二预设阈值，所述第二预设阈值可根据实际需求进行选择，在此不做限定。

步骤2042，将剩余的人形候选框按照人形置信度从高到低的顺序进行排序，并采取非极大值抑制算法计算两两之间的IOU系数。其中，所述IOU系数是指交并比(Intersection overUnion)，具体计算方法为两个人形候选框相交的面积除以两个人形候选框的面积总和。

步骤2043，若任两个人形候选框的IOU系数大于第三预设阈值，则将两个人形候选框中人形置信度较低的候选框剔除，最终得到筛选后的人形候选框以及对应的人形置信度。

计算IOU系数完成后，如果任两个人形候选框的IOU系数大于第三预设阈值，则可认为该两个人形候选框对应的人形为同一个人形目标，因此为避免重复计算人形目标，只需保留两个人形候选框中的一个即可。所述第三预设阈值可根据实际需求或模拟计算进行选择，在此不做限定。通过不断去重，最终可得到筛选后的人形候选框以及对应的人形置信度；检测效果如图7所示，外部大的矩形框表示ROI区域，内部多个小的矩形框则表示最终保留的人形候选框，每个人形候选框代表一个人形，则人形候选框的个数即可表示人形的个数。经过网上随机选取的视频和实际场景下拍摄的图像进行检测发现，对于多视角、多姿态的场景，本发明实施例的人形检测模块均可以准确检测出人形目标，即使图像存在模糊、轻微旋转以及背景复杂的情况下，也可以有效检测人体头肩目标。

在一个具体的实施例中，假设所述第一分辨率(低分辨率)的图像大小为192x144，所述第二分辨率(高分辨率)的图像大小为384x288。则在步骤202中，将裁剪后的图像缩放为384x288的大小或192x144的大小，然后输入所述人形检测模型。

结合图8的卷积神经网络结构图，当输入所述人形检测模型的图像为高分辨率384x288时，经过卷积运算后得到的高分辨率特征维度(即图中20层输出特征维度)为24x18x18，即一幅图被划分为24x18个格子，每个格子预测3个人形候选框，共得到24x18x3＝1296个人形候选框，每个人形候选框为6个维度，其中包括4个维度的位置、1个维度的置信度和1个维度的类别概率。低分辨率特征维度(即图中21层输出特征维度)12x9x18，即一幅图被划分为12x9个格子，每个格子预测3个人形候选框，共得到12x9x3＝324个人形候选框，每个人形候选框为6个维度，包括4个维度的位置、1个维度的置信度和1个维度的类别概率。因此，经过所述人形检测模型的卷积运算处理后，最终输出两种分辨率维度的特征数据，共可得到1296+324＝1620个人形候选框。其中，在图8中，Conv 3x3x16表示卷积核大小为3x3，卷积核个数为16，_S1和_S2均为步长，_S1表示步长为1，_S2表示步长为2；Max为最大化弛化操作。

综上所述，本发明实施例提供的完整人形检测方法可参照图9：所述人形检测装置开始运行后，首先读取预先训练好的人形检测模型，随后开启所述红外热释电传感器，保持在低功耗状态；如果所述红外热释电传感器未检测到人，则继续保持在低功耗状态，如果所述红外热释电传感器检测到人，则开启所述红外摄像头，进入阶段二进行图像采集。当采集到新的图像帧后，则计算ROI区域，并根据ROI区域的大小选择检测阶段，进而动态调整图像分辨率，并将调整后的图像输入所述人形检测模型，计算人形目标。同时所述红外摄像头会根据ROI中人形的大小和位置来调整焦距，进而使图像中的人形更加清晰，由于所述人形检测装置是处于实时检测状态，因此调整焦距后，所述红外摄像头按照调整后的焦距继续进行图像采集，获取下一帧图像并继续计算ROI区域，以此类推，不断重复循环，进行图像的检测和人形目标的计算。

本发明提供的上述人形检测方法中，基于卷积神经网络的深度学习方法进行人形检测模型的训练，采取整个人进行训练，即使是遮挡严重、复杂环境的场景下也能够进行检测，检测精度高；针对硬件资源受限的嵌入式设备，进行多核并行与快速卷积算法，充分利用了多核处理器的优势、处理器的并行计算能力以及处理器的缓存，并动态调整模型分辨率，使得嵌入式系统具备实时人形检测的能力，能够实现图像采集和人形检测一体化的小型嵌入式要求。同时，在检测过程中配合红外摄像头的焦距变换，使得检测精度进一步提高，对于环境和人体姿态的适应性增强。

实施例2：

在上述实施例1的基础上，本发明实施例还提供了一种嵌入式实时人形检测装置，可用于完成实施例1中的人形检测方法，应用于智能视频监控、车辆辅助驾驶、智能交通、智能机器人等领域的人形检测。

如图10所示，本发明实施例提供的人形检测装置包括红外热释电传感器、红外摄像头和处理模块，所述处理模块分别与所述红外热释电传感器和所述红外摄像头连接。所述红外热释电传感器和所述红外摄像头用于在待测空间范围内进行人形检测，并将采集数据传送至所述处理模块；所述处理模块中预存有基于卷积神经网络的人形检测模型，以便通过所述人形检测模型对采集数据进行卷积运算，得到待测空间范围内的人形目标；其中，人形检测模型的具体训练过程以及实际人形目标的具体检测过程可参考实施例1，在此不再赘述。

其中，所述处理模块作为核心计算模块，具体可采用基于ARM Cortex-A53的A64微处理器，其最大工作频率频率为1.15GHz，内存为1G；在进行卷积计算时，所述A64微处理器支持NEON指令集，可进行单指令多数据流的单核并行运算，从而进一步加速计算。所述红外热释电传感器具体是通过检测人体发射的红外线来进行人形检测；所述红外摄像头可通过广角镜头进行图像采集，并将采集的图像输入至所述处理模块中的人形检测模型中，从而进行人形检测。

通过本发明提供的人形检测装置进行人形检测时，对于单幅图像，在图像分辨率相同的情况下，无论图像中的待检测目标有多少个，每一张图像的检测时间基本保持不变，CPU利用率在65％左右，满足实时性的要求，检测精度在90％以上。例如，对于图像分辨率为384x288的高分辨率图像，单幅图人形检测的耗时为500ms左右；对于图像分辨率为192x144的低分辨率图像，单幅图人形检测的耗时为150ms左右。

进一步参考图10，为便于进行人机交互，所述人形检测装置还可包括与所述处理模块相连的wifi模块，所述wifi模块与Web数据库无线连接，以便将所述处理模块得到的检测结果数据传送至所述Web数据库，并且用户也可通过所述Web数据库进行实时监测和数据访问。同时，所述wifi模块还可与用户终端(比如电脑、手机、平板等)连接，使得用户可通过手机终端等来实时检测和控制所述人形检测装置，方便进行人机交互。

利用所述处理模块得到的人形检测结果，还可实现多方面的应用。例如，在办公室或会议室等场景中，常常出现人走了灯和空调还开着的情况，造成能源的浪费；在有些场景中会有光控、声控、移动检测等智能辅助设备，但均使用简单的延时处理达到自动开关的目的，但往往存在人还在灯却关了的情况，给使用者造成不便。鉴于以上考虑，如果可以根据室内有无人来自动控制电器设备的开关，则可带来很大的方便。

因此，进一步结合图10，所述人形检测装置还可包括控制模块，所述控制模块分别与所述处理模块和室内的一个或多个电器设备连接，则所述处理模块可将人形检测结果传送给所述控制模块，所述控制模块根据人形检测结果，控制室内一个或多个电器设备的开关，所述电器设备具体可以是室内的照明电灯、空调等。其中，当所述处理模块的检测结果为室内无人时，则所述控制模块可控制对应的电器设备关闭；当检测结果为室内有人时，则所述控制模块可控制对应的电器设备打开，进而可自动满足室内人员需求，达到人在灯亮空调开，人走灯灭空调关的人性化的设计。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种嵌入式实时人形检测方法，其特征在于，预先通过训练得到基于卷积神经网络的人形检测模型，并保存在人形检测装置中；则人形检测方法包括：

其中，所述检测策略包括至少三个检测阶段，所述人形检测装置根据预设的状态转移条件在所述至少三个检测阶段间进行动态转移；

所述人形检测装置初始处于阶段一，则在所述待测空间范围内，所述人形检测装置在三个阶段之间进行状态转移的预设条件具体为：

当红外热释电传感器未检测到人时，所述人形检测装置将保持在阶段一；当所述红外热释电传感器检测到人时，所述人形检测装置进入阶段二，进而开启红外摄像头，并使用第一分辨率进行检测；

当使用第一分辨率检测到人且ROI区域在整幅图的占比在预设比例以下时，所述人形检测装置将保持在阶段二；当使用第一分辨率检测到人且ROI区域在整幅图的占比在预设比例以上时，或使用第一分辨率未检测到人时，所述人形检测装置进入阶段三，进而换用第二分辨率进行检测；

当使用第二分辨率检测到人且ROI区域在整幅图的占比在预设比例以下时，所述人形检测装置进入阶段二，进而换用第一分辨率进行检测；当使用第二分辨率检测到人且ROI区域在整幅图的占比在预设比例以上时，所述人形检测装置将保持在阶段三；当使用第二分辨率未检测到人时，所述人形检测装置进入阶段一，关闭所述红外摄像头。

2.根据权利要求1所述的嵌入式实时人形检测方法，其特征在于，所述预先通过训练得到基于卷积神经网络的人形检测模型具体为：

3.根据权利要求2所述的嵌入式实时人形检测方法，其特征在于，所述从人体姿态数据集中筛选多个符合要求的人形样本，以生成包含多姿态、多视角、多尺度人形样本的人形数据集，具体包括：

4.根据权利要求2所述的嵌入式实时人形检测方法，其特征在于，所述利用卷积神经网络算法，对所述人形数据集中各人形样本的图像特征进行深度学习，得到基于卷积神经网络的人形检测模型，具体包括：

其中，所述第二分辨率高于所述第一分辨率。

5.根据权利要求1所述的嵌入式实时人形检测方法，其特征在于，所述针对当前采集到的图像计算ROI区域具体为：

6.根据权利要求1所述的嵌入式实时人形检测方法，其特征在于，所述人形检测装置包括红外热释电传感器和红外摄像头，所述检测策略包括阶段一、阶段二和阶段三总共三个检测阶段；

其中，所述第二分辨率高于所述第一分辨率。

7.根据权利要求1所述的嵌入式实时人形检测方法，其特征在于，所述将调整后的ROI区域图像输入所述人形检测模型之后，所述方法还包括：

8.根据权利要求1所述的嵌入式实时人形检测方法，其特征在于，当所述红外摄像头当前采集的图像为第一帧图像时，对应ROI区域在整幅图的占比为1，此时将对应的RGB图缩放为第一分辨率的大小，所述人形检测装置仍保持在阶段二。

9.根据权利要求1所述的嵌入式实时人形检测方法，其特征在于，所述利用人形检测装置在待测空间范围内进行图像采集，具体为：

10.根据权利要求6-9任一所述的嵌入式实时人形检测方法，其特征在于，所述根据ROI区域选择检测策略中的检测阶段之后，所述方法还包括：

11.根据权利要求4所述的嵌入式实时人形检测方法，其特征在于，所述利用所述人形检测模型，结合多核并行算法和指令集加速对输入的图像进行快速卷积运算，进而提取到特征数据，具体为：

12.根据权利要求11所述的嵌入式实时人形检测方法，其特征在于，在进行卷积运算时，使用pthreadpool线程池技术以及Facebook快速卷积计算库的nnpack库函数，对卷积运算进行多核并行运算以及快速卷积运算。

13.根据权利要求11所述的嵌入式实时人形检测方法，其特征在于，所述第一分辨率的图像大小为192x144，所述第二分辨率的图像大小为384x288；则当输入所述人形检测模型的图像为第二分辨率时，经过卷积运算后得到的第一分辨率特征维度和第二分辨率特征维度分别为12x9x18和24x18x18，分别表示一幅图被划分为12x9个格子和24x18个格子；

14.根据权利要求1所述的嵌入式实时人形检测方法，其特征在于，每个人形候选框具有各自的置信度和类别概率，则所述通过对所述多个人形候选框进行筛选融合，最终确定待测空间范围内的人形目标，具体包括：

15.一种嵌入式实时人形检测装置，其特征在于，包括红外热释电传感器、红外摄像头和处理模块，所述处理模块分别与所述红外热释电传感器和所述红外摄像头连接；

所述红外热释电传感器和所述红外摄像头用于在待测空间范围内进行人形检测，并将采集数据传送至所述处理模块；所述处理模块利用人形检测装置在待测空间范围内进行图像采集，并针对当前采集到的图像计算ROI区域；所述处理模块的检测策略包括至少三个检测阶段，所述人形检测装置根据预设的状态转移条件在所述至少三个检测阶段间进行动态转移；

当所述红外热释电传感器未检测到人时，所述人形检测装置将保持在阶段一；当所述红外热释电传感器检测到人时，所述人形检测装置进入阶段二，进而开启红外摄像头，并使用第一分辨率进行检测；

16.根据权利要求15所述的嵌入式实时人形检测装置，其特征在于，还包括与所述处理模块相连的wifi模块，所述wifi模块与Web数据库无线连接，以便将所述处理模块得到的检测结果数据传送至所述Web数据库，并通过所述Web数据库进行实时监测和数据访问。

17.根据权利要求15所述的嵌入式实时人形检测装置，其特征在于，所述处理模块具体为基于ARM Cortex-A53的A64微处理器。