CN110232353B

CN110232353B - 一种获取场景人员深度位置的方法和装置

Info

Publication number: CN110232353B
Application number: CN201910507604.8A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Chengdu Century Photosynthesis Technology Co ltd
Current assignee: Chengdu Century Photosynthesis Technology Co ltd
Priority date: 2019-06-12
Filing date: 2019-06-12
Publication date: 2023-06-06
Anticipated expiration: 2039-06-12
Also published as: CN110232353A

Abstract

本发明提供了一种获取场景人员深度位置的方法和装置，其中，所述方法包括：获取场景图像；确定出所述场景图像中场景人员的人头区域，并得到所述人头区域信息；根据得到的所述人头区域信息，得到所述人头区域对应场景人员的深度位置信息。通过本发明实施例提供的获取场景人员深度位置的方法和装置，可以得到人头区域对应场景人员的深度位置信息，从而可以基于深度位置信息对场景中人体位置进行确定，准确性更高。

Description

一种获取场景人员深度位置的方法和装置

技术领域

本发明涉及图像处理技术领域，具体而言，涉及一种获取场景人员深度位置的方法和装置。

背景技术

目前，人形识别技术在智能安防系统具有广泛的前景和潜力，在计算机视觉中是一个极其具有吸引力及挑战性的问题。人体识别技术涉及模式识别，图像处理等多门学科。它可以广泛应用于多个领域，如：运动捕捉、人机交互、监控和安全。特别是在视频监控方面可广泛应用于银行、公安、教育和公共场所等区域内。

现阶段的目标识别研究一般是只在二维平面上，而仅有二维位置信息在某些场景下很难确定人体所在的准确位置。

发明内容

为解决上述问题，本发明实施例的目的在于提供一种获取场景人员深度位置的方法和装置。

第一方面，本发明实施例提供了一种获取场景人员深度位置的方法，包括：

获取场景图像；

确定出所述场景图像中场景人员的人头区域，并得到所述人头区域信息；

根据得到的所述人头区域信息，得到所述人头区域对应场景人员的深度位置信息。

第二方面，本发明实施例还提供了一种获取场景人员深度位置的装置，包括：

获取模块，用于获取场景图像；

处理模块，用于确定出所述场景图像中场景人员的人头区域，并得到所述人头区域信息；

计算模块，用于根据得到的所述人头区域信息，得到所述人头区域对应场景人员的深度位置信息。

本发明实施例上述第一方面至第二方面提供的方案中，通过对场景图像进行处理，得到场景图像中场景人员的人头区域和人头区域信息，并根据人头区域信息，得到人头区域对应场景人员的深度位置信息，与相关技术中只能得到场景中人体的二维位置信息相比，可以得到人头区域对应场景人员的深度位置信息，从而可以基于深度位置信息对场景中人体位置进行确定，准确性更高。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例1所提供的一种获取场景人员深度位置的方法的流程图；

图2示出了本发明实施例2所提供的一种获取场景人员深度位置的装置的结构示意图。

具体实施方式

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

人形识别技术在智能安防系统具有广泛的前景和潜力，在计算机视觉中是一个极其具有吸引力及挑战性的问题。人体识别技术涉及模式识别，图像处理等多门学科。它可以广泛应用于多个领域，如：运动捕捉、人机交互、监控和安全。特别是在视频监控方面可广泛应用于银行、公安、教育和公共场所等区域内，现阶段的目标识别研究一般是只在二维平面上，而仅有二维信息在某些场景下很难确定物体准确的位置，现阶段关于获取目标空间位置信息的相关研究一般是基于深度摄像头或者多目摄像头进行立体匹配。因此，提供一种高精度、低成本、快速地从二维图像定位测量和分析目标物体空间位置信息的技术方案是很有必要的。

现有人形识别系统可根据视频流的来源和处理的方式大致分为“单目摄像头+传统图像处理”，“单目摄像头+深度学习”，“深度摄像头+传统图像处理”和“深度摄像头+深度学习”四种模式。相较于深度摄像头，单目摄像头的优点在于无需额外的相机校准，单目摄像头市场比较成熟，各种规格的设备成本较低，不过单目摄像头不能获取场景的深度信息，某些应用可能会受到限制。而相较于传统图像处理如梯度直方图(Histogram ofGradient，HoG)，基于深度学习的方法的优点在于泛化性比较好，不过缺点在于算法实时性不高，需要额外的大数据集进行模型的训练，前期工作比较耗时。

基于此，本实施例提出一种获取场景人员深度位置的方法和装置，通过对场景图像进行处理，得到场景图像中场景人员的人头区域和人头区域信息，并根据人头区域信息，得到人头区域对应场景人员的深度位置信息，从而可以基于深度位置信息对场景中人体位置进行确定，准确性更高。

实施例1

本实施例提出的获取场景人员深度位置的方法的执行主体是服务器。

所述服务器，可以是现有的任何能够对图像进行处理，根据图像的处理结果得到人头区域对应场景人员的深度位置信息的计算设备，这里不再一一赘述。

参见图1所示的获取场景人员深度位置的方法的流程图，本实施例提出一种获取场景人员深度位置的方法，包括以下具体步骤：

步骤100、获取场景图像。

在上述步骤100中，服务器可以通过与服务器自身连接的摄像头获取场景图像。

所述场景，是指办公区域、图书馆、咖啡厅等各种公共场所。

所述摄像头，安装在办公区域、图书馆、咖啡厅等各种公共场所中，用于采集不同场景的图像。

各所述摄像头，分别携带有摄像头自身的标识。

所述摄像头在采集到场景图像后，会把自身的摄像头的标识添加到采集的场景图像中，然后将添加摄像头的标识的场景图像发送到服务器。

步骤102、确定出所述场景图像中场景人员的人头区域，并得到所述人头区域信息。

所述人头区域，就是场景图像中场景人员的头部画面区域。

为了确定出所述场景图像中场景人员的人头区域，上述步骤102可以执行以下步骤(1)至步骤(2)：

(1)对所述场景图像进行预处理；

(2)从进行完预处理的场景图像中确定出所述场景图像中场景人员的人头区域，并得到所述人头区域信息。

在上述步骤(1)中，图像预处理步骤包括但不限于：压缩(裁剪)、转换色彩空间、以及降噪。

具体地，上述步骤(2)可以执行以下步骤(21)至步骤(24)：

(21)利用卷积神经网络对所述场景图像进行处理，得到所述场景人员的候选人头区域和所述候选人头区域的人头区域信息，所述人头区域信息，包括：置信度；

(22)对所述场景图像进行运动检测，得到所述场景图像的运动遮罩图像；

(23)将运动遮罩图像添加至以第一频率采集的第一图像集合和以第二频率采集的第二图像集合中；其中，所述第一频率高于第二频率；将第一图像集合中的图像和第二图像集合中的图像进行融合，得到具有长短时记忆特征的运动遮罩图像，所述具有长短时记忆特征的运动遮罩图像设置有运动区域；

(24)当所述候选人头区域的面积在区域面积范围内且置信度大于置信度阈值时，若具有长短时记忆特征的运动遮罩图像中运动区域与所述候选人头区域有重复区域且所述重复区域的面积的面积比例大于面积比例阈值时，将所述候选人头区域确定为人头区域，并得到所述人头区域信息。

在上述步骤(21)中，所述人头区域信息，包括：所述人头区域的中心坐标、所述人头区域的面积和所述人头区域的置信度。

通过深度卷积神经网络对进行完预处理的场景图像进行处理的过程为现有技术，本实施例中不再赘述。

这里，服务器可以将进行完预处理的场景图像送入已经训练好的深度卷积神经网络模型来获取到当前场景区域中场景人员的头部定位检测框(即人头区域)以及这些检测框的分类得分(即人头区域的置信度)，并得到所述人头区域的中心坐标。

所述人头区域的中心坐标，包括：人头区域的中心横坐标和人头区域的中心纵坐标。

卷积神经网络仿造生物的视知觉机制构建，其隐含层内的卷积核参数共享和层间连接的稀疏性使得卷积神经网络能够以较小的计算量对数据进行特征提取。卷积神经网络能够检测出场景中所有的可能目标。

卷积神经网络的优势在于泛化性能好，能够检测出场景中所有的可能目标，缺点在于会产生较多的误检测，所以需要执行后续步骤(22)至步骤(24)的过程对候选人头区域进行检测，确定出真正的人头区域。

在上述步骤(22)中，对所述场景图像进行运动检测的过程为现有技术，这里不再一一赘述。

在上述步骤(23)中，所述第一人头图像集合和所述第二人头图像集合分别存储在服务器中。

在一个实施方式中，第一频率可以是任何大于1的频率。第二频率可以是0到1之间的任意频率。

融合图像的过程为采用MoG算法的现有技术，本实施例中不再赘述。

在上述步骤(24)中，所述区域面积范围就是[a，b]，预先存储在所述服务器中。

所述置信度阈值，预先存储在所述服务器中。

场景区域中的摄像头的位置固定，场景纵深并不是很大，所以在场景区域中的检测框大小其实是只在一定的范围内变动的，使用卷积神经网络可以过滤掉那些肯定不是目标的特别小或者特别大的物体，服务器通过对卷积神经网络中检测场景区域时使用的最大和最小的检测框，来确定这两个相应的阈值然后进行大小滤波。然后，服务器使用了前景提取算法即高斯混合模型(Mixture of Gaussians，MoG)算法中的背景减除器，对以第一频率采集的第一人头图像集合和以第二频率采集的第二人头图像集合中的图像进行融合，得到具有候选人头区域的融合检测图像。

步骤104、根据得到的所述人头区域信息，得到所述人头区域对应场景人员的深度位置信息。

为了得到所述人头区域对应场景人员的深度位置信息，上述步骤104可以执行以下步骤(1)至步骤(3)：

(1)获取所述场景图像携带的拍摄所述场景图像的摄像头的标识、补偿系数以及所述人头区域的中心坐标和面积；

(2)查询出与所述摄像头的标识对应的最大深度值；

(3)计算所述区域面积范围中最值的差值；

(4)根据所述人头区域的面积、所述区域面积范围中最值的差值、最大深度值、以及补偿系数，对所述人头区域对应场景人员的深度坐标进行计算，并将所述人头区域的中心坐标和计算得到的深度坐标确定为所述人头区域对应场景人员的深度位置信息。

在上述步骤(1)中，所述补偿系数预先设置在服务器中。

从获取到的场景图像中就可以得到拍摄所述场景图像的摄像头的标识。

在上述步骤(2)中，服务器中预先存储有摄像头的标识与最大深度值的对应关系，所以，根据获取到的摄像头的标识在摄像头的标识与最大深度值的对应关系中进行遍历，就可以查询出与所述摄像头的标识对应的最大深度值。

在上述步骤(3)中，所述区域面积范围中最值的差值＝所述区域面积范围的最大值-所述区域面积范围的最小值。

当所述区域面积范围是[a，b]时，所述区域面积范围中最值的差值＝b-a。

在上述步骤(4)中，可以通过以下公式对所述人头区域对应场景人员的深度坐标进行计算：

其中，Z_i表示所述人头区域对应场景人员的深度坐标；A_i表示所述人头区域的面积；ΔA表示所述区域面积范围中最值的差值；λ表示补偿系数；Z_max表示最大深度值。

综上所述，本实施例提出的一种智能设备控制方法，通过获取到的场景区域图像；从场景区域图像中确定出人员所在的场景子区域后，将人员所在的场景子区域的智能设备打开，与相关技术中大多数智能设备也仅是可以通过手机屏幕的触摸式交互来进行远程控制相比，无需人员对智能设备的开闭进行控制，就可以将人员所在的场景子区域的智能设备自动打开，操作简单方便。

实施例2

本实施例提出一种获取场景人员深度位置的装置，用于执行上述实施例1提出的一种获取场景人员深度位置的方法。

参见图2所示的获取场景人员深度位置的装置的结构示意图，本实施例提出的一种获取场景人员深度位置的装置，包括：

获取模块200，用于获取场景图像；

处理模块202，用于确定出所述场景图像中场景人员的人头区域，并得到所述人头区域信息；

计算模块204，用于根据得到的所述人头区域信息，得到所述人头区域对应场景人员的深度位置信息。

所述处理模块202，具体用于：

对所述场景图像进行预处理；

从进行完预处理的场景图像中确定出所述场景图像中场景人员的人头区域，并得到所述人头区域信息。

所述人头区域信息，包括：所述人头区域的面积和所述人头区域的置信度；

所述处理模块202，用于从进行完预处理的场景图像中确定出所述场景图像中场景人员的人头区域，并得到所述人头区域信息，包括：

利用卷积神经网络对所述场景图像进行处理，得到所述场景人员的候选人头区域和所述候选人头区域的人头区域信息，所述人头区域信息，包括：置信度；

对所述场景图像进行运动检测，得到所述场景图像的运动遮罩图像；

将运动遮罩图像添加至以第一频率采集的第一图像集合和以第二频率采集的第二图像集合中；其中，所述第一频率高于第二频率；将第一图像集合中的图像和第二图像集合中的图像进行融合，得到具有长短时记忆特征的运动遮罩图像，所述具有长短时记忆特征的运动遮罩图像设置有运动区域；

当所述候选人头区域的面积在区域面积范围内且置信度大于置信度阈值时，若具有长短时记忆特征的运动遮罩图像中运动区域与所述候选人头区域有重复区域且所述重复区域的面积的面积比例大于面积比例阈值时，将所述候选人头区域确定为人头区域，并得到所述人头区域信息。

所述人头区域信息，还包括：所述人头区域的中心坐标；所述场景图像携带有拍摄所述场景图像的摄像头的标识；

所述计算模块204，具体用于：

获取所述场景图像携带的拍摄所述场景图像的摄像头的标识、补偿系数以及所述人头区域的中心坐标和面积；

查询出与所述摄像头的标识对应的最大深度值；

计算所述区域面积范围中最值的差值；

根据所述人头区域的面积、所述区域面积范围中最值的差值、最大深度值、以及补偿系数，对所述人头区域对应场景人员的深度坐标进行计算，并将所述人头区域的中心坐标和计算得到的深度坐标确定为所述人头区域对应场景人员的深度位置信息。

所述计算模块204，用于根据所述人头区域的面积、所述区域面积范围中最值的差值、最大深度值、以及补偿系数，对所述人头区域对应场景人员的深度坐标进行计算，包括：

通过以下公式对所述人头区域对应场景人员的深度坐标进行计算：

综上所述，本实施例提出的一种智能设备控制装置，通过获取到的场景区域图像；从场景区域图像中确定出人员所在的场景子区域后，将人员所在的场景子区域的智能设备打开，与相关技术中大多数智能设备也仅是可以通过手机屏幕的触摸式交互来进行远程控制相比，无需人员对智能设备的开闭进行控制，就可以将人员所在的场景子区域的智能设备自动打开，操作简单方便。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种获取场景人员深度位置的方法，其特征在于，包括：

获取场景图像；

确定出所述场景图像中场景人员的人头区域，并得到所述人头区域对应场景人员的人头区域信息，所述人头区域信息包括所述人头区域的中心坐标、所述人头区域的面积和所述人头区域的置信度；

根据得到的所述人头区域信息，得到所述人头区域对应场景人员的深度位置信息，包括,

获取所述场景图像携带的拍摄所述场景图像的摄像头的标识、预设设置在服务器中的补偿系数以及所述人头区域的中心坐标和面积；

根据预先存储在服务器中摄像头的标识与最大深度值的对应关系，查询出与所述摄像头的标识对应的最大深度值；

计算所述区域面积范围中最值的差值；

根据所述人头区域的面积、所述区域面积范围中最值的差值、最大深度值、以及补偿系数，通过以下公式对所述人头区域对应场景人员的深度坐标进行计算：

其中，Z_i表示所述人头区域对应场景人员的深度坐标；A_i表示所述人头区域的面积；ΔA表示所述区域面积范围中最值的差值；λ表示补偿系数；Z_max表示最大深度值；

将所述人头区域的中心坐标和计算得到的深度坐标确定为所述人头区域对应场景人员的深度位置信息。

2.根据权利要求1所述的方法，其特征在于，确定出所述场景图像中场景人员的人头区域，并得到所述人头区域对应场景人员的人头区域信息，包括：

对所述场景图像进行预处理；

3.根据权利要求2所述的方法，其特征在于，

所述从进行完预处理的场景图像中确定出所述场景图像中场景人员的人头区域，并得到所述人头区域信息，包括：

4.一种获取场景人员深度位置的装置，其特征在于，包括：

获取模块，用于获取场景图像；

处理模块，用于确定出所述场景图像中场景人员的人头区域，并得到所述人头区域对应场景人员的人头区域信息，所述人头区域信息包括所述人头区域的中心坐标、所述人头区域的面积和所述人头区域的置信度；

计算模块，用于根据得到的所述人头区域信息，得到所述人头区域对应场景人员的深度位置信息，包括,

计算所述区域面积范围中最值的差值；

5.根据权利要求4所述的装置，其特征在于，所述处理模块，具体用于：

对所述场景图像进行预处理；

6.根据权利要求5所述的装置，其特征在于，所述从进行完预处理的场景图像中确定出所述场景图像中场景人员的人头区域，并得到所述人头区域信息，包括：

将运动遮罩图像添加至以第一频率采集的第一图像集合和以第二频率采集的第二图像集合中；其中，所述第一频率高于第二频率；

将第一图像集合中的图像和第二图像集合中的图像进行融合，得到具有长短时记忆特征的运动遮罩图像，所述具有长短时记忆特征的运动遮罩图像设置有运动区域；