CN115223023B

CN115223023B - 基于立体视觉和深度神经网络的人体轮廓估计方法及装置

Info

Publication number: CN115223023B
Application number: CN202211126226.7A
Authority: CN
Inventors: 艾得闻; 王天杨; 张依白; 陈松灵
Original assignee: Hangzhou Dewen Tianxia Digital Culture Technology Co ltd
Current assignee: Hangzhou Dewen Tianxia Digital Culture Technology Co ltd
Priority date: 2022-09-16
Filing date: 2022-09-16
Publication date: 2022-12-20
Anticipated expiration: 2042-09-16
Also published as: CN115223023A

Abstract

本申请提供一种基于立体视觉和深度神经网络的人体轮廓估计方法及装置，涉及人工智能领域，解决现有人体轮廓估计精度不高的问题。该方法包括：获取多个相机对采集区域进行同步采集得到的多个图像；采集区域包括目标物体，图像中包含目标物体；将多个图像分别输入到全卷积神经网络得到每个图像的图像特征；根据相机参数将每个图像特征反投影至三维空间，得到每个图像中目标物体的三维空间特征，对多个图像中目标物体的三维空间特征进行融合得到该目标物体的三维特征体；将融合得到的目标物体的三维特征体输入到三维卷积网络中，输出目标物体在三维空间中的位置；根据目标物体在三维空间中的位置，构建目标物体在空间中的骨骼热图。

Description

基于立体视觉和深度神经网络的人体轮廓估计方法及装置

技术领域

本发明属于人工智能领域，特别涉及一种基于立体视觉和深度神经网络的人体轮廓估计方法及装置。

背景技术

近年，随着信息技术的发展，计算机视觉分析处理的需求越来越多，运动捕捉作为理解计算机深层视觉信息的基础也成为领域内一个具有挑战性和实用性的研究内容。动作捕捉在国内外均进行着深度探索，也是企业与高校研究的热题，并在影视制作、休闲娱乐、辅助教学等多种行业领域里有着广泛的应用。

动作捕捉大多依靠人体穿戴传感器设备获取数据，通过所穿戴的传感节点，将传感节点的实时数据通过无线模块发送给个人计算机（personal computer，PC）端云台，软件平台分析并处理这些数据。有些方法是在基于微型惯性传感器技术上，将导航系的坐标转换为屏幕坐标驱动动作模型，并融合多种算法完成人体姿态捕捉系统实现人体姿态重构。有些方法采用蒙皮骨骼动画技术，使人体动作重构的效果逼真且计算量小，调用DirectX界面库等接口，实现人体动作跟踪与人体模型的分析处理。

但是在一些应用场景中，追踪对象无法佩戴传感器类设备，光学式成为最常用的追踪技术之一，但精度高的光学测量设备又价格昂贵，低成本设备的测量精度又难以满足用户的要求，这就不仅仅需要设备的精良，更需要技术的精进与创新，需要不断探索。

发明内容

本说明书实施例的目的是提供一种基于立体视觉和深度神经网络的人体轮廓估计方法及装置，以解决现有人体轮廓估计精度不高的问题。

为解决上述技术问题，本申请实施例通过以下方式实现的：

第一方面，本申请提供一种基于立体视觉和深度神经网络的人体轮廓估计的方法，所述方法包括：获取多个相机对采集区域进行同步采集得到的多个图像；所述采集区域包括目标物体，所述图像中包含所述目标物体；将所述多个图像分别输入到全卷积神经网络得到每个图像的图像特征；根据相机参数将每个图像特征反投影至三维空间，得到每个图像中所述目标物体的三维空间特征，对所述多个图像中所述目标物体的三维空间特征进行融合得到所述该目标物体的三维特征体；将融合得到的所述目标物体的三维特征体输入到三维卷积网络中，输出所述目标物体在三维空间中的位置；根据所述目标物体在三维空间中的位置，构建目标物体在空间中的骨骼热图。

一种可能的设计中，针对每一个目标物体，所述根据所述目标物体在三维空间中的位置，构建目标物体在空间中的骨骼热图，包括：根据所述目标物体的体素特征点在三维空间中的位置，对采集到的所述多个图像进行剪切；其中剪切后的图像包含所述目标物体；将剪切后的多个图像输入到全卷积神经网络，得到剪切后的图像中所述目标物体的体素特征，根据所述目标物体的体素特征构造三维网格，其中三维网格由所述目标物体的体素特征点的三维特征点构成；对不同视角下的所述目标物体的体素特征点的三维特征点进行融合，将融合后的三维特征点输入到三维卷积神经网络得到所述目标物体的体素特征点的精细三维坐标；根据所述目标物体的体素特征点的精细三维坐标，构建所述目标物体在空间中的骨骼热图。

一种可能的设计中，所述体素特征点包括所述目标物体的身体上的多个节点、脸上的多个节点、左手的多个节点、右手的多个节点、左脚的多个节点、右脚的多个节点。

一种可能的设计中，所述方法还包括：在所述采集区域的周围部署所述多个相机，不同相机对应不同视角，所述多个相机360度全覆盖所述采集区域。

一种可能的设计中，所述在所述采集区域的周围部署所述多个相机包括：将所述多个相机分别部署在多个预设位置上，获取所述多个相机在所述多个预设位置上采集的多帧图像；对所述多帧图像进行追踪目标检测得到包含所述目标物体的多个目标区域；根据所述目标物体的预设物理尺寸以及覆盖所述目标物体的至少一个目标区域的像素尺寸，确定所述目标物体的目标物理尺寸，根据多个所述目标物体的目标物理尺寸确定所述多个相机的覆盖面积；根据所述多个相机的覆盖面积以及所述多个预设位置，构建目标函数、相机覆盖面积重叠约束条件、以及相机监控角度约束条件；根据所述目标函数、相机覆盖面积重叠约束条件、以及相机监控角度约束条件求解监控相机布局模型，得到最优监控相机布局方案；其中所述最优监控相机布局方案用于指示所述多个相机的最优部署位置。

一种可能的设计中，所述获取多个相机对采集区域进行同步采集得到的多个图像包括：利用硬件时钟同步技术，触发所述多个相机同时对所述采集区域进行采集得到所述多个图像。

一种可能的设计中，所述全卷积神经网络和所述三维卷积网络通过监督的方式训练得到。

第二方面，本申请提供一种基于立体视觉和深度神经网络的人体轮廓估计装置，所述装置包括：获取模块，用于获取多个相机对采集区域进行同步采集得到的多个图像；所述采集区域包括目标物体，所述图像中包含所述目标物体；

处理模块，用于将所述多个图像分别输入到全卷积神经网络得到每个图像的图像特征；根据相机参数将每个图像特征反投影至三维空间，得到每个图像中所述目标物体的三维空间特征，对所述多个图像中所述目标物体的三维空间特征进行融合得到所述该目标物体的三维特征体；将融合得到的所述目标物体的三维特征体输入到三维卷积网络中，输出所述目标物体在三维空间中的位置；

热图构建模块，用于根据所述目标物体在三维空间中的位置，构建目标物体在空间中的骨骼热图。

第三方面，本申请提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现如第一方面的基于立体视觉和深度神经网络的人体轮廓估计方法。

第四方面，本申请提供一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面的基于立体视觉和深度神经网络的人体轮廓估计方法。

由以上本说明书实施例提供的技术方案可见，该方案通过多相机融合的肢体动态识别捕捉，可以在立体空间实现多角度视觉同步采集，运用帧同步校准技术分析所采集数据并及时提供反馈数据。利用硬件时钟同步技术触发多部照相机，使各个照相机的曝光动作严格同步，帮助提升推理计算的精度并使操作步骤与流程简易化。三维数据采集分析更加准确，我们将融合好的特征输入到三维卷积网络中，输出空间中所有人的腰部节点、左手腕、右手腕、鼻子、左脚踝、右脚踝在三维空间中的位置，并且输出数据可以实时转化为骨骼热图。如此，可以通过深度神经网络的多个变换阶段分层对数据特征进行描述，提升分类精度，运用两阶段方法和虚拟数据训练监督学习，使运算更加精确。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的一种基于立体视觉和深度神经网络的人体轮廓估计的原理示意图。

图2为本申请提供的又一种基于立体视觉和深度神经网络的人体轮廓估计方法的流程示意图；

图3为本申请提供的基于立体视觉和深度神经网络的人体轮廓估计装置400的结构示意图；

图4为本申请提供的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

在不背离本申请的范围或精神的情况下，可对本申请说明书的具体实施方式做多种改进和变化，这对本领域技术人员而言是显而易见的。由本申请的说明书得到的其他实施方式对技术人员而言是显而易见得的。本申请说明书和实施例仅是示例性的。关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等，均为开放性的用语，即意指包含但不限于。

目前主流的人体运动测量技术主要有机械式、电磁式、视频式、光学跟踪式和惯性跟踪式5大类。在一些应用场景中，追踪对象无法佩戴传感器类设备，光学式成为最常用的追踪技术之一，但精度高的光学测量设备又价格昂贵，低成本设备的测量精度又难以满足用户的要求，这就不仅仅需要设备的精良，更需要技术的精进与创新，需要不断探索。

相关技术中，一种可能的设计方式中，市面上大多都是以一个监控照相机配合可运动的云台来实现。通过多个捕捉照相机模块对预设拍摄视角进行图像捕捉，再将捕捉到的多张图像合成图像，完成图像采集后，通过控制模块对图像进行分析并判断物体运动轨迹，控制模块将运动轨迹化为指令传送给云台内部的电机模块，从而实现运动物体实时跟踪的效果。所捕捉的运动物体位置角度需要先传输到控制模块，做出判断后再将运动指令传输给电机模块，具有一定延时性，尤其是当物体连续运动的速度较快时，容易造成物体运动轨迹跟踪不完整等的状况，所以运动捕捉的及时性、稳定性较差。

这种设计方式中，只有在照相机的可视角度范围内运动物体才能被跟踪到，而当今的单个照相机镜头广角无法达到360°全景覆盖的范围，这样势必会产生跟踪死角的问题。即使照相机能够位移或旋转，但当跟踪物体较多、且在同一时间变动时，就难以同时捕捉其运动轨迹。系统在进行图像分析并确定目标位置后，还需要传输到云台内的控制系统，由于云台与照相机分离，两者之间的传递时间较长，所以就算设置多个照相机进行运动捕捉，多个照相机之间每帧的捕捉画面也不能够同步。

又一种可能的实现方式中，基于网络系统拓扑结构的多照相机协同分析方法对人体运动进行测量，比如通过取得多个照相机的位置信息，建立监控子网和全局场景地图映射，并进行数学建模获得相应拓扑节点的全局场景拓扑图，用粒子滤波算法进行单目标跟踪，在单个照相机视觉范围内监控目标，识别确定信息并开始跟踪，同时采用时空关联算法进行多照相机调动跟踪。

再一种可能的实现方式中，融合单目标跟踪和数据关联的多目标跟踪算法对人体运动进行测量，比如采用孪生卷积神经网络进行单目标跟踪与数据关联，将两类分析处理系统统一融合到一个网络框架中进而进行信息互补。在进行机器算法训练的时候，设计了针对同一目标在不同帧中检测的结果相差较多，将进行警示提醒以保证目标检测器的稳定，进而实时对单目标跟踪检测结果进行修正，将跟踪所得的结果反馈给检测器，检测器进行在线的调整改进，从而提升追踪检测性能。

一种可能的设计方式中，采用深度学习对人体运动进行测量，比如基于深度学习的运动追踪，是通过建立模型模拟人类大脑的神经连接结构，在处理图像、声音和文本这些信号时，通过多个变换阶段分层对数据特征进行描述，进而给出数据的解释。可以建立深度判别模型、深度生成式模型，基于分类与回归融合的深度目标跟踪方法、基于强化学习的深度目标跟踪方法、基于集成学习的深度目标跟踪方法和基于元学习的深度目标跟踪方法等深度目标跟踪，实现运动捕捉。深度学习通过组合低层特征形成更加抽象的高层表示、属性类别或特征，给出数据的分层特征表示，从而更有利于分类或特征的可视化。

但是上述技术都存在一定的问题，在一些应用场景中，追踪对象无法佩戴传感器类设备，光学式成为最常用的追踪技术之一，但精度高的光学测量设备又价格昂贵，低成本设备的测量精度又难以满足用户的要求，这就不仅仅需要设备的精良，更需要技术的精进与创新，需要不断探索。为解决该问题，本申请实施例提出了一种基于立体视觉和深度神经网络的人体轮廓估计方法，该方法通过多相机融合，对场景内的目标进行360度全方位覆盖，同步多个照相机对人体动作进行准确捕捉，并基于神经网络深度学习提高跟踪模型泛化能力与遮挡鲁棒性，来实现人体动作的多角度多方位跟踪和有效信息捕捉，达到多个照相机同步获取数据以及每帧画面同步性一致。

下面结合附图和实施例对本发明进一步详细说明。

参照图1，其示出了适用于本申请实施例提供的基于立体视觉和深度神经网络的人体轮廓估计方法的原理示意图。如图1所示，该过程包括：在采集区域部署多个相机，通过多个相机采集多个视角下的多个图像，比如图1中的图像I1、图像I2┈图像Ik，将图像分别输入全卷积神经网络模型（比如卷积神经网络（Convolutional Neural Networks, CNN））得到图像特征，比如图1中的图像特征F1、图像特征F2┈图像特征Fk，将图像特征进行反映射到三维空间中，得到每个图像中目标物体的三维空间特征，对多个图像中目标物体的三维空间特征进行融合得到该目标物体的三维特征体；根据三维空间特征提取原图像中的目标物体，再次将目标物体输入全卷积神经网络模型得到图像特征，将图像特征进行反映射到三维空间中，将不同视角下的三维空间特征点进行融合，将融合后的特征点输入三维卷积神经网络（比如3DCNN）得到目标物体的体素特征点的精确三维坐标，根据体素特征点的精确的三维坐标构建目标物体的骨骼热图。

下面结合图2所示方法，基于图1所示原理对本申请所述方法进行详细介绍。

参照图2，其示出了适用于本申请实施例提供的基于立体视觉和深度神经网络的人体轮廓估计方法的流程示意图。该方法用于对目标区域中的目标物体（如运动的人）进行人体轮廓估计，该方法由基于立体视觉和深度神经网络的人体轮廓估计装置执行，该装置可以是服务器或者计算机等。如图2所示，该方法包括：

S210、获取多个相机对采集区域进行同步采集得到的多个图像。

其中，采集区域可以包含目标物体，目标物体可以为处于运动状态的人或其他动物等，还可以是处于静止状态的人、物等，不予限制。本申请中，采集区域也可以称为目标区域或者目标场景等，不予限制。可选的，可以根据任务需求，设计采集场景。如相机视角、多台相机的机位、数据采集场所、被采集人员组成（民族、年龄、身高、体型、着装、性别）、采集的动作等。如果是多机位、多相机采集场景，还需要进行相机内、外参数的标定。

其中，多个相机预先部署在同一采集区域的周围，不同相机的部署位置不同，以使得全覆盖整个采集区域，即对采集区域内的目标物体进行360º全方位覆盖，并且在执行本申请所述方法时，触发多个相机同步对该采集区域进行拍摄采集，一个图像为一个相机拍摄得到，一个图像中可以包含有目标物体。不同图像由不同机位的相机采集得到。本申请所述的相机可以为红外相机或者高速红外光相机。

具体的，在S210之前可以根据下述方式部署多个相机，以使得全方位360度覆盖采集区域：将多个相机分别部署在多个预设位置上，获取多个相机在多个预设位置上采集的多帧图像；对多帧图像进行追踪目标检测得到包含目标物体的多个目标区域；根据目标物体的预设物理尺寸以及覆盖目标物体的至少一个目标区域的像素尺寸，确定目标物体的目标物理尺寸，根据多个目标物体的目标物理尺寸确定多个相机的覆盖面积；根据多个相机的覆盖面积以及多个预设位置，构建目标函数、相机覆盖面积重叠约束条件、以及相机监控角度约束条件；根据目标函数、相机覆盖面积重叠约束条件、以及相机监控角度约束条件求解监控相机布局模型，得到最优监控相机布局方案；其中最优监控相机布局方案用于指示多个相机的最优部署位置。

本申请实施例中，可以通过利用硬件时钟同步技术实现多个相机同步对该采集区域进行拍摄采集。

其中，目标物体可以指被采集人员的人体，被采集人员包括多个人员，多个人员的特征（比如民族、年龄、身高、体型、着装、性别等）可以相同或不同，不予限制。具体的，执行本申请方法之前，预先配置好哪些人员作为被采集人员。

S220、将多个图像分别输入到全卷积神经网络得到每个图像的图像特征。

其中，全卷积神经网络的输入是同步好的多个相机在同一时刻采集到多个图像，输出是图像的图像特征；具体的，参照下述公式（1）所示，为一个相机拍摄的一个视角v下的图像的图像特征

。类似的，可参照公式（1）得到多个图像中每个图像的图像特征。

公式（1）

其中公式（1）中的

表示特征的通道数，

表示图像的高，

表示图像宽。本申请所述的图像特征包括多个特征点，比如包含目标物体的多个特征点，此时，该特征点可以称为二维平面特征点。

需要说明的是，本申请所述的全卷积神经网络可以是ResNet或者HRNet等大型网络，也可以是MobileNet, ShuffleNet等小型网络。

S230、根据相机参数将每个图像特征反投影至三维空间得到每个图像对应的三维空间特征，对每个图像中目标物体的三维空间特征进行融合得到该目标物体的三维特征体。

然后我们将特征依据相机参数反投影三维（3 dimensions，3D）空间，不同视下的图像特征将在三维空间通过求均值进行融合。如下公式（2）所示：

公式（2）

其中公式（2）中的

为三维特征体，该三维特征体可以看做是对整个三维空间的重建，尤其是对空间中的目标物体（比如人）的三维重建。公式（2）中的

为图像特征反投影得到的三维空间特征，即三维特征点（

）在视角

下的投影位置上的特征，V为机位的数量或者称为视角数量。通常情况下，V的取值与S210中部署的多个相机的数量是相同的。

S240、将融合得到的三维特征体输入到三维卷积网络中，输出采集区域对应的空间中目标物体在三维空间中的位置。

其中，上述目标物体在三维空间中的位置可以指目标物体（比如人）的体素特征点（或者称为骨骼关节点）在三维空间中的位置。其中在目标物体为人的情况下，本申请所述的体素特征点可以包括腰部节点、左手腕、右手腕、鼻子、左脚踝、右脚踝等等。

其中本申请所述的三维卷积神经网络通过深度神经网络的多个变换阶段分层对数据特征进行描述。

S250、根据目标物体在三维空间中的位置构建目标物体在空间中的骨骼热图。

示例性的，在空间中包括多个目标物体的情况下，根据目标物体在三维空间中的位置构建目标物体在空间中的骨骼热图可以包括：

针对每一个目标物体（比如人），根据目标物体的体素特征点在三维空间中的位置，对采集到的原图（比如S210中采集到的多个图像）进行剪切，将剪切后的多个图像输入到全卷积神经网络，得到剪切后的图像中目标物体的体素特征，根据目标物体的体素特征构造三维网格，其中三维网格由目标物体的体素特征点的三维特征点构成，以实现将体素特征投影到三维空间中，对不同视角下的三维特征点进行融合，将融合后的三维特征点输入到三维卷积神经网络得到该目标物体的体素特征点的精细三维坐标，根据目标物体的体素特征点的精细三维坐标构建该目标物体在空间中的骨骼热图。

比如假设目标物体为人，针对每一个人，依据该人包括的体素特征点（可以称为节点）的位置，在原图（即相机采集到的图像）中进行剪切得到精细的身体、左手、右手、脸部、左脚和右脚的图像，并剪切后的图像再次输入到全卷积网络中提取精细的体素特征，同时继续以这些节点为中心构造精细的三维网络，将体素特征投影到三维空间，对不同视角下的特姿态征在三维空间通过求均值的方式进行融合。将融合后的体素特征输入到三维卷积网络中，输出空间中该人的体素特征点，比如身体17个节点、脸68个节点、左手21个节点、右手21个节点、左脚6个节点、右脚6个个节点的精细三维坐标，根据该精细三维坐标构建骨骼热图。

需要说明的是，上述全卷积神经网络、三维卷积神经网络的等深度学习模型通过监督的方式进行学习，比如通过下述公式（3）所示监督的方法进行学习。

公式（3）

其中公式（3）中的

是监督信号，

是网络的输出。

基于图2所示方法，通过多相机融合的肢体动态识别捕捉，可以在立体空间实现多角度视觉同步采集，运用帧同步校准技术分析所采集数据并及时提供反馈数据。利用硬件时钟同步技术触发多部照相机，使各个照相机的曝光动作严格同步，帮助提升推理计算的精度并使操作步骤与流程简易化。三维数据采集分析更加准确，我们将融合好的特征输入到三维卷积网络中，输出空间中所有人的腰部节点、左手腕、右手腕、鼻子、左脚踝、右脚踝在三维空间中的位置，并且输出数据可以实时转化为骨骼热图。如此，可以通过深度神经网络的多个变换阶段分层对数据特征进行描述，提升分类精度，运用两阶段方法和虚拟数据训练监督学习，使运算更加精确。

下面以部署六部相机为例，结合具体例子对图2所示方法进行详细介绍：

将准备好的六部相机分别布局在场景内1.5M的相对面位置固定两个高约1.9M的相机，在场景内四个角落0.3M的位置上分别固定一个高约1.5M的相机。多部相机同步进行视频采样，以得到多帧图像；对多帧图像进行追踪目标检测，以获取包含目标物体的多个目标区域；根据目标物体的预设物理尺寸以及覆盖目标物体的至少一个目标区域各自对应的像素尺寸，确定目标物体对应的目标物理尺寸；根据多个目标物体各自对应的目标物理尺寸，确定相机的覆盖面积。该覆盖面积的确定仅基于相机采集的图像来确定，不依赖相机的内部和外部参数。对场景内的范围进行全方位覆盖，根据所述位置和所述覆盖范围构建模型，比如构建目标函数、构建相机覆盖面积重叠约束条件、构建相机监控角度约束条件，求解监控相机布局模型，得最优监控相机布局方案，根据最优监控相机布局方案部署多个相机。进一步的，硬件捕捉场景内追踪目标作出的动作并进行分析处理，将捕捉到的信息同步发送指令给场景内的多个相机，相机同时接收到指令后会同步对动作进行摄制，能够保证同一动作画面同一角度同时至少有两个至三个相机同时抓拍到，并达到每个相机每秒都能拍到40帧延迟时间精确到以微秒进行计算，且延迟时间不积累，就算目标动作连续发生变化也可以通过硬件发送指令给场景内的多个角度的相机进行同步抓拍，以此来达到每个相机每秒拍到的帧数以及每帧的画面的同步性，来实现对追踪目标的多角度多方位跟踪和有效信息的捕捉。最后利用人体骨骼热图识别，对移动的物体进行深度评估，识别出人体的部位，将其从背景环境中分割出来，分割后进行模式匹配，将其匹配到骨骼系统上。

参照图3，其示出了根据本发明一个实施例描述的基于立体视觉和深度神经网络的人体轮廓估计装置400的结构示意图。如图3所示，基于立体视觉和深度神经网络的人体轮廓估计装置400，可以包括：

获取模块401，用于获取多个相机对采集区域进行同步采集得到的多个图像；所述采集区域包括目标物体，所述图像中包含所述目标物体；

处理模块402，用于将所述多个图像分别输入到全卷积神经网络得到每个图像的图像特征；根据相机参数将每个图像特征反投影至三维空间，得到每个图像中所述目标物体的三维空间特征，对所述多个图像中所述目标物体的三维空间特征进行融合得到所述该目标物体的三维特征体；将融合得到的所述目标物体的三维特征体输入到三维卷积网络中，输出所述目标物体在三维空间中的位置；

热图构建模块403，用于根据所述目标物体在三维空间中的位置，构建目标物体在空间中的骨骼热图。

可选的，针对每一个目标物体，热图构建模块403具体用于：

根据所述目标物体的体素特征点在三维空间中的位置，对采集到的所述多个图像进行剪切；其中剪切后的图像包含所述目标物体；将剪切后的多个图像输入到全卷积神经网络，得到剪切后的图像中所述目标物体的体素特征，根据所述目标物体的体素特征构造三维网格，其中三维网格由所述目标物体的体素特征点的三维特征点构成；对不同视角下的所述目标物体的体素特征点的三维特征点进行融合，将融合后的三维特征点输入到三维卷积神经网络得到所述目标物体的体素特征点的精细三维坐标；根据所述目标物体的体素特征点的精细三维坐标，构建所述目标物体在空间中的骨骼热图。

可选的，所述体素特征点包括所述目标物体的身体上的多个节点、脸上的多个节点、左手的多个节点、右手的多个节点、左脚的多个节点、右脚的多个节点。

可选的，基于立体视觉和深度神经网络的人体轮廓估计装置400还包括：

部署模块404，用于在所述采集区域的周围部署所述多个相机，不同相机对应不同视角，所述多个相机360度全覆盖所述采集区域。

可选的，部署模块404，具体用于：将所述多个相机分别部署在多个预设位置上，获取所述多个相机在所述多个预设位置上采集的多帧图像；对所述多帧图像进行追踪目标检测得到包含所述目标物体的多个目标区域；根据所述目标物体的预设物理尺寸以及覆盖所述目标物体的至少一个目标区域的像素尺寸，确定所述目标物体的目标物理尺寸，根据多个所述目标物体的目标物理尺寸确定所述多个相机的覆盖面积；根据所述多个相机的覆盖面积以及所述多个预设位置，构建目标函数、相机覆盖面积重叠约束条件、以及相机监控角度约束条件；根据所述目标函数、相机覆盖面积重叠约束条件、以及相机监控角度约束条件求解监控相机布局模型，得到最优监控相机布局方案；其中所述最优监控相机布局方案用于指示所述多个相机的最优部署位置。

可选的，获取模块401具体用于：利用硬件时钟同步技术，触发所述多个相机同时对所述采集区域进行采集得到所述多个图像。

可选的，所述全卷积神经网络和所述三维卷积网络通过监督的方式训练得到。

本发明提供的一种基于立体视觉和深度神经网络的人体轮廓估计装置，可以执行上述方法的实施例，其实现原理和技术效果类似，在此不再赘述。

图4为本发明实施例提供的一种电子设备的结构示意图。如图4所示，示出了适于用来实现本申请实施例的电子设备500的结构示意图。

如图4所示，电子设备500包括中央处理单元（CPU）501，其可以根据存储在只读存储器（ROM）502中的程序或者从存储部分508加载到随机访问存储器（RAM）503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有设备500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出（I/O）接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管（CRT）、液晶显示器（LCD）等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口506。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本公开的实施例，上文参考图1描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行上述基于立体视觉和深度神经网络的人体轮廓估计方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中。这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、笔记本电脑、行动电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

作为另一方面，本申请还提供了一种存储介质，该存储介质可以是上述实施例中前述装置中所包含的存储介质；也可以是单独存在，未装配入设备中的存储介质。存储介质存储有一个或者一个以上程序，前述程序被一个或者一个以上的处理器用来执行描述于本申请的基于立体视觉和深度神经网络的人体轮廓估计方法。

存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种基于立体视觉和深度神经网络的人体轮廓估计方法，其特征在于，所述方法包括：

在采集区域的周围部署多个相机，不同相机对应不同视角，所述多个相机360度全覆盖所述采集区域；

其中，所述在采集区域的周围部署多个相机包括：

将所述多个相机分别部署在多个预设位置上，获取所述多个相机在所述多个预设位置上采集的多帧图像；

对所述多帧图像进行追踪目标检测得到包含目标物体的多个目标区域；

根据所述目标物体的预设物理尺寸以及覆盖所述目标物体的至少一个目标区域的像素尺寸，确定所述目标物体的目标物理尺寸，根据多个所述目标物体的目标物理尺寸确定所述多个相机的覆盖面积；

根据所述多个相机的覆盖面积以及所述多个预设位置，构建目标函数、相机覆盖面积重叠约束条件、以及相机监控角度约束条件；

根据所述目标函数、相机覆盖面积重叠约束条件、以及相机监控角度约束条件求解监控相机布局模型，得到最优监控相机布局方案；其中所述最优监控相机布局方案用于指示所述多个相机的最优部署位置；

获取多个相机对采集区域进行同步采集得到的多个图像；所述采集区域包括目标物体，所述图像中包含所述目标物体；

将所述多个图像分别输入到全卷积神经网络得到每个图像的图像特征，其中，所述多个图像为同步好的多个相机在同一时刻采集到的；

根据相机参数将每个图像特征反投影至三维空间，得到每个图像中所述目标物体的三维空间特征，对所述多个图像中所述目标物体的三维空间特征进行融合得到所述目标物体的三维特征体；

将融合得到的所述目标物体的三维特征体输入到三维卷积网络中，输出所述目标物体在三维空间中的位置；

根据所述目标物体在三维空间中的位置，构建目标物体在空间中的骨骼热图；

其中，针对每一个目标物体，所述根据所述目标物体在三维空间中的位置，构建目标物体在空间中的骨骼热图，包括：

根据所述目标物体的体素特征点在三维空间中的位置，对采集到的所述多个图像进行剪切；其中剪切后的图像包含所述目标物体；

将剪切后的多个图像输入到全卷积神经网络，得到剪切后的图像中所述目标物体的体素特征，根据所述目标物体的体素特征构造三维网格，其中三维网格由所述目标物体的体素特征点的三维特征点构成；

对不同视角下的所述目标物体的体素特征点的三维特征点进行融合，将融合后的三维特征点输入到三维卷积神经网络得到所述目标物体的体素特征点的精细三维坐标；

根据所述目标物体的体素特征点的精细三维坐标，构建所述目标物体在空间中的骨骼热图。

2.根据权利要求1所述的方法，其特征在于，

所述体素特征点包括所述目标物体的身体上的多个节点、脸上的多个节点、左手的多个节点、右手的多个节点、左脚的多个节点、右脚的多个节点。

3.根据权利要求1所述的方法，其特征在于，所述获取多个相机对采集区域进行同步采集得到的多个图像包括：

利用硬件时钟同步技术，触发所述多个相机同时对所述采集区域进行采集得到所述多个图像。

4.根据权利要求1所述的方法，其特征在于，

所述全卷积神经网络和所述三维卷积网络通过监督的方式训练得到。

5.一种基于立体视觉和深度神经网络的人体轮廓估计装置，其特征在于，所述装置包括：

部署模块，用于在采集区域的周围部署多个相机，不同相机对应不同视角，所述多个相机360度全覆盖所述采集区域；

部署模块，具体用于：将所述多个相机分别部署在多个预设位置上，获取所述多个相机在所述多个预设位置上采集的多帧图像；对所述多帧图像进行追踪目标检测得到包含目标物体的多个目标区域；根据所述目标物体的预设物理尺寸以及覆盖所述目标物体的至少一个目标区域的像素尺寸，确定所述目标物体的目标物理尺寸，根据多个所述目标物体的目标物理尺寸确定所述多个相机的覆盖面积；根据所述多个相机的覆盖面积以及所述多个预设位置，构建目标函数、相机覆盖面积重叠约束条件、以及相机监控角度约束条件；根据所述目标函数、相机覆盖面积重叠约束条件、以及相机监控角度约束条件求解监控相机布局模型，得到最优监控相机布局方案；其中所述最优监控相机布局方案用于指示所述多个相机的最优部署位置；

获取模块，用于获取多个相机对采集区域进行同步采集得到的多个图像；所述采集区域包括目标物体，所述图像中包含所述目标物体；

处理模块，用于将所述多个图像分别输入到全卷积神经网络得到每个图像的图像特征；其中，所述多个图像为同步好的多个相机在同一时刻采集到的；根据相机参数将每个图像特征反投影至三维空间，得到每个图像中所述目标物体的三维空间特征，对所述多个图像中所述目标物体的三维空间特征进行融合得到所述目标物体的三维特征体；将融合得到的所述目标物体的三维特征体输入到三维卷积网络中，输出所述目标物体在三维空间中的位置；

热图构建模块，用于根据所述目标物体在三维空间中的位置，构建目标物体在空间中的骨骼热图；

针对每一个目标物体，热图构建模块具体用于：

6.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-4中任一所述的基于立体视觉和深度神经网络的人体轮廓估计方法。

7.一种可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一所述的基于立体视觉和深度神经网络的人体轮廓估计方法。