CN117351068A

CN117351068A - 一种基于单目摄像头的室内人员定位和行为识别的方法

Info

Publication number: CN117351068A
Application number: CN202311054271.0A
Authority: CN
Inventors: 黄天宇; 林周生; 姜增彬; 黄爱朋; 范志豪; 许鹏健; 黄枭; 黄业勇
Original assignee: Zhongen Engineering Technology Co ltd
Current assignee: Zhongen Engineering Technology Co ltd
Priority date: 2023-08-21
Filing date: 2023-08-21
Publication date: 2024-01-05

Abstract

本发明公开了一种基于单目摄像头的室内人员定位和行为识别的方法，包括以下步骤，首先通过目标检测算法读取摄像头视频数据获取识别物体的属性，包括类别信息，位置信息(u、v)，朝向，状态等，比如设备运行状态，行人行为状态站立、坐下等；通过单目摄像机即可将人员从二维图像位置，朝向，深度，行为等信息映射到三维空间中，结合单目深度估计对摄像头视频数据进行处理，得到识别室内人员的位置、状态、朝向等相关信息并将位置信息(u,v,depth)映射到世界坐标中对应的(x,y,z)，因此能够更快，更方便，更经济地应用在数字孪生场景中，并以一个较低的硬件成本和人力成本实现这项功能，尤其在硬件条件受限的场景下，本发明的优势更为显著。

Description

一种基于单目摄像头的室内人员定位和行为识别的方法

技术领域

本发明涉及室内人员定位识别技术领域，具体为一种基于单目摄像头的室内人员定位和行为识别的方法。

背景技术

在现有的数字孪生领域相关技术中通常需要依靠点云数据与深度值信息进行建模与三维重建等，点云包含了丰富的信息，包括三维坐标(x,y,z)、颜色、分类值等。点云数据的采集方式主要通过激光扫描仪等测距传感器完成，但是现有技术存在相关设备成本高昂的问题，三维点云数据标注相关工作较为繁琐，需要耗费较大的人力成本。

并且现有的图像测量过程以及机器视觉应用中，为确定空间物体表面某点的三维几何位置与其在图像中对应点之间的相互关系，必须建立相机成像的几何模型，而在该领域中相关技术多目标定成本较高，单从硬件上就是单目的N倍，同时算法的复杂度和成本也成倍增加，多目图像数据的处理比单目数据处理的难度要大，这对处理芯片的要求以及硬件的可靠性要求增高，以及目前绝大多数应用场景皆采用单目摄像头。

部分实现目标追踪的方法依赖于佩戴相关定位设备或依赖于手机GPS等，设备相关成本较高，也不便日常使用。

为此提出一种基于单目摄像头的室内人员定位和行为识别的方法，来解决此问题。

发明内容

本发明的目的在于提供一种基于单目摄像头的室内人员定位和行为识别的方法，解决了现有数字孪生领域钟三维点云数据标注工作较为繁琐、算法复杂成本较高，并且十分依赖于佩戴相关定位设备或依赖于手机GPS等的问题。

为实现上述目的，本发明提供如下技术方案：一种基于单目摄像头的室内人员定位和行为识别的方法，包括以下步骤：

步骤1：通过目标检测算法读取摄像头视频数据获取识别物体的属性，包括类别信息，位置信息(u、v)，朝向(direction)，状态(state)等，比如行人行为状态站立、坐下状态、设备运行状态等；

步骤2：基于目标追踪算法跟踪捕获识别视频每一帧中物体或行人对应的id信息等；

步骤3：将RGB图像通过深度估计算法计算出像素点对应的深度值depth，即从视点到图像中的物体的距离的信息；

步骤4：结合单目相机标定中单平面棋盘格的摄像机标定方法计算得到摄像头对应的内外参与畸变系数；

步骤5：根据相机内外参数据、畸变系数、物体位置信息(u，v)与深度值信息(depth)，通过矩阵运算，建立物体空间位置与摄像机图像像素位置之间的关系，即图像像素坐标系与世界坐标系之间的关系，得到对应世界坐标x，y，z，实现三维重建；

步骤6：最后接入摄像头实时的视频数据，将计算结果可视化为实时视频图像数据，将三维坐标应用到数字孪生场景，实现实时观测管理人员行为数据与位置信息。

优选的，所述在步骤1中，对每个进入到室内的人员进行编号，采集面部图像数据，建立数据库，采集的图像数据至少包括正面图像、左侧面图像和右侧面图像。

优选的，所述在步骤1中，室内区域过大时，划分室内区域，在每个子区域内设置多单个摄像头，划分出的单个子区域面积不大于100㎡，在每一子区域内只需要设置一个摄像头，摄像头围绕该子区域分布。

优选的，所述在步骤2中，基于摄像头所拍摄的画面，判断是否存在可用于识别的室内人员的人脸图像；若存在，根据识别到的图案或文字，分析得到该人员的室内位置信息，并对其朝向和状态进行识别判断；若不存在，则说明室内不存在该人员。

优选的，所述在步骤2中，摄像头采集到的图像，判断图像中是否有人脸，对拍摄到的人脸进行识别，得到相应信息，对比数据库分析采集到的图像中每一人员的信息。

优选的，所述在步骤3中，利用深度估计算法计算出深度值depth。

优选的，所述在步骤5中，根据单目相机的安装高度、安装角度、焦距、图像的分辨率和标定板所在的位置，对标定图像进行分析，通过单目相机标定算法得到相机的内参和外参。

优选的，所述在步骤5中，单平面棋盘格的摄像机标定方法及相关矩阵运算将二维图像像素的位置信息(u,v,depth)实时映射到三维(x,y,z)世界坐标上。

优选的，所述在步骤6中，基于Python语言，应用pytorch框架构建深度学习模型，结合GPU实现对数据集的训练。

与现有技术相比，本发明的有益效果是：

1、本发明专利通过目标检测与目标追踪算法，结合单目深度估计对摄像头视频数据进行处理，得到识别室内人员的位置、状态、朝向等相关信息并将位置信息(u,v,depth)映射到世界坐标中对应的(x,y,z)，实现基于单目摄像头的室内人员定位和行为识别的功能；实际应用中仅通过单目摄像机即可将人员从二维图像位置，朝向，深度，行为等信息映射到三维空间中，在实际硬件部署时，不需要昂贵的深度摄像机、双目摄像机、多目摄像机等设备，也不需要额外的测距传感器，被检测人员也无需佩戴相关的定位设备，在算法训练阶段，数据标注时也不需要采集和处理复杂的3d目标检测的点云数据，因此能够更快，更方便，更经济地应用在数字孪生场景中，并以一个较低的硬件成本和人力成本实现这项功能，尤其在硬件条件受限的场景下，本项发明的优势更为显著，便于对室内人员行为及状态进行实时监测、管理与分析，应用在数字孪生场景中，实现在智慧城市、智慧交通、智慧园区等领域中辅助决策的作用。

附图说明

图1为本发明方法流程示意图。

具体实施方式

下面将通过实施例的方式对本发明作更详细的描述，这些实施例仅是举例说明性的而没有任何对本发明范围的限制。

本发明提供一种技术方案：一种基于单目摄像头的室内人员定位和行为识别的方法，包括以下步骤：

实施例一：

首先通过目标检测算法读取摄像头视频数据获取识别物体的属性，包括类别信息，位置信息(u、v)，朝向(direction)，状态(state)等，比如行人行为状态站立、坐下状态、设备运行状态等；然后基于目标追踪算法跟踪捕获识别视频每一帧中物体或行人对应的id信息等；之后将RGB图像通过深度估计算法计算出像素点对应的深度值depth，即从视点到图像中的物体的距离的信息；在后结合单目相机标定中单平面棋盘格的摄像机标定方法计算得到摄像头对应的内外参与畸变系数；而后根据相机内外参数据、畸变系数、物体位置信息(u，v)与深度值信息(depth)，通过矩阵运算，建立物体空间位置与摄像机图像像素位置之间的关系，即图像像素坐标系与世界坐标系之间的关系，得到对应世界坐标x，y，z，实现三维重建；最后接入摄像头实时的视频数据，将计算结果可视化为实时视频图像数据，将三维坐标应用到数字孪生场景，实现实时观测管理人员行为数据与位置信息。

实施例二：

在实施例一中，再加上下述工序：

对每个进入到室内的人员进行编号，采集面部图像数据，建立数据库，采集的图像数据至少包括正面图像、左侧面图像和右侧面图像；室内区域过大时，划分室内区域，在每个子区域内设置多单个摄像头，划分出的单个子区域面积不大于100㎡，在每一子区域内只需要设置一个摄像头，摄像头围绕该子区域分布。

首先通过目标检测算法读取摄像头视频数据获取识别物体的属性，包括类别信息，位置信息(u、v)，朝向(direction)，状态(state)等，比如行人行为状态站立、坐下状态、设备运行状态等；对每个进入到室内的人员进行编号，采集面部图像数据，建立数据库，采集的图像数据至少包括正面图像、左侧面图像和右侧面图像；室内区域过大时，划分室内区域，在每个子区域内设置多单个摄像头，划分出的单个子区域面积不大于100㎡，在每一子区域内只需要设置一个摄像头，摄像头围绕该子区域分布；然后基于目标追踪算法跟踪捕获识别视频每一帧中物体或行人对应的id信息等；之后将RGB图像通过深度估计算法计算出像素点对应的深度值depth，即从视点到图像中的物体的距离的信息；在后结合单目相机标定中单平面棋盘格的摄像机标定方法计算得到摄像头对应的内外参与畸变系数；而后根据相机内外参数据、畸变系数、物体位置信息(u，v)与深度值信息(depth)，通过矩阵运算，建立物体空间位置与摄像机图像像素位置之间的关系，即图像像素坐标系与世界坐标系之间的关系，得到对应世界坐标x，y，z，实现三维重建；最后接入摄像头实时的视频数据，将计算结果可视化为实时视频图像数据，将三维坐标应用到数字孪生场景，实现实时观测管理人员行为数据与位置信息。

实施例三：

在实施例二中，再加上下述工序：

基于摄像头所拍摄的画面，判断是否存在可用于识别的室内人员的人脸图像；若存在，根据识别到的图案或文字，分析得到该人员的室内位置信息，并对其朝向和状态进行识别判断；若不存在，则说明室内不存在该人员；摄像头采集到的图像，判断图像中是否有人脸，对拍摄到的人脸进行识别，得到相应信息，对比数据库分析采集到的图像中每一人员的信息；

利用深度估计算法计算出深度值depth。

首先通过目标检测算法读取摄像头视频数据获取识别物体的属性，包括类别信息，位置信息(u、v)，朝向(direction)，状态(state)等，比如行人行为状态站立、坐下状态、设备运行状态等；对每个进入到室内的人员进行编号，采集面部图像数据，建立数据库，采集的图像数据至少包括正面图像、左侧面图像和右侧面图像；室内区域过大时，划分室内区域，在每个子区域内设置多单个摄像头，划分出的单个子区域面积不大于100㎡，在每一子区域内只需要设置一个摄像头，摄像头围绕该子区域分布；然后基于目标追踪算法跟踪捕获识别视频每一帧中物体或行人对应的id信息等；基于摄像头所拍摄的画面，判断是否存在可用于识别的室内人员的人脸图像；若存在，根据识别到的图案或文字，分析得到该人员的室内位置信息，并对其朝向和状态进行识别判断；若不存在，则说明室内不存在该人员；摄像头采集到的图像，判断图像中是否有人脸，对拍摄到的人脸进行识别，得到相应信息，对比数据库分析采集到的图像中每一人员的信息；之后将RGB图像通过深度估计算法计算出像素点对应的深度值depth，即从视点到图像中的物体的距离的信息；利用深度估计算法计算出深度值depth；在后结合单目相机标定中单平面棋盘格的摄像机标定方法计算得到摄像头对应的内外参与畸变系数；而后根据相机内外参数据、畸变系数、物体位置信息(u，v)与深度值信息(depth)，通过矩阵运算，建立物体空间位置与摄像机图像像素位置之间的关系，即图像像素坐标系与世界坐标系之间的关系，得到对应世界坐标x，y，z，实现三维重建；最后接入摄像头实时的视频数据，将计算结果可视化为实时视频图像数据，将三维坐标应用到数字孪生场景，实现实时观测管理人员行为数据与位置信息。

实施例四：

在实施例三中，再加上下述工序：

根据单目相机的安装高度、安装角度、焦距、图像的分辨率和标定板所在的位置，对标定图像进行分析，通过单目相机标定算法得到相机的内参和外参；单平面棋盘格的摄像机标定方法及相关矩阵运算将二维图像像素的位置信息(u,v,depth)实时映射到三维(x,y,z)世界坐标上。

基于Python语言，应用pytorch框架构建深度学习模型，结合GPU实现对数据集的训练。

首先通过目标检测算法读取摄像头视频数据获取识别物体的属性，包括类别信息，位置信息(u、v)，朝向(direction)，状态(state)等，比如行人行为状态站立、坐下状态、设备运行状态等；对每个进入到室内的人员进行编号，采集面部图像数据，建立数据库，采集的图像数据至少包括正面图像、左侧面图像和右侧面图像；室内区域过大时，划分室内区域，在每个子区域内设置多单个摄像头，划分出的单个子区域面积不大于100㎡，在每一子区域内只需要设置一个摄像头，摄像头围绕该子区域分布；然后基于目标追踪算法跟踪捕获识别视频每一帧中物体或行人对应的id信息等；基于摄像头所拍摄的画面，判断是否存在可用于识别的室内人员的人脸图像；若存在，根据识别到的图案或文字，分析得到该人员的室内位置信息，并对其朝向和状态进行识别判断；若不存在，则说明室内不存在该人员；摄像头采集到的图像，判断图像中是否有人脸，对拍摄到的人脸进行识别，得到相应信息，对比数据库分析采集到的图像中每一人员的信息；之后将RGB图像通过深度估计算法计算出像素点对应的深度值depth，即从视点到图像中的物体的距离的信息；利用深度估计算法计算出深度值depth；在后结合单目相机标定中单平面棋盘格的摄像机标定方法计算得到摄像头对应的内外参与畸变系数；而后根据相机内外参数据、畸变系数、物体位置信息(u，v)与深度值信息(depth)，通过矩阵运算，建立物体空间位置与摄像机图像像素位置之间的关系，即图像像素坐标系与世界坐标系之间的关系，得到对应世界坐标x，y，z，实现三维重建；根据单目相机的安装高度、安装角度、焦距、图像的分辨率和标定板所在的位置，对标定图像进行分析，通过单目相机标定算法得到相机的内参和外参；单平面棋盘格的摄像机标定方法及相关矩阵运算将二维图像像素的位置信息(u,v,depth)实时映射到三维(x,y,z)世界坐标上；最后接入摄像头实时的视频数据，将计算结果可视化为实时视频图像数据，将三维坐标应用到数字孪生场景，实现实时观测管理人员行为数据与位置信息；基于Python语言，应用pytorch框架构建深度学习模型，结合GPU实现对数据集的训练。

本发明能够实现基于单目摄像头的室内人员定位和行为识别的功能。在实际应用中，仅通过单目摄像机即可将人员从二维图像位置，朝向，深度，行为等信息映射到三维空间中，主要基于Python语言，应用pytorch框架构建深度学习模型，结合GPU实现对数据集的训练。数据集采集基于普通摄像头拍摄的数据(目标检测)和深度摄像头拍摄的深度数据(单目深度估计)进行标注；然后通过目标检测与单目深度估计算法进行模型训练；再结合目标跟踪算法实现基于摄像头实时观测管理人员在二维图像像素的位置,行为状态等信息；再通过单平面棋盘格的摄像机标定方法及相关矩阵运算将二维图像像素的位置信息(u,v,depth)实时映射到三维(x,y,z)，最终该技术能够实现仅通过单台单目摄像机实现空间中的人员实时的定位和行为识别，在实际硬件部署时，不需要昂贵的深度摄像机、双目摄像机、多目摄像机等设备，也不需要额外的测距传感器，被检测人员也无需佩戴相关的定位设备。在算法训练阶段，数据标注时也不需要采集和处理复杂的3d目标检测的点云数据，并可将三维数据实时同步接入数字孪生的场景之中，可运用于绝大部分基于单目摄像头数据的监测与管理。未来可根据特定应用场景的需求，收集对应的训练数据集以达到不同的检测目的，如应用于更多类别物体极其相关状态的识别，得到的数据可以应用于数字孪生场景，将数据实时同步于智慧城市，智慧交通，智慧园区等领域，辅助城市管理与决策，因此能够更快，更方便，更经济地应用在数字孪生场景中，并以一个较低的硬件成本和人力成本实现这项功能。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于单目摄像头的室内人员定位和行为识别的方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于单目摄像头的室内人员定位和行为识别的方法，其特征在于：所述在步骤1中，对每个进入到室内的人员进行编号，采集面部图像数据，建立数据库，采集的图像数据至少包括正面图像、左侧面图像和右侧面图像。

3.根据权利要求1所述的一种基于单目摄像头的室内人员定位和行为识别的方法，其特征在于：所述在步骤1中，室内区域过大时，划分室内区域，在每个子区域内设置多单个摄像头，划分出的单个子区域面积不大于100㎡，在每一子区域内只需要设置一个摄像头，摄像头围绕该子区域分布。

4.根据权利要求1所述的一种基于单目摄像头的室内人员定位和行为识别的方法，其特征在于：所述在步骤2中，基于摄像头所拍摄的画面，判断是否存在可用于识别的室内人员的人脸图像；若存在，根据识别到的图案或文字，分析得到该人员的室内位置信息，并对其朝向和状态进行识别判断；若不存在，则说明室内不存在该人员。

5.根据权利要求1所述的一种基于单目摄像头的室内人员定位和行为识别的方法，其特征在于：所述在步骤2中，摄像头采集到的图像，判断图像中是否有人脸，对拍摄到的人脸进行识别，得到相应信息，对比数据库分析采集到的图像中每一人员的信息。

6.根据权利要求1所述的一种基于单目摄像头的室内人员定位和行为识别的方法，其特征在于：所述在步骤3中，利用深度估计算法计算出深度值depth。

7.根据权利要求1所述的一种基于单目摄像头的室内人员定位和行为识别的方法，其特征在于：所述在步骤5中，根据单目相机的安装高度、安装角度、焦距、图像的分辨率和标定板所在的位置，对标定图像进行分析，通过单目相机标定算法得到相机的内参和外参。

8.根据权利要求1所述的一种基于单目摄像头的室内人员定位和行为识别的方法，其特征在于：所述在步骤5中，单平面棋盘格的摄像机标定方法及相关矩阵运算将二维图像像素的位置信息(u,v,depth)实时映射到三维(x,y,z)世界坐标上。

9.根据权利要求1所述的一种基于单目摄像头的室内人员定位和行为识别的方法，其特征在于：所述在步骤6中，基于Python语言，应用pytorch框架构建深度学习模型，结合GPU实现对数据集的训练。