CN115861427A

CN115861427A - 一种基于图像识别的室内人员动态定位方法及装置及介质

Info

Publication number: CN115861427A
Application number: CN202310068682.9A
Authority: CN
Inventors: 饶龙强; 郭鹏; 方舟; 刘鹏; 王志刚; 叶超
Original assignee: Chengdu Zhiyuanhui Information Technology Co Ltd
Current assignee: Chengdu Zhiyuanhui Information Technology Co Ltd
Priority date: 2023-02-06
Filing date: 2023-02-06
Publication date: 2023-03-28

Abstract

本发明提供了一种基于图像识别的室内人员动态定位方法及装置及介质，涉及室内定位技术领域，包括：S1：当可转动摄像机转动到角度α时，对可转动摄像机拍摄的视频流进行目标图像的截取，并获得角度α标记的该目标图像与房间底面之间的最优单映射变换矩阵H；S2：获得用于识别可转动摄像机拍摄的目标图像的YOLO模型，通过YOLO模型识别目标图像，得到人在目标图像中的识别框；S3：将所述识别框的下边X的中心点记为人在目标图像上的坐标点(M,N)，并通过角度α标记的该目标图像与房间底面之间的最优单映射变换矩阵H，映射得到人在房间底面上的坐标点(M’,N’)；S4：当可转动摄像机转动到新的角度时，则重复上述步骤。

Description

一种基于图像识别的室内人员动态定位方法及装置及介质

技术领域

本发明涉及室内定位技术领域，具体涉及一种基于图像识别的室内人员动态定位方法及装置及介质。

背景技术

最近几年,随着物联网技术的发展,定位技术也随之发展起来,室内定位技术非常实用，运用广泛，如图书馆，养老院，体育馆，地下车库，学校，仓库等都能够完成对人员及物品的快速定位。

目前，对于室内人员的定位一般通过WIFI探针、UWP等传感器技术来实现定位，但是这些现有的定位技术都存在一些问题，比如WIFI探针虽然成本较低，但是其精准度一般只能达到3米以内，使该定位方法的精准度也较低。

并且，现有的定位技术比较容易受到干扰，由于室内环境的相对狭小和封闭，很多情况下无线信号无法实现视距内的直接传输，导致墙壁、挡板、楼层对无线信道的传播影响很大，同时，室内的声音、或者电器设备的噪声，也会对无线信号造成干扰，进而影响定位的精准度。

发明内容

本发明的目的是提供一种基于图像识别的室内人员动态定位方法及装置及介质，当可转动摄像机转动到角度α时，对可转动摄像机拍摄的视频流进行目标图像的截取，先通过获得角度α标记的该目标图像与房间底面之间的最优单映射变换矩阵H，再通过用于识别可转动摄像机拍摄的目标图像的YOLO模型来识别目标图像，得到人在目标图像中的识别框，选择所述识别框的下边X的中心点记为人目标图像上的坐标点(M,N)，并通过角度α标记的该目标图像与房间底面之间的最优单映射变换矩阵H，映射得到人在房间底面上的坐标点(M’,N’)，当可转动摄像机转动到新的角度时，则重复上述步骤，可以实现对人在房间内的定位，能解决人在室内定位不准确、人员测量误差大等问题。

为解决上述技术问题，本发明采用了以下方案：

一种基于图像识别的室内人员动态定位方法，所述动态定位方法具体包括以下步骤：

S1：当可转动摄像机转动到角度α时，对可转动摄像机拍摄的视频流进行目标图像的截取，并获得角度α标记的该目标图像与房间底面之间的最优单映射变换矩阵H；

S2：获得用于识别可转动摄像机拍摄的目标图像的YOLO模型，通过YOLO模型识别目标图像，得到人在目标图像中的识别框；

S3：将所述识别框的下边X的中心点记为人在目标图像上的坐标点(M,N)，并通过角度α标记的该目标图像与房间底面之间的最优单映射变换矩阵H，映射得到人在房间底面上的坐标点(M’,N’)；

S4：当可转动摄像机转动到新的角度时，则重复上述步骤。

进一步的，所述可转动摄像机为设置在房间上方且视角朝下的可转动摄像机，所述S1的过程具体为：

当可转动摄像机转动到角度α时，对可转动摄像机拍摄的视频流进行目标图像的截取，所述角度α用于标记该目标图像与房间底面之间的最优单映射变换矩阵H，

查询是否有角度α标记的该目标图像与房间底面之间的最优单映射变换矩阵H，若有，则转到步骤SA，若没有，则转到步骤SB，

SA：调用角度α标记的该目标图像与房间底面之间的最优单映射变换矩阵H，

SB：计算该目标图像与房间底面之间的最优单映射变换矩阵H，并将其标记为角度α标记的该目标图像与房间底面之间的最优单映射变换矩阵H。

进一步的，所述SB中具体包括以下步骤：

SB1：在房间底面任意放置n个标记物体，所述n>3；

SB2：建立一个以房间底面为坐标平面的直角坐标系A，分别得到标记物体的中心点在直角坐标系A上的坐标点，记为(X1,Y1)、(X2,Y2)…(Xn,Yn)；

SB3：建立一个以该目标图像为坐标平面的直角坐标系B，分别得到标记物体的中心点在直角坐标系B上的坐标点，记为(X1',Y1')、(X2',Y2')…(Xn',Yn') (X1’,Y1’)、(X2’,Y2’)…(Xn’,Yn’)，所述(X1,Y1)、(X2,Y2)…(Xn,Yn)与(X1’,Y1’)、(X2’,Y2’)…(Xn’,Yn’)一一对应；

SB4：利用最小均方误差法对所有标记物体的中心点在直角坐标系A上的坐标点与对应的直角坐标系B上的坐标点进行计算，得到目标图像与房间底面之间的最优单映射变换矩阵H，并将其标记为角度α标记的该目标图像与房间底面之间的最优单映射变换矩阵H。

进一步的，所述利用最小均方误差法对所有标记物体的中心点在直角坐标系A上的坐标点与对应的直角坐标系B上的坐标点进行计算的过程具体为：

将所有标记物体的中心点在直角坐标系A上的坐标点构建成一个矩阵A1，将所有标记物体的中心点在直角坐标系B上的坐标点构建成一个矩阵B1；

求解矩阵A1到矩阵B1的单映射变换矩阵，再对单映射变换矩阵利用最小均方误差法，将单映射变换矩阵中包含的均方误差最小的3行3列的矩阵作为目标图像与房间底面之间的最优单映射变换矩阵H。

进一步的，所述标记物体为易于被识别出的标记物体。

进一步的，所述获得用于识别可转动摄像机拍摄的目标图像的YOLO模型的过程具体为：

获得预设图像的训练集对于YOLO模型进行预训练，得到用于识别可转动摄像机拍摄的目标图像的YOLO模型。

进一步的，所述预设图像为可转动摄像机拍摄的人在房间内的不同姿态的图像。

进一步的，所述不同姿态包括人面向可转动摄像机的不同倾斜角度。

一种基于图像识别的室内人员动态定位装置，包括：

一个或多个处理器；

存储单元，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，能使得所述一个或多个处理器实现所述的一种基于图像识别的室内人员动态定位方法。

计算机可读存储的介质，其上存储有计算机程序，

所述计算机程序被处理器执行时能实现所述的一种基于图像识别的室内人员动态定位方法。

本发明的有益效果：

本发明提供了一种基于图像识别的室内人员动态定位方法及装置及介质，当对可转动摄像机拍摄的视频流进行目标图像的截取时，将截取目标图像时可转动摄像机的转动角度记为角度α，先通过获得角度α标记的该目标图像与房间底面之间的最优单映射变换矩阵H，再通过用于识别可转动摄像机拍摄的目标图像的YOLO模型来识别目标图像，得到人在目标图像中的识别框，选择所述识别框的下边X的中心点记为人目标图像上的坐标点(M,N)，并通过角度α标记的该目标图像与房间底面之间的最优单映射变换矩阵H，可以映射得到人在房间底面上的坐标点(M’,N’)。

首先，通过最优单映射变换矩阵H来实现对人在室内位置的定位，对比现有技术来说，本发明提供的定位方法不会容易受到室内的声音、或者电器设备的噪声的干扰，进而影响定位的精准度。

并且，选择所述识别框的下边X的中心点记为人目标图像上的坐标点(M,N)，而不选择识别框的其它边，是因为只有识别框的下边X位于房间底面的平面上，而最优单映射变换矩阵H为该目标图像与房间底面之间的最优单映射变换矩阵H，通过反向投影使本发明实现对人在房间内的定位，可以解决人在室内定位不准确、人员测量误差大等问题。

在本发明技术手段中，当对可转动摄像机拍摄的视频流进行目标图像的截取时，需记录此时的可转动摄像机的转动角度，利用转动角度对该目标图像与房间底面之间的最优单映射变换矩阵H进行标记，然后查询存储器中是否有角度α标记的该目标图像与房间底面之间的最优单映射变换矩阵H，若有，则调用，若没有，则计算该目标图像与房间底面之间的最优单映射变换矩阵H，并将其标记为角度α标记的该目标图像与房间底面之间的最优单映射变换矩阵H。根据可转动的摄像机，可以得到不同角度的该目标图像与房间底面之间的最优单映射变换矩阵H，以此来实时的获得人在房间底面上的位置，可以实现一种动态的定位方法。

其中，采用标记物体来计算该目标图像与房间底面之间的最优单映射变换矩阵H，所述标记物体至少四个，先通过标记物体来对房间底面进行位置标定，将标记物体的中心点在直角坐标系A上的坐标点扩张构建成一个矩阵A1，然后根据摄像机拍摄的视频流截取标记图像，将标记物体的中心点在直角坐标系B上的坐标点扩张构建成一个矩阵B1，求解矩阵A1到矩阵B1的单映射变换矩阵，再对单映射变换矩阵利用最小均方误差法，将单映射变换矩阵中包含的均方误差最小的3行3列的矩阵作为最优单映射变换矩阵H，使本发明提供的最优单映射变换矩阵H为投影变化误差最小且两个二维点之间最匹配的矩阵，并找到房间底面与目标图像的两个平面之间的转换矩阵，以便于反向投影错误率达到最小。

附图说明

图1为本发明的流程示意图。

图2为本发明中获得角度α标记的该目标图像与房间底面之间的最优单映射变换矩阵H的流程示意图。

图3为本发明中计算最优单映射变换矩阵H的流程示意图。

图4为本发明的摄像机拍摄的图像的示意图。

图5为本发明的房间底面的平面与识别框所在的平面的几何示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

另外，为了清楚和简洁起见，可能省略了对公知的结构、功能和配置的描述。本领域普通技术人员将认识到，在不脱离本公开的精神和范围的情况下，可以对本文描述的示例进行各种改变和修改。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

下面通过参考附图并结合实施例来详细说明本发明：

实施例1

如图1、图2、图3所示，一种基于图像识别的室内人员动态定位方法，所述动态定位方法具体包括以下步骤：

S4：当可转动摄像机转动到新的角度时，则重复上述步骤。

优选的，所述可转动摄像机为设置在房间上方且视角朝下的可转动摄像机，为了实现动态的定位方法，本发明采用可转动摄像机，当可转动摄像机转动到某一角度时，通过查询是否记录了此角度下的最优单映射变换矩阵H，若有，则直接调用该矩阵进行使用，若没有，则直接计算此角度下的最优单映射变换矩阵H。通过获取实时的可转动摄像机的转动角度，并查询判断是否记录了此角度下的最优单映射变换矩阵H，通过获取此角度下的最优单映射变换矩阵H来对此角度下室内人员进行位置定位，可以实现一种动态的定位方法。

优选的，所述S1的过程具体为：

优选的，所述SB中具体包括以下步骤：

SB1：在房间底面任意放置n个标记物体，所述n>3；

SB3：建立一个以该目标图像为坐标平面的直角坐标系B，分别得到标记物体的中心点在直角坐标系B上的坐标点，记为(X1’,Y1’)、(X2’,Y2’)…(Xn’,Yn’)，所述(X1,Y1)、(X2,Y2)…(Xn,Yn)与(X1’,Y1’)、(X2’,Y2’)…(Xn’,Yn’)一一对应；

优选的，所述利用最小均方误差法对所有标记物体的中心点在直角坐标系A上的坐标点与对应的直角坐标系B上的坐标点进行计算的过程具体为：

求解矩阵A1到矩阵B1的单映射变换矩阵，再对单映射变换矩阵利用最小均方误差法，将单映射变换矩阵中包含的均方误差最小的3行3列的矩阵作为直角坐标系A上的坐标点与直角坐标系B上的坐标点之间的最优单映射变换矩阵H。所述最优单映射变换矩阵H为计算得到的多个二维点对之间的最优单映射变换矩阵。

具体的，一般传统方法计算最优单映射变换矩阵H都需经过以下几个步骤，首先，提取每张图SIFT/SURF/FAST/ORB等特征点，然后提取每个特征点对应的描述子，再通过匹配特征点描述子，找到两张图中匹配的特征点对，最后使用RANSAC算法剔除错误匹配点，并求解方程组来计算最优单映射变换矩阵H。

其中，所述最优单映射变换矩阵H为3行3列，所以该矩阵H有9个未知数，但是只有8个自由度，因为在求该矩阵H时一般会对最后一个未知数添加约束条件，使该矩阵H只有8个自由度。并且，由于直角坐标系A上的坐标点 (X1,Y1)与直角坐标系B上的对应的坐标点(X1’,Y1’)为一组匹配点，所述一组匹配点就可以得到关于映射关系的两组方程，所以只需四组匹配点就可以求解该矩阵H的唯一解。

当获得摄像机拍摄的图像与房间底面之间的最优单映射变换矩阵H时，就可以使用该最优单映射变换矩阵H将摄像机拍摄的图像的四个角点变换到房间底面上去，获得所述四个角点在房间底面上对应的坐标，然后将所述四个角点在房间底面上绘制出来，就可以找到在房间底面上的摄像机拍摄的图像。

优选的，所述标记物体为易于被识别出的标记物体。所述标记物体都是标定位于房间底面上的，所以获得的标记物体的中心点就位于房间底面内。

其中，本发明可以采用OpenCV或者YOLO模型来获得标记物体的中心点所在摄像机拍摄的标记图像为坐标平面的直角坐标系B上的坐标点。

具体的，通过OpenCV所具备的功能，将采集到的摄像机拍摄的标记图像上传到OpenCV，然后通过鼠标在OpenCV上点击图像上的标记物体的中心点就可以显示出这个中心点所在摄像机拍摄的标记图像为坐标平面的直角坐标系B上的坐标点。或者采用YOLO模型对标记图像进行预训练，找到标记物体的中心点并得到该中心点在直角坐标系B上的坐标点。

优选的，所述获得用于识别可转动摄像机拍摄的目标图像的YOLO模型的过程具体为：

具体的，所述YOLO模型为一种目标检测模型。目标检测是计算机视觉中比较简单的任务，用来在一张图片中找到目标物体，目标检测不仅要求对物体的种类进行识别，同时要求对物体的位置进行标记。YOLO的预测是基于整个图像的，并且它会一次性输出所有检测到的目标信息。所以YOLO模型相较于以往的带有建议框的神经网络，检测速度大有提升。本发明中可以采用YOLOv7模型，因为在5FPS到160FPS的范围内，无论是速度或是精度，YOLOv7都超过了目前已知的检测器，并且在GPU V100上进行测试，精度为56.8% AP的模型可达到30 FPS（batch=1）以上的检测速率，与此同时，YOLOv7是目前唯一一款在如此高精度下仍能超过30FPS的检测器。

优选的，所述预设图像为可转动摄像机拍摄的人在房间内的不同姿态的图像。并且，所述不同姿态包括人面向可转动摄像机的不同倾斜角度。因为本发明采用YOLOv7作为图像分析的工具，用来计算图像中人的位置，因此需要参照YOLO的训练方法找到所述摄像机视角下人的图像作为训练集。其中，需要把人在摄像机的视角画面内的不同姿态的图像，比如，正面、侧面、背面、多人重叠等，都作为训练集输入进去，提高YOLO模型的识别率。

如图4所示，当调用经过预训练后的YOLO模型识别摄像机拍摄的图像时，可以得到人在摄像机拍摄的图像上的识别框，本发明选择采用所述识别框的下边X的中心点记为人在直角坐标系B上的坐标点(M,N)。然后通过将人在直角坐标系B上的坐标点(M,N) 代入到摄像机拍摄的图像与房间底面之间的最优单映射变换矩阵H中，映射得到人在直角坐标系A上的坐标点(M’,N’)。

其中，本发明在计算摄像机拍摄的图像与房间底面之间的最优单映射变换矩阵H时，选择以房间底面为坐标平面构建一个直角坐标系A，以摄像机拍摄的图像为坐标平面构建一个直角坐标系B，且将所述标记物体放在房间底面，选择标记物体的中心点作为标记点，所述标记点所在的平面就为房间底面，再通过最小均方误差法对所有标记物体的中心点在直角坐标系A上的坐标点与对应的直角坐标系B上的坐标点进行计算，得到摄像机拍摄的图像与房间底面之间的最优单映射变换矩阵H。所以该最优单映射变换矩阵H为摄像机拍摄的图像的平面与房间底面的平面互相映射之间的最优单映射变换矩阵H。

所以，本发明选择识别框的下边X的中心点记为人在直角坐标系B上的坐标点(M,N)，如图5所示，采用几何示意图来表示所述识别框所在的平面与房间底面的平面的几何关系，可以清楚的看到识别框所在的平面与房间底面的平面是相交的关系，并且两个平面的交线就是识别框的下边X。

并且，所述识别框的上边与摄像机拍摄的图像的上边平行，所述识别框的下边X与摄像机拍摄的图像的下边平行，所述识别框的左边与摄像机拍摄的图像的左边平行，所述识别框的右边与摄像机拍摄的图像的右边平行。所以，识别框所在的平面就为摄像机拍摄的图像的平面，而采用识别框的下边X的中心点就可以保证该点与标记物体的中心点处于同一平面上，可以使本发明对于室内人员的定位结果更加精准。

若采用识别框的上边中心点作为人在直角坐标系B上的坐标点(M,N)代入到最优单映射变换矩阵H中进行映射变换，所述造成的误差会比较大，会导致所述方法对人室内定位的准确率降低。

实施例2

一种基于图像识别的室内人员动态定位装置，包括：

一个或多个处理器；

计算机可读存储的介质，其上存储有计算机程序，

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，依据本发明的技术实质，在本发明的精神和原则之内，对以上实施例所作的任何简单的修改、等同替换与改进等，均仍属于本发明技术方案的保护范围之内。

Claims

1.一种基于图像识别的室内人员动态定位方法，其特征在于，所述动态定位方法具体包括以下步骤：

S4：当可转动摄像机转动到新的角度时，则重复上述步骤。

2.根据权利要求1所述的一种基于图像识别的室内人员动态定位方法，其特征在于，所述可转动摄像机为设置在房间上方且视角朝下的可转动摄像机，所述S1的过程具体为：

3.根据权利要求2所述的一种基于图像识别的室内人员动态定位方法，其特征在于，所述SB中具体包括以下步骤：

SB1：在房间底面上任意放置n个标记物体，所述n>3；

4.根据权利要求3所述的一种基于图像识别的室内人员动态定位方法，其特征在于，所述利用最小均方误差法对所有标记物体的中心点在直角坐标系A上的坐标点与对应的直角坐标系B上的坐标点进行计算的过程具体为：

5.根据权利要求3所述的一种基于图像识别的室内人员动态定位方法，其特征在于，所述标记物体为易于被识别出的标记物体。

6.根据权利要求1所述的一种基于图像识别的室内人员动态定位方法，其特征在于，所述获得用于识别可转动摄像机拍摄的目标图像的YOLO模型的过程具体为：

7.根据权利要求6所述的一种基于图像识别的室内人员动态定位方法，其特征在于，所述预设图像为可转动摄像机拍摄的人在房间内的不同姿态的图像。

8.根据权利要求7所述的一种基于图像识别的室内人员动态定位方法，其特征在于，所述不同姿态包括人面向可转动摄像机的不同倾斜角度。

9.一种基于图像识别的室内人员动态定位装置，其特征在于，包括：

一个或多个处理器；

存储单元，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，能使得所述一个或多个处理器实现根据权利要求1至8中任意一项所述的一种基于图像识别的室内人员动态定位方法。

10.计算机可读存储的介质，其上存储有计算机程序，其特征在于，

所述计算机程序被处理器执行时能实现根据权利要求1至8中任意一项所述的一种基于图像识别的室内人员动态定位方法。