CN110991297A

CN110991297A - 一种基于场景监控的目标定位方法及系统

Info

Publication number: CN110991297A
Application number: CN201911175561.4A
Authority: CN
Inventors: 李子申; 李瑞东; 吴海涛; 潘军道; 刘振耀; 刘伟
Original assignee: Academy of Opto Electronics of CAS
Current assignee: Academy of Opto Electronics of CAS
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2020-04-10

Abstract

本发明实施例提供一种基于场景监控的目标定位方法及系统，该方法包括：通过摄像头获取场景区域的二维图像；基于训练好的Mask RCNN模型对所述二维图像进行目标检测，得到所述二维图像中每个目标的二维像素坐标信息，所述训练好的Mask RCNN模型是由所述场景区域的样本二维图像训练得到的；根据EPnP算法对每个目标的二维像素坐标信息和所述摄像头的内参数据进行处理，得到所述场景区域中多个目标的定位信息。本发明实施例通过Mask RCNN算法进行目标检测，并根据EPnP算法实现目标定位，从而对场景区域内的目标进行实时定位，提高了目标定位精确度。

Description

一种基于场景监控的目标定位方法及系统

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于场景监控的目标定位方法及系统。

背景技术

位置信息正在人们的生活中扮演着越来越重要的角色，从交通出行到快递物流，都需要位置信息作为支撑。与此同时，随着智能移动端的兴起，绝大部分终端应用都与位置信息有着密切的联系，位置信息的使用已经渗透到人们生活中的方方面面。伴随着位置信息的广泛使用，人们对位置信息的要求也越来越高，从粗略位置信息到精确位置信息，从室外位置信息到室内位置信息，这些要求对现有的定位方式提出了新的挑战。

基于视觉的定位技术为上述问题的解决提供了一种新思路，现有的无人机机载光电平台目标定位的方法，其中基于图像匹配的定位算法在已知目标区域基准图的情况下，利用无人机航拍获取目标区域图像与基准图进行匹配，获取航拍图像中目标的坐标位置，然而，该方案定位精度依赖于基准图精度，且实时性较差；另外，基于总体最小二乘法的目标定位方法，虽然不依赖于控制点和基准地图等先验信息，不局限无人机和光电平台姿态等限制条件，但定位精度较差。

因此，现在亟需一种基于场景监控的目标定位方法及系统来解决上述问题。

发明内容

针对现有技术存在的问题，本发明实施例提供一种基于场景监控的目标定位方法及系统。

第一方面，本发明实施例提供了一种基于场景监控的目标定位方法，包括：

通过摄像头获取场景区域的二维图像；

基于训练好的Mask RCNN模型对所述二维图像进行目标检测，得到所述二维图像中每个目标的二维像素坐标信息，所述训练好的Mask RCNN模型是由所述场景区域的样本二维图像训练得到的；

根据EPnP算法对每个目标的二维像素坐标信息和所述摄像头的内参数据进行处理，得到所述场景区域中多个目标的定位信息。

进一步地，所述训练好的Mask RCNN模型通过以下步骤得到：

根据场景区域的样本二维图像构建第一训练样本集；

通过所述第一训练样本集，对Mask RCNN算法的模型进行训练，得到训练好的MaskRCNN模型。

进一步地，所述训练好的Mask RCNN模型还通过以下步骤得到：

通过MS COCO数据集构建第二训练样本集；

将所述第二训练样本集中的数据输入到Mask RCNN算法进行训练，得到预训练的Mask RCNN模型；

通过场景区域的样本二维图像，对所述预训练的Mask RCNN模型的参数进行调整，得到训练好的Mask RCNN模型。

进一步地，在所述根据EPnP算法对每个目标的二维像素坐标信息和所述摄像头的内参数据进行处理，得到所述场景区域中多个目标的定位信息之前，所述方法还包括：

根据所述二维图像中每个目标的二维像素坐标信息，获取所述二维图像中每个目标的标定框信息；

将每个目标的标定框信息作为参考点的参考值，以用于获取每个参考点的参考点像素坐标信息，并根据所述参考点像素坐标信息获取摄像头的内参数据。

进一步地，所述根据所述参考点像素坐标获取摄像头的内参数据，包括：

基于张正友标定法，对参考点像素坐标信息进行数据标定处理，得到摄像头的内参数据。

进一步地，在所述通过摄像头获取场景区域的二维图像之后，所述方法还包括：

对所述二维图像进行预处理，所述预处理包括对比度、亮度、加白噪声或色调的处理。

第二方面，本发明实施例提供了一种基于场景监控的目标定位系统，包括：

获取模块，用于通过摄像头获取场景区域的二维图像；

目标检测模块，用于基于训练好的Mask RCNN模型对所述二维图像进行目标检测，得到所述二维图像中每个目标的二维像素坐标信息，所述训练好的Mask RCNN模型是由所述场景区域的样本二维图像训练得到的；

定位模块，用于根据EPnP算法对每个目标的二维像素坐标信息和所述摄像头的内参数据进行处理，得到所述场景区域中多个目标的定位信息。

进一步地，所述系统还包括：图像预处理模块，用于对所述二维图像进行预处理，所述预处理包括对比度、亮度、加白噪声或色调的处理。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的一种基于场景监控的目标定位方法及系统，通过Mask RCNN算法进行目标检测，并根据EPnP算法实现目标定位，从而对场景区域内的目标进行实时定位，提高了目标定位精确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于场景监控的目标定位方法的流程示意图；

图2为本发明实施例提供的基于场景监控的目标定位系统的结构示意图；

图3为本发明实施例提供的电子设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的基于场景监控的目标定位方法的流程示意图，如图1所示，本发明实施例提供了一种基于场景监控的目标定位方法，包括：

步骤101，通过摄像头获取场景区域的二维图像。

在本发明实施例中，将现有的常规摄像头作为数据采集终端，实时获取场景区域的二维图像信息，具有更稳定，应用范围更广，且易于与现有的监控设备集成，从而实现快速部署的效果。

步骤102，基于训练好的Mask RCNN(Mask Region-CNN)模型对所述二维图像进行目标检测，得到所述二维图像中每个目标的二维像素坐标信息，所述训练好的Mask RCNN模型是由所述场景区域的样本二维图像训练得到的。

在本发明实施例中，通过训练好的Mask RCNN模型检测二维图像中的目标，提取二维图像中所有目标的标注框信息，从而得到每个目标的二维像素坐标信息，以用于为后续目标定位提供数据基础。需要说明的是，二维图像中的目标可以是人物、车辆或动植物等，针对场景监控的实际要求设置对应的监控目标，本发明实施例对此不作具体限定。

步骤103，根据EPnP算法对每个目标的二维像素坐标信息和所述摄像头的内参数据进行处理，得到所述场景区域中多个目标的定位信息。

在本发明实施例中，基于EPnP(Efficient Perspective-n-Point)算法，根据每个目标的二维像素坐标信息和摄像头的内参数据，获取得到二维图像中目标的三维坐标，从而实现对二维图像中多个目标进行定位。在本发明实施例中，摄像头的内参数据可通过从二维图像上手动设置参考点，从而标定得到该摄像头的内参数据。

本发明实施例提供的一种基于场景监控的目标定位方法，通过Mask RCNN算法进行目标检测，并根据EPnP算法实现目标定位，从而对场景区域内的目标进行实时定位，提高了目标定位精确度。

在上述实施例的基础上，所述训练好的Mask RCNN模型通过以下步骤得到：

根据场景区域的样本二维图像构建第一训练样本集；

通过所述第一训练样本集，对Mask RCNN算法模型进行训练，得到训练好的MaskRCNN模型。

在上述实施例的基础上，优选地，所述训练好的Mask RCNN模型还通过以下步骤得到：

通过MS COCO数据集构建第二训练样本集；

在本发明实施例中，通过获取场景区域的样本二维图像构建第一训练样本集，并通过第一训练样本集对Mask RCNN模型进行训练，可得到训练好的Mask RCNN模型。为了提高训练效率和模型准确率，优选地，在本发明实施例中，可通过迁移学习得到训练好的MaskRCNN模型，进而提升其目标检测准确率。迁移学习的目标是从一个或者多个任务中提取有用知识并将其用在新的目标任务上，本质上是知识的迁移再利用，在本发明实施例中，可基于一个预训练的Mask RCNN模型，通过对模型参数进行调整，使其适用于本发明实施例中的目标检测问题。具体地，Mask RCNN算法通过MS COCO数据集训练得到预训练的Mask RCNN模型，在本发明实施例中，预训练的Mask RCNN模型以80000张图片作为训练数据集、35000张图片作为验证数据集和5000张图片作为测试数据集，针对80类目标实现目标分类、目标检测以及目标分割，其性能已经满足大部分应用场景。进一步地，以预训练的Mask RCNN模型为基础，获取实际应用场景的图像数据(即场景区域的样本二维图像)，将其制作成数据集对预训练的Mask RCNN模型进行迁移学习，通过对预训练模型中的模型参数进行调整，得到训练好的的模型参数，能够使模型更快的收敛，减少了训练耗时，且保证了准确率；同时，结合实际应用场景的数据，使得训练得到的模型参数更适合当前应用场景。在本发明实施例中，可将训练得到的模型参数预加载到系统内存中，以使得在对目标进行实时定位时，系统可直接调用，避免了重复读取模型参数的过程，显著提升了目标检测的速度。

在上述实施例的基础上，在所述根据EPnP算法对每个目标的二维像素坐标信息和所述摄像头的内参数据进行处理，得到所述场景区域中多个目标的定位信息之前，所述方法还包括：

在本发明实施例中，在根据EPnP算法进行目标定位之前，需要获取参考点的像素坐标和真实位置坐标，从而通过数据标定获取摄像头的内参数据，为目标定位提供数据基础。在本发明实施例中，基于张正友标定法，对参考点像素坐标信息进行数据标定处理，得到摄像头的内参数据。

进一步地，通常情况下是从二维图像上手动选取参考点，为了进一步提高参考点的可靠性，本发明实施例将被定位目标的检测结果对应的标定框信息作为参考点像素计算的参考值，从而获取每个参考点的参考点像素坐标信息，需要说明的是，可选取被定位目标的标定框的下边框中点或标定框的中心点作为参考点，本发明实施例对此不作具体限定。

通过上述实施例获取到的参考点像素坐标信息，相比手动选取参考点的方式，使得获取参考点像素值导致的误差减少，并且通过当前获取的二维图像实时获取参考点像素值，从而实时进行数据标定，获取的摄像头内参数据更适用于目标定位。

在上述实施例的基础上，在所述通过摄像头获取场景区域的二维图像之后，所述方法还包括：

在本发明实施例中，对原始二维图像进行各种图片处理，包括对比度、亮度、加白噪声或色调的处理。在整个预处理过程中，主要目的在于消除原始二维图像中的冗余信息，滤除干扰和噪声，恢复必要的真实信息，从而增加相关信息的可检测性，尽可能为后续处理提高数据质量。

在本发明一实施例中，以某会展大厅的场景监控进行说明，通过对该大厅中的所有人物目标进行实时定位，进而测试本发明实施例提供的目标定位方法的有效性与精度。

进一步地，在数据准备阶段，主要是调整Mask RCNN算法所需的模型参数以及EPnP算法所需的摄像头内参。具体地，在本发明实施例中，摄像头型号为DH-IPC-HFW4631M-12，通过实时流传输协议(Real Time Streaming Protocol，简称RTSP)从摄像头拍摄的视频中读取图像数据，视频分辨率设置为1920*1080，帧率设置为20fps。在该场景区域中，由于相邻两帧图像之间几乎没什么变化，因此每秒钟从20帧图像中抽取1帧即可，即每获取1帧图像之后跳过接下来的19帧图像，然后继续获取下一帧图像。在本发明实施例中，首先获取该会展大厅上午9点到下午4点期间的拍摄图像，每个小时内随机抽取100张图片，共计700张二维图像，并经过处理制作成算法训练数据集，在预训练的Mask RCNN模型的基础之上，通过迁移学习得到调整后的模型参数；然后，选取8组参考点用于获取摄像头内参，参考点的实际位置通过人工测量的方式获取得到，参考点像素坐标信息通过检测到的目标对应的标定框信息得到，并采用张正友标定法进行数据标定，从而获取高精度的摄像头内参数据。

进一步地，对采集到的二维图像中多个目标进行实时同步定位，具体步骤为：

步骤S1，实时获取摄像头采集的二维图像，该获取过程和数据准备阶段时的获取过程类似，即每获取1帧图像之后跳过接下来的19帧图像，然后继续获取下一帧图像；

步骤S2，基于训练好的Mask RCNN模型，对二维图像进行目标检测处理，提取二维图像中所有目标的标定框信息，即得到所有目标的二维像素坐标信息；

步骤S3，通过EPnP算法，对摄像头的内参数据以及所有目标的标定框信息进行定位解算，从而实现该会展大厅中多个目标的定位。需要说明的是，本发明实施例的场景为会展大厅，高程信息在目标检测过程中被认为是恒定的，识别出来的目标为人物，将检测到的目标对应的标定框的下边框中间位置，作为该目标定位求解的位置，即将标定框的下边框中间点作为参考点。

具体地，通过上述实施例对该会展大厅的目标定位，得到不同时间段的目标检测结果，以用于对本发明实施例提供的目标定位方法的准确率进行验证。进一步地，将该会展大厅上午9点到下午4点之间，每个小时内拍摄的二维图像中随机抽取5张，统计每个小时中5张图像内人物目标数量总和，以及通过Mask RCNN模型检测到的人物目标数量总和，并计算其检测准确率(检测准确率＝检测目标数量/实际目标数量*100％)，同时统计5张图像目标检测的平均耗时，统计结果如表1所示：

表1

参考表1可知，本发明实施例提供的目标定位方法的准确率不低于80％，其中，未被检测出来的目标，主要是由于目标本身在图像上不完整，造成这一现象的原因包括目标处于图像的边缘部分或者目标之间出现重叠等；除此之外，目标与背景部分过于相似等原因也会导致检测失败。在实际应用中这都是不可避免的情况，如果不考虑图像上不完整的目标或对图像进行相应的预处理，则本发明实施例提供的目标定位方法的准确率能进一步提升，即使不进行图像预处理，其检测性能满足使用要求，并且，整个目标检测过程平均耗时不超过650毫秒，时效性也满足使用要求。

进一步地，为了定量的说明定位结果的精度，本发明实施例选取8组目标点，分别测量其实际位置值，然后根据定位算法求解其定位结果值，并计算其误差，同时统计定位解算耗时，结果可参考表2所示：

表2

在表2中，X₁和Y₁分别代表该组目标点实际位置的X和Y坐标，由于高程信息是恒定的，因此，在本发明实施例中无需统计Z坐标；X₂和Y₂分别代表该组目标点通过目标检测算法求解得到的定位结果的X₂和Y₂坐标，其中，ΔX＝X₂-X₁，ΔY＝Y₂-Y₁，

可参考表2，在8组目标点中，误差最大的是第1组目标点，为58.76厘米，误差最小的是第8组目标点，误差约为1.92厘米。也就是说，本发明实施例提供的基于场景监控的目标定位方法，定位误差都小于1米，并且定位过程耗时不超过50毫秒，包括目标检测等处理过程，整个定位全过程耗时小于1秒，实现了近实时定位。

在本发明实施例中，以摄像头作为数据采集终端，易于部署和集成，简化了图像输入的获取方式，能对多目标同时进行定位，并且目标定位精度误差小于1米，定位时长小于1秒，实现了实时定位。

图2为本发明实施例提供的基于场景监控的目标定位系统的结构示意图，如图2所示，本发明实施例提供了一种基于场景监控的目标定位系统，包括获取模块201、目标检测模块202和定位模块203，其中，获取模块201用于通过摄像头获取场景区域的二维图像；目标检测模块202用于基于训练好的Mask RCNN模型对所述二维图像进行目标检测，得到所述二维图像中每个目标的二维像素坐标信息，所述训练好的Mask RCNN模型是由所述场景区域的样本二维图像训练得到的；定位模块203用于根据EPnP算法对每个目标的二维像素坐标信息和所述摄像头的内参数据进行处理，得到所述场景区域中多个目标的定位信息。

在本发明实施例中，获取模块201可以为将现有的常规摄像头，实时获取场景区域的二维图像信息，具有更稳定，应用范围更广，且易于与现有的监控设备集成，从而实现快速部署的效果。然后，目标检测模块202通过训练好的Mask RCNN模型检测二维图像中的目标，提取二维图像中所有目标的标注框信息，从而得到每个目标的二维像素坐标信息，以用于为后续目标定位提供数据基础。需要说明的是，二维图像中的目标可以是人物、车辆或动植物等，针对场景监控的实际要求设置对应的监控目标，本发明实施例对此不作具体限定。最后，定位模块203基于EPnP算法，根据每个目标的二维像素坐标信息和摄像头的内参数据，获取得到二维图像中目标的三维坐标，从而实现对二维图像中多个目标进行定位。在本发明实施例中，实时定位的输入是获取模块201实时拍摄的二维RGB图像，由于检测算法和定位算法的时效性，整个定位过程的时效性也能得以保障。通过获取模块201获取二维图像，同时也意味着被定位目标无需拍摄额外的图像，实现了目标被动定位，且该定位方式将所有定位目标置于统一的坐标系中，避免了不同坐标系之间的转换，确保了多目标实时同步定位的实现。

本发明实施例提供的一种基于场景监控的目标定位系统，通过Mask RCNN算法进行目标检测，并根据EPnP算法实现目标定位，从而对场景区域内的目标进行实时定位，提高了目标定位精确度。

在上述实施例的基础上，所述系统还包括：图像预处理模块，用于对所述二维图像进行预处理，所述预处理包括对比度、亮度、加白噪声或色调的处理。

本发明实施例提供的系统是用于执行上述各方法实施例的，具体流程和详细内容请参照上述实施例，此处不再赘述。

图3为本发明实施例提供的电子设备结构示意图，参照图3，该电子设备可以包括：处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303和通信总线304，其中，处理器301，通信接口302，存储器303通过通信总线304完成相互间的通信。处理器301可以调用存储器303中的逻辑指令，以执行如下方法：通过摄像头获取场景区域的二维图像；基于训练好的Mask RCNN模型对所述二维图像进行目标检测，得到所述二维图像中每个目标的二维像素坐标信息，所述训练好的Mask RCNN模型是由所述场景区域的样本二维图像训练得到的；根据EPnP算法对每个目标的二维像素坐标信息和所述摄像头的内参数据进行处理，得到所述场景区域中多个目标的定位信息。

此外，上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的基于场景监控的目标定位方法，例如包括：通过摄像头获取场景区域的二维图像；基于训练好的Mask RCNN模型对所述二维图像进行目标检测，得到所述二维图像中每个目标的二维像素坐标信息，所述训练好的Mask RCNN模型是由所述场景区域的样本二维图像训练得到的；根据EPnP算法对每个目标的二维像素坐标信息和所述摄像头的内参数据进行处理，得到所述场景区域中多个目标的定位信息。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于场景监控的目标定位方法，其特征在于，包括：

通过摄像头获取场景区域的二维图像；

2.根据权利要求1所述的基于场景监控的目标定位方法，其特征在于，所述训练好的Mask RCNN模型通过以下步骤得到：

根据场景区域的样本二维图像构建第一训练样本集；

3.根据权利要求1所述的基于场景监控的目标定位方法，其特征在于，所述训练好的Mask RCNN模型还通过以下步骤得到：

通过MS COCO数据集构建第二训练样本集；

将所述第二训练样本集中的数据输入到Mask RCNN算法进行训练，得到预训练的MaskRCNN模型；

4.根据权利要求1所述的基于场景监控的目标定位方法，其特征在于，在所述根据EPnP算法对每个目标的二维像素坐标信息和所述摄像头的内参数据进行处理，得到所述场景区域中多个目标的定位信息之前，所述方法还包括：

5.根据权利要求4所述的基于场景监控的目标定位方法，其特征在于，所述根据所述参考点像素坐标获取摄像头的内参数据，包括：

6.根据权利要求1所述的基于场景监控的目标定位方法，其特征在于，在所述通过摄像头获取场景区域的二维图像之后，所述方法还包括：

7.一种基于场景监控的目标定位系统，其特征在于，包括：

获取模块，用于通过摄像头获取场景区域的二维图像；

8.根据权利要求7所述的基于场景监控的目标定位系统，其特征在于，所述系统还包括：图像预处理模块，用于对所述二维图像进行预处理，所述预处理包括对比度、亮度、加白噪声或色调的处理。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述基于场景监控的目标定位方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6任一项所述基于场景监控的目标定位方法的步骤。