CN110009561B

CN110009561B - 一种监控视频目标映射到三维地理场景模型的方法及系统

Info

Publication number: CN110009561B
Application number: CN201910285390.4A
Authority: CN
Inventors: 解愉嘉; 毛波; 王飞跃
Original assignee: Nanjing University of Finance and Economics
Current assignee: Nanjing University of Finance and Economics
Priority date: 2019-04-10
Filing date: 2019-04-10
Publication date: 2023-04-18
Anticipated expiration: 2039-04-10
Also published as: CN110009561A

Abstract

本发明实施例公开了一种监控视频目标映射到三维地理场景模型的方法及系统，涉及视频流与三维模型实时融合技术领域,该方法包括以下步骤：首先读取监控探头视频图像，然后在三维地理场景模型中采集同名点对，获取同名点对的图像坐标和地理坐标，建立视频图像与地理空间的映射关系；再通过视频目标检测处理，获取图像中视频目标区域与子图影像；最后使用视频与地理空间映射关系模型，将视频目标子图影像映射于地理场景模型中实现可视化融合。实施本发明的有益效果是建立了视频目标与地理场景的映射关系，增强了监控视频在地理场景中融合表达的效果，为视频地理场景信息一体化的快速检索与高效理解提供极大的便利。

Description

一种监控视频目标映射到三维地理场景模型的方法及系统

背景技术

监控视频被广泛应用于安防、交通、环境监测等多个领域。近十年来，我国每年新增的摄像头数量已达数百万个，并且逐年快速增长。监控视频数据具有数据量大、高价值信息稀疏分布等特性，制约着人对视频信息的快速理解与有效使用，造成了视频人工浏览检索效率低下、视频数据传输冗余等问题。另一方面，当前监控视频表达多釆用“井”字窗格、各自独立的视图模式，但仅依靠监控图像数据无法有效完成视频目标对象时空行为分析、视频场景模拟、区域状态监测等诸多复杂的监控任务。由于地理信息具有空间性、时序性、多维性等优势，将监控视频与地理信息进行融合分析，可在地理空间中挖掘视频隐含的时空信息，降低视频处理难度，因此，监控视频与GIS的融合表达与分析技术逐渐受到重视。

然而对于监控视频与三维地理空间数据的融合，当前现有的融合模式往往在实际部署和使用中，会存在以下困难和问题：

第一、视频在三维地理空间数据的映射结果失真；

第二、不能有效表达图像的空间信息；

第三、缺乏对视频中动态信息的智能分析表达。

基于以上的问题，亟需一种新的监控视频目标映射到三维地理场景模型的方法及系统的技术方案。

发明内容

为此，本发明实施例提供一种监控视频目标映射到三维地理场景模型的方法及系统，以解决现有技术中视频映射结果失真，不能有效表达图像的空间信息以及缺乏对视频中动态信息的智能分析表达的问题。

为了实现上述目的，本发明实施例提供如下技术方案：

根据本发明实施例的第一方面，一种监控视频目标映射到三维地理场景模型的方法，包括以下步骤：

S1：获取接入监控探头的视频序列图像信息，并在视频图像和三维地理场景模型采集同名点对，获取同名点的图像坐标和地理坐标；

S2：基于同名点对坐标数据，建立视频图像与地理空间的映射关系；

S3：采用基于深度学习Mask RCNN的方法实现视频目标的检测与分割，从视频图像中获得视频目标图像范围并提取子图；

S4：基于视频图像与地理空间的相互映射关系，实现视频目标的地理空间定位；

S5：基于相机位置、视线方向、视频目标位置，实现视频目标子图在虚拟地理场景模型中的可视化表达；

S6：重复步骤S3、S4、S5，对实时视频流的每一帧图像循环处理，得到每一帧视频图像中的视频目标位置与子图，与三维场景模型进行融合表达。

进一步地，步骤S1所述的视频图像为截取监控视频的第一帧图像。

进一步地，步骤S1所述的三维地理场景模型指根据真实地理场景量测信息构建的三维场景模型，所述视频图像和虚拟地理场景上采集同名点对的数量不少于3对，且不能全部共线。

进一步地，步骤S2所述的建立视频图像与地理空间的映射关系，包括以下步骤：

S20：记选取图像平面的某一点q坐标为q(x,y)，q在三维地理空间所对应的点Q坐标为Q(X，Y，Z)，将q和Q写为齐次坐标形式：

q＝[x y 1]^T

Q＝[X Y Z 1]^T；

S21：将映射关系表达模型通过单应矩阵M、q与Q的关系的数学形式进行表达：

q＝MQ；

S22：把经过了放缩、平移、旋转三种变化的视频图像平面到三维地理空间对应的单映矩阵M进行分解，经简化矩阵M后的数学表达式为：

其中s是放缩系数，f_μ、f_ν分别是透镜的物理焦距长度与成像传感器每个单元横、纵轴方向尺寸的乘积，u、ν是相机中图像成像中心相对于主光轴的偏移量，[r₁ r₂ t]中的r₁、r₂表示坐标系之间的旋转关系，t表示坐标系之间的平移关系；

S23：将已经获得的其它两对同名点图像坐标与地理空间坐标写成齐次坐标形式，把三对齐次坐标组带入所述映射关系表达模型中，求得所述单映矩阵M的解。

进一步地，步骤S3所述视频目标包括视频图像中出现的行人、非机动车以及机动车三类对象，所述视频目标子图定义为，视频图像中每个实体对象的最小外接矩形边框区域。

进一步地，步骤S3所述的从视频图像中获得视频目标图像范围并提取子图，包括以下步骤：

S30：根据监控视频图像序列，逐帧截取视频并保存成图像格式；

S31：将视频图像送入Mask RCNN模型中，得到具有物体标识、位置信息以及矩形框选的分割目标子图后的图片；

S32：保存分割后的目标子图，并记录其外接矩形信息(x,y,w,h,num)，其中x、y分别是矩形左上角的横、纵坐标，w、h分别是矩形的宽和高，num代表截取的子图在原视频中的帧序号。

进一步地，步骤S4所述视频目标的地理空间定位，包括以下步骤：

S40：根据所述目标子图外接矩形信息(x,y,w,h,num)，分别求出矩形的左上、左下和右上三点的坐标q_LT(x,y)、q_LL(x,y+h)和q_RT(x+w,y)，并计算目标子图的矩形质心坐标q_Centroid(x_Centroid,y_Centroid)，其中：

x_Centroid＝(x+w)/2

y_Centroid＝(y+h)/2；

S41：根据步骤S2求解出的视频图像与三维地理空间的映射关系，将所述目标子图外接矩形三个顶点坐标q_LT、q_LL、q_RT和所述矩形质心坐标q_Centroid映射到三维地理空间中，得到它们在三维空间中的坐标Q_LT(X_LT,Y_LT,Z_LT)、Q_LL(X_LL,Y_LL,Z_LL)、Q_RT(X_RT,Y_RT,Z_RT)和Q_Centroid(X_Centroid,Y_Centroid,Z_Centroid)；

S42：把所有目标子图调整到宽、高分别为

的固定大小，由此确定目标子图在三维地理空间的坐标位置Q_Centroid(X_Centroid,Y_Centroid,Z_Centroid)、成像大小

以及所在帧数num，

的计算仅进行一次，直接应用于后面的视频序列。

进一步地，步骤S5所述的虚拟场景模型中视频目标可视化表达，包括以下步骤：

S51:根据所截取视频帧的宽W_p、高H_p，计算相机在三维地理场景中的视域，根据相机在地理空间的位置，确定相机在三维地理场景中的位置及视角；

S52:设置目标子图在三维地理空间中显示的帧率fps，根据fps对相机视域内的目标子图不断进行更新，包括在三维地理空间中的相机视域内显示当前帧所有的目标子图，不再显示旧的目标子图，不同的目标子图的显示与更新互不干扰。

进一步地，步骤S3所述视频图像中若无视频目标，则直接跳过此视频帧，不进行步骤S4、S5的处理。

根据本发明实施例的第二方面，一种监控视频目标映射到三维地理场景模型的系统，所述系统包括：

同名点获取模块:用于在视频图像和三维地理场景模型采集同名点对，获取同名点的图像坐标和地理坐标；

映射模型构建模块:用于基于同名点对坐标数据，建立视频图像与地理空间的映射关系；

视频目标检测与子图提取模块:用于实现视频目标的检测与分割，从视频图像中获得视频目标图像范围并提取子图；

视频目标定位模块:用于基于视频图像与地理空间的相互映射关系，实现视频目标的地理空间定位；

三维场景中视频目标可视化表达模块:用于基于相机位置、视线方向、视频目标位置，实现视频目标子图在虚拟地理场景模型中的可视化表达。

本发明实施例具有如下优点：

能够从视频中提取用户所感兴趣的视频目标进行独立显示，实现了城镇公共环境下监控视频目标到三维地理场景模型的映射。映射结果具有精确性与实时性，有效表达了视频图像的空间信息以及有对视频中动态信息的智能分析表达，为视频地理场景信息一体化的快速检索与高效理解提供极大的便利，同时也可实现有效的区域实时状态监控，以保障社会公共安全，为地理环境监测、突发事件预警及处理等工作提供有力支撑。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明实施例中提供的一种监控视频目标映射到三维地理场景模型的方法流程图；

图2为本发明实施例中提供的一种视频图像平面坐标到三维空间坐标映射关系示意图；

图3为本发明实施例中提供的一种视频图像中提取目标子图示意图；

图4为本发明实施例中提供的一种视频目标与三维场景融合的存储数据与模型示意图；

图5为本发明实施例中提供的一种虚拟三维地理空间相机视角选取示意图；

图6为本发明实施例中提供的一种对应实际场景的虚拟三维地理空间相机视域示意图；

图7为本发明实施例中提供的一种监控视频目标在三维地理场景中的可视化表达效果示意图；

图8为本发明实施例中提供的一种监控视频目标映射到三维地理场景模型的系统架构示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，提供一种监控视频目标映射到三维地理场景模型的方法，包括以下步骤：

其中同名点是预先在地理空间中标记的，地理坐标已知，且采用与三维地理模型相同的坐标系。

S6：重复步骤S3、S4、S5，对实时视频流的每一帧图像循环处理，得到每一帧视频图像中的视频目标位置与子图，与三维场景模型进行融合表达，直到结束获取接入监控探头的视频序列图像信息。

基于单应矩阵法通过寻找已知的图像空间与地理空间同名点求解映射矩阵，从而实现基于映射矩阵的图像坐标与地理坐标映射变换。具体参见图2，摄站中心记为C，像方空间坐标系记为O_iX_iY_i，物方空间坐标系记为O_gX_gY_gZ_g，通过求解O_iX_iY_i与O_gX_gY_gZ_g的映射关系，实现视频场景空间化。

单应矩阵法通过假定物方空间为二维平面，将二维平面上的点映射到摄像机成像仪上，计算一组在同一个三维平面上的点在不同的二维图像中的投影位置。

q＝[x y 1]^T

Q＝[X Y Z 1]^T；

q＝MQ；

S31：将视频图像送入Mask RCNN模型中，得到具有物体标识、位置信息以及矩形框选的分割目标子图后的图片，其效果图如图3所示；

Mask RCNN具体的处理过程如下:

(1)采用标准神经网络作为图像特征提取器，将图像从RGB的张量转化成特征图，作为下一阶段的输入。

(2)使用区域建议网络(RPN)，通过滑动对图像不同区域进行扫描，为每个区域生成两个输出：区域类别(即前景或者背景)和边框精调，通过精调区域，尽可能使得前景包含在区域类别中。

(3)通过ROI分类器将目标细化分类(如人、车等)，边界回归器对边框的位置和尺寸进行更进一步的微调，使得其将目标完全封装。然后通过ROIAlign进行池化操作，将剪切出来的特征图重新调整为固定尺寸。

(4)将池化后的特征图采用全卷积网络(FCN)生成掩码，即Mask过程(分割)。

x_Centroid＝(x+w)/2

y_Centroid＝(y+h)/2；

S42：把所有目标子图调整到宽、高分别为

以及所在帧数num，得到的数据模型如图4所示，

的计算仅进行一次，直接应用于后面的视频序列。

其中

的计算，包括以下步骤：

(1)接入监控探头获取视频图像，从检测到目标的第一帧图像开始算起，从前m帧视频中选取n个目标子图外接矩形(一般情况下，m≥1000,n≥100)，分别计算出目标子图外接矩形q_LT、q_LL、q_RT三个顶点和质心q_Centroid坐标映射到三维地理空间中的坐标Q_LT、Q_LL、Q_RT和Q_Centroid。

(2)分别求出目标子图外接矩形在三维空间中所对应的宽W、高H。

其中W、H计算公式如下：

W＝|X_LT-X_RT|

H＝|Z_LT-Z_LL|

(3)计算出n个目标子图在视频图像空间和三维地理空间平均的宽、高

其数学表达式如下：

其中，当

分别表示

时，X分别代表目标子图外接矩形的宽w、高h。当

分别表示

时，X代表目标子图外接矩形在三维地理空间中的宽W、高H。

关于计算相机在三维地理场景中的视域的具体方法包括：根据所截取视频帧的宽W_p、高H_p，得到视频帧的左上、左下、右上和右下四点的平面坐标v_LT(0,0)、v_LL(0,H_p)、v_RT(W_p,0)和v_RL(W_p,H_p)通过映射矩阵M，得到它们在三维空间中的坐标点V_LT、V_LL、V_RT和V_RL，由V_LT、V_LL、V_RT和V_RL四个点所构成的外接多边形即为相机在三维地理场景中的视域。

关于相机在三维地理场景中的位置及视角的选取，参见图5，在监控相机的地理空间位置与姿态固定的前提下，通过在虚拟场景中选择合适的虚拟相机位置与视角，获得相应的虚拟场景可视化效果。通过对拍摄场景进行实地量测，获得场景高程坐标Z₀与相机的地理空间位置坐标t_cam＝(X_cam,Y_cam,Z_cam)。由映射矩阵M，求得图像中心点在地理场景中的映射点t_cen＝(X_cen,X_cen,Z₀)。设定虚拟场景视角的视野角为VFA(View Field Angle)。为保证相机视域包含于虚拟场景的可视化范围内，需要确定VFA的最小取值VFA_min：

VFA_min＝2*cos^-1∠(t_cen，t_cam，t_m)

其中，t_m为视域多边形R的所有边缘角点中，至t_cen距离最大的那一个。以t_cam为虚拟场景中的相机定位点，以向量

作为虚拟相机的视角中心线，取场景视野角VFA(VFA≥VFA_min)，并在地理场景中显示相机视域多边形R，作为视频浓缩背景，得到结果如图6所示。

S52:设置目标子图在三维地理空间中显示的帧率fps，根据fps对相机视域内的目标子图不断进行更新，包括在三维地理空间中的相机视域内显示当前帧所有的目标子图，不再显示旧的目标子图，不同的目标子图的显示与更新互不干扰。监控视频目标在三维地理空间表达的可视化效果如图7所示。

参见图8，提供一种监控视频目标映射到三维地理场景模型的系统，所述系统包括：

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“模块”或“平台”。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种监控视频目标映射到三维地理场景模型的方法，其特征在于，包括以下步骤：

S6：重复步骤S3、S4、S5，对实时视频流的每一帧图像循环处理，得到每一帧视频图像中的视频目标位置与子图，与三维场景模型进行融合表达；

步骤S1所述的视频图像为截取监控视频的第一帧图像；

步骤S1所述的三维地理场景模型指根据真实地理场景量测信息构建的三维场景模型，所述视频图像和虚拟地理场景上采集同名点对的数量不少于3对，且不能全部共线；

步骤S2所述的建立视频图像与地理空间的映射关系，包括以下步骤：

q＝[x y 1]^T

Q＝[X Y Z 1]^T；

q＝MQ；

2.根据权利要求1所述的一种监控视频目标映射到三维地理场景模型的方法，其特征在于，步骤S3所述视频目标包括视频图像中出现的行人、非机动车以及机动车三类对象，所述视频目标子图定义为，视频图像中每个实体对象的最小外接矩形边框区域。

3.根据权利要求1所述的一种监控视频目标映射到三维地理场景模型的方法，其特征在于，步骤S3所述的从视频图像中获得视频目标图像范围并提取子图，包括以下步骤：

4.根据权利要求3所述的一种监控视频目标映射到三维地理场景模型的方法，其特征在于，步骤S4所述视频目标的地理空间定位，包括以下步骤：

x_Centroid＝(x+w)/2

y_Centroid＝(y+h)/2；

S42：把所有目标子图调整到宽、高分别为的固定大小，由此确定目标子图在三维地理空间的坐标位置Q_Centroid(X_Centroid,Y_Centroid,Z_Centroid)、成像大小以及所在帧数num，的计算仅进行一次，直接应用于后面的视频序列。

5.根据权利要求4所述的一种监控视频目标映射到三维地理场景模型的方法，其特征在于，步骤S5所述的虚拟地理场景模型中视频目标可视化表达，包括以下步骤：

6.根据权利要求1或5所述的一种监控视频目标映射到三维地理场景模型的方法，其特征在于，步骤S3所述视频图像中若无视频目标，则直接跳过此视频帧，不进行步骤S4、S5的处理。

7.一种监控视频目标映射到三维地理场景模型的系统，其特征在于，应用于权利要求1至6中任一项所述的监控视频目标映射到三维地理场景模型的方法，所述系统包括：