CN110148223A - 三维地理场景模型中监控视频目标浓缩表达方法及系统 - Google Patents

三维地理场景模型中监控视频目标浓缩表达方法及系统 Download PDF

Info

Publication number
CN110148223A
CN110148223A CN201910477975.6A CN201910477975A CN110148223A CN 110148223 A CN110148223 A CN 110148223A CN 201910477975 A CN201910477975 A CN 201910477975A CN 110148223 A CN110148223 A CN 110148223A
Authority
CN
China
Prior art keywords
video
dimensional
target
image
video object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910477975.6A
Other languages
English (en)
Other versions
CN110148223B (zh
Inventor
解愉嘉
毛波
王飞跃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Finance and Economics
Original Assignee
Nanjing University of Finance and Economics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Finance and Economics filed Critical Nanjing University of Finance and Economics
Priority to CN201910477975.6A priority Critical patent/CN110148223B/zh
Publication of CN110148223A publication Critical patent/CN110148223A/zh
Application granted granted Critical
Publication of CN110148223B publication Critical patent/CN110148223B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/05Geographic models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Geometry (AREA)
  • Remote Sensing (AREA)
  • Processing Or Creating Images (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

本发明实施例公开了一种三维地理场景模型中监控视频目标浓缩表达方法及系统,涉及可视化融合技术领域,本发明通过读取一段时长的监控视频,获取同名点对的图像坐标和地理坐标,建立视频图像与三维地理空间的映射关系;接着通过对视频目标检测处理,获取图像中视频目标子图与图像空间位置;再对视频目标进行播放时间重排序;最后根据映射关系,将重排序后的视频目标子图动态映射于地理场景模型中,实现视频目标浓缩表达。本发明建立了视频目标与地理场景的映射关系,压缩视频目标的表达时长,提升三维环境下视频运动目标的表达效率,增强了监控视频在地理场景中融合表达的效果,为视频地理场景信息一体化的快速检索与高效理解提供极大的便利。

Description

三维地理场景模型中监控视频目标浓缩表达方法及系统
技术领域
本发明实施例涉及可视化融合技术领域,具体涉及一种三维地理场景模型中监控视频目标浓缩表达方法及系统。
背景技术
监控视频被广泛应用于安防、交通、环境监测等多个领域。近十年来,我国每年新增的摄像头数量高达数百万个,并且逐年快速增长。在视频数据大幅增长的同时,对其中视频目标进行有效处理分析的压力也越来越大。监控视频中的视频目标具有数据量大、稀疏分布两方面的特性,导致人工检索分析十分困难。为了从海量视频数据中提取出视频目标集中播放以辅助检索分析,需要进行视频浓缩处理。视频浓缩通过对视频目标的检测跟踪,提取运动目标的轨迹与图像信息,再对运动目标的出现时间与空间轨迹进行调整,重新播放于原始视频图像中。
现有的视频浓缩方法仅能将视频目标浓缩展现于图像中,并不能将视频目标与视频拍摄的地理场景信息有效融合表达。由于地理信息具有空间性、时序性、多维性等优势,将监控视频与地理信息进行融合分析,一方面可在三维地理空间中挖掘视频隐含的时空信息,降低视频处理难度;另一方面,视频相机所关联的地理信息如视频位置、相机视域、三维地理空间方向等对于视频内容的有效、完整描述起重要作用。因此若能将视频目标浓缩结果映射于三维地理场景模型中,实现视频浓缩与地理信息的有效融合,不仅能使准确获取的视频目标作为传统三维地理空间数据的有益补充,还能辅助监控系统的用户更全面、高效地理解监控视频内容。基于上述分析,亟需一种新的三维地理场景模型中监控视频目标浓缩表达方法及系统的技术方案。
发明内容
为此,本发明实施例提供一种三维地理场景模型中监控视频目标浓缩表达方法及系统,以解决由于监控视频拍摄时间长、视频目标数量大以及现有视频浓缩方法不能实现视频目标与三维地理空间信息融合表达而导致用户不能全面、高效地理解监控视频内容的问题。
为了实现上述目的,本发明实施例提供如下技术方案:
根据本发明实施例的第一方面,一种三维地理场景模型中监控视频目标浓缩表达方法,包括以下步骤:
S1、获取一段监控视频的视频序列图像信息,并在视频序列图像和三维地理场景模型采集同名点对,获取同名点对的图像坐标和地理坐标;
S2、基于同名点对坐标数据,建立所述监控视频的视频图像与三维地理空间的映射关系;
S3、采用Mask RCNN目标检测与分割算法和CSRT跟踪算法,从所述监控视频的视频图像中获取视频目标的图像范围和子图,并获得所述视频目标在图像中的运动轨迹;
S4、设置固定的时间显示间隔,对所有视频目标进行播放时间重排序;
S5、基于所述监控视频的视频图像与三维地理空间的映射关系,实现视频目标轨迹的三维地理空间定位;
S6、根据视频目标播放时间重排序的结果,基于相机位置、视线方向、视频目标轨迹,实现多个视频目标在虚拟地理场景模型中的浓缩表达。
进一步地,步骤S1所述的视频序列图像为截取监控视频的第一帧图像;步骤S1所述三维地理场景模型是根据真实地理场景量测信息构建的三维场景模型,所述的视频序列图像和三维地理场景模型采集同名点对的数量不少于3对,且不能全部共线。
进一步地,步骤S2所述的建立所述监控视频的视频图像与三维地理空间的映射关系,包括以下步骤:
S21、记选取图像平面的某一点q坐标为q(x,y),点q在三维地理空间所对应的点Q坐标为Q(X,Y,Z),将q和Q写为齐次坐标形式:
q=[x y 1]T
Q=[X Y Z 1]T
S22、将映射关系表达模型通过单应矩阵M、q与Q的关系的数学形式进行表达:
q=MQ;
S23、把经过了放缩、平移、旋转三种变化的视频图像平面到三维地理空间对应的单映矩阵M进行分解,经简化矩阵M后的数学表达式为:
其中s是放缩系数,fμ、fν分别是透镜的物理焦距长度与成像传感器每个单元横、纵轴方向尺寸的乘积,u、ν是相机中图像成像中心相对于主光轴的偏移量,[r1 r2 t]中的r1、r2表示坐标系之间的旋转关系,t表示坐标系之间的平移关系;
S24、将已经获得的其它两对同名点图像坐标与三维地理空间坐标写成齐次坐标形式,把三对齐次坐标组带入所述映射关系表达模型中,求得所述单映矩阵M的解。
进一步地,步骤S3所述视频目标包括视频图像中出现的行人、非机动车以及机动车三类对象,所述视频目标的子图定义为视频图像中每个实体对象的最小外接矩形边框区域。
进一步地,步骤S3具体包括以下步骤:
S31、根据所述监控视频的视频序列,逐帧截取视频并保存成图像格式;
S32、将当前视频帧送入Mask RCNN算法的模型中,得到具有物体标识、位置信息以及矩形框选的分割目标子图后的图像;
S33、保存分割后的目标子图,并记录其外接矩形信息(x,y,w,h,num),其中x、y分别是矩形左上角的横、纵坐标,w、h分别是矩形的宽和高,num代表截取的子图在原视频中的帧序号;
S34、对当前帧中Mask RCNN框选的目标子图进行提取;
S35、对每一个目标子图在当前帧中遍历跟踪器,若跟踪器在当前帧框选的区域与Mask RCNN矩形框选的目标子图的重合度大于设定的阈值,则表示找到了跟踪对象,把该目标子图对应的分割后的图像及外接矩形信息加入到该跟踪器中;否则表示没有找到跟踪对象,为该目标子图创建新的跟踪器,并把该目标子图对应的分割后的图像及外接矩形信息加入到新创建的跟踪器;
S36、设置时间阈值t,若某个目标子图的跟踪器在时间t内没有跟踪到该目标子图,则将该跟踪器中保存的视频目标的所有目标子图与视频目标在图像中的运动轨迹{(x,y,w,h,num)}写入磁盘,同时将该跟踪器销毁;
重复步骤S32至S36,直至所述监控视频的最后一帧,获得的所有视频目标记为O0,O1,O2…On
进一步地,步骤S4所述的设置固定的时间显示间隔,具体包括以下步骤:
S41、设定固定的视频帧间隔数t0,作为每个视频目标播放的时间间隔;
S42、按照视频目标在原始视频中出现时间的先后次序,对所有视频目标O0,O1,O2…On进行播放时间重排序,分别以0,t0,2t0…,nt0作为每个视频目标在三维地理场景模型中播放的起始时间。
进一步地,步骤S5中所述的实现视频目标轨迹的三维地理空间定位,具体包括以下步骤:
S51、根据视频目标的目标子图外接矩形信息(x,y,w,h,num),分别求出矩形的左上、左下和右上三点的坐标qLT(x,y)、qLL(x,y+h)和qRT(x+w,y),并计算目标子图的矩形质心坐标qCentroid(xCentroid,yCentroid),其中:
xCentroid=(x+w)/2
yCentroid=(y+h)/2;
S52、根据步骤S2建立的视频图像与三维地理空间的映射关系,将所述目标子图外接矩形三个顶点坐标qLT、qLL、qRT和所述矩形质心坐标qCentroid映射到三维地理空间中,得到它们在三维空间中的坐标QLT(XLT,YLT,ZLT)、QLL(XLL,YLL,ZLL)、QRT(XRT,YRT,ZRT)和QCentroid(XCentroid,YCentroid,ZCentroid);
S53、把该视频目标的所有目标子图调整到宽、高分别为的固定大小,由此确定该视频目标所有子图在三维地理空间的坐标位置QCentroid(XCentroid,YCentroid,ZCentroid)、成像大小以及所在帧数num;
S54、重复步骤S51至S53,获得所有视频目标O0,O1,O2…On在三维地理空间表述形式为的轨迹T0,T1,T2…Tn
进一步地,步骤S6所述的实现多个视频目标在虚拟地理场景模型中的浓缩表达,具体包括以下步骤:
S61、根据所截取视频帧的宽Wp、高Hp,计算相机在三维地理场景中的视域,相机在三维地理空间的位置,确定相机在三维地理场景中的位置及视角;
S62、设置目标子图在三维地理空间中显示的帧率,作为每个视频目标每秒显示子图的个数;
S63、显示视频目标O0在三维地理场景中的轨迹T0,根据设置的帧率对相机视域内的目标子图不断更新,将视频目标O0当前帧的目标子图显示在其对应的三维地理空间位置中;
S64、重复S63中显示视频目标O0在三维地理场景中的轨迹T0的处理步骤,分别在t0,2t0…nt0时刻,添加O1,O2…On于三维地理场景模型中,不同视频目标子图的显示与更新互不干扰。
进一步地,若步骤3所述的Mask RCNN目标检测与分割算法在所述监控视频的所有帧中都没有检测到目标子图,则不进行步骤S4、S5、S6的处理。
根据本发明实施例的第二方面,一种应用于上述三维地理场景模型中监控视频目标浓缩表达方法的三维地理场景模型中监控视频目标浓缩表达系统,所述系统包括:
同名点获取模块:用于在视频图像和三维地理场景模型采集同名点对,获取同名点的图像坐标和地理坐标;
映射模型构建模块:用于基于同名点对坐标数据,建立视频图像与三维地理空间的映射关系;
视频目标子图提取与轨迹生成模块:用于从监控视频的视频图像中获取视频目标的图像范围和子图,并获得所述视频目标在图像中的运动轨迹;
视频目标播放时间重排序模块:用于重新确定每个视频目标在三维地理场景模型中的起始播放时间;
视频目标轨迹定位模块:用于基于视频图像与三维地理空间的相互映射关系,实现视频目标轨迹的三维地理空间定位;
三维场景中视频目标可视化表达模块:用于基于相机位置、视线方向、视频目标轨迹、重排的视频目标播放序列,实现视频目标在三维地理场景模型中的浓缩表达。
本发明实施例具有如下优点:
与现有技术相比,本发明显著的效果在于实现了城镇公共环境下监控视频目标在三维地理场景模型中的浓缩表达。本发明的视频目标轨迹映射结果具有精确性,有效表达了视频目标的空间轨迹信息;不仅实现了视频信息与三维地理场景信息的融合表达,还实现了视频目标信息提取与重组织表达,缩短了视频播放时长,为视频-地理场景信息一体化的快速检索与高效理解提供极大的便利,为保障社会公共安全、地理环境监测、突发事件视频后续回溯查询等工作提供有力支撑。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
图1为本发明实施例中提供的一种三维地理场景模型中监控视频目标浓缩表达方法流程图;
图2为本发明实施例中提供的一种视频图像平面坐标到三维空间坐标映射关系示意图;
图3为本发明实施例中提供的一种视频图像中提取目标子图示意图;
图4为本发明实施例中提供的一种视频目标轨迹、子图与三维场景融合的存储数据与模型示意图;
图5为本发明实施例中提供的一种视频目标播放时间重排序示意图;
图6为本发明实施例中提供的一种虚拟三维地理空间相机视角选取示意图;
图7为本发明实施例中提供的一种对应实际场景的虚拟三维地理空间相机视域示意图;
图8为本发明实施例中提供的一种监控视频目标在三维地理场景中的浓缩表达效果示意图;
图9为本发明实施例中提供的一种三维地理场景模型中监控视频目标浓缩表达的系统架构示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例中提供的一种三维地理场景模型中监控视频目标浓缩表达方法流程图,参见图1,包括:
S1、同名点获取:获取一段监控视频的视频序列图像信息,并在视频序列图像和三维地理场景模型采集同名点对,获取同名点对的图像坐标和地理坐标;
具体地,同名点是预先在三维地理空间中标记的,地理坐标已知,且采用与三维地理模型相同的坐标系。
S2、映射模型构建:基于同名点对坐标数据,建立所述监控视频的视频图像与三维地理空间的映射关系;
S3、视频目标检测与子图提取:采用Mask RCNN目标检测与分割算法和CSRT跟踪算法,从所述监控视频的视频图像中获取视频目标的图像范围和子图,并获得所述视频目标在图像中的运动轨迹;
S4、视频目标播放时间重排序:设置固定的时间显示间隔,对所有视频目标进行播放时间重排序;
S5、视频目标轨迹定位:基于所述监控视频的视频图像与三维地理空间的映射关系,实现视频目标轨迹的三维地理空间定位;
S6、视频目标在三维场景中可视化表达:根据视频目标播放时间重排序的结果,基于相机位置、视线方向、视频目标轨迹,实现多个视频目标在虚拟地理场景模型中的浓缩表达。
若步骤3所述的Mask RCNN目标检测与分割算法在所述监控视频的所有帧中都没有检测到目标子图,则不进行步骤S4、S5、S6的处理。
本发明实施例提供的一种三维地理场景模型中监控视频目标浓缩表达方法,实现了城镇公共环境下监控视频目标在三维地理场景模型中的浓缩表达。本发明的视频目标轨迹映射结果具有精确性,有效表达了视频目标的空间轨迹信息;不仅实现了视频信息与三维地理场景信息的融合表达,还实现了视频目标信息提取与重组织表达,缩短了视频播放时长,为视频-地理场景信息一体化的快速检索与高效理解提供极大的便利,为保障社会公共安全、地理环境监测、突发事件视频后续回溯查询等工作提供有力支撑。
在上述实施例中,步骤S1所述的视频序列图像为截取监控视频的第一帧图像;步骤S1所述三维地理场景模型是根据真实地理场景量测信息构建的三维场景模型,所述的视频序列图像和三维地理场景模型采集同名点对的数量不少于3对,且不能全部共线。
基于单应矩阵法通过寻找已知的图像空间与三维地理空间同名点求解映射矩阵,从而实现基于映射矩阵的图像坐标与地理坐标映射变换。具体参见图2,摄站中心记为C,像方空间坐标系记为OiXiYi,物方空间坐标系记为OgXgYgZg,通过求解OiXiYi与OgXgYgZg的映射关系,实现视频场景空间化。单应矩阵法通过假定物方空间为二维平面,构建物方空间与像方空间的映射关系,实现图像空间点与地理空间对应位置的计算。
在上述实施例中,步骤S2所述的建立所述监控视频的视频图像与三维地理空间的映射关系,包括以下步骤:
S21、记选取图像平面的某一点q坐标为q(x,y),点q在三维地理空间所对应的点Q坐标为Q(X,Y,Z),将q和Q写为齐次坐标形式:
q=[x y 1]T
Q=[X Y Z 1]T
S22、将映射关系表达模型通过单应矩阵M、q与Q的关系的数学形式进行表达:
q=MQ;
S23、把经过了放缩、平移、旋转三种变化的视频图像平面到三维地理空间对应的单映矩阵M进行分解,经简化矩阵M后的数学表达式为:
其中s是放缩系数,fμ、fν分别是透镜的物理焦距长度与成像传感器每个单元横、纵轴方向尺寸的乘积,u、ν是相机中图像成像中心相对于主光轴的偏移量,[r1 r2 t]中的r1、r2表示坐标系之间的旋转关系,t表示坐标系之间的平移关系;
S24、将已经获得的其它两对同名点图像坐标与三维地理空间坐标写成齐次坐标形式,把三对齐次坐标组带入所述映射关系表达模型中,求得所述单映矩阵M的解。
在上述实施例中,步骤S3所述视频目标包括视频图像中出现的行人、非机动车以及机动车三类对象,所述视频目标的子图定义为视频图像中每个实体对象的最小外接矩形边框区域。
在上述实施例中,步骤S3具体包括以下步骤:
S31、根据所述监控视频的视频序列,逐帧截取视频并保存成图像格式;
S32、将当前视频帧送入Mask RCNN算法的模型中,得到具有物体标识、位置信息以及矩形框选的分割目标子图后的图像,其效果图如图3所示;
具体地,Mask RCNN处理过程如下:
(1)采用标准神经网络作为图像特征提取器,将图像从RGB的张量转化成特征图,作为下一阶段的输入。
(2)使用区域建议网络(RPN),通过滑动对图像不同区域进行扫描,为每个区域生成两个输出:区域类别(即前景或者背景)和边框精调,通过精调区域,尽可能使得前景包含在区域类别中。
(3)通过ROI分类器将目标细化分类(如人、车等),边界回归器对边框的位置和尺寸进行更进一步的微调,使得其将目标完全封装。然后通过ROIAlign进行池化操作,将剪切出来的特征图重新调整为固定尺寸。
(4)将池化后的特征图采用全卷积网络(FCN)生成掩码,即Mask过程(分割)。
S33、保存分割后的目标子图,并记录其外接矩形信息(x,y,w,h,num),其中x、y分别是矩形左上角的横、纵坐标,w、h分别是矩形的宽和高,num代表截取的子图在原视频中的帧序号;
S34、对当前帧中Mask RCNN框选的目标子图进行提取;
具体地,CSRT跟踪算法处理过程如下:
(1)训练阶段:利用图像分割的方法实现空域可靠性,准确选择跟踪区域得到滤波模板;
(2)定位阶段:通过通道可靠性区分检测时每个通道的权重,计算权重的加权滤波响应,定位跟踪目标;
(3)对新的图像中的目标不断进行迭代优化。
S35、对每一个目标子图在当前帧中遍历跟踪器,若跟踪器在当前帧框选的区域与Mask RCNN矩形框选的目标子图的重合度大于设定的阈值,则表示找到了跟踪对象,把该目标子图对应的分割后的图像及外接矩形信息加入到该跟踪器中;否则表示没有找到跟踪对象,为该目标子图创建新的跟踪器,并把该目标子图对应的分割后的图像及外接矩形信息加入到新创建的跟踪器;
S36、设置时间阈值t,若某个目标子图的跟踪器在时间t内没有跟踪到该目标子图,则将该跟踪器中保存的视频目标的所有目标子图与视频目标在图像中的运动轨迹{(x,y,w,h,num)}写入磁盘,同时将该跟踪器销毁;
具体地,所述的将该跟踪器中的内容写入磁盘的保存规则如下:为每个跟踪器创建新的文件夹,命名方式定义为类型+id,例如car1、car2、person1、person2等,在该文件夹下保存分割后的子图及其所有的外接矩形信息。
重复步骤S32至S36,直至所述监控视频的最后一帧,获得的所有视频目标记为O0,O1,O2…On,得到的视频目标轨迹及子图的数据模型如图4所示。
在上述实施例中,步骤S4所述的设置固定的时间显示间隔,具体包括以下步骤:
S41、设定固定的视频帧间隔数t0,作为每个视频目标播放的时间间隔;
S42、按照视频目标在原始视频中出现时间的先后次序,对所有视频目标O0,O1,O2…On进行播放时间重排序,分别以0,t0,2t0…,nt0作为每个视频目标在三维地理场景模型中播放的起始时间。
具体地,若t0设定为2,通过对视频目标播放时间重排序后,视频目标在图像中的运动轨迹,如图5所示。
在上述实施例中,步骤S5中所述的实现视频目标轨迹的三维地理空间定位,具体包括以下步骤:
S51、根据视频目标的目标子图外接矩形信息(x,y,w,h,num),分别求出矩形的左上、左下和右上三点的坐标qLT(x,y)、qLL(x,y+h)和qRT(x+w,y),并计算目标子图的矩形质心坐标qCentroid(xCentroid,yCentroid),其中:
xCentroid=(x+w)/2
yCentroid=(y+h)/2;
S52、根据步骤S2建立的视频图像与三维地理空间的映射关系,将所述目标子图外接矩形三个顶点坐标qLT、qLL、qRT和所述矩形质心坐标qCentroid映射到三维地理空间中,得到它们在三维空间中的坐标QLT(XLT,YLT,ZLT)、QLL(XLL,YLL,ZLL)、QRT(XRT,YRT,ZRT)和QCentroid(XCentroid,YCentroid,ZCentroid);
S53、把该视频目标的所有目标子图调整到宽、高分别为的固定大小,由此确定该视频目标所有子图在三维地理空间的坐标位置QCentroid(XCentroid,YCentroid,ZCentroid)、成像大小以及所在帧数num;
具体地,的计算,包括以下步骤:
(1)从检测到目标的第一帧图像开始算起,从前m帧视频中选取n个目标子图外接矩形(一般情况下,m≥1000,n≥100),分别计算出目标子图外接矩形qLT、qLL、qRT三个顶点和质心qCentroid坐标映射到三维地理空间中的坐标QLT、QLL、QRT和QCentroid
(2)分别求出目标子图外接矩形在三维空间中所对应的宽W、高H。
其中W、H计算公式如下:
W=|XLT-XRT|
H=|ZLT-ZLL|;
(3)计算出n个目标子图在视频图像空间和三维地理空间平均的宽、高其数学表达式如下:
其中,当分别表示时,X分别代表目标子图外接矩形的宽w、高h。当分别表示时,X代表目标子图外接矩形在三维地理空间中的宽W、高H。
S54、重复步骤S51至S53,获得所有视频目标O0,O1,O2…On在三维地理空间表述形式为的轨迹T0,T1,T2…Tn
其中的计算,每个视频目标仅进行一次。
在上述实施例中,步骤S6所述的实现多个视频目标在虚拟地理场景模型中的浓缩表达,具体包括以下步骤:
S61、根据所截取视频帧的宽Wp、高Hp,计算相机在三维地理场景中的视域,相机在三维地理空间的位置,确定相机在三维地理场景中的位置及视角;
具体地,关于计算相机在三维地理场景中的视域的具体方法包括:根据所截取视频帧的宽Wp、高Hp,得到视频帧的左上、左下、右上和右下四点的平面坐标vLT(0,0)、vLL(0,Hp)、vRT(Wp,0)和vRL(Wp,Hp)通过映射矩阵M,得到它们在三维空间中的坐标点VLT、VLL、VRT和VRL,由VLT、VLL、VRT和VRL四个点所构成的外接多边形即为相机在三维地理场景中的视域。
具体地,关于相机在三维地理场景中的位置及视角的选取,参见图6,在监控相机的三维地理空间位置与姿态固定的前提下,通过在虚拟场景中选择合适的虚拟相机位置与视角,获得相应的虚拟场景可视化效果。通过对拍摄场景进行实地量测,获得场景高程坐标Z0与相机的三维地理空间位置坐标tcam=(Xcam,Ycam,Zcam)。由映射矩阵M,求得图像中心点在地理场景中的映射点tcen=(Xcen,Xcen,Z0)。设定虚拟场景视角的视野角为VFA(View FieldAngle)。为保证相机视域包含于虚拟场景的可视化范围内,需要确定VFA的最小取值VFAmin
VFAmin=2*cos-1∠(tcen,tcam,tm)
其中,tm为视域多边形R的所有边缘角点中,至tcen距离最大的那一个。以tcam为虚拟场景中的相机定位点,以向量作为虚拟相机的视角中心线,取场景视野角VFA(VFA≥VFAmin),并在地理场景中显示相机视域多边形R,作为视频浓缩背景,得到结果如图7所示。
S62、设置目标子图在三维地理空间中显示的帧率,作为每个视频目标每秒显示子图的个数;
S63、显示视频目标O0在三维地理场景中的轨迹T0,根据设置的帧率对相机视域内的目标子图不断更新,将视频目标O0当前帧的目标子图显示在其对应的三维地理空间位置中;
S64、重复S62中显示视频目标O0在三维地理场景中的轨迹T0的处理步骤,分别在t0,2t0…nt0时刻,添加O1,O2…On于三维地理场景模型中,不同视频目标子图的显示与更新互不干扰。监控视频目标在三维地理场景中的浓缩表达效果如图8所示。
图9为本发明实施例中提供的一种三维地理场景模型中监控视频目标浓缩表达的系统架构示意图,参见图9,所述系统包括:
同名点获取模块:用于在视频图像和三维地理场景模型采集同名点对,获取同名点的图像坐标和地理坐标;
映射模型构建模块:用于基于同名点对坐标数据,建立视频图像与三维地理空间的映射关系;
视频目标子图提取与轨迹生成模块:用于从监控视频的视频图像中获取视频目标的图像范围和子图,并获得所述视频目标在图像中的运动轨迹;
视频目标播放时间重排序模块:用于重新确定每个视频目标在三维地理场景模型中的起始播放时间;
视频目标轨迹定位模块:用于基于视频图像与三维地理空间的相互映射关系,实现视频目标轨迹的三维地理空间定位;
三维场景中视频目标可视化表达模块:用于基于相机位置、视线方向、视频目标轨迹、重排的视频目标播放序列,实现视频目标在三维地理场景模型中的浓缩表达。
本发明实施例提供的一种三维地理场景模型中监控视频目标浓缩表达系统,实现了城镇公共环境下监控视频目标在三维地理场景模型中的浓缩表达。本发明的视频目标轨迹映射结果具有精确性,有效表达了视频目标的空间轨迹信息;不仅实现了视频信息与三维地理场景信息的融合表达,还实现了视频目标信息提取与重组织表达,缩短了视频播放时长,为视频-地理场景信息一体化的快速检索与高效理解提供极大的便利,为保障社会公共安全、地理环境监测、突发事件视频后续回溯查询等工作提供有力支撑。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“模块”或“平台”。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (10)

1.一种三维地理场景模型中监控视频目标浓缩表达方法,其特征在于,包括以下步骤:
S1、获取一段监控视频的视频序列图像信息,并在视频序列图像和三维地理场景模型采集同名点对,获取同名点对的图像坐标和地理坐标;
S2、基于同名点对坐标数据,建立所述监控视频的视频图像与三维地理空间的映射关系;
S3、采用Mask RCNN目标检测与分割算法和CSRT跟踪算法,从所述监控视频的视频图像中获取视频目标的图像范围和子图,并获得所述视频目标在图像中的运动轨迹;
S4、设置固定的时间显示间隔,对所有视频目标进行播放时间重排序;
S5、基于所述监控视频的视频图像与三维地理空间的映射关系,实现视频目标轨迹的三维地理空间定位;
S6、根据视频目标播放时间重排序的结果,基于相机位置、视线方向、视频目标轨迹,实现多个视频目标在虚拟地理场景模型中的浓缩表达。
2.根据权利要求1所述的三维地理场景模型中监控视频目标浓缩表达方法,其特征在于,步骤S1所述的视频序列图像为截取监控视频的第一帧图像;步骤S1所述三维地理场景模型是根据真实地理场景量测信息构建的三维场景模型,所述的视频序列图像和三维地理场景模型采集同名点对的数量不少于3对,且不能全部共线。
3.根据权利要求2所述的三维地理场景模型中监控视频目标浓缩表达方法,其特征在于,步骤S2所述的建立所述监控视频的视频图像与三维地理空间的映射关系,包括以下步骤:
S21、记选取图像平面的某一点q坐标为q(x,y),点q在三维地理空间所对应的点Q坐标为Q(X,Y,Z),将q和Q写为齐次坐标形式:
q=[x y 1]T
Q=[X Y Z 1]T
S22、将映射关系表达模型通过单应矩阵M、q与Q的关系的数学形式进行表达:
q=MQ;
S23、把经过了放缩、平移、旋转三种变化的视频图像平面到三维地理空间对应的单映矩阵M进行分解,经简化矩阵M后的数学表达式为:
其中s是放缩系数,fμ、fν分别是透镜的物理焦距长度与成像传感器每个单元横、纵轴方向尺寸的乘积,u、ν是相机中图像成像中心相对于主光轴的偏移量,[r1 r2 t]中的r1、r2表示坐标系之间的旋转关系,t表示坐标系之间的平移关系;
S24、将已经获得的其它两对同名点图像坐标与三维地理空间坐标写成齐次坐标形式,把三对齐次坐标组带入所述映射关系表达模型中,求得所述单映矩阵M的解。
4.根据权利要求3所述的三维地理场景模型中监控视频目标浓缩表达方法,其特征在于,步骤S3所述视频目标包括视频图像中出现的行人、非机动车以及机动车三类对象,所述视频目标的子图定义为视频图像中每个实体对象的最小外接矩形边框区域。
5.根据权利要求3或4所述的三维地理场景模型中监控视频目标浓缩表达方法,其特征在于,步骤S3具体包括以下步骤:
S31、根据所述监控视频的视频序列,逐帧截取视频并保存成图像格式;
S32、将当前视频帧送入Mask RCNN算法的模型中,得到具有物体标识、位置信息以及矩形框选的分割目标子图后的图像;
S33、保存分割后的目标子图,并记录其外接矩形信息(x,y,w,h,num),其中x、y分别是矩形左上角的横、纵坐标,w、h分别是矩形的宽和高,num代表截取的子图在原视频中的帧序号;
S34、对当前帧中Mask RCNN框选的目标子图进行提取;
S35、对每一个目标子图在当前帧中遍历跟踪器,若跟踪器在当前帧框选的区域与MaskRCNN矩形框选的目标子图的重合度大于设定的阈值,则表示找到了跟踪对象,把该目标子图对应的分割后的图像及外接矩形信息加入到该跟踪器中;否则表示没有找到跟踪对象,为该目标子图创建新的跟踪器,并把该目标子图对应的分割后的图像及外接矩形信息加入到新创建的跟踪器;
S36、设置时间阈值t,若某个目标子图的跟踪器在时间t内没有跟踪到该目标子图,则将该跟踪器中保存的视频目标的所有目标子图与视频目标在图像中的运动轨迹{(x,y,w,h,num)}写入磁盘,同时将该跟踪器销毁;
重复步骤S32至S36,直至所述监控视频的最后一帧,获得的所有视频目标记为O0,O1,O2…On
6.根据权利要求5所述的三维地理场景模型中监控视频目标浓缩表达方法,其特征在于,步骤S4所述的设置固定的时间显示间隔,具体包括以下步骤:
S41、设定固定的视频帧间隔数t0,作为每个视频目标播放的时间间隔;
S42、按照视频目标在原始视频中出现时间的先后次序,对所有视频目标O0,O1,O2…On进行播放时间重排序,分别以0,t0,2t0…,nt0作为每个视频目标在三维地理场景模型中播放的起始时间。
7.根据权利要求6所述的三维地理场景模型中监控视频目标浓缩表达方法,其特征在于,步骤S5中所述的实现视频目标轨迹的三维地理空间定位,具体包括以下步骤:
S51、根据视频目标的目标子图外接矩形信息(x,y,w,h,num),分别求出矩形的左上、左下和右上三点的坐标qLT(x,y)、qLL(x,y+h)和qRT(x+w,y),并计算目标子图的矩形质心坐标qCentroid(xCentroid,yCentroid),其中:
xCentroid=(x+w)/2
yCentroid=(y+h)/2;
S52、根据步骤S2建立的所述监控视频的视频图像与三维地理空间的映射关系,将所述目标子图外接矩形三个顶点坐标qLT、qLL、qRT和所述矩形质心坐标qCentroid映射到三维地理空间中,得到它们在三维空间中的坐标QLT(XLT,YLT,ZLT)、QLL(XLL,YLL,ZLL)、QRT(XRT,YRT,ZRT)和QCentroid(XCentroid,YCentroid,ZCentroid);
S53、把该视频目标的所有目标子图调整到宽、高分别为的固定大小,由此确定该视频目标所有子图在三维地理空间的坐标位置QCentroid(XCentroid,YCentroid,ZCentroid)、成像大小以及所在帧数num;
S54、重复步骤S51至S53,获得所有视频目标O0,O1,O2…On在三维地理空间表述形式为的轨迹T0,T1,T2…Tn
8.根据权利要求7所述的三维地理场景模型中监控视频目标浓缩表达方法,其特征在于,步骤S6所述的实现多个视频目标在虚拟地理场景模型中的浓缩表达,具体包括以下步骤:
S61、根据所截取视频帧的宽Wp、高Hp,计算相机在三维地理场景中的视域,相机在三维地理空间的位置,确定相机在三维地理场景中的位置及视角;
S62、设置目标子图在三维地理空间中显示的帧率,作为每个视频目标每秒显示子图的个数;
S63、显示视频目标O0在三维地理场景中的轨迹T0,根据设置的帧率对相机视域内的目标子图不断更新,将视频目标O0当前帧的目标子图显示在其对应的三维地理空间位置中;
S64、重复S63中显示视频目标O0在三维地理场景中的轨迹T0的处理步骤,分别在t0,2t0…nt0时刻,添加O1,O2…On于三维地理场景模型中,不同视频目标子图的显示与更新互不干扰。
9.根据权利要求8所述的三维地理场景模型中监控视频目标浓缩表达方法,其特征在于,若步骤3所述的Mask RCNN目标检测与分割算法在所述监控视频的所有帧中都没有检测到目标子图,则不进行步骤S4、S5、S6的处理。
10.一种三维地理场景模型中监控视频目标浓缩表达系统,其特征在于,应用于权利要求1至9中任一项所述的三维地理场景模型中监控视频目标浓缩表达方法,所述系统包括:
同名点获取模块:用于在视频图像和三维地理场景模型采集同名点对,获取同名点的图像坐标和地理坐标;
映射模型构建模块:用于基于同名点对坐标数据,建立视频图像与三维地理空间的映射关系;
视频目标子图提取与轨迹生成模块:用于从监控视频的视频图像中获取视频目标的图像范围和子图,并获得所述视频目标在图像中的运动轨迹;
视频目标播放时间重排序模块:用于重新确定每个视频目标在三维地理场景模型中的起始播放时间;
视频目标轨迹定位模块:用于基于视频图像与三维地理空间的相互映射关系,实现视频目标轨迹的三维地理空间定位;
三维场景中视频目标可视化表达模块:用于基于相机位置、视线方向、视频目标轨迹、重排的视频目标播放序列,实现视频目标在三维地理场景模型中的浓缩表达。
CN201910477975.6A 2019-06-03 2019-06-03 三维地理场景模型中监控视频目标浓缩表达方法及系统 Active CN110148223B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910477975.6A CN110148223B (zh) 2019-06-03 2019-06-03 三维地理场景模型中监控视频目标浓缩表达方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910477975.6A CN110148223B (zh) 2019-06-03 2019-06-03 三维地理场景模型中监控视频目标浓缩表达方法及系统

Publications (2)

Publication Number Publication Date
CN110148223A true CN110148223A (zh) 2019-08-20
CN110148223B CN110148223B (zh) 2023-03-14

Family

ID=67590004

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910477975.6A Active CN110148223B (zh) 2019-06-03 2019-06-03 三维地理场景模型中监控视频目标浓缩表达方法及系统

Country Status (1)

Country Link
CN (1) CN110148223B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161130A (zh) * 2019-11-25 2020-05-15 北京智汇云舟科技有限公司 一种基于三维地理信息的视频矫正方法
CN111696216A (zh) * 2020-06-16 2020-09-22 浙江大华技术股份有限公司 三维增强现实全景融合方法及系统
CN111738908A (zh) * 2020-06-11 2020-10-02 山东大学 结合实例分割和循环生成对抗网络的场景转换方法及系统
CN112449152A (zh) * 2019-08-29 2021-03-05 华为技术有限公司 多路视频同步的方法、系统及设备
CN113192125A (zh) * 2021-03-26 2021-07-30 南京财经大学 虚拟视点优选的地理场景中多相机视频浓缩方法及系统
CN113223096A (zh) * 2021-06-09 2021-08-06 司法鉴定科学研究院 基于场景图像的轻微交通事故快速勘查方法和系统
CN114155299A (zh) * 2022-02-10 2022-03-08 盈嘉互联(北京)科技有限公司 一种建筑数字孪生构建方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150193970A1 (en) * 2012-08-01 2015-07-09 Chengdu Idealsee Technology Co., Ltd. Video playing method and system based on augmented reality technology and mobile terminal
CN106204656A (zh) * 2016-07-21 2016-12-07 中国科学院遥感与数字地球研究所 基于视频和三维空间信息的目标定位和跟踪系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150193970A1 (en) * 2012-08-01 2015-07-09 Chengdu Idealsee Technology Co., Ltd. Video playing method and system based on augmented reality technology and mobile terminal
CN106204656A (zh) * 2016-07-21 2016-12-07 中国科学院遥感与数字地球研究所 基于视频和三维空间信息的目标定位和跟踪系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YUJIA XIE等: "Integration of GIS and Moving Objects in Surveillance Video", 《INTERNATIONAL JOURNAL OF GEO-INFORMATION》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112449152B (zh) * 2019-08-29 2022-12-27 华为技术有限公司 多路视频同步的方法、系统及设备
CN112449152A (zh) * 2019-08-29 2021-03-05 华为技术有限公司 多路视频同步的方法、系统及设备
CN111161130A (zh) * 2019-11-25 2020-05-15 北京智汇云舟科技有限公司 一种基于三维地理信息的视频矫正方法
CN111161130B (zh) * 2019-11-25 2024-05-17 北京智汇云舟科技有限公司 一种基于三维地理信息的视频矫正方法
CN111738908A (zh) * 2020-06-11 2020-10-02 山东大学 结合实例分割和循环生成对抗网络的场景转换方法及系统
CN111696216A (zh) * 2020-06-16 2020-09-22 浙江大华技术股份有限公司 三维增强现实全景融合方法及系统
CN111696216B (zh) * 2020-06-16 2023-10-03 浙江大华技术股份有限公司 三维增强现实全景融合方法及系统
CN113192125A (zh) * 2021-03-26 2021-07-30 南京财经大学 虚拟视点优选的地理场景中多相机视频浓缩方法及系统
CN113192125B (zh) * 2021-03-26 2024-02-20 南京财经大学 虚拟视点优选的地理场景中多相机视频浓缩方法及系统
CN113223096A (zh) * 2021-06-09 2021-08-06 司法鉴定科学研究院 基于场景图像的轻微交通事故快速勘查方法和系统
CN113223096B (zh) * 2021-06-09 2022-08-30 司法鉴定科学研究院 基于场景图像的轻微交通事故快速勘查方法和系统
CN114155299A (zh) * 2022-02-10 2022-03-08 盈嘉互联(北京)科技有限公司 一种建筑数字孪生构建方法及系统
CN114155299B (zh) * 2022-02-10 2022-04-26 盈嘉互联(北京)科技有限公司 一种建筑数字孪生构建方法及系统

Also Published As

Publication number Publication date
CN110148223B (zh) 2023-03-14

Similar Documents

Publication Publication Date Title
CN110148223A (zh) 三维地理场景模型中监控视频目标浓缩表达方法及系统
CN110009561A (zh) 一种监控视频目标映射到三维地理场景模型的方法及系统
US7003136B1 (en) Plan-view projections of depth image data for object tracking
CN109829398B (zh) 一种基于三维卷积网络的视频中的目标检测方法
US10043097B2 (en) Image abstraction system
CN102959946B (zh) 基于相关3d点云数据来扩充图像数据的技术
US11003956B2 (en) System and method for training a neural network for visual localization based upon learning objects-of-interest dense match regression
CN110706259B (zh) 一种基于空间约束的可疑人员跨镜头追踪方法及装置
CN104517102B (zh) 学生课堂注意力检测方法及系统
CN104933414B (zh) 一种基于wld-top的活体人脸检测方法
US20150138310A1 (en) Automatic scene parsing
CN109598794B (zh) 三维gis动态模型的构建方法
CN103530881B (zh) 适用于移动终端的户外增强现实无标志点跟踪注册方法
US8577151B2 (en) Method, apparatus, and program for detecting object
CN109190508A (zh) 一种基于空间坐标系的多摄像头数据融合方法
CN104346811B (zh) 基于视频图像的目标实时追踪方法及其装置
CN106127799B (zh) 一种对于三维视频的视觉注意力检测方法
CN107657217A (zh) 基于运动目标检测的红外与可见光视频的融合方法
JP7292492B2 (ja) オブジェクト追跡方法及び装置、記憶媒体並びにコンピュータプログラム
RU2012119844A (ru) Способ индексирования видеоданных при помощи карты
Cho et al. Diml/cvl rgb-d dataset: 2m rgb-d images of natural indoor and outdoor scenes
CN102509104A (zh) 基于置信度图的增强现实场景虚拟对象判别和检测方法
Li et al. Sleep gesture detection in classroom monitor system
CN107341781A (zh) 基于改进相位一致性特征矢量底图匹配的sar影像校正方法
Krinidis et al. A robust and real-time multi-space occupancy extraction system exploiting privacy-preserving sensors

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant