CN108898842A - 一种多源监控视频的高效编码方法及其系统 - Google Patents

一种多源监控视频的高效编码方法及其系统 Download PDF

Info

Publication number
CN108898842A
CN108898842A CN201810710560.4A CN201810710560A CN108898842A CN 108898842 A CN108898842 A CN 108898842A CN 201810710560 A CN201810710560 A CN 201810710560A CN 108898842 A CN108898842 A CN 108898842A
Authority
CN
China
Prior art keywords
vehicle
background
residual error
model
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810710560.4A
Other languages
English (en)
Inventor
肖晶
陈宇
廖良
屈万倩
余月恒
陈丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Research Institute of Wuhan University
Original Assignee
Shenzhen Research Institute of Wuhan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Research Institute of Wuhan University filed Critical Shenzhen Research Institute of Wuhan University
Priority to CN201810710560.4A priority Critical patent/CN108898842A/zh
Publication of CN108898842A publication Critical patent/CN108898842A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/017Detecting movement of traffic to be counted or controlled identifying vehicles
    • G08G1/0175Detecting movement of traffic to be counted or controlled identifying vehicles by photographing vehicles, e.g. when violating traffic rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Image Processing (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种多源监控视频的高效编码方法及系统,包括以下步骤:通过车辆检测的方法对视频中前背景进行分离,进行车型识别后对车辆目标进行跟踪;对车辆目标进行姿态提取;通过摄像机模型和车辆当前位置与姿态参数将车辆三维模型投影到图像平面作为长程预测;利用视频的全局预测残差进行相邻帧间的短程预测;利用基于块的背景建模方法进行背景预测;将背景残差与前景残差叠加;将残差图像进行传统视频编码。本发明通过三维模型建立同一车辆在不同视频中的关系,进而挖掘视频间相似性,再通过相对姿态参数对表达残差进行预测,进一步减少所需编码的数据量,实现压缩效率的提升。

Description

一种多源监控视频的高效编码方法及其系统
技术领域
本发明涉及监控视频编码领域,尤其涉及一种多源监控视频的高效编码方法及系统。
背景技术
随着监控视频的高清化,全球范围内的监控视频系统每日产生海量监控视频数据且不断增长。以交通视频为例,中国大都市监控视频每天的平均数量可达0.3PB至6.7PB。数据规模增长迅速和压缩效率提升缓慢间的矛盾日益突出,监控视频数据高效存储和压缩技术面临巨大挑战。
多个拍摄区域不重叠的监控摄像机沿城市道路拍摄的视频被称为多源监控视频数据,这些视频捕捉了大量运动对象。同一对象在不同摄像机下的相似性将导致一种新型冗余。随着多源监控视频中移动物体数量的急剧增加,这一类冗余占比也随之增加,是多源监控视频数据中一种常见的冗余形式。不同于单源视频中的空间、时间冗余。这一类冗余的特点(以运动车辆为例)包括:(1)模型相似性:同一车辆在不同摄像机下的外观对应于同一模型。(2)空间相关性:同一车辆在不同空间位置的外观可视为模型的姿态变换,具有空间相关性。(3)时间一致性:对于同一车辆,其外观在一段时间内保持稳定。
然而目前大多数视频压缩技术都针对单源视频设计,现有的基于H.264标准的编码方案[文献1]采用帧内/帧间预测来探索局部空间、时间上的相似性。尽管一段单个视频片段中局部时空冗余可以通过预测很好地消除,但仅通过挖掘图像视频信号自身的时空相关性来提高的压缩性能十分有限。
根据上述冗余的特点,本发明通过三维模型建立同一车辆在不同视频中的关系,进而挖掘视频间相似性,构建跨视频对象预测方法,去除多源视频间的冗余。由于车辆对象具有刚性结构便于建模,因此本发明主要面向车辆对象,其他运动对象将被视为背景区域。专利“城市交通监控视频全局编码方法及系统,公开号:CN104301735A”,公开了一种城市交通监控视频的全局编码方法及系统,该方法通过建立车辆知识字典来提取全局特征参数集,基于全局特征参数来进行全局编码。此方法仅通过知识字典对车辆对象进行表达,从而得到表达残差,对残差进行编码。而本发明方法提出了一种基于姿态的混合预测方法,通过相对姿态参数对表达残差进行预测,进一步减少所需编码的数据量,实现压缩效率的提升。
【文献1】T.Wi egand,G.J.Sullivan,G.Bjontegaard,and A.Luthra,“Overviewof the H.264/AVC video coding standard,”IEEE Trans.Circuits Syst.VideoTechnol.,vol.13,no.7,pp.560–576,Jul.2003.
发明内容
本发明要解决的技术问题在于,针对现有技术的不足,提供一种多源监控视频的高效编码方法及系统。
为解决上述技术问题,本发明采用如下技术方案。
一种多源监控视频的高效编码方法,包括步骤:
S1,监控视频预处理:对原始视频当前帧中的车辆进行检测,将车辆对象区域和非车辆对象区域进行分离,并对分离的车辆对象进行车型识别,获得车辆对应的模型信息,生成前景区域,非车辆对象区域作为背景区域;在后续帧中对目标车辆进行跟踪,从而获得每一帧车辆对象、车辆对应模型信息的前景区域以及背景区域;
S2,对车辆对象进行姿态提取,获得姿态参数,每一帧车辆的位置和姿态由地平面上的位置(X,Y)和旋转角θ表示,其变换矩阵Ct可表示为:
S3,通过摄像机模型和车辆当前位置与姿态参数将车辆三维模型投影到图像平面,生成理想的图像作为模型长程预测参考;
S4,对视频的全局预测残差进行短程预测;
S5,对非车辆区域进行基于背景建模的预测,进一步包括:
S5.1利用基于块的背景建模方法,构造出背景模型;
S5.2将当前的背景区域减去建立的背景模型获得背景残差。
S6,背景残差与前景残差叠加,具体包括:
S6.1结合模型长程预测和短程预测获得混合预测的外观结果;
S6.2由当前的原始视觉外观减去与基于混合预测的外观结果得到最终的前景残差,其中最终的前景残差包括前景残差图像及其掩膜;
S6.3通过三维模型坐标和投影的图像平面点间的对应关系,使用前景残差对背景残差的空洞进行填充;
S7,将步骤S6的残差图像及其掩膜转换值YUV空间,分别进行传统视频编码,解码后的残差结合缓存区中的信息重建外观差异,并将其存入缓存区作为之后帧的参考信息。
优选地,步骤S1进一步包括子步骤:
S1.1对视频当前帧中的前景区域进行检测和分割;
S1.2将车辆对象从其他运动对象中分离;
S1.3对于视频片段中每新检测出来的车,对其进行识别并记录其模型id;
S1.4当车辆在后续帧帧间运动时,对已检测车辆进行跟踪,保证帧间车辆对象的匹配。
优选地,步骤S2进一步包括子步骤:
S2.1对车辆运动的地平面进行约束;
S2.2从车辆的模型边缘和内部结构边缘提取直线生成该车辆的线框模型;
S2.3将S2.2中提取的线框模型和边缘检测算子提取出的直线进行匹配计算,直线匹配计算后θ的候选值从角度直方图中获取,(X,Y)从位置散点图中获得;
S2.4对于新检测的车辆,利用车辆区域在图像中位置以及车辆梯度信息对姿态参数初始化,对于跟踪的车辆,其参数通过前一帧进行初始化;若计算结果在设定的误差范围外,则视为错误识别并作为非车辆运动对象进行编码。
优选地,步骤S3进一步包括子步骤:
S3.1摄像机模型参数包括五个透视畸变参数:三个径向畸变参数和两个切向畸变参数,四个内参数:图像主点坐标Ix、Iy和焦距fx、fy,六个外参数:三个平移参数和三个旋转参数,其中透视畸变参数和内参数通过棋盘标定的方式进行初始化,摄像机模型由变换矩阵Cv表示,见公式(2):
其中k为非0缩放因子,(Ix,Iy)为主点坐标,σ为方向因子,(R1,R2,R3)T为世界坐标系到摄像机坐标系的平移向量,R1、R2、R3为3x3旋转矩阵的列向量,(R1,R2,R3)为世界坐标系到摄像机坐标系的旋转向量;
S3.2对三维模型上的所有点进行可视性检测;
S3.3结合摄像机模型、车辆当前位置和姿态将对应三维模型投影到图像平面,投影时仅投影可视点的部分,三维模型坐标(Xn,Yn,Zn)和投影的图像平面点(Ix,Iy)间对应关系见公式(3):
d(Ix,Iy,f,1)=(Xn,Yn,Zn,1)·Cv·Ct(3)
其中f是摄像机焦距长度,d是非零缩放因子。
优选地,步骤S4进一步包括子步骤:
S4.1对三维模型上的所有点进行可视性检测:根据车辆表面可视性不同,将表面区域划分成以下三种类型:
(1)消失区域:
(2)变换区域:
(3)暴露区域:
其中,分别是参考帧和当前帧的可见区域,分别是参考帧和当前帧的不可见区域,所述参考帧为当前帧的前一帧;
S4.2根据变换区域和暴露区域的特点,分别采用不同的预测方法:
(1)针对变换区域,采用基于姿态变换的帧间预测方法,具体步骤包括:
因变换区域是参考帧和当前帧可视区域的交集,Gm[xm,ym,zm,1]表示在两帧中共同的一个可视三维点,分别表示参考帧和当前帧上对应的图像像素点,以[Ix,Iy,f,1]的形式表示,基于公式(3),三维模型点和图像像素点的关系可表示为:
其中字母d表示点的集合,因此当前帧变换区域的参考像素残差可表示为:
(2)针对暴露区域,采用一种帧内的预测的方法,具体包括:
首先根据车辆三维模型不同的材质将车辆表面划分成几部分,如主体、车窗等;然后暴露区域的预测值可通过所属相同部分的可视点的平均预测残差得到,具体表达如下:
其中O(GI)和O(GJ)分别表示点I和点J所属的部分,M是该部分中变化区域可视点的数量。
一种多源监控视频的高效编码系统,包括:
(1)监控视频预处理模块,具体包括:
车辆检测模块,在当前帧中,使用背景提取的方法对视频中的运动区域进行检测和分割;
前背景分离模块,在当前帧中,通过尺寸和HOG特征将车辆对象从其他运动对象中分离,生成前景区域和背景区域;
车型识别模块,在当前帧中,用来识别视频中出现的同一对象,并记录其模型id方便后续帧跟踪;
车辆跟踪模块,在后续帧中,用来对已检测和识别的车辆进行跟踪,保证帧间车辆对象的匹配;
(2)姿态提取模块,用来对车辆目标的姿态提取,获得姿态参数;
(3)长程预测模块,用来根据车辆的姿态及3D模型进行长程预测;
(4)短程预测模块,用来对视频的全局残差进行短程预测;
(5)背景预测模块,用来对非车辆区域进行基于背景建模的预测,构造出背景图像的长期参考,从而获得背景残差,具体包括子模块:
参考背景生成模块,使用背景建模的方法构造出背景图像作为背景图像的长期参考;
背景残差生成模块,用来将当前的背景区域减去预测的背景图像获得背景残差;
(6)前景残差和背景残差叠加模块,用来将两种残差根据姿态信息叠加;
(7)残差视频编码模块,用来将残差图像及其掩膜转换值YUV空间,分别进行传统视频编码。
优选地,所述的模型长程预测模块进一步包括:
可视性检测模块,用来对三维模型上的所有点进行可视性检测;
投影模块,用来结合摄像机模型、车辆当前位置和姿态将三维模型坐标转化到投影的图像平面点,且投影时仅投影可视点的部分。
优选地,短程预测模块进一步包括:
可视性检测模块,用来进行车辆表面可视性检测,将表面区域划分为消失区域、变换区域、暴露区域;
预测模块,针对变换区域和暴露区域分为两个子模块:
其一,基于姿态变换的帧间预测子模块,用于当前帧变换区域参考像素残差的表达,具体包括:因变换区域是参考帧和当前帧可视区域的交集,Gm[xm,ym,zm,1]表示在两帧中共同的一个可视三维点,分别表示参考帧和当前帧上对应的图像像素点,以[Ix,Iy,f,1]的形式表示,基于公式(3),三维模型点和图像像素点的关系可表示为:
其中字母d表示点的集合。因此当前帧变换区域的参考像素残差可表示为:
其二,基于帧内预测的子模块,用于暴露区域的表达,具体包括:
首先根据车辆三维模型不同的材质将车辆表面划分成几部分,如主体、车窗等;然后暴露区域的预测值可通过所属相同部分的可视点的平均预测残差得到,具体表达如下:
其中O(GI)和O(GJ)分别表示点I和点J所属的部分,M是该部分中变换区域可视点的数量。
优选地,前景残差与背景残差叠加模块进一步包括:
混合预测生成模块,用来结合长程预测和短程预测获得混合预测的结果;
最终前景残差生成模块,用来将当前的原始视觉外观减去与基于混合预测的外观得到最终的前景残差,其中最终的前景残差包括前景残差图像及其掩膜;
叠加模块,通用来过三维模型坐标和投影的图像平面点间的对应关系,使用前景残差对背景残差的空洞进行填充。
本发明公开的针对多源监控视频数据中因通过运动对象被不同摄像机反复摄录形成的全局冗余,提出了一种新的视频编码方案。首先通过车辆检测的方法对前背景进行分离,再将真实的车辆图像外观分为通过摄像机参数和当前位置及姿态参数进行投影得到的理想外观和因环境因素和物理因素影响得到的图像外观变化,从而进行由长程预测和短时预测结合的混合预测。长程预测是利用投影得到的模型图像,来去除同一对象在不同摄像机下产生的冗余;短时预测是利用同一对象帧间的对应关系来进一步消除长程预测残差的冗余。另外,对非车辆区域进行基于背景建模的预测,对背景进行进一步预测使残差更小。最后将背景残差和通过混合预测结果得到的前景残差进行残差视频编码,大大提升了多源监控视频下的编码效率。
附图说明
图1为本发明多源监控视频的高效编码方法的具体流程图;
图2为本发明中姿态提取的具体流程图;
图3为本发明长程预测的具体流程图;
图4为本发明多源监控视频的高效编码系统的模块示意图。
具体实施方式
下面结合附图和实施例对本发明作更加详细的描述。
如图1至图3所示,一种多源监控视频的高效编码方法,包括以下7个步骤:
步骤S1,监控视频预处理:对原始视频当前帧中的车辆进行检测,将车辆对象区域和非车辆对象区域进行分离,并对分离的车辆对象进行车型识别,获得车辆对应的模型信息,非车辆对象区域作为背景区域;在后续帧中对目标车辆进行跟踪,从而获得每一帧的车辆对象、背景区域以及车辆对应的模型信息,具体包括:
(1)对于当前帧:
S1.1对视频中的前景区域进行检测和分割;
S1.2将车辆对象从其他运动对象中分离;
S1.3对于视频片段中每新检测出来的车,对其进行识别并记录其模型id;
(2)对于后续帧:
S1.4当车辆在帧间运动时,对已检测车辆进行跟踪,保证帧间车辆对象的匹配。
步骤S2,对车辆目标进行姿态提取,获得姿态参数,每一帧车辆的位置和姿态由地平面上的位置(X,Y)和旋转角θ表示,其变换矩阵Ct可表示为:
具体包括:
S2.1对车辆运动的地平面进行约束;
S2.2从车辆的模型边缘和内部结构边缘提取直线生成该车辆的线框模型;
S2.3将S2.2中提取的线框模型和边缘检测算子提取出的直线进行匹配计算,直线匹配计算后θ的候选值从角度直方图中获取,(X,Y)从位置散点图中获得;
S2.4对于新检测的车辆,利用车辆区域在图像中位置以及车辆梯度信息对姿态参数初始化,对于跟踪的车辆,其参数通过前一帧进行初始化。若计算结果在设定的误差范围外,则视为错误识别并作为非车辆运动对象进行编码。
步骤S3,通过摄像机模型和车辆当前位置与姿态参数将车辆三维模型投影到图像平面,生成理想的图像作为模型长程预测参考,具体包括:
S3.1摄像机模型参数包括五个透视畸变参数(三个径向畸变参数和两个切向畸变参数)、四个内参(图像主点坐标Ix、Iy和焦距fx、fy)和六个外参(三个平移参数和三个旋转参数),其中透视畸变参数和内参通过棋盘标定的方式进行初始化。摄像机模型由变换矩阵Cv表示:
其中k为非0缩放因子,(Ix,Iy)为主点坐标,σ为方向因子,(R1,R2,R3)T为世界坐标系到摄像机坐标系的平移向量,R1、R2、R3为3x3旋转矩阵的列向量,(R1,R2,R3)为世界坐标系到摄像机坐标系的旋转向量。
S3.2对三维模型上的所有点进行可视性检测,其中检测方法在S41中体现;
S3.3结合摄像机模型、车辆当前位置和姿态(步骤2中得出)将对应三维模型投影到图像平面,投影时仅投影可视点的部分。三维模型坐标(Xn,Yn,Zn)和投影的图像平面点(Ix,Iy)间对应关系如下:
d(Ix,Iy,f,1)=(Xn,Yn,Zn,1)·Cv·Ct(3)
其中f是摄像机焦距长度,d是非零缩放因子。
步骤S4,对视频的全局预测残差进行短程预测,具体包括:
S4.1根据车辆表面可视性不同,将表面区域划分成以下三种类型:
(1)消失区域:
(2)变换区域:
(3)暴露区域:
其中,分别是参考帧和当前帧的可见区域,分别是参考帧和当前帧的不可见区域,所述参考帧为当前帧的前一帧。
S4.2根据变换区域和暴露区域的特点,分别采用不同的预测方法:
(1)针对变换区域,采用基于姿态变换的帧间预测方法,具体步骤包括:
因变换区域是参考帧和当前帧可视区域的交集,Gm[xm,ym,zm,1]表示在两帧中共同的一个可视三维点,分别表示参考帧和当前帧上对应的图像像素点,以[Ix,Iy,f,1]的形式表示,基于公式(3),三维模型点和图像像素点的关系可表示为:
其中字母加粗部分表示点的集合。因此当前帧变换区域的参考像素残差可表示为:
(2)针对暴露区域,采用一种帧内的预测的方法,具体包括:
首先根据车辆三维模型不同的材质将车辆表面划分成几部分,如主体、车窗等;然后暴露区域的预测值可通过所属相同部分的可视点的平均预测残差得到,具体表达如下:
其中O(GI)和O(GJ)分别表示点I和点J所属的部分,M是该部分中变换区域可视点的数量。
步骤S5,对非车辆区域进行基于背景建模的预测,进一步包括:
S5.1利用基于块的背景建模方法,构造出背景模型;
S5.2将当前的背景区域减去建立的背景模型获得背景残差。
步骤S6,背景残差与前景残差叠加,具体包括:
S6.1结合模型长程预测和短程预测获得混合预测的结果;
S6.2由当前的原始视觉外观减去与基于混合预测的外观得到最终的前景残差,其中最终的前景残差包括前景残差图像及其掩膜;
S6.3通过三维模型坐标和投影的图像平面点间的对应关系,使用前景残差对背景残差的空洞进行填充;
步骤S7,将残差图像及其掩膜转换值YUV空间,分别进行传统视频编码,解码后的残差结合缓存区中的信息重建外观差异,并将其存入缓存区作为之后帧的参考信息。
如图4所示,一种多源监控视频的全局编码系统,包括:
(1)监控视频预处理模块,进一步包括子模块:
对于当前帧有:
车辆检测模块,使用背景提取的方法对视频中的运动区域进行检测和分割;
前背景分离模块,通过尺寸和HOG特征将车辆对象从其他运动对象中分离;
车型识别模块,用来识别视频中出现的同一对象,并记录其模型id方便后续帧跟踪。
对于后续帧有:
车辆跟踪模块,用来对已检测和识别的车辆进行跟踪,保证帧间车辆对象的匹配。
(2)姿态提取模块,用来对车辆目标的姿态提取,获得姿态参数。
(3)长程预测模块,根据车辆的姿态及3D模型进行长程预测,进一步包括子模块:
可视性检测模块,用来对三维模型上的所有点进行可视性检测;
投影模块,用来结合摄像机模型、车辆当前位置和姿态将三维模型坐标转化到投影的图像平面点,且投影时仅投影可视点的部分。
(4)短程预测模块,用来对视频的全局残差进行短时预测,进一步包括子模块:可视性检测模块,用来进行车辆表面可视性检测,将表面区域划分为消失区域、变换区域、暴露区域;
预测模块,针对变换区域的暴露区域分为两个子模块:
其一,基于姿态变换的帧间预测子模块,用于当前帧变换区域参考像素残差的表达,具体包括:因变换区域是参考帧和当前帧可视区域的交集,Gm[xm,ym,zm,1]表示在两帧中共同的一个可视三维点,分别表示参考帧和当前帧上对应的图像像素点,以[Ix,Iy,f,1]的形式表示,基于公式(3),三维模型点和图像像素点的关系可表示为:
其中字母加粗部分表示点的集合。因此当前帧变换区域的参考像素残差可表示为:
其二,基于帧内预测的子模块,用于暴露区域的表达,具体包括:首先根据车辆三维模型不同的材质将车辆表面划分成几部分,如主体、车窗等;然后暴露区域的预测值可通过所属相同部分的可视点的平均预测残差得到,具体表达如下:
其中O(GI)和O(GJ)分别表示点I和点J所属的部分,M是该部分中变换区域可视点的数量。
(5)背景预测模块,用来对非车辆区域进行基于背景建模的预测,构造出背景图像的长期参考,从而获得背景残差,具体包括子模块:
参考背景生成模块,使用背景建模的方法构造出背景图像作为背景图像的长期参考;
背景残差生成模块,用来将当前的背景区域减去预测的背景图像获得背景残差。
(6)前景残差和背景残差叠加模块,用来将两种残差根据姿态信息叠加,具体包括子模块:
混合预测生成模块,用来结合长程预测和短时预测获得混合预测的结果;
最终前景残差生成模块,用来将当前的原始视觉外观减去与基于混合预测的外观得到最终的前景残差,其中最终的前景残差包括前景残差图像及其掩膜;
叠加模块,通用来过三维模型坐标和投影的图像平面点间的对应关系,使用前景残差对背景残差的空洞进行填充。
(7)残差视频编码模块,用来将残差图像及其掩膜转换值YUV空间,分别进行传统视频编码。
本发明针对多源监控视频数据中因通过运动对象被不同摄像机反复摄录形成的全局冗余,提出了一种新的视频编码方案。首先通过车辆检测的方法对前背景进行分离,再将真实的车辆图像表观分为通过摄像机参数和当前位置及姿态参数进行投影得到的理想外观和因环境因素和物理因素影响得到的图像表观变化,从而进行由长程预测和短程预测结合的混合预测。长程预测是利用投影得到的模型图像,来去除同一对象在不同摄像机下产生的冗余;短程预测是利用同一对象帧间的对应关系来进一步消除长程预测残差的冗余。另外,对非车辆区域进行基于背景建模的预测,对背景进行进一步预测使残差更小。最后将背景残差和通过混合预测结果得到的前景残差进行残差视频编码,大大提升了多源监控视频下的编码效率。
以上所述只是本发明较佳的实施例,并不用于限制本发明,凡在本发明的技术范围内所做的修改、等同替换或者改进等,均应包含在本发明所保护的范围内。

Claims (9)

1.一种多源监控视频的高效编码方法,其特征在于,包括步骤:
S1,监控视频预处理:对原始视频当前帧中的车辆进行检测,将车辆对象区域和非车辆对象区域进行分离,并对分离的车辆对象进行车型识别,获得车辆对应的模型信息,生成前景区域,非车辆对象区域作为背景区域;在后续帧中对目标车辆进行跟踪,从而获得每一帧车辆对象、车辆对应模型信息的前景区域以及背景区域;
S2,对车辆对象进行姿态提取,获得姿态参数,每一帧车辆的位置和姿态由地平面上的位置(X,Y)和旋转角θ表示,其变换矩阵Ct可表示为:
S3,通过摄像机模型和车辆当前位置与姿态参数将车辆三维模型投影到图像平面,生成理想的图像作为模型长程预测参考;
S4,对视频的全局预测残差进行短程预测;
S5,对非车辆区域进行基于背景建模的预测,进一步包括:
S5.1利用基于块的背景建模方法,构造出背景模型;
S5.2将当前的背景区域减去建立的背景模型获得背景残差。
S6,背景残差与前景残差叠加,具体包括:
S6.1结合模型长程预测和短程预测获得混合预测的外观结果;
S6.2由当前的原始视觉外观减去与基于混合预测的外观结果得到最终的前景残差,其中最终的前景残差包括前景残差图像及其掩膜;
S6.3通过三维模型坐标和投影的图像平面点间的对应关系,使用前景残差对背景残差的空洞进行填充;
S7,将步骤S6的残差图像及其掩膜转换值YUV空间,分别进行传统视频编码,解码后的残差结合缓存区中的信息重建外观差异,并将其存入缓存区作为之后帧的参考信息。
2.如权利要求1所述的多源监控视频的高效编码方法,其特征在于,
步骤S1进一步包括子步骤:
S1.1对视频当前帧中的前景区域进行检测和分割;
S1.2将车辆对象从其他运动对象中分离;
S1.3对于视频片段中每新检测出来的车,对其进行识别并记录其模型id;
S1.4当车辆在后续帧帧间运动时,对已检测车辆进行跟踪,保证帧间车辆对象的匹配。
3.如权利要求2所述的多源监控视频的高效编码方法,其特征在于:
步骤S2进一步包括子步骤:
S2.1对车辆运动的地平面进行约束;
S2.2从车辆的模型边缘和内部结构边缘提取直线生成该车辆的线框模型;
S2.3将S2.2中提取的线框模型和边缘检测算子提取出的直线进行匹配计算,直线匹配计算后θ的候选值从角度直方图中获取,(X,Y)从位置散点图中获得;
S2.4对于新检测的车辆,利用车辆区域在图像中位置以及车辆梯度信息对姿态参数初始化,对于跟踪的车辆,其参数通过前一帧进行初始化;若计算结果在设定的误差范围外,则视为错误识别并作为非车辆运动对象进行编码。
4.如权利要求3所述的多源监控视频的高效编码方法,其特征在于:
步骤S3进一步包括子步骤:
S3.1摄像机模型参数包括五个透视畸变参数:三个径向畸变参数和两个切向畸变参数,四个内参数:图像主点坐标Ix、Iy和焦距fx、fy,六个外参数:三个平移参数和三个旋转参数,其中透视畸变参数和内参数通过棋盘标定的方式进行初始化,摄像机模型由变换矩阵Cv表示,见公式(2):
其中k为非0缩放因子,(Ix,Iy)为主点坐标,σ为方向因子,(R1,R2,R3)T为世界坐标系到摄像机坐标系的平移向量,R1、R2、R3为3x3旋转矩阵的列向量,(R1,R2,R3)为世界坐标系到摄像机坐标系的旋转向量;
S3.2对三维模型上的所有点进行可视性检测;
S3.3结合摄像机模型、车辆当前位置和姿态将对应三维模型投影到图像平面,投影时仅投影可视点的部分,三维模型坐标(Xn,Yn,Zn)和投影的图像平面点(Ix,Iy)间对应关系见公式(3):
d(Ix,Iy,f,1)=(Xn,Yn,Zn,1)·Cv·Ct (3)
其中f是摄像机焦距长度,d是非零缩放因子。
5.如权利要求4所述的多源监控视频的高效编码方法,其特征在于:
步骤S4进一步包括子步骤:
S4.1对三维模型上的所有点进行可视性检测:根据车辆表面可视性不同,将表面区域划分成以下三种类型:
(1)消失区域:
(2)变换区域:
(3)暴露区域:
其中,分别是参考帧和当前帧的可见区域,分别是参考帧和当前帧的不可见区域,所述参考帧为当前帧的前一帧;
S4.2根据变换区域和暴露区域的特点,分别采用不同的预测方法:
(1)针对变换区域,采用基于姿态变换的帧间预测方法,具体步骤包括:
因变换区域是参考帧和当前帧可视区域的交集,Gm[xm,ym,zm,1]表示在两帧中共同的一个可视三维点,分别表示参考帧和当前帧上对应的图像像素点,以[Ix,Iy,f,1]的形式表示,基于公式(3),三维模型点和图像像素点的关系可表示为:
其中字母d表示点的集合,因此当前帧变换区域的参考像素残差可表示为:
(2)针对暴露区域,采用一种帧内的预测的方法,具体包括:
首先根据车辆三维模型不同的材质将车辆表面划分成几部分,如主体、车窗等;然后暴露区域的预测值可通过所属相同部分的可视点的平均预测残差得到,具体表达如下:
其中O(GI)和O(GJ)分别表示点I和点J所属的部分,M是该部分中变化区域可视点的数量。
6.一种多源监控视频的高效编码系统,其特征在于,包括:
(1)监控视频预处理模块,具体包括:
车辆检测模块,在当前帧中,使用背景提取的方法对视频中的运动区域进行检测和分割;
前背景分离模块,在当前帧中,通过尺寸和HOG特征将车辆对象从其他运动对象中分离,生成前景区域和背景区域;
车型识别模块,在当前帧中,用来识别视频中出现的同一对象,并记录其模型id方便后续帧跟踪;
车辆跟踪模块,在后续帧中,用来对已检测和识别的车辆进行跟踪,保证帧间车辆对象的匹配;
(2)姿态提取模块,用来对车辆目标的姿态提取,获得姿态参数;
(3)长程预测模块,用来根据车辆的姿态及3D模型进行长程预测;
(4)短程预测模块,用来对视频的全局残差进行短程预测;
(5)背景预测模块,用来对非车辆区域进行基于背景建模的预测,构造出背景图像的长期参考,从而获得背景残差,具体包括子模块:
参考背景生成模块,使用背景建模的方法构造出背景图像作为背景图像的长期参考;
背景残差生成模块,用来将当前的背景区域减去预测的背景图像获得背景残差;
(6)前景残差和背景残差叠加模块,用来将两种残差根据姿态信息叠加;
(7)残差视频编码模块,用来将残差图像及其掩膜转换值YUV空间,分别进行传统视频编码。
7.如权利6所述多源监控视频的高效编码系统,其特征在于,
所述的模型长程预测模块进一步包括:
可视性检测模块,用来对三维模型上的所有点进行可视性检测;
投影模块,用来结合摄像机模型、车辆当前位置和姿态将三维模型坐标转化到投影的图像平面点,且投影时仅投影可视点的部分。
8.如权利7所述多源监控视频的高效编码系统,其特征在于,
短程预测模块进一步包括:
可视性检测模块,用来进行车辆表面可视性检测,将表面区域划分为消失区域、变换区域、暴露区域;
预测模块,针对变换区域和暴露区域分为两个子模块:
其一,基于姿态变换的帧间预测子模块,用于当前帧变换区域参考像素残差的表达,具体包括:因变换区域是参考帧和当前帧可视区域的交集,Gm[xm,ym,zm,1]表示在两帧中共同的一个可视三维点,分别表示参考帧和当前帧上对应的图像像素点,以[Ix,Iy,f,1]的形式表示,基于公式(3),三维模型点和图像像素点的关系可表示为:
其中字母d表示点的集合。因此当前帧变换区域的参考像素残差可表示为:
其二,基于帧内预测的子模块,用于暴露区域的表达,具体包括:
首先根据车辆三维模型不同的材质将车辆表面划分成几部分,如主体、车窗等;然后暴露区域的预测值可通过所属相同部分的可视点的平均预测残差得到,具体表达如下:
其中O(GI)和O(GJ)分别表示点I和点J所属的部分,M是该部分中变换区域可视点的数量。
9.如权利8所述的一种多源监控视频的高效编码系统,其特征在于,
前景残差与背景残差叠加模块进一步包括:
混合预测生成模块,用来结合长程预测和短程预测获得混合预测的结果;
最终前景残差生成模块,用来将当前的原始视觉外观减去与基于混合预测的外观得到最终的前景残差,其中最终的前景残差包括前景残差图像及其掩膜;
叠加模块,通用来过三维模型坐标和投影的图像平面点间的对应关系,使用前景残差对背景残差的空洞进行填充。
CN201810710560.4A 2018-07-02 2018-07-02 一种多源监控视频的高效编码方法及其系统 Pending CN108898842A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810710560.4A CN108898842A (zh) 2018-07-02 2018-07-02 一种多源监控视频的高效编码方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810710560.4A CN108898842A (zh) 2018-07-02 2018-07-02 一种多源监控视频的高效编码方法及其系统

Publications (1)

Publication Number Publication Date
CN108898842A true CN108898842A (zh) 2018-11-27

Family

ID=64347651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810710560.4A Pending CN108898842A (zh) 2018-07-02 2018-07-02 一种多源监控视频的高效编码方法及其系统

Country Status (1)

Country Link
CN (1) CN108898842A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109951705A (zh) * 2019-03-15 2019-06-28 武汉大学 一种面向监控视频中车辆对象编码的参考帧合成方法及装置
CN111464834A (zh) * 2020-04-07 2020-07-28 腾讯科技(深圳)有限公司 一种视频帧处理方法、装置、计算设备及存储介质
CN112150538A (zh) * 2019-06-27 2020-12-29 北京初速度科技有限公司 一种在三维地图构建过程中车辆位姿的确定方法和装置
CN113257003A (zh) * 2021-05-12 2021-08-13 上海天壤智能科技有限公司 交通道路车道级车流计数系统及其方法、设备、介质
CN113630609A (zh) * 2020-05-06 2021-11-09 Tcl科技集团股份有限公司 一种视频编码方法、解码方法、存储介质以及终端设备
CN113920153A (zh) * 2021-09-15 2022-01-11 北京工业大学 基于编码-解码网络的深度运动分离方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103051894A (zh) * 2012-10-22 2013-04-17 北京航空航天大学 一种基于分形和h.264的双目立体视频压缩与解压缩方法
CN104301735A (zh) * 2014-10-31 2015-01-21 武汉大学 城市交通监控视频全局编码方法及系统
CN105868700A (zh) * 2016-03-25 2016-08-17 哈尔滨工业大学深圳研究生院 一种基于监控视频的车型识别与跟踪方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103051894A (zh) * 2012-10-22 2013-04-17 北京航空航天大学 一种基于分形和h.264的双目立体视频压缩与解压缩方法
CN104301735A (zh) * 2014-10-31 2015-01-21 武汉大学 城市交通监控视频全局编码方法及系统
CN105868700A (zh) * 2016-03-25 2016-08-17 哈尔滨工业大学深圳研究生院 一种基于监控视频的车型识别与跟踪方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JING XIAO,RUIMIN HU,LIANG LIAO,YU CHEN,ZHONGYUAN WANG,ET AL.: "Knowledge-Based Coding of Objects for Multisource Surveillance Video Data", 《IEEE TRANSACTIONS ON MULTIMEDIA》 *
Z. ZHANG: "A flexible new technique for camera calibration", 《PATTERN ANAL. MACH. INTELL》 *
冷大炜: "基于单目视觉的三维刚体目标", 《基于单目视觉的三维刚体目标 *
罗钧: "《嵌入式数字媒体处理器原理与开发: 基于TI达芬奇DM8168系列》", 30 June 2016, 北京航空航天大学出版社 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109951705A (zh) * 2019-03-15 2019-06-28 武汉大学 一种面向监控视频中车辆对象编码的参考帧合成方法及装置
CN112150538A (zh) * 2019-06-27 2020-12-29 北京初速度科技有限公司 一种在三维地图构建过程中车辆位姿的确定方法和装置
CN112150538B (zh) * 2019-06-27 2024-04-12 北京初速度科技有限公司 一种在三维地图构建过程中车辆位姿的确定方法和装置
CN111464834A (zh) * 2020-04-07 2020-07-28 腾讯科技(深圳)有限公司 一种视频帧处理方法、装置、计算设备及存储介质
CN113630609A (zh) * 2020-05-06 2021-11-09 Tcl科技集团股份有限公司 一种视频编码方法、解码方法、存储介质以及终端设备
CN113630609B (zh) * 2020-05-06 2024-03-12 Tcl科技集团股份有限公司 一种视频编码方法、解码方法、存储介质以及终端设备
CN113257003A (zh) * 2021-05-12 2021-08-13 上海天壤智能科技有限公司 交通道路车道级车流计数系统及其方法、设备、介质
CN113920153A (zh) * 2021-09-15 2022-01-11 北京工业大学 基于编码-解码网络的深度运动分离方法
CN113920153B (zh) * 2021-09-15 2024-05-28 北京工业大学 基于编码-解码网络的深度运动分离方法

Similar Documents

Publication Publication Date Title
CN108898842A (zh) 一种多源监控视频的高效编码方法及其系统
US11398037B2 (en) Method and apparatus for performing segmentation of an image
US7986810B2 (en) Mesh based frame processing and applications
Koller et al. Robust multiple car tracking with occlusion reasoning
Babu et al. A survey on compressed domain video analysis techniques
CN102750711B (zh) 一种基于图像分割和运动估计的双目视频深度图求取方法
Mou et al. Spatiotemporal scene interpretation of space videos via deep neural network and tracklet analysis
CN106709436A (zh) 面向轨道交通全景监控的跨摄像头可疑行人目标跟踪系统
CN110688905B (zh) 一种基于关键帧的三维物体检测与跟踪方法
US20120207388A1 (en) Method and apparatus for disparity computation in stereo images
US9723296B2 (en) Apparatus and method for determining disparity of textured regions
Malassiotis et al. Object-based coding of stereo image sequences using three-dimensional models
Kiratiratanapruk et al. Vehicle detection and tracking for traffic monitoring system
JP2002525988A (ja) 意味的映像オブジェクト分割のためのシステムおよび方法
CA2812890A1 (en) Mesh based frame processing and applications
Gu et al. Morphological moving object segmentation and tracking for content-based video coding
Marugame et al. Focused object extraction with multiple cameras
Kelly et al. Pedestrian detection in uncontrolled environments using stereo and biometric information
CN117132952A (zh) 一种基于多摄像头的鸟瞰视角车辆感知系统
D'Apuzzo Motion capture by least squares matching tracking algorithm
Gan et al. Object tracking and matting for a class of dynamic image-based representations
Thakoor et al. Automatic video object extraction with camera in motion
CN117011829A (zh) 一种基于几何形状轨道分割拟合算法的障碍物检测方法
Xu et al. Fast visual saliency map extraction from digital video
Smith et al. A framework for dense optical flow from multiple sparse hypotheses

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181127