CN109951705A

CN109951705A - 一种面向监控视频中车辆对象编码的参考帧合成方法及装置

Info

Publication number: CN109951705A
Application number: CN201910196335.8A
Authority: CN
Inventors: 胡瑞敏; 陈宇; 肖晶; 朱荣; 王中元; 廖良
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2019-06-28
Anticipated expiration: 2039-03-15
Also published as: CN109951705B

Abstract

本发明公开了一种面向监控视频中车辆对象编码的参考帧合成方法，包括全局参考帧生成、局部参考帧生成以及全局与局部参考帧融合，其中，全局参考帧利用历史监控视频中车辆对象的共性信息通过透视投影变换得到；局部参考帧利用当前待编码视频中车辆对象的局部信息，即已编码视频帧中的车辆对象，通过三维姿态变换得到；全局与局部参考帧融合，根据车辆不同区域的图像属性，分别设计融合方法，得到最终的合成参考帧。本发明融合局部与全局知识构建合成参考帧用于监控视频中车辆对象的预测编码，合成参考帧不仅对光照等环境因素鲁棒而且包含丰富的细节信息，提升了监控视频中车辆对象的编码效率。

Description

一种面向监控视频中车辆对象编码的参考帧合成方法及装置

技术领域

本发明涉及监控视频编码技术领域，具体涉及一种面向监控视频中车辆对象编码的参考帧合成方法及装置。

背景技术

如今，监控摄像机已广泛覆盖道路，社区等大部分公共区域，这些摄像机每日将产生海量监控视频数据，存储这些监控视频需要花费大量资源，亟需研究高效的监控视频编码方法。

现有技术中，监控视频编码方法通常将监控视频的运动前景和静态背景分离，根据其特性分别设计编码策略。静态背景的预测编码已可达到较高精度，且技术相对成熟，性能提升空间有限。相比之下，前景对象因其运动的复杂性通常难以高效预测。现有的前景对象编码方法主要针对单源监控视频设计，利用对象在短时间内的局部相似性去除局部时空冗余，实现高效编码，压缩比可达250:1，但仍然难以满足监控视频存储需求。于是，多源监控视频编码方法被提出，该方法利用运动对象的三维模型这一类全局知识对不同视频间同一对象进行跨视频预测，实现多源视频联合编码，可以在一定程度上提升运动对象的编码效率。

本申请发明人在实施本发明的过程中，发现现有技术的方法，至少存在如下技术问题：

单源对象编码方法利用局部信息进行预测，难以消除存在于不同视频间的冗余，而多源对象编码方法利用全局信息进行预测，易受到光照等环境因素影响。

由此可知，现有技术中的方法存在编码效率较低的技术问题。

发明内容

有鉴于此，本发明提供了一种面向监控视频中车辆对象编码的参考帧合成方法及装置，用以解决或者至少部分解决现有技术中的方法存在编码效率较低的技术问题。

本发明第一方面提供了一种面向监控视频中车辆对象编码的参考帧合成方法，包括：

步骤S1：基于历史监控视频中车辆对象的三维模型，生成全局参考帧；

步骤S2：根据待编码视频中车辆对象，将已编码视频帧中的车辆对象进行三维姿态变换，生成局部参考帧；

步骤S3：根据车辆不同区域的图像属性，设置对应的融合方法，并基于对应的融合方法将全局参考帧与局部参考帧进行融合，生成合成参考帧。

在一种实施方式中，步骤S1具体包括：

步骤S1.1：采集预设区域监控摄像机拍摄的历史监控视频，并获取历史监控视频数据中车辆对象对应的三维模型；

步骤S1.2：对当前待编码视频进行分帧，逐帧进行车辆检测与识别；

步骤S1.3：依据车辆检测与识别结果，对视频帧进行车辆区域分割，获得车辆视频帧；

步骤S1.4：基于车辆对象的三维模型，对车辆视频帧中的车辆进行姿态估计，获得位置姿态参数；

步骤S1.5：根据位置姿态参数，通过透视变换将三维模型投影到二维平面，生成全局参考帧。

在一种实施方式中，步骤S2具体包括：

步骤S2.1：根据已编码视频帧中车辆对象的第一姿态参数以及当前待编码帧中车辆对象的第二姿态参数，计算三维姿态变换参数；

步骤S2.2：根据三维姿态变换参数，将已编码视频帧中的车辆对象变换至待编码帧中对应的区域，生成初始局部参考帧；

步骤S2.3：对初始局部参考帧进行空洞填充，得到最终的局部参考帧。

在一种实施方式中，步骤S3具体包括：

步骤S3.1：计算当前待编码帧的结构张量，根据结构张量的迹将待编码帧划分为平坦区域与纹理结构区域；

步骤S3.2：对于平坦区域，将局部参考帧中的车辆对象进行线性变换，生成合成参考帧中对应的目标平坦区域；

步骤S3.3：对于纹理结构区域，将局部参考帧的车辆对象与全局参考帧中的车辆对象进行线性加权，生成合成参考帧中对应的目标纹理结构区域。

在一种实施方式中，透视变换对应的透视投影矩阵通过位置姿态参数变换获得，具有如下形式，

K·[R|T]

其中，K为摄像机内参矩阵，R为旋转矩阵，通过位置姿态参数(θ,ω,)经过罗德里格斯变换得到，T为平移矩阵，通过位置参数变换得到，表示为[x,y,1]；投影过程具体为将三维模型中所有点根据投影矩阵映射到二维图像，对于任意三维点，其二维投影表示为，

K·[R|T]·[X,Y,Z,1]^T

其中，[X,Y,Z,1]为三维点的齐次坐标。

在一种实施方式中，步骤3.2中，局部参考帧中的车辆对象平坦区域像素到合成参考帧中对应区域像素的线性变换系数通过最小化目标函数实现，目标函数如下，

其中，R(f)为平坦区域像素集合，VO为车辆对象，Ref^L为局部参考帧，α₁和b₁为线性表示系数。

在一种实施方式中，步骤S3.3中，局部参考帧与全局参考帧的加权系数通过最小化目标函数实现，目标函数如下，

其中，R(s)为纹理结构区域像素集合，Ref^G为全局参考帧，α₂，β₂和b₂为线性加权系数。

基于同样的发明构思，本发明第二方面提供了一种面向监控视频中车辆对象编码的参考帧合成装置，包括：

全局参考帧生成模块，用于基于历史监控视频中车辆对象的三维模型，生成全局参考帧；

局部参考帧生成模块，用于根据待编码视频中车辆对象，将已编码视频帧中的车辆对象进行三维姿态变换，生成局部参考帧；

合成模块，用于根据车辆不同区域的图像属性，设置对应的融合方法，并基于对应的融合方法将全局参考帧与局部参考帧进行融合，生成合成参考帧。

基于同样的发明构思，本发明第三方面提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被执行时实现第一方面所述的方法。

基于同样的发明构思，本发明第四方面提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述的方法。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明提供的一种面向监控视频中车辆对象编码的参考帧合成方法，首先基于历史监控视频中车辆对象的三维模型生成全局参考帧，然后根据待编码视频中车辆对象，将已编码视频帧中的车辆对象进行三维姿态变换，生成局部参考帧，生成局部参考帧；最后根据车辆不同区域的图像属性，设置对应的融合方法，并基于对应的融合方法将全局参考帧与局部参考帧进行融合，生成合成参考帧。

与现有技术相比较，本发明基于图像融合的思想，融合局部与全局知识构建合成参考帧用于监控视频中车辆对象的预测编码。相比于仅使用局部或者全局知识生成的参考帧，本发明构建的合成参考帧兼具二者特点，不仅对光照等环境因素鲁棒而且包含丰富的细节信息，能够有效减小预测残差，提升编码效率，可集成到现有的编码框架，广泛应用于监控系统中。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中面向监控视频中车辆对象编码的参考帧合成方法的流程图；

图2为本发明实施例中面向监控视频中车辆对象编码的参考帧合成装置的结构框图；

图3为本发明实施例中一种计算机可读存储介质的结构框图；

图4为本发明实施例中计算机设备的结构图。

具体实施方式

本发明的目的在于：基于图像融合的思想，融合局部与全局信息合成参考帧用于对象预测，以大幅提升预测精度，提高对象编码效率。

为了达到上述效果，本发明的主要构思如下：

提供一种面向监控视频中车辆对象编码的参考帧合成方法，用于生成监控视频中车辆对象的预测参考帧，提升监控视频中车辆对象的编码效率。包括全局参考帧生成、局部参考帧生成以及全局与局部参考帧融合。

其中，全局参考帧利用历史监控视频中车辆对象的共性信息，即车辆对象的三维模型作为先验知识，通过透视投影变换得到；局部参考帧利用当前待编码视频中车辆对象的局部信息，即已编码视频帧中的车辆对象，通过三维姿态变换得到；全局与局部参考帧融合，根据车辆不同区域的图像属性，分别设计融合方法，得到最终的合成参考帧。

本发明融合局部与全局知识构建合成参考帧用于监控视频中车辆对象的预测编码，合成参考帧不仅对光照等环境因素鲁棒而且包含丰富的细节信息，采用合成参考帧对监控视频中的车辆对象进行预测的精度明显优于仅使用局部或者全局参考帧，可集成到现有的编码框架，广泛应用于监控系统中。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本实施例提供了一种面向监控视频中车辆对象编码的参考帧合成方法，请参见图1，该方法包括：

首先执行步骤S1：基于历史监控视频中车辆对象的三维模型，生成全局参考帧。

具体来说，由于现有技术中通常采用的单源对象编码方法或者多源对象编码方法，单源对象编码方法利用局部信息进行预测，难以消除存在于不同视频间的冗余，而多源对象编码方法利用全局信息进行预测，易受到光照等环境因素影响。因此，单独使用局部或者全局信息预测都难以达到理想的编码效率。因此，本发明基于图像融合的思想，融合局部与全局信息合成参考帧用于对象预测，以大幅提升预测精度，提高对象编码效率。由于车辆对象具有刚性结构便于建模，因此本发明主要面向车辆对象。

三维模型可以从网络上收集或与车辆生产商合作获得，进一步地，可以构建车辆模型库，用于后续的参考帧的合成。全局参考帧利用历史监控视频中车辆对象的共性信息，即车辆对象的三维模型作为先验知识，通过透视投影变换得到。

在一种实施方式中，步骤S1具体包括：

具体来说，步骤S1.1中，对监控视频进行车辆检测与识别后，可以统计出该区域常见的车辆型号，进而获得对应的三维模型，其中，车辆检测与车型识别可采用现有技术中的方法实现，例如，车辆检测可以采用基于yolo神经网络的车辆检测方法，车型识别可以采用基于深度卷积神经网络的车型识别方法。

步骤S1.2中，车辆的检测与识别可以分为两个过程，检测过程框出车辆的位置，识别过程确定车辆型号。然后根据车辆位置以及车型对应的模型可以将车辆从视频中分割出来。即车辆检测与识别结果包括车辆的位置和车辆型号。

步骤S1.3中的车辆区域分割可以采用现有的图像分割技术，例如基于全卷积神经网络的图像分割方法。

步骤S1.4中，利用车辆对象的三维模型，对车辆视频帧中的车辆进行姿态估计，其中姿态估计采用现有技术实现，例如基于精细模型的车辆姿态估计方法等。

在一种实施方式中，步骤S1.5中，透视变换对应的透视投影矩阵通过位置姿态参数变换获得，具有如下形式，

K·[R|T]

K·[R|T]·[X,Y,Z,1]^T

其中，[X,Y,Z,1]为三维点的齐次坐标。

然后执行步骤S2：根据待编码视频中车辆对象，将已编码视频帧中的车辆对象进行三维姿态变换，生成局部参考帧。

需要说明的是，本发明中步骤S1和步骤S2的执行顺序不分先后，可以先执行步骤S1也可以先执行步骤S2。

具体来说，局部参考帧利用当前待编码视频中车辆对象的局部信息，将已编码视频帧中的车辆对象，通过三维姿态变换得到。

在一种实施方式中，步骤S2具体包括：

具体来说，步骤2.1中，三维姿态变换过程实质是将已编码视频帧中车辆区域的像素反向投影到三维模型上，再通过透视投影将该像素从三维模型上投影到当前待编码帧中对应的车辆区域，变换矩阵表示为，

其中，M_cur与分别表示三维模型到当前待编码帧和已编码帧的透视投影矩阵，计算过程同步骤S1.5所述。

步骤2.2中，根据三维姿态变换参数，将已编码视频帧中的车辆对象变换至待编码帧中对应的区域，变换过程表示为，

其中，VO为车辆对象。获得车辆区域变换图像后，将非车辆区域填充为0，生成初始局部参考帧。

其中，步骤2.3中，空洞填充通过待填充像素周围的邻近像素线性加权实现，待填充像素表示为，

其中，N为邻域像素个数，pix_i为邻近像素值，ω_i为线性加权权重。根据图像像素分布连续性假设，距离待填充像素较近的像素与待填充像素相关性更高，应被赋予更高的权重，同时，为了保证填充精度，将使用同一属性的像素进行线性加权，权重计算公式为，

其中，d_i为邻近像素与待填充像素对应的三维模型点之间的欧氏距离，μ为归一化系数，label_i与label_c分别表示邻近像素与待填充像素对应的三维模型点的属性标签。

再执行步骤S3：根据车辆不同区域的图像属性，设置对应的融合方法，并基于对应的融合方法将全局参考帧与局部参考帧进行融合，生成合成参考帧。

具体来说，步骤S3主要是全局与局部参考帧融合，根据车辆不同区域的图像属性，分别设计融合方法，得到最终的合成参考帧，使得合成参考帧中车辆对象尽可能接近当前待编码帧中车辆对象，

在一种实施方式中，步骤S3具体包括：

具体地，步骤3.1.计算当前待编码帧的结构张量，具有如下形式，

其中，g_x和g_y分别表示待编码帧在水平和垂直方向上的梯度幅值。得到结构张量后，据此对待编码帧中的像素进行分类，将其划分为平坦区域与纹理结构区域，分类标准如下，

其中pix表示待编码帧中像素，R(f)和R(s)分别表示平坦区域与纹理结构区域，tr(·)表示矩阵的迹，M为结构张量。

步骤3.2中，局部参考帧中的车辆对象平坦区域像素到合成参考帧中对应区域像素的线性变换系数通过最小化目标函数实现，目标函数如下，

具体来说，对于平坦区域，采用局部参考帧中车辆对象经过线性变换生成合成参考帧中对应的目标平坦区域，这一过程可表示为，

α₁·Ref^L+b₁

其中，Ref^L为局部参考帧，α₁和b₁为线性表示系数。局部参考帧中车辆对象平坦区域像素到合成参考帧中对应区域像素的线性变换系数通过最小化目标函数实现，对应的优化问题采用最小二乘法求解。

步骤S3.3中，局部参考帧与全局参考帧的加权系数通过最小化目标函数实现，目标函数如下，

具体来说，对于纹理结构区域，采用局部参考帧与全局参考帧中车辆对象经过线性加权生成合成参考帧中对应的目标纹理结构区域，这一过程可表示为，

其中，Ref^G为全局参考帧，α₂，β₂和b₂为线性加权系数。局部参考帧与全局参考帧的加权系数通过最小化目标函数实现，目标函数对应的优化问题采用最小二乘法求解。

为了便于本领域普通技术人员理解和实施本发明，下面通过一个具体示例对本发明提供的参考帧合成方法进行详细说明。

具体实施时，可采用软件方式实现以上流程的自动运行。通过采用以上流程进行实验可知，单源对象编码方法利用局部信息进行预测，难以消除存在于不同视频间的冗余，而多源对象编码方法利用全局信息进行预测，易受到光照等环境因素影响。单独使用局部或者全局信息预测都难以达到理想的编码效率。本发明融合局部与全局知识构建合成参考帧用于监控视频中车辆对象的预测编码，合成参考帧不仅对光照等环境因素鲁棒而且包含丰富的细节信息，采用合成参考帧对监控视频中的车辆对象进行预测的精度明显优于仅使用局部或者全局参考帧，编码效率大幅提升。

基于本发明执行步骤S1～S3所得的结果，相较于仅使用局部或者全局参考帧对车辆对象进行编码，码率节省百分比分别为17.85％和26.59％，相关实验数据请参见表1。

表1

基于同一发明构思，本申请还提供了与实施例一中面向监控视频中车辆对象编码的参考帧合成方法对应的装置，详见实施例二。

实施例二

本实施例提供了一种面向监控视频中车辆对象编码的参考帧合成装置，请参见图2，该装置包括：

在一种实施方式中，全局参考帧生成模块具体用于执行下述步骤：

在一种实施方式中，局部参考帧生成模块具体用于执行下述步骤：

在一种实施方式中，合成模块具体用于执行下述步骤：

在一种实施方式中，全局参考帧生成模块中，透视变换对应的透视投影矩阵通过位置姿态参数变换获得，具有如下形式，

K·[R|T]

K·[R|T]·[X,Y,Z,1]^T

其中，[X,Y,Z,1]为三维点的齐次坐标。

在一种实施方式中，合成模块中，局部参考帧中的车辆对象平坦区域像素到合成参考帧中对应区域像素的线性变换系数通过最小化目标函数实现，目标函数如下，

在一种实施方式中，合成模块中，局部参考帧与全局参考帧的加权系数通过最小化目标函数实现，目标函数如下，

由于本发明实施例二所介绍的装置，为实施本发明实施例一中面向监控视频中车辆对象编码的参考帧合成方法所采用的装置，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该装置的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。

实施例三

请参见图3，基于同一发明构思，本申请还提供了一种计算机可读存储介质300，其上存储有计算机程序311，该程序被执行时实现如实施例一中所述的方法。

由于本发明实施例三所介绍的计算机可读存储介质为实施本发明实施例一中面向监控视频中车辆对象编码的参考帧合成方法所采用的计算机设备，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该计算机可读存储介质的具体结构及变形，故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。

实施例四

基于同一发明构思，本申请还提供了一种计算机设备，请参见图4，包括存储401、处理器402及存储在存储器上并可在处理器上运行的计算机程序403，处理器402执行上述程序时实现实施例一中的方法。

由于本发明实施例四所介绍的计算机设备为实施本发明实施例一中面向监控视频中车辆对象编码的参考帧合成方法所采用的计算机设备，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该计算机设备的具体结构及变形，故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机设备都属于本发明所欲保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种面向监控视频中车辆对象编码的参考帧合成方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，步骤S1具体包括：

3.如权利要求1所述的方法，其特征在于，步骤S2具体包括：

4.如权利要求1所述的方法，其特征在于，步骤S3具体包括：

5.如权利要求1所述的方法，其特征在于，步骤S1.5中，透视变换对应的透视投影矩阵通过位置姿态参数变换获得，具有如下形式，

K·[R|T]

其中，K为摄像机内参矩阵，R为旋转矩阵，通过位置姿态参数经过罗德里格斯变换得到，T为平移矩阵，通过位置参数变换得到，表示为[x,y,1]；投影过程具体为将三维模型中所有点根据投影矩阵映射到二维图像，对于任意三维点，其二维投影表示为，

K·[R|T]·[X,Y,Z,1]^T

其中，[X,Y,Z,1]为三维点的齐次坐标。

6.如权利要求1所述的方法，其特征在于，步骤3.2中，局部参考帧中的车辆对象平坦区域像素到合成参考帧中对应区域像素的线性变换系数通过最小化目标函数实现，目标函数如下，

7.如权利要求1所述的方法，其特征在于，步骤S3.3中，局部参考帧与全局参考帧的加权系数通过最小化目标函数实现，目标函数如下，

8.一种面向监控视频中车辆对象编码的参考帧合成装置，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被执行时实现如权利要求1至7中任一项权利要求所述的方法。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7中任一项权利要求所述的方法。