CN110505480A

CN110505480A - 一种面向监控场景的快速感知视频编码方法

Info

Publication number: CN110505480A
Application number: CN201910712870.4A
Authority: CN
Inventors: 王钢; 舒振宇
Original assignee: Ningbo Institute of Technology of ZJU
Current assignee: Ningbo Institute of Technology of ZJU
Priority date: 2019-08-02
Filing date: 2019-08-02
Publication date: 2019-11-26
Anticipated expiration: 2039-08-02
Also published as: CN110505480B

Abstract

本发明公布了一种面向监控场景的快速感知视频编码方法。该方法建立一种基于背景建模的快速感知视频编码框架，将背景建模技术与JND阈值计算结合，利用背景建模生成背景建模帧，并利用该背景建模帧对监控视频内容分类，然后对背景的内容复杂度估计值进行时域复用，从而利用监控视频背景稳定性特点实现JND阈值快速计算。本发明所提出的面向监控场景的快速感知视频编码方法可以进一步提高监控视频的压缩率，降低编码时间复杂度，并兼容现有监控视频编码标准框架，无需增加解码端的软硬件成本，满足监控视频快速编码的应用需求。

Description

一种面向监控场景的快速感知视频编码方法

技术领域

本发明涉及多媒体编码技术领域，特别涉及一种面向监控场景的，将基于背景建模的监控视频编码和基于感知模型的视频编码方法有效结合的快速感知视频编码方法。

背景技术

随着国家公共安全加强和智慧城市发展的需要，监控摄像机的数量、种类和清晰度正在不断增加，海量监控视频数据出现了“传不动”，相应的高昂成本也使得多数监控视频数据“存不起”。因此，对存储和传输带宽提出了更高的挑战。然而，监控视频在内容上、应用上均有明显的特殊性，通用的编码和传输方法无法满足面向海量监控视频的有效存储和高效率高精度分析研判需求。因此，研究高效监控视频编码技术与方法具有重要的意义。

目前基于背景预测的监控视频编码方法在监控视频编码领域已取得一定的性能增益，并成为该领域重要方法。基于背景预测的监控视频编码方法可主要分为两大类：第一类，将关键帧直接作为长期的背景参考帧，但此类方法由于前景污染背景问题，较难得到比较干净的背景参考帧，从而背景内容的编码性能提升有限；第二类，通过背景建模算法训练视频帧生成背景参考帧，由于通过背景建模生成背景参考帧，可以提升背景参考帧的干净程度，减少前景污染。

基于感知模型的视频编码方法是视频编码另一个重要优化方法，该类方法尝试建立人眼视觉模型，并利用该模型进行视频编码。根据感知阈值的计算模型分类，感知视频编码方法可以分为三类：基于ROI区域的方法，基于视觉显著性的方法和基于JND模型的方法。ROI区域的方法需要使用机器视觉方法进行ROI区域的检测，但是ROI区域检测本身仍然是比较困难的。视觉显著性方法需要依靠神经科学模型进行人类关注区域的预测，由于人脑的复杂工作机制，目前仍然缺乏比较有效的神经科学模型。基于JND模型的方法是依靠人类认知心理学实验的知识来计算感知阈值，JND阈值能体现HVS和视觉感知阈值关系，在编码效率上取得了一定进展。

基于背景建模监控视频编码方法和基于感知模型的视频编码方法对于提高视频编码效率都取得较为可观的编码性能。而目前对于将监控视频编码方法和感知编码方法结合的方法在国内外仍处于空白，因此，将两者有效结合，将有助于进一步提高监控视频编码效率。

本发明首先设计一种基于背景建模的快速感知视频编码框架，利用现有监控视频编码方法的背景建模技术，将背景建模技术与JND阈值计算结合，利用背景建模生成背景建模帧，并利用背景建模帧对监控视频内容分类。然后对背景部分内容复杂度估计值进行时域复用，从而利用监控视频背景稳定性特点实现JND阈值快速计算。

因此，如何设计一种提高监控视频的压缩率、降低编码复杂度的面向监控场景的快速感知视频编码方法是本领域技术人员亟需解决的问题。

发明内容

本发明提出一种面向监控场景的快速感知视频编码方法。首先设计一种基于背景建模的快速感知视频编码框架，利用现有监控视频编码方法的背景建模技术，将背景建模技术与JND阈值计算结合，利用背景建模生成背景建模帧，并利用背景建模帧对监控视频内容分类。然后对背景部分内容复杂度估计值进行时域复用，从而利用监控视频背景稳定性特点实现JND阈值快速计算。本发明一方面可以提高监控视频的压缩率，另一方面大幅降低编码复杂度，满足监控场景实时应用的需求。具体方案如下：

一种面向监控场景的快速感知视频编码方法，其特征在于，包括如下步骤：

步骤一，对输入监控视频进行背景建模，获得背景建模帧；

步骤二，将所述背景建模帧与输入监控视频的当前视频帧以CTU为单位进行比较分类，得到前景CTU和背景CTU；

步骤三，对前景CTU独立采用JND阈值估计方法计算JND模型，得到JND阈值一；

步骤四，对背景CTU采用复用背景建模帧的共享JND阈值估计方法计算JND模型，得到JND阈值二；

步骤五，将所述JND阈值一和所述JND阈值对残差值进行抑制。

根据权利要求1所述的一种面向监控场景的快速感知视频编码方法，其特征在于，所述步骤一中，对输入监控视频进行背景建模，对背景建模帧采用帧级的Sobel算子边缘检测，生成帧级边缘二值图。

根据权利要求2所述的一种面向监控场景的快速感知视频编码方法，其特征在于，所述步骤二具体包括：

对当前视频帧进行CTU选取，对不同CTU进行不同策略的JND阈值计算：对于前景CTU采用CTU级Sobel算子边缘检测，对于背景CTU复用背景建模帧的帧级边缘二值图结果；

将输入的当前视频帧与背景建模帧按CTU大小使用最小平方差准则进行背景差分，如果小于阈值则为背景CTU，反之则为前景CTU。

根据权利要求1所述的一种面向监控场景的快速感知视频编码方法，其特征在于，所述步骤四中共享JND阈值估计方法包括，在计算JND模型中的对比度掩蔽因子时，后续的视频帧复用已有的相同内容复杂度边缘标志，其中，

JND视觉敏感度阈值计算模型描述如下：

对比度掩蔽因子进行如下建模：

其中，ω_i,j表示空间频率，τ表示内容复杂度，n表示当前变换块序号。

τ值的计算如下：

其中，edge(x,y)表示一个3×3 Sobel边缘检测算子在(x,y)处得到的边缘标志，0代表非边缘，1代表边缘。

本发明相较现有技术具有以下有益效果：

1、首次将基于感知模型的视频编码方法用于监控视频编码中，设计面向监控场景的快速感知视频编码框架，进一步提高监控视频编码效率。

2、充分利用监控视频的特点，在计算JND模型因子过程中，对CTU进行分类，对于背景CTU的内容复杂度复用对应背景建模帧上区域的内容复杂度，从而提高JND感知模型的计算效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明面向监控场景的快速感知视频编码原理框架图；

图2为本发明监控视频中背景内容相似性判别图；

图3为本发明利用背景稳定性特点的JND阈值快速计算方法图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出一种面向监控场景的快速感知视频编码方法。首先设计一种基于背景建模的快速感知视频编码框架，利用现有监控视频编码方法的背景建模技术，将背景建模技术与JND阈值计算结合，利用背景建模生成背景建模帧，并利用背景建模帧对监控视频内容分类。然后对背景部分内容复杂度估计值进行时域复用，从而利用监控视频背景稳定性特点实现JND阈值快速计算。实验证明本方法一方面可以提高监控视频的压缩率，另一方面大幅降低编码复杂度，满足监控场景实时应用的需求。

方法描述如下：

如图1所示，S1、利用背景建模技术对输入视频进行训练建模，从而生成背景建模帧。对输入监控视频进行背景建模，对背景建模帧采用帧级的Sobel算子边缘检测，生成帧级边缘二值图。

S2、然后当前视频帧和背景建模帧以CTU为单位进行比较，其中，视频帧由一系列的编码树单元(CTU，Coding Tree Unit)构成。对CTU进行前景CTU和背景CTU分类。

S21、对当前视频帧进行CTU选取，对不同CTU进行不同策略的JND阈值计算：对于前景CTU采用CTU级Sobel算子边缘检测，对于背景CTU复用背景建模帧的帧级边缘二值图结果；

S22、将输入的当前视频帧与背景建模帧按CTU大小使用最小平方差准则进行背景差分，如果小于阈值则为背景CTU，反之则为前景CTU。

S3、对于前景CTU沿用传统的每一帧独立JND阈值估计方法计算JND模型的每一个因子。

S4、而对于背景CTU采用背景共享JND阈值估计方法，在计算对比度掩蔽因子时，对于背景CTU的内容复杂度估计值复用背景建模帧上对应区域的估计值。

如图2所示，对于监控视频特点来说，背景内容是具有相当强的时域内容相关性，即内容复杂度相似性高，第1帧和第172帧的背景内容是一致的，因此，在计算JND模型中的对比度掩蔽因子，后续的视频帧可以复用已有的相同内容复杂度边缘标志，而不需要对内容相同的区域进行重复的内容复杂度估计，从而减少后续视频帧的JND阈值计算复杂度。

如图3所示,JND视觉敏感度阈值计算模型可描述如下

在(1)中s(M)表示M×M变换块尺寸空间块效应，其关于不同变换块大小造成的整体视觉失真效果，代表在空间频率ω_i,j和方向角的基本阈值，其反映视频的空间频率视觉敏感性，T_LM(n,μ_p)代表第n个变换块的亮度自适应掩蔽因子，其反映亮度μ_p对视觉感知的影响，T_CM(n,ω_i,j,τ)代表第n个变换块的对比度掩蔽因子，其反映视频对比度对视觉失真敏感度的影响。T_TM(n,ω_i,j,mv)代表第n个变换块时域掩蔽因子，其表示视频序列的前后帧的运动mv对视觉失真敏感度的影响。

在JND阈值计算模型中一个JND阈值的计算需要计算5个因子。在JND阈值计算中，对比度掩蔽因子CM计算复杂度所占比重较高，对对比度掩蔽因子进行如下建模

对每个空间频率ω_i,j上对比度掩蔽因子的阈值计算需要得到τ值，而τ值的计算如下

其中edge(x,y)表示一个3×3 Sobel边缘检测算子在(x,y)处得到的边缘标志，0代表非边缘，1代表边缘。

为减少计算τ值的时间复杂度，利用背景帧已有的内容复杂度结果，采用背景差分法，快速复用背景CTU的内容复杂度估计值，用于JND阈值计算。

S5、最后，根据前述步骤获取的JND阈值一和JND阈值二，分别将前景和背景内容的预测残差变换后的值与JND阈值进行比较，如果该值小于阈值，则对该值置0，反之，则将该值与JND阈值作差获得缩小后的值，然后将新值根据标准编码中的量化方法进行量化操作。

以上对本发明所提供的一种面向监控场景的快速感知视频编码方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种面向监控场景的快速感知视频编码方法，其特征在于，包括如下步骤：

步骤一，对输入监控视频进行背景建模，获得背景建模帧；

步骤五，将所述JND阈值一和所述JND阈值二对残差值进行抑制。

2.根据权利要求1所述的一种面向监控场景的快速感知视频编码方法，其特征在于，所述步骤一中，对输入监控视频进行背景建模，对背景建模帧采用帧级的Sobel算子边缘检测，生成帧级边缘二值图。

3.根据权利要求2所述的一种面向监控场景的快速感知视频编码方法，其特征在于，所述步骤二具体包括：

4.根据权利要求1所述的一种面向监控场景的快速感知视频编码方法，其特征在于，所述步骤四中共享JND阈值估计方法包括，在计算JND模型中的对比度掩蔽因子时，后续的视频帧复用已有的相同内容复杂度边缘标志，其中，

JND视觉敏感度阈值计算模型描述如下：

对比度掩蔽因子进行如下建模：

τ值的计算如下：

其中，edge(x,y)表示一个3×3Sobel边缘检测算子在(x,y)处得到的边缘标志，0代表非边缘，1代表边缘。