CN115834922A

CN115834922A - 一种面向实时视频分析的画面增强型解码方法

Info

Publication number: CN115834922A
Application number: CN202211648794.3A
Authority: CN
Inventors: 戴海鹏; 王蔚峻; 厉泉宏; 米良
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2022-12-20
Filing date: 2022-12-20
Publication date: 2023-03-21
Anticipated expiration: 2042-12-20
Also published as: CN115834922B

Abstract

本发明公开了一种面向实时视频分析的画面增强型解码方法，包括如下步骤：视频码流通过网络传输到服务器后由调度器将所有帧分成三类，每个类别执行三个管道中的一个。三个管道包括1.利用超分辨率模型将一组低分辨率锚点帧增强为高分辨率帧后输入推理模型；2.利用码流信息(如帧参考关系、运动向量和残差)将锚点帧的增益扩散到非锚点帧上并将所述非锚点帧输入推理模型；3.利用码流信息运动向量将推理模型的结果复用到未推理帧上。调度器利用从关键帧提取的画面特征和从码流信息中提取的帧差异特征进行合理的帧分类；画面增强提升了视频分析的推理精度，而码流信息的使用避免了对整个视频进行逐帧画面增强和推理，降低了时延。

Description

一种面向实时视频分析的画面增强型解码方法

技术领域

本发明涉及视频分析领域，具体而言涉及一种面向实时视频分析的画面增强型解码方法。

背景技术

随着计算机视觉的进步，如今普及的摄像头所拍摄的视频都有机会进行自主分析。深度神经网络可以显著提高各种视觉任务的准确性，但对计算资源的要求很高。由于商业摄像头的计算资源不足，分布式视频分析管道(Video Analytics Pipeline,VAP)会将视频传输到功能强大的服务器上进行推理。

然而，即使是最先进的分布式VAP，也难以做到对视频的高度精确的分析。由于目前绝大多数的视频分析方法都依赖于高分辨率的视频，因此很难分析低质量的视频，比如在低分辨率下的目标检测。例如，Faster R-CNN是基于现代深度神经网络(Deep NeuralNetwork,DNN)的推理方法，该方法的准确率对于360p的视频只能达到56％左右，对于540p的视频只能达到61％左右。然而，现有的监控系统不可避免地会收集到低质量的视频。其中一个原因是，现有的低质量的摄像头只能收集低分辨率帧。例如，纽约市的交通部门已经将752个交通摄像头收集的视频公开；然而，由于摄像头的默认配置，这些视频以极低的分辨率(240p)传输。另一个原因是，由于上游带宽的限制，目前的视频流协议会过度压缩或修剪视频。例如，AWStream为了节省带宽，会将视频的分辨率从540p降低到360p，帧率从1降低到0.83。AWStream最终节省了66％的带宽，却将精度从61％降低到54％。

为了解决这些挑战，一些VAP尝试在图像输入到推理模型之前利用图像增强模型来增强图像，如超分辨率(Super Resolution,SR)和生成对抗网络(GenerativeAdversarial Network,GAN)。这一想法的灵感来自于计算机视觉社区的观察：在高分辨率图像上运行与目标识别相关的任务，可以提高检测精度。然而，图像增强引入了额外的延迟，导致大约500ms的端到端延迟，这远远没有达到实时要求(小于30ms)。

虽然DNN感知的视频增强是一种很有前途的方法，但是仍有很大改进空间。首先，先前的图像增强机制在很大程度上与视频内容无关，平等地处理每个接收到的帧。但实际上并不需要增强所有帧。例如，只有包含车辆的帧对交通流量分析有价值；相反，增强只有空街道的帧毫无价值，反而会增加系统延时。因此，内容不可知的增强机制不可避免地是次优的。其次，尽管新的DNN框架被设计出用于准确识别重要帧，但计算量太大，无法实现低延迟。第三，解码所有的帧用于分析是计算密集和耗时的，视频编码包含大量未利用但方便的信息来捕获重要的帧，如运动向量(Motion Vector,MV)和残差。

发明内容

发明目的：针对上述现有技术存在的问题和不足，本发明的目的是提出一种面向实时视频分析的画面增强型解码方法，以同时实现高精度、有限的延迟和低资源目标。

技术方案：为实现上述发明目的，本发明提出了一种面向实时视频分析的画面增强型解码方法，包括如下步骤：

(1)视频码流通过网络传输到服务器后由调度器将所有帧分成三类，每个类别执行三个管道中的一个；

(2)第一管道利用SR模型将一组低分辨率(Low Resolution,LR)锚点帧增强为高分辨率(High Resolution,HR)帧后输入推理模型；第二管道利用码流信息(如帧参考关系、运动向量和残差)将锚点帧的增益扩散到非锚点帧上并将所述非锚点帧输入推理模型；

(3)第三管道利用码流信息运动向量将推理模型的结果(如目标检测中的边界框(Bounding Box,Bbox))复用到未推理帧上。

进一步地，所述步骤(1)中，调度器必须提供自适应的阈值设置，来决定将帧分类到哪个管道；为了自适应地设置阈值，将上述问题表述为一个马尔科夫决策过程，其中调度器在系统中作出阈值设置决策；MDP是一个离散时间的随机过程，定义为一个四元组<S,A,R,P>；其中，S是状态集合，A是动作集合，R是奖励集合，P是动作A发生时，从状态S转换到状态S^′的概率；当处理帧时，调度器的目标是将这些帧聚类到三个管道(即A)来最大化预期的长期奖励

状态由两个组成部分组成：关键帧的内容特征以及当前帧与最后一个推理帧之间的差异；动作是为每个视频段设置两个阈值tr₁和tr₂：第一个阈值tr₁用于选择锚点帧以进行SR，并将锚点帧的质量扩散到其它帧中；第二个阈值tr₂用于选择由推理DNN进行分析的推理帧；然后，其余的帧通过帧参考关系来重用推理结果。奖励包含两个方面：视频段的平均准确性和获得视频段的推理结果所需的延迟。

进一步地，所述步骤(2)中，首先使用SR模型增强锚点帧并缓存输出；然后对于目标块，系统根据参考索引在缓存的锚点帧中选择参考块，并以与SR相同的放大系数来放大MV；利用MV，系统将缓存帧中的参考块的SR增益扩散到目标块；最后，系统通过轻量级插值(如双线性或双三次)放大残差，将所述残差累加到扩散的块来输出HR块，并粘贴到非锚点帧上。

进一步地，所述步骤(3)中，使用推理模型推断推理帧并缓存结果，计算驻留在每个Bbox中的所有MV的平均值，并使用所述平均值将每个Bbox移到当前位置，以此来推断非推理帧；首先，从静态背景和异常值中过滤有噪声的MV；其次，为了应对由于目标的移动而引起的Bbox大小的变化，将MV计算区域扩展到每个方向的一个宏块(16个像素)。

有益效果：本发明通过一种面向实时视频分析的画面增强型解码方法，同时实现高精度、有限的延迟和低资源目标：第一，将一组LR锚点帧增强为HR帧，从而实现了高精度目标；第二，扩散和重用分摊了整个视频的SR和推理的计算开销，从而实现了低延迟目标；第三，通过利用关键帧的内容特征和编解码器信息的变化，从而降低了延迟和计算成本。

附图说明

图1为SR增益的扩散过程图；

图2为帧和残差与差异值和Bbox变化之间的相关性图；

图3为帧和残差的特征提取时间开销图；

图4为本发明的架构图；

图5为MV和Bbox之间的关系图；

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明提出一种面向实时视频分析的画面增强型解码方法，具体的实施方式分别说明如下：

将所有帧分为三类并保证准确性和延迟之间的权衡对应技术方案步骤(1)。具体实施方式为：使用调度器。精度和延迟权衡的关键是：在精细空间粒度中，最优地将帧分配给解码管道(即SR、推理和重用)。不同的帧解码和分析管道会导致不同程度的精度和延迟时间。对于SR类别中的每一帧，所选的锚点帧通过SR模型进行增强；在此之后，调度器将上采样的帧输入推理DNN(例如，目标检测)进行推理。推理类别中的帧都来自于图1中引用的SR帧，然后被输入到推理DNN模型中进行推理。扩散是非常快的(时间成本与正常帧解码相同)，因为与正常帧解码相比，扩散只额外包括每帧残差上的双边插值。对于重用类别中的那些帧，例如目标检测，得到最后一个(回放顺序)检测帧中每个目标的Bbox，计算驻留在Bbox中的所有MV的平均值，并利用该平均值将Bbox从之前的位置移到当前位置。

本发明制定了自适应管道选择问题，以使延迟约束下的精度最大化。令F表示帧集，给定一个包含帧集F的视频，为每一个帧选择三个管道中的一个，表示如下。

其中f表示帧集F中的帧，x＝{x₁,...,_F}是选择集，x_f∈{1,2,3}用于管道选择，Acc是一帧的精度，Latency是给定所选管道的一帧的延迟，τ是帧集F的延迟容忍度。

由于搜索空间非常大，达到了3^|F|，所以很难找到最优的管道选择。本发明在帧差分上引入两个阈值tr₁和tr₂，以将帧聚类为三个管道，其中tr₁是第一管道的阈值，tr₂是第二管道的阈值。实时视频分析的约束(例如，分析速度≥30fps)限制了本发明不能提取轻量级特征来对帧进行分类。残差和帧上的拉普拉斯矩阵(即边缘特征)在推理精度上有很高的相关性(见图2)。同时，在残差上执行拉普拉斯算子比在帧上执行节省34％的时间(见图3)。一个直观的原因是，关于残差的信息是稀疏的和去冗余的。残差保留了帧之间的差异，同时不会因为太密集而无法处理，所以能够有效地分类帧。

将帧分类为三个管道类别并不简单。在不同的视频中，最佳阈值组合是不同的。此外，一个视频中的不同视频段之间的帧特征差异(如像素和残差差异)的最优阈值差异很大。为了自适应地设置阈值，将上述问题表述为一个马尔科夫决策过程(Markov decisionprocess,MDP)，其中调度器在本发明中作出阈值设置决策。MDP是一个离散时间的随机过程，定义为四元组<S,A,R,P>。其中，S是状态集合，A是动作集合，R是奖励集合，P是动作A发生时，从状态S转换到状态S^′的概率。当处理帧时，调度器的目标是将这些帧聚类到三个管道(即A)来最大化预期长期奖励

定义MDP的参数如下。

状态：状态由两个组成部分组成：关键帧的内容特征以及当前帧与最后一个推理帧之间的差异。首先，通过VGG16的1×1×1000全连接层提取关键帧(即当前视频段的第一帧)。由于这个特征的维数太大，系统使用主成分分析将特征的维数减少到128维。接下来，系统计算每个视频段的每两帧之间的帧间差异，即边缘特征的差异(即，将拉普拉斯算子应用于每一帧的残差)。考虑到视频段之间存在连续性，也添加视频段间的信息，即在前一个视频段中，关键帧和最后一个推理帧之间的边缘特征的差异。

动作：动作是为每个视频段设置两个阈值tr₁和tr₂。第一个阈值tr₁用于选择锚点帧以进行SR，并将锚点帧的质量扩散到其它帧中。第二个阈值tr₂用于选择由推理DNN进行分析的推理帧。然后，其余的帧通过帧参考关系来重用推理结果。

奖励：本发明的目标是在一个可容忍的延迟时间内最大化推理的准确性。因此，奖励被设计为两个方面，即视频段的平均准确性和获得视频段的推理结果所需的延迟。本发明的目标是实现实时推理，所以在下一个视频段到达之前对当前视频段进行分析(例如，每个视频段在1秒内)；而超过指定的时间会受到惩罚。每个视频段t的奖励r_t定义如下。

其中F表示帧集，|F|表示帧集F中帧的数量，f表示帧集F中的帧，Acc_f是帧f的精度，α₁和α₂是平衡对延迟和准确性的偏好的权重系数。α₁和α₂在奖励中的价值根据不同的服务偏好和需求进行调整。P_t是延迟超过容忍度τ时视频段t的惩罚函数。

其中Latency_t是视频段t的延迟。

深度强化学习(Deep Reinforcement Learning,DRL)选择帧的过程如下：在每次时间t时，代理会观察交互环境的当前状态s_t，并根据策略给出一个动作a_t。然后，环境返回奖励r_t作为反馈，并根据转换概率P(s_t+1|_t,)转换到下一个状态s_t+1。因此，找到最优策略的目标表述为最大化累计折扣收益期望

的数学问题，其中γ∈[0,1]是未来奖励的折扣系数；r_k是每一步的奖励，T是完成视频分析前的时间范围。

将SR的增益扩散到非锚点帧对应技术方案步骤(2)。具体实施方式为：为了充分重用，系统使用SR模型增强锚点帧并缓存输出(见图1中的①)；然后系统将增强的收益通过参考信息和缓存的输出扩散到非锚点帧(见图1中的②)。因为SR的大部分延迟发生在最后几层，所以缓存和重用最终输出(即高分辨率图像)在实现低延迟上是最有效的。

图1说明了将SR的增益扩散到帧间编码类型的非锚点帧的过程。现代视频编解码器基于非重叠的帧内或帧间编码块来编码或解码帧。本发明使用编解码信息中的参考索引，MV和残差来解码目标块。除了额外的SR、放大和图像插值模块外，该过程与正常解码相同。首先，系统根据参考索引在缓存的锚点帧中选择参考块。接下来，系统以与SR相同的放大系数来放大MV(例如，从270p到1080p的放大系数为4)。利用MV，系统将缓存帧中的参考块的SR增益扩散到目标块。最后，系统通过轻量级插值(如双线性或双三次)放大残差，将所述残差累加到扩散的块来输出HR块，并粘贴到非锚点帧上。对于那些没有缓存的参考锚点帧的帧内编码块，系统直接进行解码并通过插值进行上采样。

将推理结果重用到非推理帧对应技术方案步骤(3)。具体实施方式为：系统使用推理模型推断推理帧并缓存结果；然后，系统使用MV和缓存的结果来推断非推理帧(见图4中的③)。MV表示目标块和参考块之间的偏移量。这里以目标检测任务为例，目的是识别视频中的每一帧上的目标(即目标的位置和类别)。图5显示，最后一个推理帧与当前帧之间的MV可以完美匹配目标Bbox的运动(即目标检测结果)。

第三管道中的重用模块获得最后一个推理帧的结果(图4中的虚线)，计算驻留在每个Bbox中的所有MV的平均值，并使用该平均值将每个Bbox移到当前位置。

本发明首先从静态背景和异常值中过滤有噪声的MV。系统过滤了部分MV，这些MV的值等于0或大于所属的Bbox中的均值加上0.8倍的标准差；其次，为了应对由于目标的移动而引起的Bbox大小的变化，系统将MV计算区域扩展到每个方向的一个宏块(16个像素)。

之前的一些工作利用基于轻量级MV的方法来重用分析结果并加快推理速度。然而，不像这些工作那样在连续帧之间计算MV，本发明中的重用可以在压缩的视频空间中工作。也就是说，用于计算目标块的MV的参考块可以分布在整个视频中(目标块甚至可以参考回放序列下的未来帧，称为后向参考帧)，但推理结果应该按回放顺序输出。为了解决这种不匹配，本发明维护一个图来将编码顺序映射到回放顺序，并沿着边缘积累MV。

Claims

1.一种面向实时视频分析的画面增强型解码方法，包括如下步骤：

(2)第一管道利用超分辨率模型将一组低分辨率锚点帧增强为高分辨率帧后输入推理模型；第二管道利用码流信息将锚点帧的增益扩散到非锚点帧上并将所述非锚点帧输入推理模型；

(3)第三管道利用码流信息运动向量将推理模型的结果复用到未推理帧上。

2.根据权利要求1所述一种面向实时视频分析的画面增强型解码方法，其特征在于：所述步骤(1)中，调度器提供自适应的阈值设置，来决定将帧分类到哪个管道；为了自适应地设置阈值，将上述问题表述为一个马尔科夫决策过程，其中调度器在系统中作出阈值设置决策；马尔科夫决策过程是一个离散时间的随机过程，定义为一个四元组<S,A,R,P>；其中S是状态集合，A是动作集合，R是奖励集合，P是动作A发生时，从状态S转换到状态S′的概率；当处理帧时，调度器的目标是将这些帧聚类到三个管道来最大化预期的长期奖励

状态由两个组成部分组成：关键帧的内容特征以及当前帧与最后一个推理帧之间的差异；动作是为每个视频段设置两个阈值tr₁和tr₂：第一个阈值tr₁用于选择锚点帧以进行超分辨率，并将锚点帧的质量扩散到其它帧中；第二个阈值tr₂用于选择由推理深度神经网络进行分析的推理帧；然后，其余的帧通过帧参考关系来重用推理结果；奖励包含两个方面：视频段的平均准确性和获得视频段的推理结果所需的延迟。

3.根据权利要求1所述一种面向实时视频分析的画面增强型解码方法，其特征在于：所述步骤(2)中，首先使用超分辨率模型增强锚点帧并缓存输出；然后对于目标块，系统根据参考索引在缓存的锚点帧中选择参考块，并以与超分辨率相同的放大系数来放大运动向量；利用运动向量，系统将缓存帧中的参考块的超分辨率增益扩散到目标块；最后，系统通过轻量级插值放大残差，将所述残差累加到扩散的块来输出高分辨率块，并粘贴到非锚点帧上。

4.根据权利要求1所述一种面向实时视频分析的画面增强型解码方法，其特征在于：所述步骤(3)中，使用推理模型推断推理帧并缓存结果，计算驻留在每个边界框中的所有运动向量的平均值，并使用所述平均值将每个边界框移到当前位置，以此来推断非推理帧；首先，从静态背景和异常值中过滤有噪声的运动向量；其次，为了应对由于目标的移动而引起的边界框大小的变化，将运动向量计算区域扩展到每个方向的一个宏块。