CN113810724B

CN113810724B - 一种基于avs帧内压缩编码的视频目标分割方法

Info

Publication number: CN113810724B
Application number: CN202111150365.9A
Authority: CN
Inventors: 魏文应; 龙仕强; 张世雄; 陈智敏; 张伟民
Original assignee: Instritute Of Intelligent Video Audio Technology Longgang Shenzhen; Guangdong Bohua Ultra Hd Innovation Center Co ltd
Current assignee: Instritute Of Intelligent Video Audio Technology Longgang Shenzhen; Guangdong Bohua Ultra Hd Innovation Center Co ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2023-12-08
Anticipated expiration: 2041-09-29
Also published as: CN113810724A

Abstract

一种基于AVS帧内压缩编码的视频目标分割方法，包括以下步骤：S1.提取DCT编码：根据AVS帧内压缩编码，在视频解码阶段，获取未解码视频帧的DCT编码；S2.去除DCT高频：将提取到的DCT编码去除高频信号、保留低频信号，得到去除高频信号后的DCT编码特征图，将所述去除高频信号后的DCT编码特征图直接作为CNN模型的输入；以及S3.CNN模型分割：选择具有目标分割功能的CNN模型，并使用所述去除高频信号后的DCT编码特征图对CNN模型进行训练，最终得到具备视频目标分割功能的CNN模型。解决CNN目标分割模型输入数据缺失的问题，可以最大程度输入图像分割算法需要的DCT低频信号；解决了现有方法中因缩减CNN模型输入图像，而导致DCT信号低频缺失、高频冗余的问题。

Description

一种基于AVS帧内压缩编码的视频目标分割方法

技术领域

本发明属于计算机视觉领域，特别涉及一种基于AVS帧内压缩编码的视频目标分割方法。

背景技术

随着社会的发展，伴随着人类活动多元化，日常生活录制的视频内容也越来越多样化，对视频进行剪辑处理的要求也越来越高。比如，在替换视频画面背景时，经常需要将人物从视频中扣取出来，然后对其背景进行替换。同时，由中国主导的数字音视频编解码标准(Audio Video coding Standard，简称AVS)，正在逐步推广使用，目前已推出第三代AVS3标准。在AVS标准中，使用熵编码，对视频进行帧内有损压缩。压缩过程保存的信息，主要是图像信号经离散余弦变换(Discrete Cosine Transform,简称DCT)后的低频信号。DCT高频信号去除得越多，图像细节越少，但图像中物体边缘信息依旧保存完好。而基于深度卷积神经网络(Deep Convolutional Neural Network，简称CNN)是目前主流的目标分割基础算法，比如Mask-RCNN目标分割算法。但当前图像分割算法，因需要预测物体的边缘信息，而需要大量的卷积和反卷积运算，进而需要大量的计算机系统资源进行大规模神经元计算。除了改进神经网络模型，通常做法是缩减图像大小，以此减少计算量，但常规图像缩小方式，为了考虑人眼视觉效果，保留过多图像细节，图像细节占据过多，物体轮廓和边缘信息则相应的减少。图像目标分割算法的目的，就是要找到目标物体的轮廓和边缘，轮廓和边缘信息缺失，将不利于图像目标分割。

发明内容

本发明的目的是提供一种基于AVS帧内压缩编码的视频目标分割方法，解决CNN目标分割模型输入数据缺失的问题，可以最大程度输入图像分割算法需要的DCT低频信号；特别的，使用基于AVS编解码标准进行视频DCT编码，直接从视频编码中获得DCT低频信号，从而解决旧有方法中因缩减CNN模型输入图像，而导致DCT信号低频缺失、高频冗余的问题。

本发明的技术方案如下：

本发明的基于AVS帧内压缩编码的视频目标分割方法，包括以下步骤：S1.提取DCT编码；S2.去除DCT高频；以及S3.CNN模型分割。

优选地，在上述基于AVS帧内压缩编码的视频目标分割方法中，在步骤S1中，根据AVS帧内压缩编码，在视频解码阶段，获取未解码视频帧的DCT编码。

优选地，在上述基于AVS帧内压缩编码的视频目标分割方法中，在步骤S2中，将提取到的DCT编码去除高频信号、保留低频信号，得到去除高频信号后的DCT编码特征图，将去除高频信号后的DCT编码特征图直接作为CNN模型的输入。

优选地，在上述基于AVS帧内压缩编码的视频目标分割方法中，在步骤S3中，选择具有目标分割功能的CNN模型，并使用去除高频信号后的DCT编码特征图对CNN模型进行训练，最终得到具备视频目标分割功能的CNN模型。

优选地，在上述基于AVS帧内压缩编码的视频目标分割方法中，在步骤S1中，在AVS解码阶段，解码得到DCT编码后，不再进行后续AVS其他的编码步骤，而是在数据结构上，对DCT信号按照它在原图对应的位置，一一排放即可。

优选地，在上述基于AVS帧内压缩编码的视频目标分割方法中，在步骤S2中，在获得排布好的DCT编码后，去除高频信号，然后，对去除高频信号后的低频信号，进行合并，得到一张特征图，将特征图作为CNN模型的输入数据。

根据本发明的技术方案，产生的有益效果是:

本发明的基于AVS帧内压缩编码的视频目标分割方法，利用AVS编解码标注中的DCT信号编码，消除在CNN模型输入数据时，因缩减图像导致图像DCT低频信号缺少、高频信号冗余的现象。在现有技术中，使用CNN模型进行视频目标分割时，对输入图像做常规缩减，因常规缩减方式为了使人眼获得良好观赏体验，会导致DCT低频信号缺少、高频信号冗余。本发明方法，根据在AVS帧内压缩编码中，包含DCT信号编码信息的这一特性，在视频解码阶段获取DCT编码，将视频编码的DCT编码，进行去除高频、保留低频操作，对图像进行缩减，最终得到有利于视频目标分割模型需要的输入数据，进而解决已有方法中，因常规图像缩减导致的CNN图像分割模型输入数据DCT信号低频缺失、高频冗余的问题。

为了更好地理解和说明本发明的构思、工作原理和发明效果，下面结合附图，通过具体实施例，对本发明进行详细说明如下：

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。

图1是本发明的基于AVS帧内压缩编码的视频目标分割方法的流程图；以及

图2是本发明的DTC信号处理的示意图。

具体实施方式

为使本发明的目的、技术方法及优点更加清晰，下面结合附图及具体实例，对本发明做进一步的详细说明。这些实例仅仅是说明性的，而并非对本发明的限制。

本发明的基于AVS帧内压缩编码的视频目标分割方法，利用AVS帧内压缩编码特性，对基于AVS编码标准的视频进行目标分割。具体地，在视频图像缩减时，不是通过常规插值方式，而是通过减少DCT中高频、保留超低频信号的方式，最大限度保留目标分割需要的DCT低频信号，以此向CNN网络输入大量DCT低频信号，实现图像分割功能。

本发明方法的基本原理是：使用基于AVS帧内压缩编码，在缩减CNN模型的输入图像时，通过去除DCT高频信号的方式进行图像缩减，得到CNN模型的输入数据，进而实现防止CNN分割模型输入数据DCT信号低频缺失、高频冗余的功能。

如图1所示，是本发明的基于AVS帧内压缩编码的视频目标分割方法的流程图，从开始到结束，具体包括如下步骤：

S1.提取DCT编码：根据AVS帧内压缩编码，在视频解码阶段，获取未解码视频帧的DCT编码。

在AVS通用的、公开的编解码步骤中，可以在解码阶段，轻易获得量化后的DCT编码。如图2所示，是本发明的DCT信号处理的示意图，最左侧是DCT量化后的原信号编码，示图中有4个8*8的区块。右下角0值区域，是DCT量化后的值，在常规解码的后续步骤中，将通过AVS帧内预测算法，对这些0值进行预测填充，丰富图像细节，目的是提高人眼观赏效果。但这预测的高频数据，对CNN视频目标分割任务来说是冗余信息，而且在后续使用常规插值算法缩减图像大小时，将高低频信号作为同等重要性，进行了删减，最终导致低频信号缺失、高频信号冗余。为此，在AVS解码阶段，解码得到DCT编码后，不再进行后续AVS其他的编码步骤，而是在数据结构上，对DCT信号按照它在原图对应的位置，一一排放即可。至此，获取DCT编码的操作已完成。

S2.去除DCT高频：将提取到的DCT编码去除高频信号、保留低频信号，得到去除高频信号后的DCT编码特征图，将该特征图直接作为CNN模型的输入。

在获得排布好的DCT编码后，去除高频信号。如图2所示，最左侧是DCT量化后的原信号编码；中间位置的示图是去除高频信号后，得到的低频信号；最右侧示图是在缩减时，去除靠近高频信号区域的低频信号，只保留超低频信号。然后，对去除高频信号后的低频信号，进行合并，得到一张特征图，将特征图作为CNN视频目标分割模型的输入数据。至此，去除DCT高频信号的操作完成。

S3.CNN模型分割：选择具有目标分割功能的CNN模型，并使用去除高频信号后的DCT编码特征图对CNN模型进行训练，最终得到具备视频目标分割功能的CNN模型。

目前，基于CNN模型的图像目标分割算法，已经相当成熟。选择一个通用的目标分割算法模型即可，比如Mask-RCNN、PointRend等任意CNN模型即可。然后，使用从海量视频中提取的DCT编码，并配合人工数据标注，以此作为神经网络训练使用的数据集，使用这些数据集进行模型训练即可。模型的训练，使用的是通用的、现有的训练方法。训练好的模型，将具备视频图像目标分割的能力，而输入到模型的数据，最大程度包含了目标分割算法需要的轮廓和边缘信息。至此，CNN模型分割的操作完成。最终，消除CNN图像分割模型输入数据DCT信号低频缺失、高频冗余的问题。

本发明方法利用AVS帧内压缩编码DCT高低频信号能量的分布性，实现了针对CNN视频目标分割模型，进行输入图像缩减的方式，以此解决旧有方法中，因常规图像缩减导致DCT信号低频缺失、高频冗余的问题。

以上说明是依据发明的构思和工作原理的最佳实施例。上述实施例不应理解为对本权利要求保护范围的限制，依照本发明构思的其他实施方式和实现方式的组合均属于本发明的保护范围。

Claims

1.一种基于AVS帧内压缩编码的视频目标分割方法，其特征在于，包括以下步骤：

S1. 提取DCT编码，根据AVS帧内压缩编码，在视频解码阶段，获取未解码视频帧的DCT编码，

在AVS解码阶段，解码得到DCT编码后，不再进行后续AVS其他的编码步骤，而是在数据结构上，对DCT信号按照它在原图对应的位置，一一排放即可；

S2. 去除DCT高频，将提取到的DCT编码去除高频信号、保留超低频信号，得到超低频DCT编码特征图，将所述的超低频DCT编码特征图直接作为CNN模型的输入，具体地，

在获得排布好的DCT编码后，去除高频信号，得到低频信号，在缩减时，去除靠近高频信号区域的低频信号，只保留超低频信号，然后对保留的超低频信号进行合并，得到一张特征图，将所述特征图作为CNN模型的输入数据；以及

S3. CNN模型分割，选择具有目标分割功能的CNN模型，并使用所述超低频DCT编码特征图对CNN模型进行训练，最终得到具备视频目标分割功能的CNN模型。