CN113691818B

CN113691818B - 视频目标检测方法、系统、存储介质、计算机视觉终端

Info

Publication number: CN113691818B
Application number: CN202110979769.2A
Authority: CN
Inventors: 曾辉; 魏文应; 张世雄; 安欣赏; 张伟民
Original assignee: Guangdong Bohua Ultra Hd Innovation Center Co ltd; Instritute Of Intelligent Video Audio Technology Longgang Shenzhen
Current assignee: Guangdong Bohua Ultra Hd Innovation Center Co ltd; Instritute Of Intelligent Video Audio Technology Longgang Shenzhen
Priority date: 2021-08-25
Filing date: 2021-08-25
Publication date: 2023-06-30
Anticipated expiration: 2041-08-25
Also published as: CN113691818A

Abstract

本发明属于计算机视觉技术领域，公开了一种视频目标检测方法、系统、存储介质、计算机视觉终端，在AVS标准下的解码阶段的DCT变换解码前，对DCT码流数据利用相邻错位拼接法进行拼接，将拼接结果作为CNN模型的输入，消除CNN模型输入数据冗余。本发明在CNN模型输入数据阶段，对视频单帧图像的DCT码流进行拼接，去除图像中的冗余数据，进而消除CNN模型输入数据的冗余。特别的，使用基于AVS编解码标准中的DCT编码，在其未解码的情况下进行拼接处理，将拼接结果，作为单帧图像信息，输入到CNN模型中，最终实现消除CNN模型输入数据冗余的问题。从而解决旧有方法，因图像解码增加大量冗余数据，导致CNN模型输入数据冗余的问题。

Description

视频目标检测方法、系统、存储介质、计算机视觉终端

技术领域

本发明属于计算机视觉技术领域，尤其涉及一种视频目标检测方法、系统、存储介质、计算机视觉终端。特别涉及一种图像分类识别方法，利用AVS帧内压缩编码特性，对基于AVS编码标准的视频进行目标检测。

背景技术

目前，随着技术的发展，视频编码技术也日新月异。由中国主导的数字音视频编解码标准(Audio Video coding Standard，简称AVS)，正在逐步推广使用，目前已推出第三代AVS3标准。在AVS标准中，使用熵编码，对视频进行帧内有损压缩。视频有损压缩后，视频单帧内的有效信息，主要保存的是离散余弦变换(Discrete Cosine Transform，简称DCT)的低频信号。而深度卷积神经网络(Deep Convolutional Neural Network，简称CNN)是目前主流的图像目标检测算法，基于CNN创建的算法模型，在视频图像目标识别中，和其它算法相比，取得了最优识别准确率。

但是，深度卷积神经网络，一般是由数以万计的神经元构成，大量的神经元参数要计算，这给算法训练和算法推断，带来巨大的计算机系统资源消耗。目前主流的做法，是通过不断优化CNN模型的结构，来缩减模型参数，减小模型大小，以此缩减计算量。但将一帧解码后的图像作为算法模型的输入，这种做法，依然迫使CNN模型接收大量冗余数据。

通过上述分析，现有技术存在的问题及缺陷为：现有技术因图像解码增加大量冗余数据，导致CNN模型输入数据冗余。

解决以上问题及缺陷的难度为：

需要结合AVS编码标准中的DCT编码特性，从AVS编码过程中，提取DCT码流，并结合CNN模型输入数据的数据结构，对DCT码流进行拼接。视频解码过程存在帧内预测，而CNN模型本身就是预测模型，具有很强的预测能力，无需在解码过程中，进行人为预测。这些，是基于对AVS编码和CNN模型特性的深入理解，做出的新方案。

解决以上问题及缺陷的意义为：

DCT编码后的数据，大幅缩减了数据量，并保留了图像元数据信息，以此编码作为CNN模型输入，可以有效解决将数据解码后，在作为CNN输入时产生的大量冗余数据的问题。

发明内容

针对现有技术存在的问题，本发明提供了一种视频目标检测方法、系统、存储介质、计算机视觉终端。

本发明是这样实现的，一种视频目标检测方法，所述视频目标检测方法在AVS标准下的解码阶段的DCT变换解码前，对DCT码流数据利用相邻错位拼接法进行拼接，将拼接结果作为CNN模型的输入，消除CNN模型输入数据冗余。

进一步，所述视频目标检测方法具体包括：

S101：从基于AVS标准进行编码的视频中，提取视频某一帧的DCT码流；

S102：将提取好的DCT码流，使用相邻错位拼接法进行拼接，拼接后的码流保留数据元信息的同时，生成符合CNN模型输入格式；

S103：将拼接好的DCT码流，作为CNN模型的输入，进行模型训练和模型推断。

进一步，步骤S101中提取DCT码流的方法具体包括：

(1)将图像划分为多个区块；

(2)将区块使用DCT变换进行编码；

(3)对DCT码流进行量化和Zigzag编码；

(4)获得Zigzag编码的DCT码流；

(5)输出结果，作为CNN模型的输入数据；

(6)DCT逆变换；

(7)合并图像区块。

进一步，步骤S102中DCT码流的拼接方法为：

将提取到的DCT码流，进行相邻区域两两合并，得到新的码流数据，将新的码流数据直接作为CNN模型的输入数据。

进一步，所述将提取到的DCT码流，进行相邻区域两两合并，得到新的码流数据的具体实现方法为：

基于卷积神经网络旋转不变性，对码流进行旋转拼接；对经过Zigzag编码的DCT码流，进行旋转，将相邻的区块两两拼接形成新的区块，最后将所有区块拼接，形成一个特征图，该特征图将作为输入数据，输入到CNN模型中，在该输入过程中，为了满足CNN模型输入为正方形的需求，则需要对特征图调整大小，使用常规通用的图像插值方法调整大小。

进一步，在步骤S103中，选择具有目标检测功能的CNN模型，并使用海量合并后的DCT码流，对CNN模型进行训练，最终得到具备视频目标检测功能的CNN模型。

进一步，在步骤S103中，消除CNN模型输入数据冗余的方法包括：

选择一个通用的目标检测算法模型；

使用从海量视频中提取的DCT码流，并配合人工数据标注，作为神经网络训练使用的数据集，使用数据集进行模型训练；

消除CNN模型输入数据冗余。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行的步骤。

本发明的另一目的在于提供一种实施所述视频目标检测方法的视频目标检测系统，所述视频目标检测系统包括：

DCT码流提取模块，用于从基于AVS标准进行编码的视频中，提取视频某一帧的DCT码流；

DCT码流拼接模块，用于将提取好的DCT码流，使用特定方式进行拼接，拼接后的码流，保留数据元信息的同时，生成符合CNN模型输入格式；

CNN模型检测模块，用于将拼接好的DCT码流，作为CNN模型的输入，进行模型训练和模型推断。

本发明的另一目的在于提供一种计算机视觉终端，所述计算机视觉终端用于实现所述的视频目标检测方法。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明基于AVS帧内压缩编码的视频目标检测方法，在CNN模型输入数据时，单帧图像不再解码，而是对DCT量化和之字形编码(Zigzag编码)后的DCT码流进行拼接，将拼接的特征图作为神经网络的输入。这样，在输入特征图中，单位面积内包含的图像信息将最大化，进而使CNN模型不再需要接收大量冗余信息，最终达到减少CNN模型计算量的目的。

本发明提供一种解决CNN模型输入数据冗余的方法，在CNN模型输入数据阶段，对视频单帧图像的DCT码流进行拼接,以此去除图像中的冗余数据，进而消除CNN模型输入数据的冗余。特别的，使用基于AVS编解码标准中的DCT编码，在其未解码的情况下进行拼接处理，将拼接结果，作为单帧图像信息，输入到CNN模型中，最终实现消除CNN模型输入数据冗余的问题。从而解决旧有方法，因图像解码增加大量冗余数据，导致CNN模型输入数据冗余的问题。

本发明实现了一种基于AVS帧内压缩编码消除CNN模型输入数据冗余的方法，针对在AVS解码阶段DCT解码变换中，生成大量对CNN模型来说是冗余的数据的情况，在DCT未解码前对码流进行拼接，以此作为CNN模型的输入数据，从而有效解决了CNN模型输入数据冗余的问题。在现有技术中，使用CNN模型进行视频目标检测识别时，输入的数据为解码后的单帧图像信号，解码后的图像信号，经过帧内预测，添加了大量数据，目的是为了使人眼获得良好观赏体验，但这对CNN模型来说，它只需数据的元信息，新添加的预测信息对其来说是冗余数据。本发明方法，根据在AVS帧内压缩编码中，DCT编码无冗余信息的这一特性，将拼接后的DCT编码作为CNN模型的输入数据，进而消除CNN模型输入数据冗余的问题。

附图说明

图1是本发明实施例提供的视频目标检测方法流程图。

图2是本发明实施例提供的视频目标检测系统的结构示意图；

图2中：1、DCT码流提取模块；2、DCT码流拼接模块；3、CNN模型检测模块。

图3是本发明实施例提供的视频目标检测方法的实现流程图。

图4是本发明实施例提供的DCT变换的大致流程图。

图5是本发明实施例提供的DCT码流提取和合并的示意图；(a)量化后的数据；(b)Zigzag编码后的码流；(c)DCT提取合并。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种视频目标检测方法、系统、存储介质、计算机视觉终端，下面结合附图对本发明作详细的描述。

如图1所示，本发明提供的视频目标检测方法包括以下步骤：

S101：从基于AVS标准进行编码的视频中，提取视频某一帧的DCT码流。

S102：将提取好的DCT码流，使用特定方式进行拼接，拼接后的码流，保留数据元信息的同时，生成符合CNN模型输入格式。

本发明提供的视频目标检测方法业内的普通技术人员还可以采用其他的步骤实施，图1的本发明提供的视频目标检测方法仅仅是一个具体实施例而已。

如图2所示，本发明提供的视频目标检测系统包括：

DCT码流提取模块1，用于从基于AVS标准进行编码的视频中，提取视频某一帧的DCT码流。

DCT码流拼接模块2，用于将提取好的DCT码流，使用特定方式进行拼接，拼接后的码流，保留数据元信息的同时，生成符合CNN模型输入格式。

CNN模型检测模块3，用于将拼接好的DCT码流，作为CNN模型的输入，进行模型训练和模型推断。

下面结合附图对本发明的技术方案作进一步的描述。

本发明视频目标检测方法使用基于AVS帧内压缩编码，在解码阶段将DCT码流进行拼接，以此作为CNN模型的输入数据，进而实现消除CNN模型输入数据冗余的功能。本发明利用AVS帧内压缩编码的数据的稀疏性，实现一个针对CNN模型输入数据进行简化，进而消除CNN模型输入数据冗余的方法，以此解决旧有方法中，因DCT解码导致CNN模型输入数据冗余的问题。

步骤一、提取DCT码流。根据AVS帧内压缩编码，在解码阶段，获取未解码的DCT码流。该DCT码流，是AVS编码阶段对DCT码流量化、Zigzag编码后的结果。

步骤二、合并DCT码流。将提取到的DCT码流，进行相邻区域两两合并，得到新的码流数据，该码流数据，将直接作为CNN模型的输入数据。

如图5中所示，合并过程，就是将图中b每个区块的Zigzag编码的DCT码流，合并成图中c的形式，合并后的DCT码流，在数据结构上和图像帧的数据结构一致，CNN模型输入的数据的数据结构，正是图像帧。以此，该DCT码流，就可以作为CNN模型的输入，直接输入到CNN模型中了。

步骤三、CNN模型检测。选择具有目标检测功能的CNN模型，并使用海量合并后的DCT码流，对CNN模型进行训练，最终得到具备视频目标检测功能的CNN模型。

如图3所示，本发明方法利用AVS帧内压缩编码，在视频解码阶段获取DCT码流，将拼接后的码流作为CNN模型的输入，从而实现消除CNN模型输入数据冗余的功能，以此解决已有方法中，因视频解码导致CNN模型输入数据冗余的问题。具体实施步骤如下：

步骤一、提取DCT码流：如图4所示，是本发明的DCT变换的大致流程图。其中，S1、S2、S3、S6、S7步骤，均为AVS编码通用的、公开的编码步骤。S1步骤将图像划分为多个区块，S2将区块使用DCT变换进行编码，S3则是对DCT码流进行量化和Zigzag编码，以上三步发生在视频编码阶段。S6步骤DCT逆变换，S7步骤合并图像区块，这两个步骤发生在视频解码阶段。一般方法中，不包含S4、S5步骤，而是直接配合其他解码变换，得到有利于人眼视觉效果的一帧图像的编码，将该编码输入CNN模型，进行目标检测识别。

如图5所示，是本发明的DCT码流提取和合并的示意图，示图中有4个8*8的区块，右下角0值区域，是DCT量化后的值，然后取DCT左上角低频信号，使用Zigzag压缩编码，获得Zigzag编码的DCT码流，这些步骤是AVS编码标准通用的、公开的步骤。本发明方法添加S4、S5步骤，直接将S5步骤的输出结果，作为CNN模型的输入数据。在S4步骤中获得Zigzag编码的DCT码流。码流的获取相对简单，直接从AVS编码标准的解码阶段获取即可。至此，获取DCT码流的操作已完成。

步骤二、合并DCT码流：在图4的S5步骤中，进行合并DCT码流操作。合并DCT码流，需要基于卷积神经网络旋转不变性，对码流进行旋转拼接。如图3右侧所示，对经过Zigzag编码的DCT码流，进行旋转，将相邻的区块两两拼接形成新的区块，最后将所有区块拼接，形成一个特征图，该特征图将作为输入数据，输入到CNN模型中。当前大部分CNN模型，输入大小均为正方形的特征图，而视频往往是16:9、4:3等长方形图，上面拼接方式，恰好可以让特征图的大小逐渐向1:1正方形逼近，最后只需进行细微的大小调整，就可以满足CNN模型输入为正方形的需求。至此，合并DCT码流的操作完成。

步骤三、CNN模型检测：目前，基于CNN模型的图像目标检测算法，已经相当成熟。选择一个通用的目标检测算法模型即可，比如YOLO(You Only Look Once)、SSD(Single ShotMultiBox Detector)等任意CNN模型即可。然后，使用从海量视频中提取的DCT码流，并配合人工数据标注，以此作为神经网络训练使用的数据集，使用这些数据集进行模型训练即可。模型的训练，使用的是通用的、现有的训练方法。训练好的模型，将具备视频图像目标检测的能力，而输入到模型所需的数据则是大幅减少。至此，CNN模型检测的操作完成。最终，消除CNN模型输入数据冗余的问题。

在本发明提供的实施例中，DVS为动态视觉传感器；DCT为离散余弦变换；AVS为数字音视频编解码标准。

在本发明提供的实施例中，如图5中b所示，在DCT解码变换前，对DCT进行拼接得到c，与全部解码填充得到类似于a相比，c显然比a的数据量少。a中区块右下角的零值区域，解码过程会通过帧内预测算法，对其值预测填充。CNN神经网络，本身就是预测模型，无需人为使用c预测a，再用a输入CNN预测得到结果。只需c直接输入CNN，一步到位，预测得到结果。

在本发明提供的实施例中，Zigzag编码(之字编码)，是AVS编码标准中通用的、公开的步骤。这个过程大致为：如图5中a所示，Zigzag编码，在每个8*8的区块中，从左上角开始，沿着图中折线的路径，依次对数值进行取值编码。为被折线标记的右下角零值，因为量化的原因，不会变Zigzag编码，最终舍弃。

在本发明提供的实施例中，如图5所示，从a中每个区块，使用Zigzag编码，从区块左上角的开始，沿着折线路径，对数字进行依次编码，得到DCT左上角低频信号的Zigzag编码，得到的编码如图5中b所示。

在本发明提供的实施例中，如图5中所示，合并过程，就是将图中b每个区块的Zigzag编码的DCT码流，合并成图中c的形式，合并后的DCT码流，在数据结构上和图像帧的数据结构一致，CNN模型输入的数据的数据结构，正是图像帧。以此，该DCT码流，就可以作为CNN模型的输入，直接输入到CNN模型中了。在本发明中，将该拼接方法称为相邻错位拼接法。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种视频目标检测方法，在AVS标准下的解码阶段的DCT变换解码前，对DCT码流数据利用相邻错位拼接法进行拼接，将拼接结果作为CNN模型的输入，消除CNN模型输入数据冗余，其特征在于，所述视频目标检测方法具体包括：

S101：从基于AVS标准进行编码的视频中，提取视频某一帧的DCT码流，具体包括

（1）将图像划分为多个区块，

（2）将区块使用DCT变换进行编码，

（3）对DCT码流进行量化和Zigzag编码，

（4）获得Zigzag编码的DCT码流，

（5）输出结果，作为CNN模型的输入数据，

（6）DCT逆变换，

（7）合并图像区块；

S102：将提取好的DCT码流，使用相邻错位拼接法进行拼接，拼接后的码流保留数据元信息的同时，生成符合CNN模型输入格式，具体为，

将提取到的DCT码流，进行相邻区域两两合并，得到新的码流数据，将新的码流数据直接作为CNN模型的输入数据，具体实现方法为：

基于卷积神经网络旋转不变性，对码流进行旋转拼接；对经过Zigzag编码的DCT码流，进行旋转，将相邻的区块两两拼接形成新的区块，最后将所有区块拼接，形成一个特征图，该特征图将作为输入数据，输入到CNN模型中，在该输入过程中，为了满足CNN模型输入为正方形的需求，则需要对特征图调整大小，使用常规通用的图像插值方法调整大小；

S103：将拼接好的DCT码流，作为CNN模型的输入，进行模型训练和模型推断，具体为，

选择具有目标检测功能的CNN模型，并使用海量合并后的DCT码流，对CNN模型进行训练，最终得到具备视频目标检测功能的CNN模型，

消除CNN模型输入数据冗余的方法包括，

选择一个通用的目标检测算法模型，

使用从海量视频中提取的DCT码流，并配合人工数据标注，作为神经网络训练使用的数据集，使用数据集进行模型训练，

消除CNN模型输入数据冗余。

2.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行权利要求1所述的视频目标检测方法的步骤。

3.一种实施权利要求1所述视频目标检测方法的视频目标检测系统，其特征在于，所述视频目标检测系统包括：

DCT码流拼接模块，用于将提取好的DCT码流，使用相邻错位拼接法进行拼接，拼接后的码流，保留数据元信息的同时，生成符合CNN模型输入格式；

4.一种计算机视觉终端，其特征在于，所述计算机视觉终端用于实现权利要求1所述的视频目标检测方法。