CN116416561A

CN116416561A - 一种视频图像处理方法和装置

Info

Publication number: CN116416561A
Application number: CN202310411791.6A
Authority: CN
Inventors: 杜渂; 王聚全; 雷霆; 彭明喜; 周赵云; 陈健; 杨博; 刘冉东; 张胜
Original assignee: Ds Information Technology Co ltd
Current assignee: Ds Information Technology Co ltd
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2023-07-11
Also published as: CN110909874A

Abstract

本发明提供了一种视频图像处理方法和装置，包括：构建一基于卷积神经网络的在线视频检测模型；采用在线视频检测模型对输入的视频图像进行处理，提取所述视频图像的特征信息，具体包括：按RGB通道维度对视频图像的输入特征图进行切分，得到每个组的子输入特征图；分别对每个子输入特征图进行组卷积操作，提取每个组所包含通道的特征信息，得到不同的子输出特征图；将所有分组的子输出特征图进行混洗、组合，得到视频图像的特征信息。本发明降低了图像特征提取的计算量和参数量，从而提高在线视频检测模型的处理能力，满足了应用的实时性要求。

Description

一种视频图像处理方法和装置

本申请是申请号为201911155114.2的分案申请。

申请号为201911155114.2专利：申请日为2019-11-22，名称为“一种神经网络模型的卷积运算优化方法和装置”。

技术领域

本发明涉及图像处理技术领域，尤指一种视频图像处理方法和装置。

背景技术

近年来，随着深度神经网络的蓬勃发展，学术圈和工业界共同目睹了深度学习在众多领域的重大突破。目前已有利用基于深度学习的神经网络模型进行视频图像处理，但是神经网络模型的大小和计算量却成为其在实际应用中的瓶颈，使其难以应用于一些实时性要求较高的场景，例如在线视频质量检测。

如何降低视频图像处理中神经网络模型的计算量成为一个期待解决的问题。

发明内容

本发明的目的是提供一种视频图像处理方法和装置，在保证模型效果的前提下减少网络模型的运算时耗。

本发明提供的技术方案如下：

一种视频图像处理方法，包括：构建一基于卷积神经网络的在线视频检测模型；

采用所述在线视频检测模型对输入的视频图像进行处理，提取所述视频图像的特征信息，具体包括：

由所述视频图像的RGB三个通道的像素值构成输入特征图；

按RGB通道维度对所述输入特征图进行切分分组，得到每个组的子输入特征图；分别对每个子输入特征图进行不同的组卷积操作，提取每个组所包含通道的特征信息，作为对应的子输出特征图；将所有分组的子输出特征图进行混洗、组合，得到所述视频图像的特征信息，作为与所述输入特征图对应的输出特征图。

在一些实施例中，所述组卷积操作包括：采用若干个深度可分离卷积分别处理所述子输入特征图的每个通道的信息，其中，所述深度可分离卷积是通道为1的卷积核，所采用的深度可分离卷积的个数等于所述子输入特征图的通道数；通过1×1的点卷积合并所述深度可分离卷积提取到的不同通道的特征，得到子输出特征图。

在一些实施例中，所述组卷积操作包括：对所述子输入特征图通过1×1的点卷积进行升维，得到通道数增加的子输入特征图；对所述通道数增加的子输入特征图通过深度可分离卷积进行特征提取，得到特征信息；对所述特征信息通过1×1的点卷积进行降维，得到子输出特征图，所述子输出特征图的通道数等于所述子输入特征图的通道数。

在一些实施例中，所述对所述子输入特征图通过1×1的点卷积进行升维，包括：对所述子输入特征图通过1×1的点卷积进行升维，并对升维后的卷积结果采用非线性激活函数进行非线性操作；所述通过深度可分离卷积进行特征提取，包括：先通过深度可分离卷积进行特征提取，再通过所述非线性激活函数进行非线性操作。

在一些实施例中，所述对所述特征信息通过1×1的点卷积进行降维，包括：对所述特征信息通过1×1的点卷积进行降维，再通过线性激活函数进行激活处理。

在一些实施例中，所述非线性激活函数为ReLU6激活函数。

本发明还提供一种视频图像处理装置，包括：构建一基于卷积神经网络的在线视频检测模型；

由所述视频图像的RGB三个通道的像素值构成输入特征图；

通道分解模块，用于按RGB通道维度对所述输入特征图进行切分分组，得到每个组的子输入特征图；分组卷积模块，用于分别对每个子输入特征图进行组卷积操作，提取每个组所包含通道的特征信息，作为对应的子输出特征图；特征混洗模块，用于将所有分组的子输出特征图进行混洗、组合，得到所述视频图像的特征信息，作为与所述输入特征图对应的输出特征图。

在一些实施例中，所述分组卷积模块包括：单通道特征提取单元，用于采用若干个深度可分离卷积分别处理所述子输入特征图的每个通道的信息，其中，所述深度可分离卷积是通道为1的卷积核，所采用的深度可分离卷积的个数等于所述子输入特征图的通道数；特征合并单元，用于通过1×1的点卷积合并所述深度可分离卷积提取到的不同通道的特征，得到子输出特征图。

在一些实施例中，所述分组卷积模块包括：升维单元，用于对所述子输入特征图通过1×1的点卷积进行升维，得到通道数增加的子输入特征图；特征提取单元，用于对所述通道数增加的子输入特征图通过深度可分离卷积进行特征提取，得到特征信息；降维单元，用于对所述特征信息通过1×1的点卷积进行降维，得到子输出特征图，所述子输出特征图的通道数等于所述子输入特征图的通道数。

在一些实施例中，所述分组卷积模块还包括：第一非线性激活单元，用于对升维后的卷积结果采用非线性激活函数进行非线性操作；第二非线性激活单元，用于在通过深度可分离卷积进行特征提取之后，通过所述非线性激活函数进行非线性操作；线性激活单元，用于在对所述特征信息通过1×1的点卷积进行降维之后，通过线性激活函数进行激活处理。

通过本发明提供的一种视频图像处理方法和装置，能够带来以下有益效果：通过对输入的视频图像进行输入特征图的通道分解以及卷积核通道分解、分组卷积，降低了图像特征提取的计算量和参数量，从而提高在线视频检测模型的处理能力，满足了应用的实时性要求。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对一种视频图像处理方法和装置的上述特性、技术特征、优点及其实现方式予以进一步说明。

图1是本发明的一种视频图像处理方法中视频图像的特征信息提取的一个实施例的流程图；

图2是本发明的一种视频图像处理方法中视频图像的特征信息提取的另一个实施例的流程图；

图3是本发明的一种视频图像处理方法中视频图像的特征信息提取的另一个实施例的流程图；

图4是本发明的一种视频图像处理装置中视频图像的特征信息提取的一个实施例的结构示意图；

图5是本发明的一种视频图像处理装置中视频图像的特征信息提取的另一个实施例的结构示意图；

图6是本发明的一种视频图像处理装置中视频图像的特征信息提取的另一个实施例的结构示意图；

图7是图1中一种Group-Inception结构图。

附图标号说明：

110.通道分解模块，120.分组卷积模块，130.特征混洗模块，121.单通道特征提取单元，122.特征合并单元，123.升维单元，124.特征提取单元，125.降维单元，126.第一非线性激活单元，127.第二非线性激活单元，128.线性激活单元。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

为使图面简洁，各图中只示意性地表示出了与本发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

在本发明的一个实施例中，如图1所示，一种视频图像处理方法，包括：

构建一基于卷积神经网络的在线视频检测模型；

采用该在线视频检测模型对输入的视频图像进行处理，提取视频图像的特征信息，具体包括：

步骤S100按RGB通道维度对输入特征图进行切分，得到每个组的子输入特征图。

具体的，输入特征图为模型的输入原始图像。特征图的数据量用H(高)*W(宽)*C(通道数)表示，含义为：包含C个通道的数据，每个通道有H*W个数据。由于本发明只涉及各种特征图的数据量，不涉及具体特征数据，所以后续描述上简化，用H*W*C表示特征图。

本实施例中输入的视频图像有RGB三个通道，这三个通道的像素值构成了输入特征图。按RGB三个通道对输入特征图进行切分分组，分成3个组，得到每个组的子输入特征图，分别为：子输入特征图1、子输入特征图2、子输入特征图3。

以上过程称为输入特征图的通道分解。

步骤S200分别对每个子输入特征图进行不同的组卷积操作，提取每个组所包含通道的特征信息，得到不同的子输出特征图。

具体的，组卷积操作是指每个组的卷积操作。组卷积操作的输入是子输入特征图，输出是子输出特征图，目的是从子输入特征图中提取特征信息，这些特征信息构成子输出特征图。

组卷积操作可采用与传统卷积操作相同大小的卷积核，但是，卷积核的个数只有传统卷积核(传统卷积操作采用的卷积核，简称传统卷积核)的个数的1/组数。传统卷积核的个数等于输出特征图的通道数，组卷积的卷积核的个数等于输出特征图的通道数除以组数，这又称为卷积核的通道分解。

在进行通道分解时，为了保证输入特征图能均匀切分，以及传统卷积核能均匀分解，组数通常取输入特征图的通道数与输出特征图的通道数的公约数。

由于每个组卷积只需要处理少数通道的特征图，所以计算效率会提升。

比如输入特征图为D_F×D_F×m，D_F为输入特征图的高和宽，m为输入特征图的通道数；输出特征图为D_F×D_F×n，n为输出特征图的通道数；卷积核size为s×s，采用传统卷积处理，使用n个s×s×m的卷积核，每个卷积核完成此输入特征图的卷积操作的计算量为：s×s×m×D_F×D_F，n个卷积核的计算量为s×s×m×D_F×D_F×n。

采用分组卷积，假设分成g组，每个子输入特征图为D_F×D_F×(m/g)，对应的子输出特征图为D_F×D_F×(n/g)，每个组卷局采用(n/g)个s×s×(m/g)的卷积核，每个组卷局的计算量为s×s×(m/g)×D_F×D_F×(n/g)。共有g个组卷局，所以总的计算量为s×s×(m/g)×D_F×D_F×(n/g)×g，相对传统卷积处理，计算量减小为原来的1/g。

另外，采用分组卷积，相对传统卷积，进行卷积操作所需的参数也减少了，分析如下：

传统卷积所需参数为m×s×s×n。采用分组卷积，每个组卷积所需参数为(m/g)×s×s×(n/g)；共g个组卷积，所以总共参数为(m/g)×s×s×(n/g)×g，减小为原来的1/g。

步骤S300将所有分组的子输出特征图进行混洗、组合，得到视频图像的特征信息，作为与输入特征图对应的输出特征图。

具体的，由于按照通道维度切分后，子输出特征图的特征相对比较稀疏，如果只是采用简单的级联方式将所有分组的子输出特征图连接，作为输出特征图，会导致不同组间的特征图的信息隔离，降低了信息的表达能力，因此组卷积之后通过通道混洗的方式混合不同组间的特征图，实现组间的特征交互。

比如，在线视频检测模型采用图7所示Group-Inception结构，输入的视频图像有RGB三个通道，这三个通道的像素值构成了输入特征图。按RGB三个通道对输入特征图进行切分分组，得到3个子输入特征图，每个子输入特征图仅包含一个通道的像素值。

对每个子输入特征图分别进行组卷积，得到3个子输出特征图，每个子输出特征图又包含3个通道的特征(11为第一个子输出特征图的通道1的数据，12为第一个子输出特征图的通道2的数据，13为第一个子输出特征图的通道3的数据，21为第二个子输出特征图的通道1的数据，31为第三个子输出特征图的通道1的数据，其他含义依次类推。)。

对3个子输出特征图进行通道混洗、组合，混合不同通道的特征，实现通道间的特征交互，得到输出特征图。输出特征图的前3个通道的数据分别由子输出特征图1-3中的第1个通道的数据构成，中间3个通道、后面3个通道类似处理。

本实施例，通过对输入的视频图像进行输入特征图的通道分解以及卷积核通道分解、分组卷积，降低了图像特征提取的的计算量和参数量，从而提高在线视频检测模型的处理能力，满足了应用的实时性要求。

在本发明的另一个实施例中，如图2所示，一种视频图像处理方法，包括：

构建一基于卷积神经网络的在线视频检测模型；

其中，对每个子输入特征图的组卷积操作具体包括：

步骤S210采用若干个深度可分离卷积分别处理子输入特征图的每个通道的信息，其中，所述深度可分离卷积是通道为1的卷积核，所采用的深度可分离卷积的个数等于子输入特征图的通道数；

步骤S220通过1×1的点卷积合并所述深度可分离卷积提取到的不同通道的特征，得到子输出特征图。

具体的，深度可分离卷积是通道为1的卷积核，每个卷积核只处理子输入特征图一个通道的特征。但是每个深度可分离卷积只学习到了一个通道的特征，因此再通过1×1的点卷积合并不同通道的特征，使之能够学习到不同通道的特征。

比如子输入特征图为D_F×D_F×m1，需要m1个s×s×1的深度可分离卷积便可处理子输入特征图所有通道的特征。所有深度可分离卷积的计算量为：s×s×m1×D_F×D_F。

子输出特征图有n1个通道，则需要n1个1×1×m1的点卷积，所有点卷积的计算量为m1×D_F×D_F×n1。这种组合方式的计算量为s×s×m1×D_F×D_F+

m1×D_F×D_F×n1。相对传统卷积方式的计算量(s×s×m1×D_F×D_F×n1)，这种组合方式的计算量降为：

此外，深度可分离卷积也通过参数量的减少实现模型的压缩。延续前述例子，若使用传统卷积，所需参数为m1×s×s×n1；而深度可分离卷积的参数量为s×s×m1+n1×m1，则参数压缩率为：

本实施例，在分组卷积的基础上，用深度可分离卷积和1×1的点卷积实现组卷积操作，进一步减少了图像特征提取的的计算量和参数量，从而进一步提高了在线视频检测模型的处理能力。

在本发明的另一个实施例中，如图3所示，一种视频图像处理方法，包括：

构建一基于卷积神经网络的在线视频检测模型；

步骤S110按RGB通道维度对输入特征图进行切分，得到每个通道的子输入特征图。

其中，对每个子输入特征图的组卷积操作具体包括：

步骤S230对子输入特征图通过1×1的点卷积进行升维，并对升维后的卷积结果采用非线性激活函数进行非线性操作，得到通道数增加的子输入特征图。

步骤S240对所述通道数增加的子输入特征图，先通过深度可分离卷积进行特征提取，再通过非线性激活函数进行非线性操作，得到特征信息；

步骤S250对所述特征信息通过1×1的点卷积进行降维，再通过线性激活函数进行激活处理，得到子输出特征图，所述子输出特征图的通道数等于所述子输入特征图的通道数。

具体的，子输入特征图仅包含一个通道的像素值，通道数已经很少，因此首先通过1×1的逐点卷积进行升维，增加子输入特征图的通道数。在点卷积完成后经过非线性激活函数处理，增加非线性表达能力。

然后再利用3×3的深度可分离卷积提取特征，此时网络中的计算量大大减少。在深度可分离卷积完成后经过非线性激活函数处理，增加非线性表达能力。

可选的，所述非线性激活函数为ReLU6激活函数。ReLU6是将最大输出限制为6的特殊ReLU函数，适合处理高维特征输入。

最后再使用1×1的逐点卷积进行降维，一方面恢复特征图的通道数，另一方面也起到一定的通道混洗作用，将深度可分离卷积提取的特征图按照通道混合，增加信息的表达能力。经过最后一个1×1点卷积后特征的维度已经极少，如果再使用ReLU6会破坏特征，导致信息量的大量损失。因此在最后的1×1点卷积后使用线性激活函数。

对应用了本实施例方法的在线视频检测模型进行迭代训练，收敛后得到VFD-SmartNet网络。将其与AlexNet、VGG16、ResNet18、ResNet34、ResNet-like、DenseNet-like模型比较，性能对比如下：

从表中数据可以看出，运算速度与参数量有关，VFD-SmartNet模型的参数量有明显的下降且运算速度显著提高，很好地达到了网络加速的目标，并且查全率和查准率也维持在比较高的水准，可见该模型能够在保持模型准确率的前提下提高运算速度以保证实时性的要求。

在本发明的另一个实施例中，如图4所示，一种视频图像处理装置，包括：

构建一基于卷积神经网络的在线视频检测模型；

通道分解模块110，用于按RGB通道维度对输入特征图进行切分，得到每个组的子输入特征图。

具体的，输入特征图为模型的输入原始图像。特征图的数据量用H(高)*W(宽)*C(通道数)表示，含义为：包含C个通道的数据，每个通道有H*W个数据。

以上过程称为输入特征图的通道分解。

分组卷积模块120，用于分别对每个子输入特征图进行不同的组卷积操作，提取每个组所包含通道的特征信息，得到不同的子输出特征图。

特征混洗模块130，用于将所有分组的子输出特征图进行混洗、组合，得到视频图像的特征信息，作为与输入特征图对应的输出特征图。

比如，在线视频检测模型采用图7所示Group-Inception结构，输入的视频图像有RGB三个通道，这三个通道的像素值构成了输入特征图。按RGB三个通道对输入特征图进行切分分组，得到3个子输入特征图。

在本发明的另一个实施例中，如图5所示，一种视频图像处理装置，包括：

构建一基于卷积神经网络的在线视频检测模型；

其中，分组卷积模块120包括：

单通道特征提取单元121，用于采用若干个深度可分离卷积分别处理子输入特征图的每个通道的信息，其中，所述深度可分离卷积是通道为1的卷积核，所采用的深度可分离卷积的个数等于子输入特征图的通道数；

特征合并单元122，用于通过1×1的点卷积合并所述深度可分离卷积提取到的不同通道的特征，得到子输出特征图。

在本发明的另一个实施例中，如图4、图6所示，一种视频图像处理装置，包括：

构建一基于卷积神经网络的在线视频检测模型；

通道分解模块110，用于按RGB通道维度对输入特征图进行切分，得到每个通道的子输入特征图。

其中，分组卷积模块120包括：

升维单元123，用于对子输入特征图通过1×1的点卷积进行升维；

第一非线性激活单元126，用于对升维后的卷积结果采用非线性激活函数进行非线性操作，得到通道数增加的子输入特征图；

特征提取单元124，用于对所述通道数增加的子输入特征图，先通过深度可分离卷积进行特征提取；

第二非线性激活单元127，用于在通过深度可分离卷积进行特征提取之后，通过所述非线性激活函数进行非线性操作，得到特征信息；

降维单元125，用于对所述特征信息通过1×1的点卷积进行降维；

线性激活单元128，用于在对所述特征信息通过1×1的点卷积进行降维之后，通过线性激活函数进行激活处理，得到子输出特征图，所述子输出特征图的通道数等于所述子输入特征图的通道数。

特征混洗模块300，用于将所有分组的子输出特征图进行混洗、组合，得到视频图像的特征信息，作为与输入特征图对应的输出特征图。

从表中数据可以看出，VFD-SmartNet模型的运算速度显著提高，很好地达到了网络加速的目标，并且查全率和查准率也维持在比较高的水准，可见该模型能够在保持模型准确率的前提下提高运算速度以保证实时性的要求。

应当说明的是，上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频图像处理方法，其特征在于，包括：

构建一基于卷积神经网络的在线视频检测模型；

由所述视频图像的RGB三个通道的像素值构成输入特征图；

按RGB通道维度对所述输入特征图进行切分分组，得到每个组的子输入特征图；

分别对每个子输入特征图进行组卷积操作，提取每个组所包含通道的特征信息，作为对应的子输出特征图；

将所有分组的子输出特征图进行混洗、组合，得到所述视频图像的特征信息，作为与所述输入特征图对应的输出特征图。

2.根据权利要求1所述的视频图像处理方法，其特征在于，所述组卷积操作包括：

采用若干个深度可分离卷积分别处理所述子输入特征图的每个通道的信息，其中，所述深度可分离卷积是通道为1的卷积核，所采用的深度可分离卷积的个数等于所述子输入特征图的通道数；

通过1×1的点卷积合并所述深度可分离卷积提取到的不同通道的特征，得到子输出特征图。

3.根据权利要求1所述的视频图像处理方法，其特征在于，所述组卷积操作包括：

对所述子输入特征图通过1×1的点卷积进行升维，得到通道数增加的子输入特征图；

对所述通道数增加的子输入特征图通过深度可分离卷积进行特征提取，得到特征信息；

对所述特征信息通过1×1的点卷积进行降维，得到子输出特征图，所述子输出特征图的通道数等于所述子输入特征图的通道数。

4.根据权利要求3所述的视频图像处理方法，其特征在于：

所述对所述子输入特征图通过1×1的点卷积进行升维，包括：

对所述子输入特征图通过1×1的点卷积进行升维，并对升维后的卷积结果采用非线性激活函数进行非线性操作；

所述通过深度可分离卷积进行特征提取，包括：

先通过3×3的深度可分离卷积进行特征提取，再通过所述非线性激活函数进行非线性操作。

5.根据权利要求3所述的视频图像处理方法，其特征在于：

所述对所述特征信息通过1×1的点卷积进行降维，包括：

对所述特征信息通过1×1的点卷积进行降维，再通过线性激活函数进行激活处理。

6.根据权利要求4所述的视频图像处理方法，其特征在于：

所述非线性激活函数为ReLU6激活函数。

7.一种视频图像处理装置，其特征在于，包括：

构建一基于卷积神经网络的在线视频检测模型；

由所述视频图像的RGB三个通道的像素值构成输入特征图；

通道分解模块，用于按RGB通道维度对所述输入特征图进行切分分组，得到每个组的子输入特征图；

分组卷积模块，用于分别对每个子输入特征图进行组卷积操作，提取每个组所包含通道的特征信息，作为对应的子输出特征图；

特征混洗模块，用于将所有分组的子输出特征图进行混洗、组合，得到所述视频图像的特征信息，作为与所述输入特征图对应的输出特征图。

8.根据权利要求7所述的视频图像处理装置，其特征在于，所述分组卷积模块包括：

单通道特征提取单元，用于采用若干个深度可分离卷积分别处理所述子输入特征图的每个通道的信息，其中，所述深度可分离卷积是通道为1的卷积核，所采用的深度可分离卷积的个数等于所述子输入特征图的通道数；

特征合并单元，用于通过1×1的点卷积合并所述深度可分离卷积提取到的不同通道的特征，得到子输出特征图。

9.根据权利要求7所述的视频图像处理装置，其特征在于，所述分组卷积模块包括：

升维单元，用于对所述子输入特征图通过1×1的点卷积进行升维，得到通道数增加的子输入特征图；

特征提取单元，用于对所述通道数增加的子输入特征图通过深度可分离卷积进行特征提取，得到特征信息；

降维单元，用于对所述特征信息通过1×1的点卷积进行降维，得到子输出特征图，所述子输出特征图的通道数等于所述子输入特征图的通道数。

10.根据权利要求9所述的视频图像处理装置，其特征在于，所述分组卷积模块还包括：

第一非线性激活单元，用于对升维后的卷积结果采用非线性激活函数进行非线性操作；

第二非线性激活单元，用于在通过深度可分离卷积进行特征提取之后，通过非线性激活函数进行非线性操作；

线性激活单元，用于在对所述特征信息通过1×1的点卷积进行降维之后，通过线性激活函数进行激活处理。