CN116416561A - 一种视频图像处理方法和装置 - Google Patents
一种视频图像处理方法和装置 Download PDFInfo
- Publication number
- CN116416561A CN116416561A CN202310411791.6A CN202310411791A CN116416561A CN 116416561 A CN116416561 A CN 116416561A CN 202310411791 A CN202310411791 A CN 202310411791A CN 116416561 A CN116416561 A CN 116416561A
- Authority
- CN
- China
- Prior art keywords
- sub
- convolution
- feature
- feature map
- video image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 44
- 238000001514 detection method Methods 0.000 claims abstract description 33
- 238000000605 extraction Methods 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 11
- 230000004913 activation Effects 0.000 claims description 49
- 238000010586 diagram Methods 0.000 claims description 21
- 238000000354 decomposition reaction Methods 0.000 claims description 18
- 230000009467 reduction Effects 0.000 claims description 18
- 230000001174 ascending effect Effects 0.000 claims description 4
- 238000001994 activation Methods 0.000 description 37
- 230000006870 function Effects 0.000 description 27
- 230000008569 process Effects 0.000 description 14
- 238000003062 neural network model Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 101100400452 Caenorhabditis elegans map-2 gene Proteins 0.000 description 2
- 101150064138 MAP1 gene Proteins 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明提供了一种视频图像处理方法和装置,包括:构建一基于卷积神经网络的在线视频检测模型;采用在线视频检测模型对输入的视频图像进行处理,提取所述视频图像的特征信息,具体包括:按RGB通道维度对视频图像的输入特征图进行切分,得到每个组的子输入特征图;分别对每个子输入特征图进行组卷积操作,提取每个组所包含通道的特征信息,得到不同的子输出特征图;将所有分组的子输出特征图进行混洗、组合,得到视频图像的特征信息。本发明降低了图像特征提取的计算量和参数量,从而提高在线视频检测模型的处理能力,满足了应用的实时性要求。
Description
本申请是申请号为201911155114.2的分案申请。
申请号为201911155114.2专利:申请日为2019-11-22,名称为“一种神经网络模型的卷积运算优化方法和装置”。
技术领域
本发明涉及图像处理技术领域,尤指一种视频图像处理方法和装置。
背景技术
近年来,随着深度神经网络的蓬勃发展,学术圈和工业界共同目睹了深度学习在众多领域的重大突破。目前已有利用基于深度学习的神经网络模型进行视频图像处理,但是神经网络模型的大小和计算量却成为其在实际应用中的瓶颈,使其难以应用于一些实时性要求较高的场景,例如在线视频质量检测。
如何降低视频图像处理中神经网络模型的计算量成为一个期待解决的问题。
发明内容
本发明的目的是提供一种视频图像处理方法和装置,在保证模型效果的前提下减少网络模型的运算时耗。
本发明提供的技术方案如下:
一种视频图像处理方法,包括:构建一基于卷积神经网络的在线视频检测模型;
采用所述在线视频检测模型对输入的视频图像进行处理,提取所述视频图像的特征信息,具体包括:
由所述视频图像的RGB三个通道的像素值构成输入特征图;
按RGB通道维度对所述输入特征图进行切分分组,得到每个组的子输入特征图;分别对每个子输入特征图进行不同的组卷积操作,提取每个组所包含通道的特征信息,作为对应的子输出特征图;将所有分组的子输出特征图进行混洗、组合,得到所述视频图像的特征信息,作为与所述输入特征图对应的输出特征图。
在一些实施例中,所述组卷积操作包括:采用若干个深度可分离卷积分别处理所述子输入特征图的每个通道的信息,其中,所述深度可分离卷积是通道为1的卷积核,所采用的深度可分离卷积的个数等于所述子输入特征图的通道数;通过1×1的点卷积合并所述深度可分离卷积提取到的不同通道的特征,得到子输出特征图。
在一些实施例中,所述组卷积操作包括:对所述子输入特征图通过1×1的点卷积进行升维,得到通道数增加的子输入特征图;对所述通道数增加的子输入特征图通过深度可分离卷积进行特征提取,得到特征信息;对所述特征信息通过1×1的点卷积进行降维,得到子输出特征图,所述子输出特征图的通道数等于所述子输入特征图的通道数。
在一些实施例中,所述对所述子输入特征图通过1×1的点卷积进行升维,包括:对所述子输入特征图通过1×1的点卷积进行升维,并对升维后的卷积结果采用非线性激活函数进行非线性操作;所述通过深度可分离卷积进行特征提取,包括:先通过深度可分离卷积进行特征提取,再通过所述非线性激活函数进行非线性操作。
在一些实施例中,所述对所述特征信息通过1×1的点卷积进行降维,包括:对所述特征信息通过1×1的点卷积进行降维,再通过线性激活函数进行激活处理。
在一些实施例中,所述非线性激活函数为ReLU6激活函数。
本发明还提供一种视频图像处理装置,包括:构建一基于卷积神经网络的在线视频检测模型;
采用所述在线视频检测模型对输入的视频图像进行处理,提取所述视频图像的特征信息,具体包括:
由所述视频图像的RGB三个通道的像素值构成输入特征图;
通道分解模块,用于按RGB通道维度对所述输入特征图进行切分分组,得到每个组的子输入特征图;分组卷积模块,用于分别对每个子输入特征图进行组卷积操作,提取每个组所包含通道的特征信息,作为对应的子输出特征图;特征混洗模块,用于将所有分组的子输出特征图进行混洗、组合,得到所述视频图像的特征信息,作为与所述输入特征图对应的输出特征图。
在一些实施例中,所述分组卷积模块包括:单通道特征提取单元,用于采用若干个深度可分离卷积分别处理所述子输入特征图的每个通道的信息,其中,所述深度可分离卷积是通道为1的卷积核,所采用的深度可分离卷积的个数等于所述子输入特征图的通道数;特征合并单元,用于通过1×1的点卷积合并所述深度可分离卷积提取到的不同通道的特征,得到子输出特征图。
在一些实施例中,所述分组卷积模块包括:升维单元,用于对所述子输入特征图通过1×1的点卷积进行升维,得到通道数增加的子输入特征图;特征提取单元,用于对所述通道数增加的子输入特征图通过深度可分离卷积进行特征提取,得到特征信息;降维单元,用于对所述特征信息通过1×1的点卷积进行降维,得到子输出特征图,所述子输出特征图的通道数等于所述子输入特征图的通道数。
在一些实施例中,所述分组卷积模块还包括:第一非线性激活单元,用于对升维后的卷积结果采用非线性激活函数进行非线性操作;第二非线性激活单元,用于在通过深度可分离卷积进行特征提取之后,通过所述非线性激活函数进行非线性操作;线性激活单元,用于在对所述特征信息通过1×1的点卷积进行降维之后,通过线性激活函数进行激活处理。
通过本发明提供的一种视频图像处理方法和装置,能够带来以下有益效果:通过对输入的视频图像进行输入特征图的通道分解以及卷积核通道分解、分组卷积,降低了图像特征提取的计算量和参数量,从而提高在线视频检测模型的处理能力,满足了应用的实时性要求。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对一种视频图像处理方法和装置的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明的一种视频图像处理方法中视频图像的特征信息提取的一个实施例的流程图;
图2是本发明的一种视频图像处理方法中视频图像的特征信息提取的另一个实施例的流程图;
图3是本发明的一种视频图像处理方法中视频图像的特征信息提取的另一个实施例的流程图;
图4是本发明的一种视频图像处理装置中视频图像的特征信息提取的一个实施例的结构示意图;
图5是本发明的一种视频图像处理装置中视频图像的特征信息提取的另一个实施例的结构示意图;
图6是本发明的一种视频图像处理装置中视频图像的特征信息提取的另一个实施例的结构示意图;
图7是图1中一种Group-Inception结构图。
附图标号说明:
110.通道分解模块,120.分组卷积模块,130.特征混洗模块,121.单通道特征提取单元,122.特征合并单元,123.升维单元,124.特征提取单元,125.降维单元,126.第一非线性激活单元,127.第二非线性激活单元,128.线性激活单元。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
在本发明的一个实施例中,如图1所示,一种视频图像处理方法,包括:
构建一基于卷积神经网络的在线视频检测模型;
采用该在线视频检测模型对输入的视频图像进行处理,提取视频图像的特征信息,具体包括:
步骤S100按RGB通道维度对输入特征图进行切分,得到每个组的子输入特征图。
具体的,输入特征图为模型的输入原始图像。特征图的数据量用H(高)*W(宽)*C(通道数)表示,含义为:包含C个通道的数据,每个通道有H*W个数据。由于本发明只涉及各种特征图的数据量,不涉及具体特征数据,所以后续描述上简化,用H*W*C表示特征图。
本实施例中输入的视频图像有RGB三个通道,这三个通道的像素值构成了输入特征图。按RGB三个通道对输入特征图进行切分分组,分成3个组,得到每个组的子输入特征图,分别为:子输入特征图1、子输入特征图2、子输入特征图3。
以上过程称为输入特征图的通道分解。
步骤S200分别对每个子输入特征图进行不同的组卷积操作,提取每个组所包含通道的特征信息,得到不同的子输出特征图。
具体的,组卷积操作是指每个组的卷积操作。组卷积操作的输入是子输入特征图,输出是子输出特征图,目的是从子输入特征图中提取特征信息,这些特征信息构成子输出特征图。
组卷积操作可采用与传统卷积操作相同大小的卷积核,但是,卷积核的个数只有传统卷积核(传统卷积操作采用的卷积核,简称传统卷积核)的个数的1/组数。传统卷积核的个数等于输出特征图的通道数,组卷积的卷积核的个数等于输出特征图的通道数除以组数,这又称为卷积核的通道分解。
在进行通道分解时,为了保证输入特征图能均匀切分,以及传统卷积核能均匀分解,组数通常取输入特征图的通道数与输出特征图的通道数的公约数。
由于每个组卷积只需要处理少数通道的特征图,所以计算效率会提升。
比如输入特征图为DF×DF×m,DF为输入特征图的高和宽,m为输入特征图的通道数;输出特征图为DF×DF×n,n为输出特征图的通道数;卷积核size为s×s,采用传统卷积处理,使用n个s×s×m的卷积核,每个卷积核完成此输入特征图的卷积操作的计算量为:s×s×m×DF×DF,n个卷积核的计算量为s×s×m×DF×DF×n。
采用分组卷积,假设分成g组,每个子输入特征图为DF×DF×(m/g),对应的子输出特征图为DF×DF×(n/g),每个组卷局采用(n/g)个s×s×(m/g)的卷积核,每个组卷局的计算量为s×s×(m/g)×DF×DF×(n/g)。共有g个组卷局,所以总的计算量为s×s×(m/g)×DF×DF×(n/g)×g,相对传统卷积处理,计算量减小为原来的1/g。
另外,采用分组卷积,相对传统卷积,进行卷积操作所需的参数也减少了,分析如下:
传统卷积所需参数为m×s×s×n。采用分组卷积,每个组卷积所需参数为(m/g)×s×s×(n/g);共g个组卷积,所以总共参数为(m/g)×s×s×(n/g)×g,减小为原来的1/g。
步骤S300将所有分组的子输出特征图进行混洗、组合,得到视频图像的特征信息,作为与输入特征图对应的输出特征图。
具体的,由于按照通道维度切分后,子输出特征图的特征相对比较稀疏,如果只是采用简单的级联方式将所有分组的子输出特征图连接,作为输出特征图,会导致不同组间的特征图的信息隔离,降低了信息的表达能力,因此组卷积之后通过通道混洗的方式混合不同组间的特征图,实现组间的特征交互。
比如,在线视频检测模型采用图7所示Group-Inception结构,输入的视频图像有RGB三个通道,这三个通道的像素值构成了输入特征图。按RGB三个通道对输入特征图进行切分分组,得到3个子输入特征图,每个子输入特征图仅包含一个通道的像素值。
对每个子输入特征图分别进行组卷积,得到3个子输出特征图,每个子输出特征图又包含3个通道的特征(11为第一个子输出特征图的通道1的数据,12为第一个子输出特征图的通道2的数据,13为第一个子输出特征图的通道3的数据,21为第二个子输出特征图的通道1的数据,31为第三个子输出特征图的通道1的数据,其他含义依次类推。)。
对3个子输出特征图进行通道混洗、组合,混合不同通道的特征,实现通道间的特征交互,得到输出特征图。输出特征图的前3个通道的数据分别由子输出特征图1-3中的第1个通道的数据构成,中间3个通道、后面3个通道类似处理。
本实施例,通过对输入的视频图像进行输入特征图的通道分解以及卷积核通道分解、分组卷积,降低了图像特征提取的的计算量和参数量,从而提高在线视频检测模型的处理能力,满足了应用的实时性要求。
在本发明的另一个实施例中,如图2所示,一种视频图像处理方法,包括:
构建一基于卷积神经网络的在线视频检测模型;
采用该在线视频检测模型对输入的视频图像进行处理,提取视频图像的特征信息,具体包括:
步骤S100按RGB通道维度对输入特征图进行切分,得到每个组的子输入特征图。
步骤S200分别对每个子输入特征图进行不同的组卷积操作,提取每个组所包含通道的特征信息,得到不同的子输出特征图。
其中,对每个子输入特征图的组卷积操作具体包括:
步骤S210采用若干个深度可分离卷积分别处理子输入特征图的每个通道的信息,其中,所述深度可分离卷积是通道为1的卷积核,所采用的深度可分离卷积的个数等于子输入特征图的通道数;
步骤S220通过1×1的点卷积合并所述深度可分离卷积提取到的不同通道的特征,得到子输出特征图。
具体的,深度可分离卷积是通道为1的卷积核,每个卷积核只处理子输入特征图一个通道的特征。但是每个深度可分离卷积只学习到了一个通道的特征,因此再通过1×1的点卷积合并不同通道的特征,使之能够学习到不同通道的特征。
比如子输入特征图为DF×DF×m1,需要m1个s×s×1的深度可分离卷积便可处理子输入特征图所有通道的特征。所有深度可分离卷积的计算量为:s×s×m1×DF×DF。
子输出特征图有n1个通道,则需要n1个1×1×m1的点卷积,所有点卷积的计算量为m1×DF×DF×n1。这种组合方式的计算量为s×s×m1×DF×DF+
m1×DF×DF×n1。相对传统卷积方式的计算量(s×s×m1×DF×DF×n1),这种组合方式的计算量降为:
此外,深度可分离卷积也通过参数量的减少实现模型的压缩。延续前述例子,若使用传统卷积,所需参数为m1×s×s×n1;而深度可分离卷积的参数量为s×s×m1+n1×m1,则参数压缩率为:
步骤S300将所有分组的子输出特征图进行混洗、组合,得到视频图像的特征信息,作为与输入特征图对应的输出特征图。
本实施例,在分组卷积的基础上,用深度可分离卷积和1×1的点卷积实现组卷积操作,进一步减少了图像特征提取的的计算量和参数量,从而进一步提高了在线视频检测模型的处理能力。
在本发明的另一个实施例中,如图3所示,一种视频图像处理方法,包括:
构建一基于卷积神经网络的在线视频检测模型;
采用该在线视频检测模型对输入的视频图像进行处理,提取视频图像的特征信息,具体包括:
步骤S110按RGB通道维度对输入特征图进行切分,得到每个通道的子输入特征图。
步骤S200分别对每个子输入特征图进行不同的组卷积操作,提取每个组所包含通道的特征信息,得到不同的子输出特征图。
其中,对每个子输入特征图的组卷积操作具体包括:
步骤S230对子输入特征图通过1×1的点卷积进行升维,并对升维后的卷积结果采用非线性激活函数进行非线性操作,得到通道数增加的子输入特征图。
步骤S240对所述通道数增加的子输入特征图,先通过深度可分离卷积进行特征提取,再通过非线性激活函数进行非线性操作,得到特征信息;
步骤S250对所述特征信息通过1×1的点卷积进行降维,再通过线性激活函数进行激活处理,得到子输出特征图,所述子输出特征图的通道数等于所述子输入特征图的通道数。
具体的,子输入特征图仅包含一个通道的像素值,通道数已经很少,因此首先通过1×1的逐点卷积进行升维,增加子输入特征图的通道数。在点卷积完成后经过非线性激活函数处理,增加非线性表达能力。
然后再利用3×3的深度可分离卷积提取特征,此时网络中的计算量大大减少。在深度可分离卷积完成后经过非线性激活函数处理,增加非线性表达能力。
可选的,所述非线性激活函数为ReLU6激活函数。ReLU6是将最大输出限制为6的特殊ReLU函数,适合处理高维特征输入。
最后再使用1×1的逐点卷积进行降维,一方面恢复特征图的通道数,另一方面也起到一定的通道混洗作用,将深度可分离卷积提取的特征图按照通道混合,增加信息的表达能力。经过最后一个1×1点卷积后特征的维度已经极少,如果再使用ReLU6会破坏特征,导致信息量的大量损失。因此在最后的1×1点卷积后使用线性激活函数。
步骤S300将所有分组的子输出特征图进行混洗、组合,得到视频图像的特征信息,作为与输入特征图对应的输出特征图。
对应用了本实施例方法的在线视频检测模型进行迭代训练,收敛后得到VFD-SmartNet网络。将其与AlexNet、VGG16、ResNet18、ResNet34、ResNet-like、DenseNet-like模型比较,性能对比如下:
从表中数据可以看出,运算速度与参数量有关,VFD-SmartNet模型的参数量有明显的下降且运算速度显著提高,很好地达到了网络加速的目标,并且查全率和查准率也维持在比较高的水准,可见该模型能够在保持模型准确率的前提下提高运算速度以保证实时性的要求。
在本发明的另一个实施例中,如图4所示,一种视频图像处理装置,包括:
构建一基于卷积神经网络的在线视频检测模型;
采用该在线视频检测模型对输入的视频图像进行处理,提取视频图像的特征信息,具体包括:
通道分解模块110,用于按RGB通道维度对输入特征图进行切分,得到每个组的子输入特征图。
具体的,输入特征图为模型的输入原始图像。特征图的数据量用H(高)*W(宽)*C(通道数)表示,含义为:包含C个通道的数据,每个通道有H*W个数据。
本实施例中输入的视频图像有RGB三个通道,这三个通道的像素值构成了输入特征图。按RGB三个通道对输入特征图进行切分分组,分成3个组,得到每个组的子输入特征图,分别为:子输入特征图1、子输入特征图2、子输入特征图3。
以上过程称为输入特征图的通道分解。
分组卷积模块120,用于分别对每个子输入特征图进行不同的组卷积操作,提取每个组所包含通道的特征信息,得到不同的子输出特征图。
具体的,组卷积操作是指每个组的卷积操作。组卷积操作的输入是子输入特征图,输出是子输出特征图,目的是从子输入特征图中提取特征信息,这些特征信息构成子输出特征图。
组卷积操作可采用与传统卷积操作相同大小的卷积核,但是,卷积核的个数只有传统卷积核(传统卷积操作采用的卷积核,简称传统卷积核)的个数的1/组数。传统卷积核的个数等于输出特征图的通道数,组卷积的卷积核的个数等于输出特征图的通道数除以组数,这又称为卷积核的通道分解。
在进行通道分解时,为了保证输入特征图能均匀切分,以及传统卷积核能均匀分解,组数通常取输入特征图的通道数与输出特征图的通道数的公约数。
由于每个组卷积只需要处理少数通道的特征图,所以计算效率会提升。
比如输入特征图为DF×DF×m,DF为输入特征图的高和宽,m为输入特征图的通道数;输出特征图为DF×DF×n,n为输出特征图的通道数;卷积核size为s×s,采用传统卷积处理,使用n个s×s×m的卷积核,每个卷积核完成此输入特征图的卷积操作的计算量为:s×s×m×DF×DF,n个卷积核的计算量为s×s×m×DF×DF×n。
采用分组卷积,假设分成g组,每个子输入特征图为DF×DF×(m/g),对应的子输出特征图为DF×DF×(n/g),每个组卷局采用(n/g)个s×s×(m/g)的卷积核,每个组卷局的计算量为s×s×(m/g)×DF×DF×(n/g)。共有g个组卷局,所以总的计算量为s×s×(m/g)×DF×DF×(n/g)×g,相对传统卷积处理,计算量减小为原来的1/g。
另外,采用分组卷积,相对传统卷积,进行卷积操作所需的参数也减少了,分析如下:
传统卷积所需参数为m×s×s×n。采用分组卷积,每个组卷积所需参数为(m/g)×s×s×(n/g);共g个组卷积,所以总共参数为(m/g)×s×s×(n/g)×g,减小为原来的1/g。
特征混洗模块130,用于将所有分组的子输出特征图进行混洗、组合,得到视频图像的特征信息,作为与输入特征图对应的输出特征图。
具体的,由于按照通道维度切分后,子输出特征图的特征相对比较稀疏,如果只是采用简单的级联方式将所有分组的子输出特征图连接,作为输出特征图,会导致不同组间的特征图的信息隔离,降低了信息的表达能力,因此组卷积之后通过通道混洗的方式混合不同组间的特征图,实现组间的特征交互。
比如,在线视频检测模型采用图7所示Group-Inception结构,输入的视频图像有RGB三个通道,这三个通道的像素值构成了输入特征图。按RGB三个通道对输入特征图进行切分分组,得到3个子输入特征图。
对每个子输入特征图分别进行组卷积,得到3个子输出特征图,每个子输出特征图又包含3个通道的特征(11为第一个子输出特征图的通道1的数据,12为第一个子输出特征图的通道2的数据,13为第一个子输出特征图的通道3的数据,21为第二个子输出特征图的通道1的数据,31为第三个子输出特征图的通道1的数据,其他含义依次类推。)。
对3个子输出特征图进行通道混洗、组合,混合不同通道的特征,实现通道间的特征交互,得到输出特征图。输出特征图的前3个通道的数据分别由子输出特征图1-3中的第1个通道的数据构成,中间3个通道、后面3个通道类似处理。
本实施例,通过对输入的视频图像进行输入特征图的通道分解以及卷积核通道分解、分组卷积,降低了图像特征提取的的计算量和参数量,从而提高在线视频检测模型的处理能力,满足了应用的实时性要求。
在本发明的另一个实施例中,如图5所示,一种视频图像处理装置,包括:
构建一基于卷积神经网络的在线视频检测模型;
采用该在线视频检测模型对输入的视频图像进行处理,提取视频图像的特征信息,具体包括:
通道分解模块110,用于按RGB通道维度对输入特征图进行切分,得到每个组的子输入特征图。
分组卷积模块120,用于分别对每个子输入特征图进行不同的组卷积操作,提取每个组所包含通道的特征信息,得到不同的子输出特征图。
其中,分组卷积模块120包括:
单通道特征提取单元121,用于采用若干个深度可分离卷积分别处理子输入特征图的每个通道的信息,其中,所述深度可分离卷积是通道为1的卷积核,所采用的深度可分离卷积的个数等于子输入特征图的通道数;
特征合并单元122,用于通过1×1的点卷积合并所述深度可分离卷积提取到的不同通道的特征,得到子输出特征图。
具体的,深度可分离卷积是通道为1的卷积核,每个卷积核只处理子输入特征图一个通道的特征。但是每个深度可分离卷积只学习到了一个通道的特征,因此再通过1×1的点卷积合并不同通道的特征,使之能够学习到不同通道的特征。
比如子输入特征图为DF×DF×m1,需要m1个s×s×1的深度可分离卷积便可处理子输入特征图所有通道的特征。所有深度可分离卷积的计算量为:s×s×m1×DF×DF。
子输出特征图有n1个通道,则需要n1个1×1×m1的点卷积,所有点卷积的计算量为m1×DF×DF×n1。这种组合方式的计算量为s×s×m1×DF×DF+
m1×DF×DF×n1。相对传统卷积方式的计算量(s×s×m1×DF×DF×n1),这种组合方式的计算量降为:
此外,深度可分离卷积也通过参数量的减少实现模型的压缩。延续前述例子,若使用传统卷积,所需参数为m1×s×s×n1;而深度可分离卷积的参数量为s×s×m1+n1×m1,则参数压缩率为:
特征混洗模块130,用于将所有分组的子输出特征图进行混洗、组合,得到视频图像的特征信息,作为与输入特征图对应的输出特征图。
本实施例,在分组卷积的基础上,用深度可分离卷积和1×1的点卷积实现组卷积操作,进一步减少了图像特征提取的的计算量和参数量,从而进一步提高了在线视频检测模型的处理能力。
在本发明的另一个实施例中,如图4、图6所示,一种视频图像处理装置,包括:
构建一基于卷积神经网络的在线视频检测模型;
采用该在线视频检测模型对输入的视频图像进行处理,提取视频图像的特征信息,具体包括:
通道分解模块110,用于按RGB通道维度对输入特征图进行切分,得到每个通道的子输入特征图。
分组卷积模块120,用于分别对每个子输入特征图进行不同的组卷积操作,提取每个组所包含通道的特征信息,得到不同的子输出特征图。
其中,分组卷积模块120包括:
升维单元123,用于对子输入特征图通过1×1的点卷积进行升维;
第一非线性激活单元126,用于对升维后的卷积结果采用非线性激活函数进行非线性操作,得到通道数增加的子输入特征图;
特征提取单元124,用于对所述通道数增加的子输入特征图,先通过深度可分离卷积进行特征提取;
第二非线性激活单元127,用于在通过深度可分离卷积进行特征提取之后,通过所述非线性激活函数进行非线性操作,得到特征信息;
降维单元125,用于对所述特征信息通过1×1的点卷积进行降维;
线性激活单元128,用于在对所述特征信息通过1×1的点卷积进行降维之后,通过线性激活函数进行激活处理,得到子输出特征图,所述子输出特征图的通道数等于所述子输入特征图的通道数。
具体的,子输入特征图仅包含一个通道的像素值,通道数已经很少,因此首先通过1×1的逐点卷积进行升维,增加子输入特征图的通道数。在点卷积完成后经过非线性激活函数处理,增加非线性表达能力。
然后再利用3×3的深度可分离卷积提取特征,此时网络中的计算量大大减少。在深度可分离卷积完成后经过非线性激活函数处理,增加非线性表达能力。
可选的,所述非线性激活函数为ReLU6激活函数。ReLU6是将最大输出限制为6的特殊ReLU函数,适合处理高维特征输入。
最后再使用1×1的逐点卷积进行降维,一方面恢复特征图的通道数,另一方面也起到一定的通道混洗作用,将深度可分离卷积提取的特征图按照通道混合,增加信息的表达能力。经过最后一个1×1点卷积后特征的维度已经极少,如果再使用ReLU6会破坏特征,导致信息量的大量损失。因此在最后的1×1点卷积后使用线性激活函数。
特征混洗模块300,用于将所有分组的子输出特征图进行混洗、组合,得到视频图像的特征信息,作为与输入特征图对应的输出特征图。
对应用了本实施例方法的在线视频检测模型进行迭代训练,收敛后得到VFD-SmartNet网络。将其与AlexNet、VGG16、ResNet18、ResNet34、ResNet-like、DenseNet-like模型比较,性能对比如下:
从表中数据可以看出,VFD-SmartNet模型的运算速度显著提高,很好地达到了网络加速的目标,并且查全率和查准率也维持在比较高的水准,可见该模型能够在保持模型准确率的前提下提高运算速度以保证实时性的要求。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种视频图像处理方法,其特征在于,包括:
构建一基于卷积神经网络的在线视频检测模型;
采用所述在线视频检测模型对输入的视频图像进行处理,提取所述视频图像的特征信息,具体包括:
由所述视频图像的RGB三个通道的像素值构成输入特征图;
按RGB通道维度对所述输入特征图进行切分分组,得到每个组的子输入特征图;
分别对每个子输入特征图进行组卷积操作,提取每个组所包含通道的特征信息,作为对应的子输出特征图;
将所有分组的子输出特征图进行混洗、组合,得到所述视频图像的特征信息,作为与所述输入特征图对应的输出特征图。
2.根据权利要求1所述的视频图像处理方法,其特征在于,所述组卷积操作包括:
采用若干个深度可分离卷积分别处理所述子输入特征图的每个通道的信息,其中,所述深度可分离卷积是通道为1的卷积核,所采用的深度可分离卷积的个数等于所述子输入特征图的通道数;
通过1×1的点卷积合并所述深度可分离卷积提取到的不同通道的特征,得到子输出特征图。
3.根据权利要求1所述的视频图像处理方法,其特征在于,所述组卷积操作包括:
对所述子输入特征图通过1×1的点卷积进行升维,得到通道数增加的子输入特征图;
对所述通道数增加的子输入特征图通过深度可分离卷积进行特征提取,得到特征信息;
对所述特征信息通过1×1的点卷积进行降维,得到子输出特征图,所述子输出特征图的通道数等于所述子输入特征图的通道数。
4.根据权利要求3所述的视频图像处理方法,其特征在于:
所述对所述子输入特征图通过1×1的点卷积进行升维,包括:
对所述子输入特征图通过1×1的点卷积进行升维,并对升维后的卷积结果采用非线性激活函数进行非线性操作;
所述通过深度可分离卷积进行特征提取,包括:
先通过3×3的深度可分离卷积进行特征提取,再通过所述非线性激活函数进行非线性操作。
5.根据权利要求3所述的视频图像处理方法,其特征在于:
所述对所述特征信息通过1×1的点卷积进行降维,包括:
对所述特征信息通过1×1的点卷积进行降维,再通过线性激活函数进行激活处理。
6.根据权利要求4所述的视频图像处理方法,其特征在于:
所述非线性激活函数为ReLU6激活函数。
7.一种视频图像处理装置,其特征在于,包括:
构建一基于卷积神经网络的在线视频检测模型;
采用所述在线视频检测模型对输入的视频图像进行处理,提取所述视频图像的特征信息,具体包括:
由所述视频图像的RGB三个通道的像素值构成输入特征图;
通道分解模块,用于按RGB通道维度对所述输入特征图进行切分分组,得到每个组的子输入特征图;
分组卷积模块,用于分别对每个子输入特征图进行组卷积操作,提取每个组所包含通道的特征信息,作为对应的子输出特征图;
特征混洗模块,用于将所有分组的子输出特征图进行混洗、组合,得到所述视频图像的特征信息,作为与所述输入特征图对应的输出特征图。
8.根据权利要求7所述的视频图像处理装置,其特征在于,所述分组卷积模块包括:
单通道特征提取单元,用于采用若干个深度可分离卷积分别处理所述子输入特征图的每个通道的信息,其中,所述深度可分离卷积是通道为1的卷积核,所采用的深度可分离卷积的个数等于所述子输入特征图的通道数;
特征合并单元,用于通过1×1的点卷积合并所述深度可分离卷积提取到的不同通道的特征,得到子输出特征图。
9.根据权利要求7所述的视频图像处理装置,其特征在于,所述分组卷积模块包括:
升维单元,用于对所述子输入特征图通过1×1的点卷积进行升维,得到通道数增加的子输入特征图;
特征提取单元,用于对所述通道数增加的子输入特征图通过深度可分离卷积进行特征提取,得到特征信息;
降维单元,用于对所述特征信息通过1×1的点卷积进行降维,得到子输出特征图,所述子输出特征图的通道数等于所述子输入特征图的通道数。
10.根据权利要求9所述的视频图像处理装置,其特征在于,所述分组卷积模块还包括:
第一非线性激活单元,用于对升维后的卷积结果采用非线性激活函数进行非线性操作;
第二非线性激活单元,用于在通过深度可分离卷积进行特征提取之后,通过非线性激活函数进行非线性操作;
线性激活单元,用于在对所述特征信息通过1×1的点卷积进行降维之后,通过线性激活函数进行激活处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310411791.6A CN116416561A (zh) | 2019-11-22 | 2019-11-22 | 一种视频图像处理方法和装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310411791.6A CN116416561A (zh) | 2019-11-22 | 2019-11-22 | 一种视频图像处理方法和装置 |
CN201911155114.2A CN110909874A (zh) | 2019-11-22 | 2019-11-22 | 一种神经网络模型的卷积运算优化方法和装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911155114.2A Division CN110909874A (zh) | 2019-11-22 | 2019-11-22 | 一种神经网络模型的卷积运算优化方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116416561A true CN116416561A (zh) | 2023-07-11 |
Family
ID=69818785
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911155114.2A Pending CN110909874A (zh) | 2019-11-22 | 2019-11-22 | 一种神经网络模型的卷积运算优化方法和装置 |
CN202310411791.6A Pending CN116416561A (zh) | 2019-11-22 | 2019-11-22 | 一种视频图像处理方法和装置 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911155114.2A Pending CN110909874A (zh) | 2019-11-22 | 2019-11-22 | 一种神经网络模型的卷积运算优化方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN110909874A (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111445012B (zh) * | 2020-04-28 | 2023-04-18 | 南京大学 | 一种基于fpga的分组卷积硬件加速器及其方法 |
CN111445019B (zh) * | 2020-04-30 | 2023-04-18 | 南京大学 | 一种分组卷积中通道混洗操作的实现装置及方法 |
CN111738424B (zh) * | 2020-06-29 | 2023-12-26 | 湖南国科微电子股份有限公司 | 神经网络处理方法、装置、电子设备及存储介质 |
CN112288028A (zh) * | 2020-11-06 | 2021-01-29 | 神思电子技术股份有限公司 | 一种基于流卷积的图像识别方法 |
CN112418401A (zh) * | 2020-11-20 | 2021-02-26 | 中山大学 | 一种面向终端应用的本地分布式图像识别方法 |
CN112363844B (zh) * | 2021-01-12 | 2021-04-09 | 之江实验室 | 一种面向图像处理的卷积神经网络垂直分割方法 |
CN113313056A (zh) * | 2021-06-16 | 2021-08-27 | 中国科学技术大学 | 基于紧致3d卷积的唇语识别方法、系统、设备及存储介质 |
-
2019
- 2019-11-22 CN CN201911155114.2A patent/CN110909874A/zh active Pending
- 2019-11-22 CN CN202310411791.6A patent/CN116416561A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
CN110909874A (zh) | 2020-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116416561A (zh) | 一种视频图像处理方法和装置 | |
Chen et al. | An enhanced hybrid MobileNet | |
CN108764471B (zh) | 基于特征冗余分析的神经网络跨层剪枝方法 | |
CN108288035A (zh) | 基于深度学习的多通道图像特征融合的人体动作识别方法 | |
US20190087713A1 (en) | Compression of sparse deep convolutional network weights | |
CN108304920B (zh) | 一种基于MobileNets优化多尺度学习网络的方法 | |
US11275966B2 (en) | Calculation method using pixel-channel shuffle convolutional neural network and operating system using the same | |
CN111210432B (zh) | 一种基于多尺度多级注意力机制的图像语义分割方法 | |
CN110781912A (zh) | 一种基于通道扩张倒置卷积神经网络的图像分类方法 | |
Gao et al. | Vacl: Variance-aware cross-layer regularization for pruning deep residual networks | |
CN111882053B (zh) | 一种基于拼接卷积的神经网络模型压缩方法 | |
CN112416293A (zh) | 一种神经网络增强方法、系统及其应用 | |
CN110378466A (zh) | 基于神经网络差分的量化方法及系统 | |
CN111881794B (zh) | 一种视频行为识别方法及系统 | |
CN114612347A (zh) | 一种多模块级联的水下图像增强方法 | |
CN114611667A (zh) | 一种基于小规模参数矩阵计算特征图边界的重构方法 | |
TWI763975B (zh) | 降低類神經網路之運算複雜度的系統與方法 | |
CN114492631A (zh) | 一种基于通道注意力的空间注意力计算方法 | |
CN111832336B (zh) | 一种基于改进的c3d视频行为检测方法 | |
CN108513042A (zh) | 用于图像处理的装置 | |
CN113505804A (zh) | 一种基于压缩深度神经网络的图像识别方法及系统 | |
CN111461144A (zh) | 一种用于加速卷积神经网络的方法 | |
CN110807479A (zh) | 一种基于Kmeans算法的神经网络卷积计算加速方法 | |
Ichinose et al. | Performance Evaluation of Pipeline-Based Processing for the Caffe Deep Learning Framework | |
WO2023053222A1 (ja) | データ変換装置、データ変換方法、及びプログラムが格納された非一時的なコンピュータ可読媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |