CN110728354B - 一种基于改进的滑动式分组卷积神经网络的图像处理方法 - Google Patents
一种基于改进的滑动式分组卷积神经网络的图像处理方法 Download PDFInfo
- Publication number
- CN110728354B CN110728354B CN201910858428.2A CN201910858428A CN110728354B CN 110728354 B CN110728354 B CN 110728354B CN 201910858428 A CN201910858428 A CN 201910858428A CN 110728354 B CN110728354 B CN 110728354B
- Authority
- CN
- China
- Prior art keywords
- channels
- input
- group
- convolution
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims description 5
- 238000013528 artificial neural network Methods 0.000 title abstract description 14
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims description 21
- 238000010586 diagram Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 9
- 238000010008 shearing Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 abstract description 5
- 230000006835 compression Effects 0.000 abstract description 3
- 238000007906 compression Methods 0.000 abstract description 3
- 238000004364 calculation method Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005520 cutting process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- BRUQQQPBMZOVGD-XFKAJCMBSA-N Oxycodone Chemical compound O=C([C@@H]1O2)CC[C@@]3(O)[C@H]4CC5=CC=C(OC)C2=C5[C@@]13CCN4C BRUQQQPBMZOVGD-XFKAJCMBSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000012014 frustrated Lewis pair Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Complex Calculations (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种改进的滑动式分组卷积神经网络,在总通道里取第一个通道到第G个通道为第一组输入进行卷积,经过卷积操作后输出S个通道,接着,以第一组输入长度G在总通道上进行滑动,S作为滑动的步长,第二组卷积的输入为总通道数的第S+1个通道到第S+G,总共仍是G个通道作为一组输入进行卷积操作,并输出S个通道,以此类推;特别之处在于,后一组输入通道的前G‑S个通道与前一组输入通道的后G‑S个通道是共享的,每组之间都按照这种关系来进行信息交流。本发明进一步解决了神经网络参数复杂度过高的问题,且测试准确度有所提高。本发明是一种结合全精度高效神经网络的算法硬件协同压缩方法,并且降低了硬件资源消耗。
Description
技术领域
本发明涉及图像处理技术领域,尤其是一种基于改进的滑动式分组卷积神经网络的图像处理方法。
背景技术
卷积神经网络(CNN)由人工神经网络发展而来,独特的权值共享的结构减小了网络的规模,更容易训练。由于图像平移、缩放和旋转的不变性,卷积神经网络广泛应用于图像识别领域。卷积神经网络对图像的平移、缩放、旋转等形式的变形具有高度的适应性,在图像识别和目标检测等领域应用广泛,如微软利用卷积神经网络做阿拉伯文和中文的手写识别系统,谷歌使用卷积神经网络来识别街景图片中的人脸和车牌等等。
CNN的性能正在迅速提高:ImageNet挑战的获胜者将分类准确率开始的84.7%(AlexNet)提高到96.5%(ResNet-152)。然而,精度的提高是以高计算复杂度为代价的。例如,AlexNet需要1.4×1010FLOPs来处理单个224×224图像,ResNet-152需要2.26×1011FLOPs。在移动嵌入式设备端,一个最主要的挑战在于大量的运算需要过多的硬件资源并且功耗巨大。
为了解决与计算能力相关的这一系列问题,已经有大量的研究试图优化它们的性能。这些研究工作方法可以分为两种:使用预先训练的模型压缩现有网络结构,以及设计新的高效的网络结构,这些结构将从头开始训练。
模型压缩方法通常基于传统的压缩技术,如哈希(hashing)、赫夫曼编码(Huffmancoding)、因式分解(factorization)、剪枝(pruning)和模型量化(quantization)。
实际上,第二种方法比第一种方法更早地被研究。GoogLeNet中提出了Inception模块,希望在不增加模型大小和计算成本的情况下构建更深的网络结构,然后在Inception模块中通过分解卷积进一步改进。深度可分离卷积(Depthwise separable Convolution,DWConvolution)更加体现因式分解的思想,将标准卷积分解为深度卷积(depthwiseconvolution),再用1×1卷积核进行常规卷积。MobileNet为基于DW Convolution的移动设备设计了卷积神经网络,该操作能够以较少的参数获得了较好的结果。
发明内容
发明目的:本发明的目的在于解决现有的卷积神经网络,计算精度的提升必然导致系统的计算复杂度提高,进一步地,大量的运算需要过多的硬件资源并且功耗巨大的问题
技术方案:为解决上述问题,本发明采用以下技术方案:
一种基于改进的滑动式分组卷积神经网络的图像处理方法,包括以下步骤:
(1)将总通道分为N个分组,对输入的全部通道按照两个参数G和S来进行分组卷积,在全部通道中取第一个通道到第G个通道为第一个组的输入进行卷积,这一组中包含G个通道,经过卷积操作之后输出S个通道,接下来在总通道上进行滑动操作,以S作为滑动的步长,然后第二组卷积操作的的输入为总通道数的第S+1个通道到第S+G,依旧是G个通道作为第二组输入进行卷积操作,并且输出S个通道,以此类推;若最后组剩余的总通道数不足G个,则从位于总通道开头部分的通道继续取,直到最后一组的输入通道数到达G个为止;
(2)对步骤(1)的每次输出通道进行堆叠操作,确保得到的通道数等于或者大于所需的通道数;
(3)对步骤(2)堆叠后所得到的通道进行剪切,堆叠后得到的通道数可能会超出本身所需要的,所以这里进行剪切操作将超出的通道舍弃,得到所需要的通道数;
(4)利用步骤(1)-(3)所得到的网络结构OGC对图像进行处理,先对输入特征图进行批量归一化处理,然后用非线性函数进行激活处理,再用1×1卷积对输入特征图进行标准卷积运算;再经过批量归一化处理,然后用非线性函数进行激活处理,用OGC去替代3×3卷积核的标准卷积,OGC每组有三个通道,组与组之间的滑动为1,并且输出特征图通道数与输入通道数相同;同样的,对输入层经过批归一化处理,然后用非线性函数Relu进行激活处理,对输入特征图进行常规卷积操作,卷积核尺寸为1×1,步长为1,并在这一步扩张特征图的通道数。
进一步地,步骤(1)中,相邻的两个分组卷积,具有G-S个共享卷积。
进一步地,所述步骤(1)中,输出通道S的数量小于输入通道G的数量。
进一步地,所述步骤(1)中,每个分组均有且仅有G个通道。
进一步地,每组的输出通道均为当前分组的第一个通道到第S个通道。
进一步地,所有组的输入通道数G相同,输出通道数S也相同。
有益效果:本发明相对于现有技术而言:
本发明提出了一种基于深度卷积的神经网络改进方法,将网络中用滑动组卷积操作去替换普通的3×3卷积核的深度卷积操作来减小参数和计算量,提出OGC卷积网络结构,可以更好的提取特征图的空间特征,使用了更少的参数,提高了卷积神经网络的计算效率,加快了神经网络的传播速度,并且测试结果有明显提高。实验结果表明,与ResNet网络以及其他神经神经网络相比,所用参数与测试结果均有改善,证明提取特征图空间信息比组合通道信息更为重要。本结构采用CIFAR-10和CIFAR-100数据集验证了算法的良好效果。
附图说明
图1为作为对比的常规卷积操作和深度卷积操作的示意图;
图2为本发明的滑动组卷积(以G=3时,S=1和S=2为例)操作示意图;
图3为本发明的OGC模块应用在OGCNet的示意图;
图4为本发明的OGC模块内部示意图;
图5为本发明的OGCNet的网络表。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
一种基于分组卷积神经网络的改进方法,在一般的群组卷积中,不同群体之间没有滑动,这限制了信息的交换。所述改进方法滑动分组卷积结构完成,其算法包括以下步骤:
(1)相对于一般卷积和组卷积网络而言,分析了OGC在参数和计算方面的优势,发现组卷积的不足在于任何两组的输入通道都是完全不同的。这也就是说,群体卷积限制了不同群体之间的信息传递,因此我们提出了有滑动的组卷积。
(2)对输入的全部通道按照两个参数G和S来进行分组卷积,每次输入通道数为G(分组卷积中每组卷积的通道数),输出通道数为S(S<G),即在全部通道中取第一个通道到第G个通道为第一个组输入进行卷积,这一组中包含G个通道,经过卷积操作之后输出S个通道,接下来在总通道上进行滑动操作,以S作为滑动的步长,然后下组卷积操作的的输入为总通道数的第S+1个通道到第S+G,总共依旧是G个通道作为一个组输入进行卷积操作,并且输出S个通道,依次类推;若最后剩余的总通道数不足G个,则从位于总通道开头部分的通道继续取,直到最后一组的输入通道数到达G个为止。
即最后一组的输入通道如果数量不够,可以与第一组的输入通道共享取整,使得最后一组的输入通道数也达到G。
(3)对步骤(2)的每次输出通道进行堆叠操作,确保得到的通道数等于或者大于我们所需的通道数。
(4)对步骤(3)堆叠后所得到的通道进行裁剪,堆叠后得到的通道数会超出本身所需要的,所以这里进行剪切操作将超出的通道舍弃,得到所需要的通道数。
如图3所示,本发明所用的OGC卷积块在ResNet上替换过后的结构相对比的示意图,先对输入特征图进行批量归一化处理,然后用非线性函数进行激活处理。再用1×1卷积对输入特征图进行标准卷积运算;再经过批量归一化处理,然后用非线性函数进行激活处理,用OGC去替代3×3卷积核的标准卷积,OGC的内部如图4所示,每组有三个通道,组与组之间的滑动为1,并且输出特征图通道数与输入通道数相同;同样的,对输入层经过批归一化处理,然后用非线性函数Relu进行激活处理,对输入特征图进行常规卷积操作,卷积核尺寸为1×1,步长为1,并在这一步扩张特征图的通道数。
本发明使用TensorFlow搭建神经网络,称为OGCNet网络结构,训练CIFAR-10与CIFAR-100数据集。CIFAR-10与CIFAR-100数据集均是图像大小为32×32的三通道彩色图片,其中CIFAR-10数据集是10分类,CIFAR-100是100分类。具体操作如下,首先输入图像尺寸是32×32×3,经过1阶段,使用标准卷积操作,卷积核尺寸为7×7,输出通道为32,步长为1,输出尺寸为32×32;在第2阶段,经过5个图5所示的单元块,单元块中三个卷积层的输出通道数分别为32、32、128,步长为1,输出尺寸仍为32×32,其中在中间那层卷积替换成了滑动组卷积;第3阶段,经过6个单元块,单元块中三个卷积层的输出通道数分别为64、64、256,其中在中间那层卷积替换成了卷积,在第一个单元块中第二个3×3标准卷积操作的步长为2,所以经过第3阶段输出特征图尺寸为16×16;第4阶段,经过5个单元块,单元块中三个卷积层的输出通道数分别为128、128、512,其中在中间那层卷积替换成了滑动组卷积,在第一个单元块中第二个3×3标准卷积操作的步长为2,所以经过第4阶段输出特征图尺寸为8×8;第5阶段,经过全局平均池化层,输出特征图尺寸为1×1,输出通道数仍为512,对CIFAR-10最后一个全连接层的输出通道数为10,对于CIFAR-100输出通道数为100,最后接入归一化指数函数层来完成图像分类。
根据以上推导,不难看出,如下规律:每个OGC结构的参数个数为k×k×g×s×N和计算量k×k×g×m×h×w×N,其中k是卷积核的尺寸,h和w的特征图的尺寸,m是输出通道的总数,N为参与卷积组数。通过本发明基于分组卷积神经网络改进方法,所构建的网络结构OGCNet50,在调整参数G和S的多种组合的情况下,通过训练CIFAR-10与CIFAR-100数据集,在经过164轮训练之后,发现当G和S不同组合的时候所取得的效果也是不一样,所得结果如表1,并与ResNet和ResNeXt网络结构相比,所用参数更少,测试准确率更高,说明本发明所提出的基于组卷积的神经网络改进方法有效。
表1网络模型对比准确率测试结果
通过以上数据可以发现滑动组卷积,相比于常规卷积和普通分组卷积,OGCNet的优势比较明显。其中通过调整G与S的值我们可以发现,当G越大的时候,准确率就越高,当S越大的时候准确率就越高,但当G=S的时候(ResNeXt)准确率会比有滑动时的要低,故关于s的选择,建议在G/2<S<G内,S尽可能的大;G的选择上,不要超出总通道数;OGCNet不仅在提升了精度上效果明显,而且还很大程度的降低了参数量与计算量,帮助了我们在做硬件实现的时候,提供了一种更为可行的思路。
以上仅是本发明的优选实施方式,应当指出以上实施列对本发明不构成限定,相关工作人员在不偏离本发明技术思想的范围内,所进行的多样变化和修改,均落在本发明的保护范围内。
Claims (6)
1.一种基于改进的滑动式分组卷积神经网络的图像处理方法,其特征在于:包括以下步骤:
(1)将总通道分为N个分组,对输入的全部通道按照两个参数G和S来进行分组卷积,在全部通道中取第一个通道到第G个通道为第一个组的输入进行卷积,这一组中包含G个通道,经过卷积操作之后输出S个通道,接下来在总通道上进行滑动操作,以S作为滑动的步长,然后第二组卷积操作的的输入为总通道数的第S+1个通道到第S+G,依旧是G个通道作为第二组输入进行卷积操作,并且输出S个通道,以此类推;若最后组剩余的总通道数不足G个,则从位于总通道开头部分的通道继续取,直到最后一组的输入通道数到达G个为止;
(2)对步骤(1)的每次输出通道进行堆叠操作,确保得到的通道数等于或者大于所需的通道数;
(3)对步骤(2)堆叠后所得到的通道进行剪切,将超出的通道舍弃,得到所需要的通道数;
(4)利用步骤(1)-(3)所得到的网络结构OGC对图像进行处理,先对输入特征图进行批量归一化处理,然后用非线性函数进行激活处理,再用1×1卷积对输入特征图进行标准卷积运算;再经过批量归一化处理,然后用非线性函数进行激活处理,用OGC去替代3×3卷积核的标准卷积,OGC每组有三个通道,组与组之间的滑动为1,并且输出特征图通道数与输入通道数相同;同样的,对输入层经过批归一化处理,然后用非线性函数Relu进行激活处理,对输入特征图进行常规卷积操作,卷积核尺寸为1×1,步长为1,并在这一步扩张特征图的通道数。
2.根据权利要求1所述的方法,其特征在于,步骤(1)中,相邻的两个分组卷积,具有G-S个共享卷积。
3.根据权利要求1所述的方法,其特征在于,所述步骤(1)中,输出通道S的数量小于输入通道G的数量。
4.根据权利要求1所述的方法,其特征在于,所述步骤(1)中,每个分组均有且仅有G个通道。
5.根据权利要求1所述的方法,其特征在于,每组的输出通道均为当前分组的第一个通道到第S个通道。
6.根据权利要求1所述的方法,其特征在于,所有组的输入通道数G相同,输出通道数S也相同。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910858428.2A CN110728354B (zh) | 2019-09-11 | 2019-09-11 | 一种基于改进的滑动式分组卷积神经网络的图像处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910858428.2A CN110728354B (zh) | 2019-09-11 | 2019-09-11 | 一种基于改进的滑动式分组卷积神经网络的图像处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110728354A CN110728354A (zh) | 2020-01-24 |
CN110728354B true CN110728354B (zh) | 2024-04-09 |
Family
ID=69218035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910858428.2A Active CN110728354B (zh) | 2019-09-11 | 2019-09-11 | 一种基于改进的滑动式分组卷积神经网络的图像处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110728354B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112308004A (zh) * | 2020-11-06 | 2021-02-02 | 神思电子技术股份有限公司 | 一种基于流卷积的目标检测方法 |
CN112288028A (zh) * | 2020-11-06 | 2021-01-29 | 神思电子技术股份有限公司 | 一种基于流卷积的图像识别方法 |
CN117524252B (zh) * | 2023-11-13 | 2024-04-05 | 北方工业大学 | 一种基于醉汉模型的轻量化声学场景感知方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107506822A (zh) * | 2017-07-26 | 2017-12-22 | 天津大学 | 一种基于空间融合池化的深度神经网络方法 |
CN109299733A (zh) * | 2018-09-12 | 2019-02-01 | 江南大学 | 利用紧凑型深度卷积神经网络进行图像识别的方法 |
CN110188863A (zh) * | 2019-04-30 | 2019-08-30 | 杭州电子科技大学 | 一种卷积神经网络的卷积核及其压缩算法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109426858B (zh) * | 2017-08-29 | 2021-04-06 | 京东方科技集团股份有限公司 | 神经网络、训练方法、图像处理方法及图像处理装置 |
-
2019
- 2019-09-11 CN CN201910858428.2A patent/CN110728354B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107506822A (zh) * | 2017-07-26 | 2017-12-22 | 天津大学 | 一种基于空间融合池化的深度神经网络方法 |
CN109299733A (zh) * | 2018-09-12 | 2019-02-01 | 江南大学 | 利用紧凑型深度卷积神经网络进行图像识别的方法 |
CN110188863A (zh) * | 2019-04-30 | 2019-08-30 | 杭州电子科技大学 | 一种卷积神经网络的卷积核及其压缩算法 |
Also Published As
Publication number | Publication date |
---|---|
CN110728354A (zh) | 2020-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110728354B (zh) | 一种基于改进的滑动式分组卷积神经网络的图像处理方法 | |
CN106250939B (zh) | 基于fpga+arm多层卷积神经网络的手写体字符识别方法 | |
CN111192292B (zh) | 基于注意力机制与孪生网络的目标跟踪方法及相关设备 | |
CN110929602B (zh) | 一种基于卷积神经网络的地基云图云状识别方法 | |
CN109858623B (zh) | 用于执行人工神经网络正向运算的装置和方法 | |
CN109886391B (zh) | 一种基于空间正反对角卷积的神经网络压缩方法 | |
CN110782001B (zh) | 一种基于组卷积神经网络使用共享卷积核的改进方法 | |
CN110909874A (zh) | 一种神经网络模型的卷积运算优化方法和装置 | |
CN104869425A (zh) | 一种基于纹理图像相似性的压缩和解压缩方法 | |
WO2023065759A1 (zh) | 基于时空增强网络的视频动作识别方法 | |
CN109272061B (zh) | 一种包含两个cnn的深度学习模型的构建方法 | |
CN110781912A (zh) | 一种基于通道扩张倒置卷积神经网络的图像分类方法 | |
CN110070119B (zh) | 一种基于二值化深度神经网络的手写数字图像识别分类方法 | |
CN105512175A (zh) | 一种基于颜色特征和纹理特征的快速图像检索方法 | |
CN113066089B (zh) | 一种基于注意力引导机制的实时图像语义分割方法 | |
CN112183742A (zh) | 基于渐进式量化和Hessian信息的神经网络混合量化方法 | |
CN109753996A (zh) | 基于三维轻量化深度网络的高光谱图像分类方法 | |
CN112766491A (zh) | 一种基于泰勒展开及数据驱动的神经网络压缩方法 | |
Fan et al. | HFPQ: deep neural network compression by hardware-friendly pruning-quantization | |
CN115797835A (zh) | 一种基于异构Transformer的无监督视频目标分割算法 | |
Li et al. | A graphical approach for filter pruning by exploring the similarity relation between feature maps | |
CN111914993B (zh) | 基于非均匀分组的多尺度深度卷积神经网络模型构建方法 | |
CN110942106B (zh) | 一种基于平方平均的池化卷积神经网络图像分类方法 | |
CN110992320B (zh) | 一种基于双重交错的医学图像分割网络 | |
CN112263224A (zh) | 一种基于fpga边缘计算的医学信息处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |