CN111667058A - 卷积神经网络的多尺度特征通道的动态选择方法 - Google Patents
卷积神经网络的多尺度特征通道的动态选择方法 Download PDFInfo
- Publication number
- CN111667058A CN111667058A CN202010576724.6A CN202010576724A CN111667058A CN 111667058 A CN111667058 A CN 111667058A CN 202010576724 A CN202010576724 A CN 202010576724A CN 111667058 A CN111667058 A CN 111667058A
- Authority
- CN
- China
- Prior art keywords
- neural network
- channels
- convolutional neural
- dynamic selection
- selection method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 21
- 238000010187 selection method Methods 0.000 title claims abstract description 12
- 230000007246 mechanism Effects 0.000 claims abstract description 12
- 238000000034 method Methods 0.000 claims abstract description 11
- 238000013528 artificial neural network Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000016776 visual perception Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
- G06V10/464—Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/32—Indexing scheme for image data processing or generation, in general involving image mosaicing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种卷积神经网络的多尺度特征通道的动态选择方法,包括以下步骤:采用concat结合多尺度卷积核所提取的特征图;通过SE机制对通道分配权重;采用1*1卷积核对分配权重后的输出通道数进行压缩。本发明能够在增加较少卷积神经网络运算模型运算量的基础上,明显提高模型的精度。
Description
技术领域
本发明涉及卷积神经网络技术领域,具体来说,涉及一种卷积神经网络的多尺度特征通道的动态选择方法。
背景技术
卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deeplearning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能力,能够按其阶层结构对输入信息进行平移不变分类(shift-invariantclassification),因此也被称为“平移不变人工神经网络(Shift-Invariant ArtificialNeural Networks,SIANN)”。
对卷积神经网络的研究始于二十世纪80至90年代,时间延迟网络和LeNet-5是最早出现的卷积神经网络;在二十一世纪后,随着深度学习理论的提出和数值计算设备的改进,卷积神经网络得到了快速发展,并被应用于计算机视觉、自然语言处理等领域。
卷积神经网络仿造生物的视知觉(visual perception)机制构建,可以进行监督学习和非监督学习,其隐含层内的卷积核参数共享和层间连接的稀疏性使得卷积神经网络能够以较小的计算量对格点化(grid-like topology)特征,例如像素和音频进行学习、有稳定的效果且对数据没有额外的特征工程(feature engineering)要求。
GoogLeNet是2014年Christian Szegedy提出的一种全新的深度学习结构,在这之前的AlexNet、VGG等结构都是通过增大网络的深度(层数)来获得更好的训练效果,但层数的增加会带来很多负作用,比如overfit、梯度消失、梯度爆炸等。inception的提出则从另一种角度来提升训练结果:能更高效的利用计算资源,通过并行不同大小的卷积核,增强模型对不同尺度特征的拟合能力,从而在相同的计算量下能提取到更多的特征,从而提升训练结果。
SE-net通过添加通道注意力机制,通过显式地建模通道之间的相互依赖关系,自适应地重新校准通道式的特征响应。
GoogleNet效果好,但并没有太多对运算量的限制,在并行卷积后使用concat对来自不同卷积尺度卷积核的特征图进行拼接,这意味着,如果每个卷积核具有n个输出通道,那么每次进行卷积后,输出的特征图数量就会变成m*n(m代表总共并行了多少个其它尺寸卷积核),而输出特征图的增多,会大大增加运算负担。这样的结构,大大的增加了运算成本,并不适合在小模型上使用。
发明内容
本发明的目的在于提出一种卷积神经网络的多尺度特征通道的动态选择方法,以克服现有技术中存在的上述不足。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种卷积神经网络的多尺度特征通道的动态选择方法,所述方法包括以下步骤:
采用concat结合多尺度卷积核所提取的特征图;
通过SE机制对通道分配权重;
采用1*1卷积核对分配权重后的输出通道数进行压缩。
一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如上所述的动态选择方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如上所述的动态选择方法。
本发明的有益效果:本发明能够在增加较少卷积神经网络运算模型运算量的基础上,明显提高模型的精度。
附图说明
图1是本发明所述动态选择方法的流程图;
图2是将本发明所述动态选择方法应用于mobilefacenet后得到的模型结构图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
如图1所示,根据本发明的实施例所述的一种卷积神经网络的多尺度特征通道的动态选择方法,所述方法包括以下步骤:
步骤1:采用concat结合多尺度卷积核所提取的特征图;
步骤2:通过SE机制对通道分配权重;
步骤3:采用1*1卷积核对分配权重后的输出通道数进行压缩。
其中,concat在该机制中起到的是特征图拼接的操作,在mxnet中使用mx.sym.Concat(conv_1,conv_2)可对不同卷积提取出的特征图进行拼接。如conv_1输出64个特征图,conv_2输出32个特征图,将特征图拼接到一起,得到96个特征图,便于后续的操作。
SE(通道注意力机制)本质上就是在一个分支上把特征图进行全局池化,获得与特征图数目一致对应数目的数值,将这些数值输入神经元再输出,从而能够学习到通道权重,再将这些权重乘以之前的特征图,从而达到给通道进行加权的效果。所以concat的作用是拼接从不同尺度卷积核中抽取的特征图,用SE给这些特征图分配权重,在分配权重后,实际上通道数还是一样的,但是每个通道已经和各自的权重相乘,因此后续用较少通道数的1*1卷积核对concat后并经过加权特征图进行特征图数量削减(输出通道数减少),就能在减少通道数的同时更精准的保留有效的特征。因为经过学习的模型对不同特征图的加权是不同的,因此在1*1卷积压缩通道时,对不同输入图片后续减少哪些通道特征、保留哪些通道特征的比例都会有变化,因此称为动态选择机制。
这样的结合方式主要是为了减少计算量。如果我们直接用concat来拼接不同尺度卷积核提取出的特征图并进行接下来的运算,那么经过多次concat后通道数(特征图数)会变得非常大而让运算变得非常缓慢。但是如果用1*1直接对不同尺度的特征图进行压缩,那么不同尺度的特征图分配基本是按照之前的通道比例来进行。比如3*3和5*5卷积核分别提取出32和32个特征图,然后用32*1*1的卷积把他们压缩成32个,那么这32个特征图中包含来自3*3和5*5的特征图中的信息更接近1比1。但理论上我们并不知道哪个尺度的特征图更适用于我们期望得到的结果、包含了更多有效信息。因此先用SE对来自不同尺度卷积核的特征图进行加权,选择出更重要的通道,再把已经经过加权的通道(特征图)用1*1卷积核进行削减,这样就能更好的保留更重要的信息。
具体的,例如,输入的卷积层,有96个通道;在经过激活函数后,被流入两个分支,左边的分支是3*3卷积核,右边的分支是5*5卷积核,各有96个通道;经过concat层拼接后,变成192个通道,至此是googlenet的常规操作。接下来拼接一个SE结构,即通道注意力机制,为192个通道进行加权,具体的实现就是SE机制的实现。在加权后,我们能获得的是192个加权后的特征图。接下来,用96通道的1*1的卷积,重新把192个通道压缩回96通道。因为这时3*3和5*5卷积核concat包含的192个通道已经是加权后的,所以用96个通道的1*1卷积,就能够筛选出不同尺度卷积核下最重要的通道。
本发明所述动态选择方法可以被加入已存在的模型结构中,如mobilenet,mobilefacenet等,运算量会有少量增加,但会得到比较显著的精度提升。例如加入mobilefacenet后,该机制模型结构如图2所示。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种卷积神经网络的多尺度特征通道的动态选择方法,其特征在于,所述方法包括以下步骤:
采用concat结合多尺度卷积核所提取的特征图;
通过SE机制对通道分配权重;
采用1*1卷积核对分配权重后的输出通道数进行压缩。
2.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1所述的动态选择方法。
3.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1所述的动态选择方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010576724.6A CN111667058A (zh) | 2020-06-23 | 2020-06-23 | 卷积神经网络的多尺度特征通道的动态选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010576724.6A CN111667058A (zh) | 2020-06-23 | 2020-06-23 | 卷积神经网络的多尺度特征通道的动态选择方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111667058A true CN111667058A (zh) | 2020-09-15 |
Family
ID=72389461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010576724.6A Pending CN111667058A (zh) | 2020-06-23 | 2020-06-23 | 卷积神经网络的多尺度特征通道的动态选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111667058A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829506A (zh) * | 2019-02-18 | 2019-05-31 | 南京旷云科技有限公司 | 图像处理方法、装置、电子设备和计算机存储介质 |
CN110351548A (zh) * | 2019-06-27 | 2019-10-18 | 天津大学 | 基于深度学习及视差图加权指导的立体图像质量评价方法 |
CN110663971A (zh) * | 2018-07-02 | 2020-01-10 | 天津工业大学 | 基于双分支深度融合卷积神经网络的红枣品质分类方法 |
CN110765866A (zh) * | 2019-09-18 | 2020-02-07 | 新疆爱华盈通信息技术有限公司 | 人脸识别方法和人脸识别设备 |
CN110827208A (zh) * | 2019-09-19 | 2020-02-21 | 重庆特斯联智慧科技股份有限公司 | 卷积神经网络的通用池化增强方法、装置、设备及介质 |
CN111104898A (zh) * | 2019-12-18 | 2020-05-05 | 武汉大学 | 基于目标语义和注意力机制的图像场景分类方法及装置 |
-
2020
- 2020-06-23 CN CN202010576724.6A patent/CN111667058A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110663971A (zh) * | 2018-07-02 | 2020-01-10 | 天津工业大学 | 基于双分支深度融合卷积神经网络的红枣品质分类方法 |
CN109829506A (zh) * | 2019-02-18 | 2019-05-31 | 南京旷云科技有限公司 | 图像处理方法、装置、电子设备和计算机存储介质 |
CN110351548A (zh) * | 2019-06-27 | 2019-10-18 | 天津大学 | 基于深度学习及视差图加权指导的立体图像质量评价方法 |
CN110765866A (zh) * | 2019-09-18 | 2020-02-07 | 新疆爱华盈通信息技术有限公司 | 人脸识别方法和人脸识别设备 |
CN110827208A (zh) * | 2019-09-19 | 2020-02-21 | 重庆特斯联智慧科技股份有限公司 | 卷积神经网络的通用池化增强方法、装置、设备及介质 |
CN111104898A (zh) * | 2019-12-18 | 2020-05-05 | 武汉大学 | 基于目标语义和注意力机制的图像场景分类方法及装置 |
Non-Patent Citations (1)
Title |
---|
严娟 等: "结合混合域注意力与空洞卷积的3维目标检测" * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10915816B2 (en) | System and method of executing neural networks | |
US10902318B2 (en) | Methods and systems for improved transforms in convolutional neural networks | |
CN107578099B (zh) | 计算装置和方法 | |
CN112199190A (zh) | 内存分配方法、装置、存储介质及电子设备 | |
CN111325664B (zh) | 风格迁移方法、装置、存储介质及电子设备 | |
CN111144561A (zh) | 一种神经网络模型确定方法及装置 | |
US11704556B2 (en) | Optimization methods for quantization of neural network models | |
CN114595799A (zh) | 一种模型训练方法及装置 | |
EP4318313A1 (en) | Data processing method, training method for neural network model, and apparatus | |
CN110827208A (zh) | 卷积神经网络的通用池化增强方法、装置、设备及介质 | |
CN114677548A (zh) | 基于阻变存储器的神经网络图像分类系统及方法 | |
CN114429208A (zh) | 基于残差结构剪枝的模型压缩方法、装置、设备及介质 | |
CN115393633A (zh) | 数据处理方法、电子设备、存储介质及程序产品 | |
CN111783935A (zh) | 卷积神经网络构建方法、装置、设备及介质 | |
CN113841159A (zh) | 由电子装置在神经网络中的特定层执行卷积运算的方法及其电子装置 | |
CN113240090A (zh) | 图像处理模型生成方法、图像处理方法、装置及电子设备 | |
CN111667058A (zh) | 卷积神经网络的多尺度特征通道的动态选择方法 | |
CN112418388A (zh) | 一种实现深度卷积神经网络处理的方法及装置 | |
WO2021061172A1 (en) | System and method of executing neural networks | |
US20210390398A1 (en) | Data processing method and device, and computer-readable storage medium | |
CN116755714B (zh) | 深度神经网络模型的运行方法、装置、设备和存储介质 | |
KR102569016B1 (ko) | 자동 학습 기반의 데이터 라벨링 방법, 장치 및 컴퓨터 판독가능 저장 매체 | |
CN116011515B (zh) | 几何神经网络模型构建方法、装置、设备及存储介质 | |
CN112801058B (zh) | Uml图片的识别方法及系统 | |
US12050976B2 (en) | Convolution operations utilizing nonzero padding data copied from input channel data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200915 |