CN112257727A - 一种基于深度学习自适应可变形卷积的特征图像提取方法 - Google Patents
一种基于深度学习自适应可变形卷积的特征图像提取方法 Download PDFInfo
- Publication number
- CN112257727A CN112257727A CN202011212397.2A CN202011212397A CN112257727A CN 112257727 A CN112257727 A CN 112257727A CN 202011212397 A CN202011212397 A CN 202011212397A CN 112257727 A CN112257727 A CN 112257727A
- Authority
- CN
- China
- Prior art keywords
- offset
- adaptive
- image
- convolution
- adaptive deformable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 20
- 238000000605 extraction Methods 0.000 title claims abstract description 20
- 230000003044 adaptive effect Effects 0.000 claims abstract description 77
- 238000005070 sampling Methods 0.000 claims abstract description 55
- 238000001514 detection method Methods 0.000 claims abstract description 36
- 238000011176 pooling Methods 0.000 claims abstract description 28
- 238000000034 method Methods 0.000 claims description 33
- 238000013507 mapping Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000001788 irregular Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 abstract description 22
- 238000010586 diagram Methods 0.000 description 7
- 230000009466 transformation Effects 0.000 description 5
- 238000003709 image segmentation Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于深度学习自适应可变形卷积的特征图像提取方法,包括自适应可变形卷积模块和自适应可变形的ROIpooling模块;所述自适应可变形卷积模块最主要的是采用了两种不同的可学习因子对偏移量和采样位置进行学习微调的方式,然后通过使用网格根据目标物体进行自适应的形变,产生更能符合目标物体的特征;所述自适应可变形的ROIpooling模块为池化层中的每个bin位置添加的一个偏移量,偏移量能从前面的特征图像以及感兴趣区域中进行学习得到,能对具有不同形变特性的目标物体实现自适应的准确定位。本发明提供的两个模块能够轻松替换现在主流的卷积层,且在不增加较多的参数情况下,提升卷积神经网络对模型的建模能力和图像检测精度。
Description
技术领域
本发明涉及人工智能领域和数字图像处理方法,特别是涉及一种基于深度学习自适应可变形卷积的特征图像提取方法。
背景技术
近几年来,随着深度学习技术的快速发展和计算机设备性能的逐步提升,越来越多的卷积神经网络(CNNs)被应用于计算机视觉任务,如图像分类、目标检测和图像分割等领域。但是基于卷积神经网络(CNNs)的方法都是以一个固定的卷积尺寸进行特征提取,此方法无法自由的适应目标的多尺寸、多姿态以及多角度所带来的几何变化或者模型的几何转换的问题。针对以上的卷积神经网络(CNNs)所带来的诸多问题,目前主流的解决方法则有两种。其中一点是能够建立针对当前任务所拥有的目标多尺寸、多姿态、多角度等足够多的期望变化训练数据集。这种方法往往是通过增加现有的训练数据集样本实现的,如对数据样本进行随机尺寸变化、随机剪裁以及随机旋转等相互组合的方式,增强当前训练数据集样本的几何多样性的特征;其二种便是通过相应的变换不变性的特征或者算法,丰富现有训练数据集样本的空间表达能力,有助于提高模型对训练任务的几何表达能力。虽然卷积神经网络最近几年中在图像分类、语义分割和目标检测等热门的计算机视觉任务中取得了非常显著的效果,但是它仍然具有一下两个较为显著的缺点。第一点,卷积核在对目标物体进行卷积特征提取的时候,对于目标物体的几何变换是固定且是已知的,这样将会阻碍卷积神经网络对具有未知几何变换任务的泛化能力。其次,如果使用过于复杂的转换方法,将会提高相应变换不变性的特征或者算法的设计难度,且是一个耗时的过程,因此,这种方法的可行性极低,这样便无法满足当前视觉任务的需求,从而在无形之中就增加了视觉任务的隐形难度。
在当前的技术中,当目标样本具有多尺寸、多姿态以及多角度等形变特性的时候,就需要计算机设备储存大量和该目标样本与之相关的特征图像数据,这样将会使得储存的数据量非常的庞大,很消耗图形处理器(GPU)的显存,且在训练的过程的中是相当的耗时,不便于样本的快速训练。目前的卷积神经网络中,卷积层会对特征图像进行固定大小位置的采样,ROI池化层会把感兴趣区域划分成固定大小的空间容器,致使网络无法根据目标样本的内容而自适应的调整卷积核的感受野大小,因此便限制了对于具有形变特性的样本的识别精度。
发明内容
本发明的目的在于提供一种基于深度学习自适应可变形卷积的特征图像提取方法,可以有效的提高目标识别的精度。
本发明采用的技术方案是:一种基于深度学习自适应可变形卷积的特征图像提取方法,包括自适应可变形卷积模块和自适应可变形的ROIpooling模块;
所述自适应可变形卷积模块首先先将二维偏移量添加到标准卷积中的常规网格采样位置中,其次采用了两个不同的可学习因子对偏移量和采样位置进行学习微调的方式,然后通过使用网格可以根据目标物体进行自适应的变形,使之更能符合目标物体的特征;其中的二维偏移量是通过从前面的特征图像中利用不同的卷积层得到的;
所述自适应可变形的ROIpooling模块能够在池化层中的每一个bin位置添加一个偏移量,其偏移量能够从前面的特征图像以及感兴趣区域中进行学习得到,其中的ROI检测框能够以一个适应目标物体的检测框大小去检测,不再是以固定的检测框大小,避免了无用的检测,这样能够实现对具有不同形变的目标物体实现自适应的准确定位。
为了能够解决上诉的技术问题,本发明提供了一种基于深度学习自适应可变形卷积的特征图像提取方法,所述方法步骤包括:
S1,获取目标物体图像;
S3,在输入的特征图像X上使用标准的规则网格K进行特征采样,使用的自适应可变形卷积核为 以获取高水平的特征图像,其中用W代表加权采样之和,网格k定义采样位置,用pk代表采样点在自适应可变形卷积核中的位置,sk表示对采样点pk的学习因子,Δpk表示可学习偏移量,Δmk表示可调制量,ck表示对可调制量Δmk的学习因子,其中sk∈[0,1],Δmk∈[0,1],ck∈[0,1]。
更进一步地,所述步骤S3具体为:
对于输出映射特征y上的每个位置p0,有:
其中,pk为网格K中枚举的采样位置;
在可变形的卷积中,对枚举的采样位置pk进行学习,另外还添加了可调制量Δmk,其中采样位置k用偏移量进行推广{Δpk|k=1,...,K},使采样位置能够分解为较大的步长,因此有:
最后,在自适应可变形的卷积中,运用学习因子ck对添加的调制偏移量进行再学习,以此来适应目标物体所具有多变的形变特性,因此有:
此时,采样是在极其不规则以及具有偏移的位置pk+Δpk,因此Δpk经常以小数的形式进行偏移,特别地,sk、ck、Δpk和Δmk来自于输出通道的单独卷积,其中,2k输出通道模拟空间偏移量Δpk,连续的k个输出通道对应于调制量Δmk,用Sigmoid函数激活,剩余的个通道是sk和ck在空间维度上与Δpk和Δmk作用的张量,它们的学习率是当前层学习率的0.1倍。
更进一步地,所述步骤S3还包括:
对可学习偏移量Δpk进行处理:
X(p)=∑qG(q,p)·X(q)
其中,p代表着目标物体学习的任意位置(p=p0+sk·pk+(1-ck)·Δpk),q列举了采样特征图像X所有完整的空间位置信息,G(·,·)代表双线性插值的内核,使特征提取的图像能够进行双线性插值以恢复图像上下文信息;同时G是二维的,在进行运算时能够被分为两个一维的核:
G(q,p)=g(qx,px)·g(qy,py)
其中,g(qx,px)=max(0,1-|a-b|);
其中的偏移量Δpk是通过在相同的输入采样特征上进行自适应可变形卷积得来的,输出的偏移量与输入的采样特征能够有相同尺寸的空间分辨率;而在进行深度学习训练过程中,卷积核的输出特征和可学习偏移量是能够同时学习而来的。
更进一步地,所述自适应可变形的ROIpooling模块将输入矩形检测框的任意大小变换为符合目标物体大小的检测框。在普通的ROI池化中,对于任意一个输入特征图像X,一个尺寸大小是w×h的ROI矩形检测框以及左上角的位置pk;ROI池化将ROI矩形检测框M划分为j×j个相同大小的网格单元,在第j 个网格单元中再划分k×k个采样小块;并且输出一个k×k的映射特征y,pkj是第j个网格单元的第k个采样小块,因此有
其中X(p)是在特征图像上第p个采样位置使用双线性插值来计算偏移量, nk是第k个bin的采样cells,即第(i,j)个采样块小区域的像素点,并且第(i, j)个采样块小区域的范围为:
在可变形的ROI池化层中,采样位置k用偏移量进行推广{Δpk|k=1,..., K}以及可调制量Δmk被添入到空间小区域块位置中,从而有
在自适应可变形的ROIpooling中,对于给定输入ROI,采用ROIpooling 将ROI划分为K个空间bin,属于每个cell的bin被聚合以计算相应的bin输出,将采样点pk的学习因子sk和可调制量Δmk的学习因子ck添加到bin中,从而有:
该方法使用了两个1024-D的FC层和一个附加的具有通道的 FC层,前两个2k通道是归一化学习偏移量Δpk,之后的k通道是使用Sigmoid函数归一化调制量Δmk,剩下的通道用于产生添加的两个可学习因子sk和ck,且这些额外添加的FC层的学习率和神经网络里面的卷积层具有相同的学习率。
更进一步地,所述自适应可变形的ROIpooling模块还应包括:
对其可学习偏移量Δpk进行处理:
X(p)=∑qG(q,p)·X(q)
G(q,p)=g(qx,px)·g(qy,py)
对于自适应可变形的ROIpooling,首先将输入特征X进行池化后生成池化的映射特征,生成的映射特征接着经过全连接层后生成标准的偏移量最后经过元素级的特征计算,利用检测框的宽和高转换为Δpk,因此有:
其中的β是人工设定的标量,用来调节偏移量的大小;自适应可变形ROI 池化层通过卷积层,将每一个目标物体的全部输入映射特征转换成t2个映射,用 {xi,j}表示,其中的(i,j)为检测框中的每一个bin;在进ROIpooling的时候,对第(i,j)个bin的输出值是通过对应的bin的一个特征映射{xi,j}进行求和而得来的。
本发明的优点:
本发明通过发明了两个自适应可变形卷积以此增强了卷积神经网络对具有多尺寸、多姿态以及多角度样本的可变形建模塑造能力,从而能够使得卷积网络学习且获得较为强的特征图像表达能力。这两个卷积层都是添加了额外的偏移量增加卷积网络中的空间采样位置,使得卷积神经网络不断学习偏移量来获得更深层的特征表达。此外,本发明的两个自适应可变形卷积可以用于替换主流的卷积神经网络中的普通卷积层,并可通过标准化的反向传播进行一个端到端的训练。
本发明提出的自适应可变形卷积,是能够在增加卷积中空间采样位置和 ROI池化层中的额外偏移量的基础上进行训练的,当对自适应可变形卷积进行叠加时,其对复合形变的特征表达能力的影响是较为深层次的,原因是可以在自适应可变形卷积中根据目标物体的比例大小和形状进行一定层度的自适应调节,其大大提升了卷积神经网络在复杂环境下的图像分类、目标检测、图像分割等的检测精度。
附图说明
图1为本发明实施例所提供的特征图像提取方法流程图;
图2为自适应可变形ROIpooling示意图;
图3为目前卷积神经网络中特征提取方法中的采样点分布示意图;
图4为自适应可变形卷积特征提取方法中的采样点分布示意图;
图5为图4中的某一个采样点特征提取方法示意图;
图6为本发明提出的特征提取方法用于语义分割的结果展示图。
具体实施方式
本发明的核心思想是提供一种基于深度学习自适应可变形卷积的特征图像提取方法,可以有效的提高目标识别的精度。为了使本发明的目的、技术方案以及优点更加清楚明白,将会结合附图以及实施例,对本发明进一步的详细说明,以下所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明的主要思想。
参考图1,如图1所示,一种基于深度学习自适应可变形卷积的特征图像提取方法流程图;
在此流程图中,首先是将目标物体图像送入到卷积神经网络中,通过卷积层的卷积核中采样的位置来提取输入图像的低水平特征图X,然后,对特征图像X使用标准的规则网格K进行特征采样,其中进行特征提取的卷积核并不是普通的卷积核,而是使用本发明提出自适应可变形卷积核,对含有形变特性的目标图像获得具有更高水平的特征图像表达,为后面的卷积神经网络提供更加稳定的且丰富的模型特征;
针对本发明所述的自适应可变形卷积,更进一步的详细说明如下:
自适应可变形卷积,能够极大地增强卷积神经网络对于目标物体的几何形变建模能力。它首先在标准卷积中的常规网格采样的位置添加了二维的偏移量,其次采用了两个不同的可学习因子对偏移量和采样位置进行学习微调的方式,然后通过使用网格可以根据图像中的目标物体自适应的变形,使之更能符合目标物体的特征。其中的二维偏移量是通过从前一层中的特征图像经过另外的卷积层来获得的,因此,自适应可变形卷积是一种由输入特征经过一种局部且密集的自适应调节方式进行的,将自适应可变形卷积加入到现有的卷积神经网络中,是一种能够通过反向传播进行一个端到端的训练方式。
对于图2所示,为自适应可变形卷积ROIpooling模块,该方法能够在池化层中的每一个bin位置添加一个额外的微小偏移量。与自适应可变形卷积类似,该偏移量同样能够可以从前一层中的特征图像和感兴趣区域中学习,其中的ROI 检测框是以一个适应目标物体的检测框大小去检测,不再是以固定的检测框大小,这样能够实现为具有不同形变的目标物体实现一个自适应的准确定位。将自适应可变形卷积ROIpooling加入到现有的卷积神经网络中,也是一种能够通过反向传播进行一个端到端的训练方式。
对于自适应可变形卷积,其二维卷积包括两个步骤:(1)在输入的特征图像上使用有规则的网格K进行采样;(2)用W代表加权采样之和,网格k定义采样位置,用pk代表采样点在自适应可变形卷积核中的位置,sk表示对采样点 pk的学习因子,Δpk表示可学习偏移量,Δmk表示可调制量,ck表示对可调制量Δmk的学习因子,其中sk∈[0,1],Δmk∈[0,1],ck∈[0,1]。
如定义一个3×3的自适应可变形卷积核,在神经网络中初始Δpk=0,sk=1,Δmk=1,ck=1:
K={(1,1),(0,1),…,(-1,0),(-1,-1)}
对于输出映射特征y上的每个位置p0,有:
其中,pk为网格K中枚举的采样位置;
在可变形的卷积中,对枚举的采样位置pk进行学习,另外还添加了可调制量Δmk,其中采样位置k用偏移量进行推广{Δpk|k=1,...,K},使采样位置能够分解为较大的步长,因此有:
最后,在自适应可变形的卷积中,运用学习因子ck对添加的调制偏移量进行再学习,以此来适应目标物体所具有多变的形变特性,因此有:
此时,采样是在极其不规则以及具有偏移的位置pk+Δpk,因此Δpk经常以小数的形式进行微量偏移,特别地,sk、ck、Δpk和Δmk来自于输出通道的单独卷积,其中,2k输出通道模拟空间偏移量Δpk,连续的k个输出通道对应于调制量Δmk,用Sigmoid函数激活,剩余的个通道是sk和ck在空间维度上与Δpk和Δmk作用的张量,它们的学习率是当前层学习率的0.1倍。
对可学习偏移量Δpk进行处理:
X(p)=∑qG(q,p)·X(q)
其中,p代表着目标物体学习的任意位置(p=p0+sk·pk+(1-ck)·Δpk),q列举了采样特征图像X所有完整的空间位置信息,G(·,·)代表双线性插值的内核,使特征提取的图像能够进行双线性插值以恢复图像上下文信息;同时G是二维的,在进行运算时能够被分为两个一维的核:
G(q,p)=g(qx,px)·g(qy,py)
其中,g(qx,px)=max(0,1-|a-b|);
其中的偏移量Δpk是通过在相同的输入采样特征上进行自适应可变形卷积得来的,输出的偏移量与输入的采样特征能够有相同尺寸的空间分辨率;而在进行深度学习训练过程中,卷积核的输出特征和可学习偏移量是能够同时学习而来的。
对于图2所示的自适应可变形的ROIpooling模块,将输入矩形检测框的任意大小变换为符合目标物体大小的检测框。在普通的ROI池化中,对于任意一个输入特征图像X,一个尺寸大小是w×h的ROI矩形检测框以及左上角的位置pk;ROI池化将ROI矩形检测框M划分为j×j个相同大小的网格单元,在第j 个网格单元中再划分k×k个采样小块;并且输出一个k×k的特征映射y,pkj是第j个网格单元的第k个采样小块,因此有
其中X(p)是在特征图像上第p个采样位置使用双线性插值来计算偏移量, nk是第k个bin的采样cells,即第(i,j)个采样块小区域的像素点,并且第(i, j)个采样块小区域的范围为:
在可变形的ROI池化层中,采样位置k用偏移量进行推广{Δpk|k=1,..., K}以及可调制量Δmk被添入到空间小区域块位置中,从而有
在自适应可变形的ROIpooling中,对于给定输入ROI,采用ROIpooling 将ROI划分为K个空间bin,属于每个cell的bin被聚合以计算相应的bin输出,将采样点pk的学习因子sk和可调制量Δmk的学习因子ck添加到bin中,从而有:
该方法使用了两个1024-D的FC层和一个附加的具有通道的 FC层,前两个2k通道是归一化学习偏移量Δpk,之后的k通道是使用Sigmoid函数归一化调制量Δmk,剩下的通道用于产生添加的两个可学习因子sk和ck,且这些额外添加的FC层的学习率和神经网络里面的卷积层具有相同的学习率。
更进一步地,所述自适应可变形的ROIpooling模块还应包括:
对可学习偏移量其Δpk进行处理:
X(p)=∑qG(q,p)·X(q)
G(q,p)=g(qx,px)·g(qy,py)
对于自适应可变形的ROIpooling,首先将输入特征X进行池化后生成池化的映射特征,生成的映射特征接着经过全连接层后生成标准的偏移量最后经过元素级的特征计算,利用检测框的宽和高转换为Δpk,因此有:
其中的β是人为设定的标量,用来调节偏移量的大小;自适应可变形ROI 池化层通过卷积层,将每一个目标物体的全部输入映射特征转换成t2个映射,用 {xi,j}表示,其中的(i,j)为检测框中的每一个bin;在进ROIpooling的时候,对第(i,j)个bin的输出值是通过对应的bin的一个特征映射{xi,j}进行求和而得来的。
对于图3所示,为目前卷积神经网络中特征提取方法中的采样点分布示意图。此方法的特征提取方法是使用一个固定尺寸大小的卷积核来提取输入图像的特征图,是不能根据目标图像的具体形变产生符合其特征的特征表达,因此,此卷积核具有一定的局限性。
对于图4所示,为自适应可变形卷积特征提取方法中的采样点分布示意图。此方法的特征提取方法是使用本发明提出的自适应可变形卷积,其中的卷积核会以一个符合目标物体形变的尺寸大小提取输入图像的特征图,对具有形变特性的目标图像能产生符合其特征的特征表达。
总之,自适应可变形卷积和自适应可变形ROI池化具有与其他普通卷积和ROI池化相同的输入和输出,由此可言,在现有的卷积神经网络中的普通卷积和ROI池化可以很容易被自适应可变形卷积和自适应可变形ROI池化所替换掉,且在不影响整个模型的建模能力的前提下,还能提高整个模型的检测算法精度。
综上所述,本发明提出的一种基于深度学习自适应可变形卷积的特征提取方法,它能够极大地增强卷积神经网络对于目标物体的几何形变的建模能力。同时在标准卷积中的常规网格采样的位置添加了二维的偏移量,并且采用了两个不同的可学习因子对偏移量和采样位置进行学习微调的方式,然后通过采样网格可以根据图像中的目标物体自适应的形变。其中的偏移量是通过从前一层中的特征图像经过另外的卷积层来获得的,因此,自适应可变形卷积是一种由输入特征图像经过一个局部且密集的自适应调节方式进行的,将自适应可变形卷积加入到现有的卷积神经网络中,能够提高在复杂环境下的图像分类,目标检测以及图像分割等计算机视觉任务的检测精度,是一种能够通过标准反向传播进行一种端到端的训练方式。
本文中结合了图片个例对本发明的原理以及具体实施方式进行了详细的阐述,对于上述的说明仅仅只用于帮助理解本发明的方法及其核心思想,并不用于限制本发明。可以指出的是,在不完全脱离本发明核心原理的前提之下,对本发明进行的任何改进、修饰、替换等,均包含在本发明的保护范围之内。
Claims (6)
1.一种基于深度学习自适应可变形卷积的特征图像提取方法,其特征在于,包括自适应可变形卷积模块和自适应可变形的ROIpooling模块;
所述自适应可变形卷积模块首先先将二维偏移量添加到标准卷积中的常规网格采样位置中,其次采用了两个不同的可学习因子对偏移量和采样位置进行学习微调的方式,然后通过使用网格可以根据目标物体进行自适应的变形,使之更能符合目标物体的特征,其中的二维偏移量是通过从前面的特征图像中利用不同的卷积层得到的;
所述自适应可变形的ROIpooling模块能够在池化层中的每一个bin位置添加一个微小偏移量,其偏移量能够从前面的特征图像以及感兴趣区域中进行学习得到,其中的ROI检测框以一个适应目标物体的检测框大小去检测,不再是以固定的检测框大小,这样能够实现对具有不同形变的目标物体实现自适应的准确定位。
2.根据权利要求1所述的基于深度学习自适应可变形卷积层的特征图像提取方法,其特征在于,所述自适应可变形卷积层的特征图像提取方法包括三个步骤:
S1,获取目标物体图像;
3.根据权利要求2所述的基于深度学习自适应可变形卷积层的特征图像提取方法,其特征在于,所述步骤S3具体为:
对于输出映射特征y上的每个位置p0,有:
其中,pk为网格K中枚举的采样位置;
在可变形的卷积中,对枚举的采样位置pk进行学习,另外还添加了可调制量Δmk,其中采样位置k用偏移量进行推广{Δpk|k=1,...,K},使采样位置能够分解为较大的步长,因此有:
最后,在自适应可变形的卷积中,运用学习因子ck对添加的调制偏移量进行再学习,以此来适应目标物体所具有多变的形变特性,因此有:
4.根据权利要求3所述的基于深度学习自适应可变形卷积层的特征图像提取方法,其特征在于,所述步骤S3还包括:
对可学习偏移量Δpk进行处理:
其中,p代表着目标物体学习的任意位置(p=p0+sk·pk+(1-ck)·Δpk),q列举了采样特征图像X所有完整的空间位置信息,G(·,·)代表双线性插值的内核,使特征提取的图像能够进行双线性插值以恢复图像上下文信息;同时G是二维的,在进行运算时能够被分为两个一维的核:
G(q,p)=g(qx,px)·g(qy,py)
其中,g(qx,px)=max(0,1-|a-b|);
其中的偏移量Δpk是通过在相同的输入采样特征上进行自适应可变形卷积得来的,输出的偏移量与输入的采样特征能够有相同尺寸的空间分辨率;而在进行深度学习训练过程中,卷积核的输出特征和可学习偏移量是能够同时学习而来的。
5.根据权利要求1所述的基于深度学习自适应可变形卷积层的特征图像提取方法,其特征在于,所述自适应可变形的ROI池化层模块将输入矩形检测框的任意大小变换为符合目标物体大小的检测框;
在普通的ROI池化中,对于任意一个输入特征图像X,一个尺寸大小是w×h的ROI矩形检测框以及左上角的位置pk;ROI池化将ROI矩形检测框M划分为j×j个相同大小的网格单元,在第j个网格单元中再划分k×k个采样小块;并且输出一个k×k的映射特征y,pkj是第j个网格单元的第k个采样小块,因此有:
在可变形的ROI池化层中,采样位置k用偏移量进行推广{Δpk|k=1,...,K}以及可调制量Δmk被添入到空间小区域块位置中,从而有:
在自适应可变形的ROI池化层中,对于给定输入ROI,采用ROIpooling将ROI划分为K个空间bin,属于每个cell的bin被聚合以计算相应的bin输出,将手工偏移量pk的学习因子sk和可调制量Δmk的学习因子ck添加到bin中,从而有:
6.根据权利要求5所述的基于深度学习自适应可变形卷积层的特征图像提取方法,其特征在于,所述自适应可变形的ROIpooling模块还应包括:
对可学习偏移量Δpk进行处理:
G(q,p)=g(qx,px)·g(qy,py)
其中的β是人工设定的标量,用来调节偏移量的大小;自适应可变形ROI池化层通过卷积层,将每一个目标物体的全部输入映射特征转换成t2个映射,用{xi,j}表示,其中的(i,j)为检测框中的每一个bin;在进行ROIpooling的时候,对第(i,j)个bin的输出值是通过对应的bin的一个特征映射{xi,j}进行求和而得来的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011212397.2A CN112257727B (zh) | 2020-11-03 | 2020-11-03 | 一种基于深度学习自适应可变形卷积的特征图像提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011212397.2A CN112257727B (zh) | 2020-11-03 | 2020-11-03 | 一种基于深度学习自适应可变形卷积的特征图像提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112257727A true CN112257727A (zh) | 2021-01-22 |
CN112257727B CN112257727B (zh) | 2023-10-27 |
Family
ID=74268727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011212397.2A Active CN112257727B (zh) | 2020-11-03 | 2020-11-03 | 一种基于深度学习自适应可变形卷积的特征图像提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112257727B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657587A (zh) * | 2021-08-17 | 2021-11-16 | 上海大学 | 基于fpga的可变形卷积加速方法及装置 |
CN115082430A (zh) * | 2022-07-20 | 2022-09-20 | 中国科学院自动化研究所 | 图像分析方法、装置及电子设备 |
WO2022235478A1 (en) * | 2021-05-06 | 2022-11-10 | Micron Technology, Inc. | Object detection with a deep learning accelerator of artificial neural networks |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107966546A (zh) * | 2017-11-21 | 2018-04-27 | 西南石油大学 | 一种页岩岩相平面分布编制方法及页岩勘探体系 |
CN108564025A (zh) * | 2018-04-10 | 2018-09-21 | 广东电网有限责任公司 | 一种基于可变形卷积神经网络的红外图像物体识别方法 |
CN208171995U (zh) * | 2018-06-08 | 2018-11-30 | 西南石油大学 | 一种手持式岩心扫描装置 |
CN110197255A (zh) * | 2019-04-29 | 2019-09-03 | 杰创智能科技股份有限公司 | 一种基于深度学习的可变形卷积网络 |
CN110674866A (zh) * | 2019-09-23 | 2020-01-10 | 兰州理工大学 | 迁移学习特征金字塔网络对X-ray乳腺病灶图像检测方法 |
US20200151457A1 (en) * | 2018-11-13 | 2020-05-14 | Nec Laboratories America, Inc. | Attention and warping based domain adaptation for videos |
WO2020192471A1 (zh) * | 2019-03-26 | 2020-10-01 | 腾讯科技(深圳)有限公司 | 一种图像分类模型训练的方法、图像处理的方法及装置 |
-
2020
- 2020-11-03 CN CN202011212397.2A patent/CN112257727B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107966546A (zh) * | 2017-11-21 | 2018-04-27 | 西南石油大学 | 一种页岩岩相平面分布编制方法及页岩勘探体系 |
CN108564025A (zh) * | 2018-04-10 | 2018-09-21 | 广东电网有限责任公司 | 一种基于可变形卷积神经网络的红外图像物体识别方法 |
CN208171995U (zh) * | 2018-06-08 | 2018-11-30 | 西南石油大学 | 一种手持式岩心扫描装置 |
US20200151457A1 (en) * | 2018-11-13 | 2020-05-14 | Nec Laboratories America, Inc. | Attention and warping based domain adaptation for videos |
WO2020192471A1 (zh) * | 2019-03-26 | 2020-10-01 | 腾讯科技(深圳)有限公司 | 一种图像分类模型训练的方法、图像处理的方法及装置 |
CN110197255A (zh) * | 2019-04-29 | 2019-09-03 | 杰创智能科技股份有限公司 | 一种基于深度学习的可变形卷积网络 |
CN110674866A (zh) * | 2019-09-23 | 2020-01-10 | 兰州理工大学 | 迁移学习特征金字塔网络对X-ray乳腺病灶图像检测方法 |
Non-Patent Citations (3)
Title |
---|
FENG CHEN等: "daptive deformable convolution network", 《NEUROCOMPUTING》 * |
XIZHOU ZHU等: "Deformable convnets v2:More Deformable ,Better Results", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION(CVPR)》 * |
栾尚祯: "深度学习目标识别算法发展趋势研究", 《电信网技术》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022235478A1 (en) * | 2021-05-06 | 2022-11-10 | Micron Technology, Inc. | Object detection with a deep learning accelerator of artificial neural networks |
CN113657587A (zh) * | 2021-08-17 | 2021-11-16 | 上海大学 | 基于fpga的可变形卷积加速方法及装置 |
CN113657587B (zh) * | 2021-08-17 | 2023-09-26 | 上海大学 | 基于fpga的可变形卷积加速方法及装置 |
CN115082430A (zh) * | 2022-07-20 | 2022-09-20 | 中国科学院自动化研究所 | 图像分析方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112257727B (zh) | 2023-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114255238A (zh) | 一种融合图像特征的三维点云场景分割方法及系统 | |
CN113128558B (zh) | 基于浅层空间特征融合与自适应通道筛选的目标检测方法 | |
CN112257727A (zh) | 一种基于深度学习自适应可变形卷积的特征图像提取方法 | |
CN112651438A (zh) | 多类别图像的分类方法、装置、终端设备和存储介质 | |
CN109558862B (zh) | 基于空间感知的注意力细化框架的人群计数方法及系统 | |
CN112818969A (zh) | 一种基于知识蒸馏的人脸姿态估计方法及系统 | |
CN111899203B (zh) | 基于标注图在无监督训练下的真实图像生成方法及存储介质 | |
CN113449612B (zh) | 一种基于子流型稀疏卷积的三维目标点云识别的方法 | |
CN114926734B (zh) | 基于特征聚合和注意融合的固体废弃物检测装置及方法 | |
CN111368733B (zh) | 一种基于标签分布学习的三维手部姿态估计方法、存储介质及终端 | |
CN111709433A (zh) | 一种多特征融合图像识别算法 | |
CN113344110B (zh) | 一种基于超分辨率重建的模糊图像分类方法 | |
CN114187506A (zh) | 视点意识的动态路由胶囊网络的遥感图像场景分类方法 | |
CN115861595B (zh) | 一种基于深度学习的多尺度域自适应异源图像匹配方法 | |
CN112132207A (zh) | 基于多分支特征映射目标检测神经网络构建方法 | |
CN116993639A (zh) | 基于结构重参数化的可见光与红外图像融合方法 | |
CN117011515A (zh) | 基于注意力机制的交互式图像分割模型及其分割方法 | |
CN116597142A (zh) | 基于全卷积神经网络与变换器的卫星图像语义分割方法及系统 | |
CN116597146A (zh) | 一种针对激光雷达稀疏点云数据的语义分割方法 | |
CN112990336B (zh) | 基于竞争注意力融合的深度三维点云分类网络构建方法 | |
CN115690497A (zh) | 一种基于注意力机制与卷积神经网络的花粉图像分类方法 | |
CN116343019A (zh) | 一种遥感图像的目标检测方法 | |
CN110826726B (zh) | 目标处理方法、目标处理装置、目标处理设备及介质 | |
CN114202694A (zh) | 基于流形混合插值和对比学习的小样本遥感场景图像分类方法 | |
Wang et al. | Image Semantic Segmentation Algorithm Based on Self-learning Super-Pixel Feature Extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |