CN108764247B - 基于稠密连接的深度学习物体检测方法及装置 - Google Patents

基于稠密连接的深度学习物体检测方法及装置 Download PDF

Info

Publication number
CN108764247B
CN108764247B CN201810329940.3A CN201810329940A CN108764247B CN 108764247 B CN108764247 B CN 108764247B CN 201810329940 A CN201810329940 A CN 201810329940A CN 108764247 B CN108764247 B CN 108764247B
Authority
CN
China
Prior art keywords
feature
representing
function
scale
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810329940.3A
Other languages
English (en)
Other versions
CN108764247A (zh
Inventor
赵鑫
黄凯奇
徐沛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201810329940.3A priority Critical patent/CN108764247B/zh
Publication of CN108764247A publication Critical patent/CN108764247A/zh
Application granted granted Critical
Publication of CN108764247B publication Critical patent/CN108764247B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于图像检测技术领域,具体提供了一种基于稠密连接的深度学习物体检测方法及装置,旨在解决现有技术难以准确检测图像中较小物体的问题。为此目的,在本发明基于稠密连接的深度学习物体检测方法中,基于预先构建的物体检测网络模型对输入图像进行物体检测,得到输入图像中物体的分类结果和坐标位置。本发明的方法能够提取输入图像的多尺度特征,从而能够更好地描述图像中的小物体。同时,本发明的装置能够执行上述方法。

Description

基于稠密连接的深度学习物体检测方法及装置
技术领域
本发明属于图像检测技术领域,具体涉及一种基于稠密连接的深度学习物体检测方法及装置。
背景技术
随着神经网络、计算机视觉、人工智能以及机器感知等技术的发展,物体检测作为上述技术重要的组成部分,也得到了长足的发展,物体检测是指利用计算机对图像进行分析,得到图像中物体的位置信息和类别信息。传统的物体检测方法是依靠人工设计的特征识别图像中物体的位置信息和类别信息,但是人工设计的特征很容易受到光线变化、物体颜色变化以及背景嘈杂的干扰,导致在实际应用中鲁棒性差,难以满足用户的精度要求。
随着神经网络的发展,基于深度卷积神经网络的物体检测方法在一定程度上克服了传统物体检测方法的缺陷,提高了鲁棒性,但是其对图像中尺寸较小物体(像素小于32*32的物体)的检测效果仍不够理想,由于尺寸较小的物体在图像中所占尺寸太小,基于深度卷积神经网络的物体检测方法难以生成合适的特征表达,而图像的特征表达是对图像的抽象描述,能够代表图像的特点,特征的好坏直接影响着物体检测结果,现有的物体检测方法难以得到正确的检测结果,因此,如何提出一种解决上述问题的方案是本领域技术人员目前需要解决的问题。
发明内容
为了解决现有技术中的上述问题,即为了解决现有技术难以准确检测图像中较小物体的问题,本发明提供了一种基于稠密连接的深度学习物体检测方法,包括:
基于预先构建的物体检测网络模型对输入图像进行物体检测,得到所述输入图像中物体的分类结果和坐标位置;
其中,
所述物体检测网络模型基于卷积神经网络模型构建,包括特征提取模块、融合模块、聚合模块以及预测模块;
所述特征提取模块基于探索函数和保持函数构建,用于提取所述输入图像的多尺度特征;
所述聚合模块基于卷积函数构建,用于调整进行融合后的多尺度特征的空间关系;
所述预测模块基于卷积函数和损失函数构建,用于检测物体的尺寸,输出物体的类别置信度和坐标位置;
其中,
所述特征提取模块提取所述输入图像的多尺度特征的方法为:
所述特征提取模块的探索函数对所述输入图像的中间特征进行第一下采样操作,得到第一尺度特征;
所述特征提取模块的保持函数对所述输入图像的中间特征进行第二下采样操作,得到第二尺度特征;
将所述第一尺度特征和所述第二尺度特征进行拼接操作,得到所述输入图像的多尺度特征。
在上述方法的优选技术方案中,所述融合模块对所述多尺度特征进行融合的方法为:
对所述多尺度特征进行反卷积上采样操作,得到第三尺度特征;
利用特征融合函数对所述第三尺度特征和所述多尺度特征进行融合操作,得到融合特征。
在上述方法的优选技术方案中,“对所述第三尺度特征和所述多尺度特征进行融合操作”,其方法如下公式所示:
rk=Sk(Uk(rk+1),yk)
其中,rk表示融合特征,Sk表示特征融合函数,Uk表示反卷积上采样函数,yk表示多尺度特征,k表示中间变量。
在上述方法的优选技术方案中,聚合模块调整进行融合后的多尺度特征的空间关系的方法为:
对所述融合特征进行卷积操作,具体方法如下公式所示:
Figure GDA0002612297480000031
若所述融合特征的尺度小于5,则无需进行卷积操作,若所述融合特征的尺度大于或等于5,则通过拼接经过4步卷积操作之后的所述融合特征得到聚合特征,其中,rk表示融合特征,
Figure GDA0002612297480000032
表示以1×1的卷积核对rk进行填充为0的卷积操作;
Figure GDA0002612297480000033
表示以3×3的卷积核对rk进行填充为1的卷积操作;
Figure GDA0002612297480000034
表示对rk进行3×3的池化操作,再以1×1的卷积核对rk进行填充为0的卷积操作;
Figure GDA0002612297480000035
表示以2个连续的3×3的卷积核对rk进行填充为1的卷积操作,
Figure GDA0002612297480000036
表示所述聚合模块对所述融合特征进行卷积操作后得到的聚合特征,size(rk)表示所述融合特征的尺度。
在上述方法的优选技术方案中,获取物体的类别置信度和坐标位置,其方法如下公式所示:
Figure GDA0002612297480000037
其中,N表示正样本的个数,Lcls表示分类任务的损失函数,Lloc表示坐标回归任务的损失函数,
Figure GDA0002612297480000038
Figure GDA0002612297480000039
分别表示深度学习网络模型输出的类别置信度和坐标位置,c和l分别表示标准的类别置信度和坐标位置。
在上述方法的优选技术方案中,获取物体的类别置信度之后,该方法还包括:
将所述物体的类别置信度输入softmax函数,得到物体的分类结果。
在上述方法的优选技术方案中,构建所述物体检测网络模型的方法如下公式所示:
xn=Fn(xn-1)=Fn(Fn-1(…F1(I)))
{y1,y2,…,ym}={H1(xn),H2(y1),…,Hm(ym-1)}
Detection={P1(y1),P2(y2),…,Pm(ym)}
其中,I表示输入图像,Fn表示非线性变换函数,xn表示第n层的图像特征表达,y1,y2,…,ym表示多尺度特征,Hm表示特征变换函数,Pm表示预测函数,m、n均表示输入图像的层数。
本发明的第二方面提供一种基于稠密连接的深度学习物体检测装置,所述装置包括:
输入模块,所述输入模块配置为获取用于物体检测的输入图像;
物体检测模块,所述物体检测模块配置为对所述输入图像进行物体检测;
输出模块,所述输出模块配置为输出所述输入图像中物体的分类结果和坐标位置;
其中,
所述物体检测模块基于卷积神经网络模型构建,包括特征提取模块、融合模块、聚合模块以及预测模块;
所述特征提取模块基于探索函数和保持函数构建,用于提取所述输入图像的多尺度特征;
所述融合模块基于特征融合函数和反卷积函数构建,用于调整所述多尺度特征的通道数并对所述多尺度特征进行融合;
所述聚合模块基于卷积函数构建,用于调整进行融合后的多尺度特征的空间关系;
所述预测模块基于卷积函数和损失函数构建,用于检测物体的尺寸,输出物体的类别置信度和坐标位置;
其中,
所述特征提取模块还包括探索单元、保持单元以及拼接单元;
所述探索单元用于对所述输入图像的中间特征进行第一下采样操作,得到第一尺度特征;
所述保持单元用于对所述输入图像的中间特征进行第二下采样操作,得到第二尺度特征;
所述拼接单元用于将所述第一尺度特征和所述第二尺度特征进行拼接操作,得到所述输入图像的多尺度特征。
在上述方案的优选技术方案中,所述融合模块还用于:
对所述多尺度特征进行反卷积上采样操作,得到第三尺度特征;
利用特征融合函数对所述第三尺度特征和所述多尺度特征进行融合操作,得到融合特征。
在上述方案的优选技术方案中,“对所述第三尺度特征和所述多尺度特征进行融合操作”,其方法如下公式所示:
rk=Sk(Uk(rk+1),yk)
其中,rk表示融合特征,Sk表示特征融合函数,Uk表示反卷积上采样函数,yk表示多尺度特征,k表示中间变量。
在上述方案的优选技术方案中,所述聚合模块还用于对所述融合特征进行卷积操作,具体方法如下公式所示:
Figure GDA0002612297480000051
若所述融合特征的尺度小于5,则无需进行卷积操作,若所述融合特征的尺度大于或等于5,则通过拼接经过4步卷积操作之后的所述融合特征得到聚合特征,其中,rk表示融合特征,
Figure GDA0002612297480000052
表示以1×1的卷积核对rk进行填充为0的卷积操作;
Figure GDA0002612297480000053
表示以3×3的卷积核对rk进行填充为1的卷积操作;
Figure GDA0002612297480000054
表示对rk进行3×3的池化操作,再以1×1的卷积核对rk进行填充为0的卷积操作;
Figure GDA0002612297480000055
表示以2个连续的3×3的卷积核对rk进行填充为1的卷积操作,
Figure GDA0002612297480000056
表示所述聚合模块对所述融合特征进行卷积操作后得到的聚合特征,size(rk)表示所述融合特征的尺度。
在上述方案的优选技术方案中,获取物体的类别置信度和坐标位置,其方法如下公式所示:
Figure GDA0002612297480000057
其中,N表示正样本的个数,Lcls表示分类任务的损失函数,Lloc表示坐标回归任务的损失函数,
Figure GDA0002612297480000058
Figure GDA0002612297480000059
分别表示深度学习网络模型输出的类别置信度和坐标位置,c和l分别表示标准的类别置信度和坐标位置。
在上述方案的优选技术方案中,所述预测模块还包括分类单元,所述分类单元配置为将所述类别置信度输入softmax函数,得到物体的分类结果。
在上述方案的优选技术方案中,构建所述物体检测模块的方法如下公式所示:
xn=Fn(xn-1)=Fn(Fn-1(…F1(I)))
{y1,y2,…,ym}={H1(xn),H2(y1),…,Hm(ym-1)}
Detection={P1(y1),P2(y2),…,Pm(ym)}
其中,I表示输入图像,Fn表示非线性变换函数,xn表示第n层的图像特征表达,y1,y2,…,ym表示多尺度特征,Hm表示特征变换函数,Pm表示预测函数,m、n均表示输入图像的层数。
本发明的第三方面提供一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行如权利要求1-8任一项所述的基于稠密连接的深度学习物体检测方法。
与最接近的现有技术相比,上述技术方案至少具有如下有益效果:
1、本发明的物体检测网络模型中的特征提取模块能够提取输入图像的多尺度特征,产生不同尺度、不同抽象层级的特征,提高了图像特征抽象能力的同时,尽可能保留了空间特征,包含了更多的语意信息和细节信息,能够更好地描述图像中的物体;
2、本发明的融合模块能够将多尺度特征进行融合,产生语意信息更丰富的融合特征;
3、本发明的聚合模块能够调整融合特征的内部空间信息,生成最终用于检测的特征表达。
附图说明
图1为本发明一种实施例的物体检测网络模型的主要结构示意图;
图2为本发明一种实施例的基于稠密连接的深度学习物体检测方法的主要步骤示意图;
图3为本发明一种实施例的基于稠密连接的深度学习物体检测装置的主要结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
图像特征是对图像的特征描述,能够代表图像的特点,图像特征的好坏直接影响着物体的检测结果,传统的特征提取方法是通过人工设计特征,但是人工设计的特征容易受到光线变化、物体颜色变化以及背景嘈杂的干扰,难以准确地描述图像的深层信息。相较于传统的特征提取方法,基于深度学习的特征提取方法能够很好地避免上述问题,但是基于深度学习的特征提取方法却不能准确地提取较小物体的特征表达,具体如下步骤内容所示:
现有的深度学习特征提取方法一般可以表示为如公式(1)-(3)所示:
xn=Fn(xn-1)=Fn(Fn-1(…F1(I))) (1)
{y1,y2,…,ym}={H1(xn),H2(y1),…,Hm(ym-1)} (2)
Detection={P1(y1),P2(y2),…,Pm(ym)} (3)
其中,I表示输入图像,Fn表示非线性变换函数,xn表示第n层的图像特征表达,y1,y2,…,ym表示多尺度特征,Hm表示特征变换函数,Pm表示预测函数,m、n均表示输入图像的层数。
具体地,y1的分辨率最高,ym的分辨率最低,不同分辨率的特征负责表达不同尺度的物体,分辨率越高的特征表示的物体尺寸越小,分辨率越低的特征表示的物体尺寸越大,Hm为特征变换函数,负责降低ym-1的分辨率,并将其变换为ym,具体过程如下:
H1降低xn的分辨率,转化为y1,y1负责检测最小的物体;H2降低y1的分辨率,并转化为y2,y2负责检测次小的物体,直至产生ym,在这个过程中,通过降低分辨率,使得特征y逐渐忽略小物体,而关注大物体,从而使得某个y只关注某一尺寸内的物体,使得y较为容易学习,其中,ym是由ym-1经由特征变换函数转化而来的。
Pm为预测函数,负责检测一定尺度范围内的物体,其中P1负责检测的物体尺寸最小,Pm负责检测的物体尺寸最大,以输入图像I的尺寸为300*300,预测函数的个数为6为例:
P1负责检测物体尺寸范围为:0~8*8;
P2负责检测物体尺寸范围为:8*8~16*16;
P3负责检测物体尺寸范围为:16*16~32*32;
P4负责检测物体尺寸范围为:32*32~64*64;
P5负责检测物体尺寸范围为:64*64~100*100;
P6负责检测物体尺寸范围为:100*100~300*300。
对于一副输入图像I,经过卷积神经网络后,会得到n层图像表达,再对n层的图像表达进行处理,得到m层尺寸不同的特征表达,m层的特征表达构成输入图像的多尺度特征。
由上述内容可知,特征表达既需要包含丰富的空间特征,还需要包括足够的语义特征,才能准确地对物体进行表达,但是现有技术得到的特征表达,例如y1,y2,被同时用于特征变换函数和预测函数,高分辨率的特征表达的语义特征所占的比重由于特征表达用于特征变换函数而减小了,最终导致易于检测大物体,忽略小物体。
基于此,本发明提供一种基于稠密连接的深度学习物体检测方法旨在解决上述问题。
本发明预先构建了物体检测网络模型用于对输入图像进行物体检测,物体检测网络模型基于卷积神经网络模型构建,包括特征提取模块、融合模块、聚合模块以及预测模块;本发明所采用的卷积神经网络可以选用任一常用的基础网络,如VGG16、resnet101等,具体结构如图1所示,图1示例性地给出了本发明所采用的物体检测网络模型的主要结构,首先将输入图像输入卷积神经网络,依次进行特征提取,特征融合和特征聚合的操作,上述操作依次对应相应的模块,最后预测模块得到预测结果。
本发明实施例的基于稠密连接的深度学习物体检测方法,正是基于上述预先构建的物体检测网络模型对输入图像进行物体检测,从而得到所述输入图像中物体的分类结果和坐标位置。
本实施例中,基于物体检测网络模型对输入图像进行物体检测的具体内容如下:
参阅附图2,图2示例性的给出了本实施例中基于稠密连接的深度学习物体检测方法的主要步骤。如图2所示,本实施例中基于稠密连接的深度学习物体检测方法包括下述步骤:
步骤S1:基于特征提取模块提取输入图像的多尺度特征;
特征提取模块是基于探索函数的稠密连接结构和保持函数的跳层结构构建的,用于提取图像的特征表达。在传统获取图像特征表达的基础上,使用探索函数提高图像表达的抽象能力,使用保持函数尽可能保留其空间特征,在获取图像特征表达的过程中,会得到图像的中间特征,以yk-1为例,每提取yk-1个特征表达均会产生c+1个中间特征,c表示中间特征的个数,具体地,将中间特征输入非线性变换函数进行卷积操作,将进行卷积操作之后的中间特征分别输入探索函数和保持函数,得到多尺度特征,具体方法如公式(4)-(6)所示:
Figure GDA0002612297480000091
Figure GDA0002612297480000092
Figure GDA0002612297480000093
Figure GDA0002612297480000094
其中,
Figure GDA0002612297480000095
为非线性变换函数,
Figure GDA0002612297480000096
为中间特征,c表示中间特征的个数,k表示中间变量,Tk表示探索函数,Qk表示保持函数,t、q分别表示探索函数和保持函数的参数,Dk表示下采样操作。探索函数和保持函数所产生特征的宽度、高度以及特征通道数均一致。
通过上述步骤得到的特征表达是一个三维矩阵,可以表示为y∈Rw×h×d,其中,w和h描述特征的分辨率,分别表示宽度和高度,d表示特征通道数,经过探索函数处理后,将特征表达的语义特征进行了进一步地抽象,保持函数在降低特征表达的分辨率时,尽可能地保留了空间特征,从而使得到的特征表达具有不同的抽象层次,多尺度的特征,对图像中的物体具有更好的表达能力,相较于传统的方法能够更好地检测图像中的小物体。
步骤S2:通过融合模块融合多尺度特征;
虽然基于特征提取模块提取多尺度特征的方法相较于现有的提取方法得到的多尺度特征具有更好的表达能力,但是却忽略了不同尺度特征之间的关系,忽略不同尺度特征之间的关系会造成错误的检测,例如,当检测输入图像中动物形状的风筝时,如果只是得到图像中的多尺度特征,从外观上很难判断是动物还是风筝,需要结合输入图像所在背景或者大区域进行判断,如若输入图像的背景是天空,则很容易判断该物体是风筝了。
具体地,融合模块基于特征融合函数和反卷积函数构建,用于调整多尺度特征的通道数,并对多尺度特征进行融合。本发明的融合步骤是自顶向下的,即从顶层特征开始,依次向下进行融合,具体的融合步骤为:
对大小为wm×hm×dm的第m层特征,即分辨率最小的特征ym,通过其来提升第m-1层的特征ym-1的表达能力,首先对ym进行反卷积操作,即Um-1,得到大小为wm-1×hm-1×dm的特征表达ym,m-1,其中wm-1,hm-1与m-1层特征的w,h一致。虽然通过上采样操作将ym的尺度扩展至为与ym-1的尺度一致,但由于不同层级的特征所含的特征通道数不一致,若直接对特征ym,m-1和ym-1进行融合,会对低维特征(特征通道少的特征)产生抑制作用,难以在融合后的特征中起到应有的表达能力。为了更好地保留每一层级的特征,需要通过卷积层生成新特征y′m,m-1和y′m-1来表达原始特征ym,m-1和ym-1,具体而言,通过卷积操作,将ym,m-1和ym-1进行降维,拉近特征通道数,得到特征表达y′m,m-1和y′m-1,大小分别为
Figure GDA0002612297480000101
Figure GDA0002612297480000102
得到y′m,m-1和y′m-1后,直接将其拼接,产生大小为
Figure GDA0002612297480000103
的融合特征rm-1,至此完成特征ym和修正特征ym-1的融合。对于其他层进行类似的融合操作,直至完成对分辨率最高的特征y1融合。
其中,具体的融合方法如公式(7)和(8)所示:
rm=ym (7)
rk=Sk(Uk(rk+1),yk) (8)
其中,yk表示特征提取模块产生的特征,ym为分辨率最低的特征,rk表示由融合模块融合后的融合特征,分辨率与yk相同,Uk表示基于反卷积操作的上采样,Sk表示融合操作。通过将不同尺度的特征进行融合后,能够提高融合后的特征所包含的语意信息。
步骤S3:利用聚合模块对融合特征进行卷积操作;
在实际应用中,对多尺度特征的融合是利用不同尺度下差异化的语意特征进行互补,虽然能够提高融合特征所包含的语意信息,但是忽略了图像特征之间的空间关系,而图像特征之间的空间关系将有利于提高检测的准确率,例如,对于检测印有人脸的抱枕,通过检测物体与物体周围环境的空间关系来进一步判断是真实的人脸,还是印有人脸的抱枕。具体地,对融合特征进行卷积操作的方法如公式(9)所示:
Figure GDA0002612297480000104
首先判断融合特征的尺度大小,若融合特征的尺度小于5,则无需进行卷积操作,若融合特征的尺度大于或等于5,则通过拼接经过4步卷积操作之后的融合特征得到聚合特征,具体地,
Figure GDA0002612297480000105
表示利用不同大小的卷积核挖掘图像特征之间的空间关系,
Figure GDA0002612297480000111
表示以1×1的卷积核对rk进行填充为0的卷积操作;
Figure GDA0002612297480000112
表示以3×3的卷积核对rk进行填充为1的卷积操作;
Figure GDA0002612297480000113
表示对rk进行3×3的池化操作,再以1×1的卷积核对rk进行填充为0的卷积操作;
Figure GDA0002612297480000114
表示以2个连续的3×3的卷积核对rk进行填充为1的卷积操作,最后,将
Figure GDA0002612297480000115
的输出特征拼接起来,得到
Figure GDA0002612297480000116
表示聚合后的特征。
步骤S4:利用预测模块输出物体的分类结果和坐标位置;
具体地,预测模块基于卷积函数和损失函数构建,用于检测物体的尺寸,输出物体的类别置信度和坐标位置,其中,预测模块中包含两个并行的卷积操作,分别用于输出物体的类别置信度和物体坐标回归,具体方法如公式(10)所示:
Figure GDA0002612297480000117
其中,N表示正样本的个数,Lcls表示分类任务的损失函数,Lloc表示坐标回归任务的损失函数,
Figure GDA0002612297480000118
Figure GDA0002612297480000119
分别表示深度学习网络模型输出的类别置信度和坐标位置,c和l分别表示标准的类别置信度和坐标位置。在实际应用中,Lcls表示分类任务的损失函数,通常为softmax-loss函数,Lloc表示坐标回归任务的损失函数,通常为smooth L1-loss函数,得到类别置信度之后,将其输入softmax函数,得到最终的分类结果。
本发明提供的方法能够提取输入图像的多尺度特征,产生不同尺度、不同抽象层级的特征,提高了图像特征抽象能力的同时,尽可能保留了空间特征,包含了更多的语意信息和细节信息,能够更好地描述图像中的物体。
上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述,但是本领域技术人员可以理解,为了实现本实施例的效果,不同的步骤之间不必按照这样的次序执行,其可以同时(并行)执行或以颠倒的次序执行,这些简单的变化都在本发明的保护范围之内。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
再进一步地,基于与上述方法实施例相同的技术构思,本发明还提供一种基于稠密连接的深度学习物体检测装置。下面对该装置进行具体说明。
参阅附图2,图2示例性的给出了本实施例中基于稠密连接的深度学习物体检测装置的主要结构。如图2所示,本实施例中基于稠密连接的深度学习物体检测装置包括下述模块:
输入模块1,输入模块1配置为获取用于物体检测的输入图像;
物体检测模块2,物体检测模块2配置为对输入图像进行物体检测;
输出模块3,输出模块3配置为输出输入图像中物体的分类结果和坐标位置;
其中,
物体检测模块2基于卷积神经网络模型构建,包括特征提取模块、融合模块、聚合模块以及预测模块;
特征提取模块基于探索函数和保持函数构建,用于提取输入图像的多尺度特征;
融合模块基于特征融合函数和反卷积函数构建,用于调整多尺度特征的通道数并对多尺度特征进行融合;
聚合模块基于卷积函数构建,用于调整进行融合后的多尺度特征的空间关系;
预测模块基于卷积函数和损失函数构建,用于检测物体的尺寸,输出物体的类别置信度和坐标位置。
在本实施例的一个优选实施方案中,特征提取模块还包括探索单元、保持单元以及拼接单元;
探索单元用于对输入图像的中间特征进行第一下采样操作,得到第一尺度特征;
保持单元用于对输入图像的中间特征进行第二下采样操作,得到第二尺度特征;
拼接单元用于将第一尺度特征和第二尺度特征进行拼接操作,得到输入图像的多尺度特征。
在本实施例的一个优选实施方案中,融合模块还用于:
对多尺度特征进行反卷积上采样操作,得到第三尺度特征;
利用特征融合函数对第三尺度特征和多尺度特征进行融合操作,得到融合特征。
在本实施例的一个优选实施方案中,“对第三尺度特征和多尺度特征进行融合操作”,其方法如公式(8)所示:
rk=Sk(Uk(rk+1),yk) (8)
其中,rk表示融合特征,Sk表示特征融合函数,Uk表示反卷积上采样函数,yk表示多尺度特征,k表示中间变量。
在本实施例的一个优选实施方案中,聚合模块还用于对融合特征进行卷积操作,具体方法如公式(9)所示:
Figure GDA0002612297480000131
其中,rk表示融合特征,
Figure GDA0002612297480000132
表示以1×1的卷积核对rk进行填充为0的卷积操作;
Figure GDA0002612297480000133
表示以3×3的卷积核对rk进行填充为1的卷积操作;
Figure GDA0002612297480000134
表示对rk进行3×3的池化操作,再以1×1的卷积核对rk进行填充为0的卷积操作;
Figure GDA0002612297480000135
表示以2个连续的3×3的卷积核对rk进行填充为1的卷积操作。
在本实施例的一个优选实施方案中,获取物体的类别置信度和坐标位置,其方法如公式(10)所示:
Figure GDA0002612297480000136
其中,N表示正样本的个数,Lcls表示分类任务的损失函数,Lloc表示坐标回归任务的损失函数,
Figure GDA0002612297480000137
Figure GDA0002612297480000138
分别表示深度学习网络模型输出的类别置信度和坐标位置,c和l分别表示标准的类别置信度和坐标位置。
在本实施例的一个优选实施方案中,预测模块还包括分类单元,分类单元配置为将类别置信度输入softmax函数,得到物体的分类结果。
在本实施例的一个优选实施方案中,构建物体检测模块的方法如公式(1)-(3)所示:
xn=Fn(xn-1)=Fn(Fn-1(…F1(I))) (1)
{y1,y2,…,ym}={H1(xn),H2(y1),…,Hm(ym-1)} (2)
Detection={P1(y1),P2(y2),…,Pm(ym)} (3)
其中,I表示输入图像,Fn表示非线性变换函数,xn表示第n层的图像特征表达,y1,y2,…,ym表示多尺度特征,Hm表示特征变换函数,Pm表示预测函数,m、n均表示输入图像的层数。
基于上述基于稠密连接的深度学习物体检测方法实施例,本发明还提供一种存储装置,其中存储有多条程序,程序适于由处理器加载并执行如上述的基于稠密连接的深度学习物体检测方法。
基于上述基于稠密连接的深度学习物体检测方法实施例,本发明还提供一种处理装置,包括处理器、存储设备;处理器,适于执行各条程序;存储设备,适于存储多条程序;程序适于由处理器加载并执行如上述的基于稠密连接的深度学习物体检测方法。
所属技术领域的技术人员可以清楚地了解到,为了描述的方便和简洁,本发明实施例基于上述基于稠密连接的深度学习物体检测装置、存储装置以及处理装置的具体工作过程以及相关说明,可以参考前述实施例方法中的对应过程,且与上述方法具有相同的有益效果,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (16)

1.一种基于稠密连接的深度学习物体检测方法,其特征在于,所述方法包括:
基于预先构建的物体检测网络模型对输入图像进行物体检测,得到所述输入图像中物体的分类结果和坐标位置;
其中,
所述物体检测网络模型基于卷积神经网络模型构建,包括特征提取模块、融合模块、聚合模块以及预测模块;
所述特征提取模块基于探索函数和保持函数构建,用于提取所述输入图像的多尺度特征;
所述融合模块基于特征融合函数和反卷积函数构建,用于调整所述多尺度特征的通道数并对所述多尺度特征进行融合;
所述聚合模块基于卷积函数构建,用于调整进行融合后的多尺度特征的空间关系;
所述预测模块基于卷积函数和损失函数构建,用于检测物体的尺寸,输出物体的类别置信度和坐标位置;
其中,
所述特征提取模块提取所述输入图像的多尺度特征的方法为:
所述特征提取模块的探索函数对所述输入图像的中间特征进行第一下采样操作,得到第一尺度特征;
所述特征提取模块的保持函数对所述输入图像的中间特征进行第二下采样操作,得到第二尺度特征;
将所述第一尺度特征和所述第二尺度特征进行拼接操作,得到所述输入图像的多尺度特征。
2.根据权利要求1所述的方法,其特征在于,所述融合模块对所述多尺度特征进行融合的方法为:
对所述多尺度特征进行反卷积上采样操作,得到第三尺度特征;
利用特征融合函数对所述第三尺度特征和所述多尺度特征进行融合操作,得到融合特征。
3.根据权利要求2所述的方法,其特征在于,“对所述第三尺度特征和所述多尺度特征进行融合操作”,其方法如下公式所示:
rk=Sk(Uk(rk+1),yk)
其中,rk表示融合特征,Sk表示特征融合函数,Uk表示反卷积上采样函数,yk表示多尺度特征,k表示中间变量。
4.根据权利要求3所述的方法,其特征在于,聚合模块调整进行融合后的多尺度特征的空间关系的方法为:
对所述融合特征进行卷积操作,具体方法如下公式所示:
Figure FDA0002612297470000021
若所述融合特征的尺度小于5,则无需进行卷积操作,若所述融合特征的尺度大于或等于5,则通过拼接经过4步卷积操作之后的所述融合特征得到聚合特征,其中,rk表示融合特征,
Figure FDA0002612297470000022
表示以1×1的卷积核对rk进行填充为0的卷积操作;
Figure FDA0002612297470000023
表示以3×3的卷积核对rk进行填充为1的卷积操作;
Figure FDA0002612297470000024
表示对rk进行3×3的池化操作,再以1×1的卷积核对rk进行填充为0的卷积操作;
Figure FDA0002612297470000025
表示以2个连续的3×3的卷积核对rk进行填充为1的卷积操作,
Figure FDA0002612297470000026
表示所述聚合模块对所述融合特征进行卷积操作后得到的聚合特征,size(rk)表示所述融合特征的尺度。
5.根据权利要求1-4任一项所述的方法,其特征在于,获取物体的类别置信度和坐标位置,其方法如下公式所示:
Figure FDA0002612297470000027
其中,N表示正样本的个数,Lcls表示分类任务的损失函数,Lloc表示坐标回归任务的损失函数,
Figure FDA0002612297470000028
Figure FDA0002612297470000029
分别表示深度学习网络模型输出的类别置信度和坐标位置,c和l分别表示标准的类别置信度和坐标位置。
6.根据权利要求5所述的方法,其特征在于,获取物体的类别置信度之后,该方法还包括:
将所述物体的类别置信度输入softmax函数,得到物体的分类结果。
7.根据权利要求6所述的方法,其特征在于,构建所述物体检测网络模型的方法如下公式所示:
xn=Fn(xn-1)=Fn(Fn-1(…F1(I)))
{y1,y2,…,ym}={H1(xn),H2(y1),…,Hm(ym-1)}
Detection={P1(y1),P2(y2),…,Pm(ym)}
其中,I表示输入图像,Fn表示非线性变换函数,xn表示第n层的图像特征表达,y1,y2,…,ym表示多尺度特征,Hm表示特征变换函数,Pm表示预测函数,m、n均表示输入图像的层数。
8.一种基于稠密连接的深度学习物体检测装置,其特征在于,所述装置包括:
输入模块,所述输入模块配置为获取用于物体检测的输入图像;
物体检测模块,所述物体检测模块配置为对所述输入图像进行物体检测;
输出模块,所述输出模块配置为输出所述输入图像中物体的分类结果和坐标位置;
其中,
所述物体检测模块基于卷积神经网络模型构建,包括特征提取模块、融合模块、聚合模块以及预测模块;
所述特征提取模块基于探索函数和保持函数构建,用于提取所述输入图像的多尺度特征;
所述融合模块基于特征融合函数和反卷积函数构建,用于调整所述多尺度特征的通道数并对所述多尺度特征进行融合;
所述聚合模块基于卷积函数构建,用于调整进行融合后的多尺度特征的空间关系;
所述预测模块基于卷积函数和损失函数构建,用于检测物体的尺寸,输出物体的类别置信度和坐标位置;
其中,
所述特征提取模块还包括探索单元、保持单元以及拼接单元;
所述探索单元用于对所述输入图像的中间特征进行第一下采样操作,得到第一尺度特征;
所述保持单元用于对所述输入图像的中间特征进行第二下采样操作,得到第二尺度特征;
所述拼接单元用于将所述第一尺度特征和所述第二尺度特征进行拼接操作,得到所述输入图像的多尺度特征。
9.根据权利要求8所述的装置,其特征在于,所述融合模块还用于:
所述多尺度特征进行反卷积上采样操作,得到第三尺度特征;
利用特征融合函数对所述第三尺度特征和所述多尺度特征进行融合操作,得到融合特征。
10.根据权利要求9所述的装置,其特征在于,“对所述第三尺度特征和所述多尺度特征进行融合操作”,其方法如下公式所示:
rk=Sk(Uk(rk+1),yk)
其中,rk表示融合特征,Sk表示特征融合函数,Uk表示反卷积上采样函数,yk表示多尺度特征,k表示中间变量。
11.根据权利要求10所述的装置,其特征在于,所述聚合模块还用于对所述融合特征进行卷积操作,具体方法如下公式所示:
Figure FDA0002612297470000041
若所述融合特征的尺度小于5,则无需进行卷积操作,若所述融合特征的尺度大于或等于5,则通过拼接经过4步卷积操作之后的所述融合特征得到聚合特征,其中,rk表示融合特征,
Figure FDA0002612297470000042
表示以1×1的卷积核对rk进行填充为0的卷积操作;
Figure FDA0002612297470000043
表示以3×3的卷积核对rk进行填充为1的卷积操作;
Figure FDA0002612297470000044
表示对rk进行3×3的池化操作,再以1×1的卷积核对rk进行填充为0的卷积操作;
Figure FDA0002612297470000045
表示以2个连续的3×3的卷积核对rk进行填充为1的卷积操作,
Figure FDA0002612297470000046
表示所述聚合模块对所述融合特征进行卷积操作后得到的聚合特征,size(rk)表示所述融合特征的尺度。
12.根据权利要求8-11任一项所述的装置,其特征在于,获取物体的类别置信度和坐标位置,其方法如下公式所示:
Figure FDA0002612297470000047
其中,N表示正样本的个数,Lcls表示分类任务的损失函数,Lloc表示坐标回归任务的损失函数,
Figure FDA0002612297470000048
Figure FDA0002612297470000049
分别表示深度学习网络模型输出的类别置信度和坐标位置,c和l分别表示标准的类别置信度和坐标位置。
13.根据权利要求12所述的装置,其特征在于,所述预测模块还包括分类单元,所述分类单元配置为将所述类别置信度输入softmax函数,得到物体的分类结果。
14.根据权利要求13所述的装置,其特征在于,构建所述物体检测模块的方法如下公式所示:
xn=Fn(xn-1)=Fn(Fn-1(…F1(I)))
{y1,y2,…,ym}={H1(xn),H2(y1),…,Hm(ym-1)}
Detection={P1(y1),P2(y2),…,Pm(ym)}
其中,I表示输入图像,Fn表示非线性变换函数,xn表示第n层的图像特征表达,y1,y2,…,ym表示多尺度特征,Hm表示特征变换函数,Pm表示预测函数,m、n均表示输入图像的层数。
15.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行如权利要求1-7任一项所述的基于稠密连接的深度学习物体检测方法。
16.一种控制装置,包括处理器、存储设备;处理器,适于执行各条程序;存储设备,适于存储多条程序;其特征在于,所述程序适于由处理器加载并执行如权利要求1-7任一项所述的基于稠密连接的深度学习物体检测方法。
CN201810329940.3A 2018-04-13 2018-04-13 基于稠密连接的深度学习物体检测方法及装置 Active CN108764247B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810329940.3A CN108764247B (zh) 2018-04-13 2018-04-13 基于稠密连接的深度学习物体检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810329940.3A CN108764247B (zh) 2018-04-13 2018-04-13 基于稠密连接的深度学习物体检测方法及装置

Publications (2)

Publication Number Publication Date
CN108764247A CN108764247A (zh) 2018-11-06
CN108764247B true CN108764247B (zh) 2020-11-10

Family

ID=63981805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810329940.3A Active CN108764247B (zh) 2018-04-13 2018-04-13 基于稠密连接的深度学习物体检测方法及装置

Country Status (1)

Country Link
CN (1) CN108764247B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492697B (zh) * 2018-11-15 2021-02-02 厦门美图之家科技有限公司 图片检测网络训练方法及图片检测网络训练装置
WO2020102988A1 (zh) * 2018-11-20 2020-05-28 西安电子科技大学 基于特征融合和稠密连接的红外面目标检测方法
CN109726739A (zh) * 2018-12-04 2019-05-07 深圳大学 一种目标检测方法和系统
CN109697464A (zh) * 2018-12-17 2019-04-30 环球智达科技(北京)有限公司 基于物体检测和特征搜索的精确目标识别的方法及系统
CN109670516B (zh) * 2018-12-19 2023-05-09 广东工业大学 一种图像特征提取方法、装置、设备及可读存储介质
CN109919949B (zh) * 2019-03-06 2020-04-28 中国科学院自动化研究所 图像精细化阴影区域分割系统、方法、装置
CN111274886B (zh) * 2020-01-13 2023-09-19 天地伟业技术有限公司 一种基于深度学习的行人闯红灯违法行为分析方法及系统
CN111582353B (zh) * 2020-04-30 2022-01-21 恒睿(重庆)人工智能技术研究院有限公司 一种图像特征检测方法、系统、设备以及介质
CN111627036A (zh) * 2020-05-22 2020-09-04 深圳前海微众银行股份有限公司 图像区域校正方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129569A (zh) * 2010-01-20 2011-07-20 三星电子株式会社 基于多尺度对比特征的对象检测设备和方法
CN104573744A (zh) * 2015-01-19 2015-04-29 上海交通大学 精细粒度类别识别及物体的部分定位和特征提取方法
CN106570522A (zh) * 2016-10-24 2017-04-19 中国科学院自动化研究所 物体识别模型的建立方法及物体识别方法
CN107038448A (zh) * 2017-03-01 2017-08-11 中国科学院自动化研究所 目标检测模型构建方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9158971B2 (en) * 2014-03-03 2015-10-13 Xerox Corporation Self-learning object detectors for unlabeled videos using multi-task learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129569A (zh) * 2010-01-20 2011-07-20 三星电子株式会社 基于多尺度对比特征的对象检测设备和方法
CN104573744A (zh) * 2015-01-19 2015-04-29 上海交通大学 精细粒度类别识别及物体的部分定位和特征提取方法
CN106570522A (zh) * 2016-10-24 2017-04-19 中国科学院自动化研究所 物体识别模型的建立方法及物体识别方法
CN107038448A (zh) * 2017-03-01 2017-08-11 中国科学院自动化研究所 目标检测模型构建方法

Also Published As

Publication number Publication date
CN108764247A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN108764247B (zh) 基于稠密连接的深度学习物体检测方法及装置
CN111723860B (zh) 一种目标检测方法及装置
CN111652321B (zh) 一种基于改进yolov3算法的海上船舶检测方法
EP4105877A1 (en) Image enhancement method and image enhancement apparatus
CN110738697A (zh) 基于深度学习的单目深度估计方法
CN111583187B (zh) 一种基于cnn可视化的pcb电路板缺陷检测方法
CN110738609B (zh) 一种去除图像摩尔纹的方法及装置
CN110119753B (zh) 一种重构纹理识别岩性的方法
CN111738344B (zh) 一种基于多尺度融合的快速目标检测方法
WO2019089578A1 (en) Font identification from imagery
US20210019572A1 (en) Training a generative model and a discriminative model
CN107610140A (zh) 基于深度融合修正网络的精细边缘检测方法、装置
CN115829999A (zh) 一种绝缘子缺陷检测模型生成方法、装置、设备和存储介质
CN108121997A (zh) 使用机器学习模型的图像数据中的对象分类
CN108122239A (zh) 使用深度分割的图像数据中的对象检测
CN109784153A (zh) 情绪识别方法、装置、计算机设备及存储介质
CN110059728A (zh) 基于注意力模型的rgb-d图像视觉显著性检测方法
CN112365514A (zh) 基于改进PSPNet的语义分割方法
CN110441820B (zh) 地质构造的智能解释方法
CN111275126A (zh) 样本数据集生成方法、装置、设备及存储介质
CN111402131B (zh) 基于深度学习的超分辨率土地覆被分类图的获取方法
CN112686830A (zh) 基于图像分解的单一深度图的超分辨率方法
CN114639102A (zh) 基于关键点与尺寸回归的细胞分割方法和装置
CN111401209B (zh) 一种基于深度学习的动作识别方法
CN114943670A (zh) 医学图像的识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant