CN109472315A - 一种基于深度可分离卷积的目标检测方法和系统 - Google Patents
一种基于深度可分离卷积的目标检测方法和系统 Download PDFInfo
- Publication number
- CN109472315A CN109472315A CN201811361916.4A CN201811361916A CN109472315A CN 109472315 A CN109472315 A CN 109472315A CN 201811361916 A CN201811361916 A CN 201811361916A CN 109472315 A CN109472315 A CN 109472315A
- Authority
- CN
- China
- Prior art keywords
- network structure
- image
- image data
- input
- target object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于深度可分离卷积的目标检测方法和系统,其方法包括:获取图像数据;所述图像数据包括目标对象;将所述图像数据输入至深度可分离神经网络中,提取所述图像数据中的图像特征;根据不同层次的图像特征进行融合检测,输出所述目标对象的预测结果。本发明解决使用标准卷积神经网络进行目标对象识别时速度较慢的问题,使用不同层次的图像特征进行检测后,进行特征融合,保证了目标对象检测的高效性和准确率,实现计算开销小、有效精准检测目标对象的目的。
Description
技术领域
本发明涉及神经网络领域,尤指一种基于深度可分离卷积的目标检测方法和系统。
背景技术
机器人在运行时,需要考虑其安全性、效率、智能化程度等,因此对其所处的环境有一定的理解是发展趋势,也是机器人真正应用不可避免的技术需求。
视觉信息对于机器人来说具有非常重要的意义与作用。从信息量的角度来说,视觉信息量非常丰富,正如人类对世界的理解很大程度都依赖视觉信息,视觉信息对于理解周围的环境是至关重要的。从成本角度来说,当下的图像采集设备做到了高速高清并且低成本,相对于价格高昂的激光雷达,图像设备采集设备具有明显的成本优势。从技术发展角度来说,近来深度学习的快速进步带动了人工智能的热潮,其中要数计算机视觉的发展比较迅猛,各种先进的视觉技术不断应用在不同的产品形态中,为提升智能化水平和用户体验做出了巨大的贡献。
机器人理解世界中重要的一个步骤是,看懂周围的物体,知道它们是什么、在哪里,那么这就对应着计算机视觉里一种重要的目标检测任务,其主要内容是找出图像中的目标并给出其在图像中的位置。由于机器人属于移动平台并且是由电池供能,其硬件的计算能力有限并且能耗需要有效控制,因此设计一种能够在机器人平台上有效运行的目标检测算法是非常有意义也是具有挑战性的任务。当前的目标检测算法,一般难以在机器人平台上进行部署,因为其计算复杂度较高,机器人平台的算力不够。因此,如何提供一种计算开销小、有效精准检测目标对象是亟需解决的问题。
发明内容
本发明的目的是提供一种基于深度可分离卷积的目标检测方法和系统,实现提供一种计算开销小、有效精准检测目标对象的目的。
本发明提供的技术方案如下:
本发明提供一种基于深度可分离卷积的目标检测方法,包括步骤:
获取图像数据;所述图像数据包括目标对象;
将所述图像数据输入至深度可分离神经网络中,提取所述图像数据中的图像特征;
根据不同层次的图像特征进行融合检测,输出所述目标对象的预测结果。
进一步的,所述将所述图像数据输入至深度可分离神经网络中,提取所述图像数据中的图像特征具体包括步骤:
将所述图像数据,按照第一预设顺序依次顺序输入至对应的分离卷积层后得到第一图像特征;
将所述第一图像特征,按照第二预设顺序输入至对应的分离卷积层后得到第二图像特征;
将所述第二图像特征,按照第三预设顺序输入至对应的分离卷积层后得到第三图像特征;
其中,所述第一预设顺序为第一中级分离卷积层,第一初级分类网络结构,第二初级分类网络结构,第二中级分类网络结构,第三初级分类网络结构,第四初级分类网络结构,第一次级分类网络结构,第三中级分类网络结构,第五初级分类网络结构,第六初级分类网络结构,第一末级分类网络结构,第二次级分类网络结构和标准卷积网络结构;
所述第二预设顺序为第四中级分类网络结构,第七初级分类网络结构,第八初级分类网络结构,第二末级分类网络结构,第三次级分类网络结构;
所述第三预设顺序为深度卷积网络结构,第九初级分类网络结构和第四次级分类网络结构;每一个分类网络结构的输出为与之连接的分类网络结构的输入;
所述第一图像特征,所述第二图像特征和所述第三图像特征的层次按照编号顺序递增,层次与语义性成正比,层次与分辨率成反比。
进一步的,所述根据不同层次的图像特征进行融合检测,输出所述目标对象的预测结果具体包括步骤:
将所述第三图像特征输入至第一检测层,输出第一检测结果;
将所述第三图像特征与所述第二图像特征融合得到的第一融合结果输入至第二检测层,输出第二检测结果;
将所述第三图像特征与所述第一融合结果融合得到的第二融合结果输入至第三检测层,输出第三检测结果;
将所述第一检测结果,第二检测结果,第三检测结果进行融合处理,得到融合特征;
根据所述融合特征对每个目标对象候选区域进行分类识别,输出所述目标对象的预测结果;
其中,所述第一检测结果、第二检测结果,第三检测结果均包括位置损失,置信度损失和类别损失。
进一步的,所述根据所述融合特征对每个目标对象候选区域进行分类识别,输出所述目标对象的预测结果之前包括步骤:
将不同层次的图像特征输入至分类器,输出分类结果;所述分类结果包括遮挡损失;
所述根据所述融合特征对每个目标对象候选区域进行分类识别,输出所述目标对象的预测结果具体包括步骤:
根据所述目标对象的预测结果,当所述分类结果达到预设阈值时,输出所述目标对象在所述预测结果的空间位置处被遮挡。
进一步的,所述获取图像数据具体包括步骤:
获取所述图像数据,将所述图像数据进行灰度化处理;
将灰度处理后的图像数据进行归一化处理,得到符合所述深度可分离神经网络规格的图像数据。
本发明还提供一种基于深度可分离卷积的目标检测系统,包括:
第一获取模块,用于获取图像数据;所述图像数据包括目标对象;
处理模块,用于将所述图像数据输入至深度可分离神经网络中,提取所述图像数据中的图像特征;
控制模块,用于根据不同层次的图像特征进行融合检测,输出所述目标对象的预测结果。
进一步的,所述处理模块包括:
第一分离计算单元,用于将所述图像数据,按照第一预设顺序依次顺序输入至对应的分离卷积层后得到第一图像特征;
第二分离计算单元,用于将所述第一图像特征,按照第二预设顺序输入至对应的分离卷积层后得到第二图像特征;
第三分离计算单元,用于将所述第二图像特征,按照第三预设顺序输入至对应的分离卷积层后得到第三图像特征;
其中,所述第一预设顺序为第一中级分离卷积层,第一初级分类网络结构,第二初级分类网络结构,第二中级分类网络结构,第三初级分类网络结构,第四初级分类网络结构,第一次级分类网络结构,第三中级分类网络结构,第五初级分类网络结构,第六初级分类网络结构,第一末级分类网络结构,第二次级分类网络结构和标准卷积网络结构;
所述第二预设顺序为第四中级分类网络结构,第七初级分类网络结构,第八初级分类网络结构,第二末级分类网络结构,第三次级分类网络结构;
所述第三预设顺序为深度卷积网络结构,第九初级分类网络结构和第四次级分类网络结构;每一个分类网络结构的输出为与之连接的分类网络结构的输入;
所述第一图像特征,所述第二图像特征和所述第三图像特征的层次按照编号顺序递增,层次与语义性成正比,层次与分辨率成反比。
进一步的,所述控制模块包括:
第一检测单元,用于将所述第三图像特征输入至第一检测层,输出第一检测结果;
第二检测单元,用于将所述第三图像特征与所述第二图像特征融合得到的第一融合结果输入至第二检测层,输出第二检测结果;
第三检测单元,用于将所述第三图像特征与所述第一融合结果融合得到的第二融合结果输入至第三检测层,输出第三检测结果;
融合处理单元,用于将所述第一检测结果,第二检测结果,第三检测结果进行融合处理,得到融合特征;
识别单元,用于根据所述融合特征对每个目标对象候选区域进行分类识别,输出所述目标对象的预测结果;
其中,所述第一检测结果、第二检测结果,第三检测结果均包括位置损失,置信度损失和类别损失。
进一步的,所述控制模块还包括:
第四检测单元,用于将不同层次的图像特征输入至分类器,输出分类结果;所述分类结果包括遮挡损失;
所述识别单元,还用于根据所述目标对象的预测结果,当所述分类结果达到预设阈值时,输出所述目标对象在所述预测结果的空间位置处被遮挡。
进一步的,所述第一获取模块还包括:
获取单元,用于获取所述图像数据,将所述图像数据进行灰度化处理;
图像处理单元,用于将灰度处理后的图像数据进行归一化处理,得到符合所述深度可分离神经网络规格的图像数据。
通过本发明提供的一种基于深度可分离卷积的目标检测方法和系统,能够解决使用标准卷积神经网络进行目标对象识别时速度较慢的问题,使用不同层次的图像特征进行检测后,进行特征融合,保证了目标对象检测的高效性和准确率,实现计算开销小、有效精准检测目标对象的目的。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对一种基于深度可分离卷积的目标检测方法和系统的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明基于深度可分离卷积的目标检测方法的一个实施例的流程图;
图2是本发明基于深度可分离卷积的目标检测方法的另一个实施例的流程图;
图3是本发明初级分离卷积层的结构示意图;
图4是本发明次级分离卷积层的结构示意图;
图5是本发明中级分离卷积层的结构示意图;
图6是本发明末级分离卷积层的结构示意图;
图7是本发明基于深度可分离卷积的目标检测方法的流程结构示意图;
图8是本发明基于深度可分离卷积的目标检测方法的另一个实施例的流程图;
图9是本发明基于深度可分离卷积的目标检测系统的一个实施例的结构示意图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
本发明的一个实施例,如图1所示,一种基于深度可分离卷积的目标检测方法,包括:
S100获取图像数据;图像数据包括目标对象;
具体的,当应用场景为医院时,目标对象包括输液杆等细长尺寸小的物品。当应用场景为家庭时,目标对象包括晾衣杆等细长尺寸小的物品。通过具有摄像功能(深度摄像头,双目相机或者单目相机)的设备进行拍摄获取包括目标对象的图像数据。
S200将图像数据输入至深度可分离神经网络中,提取图像数据中的图像特征;
具体的,深度可分离卷积在按照深度方向进行执行卷积的同时保持通道分离。首先每个通道独立进行深度卷积,增加了网络的宽度,使得特征提取更加丰富,然后进行1×1卷积,将深度卷积的通道输出映射到新的通道。
在参数量方面,假设有一个3×3大小的卷积核,其输入通道为16、输出通道为32。标准卷积的操作就是用32个3×3的卷积核来分别同输入1个通道的数据进行卷积运算,这样整个过程使用了(3×3×16)×32=4068个参数。而应用深度可分离卷积的操作就是用16个3×3大小的卷积核分别与输入16个通道的数据进行卷积运算,这样整个过程使用了3×3×16+(1×1×16)×32 =656个参数。当通道数量更多时,减少的参数量会更大。因此,深度可分离卷积不但能够拓展网络宽度,而且在一定程度上减少了参数量。
S300根据不同层次的图像特征进行融合检测,输出目标对象的预测结果。
具体的,由于卷积神经网络中,高层次的图像特征具有更强的语义性,较低的分辨率,映射出全局和轮廓的特征。低层次的图像特征具有更弱的语义性,较高的分辨率,映射出局部和细节特征。为了增强对不同尺度目标对象的检测识别能力,经过不同层次的图像特征进行融合检测,从而结合低层次的图像特征和高层次的图像特征相互之间进行互补融合,输出目标对象的预测结果。
本发明解决使用标准卷积神经网络进行目标对象识别时速度较慢的问题,使用不同层次的图像特征进行检测后,进行特征融合,保证了目标对象检测的高效性和准确率。
基于前述实施例,如图2所示,包括:
S100获取图像数据;图像数据包括目标对象;
S210将图像数据,按照第一预设顺序依次顺序输入至对应的分离卷积层后得到第一图像特征;
S220将第一图像特征,按照第二预设顺序输入至对应的分离卷积层后得到第二图像特征;
S230将第二图像特征,按照第三预设顺序输入至对应的分离卷积层后得到第三图像特征;
S310将第三图像特征输入至第一检测层,输出第一检测结果;
S320将第三图像特征与第二图像特征融合得到的第一融合结果输入至第二检测层,输出第二检测结果;
S330将第三图像特征与第一融合结果融合得到的第二融合结果输入至第三检测层,输出第三检测结果;
S340将第一检测结果,第二检测结果,第三检测结果进行融合处理,得到融合特征;
S350根据融合特征对每个目标对象候选区域进行分类识别,输出目标对象的预测结果;
其中,第一预设顺序为第一中级分离卷积层,第一初级分类网络结构,第二初级分类网络结构,第二中级分类网络结构,第三初级分类网络结构,第四初级分类网络结构,第一次级分类网络结构,第三中级分类网络结构,第五初级分类网络结构,第六初级分类网络结构,第一末级分类网络结构,第二次级分类网络结构和标准卷积网络结构;
第二预设顺序为第四中级分类网络结构,第七初级分类网络结构,第八初级分类网络结构,第二末级分类网络结构,第三次级分类网络结构;
第三预设顺序为深度卷积网络结构,第九初级分类网络结构和第四次级分类网络结构;每一个分类网络结构的输出为与之连接的分类网络结构的输入;
第一图像特征,第二图像特征和第三图像特征的层次按照编号顺序递增,层次与语义性成正比,层次与分辨率成反比;
其中,第一检测结果、第二检测结果,第三检测结果均包括位置损失,置信度损失和类别损失。
具体的,深度可分离卷积得到了越来越多的应用,其优势在于能够减少参数和计算量,同时为了能够实现通道间的信息流动,一般需要在深度可分离卷积后加上1x1的卷积进行信息融合或者升降维。
初级分离卷积层如图3所示,将HxW规格的图像数据输入至第一1x1conv 中。然后第一1x1conv的输出结果输入至第一3x3depthwise conv中。第一3x3 depthwise conv的输出结果输入至第二1x1conv中。第二1x1conv的输出结果与输入的图像数据进行卷积运算得到最终的输出结果。
然而,随着网络通道数(即图3中的C)增加,1x1卷积的计算量以及内存的访问数目都会大量增加。因此对于图3有一种改进的加速结构为次级分类网络结构,其为针对初级分离卷积层的改进结构,如图4所示,将HxW规格的图像数据输入至第一1x1conv中。然后第一1x1conv的输出结果输入至第一 3x3depthwise conv中。第一3x3depthwise conv的输出结果输入至第一1x1 group conv中。第一1x1group conv的输出结果输入至第二1x1conv中。第二 1x1conv的输出结果与输入的图像数据与进行卷积运算得到最终的输出结果。即次级分类网络结构相对于初级分类网络结构而言,先进行1x1group conv即 1x1的分组卷积,然后再进行1x1conv即1x1卷积。
中间层,进行降分辨率操作的时候,一般都直接采用扩大卷积步长的方式,而本发明为了增加图像特征的多样性并保持较小计算量,分别同步进行卷积然后再融合的方式,即中级分离卷积层如图5所示,将HxW规格的图像数据输入至第一1x1conv中,并输入至MaxPooling(最大池化)。然后第一1x1conv的输出结果输入至第二1x1conv中,再将第二1x1conv的输出结果输入至第一3x3depthwise conv中。Max Pooling的输出结果输入至第二3x3 depthwise conv中。第一3x3depthwise conv的输出结果与第二3x3depthwise conv的输出结果与进行卷积运算得到最终的输出结果。
网络结构中,通常随着深度增加会降低分辨率并提高通道数,末级分离卷积层如图6所示,将HxW规格的图像数据输入至第一1x1conv中。然后第一 1x1conv的输出结果输入至第一3x3depthwise conv中。第一3x3depthwise conv 的输出结果与输入的图像数据进行卷积运算得到最终的输出结果。只采用一次1x1卷积,通道数目倍增通过concatenation(连接层)实现。
整体的检测网络模型由初级分离卷积层,次级分离卷积层,中级分离卷积层,末级分离卷积层,标准卷积网络结构和深度标准卷积网络结构构成,整体的检测网络模型结构如表1所示:
将320x320x3的图像数据输入至第一标准卷积网络结构(Convolution1) 输出320x320x32的图像数据,将Convolution1输出320x320x32的图像数据按照第一预设顺序依次顺序输入至第一中级分离卷积层(M_c1),第一初级分类网络结构(M_a1),第二初级分类网络结构(M_a2),第二中级分类网络结构 (M_c2),第三初级分类网络结构(M_a3),第四初级分类网络结构(M_a4),第一次级分类网络结构(M_b1),第三中级分类网络结构(M_c3),第五初级分类网络结构(M_a5),第六初级分类网络结构(M_a6),第一末级分类网络结构(M_d1),第二次级分类网络结构(M_b2)和第二卷积网络结构 (Convolution2)后得到第一图像特征。
将第一图像特征按照第二预设顺序依次顺序输入至第四中级分类网络结构(M_c4),第七初级分类网络结构(M_a7),第八初级分类网络结构(M_a8),第二末级分类网络结构(M_d2),第三次级分类网络结构(M_b3)后得到第二图像特征。
将第二图像特征按照第三预设顺序依次顺序输入至深度卷积网络结构(Depthwise Convolution),第九初级分类网络结构(M_a9)和第四次级分类网络结构(M_b4)后得到第三图像特征。
由于卷积神经网络中,高层次的图像特征具有更强的语义性,更低的分辨率,低层次的图像特征具有更高的分辨率和更弱的语义性。由于第一图像特征,第二图像特征和第三图像特征的层次按照编号顺序递增,层次与语义性成正比,层次与分辨率成反比。为了对不同尺度目对象的检测能力,如图7和表格 1所示,对不同层次的图像特征进行融合,即将第四次级分类网络结构(M_b4) 所提取到的第三图像特征输入至第一检测层(predict1),输出第一检测结果。
将第三次级分类网络结构(M_b3)所提取到的第二图像特征和第四次级分类网络结构(M_b4)所提取到的第三图像特征进行融合得到第一融合结果,将第一融合结果输入至第二检测层(predict2)输出第二检测结果。
将第二卷积网络结构(Convolution2)所提取到的第一图像特征和第一融合结果进行融合得到第二融合结果,将第二融合结果输入至第三检测层 (predict3)输出第三检测结果。
将第一检测结果,第二检测结果,第三检测结果进行融合处理,得到融合特征,然后根据融合特征对每个目标对象候选区域进行分类识别,输出目标对象的预测结果。即利用了主干网络中模块14即第二卷积网络结构 (Convolution2),模块19即第三次级分类网络结构(M_b3),模块22即第四次级分类网络结构(M_b4)所提取到的图像特征进行多尺度的检测。第四次级分类网络结构(M_b4)输出的第三图像特征输入至第三检测层(predict3)进行检测得到第一检测结果。同时将其上采样与第三次级分类网络结构(M_b3) 输出的第二图像特征进行融合得到第一融合结果,然后将第一融合结果输入第二检测层(predict2)进行检测得到第二检测结果,将第一融合结果与第二卷积网络结构(Convolution2)输出的第一图像特征进行融合得到第二融合结果,然后将第二融合结果输入第三检测层(predict3)进行检测得到第三检测结果。最终将三次检测结果融合处理得到融合特征,根据融合特征对每个目标对象候选区域进行分类识别,输出目标对象的预测结果,输出的预测结果包括目标对象的位置、置信度、类别。
在图3结构中,连接在3x3可分离卷积后的1x1卷积的计算量为:
H×W×4C×C
相对应的图4中这部分的计算量为:
对上式化简得到:
那么有:
(4+G)<(4C)H×W×C(4+G)<H×W×C(4C)
上式说明了,图4中的结构可以减少1x1卷积的计算量,这样的模块用在通道数目较多的时候优势会比较明显。
本发明计算复杂度更低、训练参数更少的网络以满足实际生产环境部署的需求。节省计算、内存资源开销。设计了一个改进的目标检测模型,通过深度可分离卷积进行计算,在保持检测准确率没有下降的同时提高了检测的实时性。本发明所设计的目标对象的检测算法对大目标和小目标兼具良好的检测能力,达到准确识别出目标对象的目的。
本发明使用卷积神经网络提取图像特征,识别效果好;对具有不同语义性和分辨率的特征进行了融合,对不同尺度的目标对象都具有良好的识别能力,目标对象的检测可以帮助机器人观测其运行方向上的障碍物,以此控制运动速度,无障碍物时可加速运行,有障碍物时则可减速运行,以此提升运行效率也可以增加其安全性。另外,目标对象的检测可以给出障碍物信息,为机器人的绕障提供帮助。还有就是,可以提供场景里诸如门、垃圾箱、消防栓、座椅等目标信息,以此获得语义性,帮助机器人构建语义地图。
基于前述实施例,如图8所示,包括:
S100获取图像数据;图像数据包括目标对象;
S210将图像数据,按照第一预设顺序依次顺序输入至对应的分离卷积层后得到第一图像特征;
S220将第一图像特征,按照第二预设顺序输入至对应的分离卷积层后得到第二图像特征;
S230将第二图像特征,按照第三预设顺序输入至对应的分离卷积层后得到第三图像特征;
S310将第三图像特征输入至第一检测层,输出第一检测结果;
S320将第三图像特征与第二图像特征融合得到的第一融合结果输入至第二检测层,输出第二检测结果;
S330将第三图像特征与第一融合结果融合得到的第二融合结果输入至第三检测层,输出第三检测结果;
S335将不同层次的图像特征输入至分类器,输出分类结果;分类结果包括遮挡损失;
S340将第一检测结果,第二检测结果,第三检测结果进行融合处理,得到融合特征;
S350根据融合特征对每个目标对象候选区域进行分类识别,输出目标对象的预测结果;
S360根据目标对象的预测结果,当分类结果达到预设阈值时,输出目标对象在预测结果的空间位置处被遮挡。
具体的,由于机器人格外需要注意各种复杂障碍物,并需要对障碍物进行跟踪测距,那么将障碍物作为目标对象进行检测判断是否被遮挡则是一个非常重要的信息。
进行目标对象是否被遮挡的判断有利于下一步进行目标对象跟踪,以及辅助激光测距。在检测的预测任务中加入了对遮挡的判断。因此输出内容包括位置、置信度、类别、遮挡状态。检测层以YOLO为基础,增加遮挡预测任务。损失函数为:
损失函数L=lcoord+lconf+lclass+λlocclusion
其中,lcoord为位置损失,lconf为置信度损失,lclass为类别损失,locclusion为遮挡损失。
由于遮挡判断是为了方便测距以及激光对目标的感知,根据需求,可以设置当目标对象的一半被遮挡就判定目标对象在预测结果中的空间位置处被遮挡。为了避免出现类别不平衡的现象,遮挡损失采用了focal loss计算,同时进行遮挡判断采用的是softmax分类器,输出的结果为目标对象的位置、置信度、类别和遮挡状态。
基于前述实施例,优选的,S100获取图像数据具体包括步骤:
S010获取图像数据,将图像数据进行灰度化处理;
S020将灰度处理后的图像数据进行归一化处理,得到符合深度可分离神经网络规格的图像数据;
具体的,对所有图像数据进行预先的处理,根据深度可分离卷积网络的要求,将图像数据首先进行灰度处理得到灰度处理后的图像数据,然后将灰度处理后的图像数据进行归一化处理,统一为A*A分辨率的图像数据。
本发明的另一个实施例,如图9所示,包括:
第一获取模块10,用于获取图像数据;图像数据包括目标对象;
处理模块20,用于将图像数据输入至深度可分离神经网络中,提取图像数据中的图像特征;
控制模块30,用于根据不同层次的图像特征进行融合检测,输出目标对象的预测结果。
具体的,本实施例是上述方法实施例对应的装置实施例,具体效果参见上述实施例,在此不再一一赘述。
基于前述实施例,处理模块20包括:
第一分离计算单元,用于将图像数据,按照第一预设顺序依次顺序输入至对应的分离卷积层后得到第一图像特征;
第二分离计算单元,用于将第一图像特征,按照第二预设顺序输入至对应的分离卷积层后得到第二图像特征;
第三分离计算单元,用于将第二图像特征,按照第三预设顺序输入至对应的分离卷积层后得到第三图像特征;
其中,第一预设顺序为第一中级分离卷积层,第一初级分类网络结构,第二初级分类网络结构,第二中级分类网络结构,第三初级分类网络结构,第四初级分类网络结构,第一次级分类网络结构,第三中级分类网络结构,第五初级分类网络结构,第六初级分类网络结构,第一末级分类网络结构,第二次级分类网络结构和标准卷积网络结构;
第二预设顺序为第四中级分类网络结构,第七初级分类网络结构,第八初级分类网络结构,第二末级分类网络结构,第三次级分类网络结构;
第三预设顺序为深度卷积网络结构,第九初级分类网络结构和第四次级分类网络结构;每一个分类网络结构的输出为与之连接的分类网络结构的输入;
第一图像特征,第二图像特征和第三图像特征的层次按照编号顺序递增,层次与语义性成正比,层次与分辨率成反比。
具体的,本实施例是上述方法实施例对应的装置实施例,具体效果参见上述实施例,在此不再一一赘述。
基于前述实施例,控制模块30包括:
第一检测单元,用于将第三图像特征输入至第一检测层,输出第一检测结果;
第二检测单元,用于将第三图像特征与第二图像特征融合得到的第一融合结果输入至第二检测层,输出第二检测结果;
第三检测单元,用于将第三图像特征与第一融合结果融合得到的第二融合结果输入至第三检测层,输出第三检测结果;
融合处理单元,用于将第一检测结果,第二检测结果,第三检测结果进行融合处理,得到融合特征;
识别单元,用于根据融合特征对每个目标对象候选区域进行分类识别,输出目标对象的预测结果;
其中,第一检测结果、第二检测结果,第三检测结果均包括位置损失,置信度损失和类别损失。
具体的,本实施例是上述方法实施例对应的装置实施例,具体效果参见上述实施例,在此不再一一赘述。
基于前述实施例,控制模块30还包括:
第四检测单元,用于将不同层次的图像特征输入至分类器,输出分类结果;分类结果包括遮挡损失;
识别单元,还用于根据目标对象的预测结果,当分类结果达到预设阈值时,输出目标对象在预测结果的空间位置处被遮挡。
具体的,本实施例是上述方法实施例对应的装置实施例,具体效果参见上述实施例,在此不再一一赘述。
基于前述实施例,所述第一获取模块还包括:
获取单元,用于获取图像数据,将图像数据进行灰度化处理;
图像处理单元,用于将灰度处理后的图像数据进行归一化处理,得到符合深度可分离神经网络规格的图像数据。
具体的,本实施例是上述方法实施例对应的装置实施例,具体效果参见上述实施例,在此不再一一赘述。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种基于深度可分离卷积的目标检测方法,其特征在于,包括步骤:
获取图像数据;所述图像数据包括目标对象;
将所述图像数据输入至深度可分离神经网络中,提取所述图像数据中的图像特征;
根据不同层次的图像特征进行融合检测,输出所述目标对象的预测结果。
2.根据权利要求1所述的基于深度可分离卷积的目标检测方法,其特征在于,所述将所述图像数据输入至深度可分离神经网络中,提取所述图像数据中的图像特征具体包括步骤:
将所述图像数据,按照第一预设顺序依次顺序输入至对应的分离卷积层后得到第一图像特征;
将所述第一图像特征,按照第二预设顺序输入至对应的分离卷积层后得到第二图像特征;
将所述第二图像特征,按照第三预设顺序输入至对应的分离卷积层后得到第三图像特征;
其中,所述第一预设顺序为第一中级分离卷积层,第一初级分类网络结构,第二初级分类网络结构,第二中级分类网络结构,第三初级分类网络结构,第四初级分类网络结构,第一次级分类网络结构,第三中级分类网络结构,第五初级分类网络结构,第六初级分类网络结构,第一末级分类网络结构,第二次级分类网络结构和标准卷积网络结构;
所述第二预设顺序为第四中级分类网络结构,第七初级分类网络结构,第八初级分类网络结构,第二末级分类网络结构,第三次级分类网络结构;
所述第三预设顺序为深度卷积网络结构,第九初级分类网络结构和第四次级分类网络结构;每一个分类网络结构的输出为与之连接的分类网络结构的输入;
所述第一图像特征,所述第二图像特征和所述第三图像特征的层次按照编号顺序递增,层次与语义性成正比,层次与分辨率成反比。
3.根据权利要求2所述的基于深度可分离卷积的目标检测方法,其特征在于,所述根据不同层次的图像特征进行融合检测,输出所述目标对象的预测结果具体包括步骤:
将所述第三图像特征输入至第一检测层,输出第一检测结果;
将所述第三图像特征与所述第二图像特征融合得到的第一融合结果输入至第二检测层,输出第二检测结果;
将所述第三图像特征与所述第一融合结果融合得到的第二融合结果输入至第三检测层,输出第三检测结果;
将所述第一检测结果,第二检测结果,第三检测结果进行融合处理,得到融合特征;
根据所述融合特征对每个目标对象候选区域进行分类识别,输出所述目标对象的预测结果;
其中,所述第一检测结果、第二检测结果,第三检测结果均包括位置损失,置信度损失和类别损失。
4.根据权利要求3所述的基于深度可分离卷积的目标检测方法,其特征在于,所述根据所述融合特征对每个目标对象候选区域进行分类识别,输出所述目标对象的预测结果之前包括步骤:
将不同层次的图像特征输入至分类器,输出分类结果;所述分类结果包括遮挡损失;
所述根据所述融合特征对每个目标对象候选区域进行分类识别,输出所述目标对象的预测结果具体包括步骤:
根据所述目标对象的预测结果,当所述分类结果达到预设阈值时,输出所述目标对象在所述预测结果的空间位置处被遮挡。
5.根据权利要求1-4任一项所述的基于深度可分离卷积的目标检测方法,其特征在于,所述获取图像数据具体包括步骤:
获取所述图像数据,将所述图像数据进行灰度化处理;
将灰度处理后的图像数据进行归一化处理,得到符合所述深度可分离神经网络规格的图像数据。
6.一种基于深度可分离卷积的目标检测系统,其特征在于,包括:
第一获取模块,用于获取图像数据;所述图像数据包括目标对象;
处理模块,用于将所述图像数据输入至深度可分离神经网络中,提取所述图像数据中的图像特征;
控制模块,用于根据不同层次的图像特征进行融合检测,输出所述目标对象的预测结果。
7.根据权利要求6所述的基于深度可分离卷积的目标检测系统,其特征在于,所述处理模块包括:
第一分离计算单元,用于将所述图像数据,按照第一预设顺序依次顺序输入至对应的分离卷积层后得到第一图像特征;
第二分离计算单元,用于将所述第一图像特征,按照第二预设顺序输入至对应的分离卷积层后得到第二图像特征;
第三分离计算单元,用于将所述第二图像特征,按照第三预设顺序输入至对应的分离卷积层后得到第三图像特征;
其中,所述第一预设顺序为第一中级分离卷积层,第一初级分类网络结构,第二初级分类网络结构,第二中级分类网络结构,第三初级分类网络结构,第四初级分类网络结构,第一次级分类网络结构,第三中级分类网络结构,第五初级分类网络结构,第六初级分类网络结构,第一末级分类网络结构,第二次级分类网络结构和标准卷积网络结构;
所述第二预设顺序为第四中级分类网络结构,第七初级分类网络结构,第八初级分类网络结构,第二末级分类网络结构,第三次级分类网络结构;
所述第三预设顺序为深度卷积网络结构,第九初级分类网络结构和第四次级分类网络结构;每一个分类网络结构的输出为与之连接的分类网络结构的输入;
所述第一图像特征,所述第二图像特征和所述第三图像特征的层次按照编号顺序递增,层次与语义性成正比,层次与分辨率成反比。
8.根据权利要求7所述的基于深度可分离卷积的目标检测系统,其特征在于,所述控制模块包括:
第一检测单元,用于将所述第三图像特征输入至第一检测层,输出第一检测结果;
第二检测单元,用于将所述第三图像特征与所述第二图像特征融合得到的第一融合结果输入至第二检测层,输出第二检测结果;
第三检测单元,用于将所述第三图像特征与所述第一融合结果融合得到的第二融合结果输入至第三检测层,输出第三检测结果;
融合处理单元,用于将所述第一检测结果,第二检测结果,第三检测结果进行融合处理,得到融合特征;
识别单元,用于根据所述融合特征对每个目标对象候选区域进行分类识别,输出所述目标对象的预测结果;
其中,所述第一检测结果、第二检测结果,第三检测结果均包括位置损失,置信度损失和类别损失。
9.根据权利要求8所述的基于深度可分离卷积的目标检测系统,其特征在于,所述控制模块还包括:
第四检测单元,用于将不同层次的图像特征输入至分类器,输出分类结果;所述分类结果包括遮挡损失;
所述识别单元,还用于根据所述目标对象的预测结果,当所述分类结果达到预设阈值时,输出所述目标对象在所述预测结果的空间位置处被遮挡。
10.根据权利要求6-9任一项所述的基于深度可分离卷积的目标检测系统,其特征在于,所述第一获取模块还包括:
获取单元,用于获取所述图像数据,将所述图像数据进行灰度化处理;
图像处理单元,用于将灰度处理后的图像数据进行归一化处理,得到符合所述深度可分离神经网络规格的图像数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811361916.4A CN109472315B (zh) | 2018-11-15 | 2018-11-15 | 一种基于深度可分离卷积的目标检测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811361916.4A CN109472315B (zh) | 2018-11-15 | 2018-11-15 | 一种基于深度可分离卷积的目标检测方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109472315A true CN109472315A (zh) | 2019-03-15 |
CN109472315B CN109472315B (zh) | 2021-09-24 |
Family
ID=65673809
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811361916.4A Active CN109472315B (zh) | 2018-11-15 | 2018-11-15 | 一种基于深度可分离卷积的目标检测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109472315B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110531774A (zh) * | 2019-09-16 | 2019-12-03 | 京东数字科技控股有限公司 | 机器人避障方法、装置、机器人及计算机可读存储介质 |
CN110598788A (zh) * | 2019-09-12 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 目标检测方法、装置、电子设备及存储介质 |
CN111931793A (zh) * | 2020-08-17 | 2020-11-13 | 湖南城市学院 | 一种显著性目标提取方法及系统 |
CN111951199A (zh) * | 2019-05-16 | 2020-11-17 | 武汉Tcl集团工业研究院有限公司 | 一种图像融合方法及设备 |
WO2020258077A1 (zh) * | 2019-06-26 | 2020-12-30 | 深圳大学 | 一种行人检测方法及装置 |
CN112184729A (zh) * | 2020-09-24 | 2021-01-05 | 上海蜜度信息技术有限公司 | 局部图像的表征获取方法、系统、介质及装置 |
CN113313162A (zh) * | 2021-05-25 | 2021-08-27 | 国网河南省电力公司电力科学研究院 | 一种多尺度特征融合目标检测的方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107527031A (zh) * | 2017-08-22 | 2017-12-29 | 电子科技大学 | 一种基于ssd的室内目标检测方法 |
WO2018067962A1 (en) * | 2016-10-06 | 2018-04-12 | Google Llc | Image processing neural networks with separable convolutional layers |
CN108229442A (zh) * | 2018-02-07 | 2018-06-29 | 西南科技大学 | 基于ms-kcf的图像序列中人脸快速稳定检测方法 |
CN108268936A (zh) * | 2018-01-17 | 2018-07-10 | 百度在线网络技术(北京)有限公司 | 用于存储卷积神经网络的方法和装置 |
CN108382396A (zh) * | 2018-02-02 | 2018-08-10 | 辽宁友邦网络科技有限公司 | 驾驶员驾驶状态识别系统及其应用方法 |
CN108415032A (zh) * | 2018-03-05 | 2018-08-17 | 中山大学 | 一种基于深度学习与激光雷达的点云语义地图构建方法 |
CN108470138A (zh) * | 2018-01-24 | 2018-08-31 | 博云视觉(北京)科技有限公司 | 用于目标检测的方法和装置 |
CN108510473A (zh) * | 2018-03-09 | 2018-09-07 | 天津工业大学 | 结合深度可分离卷积与通道加权的fcn视网膜图像血管分割 |
CN108537776A (zh) * | 2018-03-12 | 2018-09-14 | 维沃移动通信有限公司 | 一种图像风格迁移模型生成方法及移动终端 |
WO2018170393A2 (en) * | 2017-03-17 | 2018-09-20 | Portland State University | Frame interpolation via adaptive convolution and adaptive separable convolution |
-
2018
- 2018-11-15 CN CN201811361916.4A patent/CN109472315B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018067962A1 (en) * | 2016-10-06 | 2018-04-12 | Google Llc | Image processing neural networks with separable convolutional layers |
WO2018170393A2 (en) * | 2017-03-17 | 2018-09-20 | Portland State University | Frame interpolation via adaptive convolution and adaptive separable convolution |
CN107527031A (zh) * | 2017-08-22 | 2017-12-29 | 电子科技大学 | 一种基于ssd的室内目标检测方法 |
CN108268936A (zh) * | 2018-01-17 | 2018-07-10 | 百度在线网络技术(北京)有限公司 | 用于存储卷积神经网络的方法和装置 |
CN108470138A (zh) * | 2018-01-24 | 2018-08-31 | 博云视觉(北京)科技有限公司 | 用于目标检测的方法和装置 |
CN108382396A (zh) * | 2018-02-02 | 2018-08-10 | 辽宁友邦网络科技有限公司 | 驾驶员驾驶状态识别系统及其应用方法 |
CN108229442A (zh) * | 2018-02-07 | 2018-06-29 | 西南科技大学 | 基于ms-kcf的图像序列中人脸快速稳定检测方法 |
CN108415032A (zh) * | 2018-03-05 | 2018-08-17 | 中山大学 | 一种基于深度学习与激光雷达的点云语义地图构建方法 |
CN108510473A (zh) * | 2018-03-09 | 2018-09-07 | 天津工业大学 | 结合深度可分离卷积与通道加权的fcn视网膜图像血管分割 |
CN108537776A (zh) * | 2018-03-12 | 2018-09-14 | 维沃移动通信有限公司 | 一种图像风格迁移模型生成方法及移动终端 |
Non-Patent Citations (7)
Title |
---|
BAI L等: ""A CNN Accelerator on FPGA Using Depthwise Separable Convolutional"", 《ARXIV》 * |
CHOLLET F等: ""Xception:Deep Learning with Depthwise Separable Convolutions"", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
GUO J等: ""Network Decoupling:From Regular to Depthwise Separable Convolutions"", 《29TH THE BRITISH MACHINE VISION CONFERENCE》 * |
KAISE L等: ""Depthwise Separable Convolutions for Neural Machine Translation"", 《ARXIV》 * |
吴天舒等: ""基于改进SSD的轻量化小目标检测算法"", 《红外与激光工程》 * |
姜开永等: ""基于深度学习的人脸美丽预测模型及其应用"", 《五邑大学学报(自然科学版)》 * |
黄小杭等: ""基于YOLO v2的莲蓬快速识别研究"", 《现代农业科技》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111951199A (zh) * | 2019-05-16 | 2020-11-17 | 武汉Tcl集团工业研究院有限公司 | 一种图像融合方法及设备 |
WO2020258077A1 (zh) * | 2019-06-26 | 2020-12-30 | 深圳大学 | 一种行人检测方法及装置 |
CN110598788A (zh) * | 2019-09-12 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 目标检测方法、装置、电子设备及存储介质 |
CN110598788B (zh) * | 2019-09-12 | 2023-06-30 | 腾讯科技(深圳)有限公司 | 目标检测方法、装置、电子设备及存储介质 |
CN110531774A (zh) * | 2019-09-16 | 2019-12-03 | 京东数字科技控股有限公司 | 机器人避障方法、装置、机器人及计算机可读存储介质 |
CN111931793A (zh) * | 2020-08-17 | 2020-11-13 | 湖南城市学院 | 一种显著性目标提取方法及系统 |
CN111931793B (zh) * | 2020-08-17 | 2024-04-12 | 湖南城市学院 | 一种显著性目标提取方法及系统 |
CN112184729A (zh) * | 2020-09-24 | 2021-01-05 | 上海蜜度信息技术有限公司 | 局部图像的表征获取方法、系统、介质及装置 |
CN112184729B (zh) * | 2020-09-24 | 2024-04-19 | 天津蜜度文修智能科技有限公司 | 局部图像的表征获取方法、系统、介质及装置 |
CN113313162A (zh) * | 2021-05-25 | 2021-08-27 | 国网河南省电力公司电力科学研究院 | 一种多尺度特征融合目标检测的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109472315B (zh) | 2021-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109472315A (zh) | 一种基于深度可分离卷积的目标检测方法和系统 | |
CN111931624B (zh) | 基于注意力机制的轻量级多分支行人重识别方法及系统 | |
CN114202696A (zh) | 基于上下文视觉的sar目标检测方法、装置和存储介质 | |
CN108805070A (zh) | 一种基于嵌入式终端的深度学习行人检测方法 | |
CN110188705A (zh) | 一种适用于车载系统的远距离交通标志检测识别方法 | |
CN108416327A (zh) | 一种目标检测方法、装置、计算机设备及可读存储介质 | |
CN110929578A (zh) | 一种基于注意力机制的抗遮挡行人检测方法 | |
CN110458095A (zh) | 一种有效手势的识别方法、控制方法、装置和电子设备 | |
Gong et al. | Object detection based on improved YOLOv3-tiny | |
CN107133569A (zh) | 基于泛化多标记学习的监控视频多粒度标注方法 | |
CN107016357A (zh) | 一种基于时间域卷积神经网络的视频行人检测方法 | |
CN110378222A (zh) | 一种输电线路防震锤目标检测与缺陷识别方法及装置 | |
CN108960015A (zh) | 一种基于深度学习的车系自动识别方法及装置 | |
CN107844743A (zh) | 一种基于多尺度分层残差网络的图像多字幕自动生成方法 | |
CN115222946B (zh) | 一种单阶段实例图像分割方法、装置以及计算机设备 | |
CN110598586A (zh) | 一种目标检测方法及系统 | |
CN109376676A (zh) | 基于无人机平台的公路工程现场施工人员安全预警方法 | |
CN110348447A (zh) | 一种具有丰富空间信息的多模型集成目标检测方法 | |
CN107944386A (zh) | 基于卷积神经网络的视觉场景识别方法 | |
CN109657715A (zh) | 一种语义分割方法、装置、设备及介质 | |
CN110232418A (zh) | 一种语义识别方法、终端及计算机可读存储介质 | |
CN110298281A (zh) | 视频结构化方法、装置、电子设备及存储介质 | |
CN109712171A (zh) | 一种基于相关滤波器的目标跟踪系统及目标跟踪方法 | |
CN116740516A (zh) | 基于多尺度融合特征提取的目标检测方法及系统 | |
Gopal et al. | Tiny object detection: Comparative study using single stage CNN object detectors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |