CN113408429A - 一种具有旋转适应性的目标检测方法及系统 - Google Patents
一种具有旋转适应性的目标检测方法及系统 Download PDFInfo
- Publication number
- CN113408429A CN113408429A CN202110691509.5A CN202110691509A CN113408429A CN 113408429 A CN113408429 A CN 113408429A CN 202110691509 A CN202110691509 A CN 202110691509A CN 113408429 A CN113408429 A CN 113408429A
- Authority
- CN
- China
- Prior art keywords
- feature map
- map
- image
- feature
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
一种具有旋转适应性的目标检测方法及系统,对待检测图像进行特征提取,得到初级特征图像;对初级特征图像进行回归处理,得到尺寸特征图、角度特征图和位置分类特征图;对所述尺寸特征图、角度特征图、位置分类特征图和初级特征图像进行特征融合处理,获得融合特征图,并根据融合特征图进行卷积和全连接运算,得到筛选结果概率图;根据所述筛选结果概率图,进行概率融合运算处理,获得综合筛选结果概率图,以输出目标检测结果;所述目标检测结果包括目标的位置、尺寸、角度和目标类别。本发明解决了目标检测问题中对于旋转物体的适应性问题,使得本发明不仅可以返回物体的位置、尺寸和类别,还可以返回物体的角度。
Description
技术领域
本发明涉及一种具有旋转适应性的目标检测方法及系统。
背景技术
目标检测是一项具有挑战性的计算机视觉任务,同时在诸多领域有应用前景,包含人脸识别、搜寻抢险、智能交通等等。传统的目标检测方法主要通过人为设计待检测目标的特征,从而实现目标检测,该方法非常繁琐,同时由于目标特征难提取、不稳定等特性,使得这种方式既低效、又缺乏鲁棒性。近年来随着深度学习方法的提出和应用,目标检测任务的相关领域也获得了诸多里程碑的成果,在目标的检测精度和检测速度方面都取得了巨大提升。基于深度学习的目标检测方法主要分为单步检测和两步检测,单步检测算法检测速度快,但牺牲了一部分精度,难以达到高精度检测要求,两步检测算法首先提取候选区域,再对候选区域进行定位和分类,具有较高精度,但检测速度慢,难以满足实时性要求。
在一个算力有限的微型计算设备上对图像中的旋转物体进行实时的目标检测是一个比较困难的问题。旋转目标检测通常出现在配合机器人引导中的旋转物体检测或者是倾斜的物体检测当中,现有的深度神经网络旋转目标检测方法依赖比较厚重的基础神经网络提取图像特征,使得方法难以在微型计算设备上运行,对网络进行量化、剪枝或设计轻量化的网络结构是一大趋势。同时,常见的深度神经网络旋转目标检测方法并不能给出运动物体的姿态,比如车辆的朝向。
当前目标检测主要输出信息为目标物体的位置(xc,yc)、大小(w,h)和类别(即目标物体是什么物体),并没有输出物体的角度,如果是长宽比比较大的物体,旋转后的外包矩形区域仅仅占据了有效面积的很小的一部分,目标检测的准确率和精度都会下降。一些场景中,为了配合机器人的抓取和拣选,也需要输出物体的旋转角度,配合机械手姿态完成物体的抓取。本发明重点解决目标检测问题中对于旋转物体的适应性问题。
发明内容
如上所述,本发明重点解决目标检测问题中对于旋转物体的适应性问题,使得本发明不仅可以返回物体的位置、尺寸和类别,还可以返回物体的角度,从而可以实现机器人抓取、拣选等复杂场景的识别需求。
根据第一方面,一种实施例中提供一种具有旋转适应性的目标检测方法,包括:
获取待检测图像;
将所述待检测图像输入到目标检测模型中进行处理,得到目标检测结果;其中所述将所述待检测图像输入到目标检测模型中进行处理,包括:
对所述待检测图像进行特征提取,得到初级特征图像;
对所述初级特征图像进行回归处理,得到尺寸特征图、角度特征图和位置分类特征图;所述尺寸特征图中像素点的像素点值,为待检测图像中像素点对应的检测目标的长度和宽度;角度特征图中像素点的像素点值,为待检测图像中像素点对应的检测目标的旋转角度;位置分类特征图中像素点的像素值,为待检测图像中像素点属于检测目标的概率;
对所述尺寸特征图、角度特征图、位置分类特征图和初级特征图像进行特征融合处理,获得融合特征图,并根据融合特征图进行卷积和全连接运算,得到筛选结果概率图;所述筛选结果概率图包括第一筛选结果概率图和/或第二筛选结果概率图;
根据所述筛选结果概率图,进行概率融合运算处理,获得综合筛选结果概率图,以输出目标检测结果;所述目标检测结果包括目标的位置、尺寸、角度和目标类别。
一实施例中,所述得到筛选结果概率图,包括:
根据所述角度特征图像和位置分类特征图,得到旋转角度特征图;
对所述初级特征图进行1x1的卷积处理,得到卷积后的特征图;
根据所述旋转角度特征图所表征的旋转角度,对所述卷积后的特征图进行处理,得到第一旋转后特征图;该处理包括旋转采样和RoIAlign处理,或者,旋转采样和RoIPooling处理,或者,旋转池化处理;
对所述第一旋转后特征图进行卷积和全连接运算,得到所述第一筛选结果概率图。
一实施例中,所述得到筛选结果概率图,包括:
对所述初级特征图进行卷积和激活函数运算,得到卷积激活后的初级特征图;
根据卷积激活前和后的初级特征图得到融合特征图;
根据所述角度特征图像和位置分类特征图,得到旋转角度特征图;
根据所述旋转角度特征图所表征的旋转角度,对所述融合特征图进行处理,得到第二旋转后特征图;该处理包括旋转采样和RoIAlign处理,或者,旋转采样和RoIPooling处理,或者,旋转池化处理;
对所述第二旋转后特征图进行卷积和全连接运算,得到所述第二筛选结果概率图。
一实施例中,所述根据卷积激活前和后的初级特征图得到融合特征图,包括:
将所述卷积激活前和后的初级特征图进行通道叠加,得到特征图[X0,X1],其中X0表示卷积激活前的初级特征图,X1表示卷积激活后的初级特征图;
将所述特征图[X0,X1]进行激活函数运算,得到特征图D;
将所述初级特征图X0与初级特征图X1相加,得到特征图Xc=X0+X1;
对相加后的特征图Xc进行通道间的平均池化,以将H×W×C通道的特征图转Xc换为H×W×1通道的特征图ZH,W;
对特征图ZH,W进行激活函数ReLU运算,得到特征图Zs;
对特征图Zs进行激活函数Sigmoid运算,得到特征图Z;
一实施例中,所述旋转采样,包括:
通过大小为(2m+1)×(2n+1)的图像区域进行旋转角度θ的旋转采样,得到图像区域内的点旋转后的坐标为:
其中x∈[x0-m,x0+m],y∈[y0-n,y0+n],m为候选框的长度的一半并向下取整,n为当前候选框的宽度的一半并向下取整,候选框由所述尺度特征图得到,(x0,y0)为中心点,旋转角度θ由所述旋转角度特征图得到。
一实施例中,所述旋转池化,包括:
计算网格的个数:
其中候选框表示为(x,y,w,h,θ),括号中参数分别表示候选框的中心点的x坐标,y坐标,候选框的宽度,长度和角度,候选框由所述尺度特征图和所述旋转角度特征图得到;(wp,hp)表示需要池化的大小尺寸;
对任意一像素(i,j)∈{0,…,wp}×{0,…,hp},都进行旋转坐标的反映射计算,包括:
先获取每个网格左上角的坐标点:
再获取(xl,yt)旋转后的坐标:
其中s表示缩放系数;
取网格内像素值的极大值或平均值完成池化。
一实施例中,所述根据所述角度特征图像和位置分类特征图,得到旋转角度特征图,包括:
一实施例中,所述根据所述筛选结果概率图,进行概率融合运算处理,获得综合筛选结果概率图,以输出目标检测结果,包括:
根据所述第一筛选结果概率图和第二筛选结果概率图,计算综合筛选结果概率图:
根据所述综合筛选结果概率图,对所述尺寸特征图、角度特征图和位置分类特征图进行判断,并输出目标检测结果。
根据第二方面,一种实施例中提供一种具有旋转适应性的目标检测系统,其特征在于,包括:
存储器,用于存储程序;
处理器,用于通过执行所述存储器存储的程序以实现如本文中任一实施例所述的目标检测方法。
根据第三方面,一种实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有程序,所述程序能够被处理器执行以实现如本文中任一实施例所述的方法。
依据上述实施例的具有旋转适应性的目标检测方法、系统和计算机可读存储介质,解决了目标检测问题中对于旋转物体的适应性问题,使得本发明不仅可以返回物体的位置、尺寸和类别,还可以返回物体的角度,从而可以实现机器人抓取、拣选等复杂场景的识别需求。
附图说明
图1为一种实施例的具有旋转适应性的目标检测方法和系统中所涉及到模型结构网络的示意图;
图2为一种实施例的特征融合的一个运算过程图;
图3(a)和图3(b)分别为特征提取网络的两个示意图;
图4为一种实施例的具有旋转适应性的目标检测方法的流程图;
图5为一种实施例的一种目标检测模型的训练方法的流程图;
图6为一种实施例的旋转采样的示意框图;
图7为一种实施例的旋转池化的示意图;
图8为一种实施例的将待检测图像输入到目标检测模型中进行处理得到目标检测结果的流程图;
图9为一种实施例的得到筛选结果概率图的流程图;
图10为一种实施例的得到筛选结果概率图的流程图;
图11为一种实施例的根据筛选结果概率图,对所述尺寸特征图、角度特征图和位置分类特征图进行判断,以输出目标检测结果的流程图;
图12为一种实施例的具有旋转适应性的目标检测系统的结构示意图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
本文中为部件所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。而本申请所说“连接”、“联接”,如无特别说明,均包括直接和间接连接(联接)。
为了更好地理解本发明,先对现有技术进行一个认识、整理和思考。
基于深度学习的目标检测方法主要分为单步检测和两步检测,它们各有优缺点:单步检测算法检测速度快,但牺牲了一部分精度,难以达到高精度检测要求;两步检测算法则首先提取候选区域,再对候选区域进行定位和分类,具有较高精度,但检测速度慢,难以满足实时性要求;并且这两种检测方法均没有返回物体的姿态,无法配合机器人完成带有姿态物体的抓取、拣选以及进行精确的轨迹规划问题,从而实现料框避障等。
单步检测经典模型包括YOLO系列和SSD模型,两步检测以Faster RCNN为代表,单步和两步检测从模型架构上具有明显区别,包括检测器检测的特征以及模型训练优化的步骤,但两者作为目标检测的主要算法,在整体的流程上仍然具有一致性,针对一幅输入图像,首先是基础的特征提取网络实现对低维像素信息进行处理,构建高维特征信息,而后检测器基于高维特征实现对目标中心点、包围框尺寸进行预测。小目标检测以及旋转目标检测是继经典目标任务后的又一重要计算机视觉任务,小目标像素少、图像占比少,同时非常容易在卷积神经网络的特征提取过程中被忽略,因此检测难度大。近年有诸多算法针对小目标进行模型设计,利用低维特征结合高维特征进行小目标预测,避免随着卷积深度的增加导致小目标特征被忽略,影响最终的预测结果。在航拍图像中,具有诸多目标聚集区域,如停车场、海港、机场等等,在这些聚集度高的区域,采用传统的水平框,经过非极大值抑制,会出现大量目标框被抑制的情况,导致检测结果中大量目标缺失,采用旋转框进行目标检测能够有效避免该问题,同时实现更加精准的定位预测,但旋转框预测,既需要对检测模型架构进行重新设计,包含预测参数、损失函数等等,又需要相关的图像数据和对应的旋转标签支持,保证模型正确收敛。
请参照图1,本发明提出一种不基于候选框的单步法的具有旋转适应性的目标检测方案,采用由粗到精的定位策略,先根据回归方法,获取回归的初步结果特征图,然后根据回归的结果进行高级特征的组合运算,将结果的进一步筛选问题转化为分类问题,提升目标物体筛选的速度和精度,具有实时性和环境适应性。本发明提出的基于非候选框的处理思路,不进行候选点的计算,而是直接根据回归处理进行回归处理,获得回归的类别、角度以及中心点是否为候选框的信息,然后基于这些特征信息进行进一步的筛选和判断;后续的判断和筛选,主要是根据分类进行判断,判断前面的结果为真的可能性的概率,将前面可能性概率低的结果筛选掉,然后获取最终的结果,输出定位的位置、长宽及角度信息。
下面结合图1和图2,再进行一个详细的说明。
本发明基于非候选框的设计思路为:首先认为每个点都可能是目标检测的物体,回归相应的参数,然后根据回归的参数,进行更详细的阈值判断筛选,将概率低的排除掉,最终检测的概率高的即为最后的检测结果,输出最终的位置、角度和尺寸信息。本部分尺寸回归是回归得到一个2通道的特征图,分别对应目标物体的宽度、高度,角度回归得到目标物体的旋转角度,对应1个通道,位置分类表示中心点是否为目标物体,对应1个通道。那么需要根据这些回归的结果获得概率的分析,剔除概率低的候选结果,这个部分主要根据高级特征提取和回归的特征图的结果进行一个综合的分析和转换。因此在设计时可以包括特征提取网络、初级特征提取网络、预测网络和样本筛选网络等。具体地,特征提取网络用于提取输入图像的图像特征,输入图像上包括至少一个检测目标;初级特征提取网络用于获取输入图像用于回归和筛选的低级特征;预测网络用于对图像特征预测得到尺寸图像、角度图像和中心点图像,尺寸图像中像素点的像素值为像素点对应的所述检测目标的长度和宽度,角度图像中像素点的像素值为像素点所对应的检测目标的倾斜角度,中心点图像中像素点的像素值为中心点为检测目标的概率;样本筛选网络用于对图像特征进行旋转卷积,获得检测目标的中心点和分类概率,然后对结果进行一个综合预测和判断。
设回归模块输出的角度特征图为θp,位置分类特征图为cp,如果预测为是可能含有物体的中心点时cp中对应像素的数值接近于1,否则接近于0,因此可以将位置特征图的结果作为角度的掩膜信息进行候选点的筛选计算 表示元素乘法运算,也即哈达玛积。因此根据旋转角度θ′p,可以根据模板的范围(2m+1)×(2n+1)对于每一点进行旋转采样,将其与卷积核进行卷积运算,即可得到旋转采样后进行卷积运算的特征图,将旋转卷积后的特征图进行卷积和全连接运算,可以获得第一筛选结果概率图r1。
上一步的结果考虑了根据初级特征作为输入,得到第一判定结果,还可以考虑综合的特征结果,因此在第二筛选结果概率图r2的运算过程中,可以考虑更高级的特征作为输入,然后进行旋转采样和卷积运算,可得到旋转采样后进行卷积运算的特征图,将旋转卷积后的特征图进行卷积和全连接运算,即可得到获得第二筛选结果概率图r2。
如图2所示,为特征融合的示意图:
根据上图对原理进行一个阐述说明,D=Gd([X0,X1]),那么可以获得:
Gd表示sigmoid激活函数的运算,Wd表示需要训练的网络权重系数向量。
对于另一条支路,可以获得Z=Gz(X0+X1),因此可以获得融合后特征为:
对于Z的计算采用下面的方法进行处理:
首先对Xc=X0+X1这一特征图进行通道间的平均池化,也就是将原来的H×W×C通道的特征图转换为H×W×1的特征图,然后进行处理:
那么Z=sigmoid(Zs)。
获得XFusion后可以根据XFusion的结果进行卷积和全连接处理,获得第二筛选的结果r2。
对于X0、X1特征图的计算,可以这样来进行:X0为初级特征提取模块输出的特征,X1由X0通过1×1卷积和激活函数运算得到。
本文中多处涉及到对特征提取例如初级特征提取的问题,这可以通过卷积神经网络来实现诸如初级特征提取网络。请参照图3(a)和图3(b),可以通过卷积神经网络来实现特征提取。具体地,图3(a)展示了一个FPN特征金字塔网络结构。FPN是一种利用常规CNN模型来高效提取图片中各维度特征的方法,其通过利用常规CNN模型内部从底至上各个层对同一scale(尺度)图片不同维度的特征表达结构,提出了一种可有效在单一图片视图下生成对其的多维度特征表达的方法,它可以有效地赋能常规CNN模型,从而可以生成出表达能力更强的特征图像以供下一阶段计算机视觉任务像目标检测来使用。从图3(a)这一具体的FPN特征金字塔网络结构可以看到,其主要通过卷积、池化、上采样运算以及特征求和运算来获取多个尺度的特征图。图3(b)则主要通过卷积、池化、上采样运算以及特征求和运算来获取单个尺度的特征图,然后再进行通道拼接,其中conv表示卷积操作,up表示上采样操作,x2表示上采样倍数为2倍,类似地,upx4表示上采样倍数为4倍,upx8表示上采样倍数为8倍。卷积神经网络长期以来是图像识别领域的核心算法之一,并在学习数据充足时有稳定的表现;对于一般的大规模图像分类问题,卷积神经网络可用于构建阶层分类器,也可以在精细分类识别中用于提取图像的判别特征以供其它分类器进行学习;对于后者,特征提取可以人为地将图像的不同部分分别输入卷积神经网络,也可以由卷积神经网络通过非监督学习自行提取;通过设置卷积层的数量等,可以提取包括不同尺度的若干层特征图。
根据上面的描述,请参照图4,本发明一些实施例中提供一种具有旋转适应性的目标检测方法,其包括以下步骤:
步骤100:获取待检测图像;
步骤200:将所述待检测图像输入到目标检测模型中进行处理,得到目标检测结果。
下对先对如何训练目标检测模型进行说明。
请参照图5,一些实施例中,公开一种目标检测模型的训练方法,包括以下步骤:
步骤500:获取训练图像样本。
步骤510:对训练图像样本进行特征提取,得到初级特征图像。例如可以将训练图像样本输入一层或多层卷积网络中,得到初级特征图像。
步骤520:对上述初级特征图像进行回归处理,得到尺寸特征图、角度特征图和位置分类特征图;尺寸特征图中像素点的像素点值,为训练图像样本中像素点对应的检测目标的长度和宽度;角度特征图中像素点的像素点值,为训练图像样本中像素点对应的检测目标的旋转角度;位置分类特征图中像素点的像素值,为训练图像样本中像素点属于检测目标的概率;
步骤530:对所述尺寸特征图、角度特征图、位置分类特征图和初级特征图像进行特征融合处理,获得融合特征图,并根据融合特征图进行卷积和全连接运算,得到筛选结果概率图。
一些实施例中,步骤530中的筛选结果概率图包括第一筛选结果概率图和/或第二筛选结果概率图。
一些实施例中,第一筛选结果概率图可以这样来得到:根据所述角度特征图像和位置分类特征图,得到旋转角度特征图,例如将角度特征图像和位置分类特征图的对应元素进行相乘,如下述公式:
然后对上述初级特征图进行1*1的卷积处理,得到卷积后的特征图;再根据旋转角度特征图θ′p所表征的旋转角度,对所述卷积后的特征图进行处理,得到第一旋转后特征图;该处理包括旋转采样和RoIAlign处理,或者,旋转采样和RoIPooling处理,或者,旋转池化处理;再对所述第一旋转后特征图进行卷积和全连接运算,得到所述第一筛选结果概率图。
一些实施例中,第二筛选结果概率图可以这样来得到:
对所述初级特征图进行卷积和激活函数运算,得到卷积激活后的初级特征图;根据卷积激活前和后的初级特征图得到融合特征图;根据所述角度特征图像和位置分类特征图,得到旋转角度特征图θ′p——具体过程可以参照上文的描述,在此不再赘述;根据所述旋转角度特征图θ′p所表征的旋转角度,对所述融合特征图进行处理,得到第二旋转后特征图;该处理包括旋转采样和RoIAlign处理,或者,旋转采样和RoIPooling处理,或者,旋转池化处理;对所述第二旋转后特征图进行卷积和全连接运算,得到所述第二筛选结果概率图。
其中,第二筛选结果概率图的获取过程中涉及到融合特征图,融合特征图可以这样来得到:
将所述卷积激活前和后的初级特征图进行通道叠加,得到特征图[X0,X1],其中X0表示卷积激活前的初级特征图,X1表示卷积激活后的初级特征图;
将所述特征图[X0,X1]进行激活函数运算,得到特征图D:
D=Gd([X0,X1]);
其中,Gd表示sigmoid激活函数的运算;
其中Wd表示需要训练的网络权重系数向量。
将初级特征图X0与初级特征图X1相加,得到特征图Xc=X0+X1;
对相加后的特征图Xc进行通道间的平均池化,以将H×W×C通道的特征图转Xc换为H×W×1通道的特征图ZH,W;
对特征图ZH,W进行激活函数ReLU运算,得到特征图Zs;
对特征图Zs进行激活函数Sigmoid运算,得到特征图Z;
本部分在融合特征图过程中,或者说高级特征融合过程中,首先对X0、X1进行一个通道叠加,得到新的特征图[X0,X1],然后根据融合信息的结果进行一个选择,这个选择的输入是新的特征图[X0,X1],根据特征图进行一个特征的选择,Gd([X0,X1])=sigmoid(Wd×[X0,X1])。另一条支路采取通道求和的方法进行处理,获得融合通道的权重。
步骤530中涉及四种操作:旋转采样、旋转池化、RoIAlign处理和RoIPooling处理。
RoIAlign是在Mask-RCNN这篇论文里提出的一种区域特征聚集方式;RoIPooling是使用卷积神经网络在目标检测任务中广泛使用的操作。
请配合图6,旋转采样操作可以这样来进行:
通过大小为(2m+1)×(2n+1)的图像区域进行旋转角度θ的旋转采样,得到图像区域内的点旋转后的坐标为:
其中x∈[x0-m,x0+m],y∈[y0-n,y0+n],m为候选框的长度的一半并向下取整,n为当前候选框的宽度的一半并向下取整,候选框由所述尺度特征图得到,(x0,y0)为中心点,旋转角度θ由角度特征图或下文提及的旋转角度特征图得到。
旋转池化操作可以这样来进行:
计算网格的个数:
其中候选框表示为(x,y,w,h,θ),括号中参数分别表示候选框的中心点的x坐标,y坐标,候选框的宽度,长度和角度,候选框由所述尺度特征图和所述旋转角度特征图得到;(wp,hp)表示需要池化的大小尺寸;
对任意一像素(i,j)∈{0,…,wp}×{0,…,hp},都进行旋转坐标的反映射计算,包括:
先获取每个网格左上角的坐标点:
再获取(xl,yt)旋转后的坐标:
其中s表示缩放系数;
取网格内像素值的极大值或平均值完成池化。
图7为旋转池化的一个例子。
以上对步骤530中涉及四种操作——旋转采样、旋转池化、RoIAlign处理和RoIPooling处理,进行了说明。
步骤540:根据所述筛选结果概率图,进行概率融合运算处理,获得综合筛选结果概率图,以输出目标检测结果;所述目标检测结果包括目标的位置、尺寸、角度和目标类别。
例如步骤540根据所述第一筛选结果概率图和第二筛选结果概率图,计算综合筛选结果概率图:
步骤540再根据所述综合筛选结果概率图,对所述尺寸特征图、角度特征图和位置分类特征图进行判断,并输出目标检测结果。
以上就是目标检测模型的训练方法的一些说明。
下面对具有旋转适应性的目标检测方法中,步骤200,将待检测图像输入到目标检测模型中进行处理得到目标检测结果,这一过程和步骤进行说明。
请参照图8,一些实施例中,步骤200将待检测图像输入到目标检测模型中进行处理得到目标检测结果,包括以下步骤:
步骤210:对待检测图像进行特征提取,得到初级特征图像X0;
步骤220:对初级特征图像X0进行回归处理,得到尺寸特征图、角度特征图和位置分类特征图;尺寸特征图中像素点的像素点值,为待检测图像中像素点对应的检测目标的长度和宽度;角度特征图中像素点的像素点值,为待检测图像中像素点对应的检测目标的旋转角度;位置分类特征图中像素点的像素值,为待检测图像中像素点属于检测目标的概率。
步骤230:对所述尺寸特征图、角度特征图、位置分类特征图和初级特征图像X0进行处理,获得融合特征图XFusion,并根据融合特征图XFusion进行卷积和全连接运算得到筛选结果概率图。
一些实施例中,步骤230中的筛选结果概率图包括第一筛选结果概率图r1和/或第二筛选结果概率图r2。
一些实施例中,请参照图9,步骤230得到筛选结果概率图,包括以下步骤:
步骤231:根据角度特征图像和位置分类特征图,得到旋转角度特征图;例如:
步骤232:对所述初级特征图X0进行1*1的卷积处理,得到卷积后的特征图;
步骤233:根据所述旋转角度特征图θ′p所表征的旋转角度,对所述卷积后的特征图进行处理,得到第一旋转后特征图;该处理包括旋转采样和RoIAlign处理,或者,旋转采样和RoIPooling处理,或者,旋转池化处理。
步骤234:对第一旋转后特征图进行卷积和全连接运算,得到所述第一筛选结果概率图r1。
一些实施例中,请参照图10,步骤230得到筛选结果概率图,包括以下步骤:
步骤235:对所述初级特征图X0进行卷积和激活函数运算,得到卷积激活后的初级特征图X1;
步骤236:根据卷积激活前和后的初级特征图X0和X1得到融合特征图XFusion;
步骤237:根据所述角度特征图像和位置分类特征图,得到旋转角度特征图;例如:
步骤238:根据所述旋转角度特征图θ′p所表征的旋转角度,对所述融合特征图XFusion进行处理,得到第二旋转后特征图;该处理包括旋转采样和RoIAlign处理,或者,旋转采样和RoIPooling处理,或者,旋转池化处理;
步骤239:对所述第二旋转后特征图进行卷积和全连接运算,得到所述第二筛选结果概率图r2。
步骤230及其子步骤231至239中涉及四种操作:旋转采样、旋转池化、RoIAlign处理和RoIPooling处理,这四种操作的说明可以参照上文的详细描述,在此不再赘述。
步骤240:根据所述筛选结果概率图,进行概率融合运算处理,获得综合筛选结果概率图,以输出目标检测结果;所述目标检测结果包括目标的位置、尺寸、角度和目标类别。
请参照图11,一些实施例中步骤240包括以下步骤:
步骤241:根据所述第一筛选结果概率图和第二筛选结果概率图,计算综合筛选结果概率图:
步骤242:根据所述综合筛选结果概率图,对所述尺寸特征图、角度特征图和位置分类特征图进行判断,并输出目标检测结果。
请参照图12,本文一些实施例中还公开了一种具有旋转适应性的目标检测系统,其包括存储器10和处理器30,处理器30用于通过执行所述存储器10存储的程序以实现本文中任一实施例所述的目标检测方法。
本发明一些实施例所公开的具有旋转适应性的目标检测方法及系统,重点解决目标检测问题中对于旋转物体的适应性问题,使得本发明不仅可以返回物体的位置、尺寸和类别,还可以返回物体的角度,从而可以实现机器人抓取、拣选等复杂场景的识别需求;另外,对于小物体而言,旋转检测可以实现更稳定的识别效果,旋转检测过程中可以对物体实现旋转采样。
本文参照了各种示范实施例进行说明。然而,本领域的技术人员将认识到,在不脱离本文范围的情况下,可以对示范性实施例做出改变和修正。例如,各种操作步骤以及用于执行操作步骤的组件,可以根据特定的应用或考虑与系统的操作相关联的任何数量的成本函数以不同的方式实现(例如一个或多个步骤可以被删除、修改或结合到其他步骤中)。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。另外,如本领域技术人员所理解的,本文的原理可以反映在计算机可读存储介质上的计算机程序产品中,该可读存储介质预装有计算机可读程序代码。任何有形的、非暂时性的计算机可读存储介质皆可被使用,包括磁存储设备(硬盘、软盘等)、光学存储设备(CD至ROM、DVD、Blu Ray盘等)、闪存和/或诸如此类。这些计算机程序指令可被加载到通用计算机、专用计算机或其他可编程数据处理设备上以形成机器,使得这些在计算机上或其他可编程数据处理装置上执行的指令可以生成实现指定的功能的装置。这些计算机程序指令也可以存储在计算机可读存储器中,该计算机可读存储器可以指示计算机或其他可编程数据处理设备以特定的方式运行,这样存储在计算机可读存储器中的指令就可以形成一件制造品,包括实现指定功能的实现装置。计算机程序指令也可以加载到计算机或其他可编程数据处理设备上,从而在计算机或其他可编程设备上执行一系列操作步骤以产生一个计算机实现的进程,使得在计算机或其他可编程设备上执行的指令可以提供用于实现指定功能的步骤。
虽然在各种实施例中已经示出了本文的原理,但是许多特别适用于特定环境和操作要求的结构、布置、比例、元件、材料和部件的修改可以在不脱离本披露的原则和范围内使用。以上修改和其他改变或修正将被包含在本文的范围之内。
前述具体说明已参照各种实施例进行了描述。然而,本领域技术人员将认识到,可以在不脱离本披露的范围的情况下进行各种修正和改变。因此,对于本披露的考虑将是说明性的而非限制性的意义上的,并且所有这些修改都将被包含在其范围内。同样,有关于各种实施例的优点、其他优点和问题的解决方案已如上所述。然而,益处、优点、问题的解决方案以及任何能产生这些的要素,或使其变得更明确的解决方案都不应被解释为关键的、必需的或必要的。本文中所用的术语“包括”和其任何其他变体,皆属于非排他性包含,这样包括要素列表的过程、方法、文章或设备不仅包括这些要素,还包括未明确列出的或不属于该过程、方法、系统、文章或设备的其他要素。此外,本文中所使用的术语“耦合”和其任何其他变体都是指物理连接、电连接、磁连接、光连接、通信连接、功能连接和/或任何其他连接。
具有本领域技术的人将认识到,在不脱离本发明的基本原理的情况下,可以对上述实施例的细节进行许多改变。因此,本发明的范围应仅由权利要求确定。
Claims (10)
1.一种具有旋转适应性的目标检测方法,其特征在于,包括:
获取待检测图像;
将所述待检测图像输入到目标检测模型中进行处理,得到目标检测结果;其中所述将所述待检测图像输入到目标检测模型中进行处理,包括:
对所述待检测图像进行特征提取,得到初级特征图像;
对所述初级特征图像进行回归处理,得到尺寸特征图、角度特征图和位置分类特征图;所述尺寸特征图中像素点的像素点值,为待检测图像中像素点对应的检测目标的长度和宽度;角度特征图中像素点的像素点值,为待检测图像中像素点对应的检测目标的旋转角度;位置分类特征图中像素点的像素值,为待检测图像中像素点属于检测目标的概率;
对所述尺寸特征图、角度特征图、位置分类特征图和初级特征图像进行特征融合处理,获得融合特征图,并根据融合特征图进行卷积和全连接运算,得到筛选结果概率图;所述筛选结果概率图包括第一筛选结果概率图和/或第二筛选结果概率图;
根据所述筛选结果概率图,进行概率融合运算处理,获得综合筛选结果概率图,以输出目标检测结果;所述目标检测结果包括目标的位置、尺寸、角度和目标类别。
2.如权利要求1所述的目标检测方法,其特征在于,所述得到筛选结果概率图,包括:
根据所述角度特征图像和位置分类特征图,得到旋转角度特征图;
对所述初级特征图进行1x1的卷积处理,得到卷积后的特征图;
根据所述旋转角度特征图所表征的旋转角度,对所述卷积后的特征图进行处理,得到第一旋转后特征图;该处理包括旋转采样和RoIAlign处理,或者,旋转采样和RoIPooling处理,或者,旋转池化处理;
对所述第一旋转后特征图进行卷积和全连接运算,得到所述第一筛选结果概率图。
3.如权利要求1所述的目标检测方法,其特征在于,所述得到筛选结果概率图,包括:
对所述初级特征图进行卷积和激活函数运算,得到卷积激活后的初级特征图;
根据卷积激活前和后的初级特征图得到融合特征图;
根据所述角度特征图像和位置分类特征图,得到旋转角度特征图;
根据所述旋转角度特征图所表征的旋转角度,对所述融合特征图进行处理,得到第二旋转后特征图;该处理包括旋转采样和RoIAlign处理,或者,旋转采样和RoIPooling处理,或者,旋转池化处理;
对所述第二旋转后特征图进行卷积和全连接运算,得到所述第二筛选结果概率图。
4.如权利要求3所述的目标检测方法,其特征在于,所述根据卷积激活前和后的初级特征图得到融合特征图,包括:
将所述卷积激活前和后的初级特征图进行通道叠加,得到特征图[X0,X1],其中X0表示卷积激活前的初级特征图,X1表示卷积激活后的初级特征图;
将所述特征图[X0,X1]进行激活函数运算,得到特征图D;
将所述初级特征图X0与初级特征图X1相加,得到特征图Xc=X0+X1;
对相加后的特征图Xc进行通道间的平均池化,以将H×W×C通道的特征图转Xc换为H×W×1通道的特征图ZH,W;
对特征图ZH,W进行激活函数ReLU运算,得到特征图Zs;
对特征图Zs进行激活函数Sigmoid运算,得到特征图Z;
9.一种具有旋转适应性的目标检测系统,其特征在于,包括:
存储器,用于存储程序;
处理器,用于通过执行所述存储器存储的程序以实现如权利要求1至8中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有程序,所述程序能够被处理器执行以实现如权利要求1至8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110691509.5A CN113408429B (zh) | 2021-06-22 | 2021-06-22 | 一种具有旋转适应性的目标检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110691509.5A CN113408429B (zh) | 2021-06-22 | 2021-06-22 | 一种具有旋转适应性的目标检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113408429A true CN113408429A (zh) | 2021-09-17 |
CN113408429B CN113408429B (zh) | 2023-06-09 |
Family
ID=77682437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110691509.5A Active CN113408429B (zh) | 2021-06-22 | 2021-06-22 | 一种具有旋转适应性的目标检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113408429B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858530A (zh) * | 2019-01-14 | 2019-06-07 | 苏州长风航空电子有限公司 | 一种基于复合金字塔的旋转目标检测方法 |
CN111461110A (zh) * | 2020-03-02 | 2020-07-28 | 华南理工大学 | 一种基于多尺度图像和加权融合损失的小目标检测方法 |
CN112446327A (zh) * | 2020-11-27 | 2021-03-05 | 中国地质大学(武汉) | 一种基于无锚框的遥感图像目标检测方法 |
CN112906794A (zh) * | 2021-02-22 | 2021-06-04 | 珠海格力电器股份有限公司 | 一种目标检测方法、装置、存储介质及终端 |
-
2021
- 2021-06-22 CN CN202110691509.5A patent/CN113408429B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858530A (zh) * | 2019-01-14 | 2019-06-07 | 苏州长风航空电子有限公司 | 一种基于复合金字塔的旋转目标检测方法 |
CN111461110A (zh) * | 2020-03-02 | 2020-07-28 | 华南理工大学 | 一种基于多尺度图像和加权融合损失的小目标检测方法 |
CN112446327A (zh) * | 2020-11-27 | 2021-03-05 | 中国地质大学(武汉) | 一种基于无锚框的遥感图像目标检测方法 |
CN112906794A (zh) * | 2021-02-22 | 2021-06-04 | 珠海格力电器股份有限公司 | 一种目标检测方法、装置、存储介质及终端 |
Non-Patent Citations (2)
Title |
---|
JIAN DING ET AL.: "Learning RoI Transformer for Oriented Object Detection in Aerial Images", 《2019IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION(CVPR)》, 9 January 2020 (2020-01-09), pages 2850 - 2853 * |
YONGCHAO XU ET AL.: "Gliding Vertex on the Horizontal Bounding", 《IEEE TRANSACTION ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》, vol. 43, no. 4, 1 April 2021 (2021-04-01), pages 1452 - 1455 * |
Also Published As
Publication number | Publication date |
---|---|
CN113408429B (zh) | 2023-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304873B (zh) | 基于高分辨率光学卫星遥感影像的目标检测方法及其系统 | |
EP3690704B1 (en) | Distributed and self-validating dense object detection in digital images | |
US10929721B2 (en) | Forming a dataset for fully-supervised learning | |
CN110222626B (zh) | 一种基于深度学习算法的无人驾驶场景点云目标标注方法 | |
CN108280397B (zh) | 基于深度卷积神经网络的人体图像头发检测方法 | |
CN112785643A (zh) | 一种基于机器人平台的室内墙角二维语义地图构建方法 | |
WO2018165753A1 (en) | Structure defect detection using machine learning algorithms | |
CN112529015A (zh) | 一种基于几何解缠的三维点云处理方法、装置及设备 | |
CN109658442B (zh) | 多目标跟踪方法、装置、设备及计算机可读存储介质 | |
JP7439153B2 (ja) | 全方位場所認識のためのリフトされたセマンティックグラフ埋め込み | |
JP2016062610A (ja) | 特徴モデル生成方法及び特徴モデル生成装置 | |
CN109829476B (zh) | 基于yolo的端到端三维物体检测方法 | |
CN110287798B (zh) | 基于特征模块化和上下文融合的矢量网络行人检测方法 | |
JP2020038661A (ja) | 車線モデルを利用して車線を検出し得る学習方法及び学習装置そしてこれを利用したテスト方法及びテスト装置{learning method, learning device for detecting lane using lane model and test method, test device using the same} | |
Balaska et al. | Enhancing satellite semantic maps with ground-level imagery | |
CN111340881A (zh) | 一种动态场景下基于语义分割的直接法视觉定位方法 | |
Zelener et al. | Cnn-based object segmentation in urban lidar with missing points | |
CN111027538A (zh) | 一种基于实例分割模型的集装箱检测方法 | |
CN114565675A (zh) | 一种在视觉slam前端去除动态特征点的方法 | |
CN115861619A (zh) | 一种递归残差双注意力核点卷积网络的机载LiDAR城市点云语义分割方法与系统 | |
Khellal et al. | Pedestrian classification and detection in far infrared images | |
CN113420648B (zh) | 一种具有旋转适应性的目标检测方法及系统 | |
Gao et al. | Synergizing low rank representation and deep learning for automatic pavement crack detection | |
CN112418358A (zh) | 一种强化深度融合网络的车辆多属性分类方法 | |
CN116664851A (zh) | 一种基于人工智能的自动驾驶数据提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |