CN113420648A

CN113420648A - 一种具有旋转适应性的目标检测方法及系统

Info

Publication number: CN113420648A
Application number: CN202110690469.2A
Authority: CN
Inventors: 杨洋
Original assignee: Shenzhen Huahan Weiye Technology Co ltd
Current assignee: Shenzhen Huahan Weiye Technology Co ltd
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2021-09-21
Anticipated expiration: 2041-06-22
Also published as: CN113420648B

Abstract

一种具有旋转适应性的目标检测方法及系统，对待检测图像进行特征提取，得到初级特征图像；对初级特征图像中的每个点，使用目标检测模型中训练好的候选框信息进行回归，得到回归结果；根据回归结果进行筛选和非极大值抑制，得到候选目标信息；候选目标信息包括像素点属于目标的概率、目标的位置、目标的尺寸和角度；对候选目标信息进行旋转采样和RoIPooling，或者，旋转采样和RoIAlign，或者，旋转池化操作，得到特征图；对特征图进行回归，得到目标检测结果，目标检测结果包括目标的位置、大小、目标类别和角度。本发明解决了目标检测问题中对于旋转物体的适应性问题，使得本发明不仅可以返回物体的位置、尺寸和类别，还可以返回物体的角度。

Description

一种具有旋转适应性的目标检测方法及系统

技术领域

本发明涉及一种具有旋转适应性的目标检测方法及系统。

背景技术

目标检测是一项具有挑战性的计算机视觉任务，同时在诸多领域有应用前景，包含人脸识别、搜寻抢险、智能交通等等。传统的目标检测方法主要通过人为设计待检测目标的特征，从而实现目标检测，该方法非常繁琐，同时由于目标特征难提取、不稳定等特性，使得这种方式既低效、又缺乏鲁棒性。近年来随着深度学习方法的提出和应用，目标检测任务的相关领域也获得了诸多里程碑的成果，在目标的检测精度和检测速度方面都取得了巨大提升。基于深度学习的目标检测方法主要分为单步检测和两步检测，单步检测算法检测速度快，但牺牲了一部分精度，难以达到高精度检测要求，两步检测算法首先提取候选区域，再对候选区域进行定位和分类，具有较高精度，但检测速度慢，难以满足实时性要求。

在一个算力有限的微型计算设备上对图像中的旋转物体进行实时的目标检测是一个比较困难的问题。旋转目标检测通常出现在配合机器人引导中的旋转物体检测或者是倾斜的物体检测当中，现有的深度神经网络旋转目标检测方法依赖比较厚重的基础神经网络提取图像特征，使得方法难以在微型计算设备上运行，对网络进行量化、剪枝或设计轻量化的网络结构是一大趋势。同时，常见的深度神经网络旋转目标检测方法并不能给出运动物体的姿态，比如车辆的朝向。

当前目标检测主要输出信息为目标物体的位置(x_c，y_c)、大小(w，h)和类别(即目标物体是什么物体)，并没有输出物体的角度，如果是长宽比比较大的物体，旋转后的外包矩形区域仅仅占据了有效面积的很小的一部分，目标检测的准确率和精度都会下降。一些场景中，为了配合机器人的抓取和拣选，也需要输出物体的旋转角度，配合机械手姿态完成物体的抓取。本发明重点解决目标检测问题中对于旋转物体的适应性问题。

发明内容

如上所述，本发明重点解决目标检测问题中对于旋转物体的适应性问题，使得本发明不仅可以返回物体的位置、尺寸和类别，还可以返回物体的角度，从而可以实现机器人抓取、拣选等复杂场景的识别需求。

根据第一方面，一种实施例中提供一种具有旋转适应性的目标检测方法，包括：

获取待检测图像；

将所述待检测图像输入到目标检测模型中进行处理，得到目标检测结果；其中所述将所述待检测图像输入到目标检测模型中进行处理，包括：

对所述待检测图像进行特征提取，得到初级特征图像；

对所述初级特征图像中的每个点，使用所述目标检测模型中训练好的候选框信息进行回归，得到回归结果；所述回归结果包括角度的回归、角度类别的回归、位置参数的回归和类别的回归；其中，所述角度类别用于表示回归的角度与真实角度是相等还是相差180度，位置参数包括回归的候选框的中心点的位置、长度、宽度和角度，类别的回归表示当前点属于目标的概率；

根据所述回归结果进行筛选和非极大值抑制，得到候选目标信息；所述候选目标信息包括像素点属于目标的概率、目标的位置、目标的尺寸和角度；

对所述候选目标信息进行处理，得到特征图；该处理包括旋转采样和RoIPooling，或者，旋转采样和RoIAlign，或者，旋转池化；

对所述特征图进行回归，得到所述目标检测结果，所述目标检测结果包括目标的位置、大小、目标类别和角度。

一实施例中，所述目标检测模型通过以下方式被建立：

获取训练图像样本中各标注的候选框的长度、宽度和角度这三个维度信息；

针对每个维度的信息，都进行聚类，以得到每个维度信息的若干个类；

计算每个维度信息的每个类的平均值，以形成每个维度信息的预设值集合；

至少根据长度、宽度和角度这三个维度信息的预设值集合生成若干个预设的候选框；

对所述训练图像样本进行特征提取，得到不同尺度的若干层特征图像；

选取所述若干层特征图像中一部分或者全部图像，针对所选取的每个图像中每个点，使用所述若干个预设的候选框进行处理，得到特征数据；该处理包括旋转采样和RoIPooling，或者，旋转采样和RoIAlign，或者，旋转池化；

针对所述特征数据进行第一阶段的回归分类处理，得到角度的回归、角度类别的回归、位置参数的回归和类别的回归；其中，所述角度类别用于表示回归的角度与真实角度是相等还是相差180度，位置参数包括回归的候选框的中心点的位置、长度、宽度和角度，类别的回归表示当前点属于目标的概率；

根据回归后的角度、角度类别、位置参数和类别，生成若干个回归后的候选框；

获取所选取的图像中属于目标的点，并针对每个属于目标的点，使用针对该点回归后的候选框中概率最大的一个候选框进行处理，得到特征数据，并针对该特征数据进行第二阶段的回归分类处理，得到目标检测结果，所述目标检测结果包括目标的位置、大小、目标类别和角度；该处理包括旋转采样和RoIPooling，或者，旋转采样和RoIAlign，或者，旋转池化。

一实施例中，所述至少根据长度、宽度和角度这三个维度信息的预设值集合生成若干个预设的候选框，包括：

根据长度和宽度这两个维度信息的预设值集合，得到长宽比这一维度信息的预设值集合；

根据长宽比、长度和角度这三个维度信息的预设值集合生成若干个预设的候选框。

一实施例中，所述针对每个维度的信息，都进行聚类，以得到每个维度信息的若干个类，包括：

初始化步骤，针对每个维度，将初始化的k个训练图像样本的该维度信息作为初始的聚类中心；

距离计算步骤，针对每个训练图像样本，计算其到各聚类中心的距离，并将其分配到距离最小的聚类中心所对应的类中；

聚类中心更新步骤，针对每个类，重新计算并更新它的聚类中心；

迭代步骤，重新进行所述距离计算步骤和聚类中心更新步骤，直到达到预设的中止条件；

继续聚类步骤，判断中止条件后各聚类中心的距离是否小于预设阈值，如果小于，则将小于所述预设阈值的聚类中心进行合并，并重新计算合并后类的聚类中心，并继续判断各聚类中心的距离是否小于预设阈值，直到所有聚类中心的距离都不小于所述预设阈值时停止，从而得到该维度信息的若干个类。

一实施例中，所述旋转采样包括：

通过大小为(2m+1)×(2n+1)的图像区域进行旋转角度θ的旋转采样，得到图像区域内的点旋转后的坐标为：

其中x∈[x₀-m,x₀+m]，y∈[y₀-n,y₀+n]，m为当前候选框的长度的一半并向下取整，n为当前候选框的宽度的一半并向下取整，(x₀,y₀)为中心点；

对旋转后的图像区域进行双线性插值；

将完成双线性插值后的图像区域与卷积核进行卷积，并输出。

一实施例中，所述旋转池化包括：

计算网格的个数：

其中候选框表示为(x,y,w,h,θ)，括号中参数分别表示候选框的中心点的x坐标，y坐标，候选框的宽度，长度和角度；(w_p,h_p)表示需要池化的大小尺寸；

对任意一像素(i,j)∈{0,…,w_p}×{0,…,h_p}，都进行旋转坐标的反映射计算，包括：

先获取每个网格左上角的坐标点：

再获取(x_l,y_t)旋转后的坐标：

对于每个网络内的像素点

计算其坐标：

其中s表示缩放系数；

取网格内像素值的极大值或平均值完成池化。

一实施例中，所述的目标检测方法，还包括：根据第一阶段的损失函数对所述第一阶段的回归分类进行训练，其中所述第一阶段的损失函数为：

其中，

预测的候选框表示P′＝(P′_x,P′_y,P′_w,P′_h,P′_θ)，训练图像样本的标注的候选框表示为G＝(G_x,G_y,G_w,G_h,G_θ)，预测的候选框和标注的候选框的偏置表示为u＝(u_x,u_y,u_w,u_h,u_θ)，其中

u_x＝(G_x-P′_x)/P′_w，u_y＝(G_y-P′_y)/P′_h，u_w＝log(G_w/P′_w)，u_h＝log(G_h/P′_h)，u_θ＝P′_θ-G_θ；

L_cls的计算公式中p表示训练图像样本的标注的类别，则

表示预测的类别；L_reg仅用于计算正样本，其中正样本的判断标准为IoU大于0.7且类别的回归分数大于的0.6候选框；i表示候选框的索引，p_i表示分类函数softmax运算后的正样本的概率，

表示对应的标注预测概率，t表示样本的位置信息，该位置信息包括中心点的位置、长度和宽度，t^*表示对应正样本的位置信息。

根据第二方面，一种实施例中提供一种具有旋转适应性的目标检测模型的训练方法，包括：

根据第三方面，一种实施例中提供一种具有旋转适应性的目标检测系统，包括：

存储器，用于存储程序；

处理器，用于通过执行所述存储器存储的程序以实现如本文中任一实施例所述的方法。

根据第四方面，一种实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有程序，所述程序能够被处理器执行以实现如本文中任一实施例所述的方法。

依据上述实施例的具有旋转适应性的目标检测方法、系统和计算机可读存储介质，解决了目标检测问题中对于旋转物体的适应性问题，使得本发明不仅可以返回物体的位置、尺寸和类别，还可以返回物体的角度，从而可以实现机器人抓取、拣选等复杂场景的识别需求。

附图说明

图1为为一种实施例的具有旋转适应性的目标检测方法和系统中所涉及到模型结构网络的示意图；

图2(a)和图2(b)分别为特征提取网络的两个示意图；

图3为一种实施例的具有旋转适应性的目标检测方法的流程图；

图4为一种实施例的具有旋转适应性的目标检测模型的训练方法的流程图；

图5为一种实施例的聚类方法的流程图；

图6为一种实施例的旋转采样的示意框图；

图7为一种实施例的旋转池化的示意图；

图8为一种实施例的具有旋转适应性的目标检测模型的训练方法的流程图；

图9为一种实施例的将所述待检测图像输入到目标检测模型中进行处理，得到目标检测结果的流程图；

图10为一种实施例的具有旋转适应性的目标检测系统的结构示意图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

本文中为部件所编序号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。而本申请所说“连接”、“联接”，如无特别说明，均包括直接和间接连接(联接)。

为了更好地理解本发明，先对现有技术进行一个认识、整理和思考。

基于深度学习的目标检测方法主要分为单步检测和两步检测，它们各有优缺点：单步检测算法检测速度快，但牺牲了一部分精度，难以达到高精度检测要求；两步检测算法则首先提取候选区域，再对候选区域进行定位和分类，具有较高精度，但检测速度慢，难以满足实时性要求；并且这两种检测方法均没有返回物体的姿态，无法配合机器人完成带有姿态物体的抓取、拣选以及进行精确的轨迹规划问题，从而实现料框避障等。

单步检测经典模型包括YOLO系列和SSD模型，两步检测以Faster RCNN为代表，单步和两步检测从模型架构上具有明显区别，包括检测器检测的特征以及模型训练优化的步骤，但两者作为目标检测的主要算法，在整体的流程上仍然具有一致性，针对一幅输入图像，首先是基础的特征提取网络实现对低维像素信息进行处理，构建高维特征信息，而后检测器基于高维特征实现对目标中心点、包围框尺寸进行预测。小目标检测以及旋转目标检测是继经典目标任务后的又一重要计算机视觉任务，小目标像素少、图像占比少，同时非常容易在卷积神经网络的特征提取过程中被忽略，因此检测难度大。近年有诸多算法针对小目标进行模型设计，利用低维特征结合高维特征进行小目标预测，避免随着卷积深度的增加导致小目标特征被忽略，影响最终的预测结果。在航拍图像中，具有诸多目标聚集区域，如停车场、海港、机场等等，在这些聚集度高的区域，采用传统的水平框，经过非极大值抑制，会出现大量目标框被抑制的情况，导致检测结果中大量目标缺失，采用旋转框进行目标检测能够有效避免该问题，同时实现更加精准的定位预测，但旋转框预测，既需要对检测模型架构进行重新设计，包含预测参数、损失函数等等，又需要相关的图像数据和对应的旋转标签支持，保证模型正确收敛。

目前基于候选的检测，基本上都是两步法进行设计的；请参照图1，本发明提出一种具有旋转适应性的目标检测检测方案，将物体的旋转转换为分类和角度回归的结合问题，而不是直接转换为角度问题，减少候选框的数量，提升算法的处理速度和精度，具有很好的实时性。本发明提出的基于候选框的处理思路，在锚点处设置不同尺度、长宽比和角度的候选框，然后对候选框中的特征进行回归处理；由于将尺度、长宽比和角度的候选框进行叠加，会产生指数形式的候选框的增加，大大提高运算的时间，降低处理效率；考虑到这个问题，申请人认为相差180度的候选框，其图像位置和特征采样上没有区别，因此可以将[-180°,180°]范围转换为[0°,180°]范围内的运算和相应的方向类别分别，例如可以用0表示是回归的相应角度，1表示是回归的相应角度相加180°，这样就可以降低候选框的个数，降低内存空间，提升处理的实时性，可以在边缘端设备上进行实时处理。

本发明主要设计了以下几个网络来实现基于候选框的检测方案：初级特征提取网络、候选框提取网络、候选框参数回归网络、候选框旋转采样与卷积网络、目标参数回归网络。

初级特征提取网络主要完成特征的提取，包括不同尺度的若干层特征图构成，高层级的特征，具有更大的感受野，适合定位大物体，低层级的特征，具有更小的感受野，适合定位小物体。在初级特征提取过程中，通过卷积、下采样、上采样等运算，获得用于旋转候选框的提取和回归处理。

本文中多处涉及到对特征提取例如初级特征提取的问题，这可以通过卷积神经网络来实现诸如初级特征提取网络。请参照图2(a)和图2(b)，可以通过卷积神经网络来实现特征提取。具体地，图2(a)展示了一个FPN特征金字塔网络结构。FPN是一种利用常规CNN模型来高效提取图片中各维度特征的方法，其通过利用常规CNN模型内部从底至上各个层对同一scale(尺度)图片不同维度的特征表达结构，提出了一种可有效在单一图片视图下生成对其的多维度特征表达的方法，它可以有效地赋能常规CNN模型，从而可以生成出表达能力更强的特征图像以供下一阶段计算机视觉任务像目标检测来使用。从图2(a)这一具体的FPN特征金字塔网络结构可以看到，其主要通过卷积、池化、上采样运算以及特征求和运算来获取多个尺度的特征图。图2(b)则主要通过卷积、池化、上采样运算以及特征求和运算来获取单个尺度的特征图，然后再进行通道拼接，其中conv表示卷积操作，up表示上采样操作，x2表示上采样倍数为2倍，类似地，upx4表示上采样倍数为4倍，upx8表示上采样倍数为8倍。卷积神经网络长期以来是图像识别领域的核心算法之一，并在学习数据充足时有稳定的表现；对于一般的大规模图像分类问题，卷积神经网络可用于构建阶层分类器，也可以在精细分类识别中用于提取图像的判别特征以供其它分类器进行学习；对于后者，特征提取可以人为地将图像的不同部分分别输入卷积神经网络，也可以由卷积神经网络通过非监督学习自行提取；通过设置卷积层的数量等，可以提取包括不同尺度的若干层特征图。

旋转候选框的长宽比、长度、宽度等参数，本发明不采用预设数值的方法进行处理，采用参数自适应性的方法进行设置。本发明根据标注的信息，分别统计候选框的长宽比、长度和宽度，对于每一组数据，进行聚类处理，获得最可能的几组长度、宽度及长宽比的信息，采用每一组的均值作为候选框的数值。聚类主要是基于距离阈值进行判断，两个目标的距离越近，相似度越大。聚类方法的基本处理步骤为，假设我们聚类的信息可以分为K类，这里K常取3或5。聚类方法可以如下：

(1)选择初始化的k个样本作为初始聚类中心a₁,a₂…,a_k；

(2)针对数据集中每个样本x_i计算它到k个聚类中心的距离并将其分到距离最小的聚类中心所对应的类中；

(3)针对每个类别a_j，重新计算它的聚类中心

(即属于该类的所有样本的质心)；

(4)重复上面(2)和(3)两步操作，直到达到预设中止条件，例如迭代次数、最小误差变化等。

上述聚类完成后，各个聚类中心有可能仍然是能够合并的，具体地，判断两个类别的距离是不是小于设定的阈值，如果小于设定的阈值，则进行两个类别的合并，重新计算合并后类别的中心，然后继续执行上述过程，直到不能合并位置，最后的结果即为我们自适应出来的结果信息。将自适应的长宽比、长度、角度信息作为预设的候选框的输入，根据自适应的预设信息生成候选框，对候选框中的特征进行处理，得到特征数据，进行回归处理；该处理包括旋转采样和RoIPooling，或者，旋转采样和RoIAlign，或者，旋转池化。下面处理所涉及的四种操作进行介绍。

RoIAlign是在Mask-RCNN这篇论文里提出的一种区域特征聚集方式；RoIPooling是使用卷积神经网络在目标检测任务中广泛使用的操作。

对于旋转采样，通过大小为(2m+1)×(2n+1)的图像区域进行旋转角度θ的旋转采样，得到图像区域内的点旋转后的坐标为：

其中x∈[x₀-m,x₀+m]，y∈[y₀-n,y₀+n]，m为当前候选框的长度的一半并向下取整，n为当前候选框的宽度的一半并向下取整，(x₀,y₀)为中心点。由于旋转后的点的坐标不一定为整数，因此需要根据旋转后的坐标，进行双线性插值，可以获得旋转后采样的特征图，采样的结果的灰度值进行卷积运算，即可获得相应的旋转采样卷积后的特征图结果信息。

对于旋转池化运算，可以采用类似的思想进行设计和计算。

设输入的候选框的大小为(x,y,w,h,θ)，需要池化的大小尺寸为(w_p,h_p)，输入特征图以及相应的缩放系数s，那么可以根据下述处理流程获得物体的旋转池化结果。

根据候选框大小和需要池化的大小，可以计算获得划分为网格的个数：

对于任意一个像素(i,j)∈{0,…,w_p}×{0,…,h_p}，进行旋转坐标的反映射计算，首先获取每个划分方框左上角的坐标点为：

获得(x_l,y_t)旋转后的坐标：

对于每个分割后的格子内的像素点

计算其坐标：

然后取格子内的极大值或者平均值完成旋转池化。

对于第一阶段的损失函数，本发明将一个旋转问题，分解为两个问题，一个是旋转参数的回归，一个是类别的回归。旋转的类别回归包括两个方向，一个是回归的方向，标志为1，与回归的方向相差180度的反方向我们标志为-1。因此第一个阶段的回归主要是包含几个部分，第一个是角度的回归，第二个是类别的回归，第三个是相关位置参数的回归，包括(x,y,w,h,θ)。回归的损失函数的设计，对于预测的边界框区域表示P′＝(P′_x,P′_y,P′_w,P′_h,P′_θ)，标注的边界框的区域表示为G＝(G_x,G_y,G_w,G_h,G_θ)。那么训练阶段候选框与标注的边界框的偏置可以表示为u＝(u_x,u_y,u_w,u_h,u_θ)，其中u_x＝(G_x-P′_x)/P′_w，u_y＝(G_y-P′_y)/P′_h，u_w＝log(G_w/P′_w)，u_h＝log(G_h/P′_h)，u_θ＝P′_θ-G_θ。

因此损失函数可以表示为：

其中p表示标注的类别，

表示预测的类别。

因此L_rpn＝L_cls+L_reg，其中L_reg仅计算正样本，正样本判断标准是IoU大于0.7的候选框。

上述公式中i表示候选框的索引，p_i表示softmax运算后的正例的概率，

代表对应的标注预测概率(即当第i个候选框与标准之间IoU>0.7，认为是该候选框是正例，

反之IoU<0.3时，认为是该候选框是负例，

至于那些0.3<IoU<0.7的候选框则不参与训练。t表示样本的位置信息，该位置信息包括中心点的位置、长度和宽度，t^*表示对应正样本的位置信息。可以看到，整个Loss分为2部分：

(1)分类损失，即回归层中计算的softmax损失函数，用于分类候选框为正例与负例的网络训练。

(2)回归损失，即回归层层计算的soomth L1损失函数，用于候选框回归网络训练。注意在该损失中乘了

相当于只关心正例候选框的回归(其实在回归中也完全没必要去关心负例)。

旋转采样后的回归和粗定位的回归是一样的原理，采用相同的技术进行处理即可。

根据上面的描述，请参照图3，本发明一些实施例中提供一种具有旋转适应性的目标检测方法，其包括以下步骤：

步骤100：获取待检测图像；

步骤200：将所述待检测图像输入到目标检测模型中进行处理，得到目标检测结果。

下对先对如何训练目标检测模型进行说明。

请参照图4，一些实施例中，公开了一种具有旋转适应性的目标检测模型的训练方法，包括以下步骤：

步骤500：获取训练图像样本中各标注的候选框的长度、宽度和角度这三个维度信息。

步骤510：针对每个维度的信息，都进行聚类，以得到每个维度信息的若干个类。请参照图5，一些实施例中步骤510针对每个维度的信息，都进行聚类，以得到每个维度信息的若干个类，可以包括以下步骤：

初始化步骤511，针对每个维度，将初始化的k个训练图像样本的该维度信息作为初始的聚类中心。

距离计算步骤512，针对每个训练图像样本，计算其到各聚类中心的距离，并将其分配到距离最小的聚类中心所对应的类中；

聚类中心更新步骤513，针对每个类，重新计算并更新它的聚类中心；

迭代步骤514，重新进行所述距离计算步骤和聚类中心更新步骤，直到达到预设的中止条件；

聚类合并步骤515，判断中止条件后各聚类中心的距离是否小于预设阈值，如果小于，则将小于所述预设阈值的聚类中心进行合并，并重新计算合并后类的聚类中心，并继续判断各聚类中心的距离是否小于预设阈值，直到所有聚类中心的距离都不小于所述预设阈值时停止，从而得到该维度信息的若干个类。

步骤520：计算每个维度信息的每个类的平均值，以形成每个维度信息的预设值集合。

步骤530：至少根据长度、宽度和角度这三个维度信息的预设值集合生成若干个预设的候选框；一些实施例中，步骤530根据长度和宽度这两个维度信息的预设值集合，得到长宽比这一维度信息的预设值集合，再根据长宽比、长度和角度这三个维度信息的预设值集合生成若干个预设的候选框。

可以理解地，长宽比的预设值集合中可以有一个或多个元素，长度的预设值集合中可以有一个或多个元素，角度的预设值集合中可以有一个或多个元素，因此可以通过组合生成若干个预设的候选框，例如，假设长宽比为{0.5，1，2}，具有三个元素；长度为{100，200，300}，具有三个元素，角度为{30，60，90},具有三个元素，那么这个可以生成3x3x3＝27个候选框。

步骤540：对所述训练图像样本进行特征提取，得到不同尺度的若干层特征图像。

步骤550：选取所述若干层特征图像中一部分或者全部图像，针对所选取的每个图像中每个点，使用所述若干个预设的候选框进行处理，得到特征数据；该处理包括旋转采样和RoIPooling，或者，旋转采样和RoIAlign，或者，旋转池化。

步骤550涉及到旋转采样和旋转池化操作，下面具体说明。

请配合图6，旋转采样操作可以这样来进行：

对旋转后的图像区域进行双线性插值；

旋转池化操作可以这样来进行：

计算网格的个数：

先获取每个网格左上角的坐标点：

再获取(x_l,y_t)旋转后的坐标：

对于每个网络内的像素点

计算其坐标：

其中s表示缩放系数；

取网格内像素值的极大值或平均值完成池化。

图7为旋转池化的一个例子。

步骤560：针对所述特征数据进行第一阶段的回归分类处理，得到角度的回归、角度类别的回归、位置参数的回归和类别的回归；其中，所述角度类别用于表示回归的角度与真实角度是相等还是相差180度，位置参数包括回归的候选框的中心点的位置、长度、宽度和角度，类别的回归表示当前点属于目标的概率。

步骤570：根据回归后的角度、角度类别、位置参数和类别，生成若干个回归后的候选框。

步骤580：获取所选取的图像中属于目标的点，并针对每个属于目标的点，使用针对该点回归后的候选框中概率最大的一个候选框进行处理，得到特征数据，并针对该特征数据进行第二阶段的回归分类处理，得到目标检测结果，所述目标检测结果包括目标的位置、大小、目标类别和角度；本步骤中涉及的处理，包括旋转采样和RoIPooling，或者，旋转采样和RoIAlign，或者，旋转池化。

一般地，经过步骤570的回归后，针对每个位置或者像素点，可以得到若干个回归后的候选框，然后在某一个位置或者说像素点需要继续被处理时，可以选择该位置中概率大于一定阈值且概率为最大的候选框来对该位置进行处理，步骤580中，即是对需要处理的位置，选择其回归后概率最大的一个候选框来对它进行处理。

RoIPooling、RoIAlign、旋转采样和旋转池化说明可以参见上文，在此不再赘述。

请参照图8，一些实施例中具有旋转适应性的目标检测模型的训练方法还可以包括步骤590：

根据第一阶段的损失函数对所述第一阶段的回归分类进行训练，其中所述第一阶段的损失函数为：

其中，

预测的候选框表示P′＝(P′_x,P′_y,P′_w,P′_h,P′_θ)，训练图像样本的标注的候选框表示为G＝(G_x,G_y,G_w,G_h,G_θ)，预测的候选框和标注的候选框的偏置表示为u＝(u_x,u_y,u_w,u_h,u_θ)，其中u_x＝(G_x-P′_x)/P′_w，u_y＝(G_y-P′_y)/P′_h，u_w＝log(G_w/P′_w)，u_h＝log(G_h/P′_h)，u_θ＝P′_θ-G_θ；L_cls的计算公式中p表示训练图像样本的标注的类别，则

以上就是目标检测模型的训练方法的一些说明。

下面对具有旋转适应性的目标检测方法中，步骤200，将所述待检测图像输入到目标检测模型中进行处理，得到目标检测结果，这一过程和步骤进行说明。

请参照图9，一些实施例中，步骤200将所述待检测图像输入到目标检测模型中进行处理，得到目标检测结果，包括以下步骤：

步骤210：对所述待检测图像进行特征提取，得到初级特征图像。

步骤220：对所述初级特征图像中的每个点，使用所述目标检测模型中训练好的候选框信息进行回归，得到回归结果；所述回归结果包括角度的回归、角度类别的回归、位置参数的回归和类别的回归；其中，所述角度类别用于表示回归的角度与真实角度是相等还是相差180度，位置参数包括回归的候选框的中心点的位置、长度、宽度和角度，类别的回归表示当前点属于目标的概率。

步骤230：根据所述回归结果进行筛选和非极大值抑制，得到候选目标信息；所述候选目标信息包括像素点属于目标的概率、目标的位置、目标的尺寸和角度。

步骤240：对所述候选目标信息进行处理，得到特征图；该处理包括旋转采样和RoIPooling，或者，旋转采样和RoIAlign，或者，旋转池化。

RoIPooling和RoIAlign操作，见上文的描述，在此不再赘述。

其中，旋转采样包括：

对旋转后的图像区域进行双线性插值；

旋转池化包括：

计算网格的个数：

先获取每个网格左上角的坐标点：

再获取(x_l,y_t)旋转后的坐标：

对于每个网络内的像素点

计算其坐标：

其中s表示缩放系数；

取网格内像素值的极大值或平均值完成池化。

步骤250：对所述特征图进行回归，得到所述目标检测结果，所述目标检测结果包括目标的位置、大小、目标类别和角度。

请参照图10，本文一些实施例中还公开了一种具有旋转适应性的目标检测系统，其包括存储器10和处理器30，处理器30用于通过执行所述存储器10存储的程序以实现本文中任一实施例所述的目标检测方法。

本发明一些实施例所公开的具有旋转适应性的目标检测方法及系统，重点解决目标检测问题中对于旋转物体的适应性问题，使得本发明不仅可以返回物体的位置、尺寸和类别，还可以返回物体的角度，从而可以实现机器人抓取、拣选等复杂场景的识别需求；另外，对于小物体而言，旋转检测可以实现更稳定的识别效果，旋转检测过程中可以对物体实现旋转采样。

本文参照了各种示范实施例进行说明。然而，本领域的技术人员将认识到，在不脱离本文范围的情况下，可以对示范性实施例做出改变和修正。例如，各种操作步骤以及用于执行操作步骤的组件，可以根据特定的应用或考虑与系统的操作相关联的任何数量的成本函数以不同的方式实现(例如一个或多个步骤可以被删除、修改或结合到其他步骤中)。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。另外，如本领域技术人员所理解的，本文的原理可以反映在计算机可读存储介质上的计算机程序产品中，该可读存储介质预装有计算机可读程序代码。任何有形的、非暂时性的计算机可读存储介质皆可被使用，包括磁存储设备(硬盘、软盘等)、光学存储设备(CD至ROM、DVD、Blu Ray盘等)、闪存和/或诸如此类。这些计算机程序指令可被加载到通用计算机、专用计算机或其他可编程数据处理设备上以形成机器，使得这些在计算机上或其他可编程数据处理装置上执行的指令可以生成实现指定的功能的装置。这些计算机程序指令也可以存储在计算机可读存储器中，该计算机可读存储器可以指示计算机或其他可编程数据处理设备以特定的方式运行，这样存储在计算机可读存储器中的指令就可以形成一件制造品，包括实现指定功能的实现装置。计算机程序指令也可以加载到计算机或其他可编程数据处理设备上，从而在计算机或其他可编程设备上执行一系列操作步骤以产生一个计算机实现的进程，使得在计算机或其他可编程设备上执行的指令可以提供用于实现指定功能的步骤。

虽然在各种实施例中已经示出了本文的原理，但是许多特别适用于特定环境和操作要求的结构、布置、比例、元件、材料和部件的修改可以在不脱离本披露的原则和范围内使用。以上修改和其他改变或修正将被包含在本文的范围之内。

前述具体说明已参照各种实施例进行了描述。然而，本领域技术人员将认识到，可以在不脱离本披露的范围的情况下进行各种修正和改变。因此，对于本披露的考虑将是说明性的而非限制性的意义上的，并且所有这些修改都将被包含在其范围内。同样，有关于各种实施例的优点、其他优点和问题的解决方案已如上所述。然而，益处、优点、问题的解决方案以及任何能产生这些的要素，或使其变得更明确的解决方案都不应被解释为关键的、必需的或必要的。本文中所用的术语“包括”和其任何其他变体，皆属于非排他性包含，这样包括要素列表的过程、方法、文章或设备不仅包括这些要素，还包括未明确列出的或不属于该过程、方法、系统、文章或设备的其他要素。此外，本文中所使用的术语“耦合”和其任何其他变体都是指物理连接、电连接、磁连接、光连接、通信连接、功能连接和/或任何其他连接。

具有本领域技术的人将认识到，在不脱离本发明的基本原理的情况下，可以对上述实施例的细节进行许多改变。因此，本发明的范围应仅由权利要求确定。

Claims

1.一种具有旋转适应性的目标检测方法，其特征在于，包括：

获取待检测图像；

对所述待检测图像进行特征提取，得到初级特征图像；

2.如权利要求1所述的目标检测方法，其特征在于，所述目标检测模型通过以下方式被建立：

3.如权利要求2所述的目标检测方法，其特征在于，其特征在于，所述至少根据长度、宽度和角度这三个维度信息的预设值集合生成若干个预设的候选框，包括：

4.如权利要求2所述的目标检测方法，其特征在于，所述针对每个维度的信息，都进行聚类，以得到每个维度信息的若干个类，包括：

5.如权利要求1或2所述的目标检测方法，其特征在于，所述旋转采样包括：

其中x∈[x₀-m，x₀+m]，y∈[y₀-n，y₀+n]，m为当前候选框的长度的一半并向下取整，n为当前候选框的宽度的一半并向下取整，(x₀，y₀)为中心点；

对旋转后的图像区域进行双线性插值；

6.如权利要求1或2所述的目标检测方法，其特征在于，所述旋转池化包括：

计算网格的个数：

其中候选框表示为(x，y，w，h，θ)，括号中参数分别表示候选框的中心点的x坐标，y坐标，候选框的宽度，长度和角度；(w_p，h_p)表示需要池化的大小尺寸；

对任意一像素(i，j)∈{0，…，w_p}×{0，…，h_p}，都进行旋转坐标的反映射计算，包括：

先获取每个网格左上角的坐标点：

再获取(x_l，y_t)旋转后的坐标：

对于每个网络内的像素点

计算其坐标：

其中s表示缩放系数；

取网格内像素值的极大值或平均值完成池化。

7.如权利要求2所述的目标检测方法，其特征在于，还包括：根据第一阶段的损失函数对所述第一阶段的回归分类进行训练，其中所述第一阶段的损失函数为：

其中，

预测的候选框表示P′＝(P′_x，P′_y，P′_w，P′_h，P′_θ)，训练图像样本的标注的候选框表示为G＝(G_x，G_y，G_w，G_h，G_θ)，预测的候选框和标注的候选框的偏置表示为u＝(u_x，u_y，u_w，u_h，u_θ)，其中u_x＝(G_x-P′_x)/P′_w，u_y＝(G_y-P′_y)/P′_h，u_w＝log(G_w/P′_w)，u_h＝log(G_h/P′_h)，u_θ＝P′_θ-G_θ；L_cls的计算公式中p表示训练图像样本的标注的类别，则

8.一种具有旋转适应性的目标检测模型的训练方法，其特征在于，包括：

至少根据长度、宽度和角度这三个维度信息的预设值集合生成若干个预设的候选框：

9.一种具有旋转适应性的目标检测系统，其特征在于，包括：

存储器，用于存储程序；

处理器，用于通过执行所述存储器存储的程序以实现如权利要求1至8中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有程序，所述程序能够被处理器执行以实现如权利要求1至8中任一项所述的方法。