CN111754394A

CN111754394A - 鱼眼图像中的对象检测方法、装置及存储介质

Info

Publication number: CN111754394A
Application number: CN202010603240.6A
Authority: CN
Inventors: 王程; 毛晓蛟; 章勇; 曹李军
Original assignee: Suzhou Keda Technology Co Ltd
Current assignee: Suzhou Keda Technology Co Ltd
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2020-10-09
Anticipated expiration: 2040-06-29
Also published as: WO2022000862A1; CN111754394B

Abstract

本申请涉及一种鱼眼图像中的对象检测方法、装置及存储介质，属于图像处理技术领域，该方法包括：获取鱼眼图像，鱼眼图像包括平面内角度不同的多个对象区域，对象区域的角度是指对象区域中的对象相对于鱼眼图像的圆心的角度；基于鱼眼图像的圆心按照多个裁剪角度对鱼眼图像进行图像裁剪，得到裁剪图像；裁剪角度包括多个对象区域对应的角度；将裁剪图像进行拼接，得到拼接图像；使用对象检测模型对拼接图像进行对象检测，得到对象检测框；将对象检测框按照对应的裁剪角度映射回鱼眼图像，得到对象检测结果；可以解决现有的对象检测模型无法对鱼眼图像进行检测的问题；可以实现鱼眼图像中对象位置和对象角度的检测。

Description

鱼眼图像中的对象检测方法、装置及存储介质

技术领域

本申请涉及一种鱼眼图像中的对象检测方法、装置及存储介质，属于图像处理技术领域。

背景技术

对象检测(比如：人脸检测)广泛应用在诸如智慧城市，安防，媒体认证和银行等领域。随着计算机算力和数据的大规模增长，基于深度学习的对象检测方法逐渐成为主流。相比于常规图像，鱼眼图像中的对象除了具备常规图像中的对象特征之外，还具有平面内任意角度的特点。

现有的对象进行检测的方法包括：基于单步多框检测器(Single Shot MultiBoxDetector，SSD)对图像中的对象进行对象检测。

但是，基于单步检测器直接对鱼眼图像进行对象检测的准确率和召回率都比较低，并且无法得到对象的角度信息，不利于进一步利用对象信息进行上层应用的搭建，比如：基于对象信息进行对象识别、对象跟踪等。

发明内容

本申请提供了一种鱼眼图像中的对象检测方法、装置及存储介质，可以解决现有的对象检测模型无法对鱼眼图像进行检测的问题。本申请提供如下技术方案：

第一方面，提供了一种鱼眼图像中的对象检测方法，所述方法包括：

获取鱼眼图像，所述鱼眼图像包括平面内角度不同的多个对象区域，对象区域的角度是指所述对象区域中的对象相对于所述鱼眼图像的圆心的角度；

基于所述鱼眼图像的圆心按照多个裁剪角度对所述鱼眼图像进行图像裁剪，得到裁剪图像；所述裁剪角度包括所述多个对象区域对应的角度；

将所述裁剪图像进行拼接，得到拼接图像；

使用对象检测模型对所述拼接图像进行对象检测，得到对象检测框；

将所述对象检测框按照对应的裁剪角度映射回所述鱼眼图像，得到对象检测结果。

可选地，所述使用对象检测模型对所述拼接图像进行对象检测，得到对象检测框之前，还包括：

获取训练数据，所述训练数据包括尺寸不同的多张对象图像和每张对象图像对应的对象标注框；

获取预设的神经网络结构；所述神经网络结构包括特征检测网络和单步检测网络，所述特征检测网络用于提取对象特征，所述单步检测网络用于基于每个对象特征确定对象锚框；

将所述对象图像输入所述神经网络结构，得到多个对象锚框；

将所述多个对象锚框与对应的对象标注框进行样本匹配，得到目标对象锚框；

基于预设的损失函数确定所述目标对象锚框和对应的对象标注结果之间的差异；

根据所述目标对象锚框和对应的对象标注结果之间的差异，对所述神经网络结构进行训练，得到所述对象检测模型。

可选地，所述特征检测网络包括第一阶段特征金字塔和第二阶段特征金字塔；

所述第一阶段特征金字塔用于对输入的对象图像自下而上进行特征提取，得到多层特征图；

所述第二阶段特征金字塔用于对输入的特征图自上而下进行特征提取，并将提取到的特征与所述第一阶段特征金字塔对应层的特征图进行结合，得到多层特征图。

可选地，所述将所述多个对象锚框与对应的对象标注框进行样本匹配，得到目标对象锚框，包括：

确定每层特征图中每个对象锚框与对应的对象标注框之间的交并比；

对于每个对象标注框，将与所述对象标注框的交并比最高的对象锚框确定为与所述对象标注框相匹配的目标对象锚框；

对于前n层特征图中的每层特征图，将所述特征图上未匹配到对象标注框的对象锚框的交并比与第一阈值进行比较；将交并比大于所述第一阈值的对象锚框确定为对应的对象标注框的目标对象锚框；所述n为正整数；

对于位于前n层特征图之下的每层特征图，将所述特征图上未匹配到对象标注框的对象锚框的交并比与第二阈值进行比较；将交并比大于所述第二阈值的对象锚框确定为对应的对象标注框的目标对象锚框；

其中，所述第一阈值大于所述第二阈值。

可选地，所述对象锚框的锚框尺寸基于所述对象锚框所属的特征图相对于原图的步长确定，所述特征图为所述特征检测网络输出的图像。

可选地，所述获取训练数据，包括：

获取原始的对象图像，所述原始的对象图像上包括对象标注框；

对所述原始的对象图像进行图像增广处理，得到所述训练数据；

其中，所述增广处理包括以下方式中的至少一种：对所述原始的对象图像进行随机扩增；对所述原始的对象图像进行随机裁剪；对扩增后的对象图像进行随机裁剪；对所述原始的对象图像、随机扩增后的对象图像、和/或随机裁剪后的对象图像进行水平翻转。

可选地，所述损失函数包括交叉损失函数和smoothL1损失函数；

所述交叉损失函数通过下式表示：

L_cls＝ylogf+(1-y)log(1-f)

其中，f为所述神经网络结构输出的对象置信度，y为对象的类别，y为1表示是对象，y为0表示不是对象；

所述smoothL1损失函数通过下式表示：

其中，所述x为目标对象锚框和对应的对象标注结果之间的差值。

可选地，所述将所述对象检测框按照对应的裁剪角度映射回所述鱼眼图像，得到对象检测结果，包括：

基于非极大值抑制算法对多个对象检测框进行筛选；

将筛选后的对象检测框映射回所述鱼眼图像。

对于位于所述拼接图像的图像拼接位置的多个对象检测框，将面积最大的对象检测框映射回所述鱼眼图像，得到所述对象检测结果。

可选地，所述多个对象区域以所述圆心为中心点分布，所述基于所述鱼眼图像的圆心按照多个裁剪角度对所述鱼眼图像进行图像裁剪，得到裁剪图像，包括：

将所述圆心下方、且与所述圆心之间的垂直距离作为预设距离，确定裁剪区域的上边缘；

基于所述上边缘和预设裁剪尺寸，得到裁剪区域；

将所述裁剪区域以所述圆心为中心点进行旋转，得到旋转后的裁剪区域；

在所述鱼眼图像上按照所述裁剪区域和所述旋转后的裁剪区域进行图像裁剪，得到所述裁剪图像。

第二方面，提供了一种鱼眼图像中的对象检测装置，所述装置包括：

图像获取模块，用于获取鱼眼图像，所述鱼眼图像包括平面内角度不同的多个对象区域，对象区域的角度是指所述对象区域中的对象相对于所述鱼眼图像的圆心的角度；

图像裁剪模块，用于按照所述鱼眼图像的圆心按照多个裁剪角度对所述鱼眼图像进行图像裁剪，得到裁剪图像；所述裁剪角度包括所述多个对象区域对应的角度；

图像拼接模块，用于将所述裁剪图像进行拼接，得到拼接图像；

对象检测模块，用于使用对象检测模型对所述拼接图像进行对象检测，得到对象检测框；

结果映射模块，用于将所述对象检测框按照对应的裁剪角度映射回所述鱼眼图像，得到对象检测结果。

第三方面，提供一种鱼眼图像中的对象检测装置，所述装置包括处理器和存储器；所述存储器中存储有程序，所述程序由所述处理器加载并执行以实现第一方面所述的鱼眼图像中的对象检测方法。

第四方面，提供一种计算机可读存储介质，所述存储介质中存储有程序，所述程序由所述处理器加载并执行以实现第一方面所述的鱼眼图像中的对象检测方法。

本申请的有益效果在于：通过获取鱼眼图像，鱼眼图像包括平面内角度不同的多个对象区域；基于鱼眼图像的圆心按照多个裁剪角度对鱼眼图像进行图像裁剪，得到裁剪图像；裁剪角度包括多个对象区域对应的角度；将裁剪图像进行拼接，得到拼接图像；使用对象检测模型对拼接图像进行对象检测，得到对象检测框；将对象检测框按照对应的裁剪角度映射回鱼眼图像，得到对象检测结果；可以解决现有的对象检测模型无法对鱼眼图像进行检测的问题；由于通过将裁剪图像拼接后得到的拼接图像中对象的方向为正向，因此，通过对象检测模型可以得到对象检测结果，通过裁剪角度可以得到对象的角度，从而可以实现鱼眼图像中对象位置和对象角度的检测。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，并可依照说明书的内容予以实施，以下以本申请的较佳实施例并配合附图详细说明如后。

附图说明

图1是本申请一个实施例提供的特征金字塔网络的特征提取示意图；

图2是本申请一个实施例提供的鱼眼图像中的对象检测方法的流程图；

图3是本申请一个实施例提供的鱼眼图像的示意图；

图4是本申请一个实施例提供的裁剪图像的获取过程的示意图；

图5是本申请一个实施例提供的拼接图像的示意图；

图6是本申请一个实施例提供的训练神经网络结构的流程图；

图7是本申请一个实施例提供的鱼眼图像中的对象检测装置的框图；

图8是本申请一个实施例提供的鱼眼图像中的对象检测装置的框图。

具体实施方式

下面结合附图和实施例，对本申请的具体实施方式作进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

首先，对本申请涉及的若干名词进行介绍：

单步多框检测器(Single Shot MultiBox Detector，SSD)：单步(Single Shot)是指目标定位和分类在网络的单个前向传递中完成；多框(MultiBox)是指边界框回归技术；检测器(Detector)对检测到的对象进行分类。

SSD的原始的架构基于VGG-16架构构建，只是对VGG-16进行了一些调整，比如：使用Conv6层以上的辅助卷积层而不是全连接层。通过使用辅助卷积层可以提取多个尺度的特征，并逐步减小每个后续层的尺寸。

特征金字塔网络(Feature Pyramid Networks for Object Detection，FPN)：是一个基于特征金字塔概念设计的特征提取器。

FPN包含一个从底向上和一个从顶向下的路径。从底向上的路径是一个常见的利用卷积网络提取特征的过程。向上的过程中，空间解析度减小。在检测到了更高维度的结构后，每一层的语义信息得以增加。从顶向下的路径将一个语义较丰富的层构建为一个解析度较高的层。由于重新构建的层拥有较强的语义信息但是经过降采样和升采样，物体的定位不是很准确。我们将重构层和相关的特征图侧连起来以获得更精确的定位。

参考图1所示的FPN，其中，FPN包括自底向上的路径11和自顶向下路径12。P3、P4、P5、P6和P7是用于物体检测的特征图。自下而上的特征提取过程为：

…

为特征金字塔的第l层的特征图(3≤l≤7)；

为融合之后的特征图；Conv为1*1的卷积操作；upsample为双线性插值上采样。

自上而下的特征提取过程为：

…

DownSample为下采样；

为自上而下的特征金字塔的融合后的特征图。

需要补充说明的是，图1中以特征金字塔为7层为例进行说明，在实际实现时，特征金字塔可以为更多或更少的层数，本申请不对特征金字塔的层数作限定。另外，由于特征金字塔中第一层和第二层提取的特征较浅，提取不到足够的语义信息，且第一层和第二层的特征图较大，会引入更大的计算量，因此，图1中未对第一层和第二层的特征进行提取，在实际实现时，也可以对第一层和第二层的特征进行提取，本申请不对特征提取的过程作限定。

非极大值抑制(Non-Maximum Suppression，NMS)：是指抑制不是极大值的元素。非极大值抑制算法可以理解为局部最大搜索。

非极大值抑制算法的原理包括：以同一对象对应的6个检测框(或称矩形框)为例，根据分类器的类别分类概率对6个检测框进行排序。假设从小到大的概率分别为A、B、C、D、E、F，非极大值抑制算法至少包括以下几个步骤：

1、从最大概率检测框F开始，分别判断A～E与F的重叠度是否大于某个设定的阈值；

2、若B、D与F的重叠度超过阈值，那么就删除B、D；并标记保留第一个检测框F；

3、从剩下的检测框A、C、E中，选择概率最大的E；

4、判断E与A、C的重叠度，将重叠度大于一定的阈值的检测框删除；并标记保留检测框E，如此循环，直至所有检测框遍历完成时停止。

鱼眼图像：是指通过鱼眼镜头拍摄得到的图像。鱼眼镜头是一种极端的广角镜头，这种镜头的前镜片直径很短且呈抛物状向镜头前部凸出，与鱼的眼睛相似。由于焦距越短，视角越大，因光学原理产生的变形也就越强烈。而为了达到360度的超大视角，通过鱼眼镜头采集到的鱼眼图像存在桶形畸变。即，鱼眼图像中除了画面中心的对象保持不变，其他本应水平或垂直的对象都发生了相应的畸变。

可选地，本申请以各个实施例的执行主体为电子设备为例进行说明，该电子设备可以为终端或者服务器等具有图像处理能力的设备，该终端可以为手机、计算机、平板电脑、视频会议终端等，本实施例不对电子设备的类型作限定。

可选地，本申请提供的鱼眼图像中的对象检测方法的应用场景包括但不限于以下场景：

1、视频会议场景：鱼眼图像包括多个与会人员对应的人脸区域，对象检测方法用于检测鱼眼图像中的人脸；

2、车辆监控场景：鱼眼图像包括多个车辆对应的车辆区域，对象检测方法用于检测鱼眼图像中的车辆；

3、人员监控场景：鱼眼图像包括多个人员对应的人员区域，对象检测方法用于检测鱼眼图像中的人员。

当然，本申请提出的鱼眼图像中的对象检测方法还可以用于其它场景，该场景对应的鱼眼图像中具有角度不同的多个对象区域，对象区域对应的对象可以为人、车辆、动物、障碍物等，本实施例不对对象的类型和对象检测方法的应用场景作限定。

图2是本申请一个实施例提供的鱼眼图像中的对象检测方法的流程图。该方法至少包括以下几个步骤：

步骤201，获取鱼眼图像，该鱼眼图像包括平面内角度不同的多个对象区域。

对象区域的角度是指对象区域中的对象相对于鱼眼图像的圆心的角度。其中，对象相对于圆心的角度是指在基于鱼眼图像的圆心建立的二维坐标系中，对象与圆心之间的连线相对于任一坐标轴之间的角度。比如：基于鱼眼图像的圆心建立的二维坐标系为以鱼眼图像的圆心为原点，以鱼眼图像的水平方向为x轴、以鱼眼图像的垂直方向为y轴，此时，对象区域的角度的为对象区域中对象的中心点与原点之间的连线相对于x轴或者y轴的角度。

以视频会议场景为例，参考图3所示的鱼眼图像，该鱼眼图像包括多个与会人员对应的对象区域，且至少两个对象区域平面内的角度不同。

步骤202，基于鱼眼图像的圆心按照多个裁剪角度对鱼眼图像进行图像裁剪，得到裁剪图像。

鱼眼图像的圆心是指鱼眼图像中像素畸变最小的点。

裁剪角度包括多个对象区域对应的角度。本实施例中，通过按照裁剪角度对鱼眼图像进行裁剪，由于裁剪角度包括多个对象区域对应的角度，因此，得到的裁剪图像中对象的方向均为正向。

在一个示例中，多个对象区域以圆心为中心点分布。此时，基于鱼眼图像的圆心按照多个裁剪角度对鱼眼图像进行图像裁剪，得到裁剪图像，包括：将圆心下方、且与圆心之间的垂直距离作为预设距离，确定裁剪区域的上边缘；基于上边缘和预设裁剪尺寸，得到裁剪区域；将裁剪区域以圆心为中心点进行旋转，得到旋转后的裁剪区域；在鱼眼图像上按照裁剪区域和旋转后的裁剪区域进行图像裁剪，得到裁剪图像。

其中，在将裁剪区域以圆心为中心点进行多次旋转时，相邻两次的旋转角度相同或者不同。

预设裁剪尺寸和预设距离可以保证裁剪区域和旋转后的裁剪区域均位于鱼眼图像内。裁剪区域可以为矩形、六边形等图形，本实施实施例不对裁剪区域的形状作限定。

可选地，预设距离的数量可以为多个和/或预设裁剪尺寸的数量可以为多个，即，电子设备可以按照多个预设距离确定出裁剪区域的多个上边缘，每个上边缘对应一个裁剪区域；和/或，电子设备可以按照多个预设裁剪尺寸确定出多个裁剪区域，每个预设裁剪尺寸对应一个裁剪区域。

参考图4所示的裁剪图像的获取过程，在鱼眼图像的圆心的下方、且与圆心之间的垂直距离为预设距离L的位置确定水平线，得到裁剪区域41的上边缘；以预设裁剪尺寸和该上边缘确定出裁剪区域41。然后，将裁剪区域41绕圆心逆时针或者顺时针旋转多次，得到旋转后的裁剪区域42。

由于多个对象区域以圆心为轴分布，且相对于圆心的角度不同，而位于圆心下方的对象通常是正向的，因此，通过使用位于圆心下方的裁剪区域进行裁剪，得到的裁剪图像中对象是正向的。又因为多个对象区域以圆心为轴分布，因此，后续将该裁剪区域绕圆心进行旋转进行裁剪，得到的裁剪图像中对象也是正向的。因此，本实施例提供的裁剪方式得到的裁剪图像，可以保证得到的裁剪图像包括鱼眼图像中各个对象在正向上的图像，这样，在对象检测时无需调整对象的角度，降低对象检测的难度。步骤203，将裁剪图像进行拼接，得到拼接图像。

由于裁剪图像中对象的方向均为正向，因此，基于各个裁剪图像得到的拼接图像中对象的方向也为正向。

可选地，同一鱼眼图像中的各个裁剪图像可以对应一张拼接图像；或者，对应多张拼接图像，本实施例不对同一鱼眼图像中各个裁剪图像对应的拼接图像的数量作限定。

可选地，将裁剪图像进行拼接，得到拼接图像，包括：按照裁剪顺序对裁剪图像进行拼接，得到拼接图像；或者，对裁剪图像进行随机拼接，得到拼接图像；或者，按照裁剪图像的标识名称在预设字典中的顺序进行拼接，得到拼接图像。其中，裁剪图像的标识名称用于唯一地标识裁剪图像。当然，电子设备进行图像拼接的方式还可以为其它方式，本实施例在此不再一一列举。

可选地，裁剪图像在拼接图像中排列为n×m阵列，n和m均为大于或等于1的整数。n和m的值可以为固定值；或者，也可以是基于裁剪图像的数量确定的。

参考图5所示的拼接图像，该拼接图像包括4个裁剪图像，4个裁剪图像排列为4宫格，即2×2的阵列。

步骤204，使用对象检测模型对拼接图像进行对象检测，得到对象检测框。

对象检测模型用于检测输入的图像中的对象，且检测结果通过对象检测框表示。

可选地，对象检测模型可以为单步多框检测器；或者，是对单步多框检测器改进后得到的神经网络模型；或者，也可以是其它基于神经网络模型建立的对象检测模型，本实施例不对对象检测模型的类型作限定。

对象检测模型是使用多张对象图像和每张对象图像对应的对象标注框对预设的神经网络结构训练得到的。

参考图6，电子设备训练神经网络结构的过程至少包括以下几个步骤：

步骤61，获取训练数据，训练数据包括尺寸不同的多张对象图像和每张对象图像对应的对象标注框。

可选地，训练数据中的多张对象图像是基于原始的对象图像进行增广处理后得到的。此时，获取训练数据包括：获取原始的对象图像，原始的对象图像上包括对象标注框；对原始的对象图像进行图像增广处理，得到训练数据中的对象图像。其中，增广处理包括以下方式中的至少一种：对原始的对象图像进行随机扩增；对原始的对象图像进行随机裁剪；对扩增后的对象图像进行随机裁剪；对原始的对象图像、随机扩增后的对象图像、和/或随机裁剪后的对象图像进行水平翻转。

可选地，随机扩增的方法包括：在对象图像周围填充由图像均值构成的填充区域，填充后的对象图像扩增为原图预设倍数(比如：两倍到四倍)；填充后的对象图像中的对象区域相对于整张图像的比例减小，这样增加了小尺寸对象区域的比例。或者，在对象图像周围随机扩增，保证对象区域相对于整张图像的比例不变，这样，增加了对象区域在对象图像中不同位置的覆盖范围。

可选地，随机裁剪的方法包括：在原始的对象图像或者扩增后的对象图像上按照预设长宽比进行裁剪。裁剪后的对象图像保留中心点仍在该裁剪后的对象图像中的对象标注框。其中，预设长宽比的范围可以为[0.5，2]，当然，也可以是其它范围，本实施例不对预设长宽比的取值范围作限定。通过随机裁剪，一方面增加了大尺寸对象标注框的数量，另一方面也丰富了对象区域在对象图像中的位置分布。

可选地，对象图像为只具有y通道像素值的图像。此时，电子设备获取到该对象图像后，计算对象图像的像素均值和像素标准差；对该对象图像进行标准化操作，得到预处理后的对象图像。由于对象图像只具有y通道像素值，因此不需要做颜色扰动等色彩方面的数据增强，可以降低模型训练复杂度。此时，输入至对象检测模型的拼接图像也为只具有y通道像素值的图像。

步骤62，获取预设的神经网络结构；神经网络结构包括特征检测网络和单步检测网络，特征检测网络用于提取对象特征，单步检测网络用于基于每个对象特征确定对象锚框。

本实施例中，由于单步检测网络的开发部署简单，训练难度低，因此，通过使用单步检测网络进行对象检测，可以降低对象检测模型的部署难度，提高训练效率。

可选地，特征检测网络为FPN，FPN包括第一阶段特征金字塔和第二阶段特征金字塔。其中，第一阶段特征金字塔用于对输入的对象图像自下而上进行特征提取，得到多层特征图；第二阶段特征金字塔用于对输入的特征图自上而下进行特征提取，并将提取到的特征与第一阶段特征金字塔对应层的特征图进行结合，得到多层特征图。

第二阶段特征金字塔输出的多层特征图用于供单步检测网络进行对象检测，得到对象锚框。

由于第一阶段金字塔可以自下而上地提取对象图像中的特征，若直接使用每层特征图进行预测，由于浅层的特征不鲁棒，因此，得到的预测结果可能不准确。而本实施例中通过使用FPN，即在第一阶段金字塔的基础上构建第二阶段金字塔，使低层特征和处理过的高层特征进行累加，可以结合浅层的较准确的位置信息和深层的较准确的特征信息进行预测，得到的预测结果更加准确。

步骤63，将对象图像输入神经网络结构，得到多个对象锚框。

在一个示例中，特征检测网络会输出多层特征图，每张特征图中包括至少一个对象锚框。

对象锚框是指以每个特征点(对象特征)为中心确定的边界框。可选地，对象锚框的锚框尺寸基于所属的特征图相对于原图的步长确定，该特征图为特征检测网络输出的图像。示意性地，对象锚框为长宽比为1:1的锚框，锚框尺寸是特征图相对于原图的步长的2倍和/或

倍。比如：特征图相对于原图的步长为8，则锚框尺寸为16和

本实施例中，通过设置稠密的等比间隔的锚框尺寸，可以提升最终训练得到的对象检测模型的召回率。

步骤64，将多个对象锚框与对应的对象标注框进行样本匹配，得到目标对象锚框。

对于每张对象图像，该对象图像对应多层特征图，每层特征图包括至少一个对象锚框；此时，每个对象锚框对应的对象标注框是指：对象锚框所属的特征图对应的对象图像中与对象锚框存在交叠的对象标注框。

在一个示例中，将多个对象锚框与对应的对象标注框进行样本匹配，得到目标对象锚框，包括：确定每层特征图中每个对象锚框与对应的对象标注框之间的交并比；对于每个对象标注框，将与对象标注框的交并比最高的对象锚框确定为与对象标注框相匹配的目标对象锚框；对于前n层特征图中的每层特征图，将特征图上未匹配到对象标注框的对象锚框的交并比与第一阈值进行比较；将交并比大于第一阈值的对象锚框确定为对应的对象标注框的目标对象锚框；对于位于前n层特征图之下的每层特征图，将特征图上未匹配到对象标注框的对象锚框的交并比与第二阈值进行比较；将交并比大于第二阈值的对象锚框确定为对应的对象标注框的目标对象锚框；其中，第一阈值大于第二阈值。n为正整数。n的值可以为1，当然，也可以为其它数值，本实施例不对n的取值作限定。

由于浅层的特征金字塔输出的特征图具有分辨率大、对象锚框数量多、主要负责检测小目标的特点，通过设置较高的正样本匹配阈值进行匹配，可以提高最终训练得到的对象检测模型的准确率和召回率。另外，可以减少低质量的小尺度样本，使得神经网络模型更容易收敛。

步骤65，基于预设的损失函数确定目标对象锚框和对应的对象标注结果之间的差异。

单步检测网络包括分类和回归分支。分类和回归分支包括FPN中每层特征提取层对应的分类和回归分支，且各个分类和回归分支之间权值共享。由于每层特征层对应不同的对象尺度，因此，通过权值共享，可以在不同尺度的对象图像中提取到类似的特征，提高对象检测的鲁棒性。

此时，损失函数包括交叉损失函数和smoothL1损失函数。对于分类分支，使用交叉损失函数进行训练；对于回归分支使用smoothL1损失函数进行训练。

交叉损失函数通过下式表示：

L_cls＝ylogf+(1-y)log(1-f)

其中，f为神经网络结构输出的对象置信度，y为对象的类别，y为1表示是对象，y为0表示不是对象；

smoothL1损失函数通过下式表示：

其中，x为目标对象锚框和对应的对象标注结果之间的差值。

在计算目标对象锚框和对应的对象标注结果之间的差值时，电子设备对对象标注结果进行编码，得到回归分支的回归目标；回归网络的输出(目标对象锚框)和编码后的回归目标之间的差值为x。

步骤66，根据目标对象锚框和对应的对象标注结果之间的差异，对神经网络结构进行训练，得到对象检测模型。

通过上述训练过程得到对象检测模型后，将拼接图像输入该对象检测模型，会在拼接图像中得到每个对象的对象检测框。

步骤205，将对象检测框按照对应的裁剪角度映射回鱼眼图像，得到对象检测结果。

电子设备会记录拼接图像中每张裁剪图像的裁剪角度，以表示该裁剪图像在鱼眼图像中的位置；这样，在得到对象检测框后，电子设备可以按照该裁剪角度对该对象检测框进行旋转，从而将对象检测框映射回鱼眼图像，得到对象检测结果。

可选地，在对象检测框映射过程中可能出现下述情况：

情况1：同一个对象对应多个对象检测框。此时，基于非极大值抑制算法对多个对象检测框进行筛选；将筛选后的对象检测框映射回鱼眼图像。

情况2：多个对象检测框位于拼接图像的图像拼接位置，即对象检测框覆盖两个裁剪图像。此时，对于位于拼接图像的图像拼接位置的多个对象检测框，将面积最大的对象检测框映射回鱼眼图像，得到对象检测结果。

综上所述，本实施例提供的鱼眼图像中的对象检测方法，通过获取鱼眼图像，鱼眼图像包括平面内角度不同的多个对象区域；基于鱼眼图像的圆心按照多个裁剪角度对鱼眼图像进行图像裁剪，得到裁剪图像；裁剪角度包括多个对象区域对应的角度；将裁剪图像进行拼接，得到拼接图像；使用对象检测模型对拼接图像进行对象检测，得到对象检测框；将对象检测框按照对应的裁剪角度映射回鱼眼图像，得到对象检测结果；可以解决现有的对象检测模型无法对鱼眼图像进行检测的问题；由于通过将裁剪图像拼接后得到的拼接图像中对象的方向为正向，因此，通过对象检测模型可以得到对象检测结果，通过裁剪角度可以得到对象的角度，从而可以实现鱼眼图像中对象位置和对象角度的检测。

另外，通过基于单步检测器构建对象检测模型，由于单步检测器开发部署简单，单帧处理时间不跟随图像大小、对象尺度范围和对象数量的变化而变化，因此，相对于现有的使用级联的检测器进行鱼眼图像检测来说，可以提高对象检测效率。

另外，由于多个对象区域以圆心为轴分布，且相对于圆心的角度不同，而位于圆心下方的对象通常是正向的，因此，通过使用位于圆心下方的裁剪区域进行裁剪，得到的裁剪图像中对象是正向的。又因为多个对象区域以圆心为轴分布，因此，后续将该裁剪区域绕圆心进行旋转进行裁剪，得到的裁剪图像中对象也是正向的。因此，本实施例提供的裁剪方式得到的裁剪图像，可以保证得到的裁剪图像包括鱼眼图像中各个对象在正向上的图像，这样，在对象检测时无需调整对象的角度，降低对象检测的难度。

另外，由于第一阶段金字塔可以自下而上地提取对象图像中的特征，若直接使用每层特征图进行预测，由于浅层的特征不鲁棒，因此，得到的预测结果可能不准确。而本实施例中通过使用FPN，即在第一阶段金字塔的基础上构建第二阶段金字塔，使低层特征和处理过的高层特征进行累加，可以结合浅层的较准确的位置信息和深层的较准确的特征信息进行预测，得到的预测结果更加准确。

图7是本申请一个实施例提供的鱼眼图像中的对象检测装置的框图。该装置至少包括以下几个模块：图像获取模块710、图像裁剪模块720、图像拼接模块730、对象检测模块740和结果映射模块750。

图像获取模块710，用于获取鱼眼图像，所述鱼眼图像包括平面内角度不同的多个对象区域；

图像裁剪模块720，用于按照所述鱼眼图像的圆心按照多个裁剪角度对所述鱼眼图像进行图像裁剪，得到裁剪图像；所述裁剪角度包括所述多个对象区域对应的角度；

图像拼接模块730，用于将所述裁剪图像进行拼接，得到拼接图像；

对象检测模块740，用于使用对象检测模型对所述拼接图像进行对象检测，得到对象检测框；

结果映射模块750，用于将所述对象检测框按照对应的裁剪角度映射回所述鱼眼图像，得到对象检测结果。

相关细节参考上述方法实施例。

需要说明的是：上述实施例中提供的鱼眼图像中的对象检测装置在进行鱼眼图像中的对象检测时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将鱼眼图像中的对象检测装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的鱼眼图像中的对象检测装置与鱼眼图像中的对象检测方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8是本申请一个实施例提供的鱼眼图像中的对象检测装置的框图，该装置可以智能手机、平板电脑、笔记本电脑、台式电脑或服务器等，本实施例不对对象检测装置的设备类型作限定。该装置至少包括处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如：4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所执行以实现本申请中方法实施例提供的鱼眼图像中的对象检测方法。

在一些实施例中，鱼眼图像中的对象检测装置还可选包括有：外围设备接口和至少一个外围设备。处理器801、存储器802和外围设备接口之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口相连。示意性地，外围设备包括但不限于：射频电路、触摸显示屏、音频电路、和电源等。

当然，鱼眼图像中的对象检测装置还可以包括更少或更多的组件，本实施例对此不作限定。

可选地，本申请还提供有一种计算机可读存储介质，所述计算机可读存储介质中存储有程序，所述程序由处理器加载并执行以实现上述方法实施例的鱼眼图像中的对象检测方法。

可选地，本申请还提供有一种计算机产品，该计算机产品包括计算机可读存储介质，所述计算机可读存储介质中存储有程序，所述程序由处理器加载并执行以实现上述方法实施例的鱼眼图像中的对象检测方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种鱼眼图像中的对象检测方法，其特征在于，所述方法包括：

基于所述鱼眼图像的圆心按照多个裁剪角度对所述鱼眼图像进行图像裁剪，得到裁剪图像；所述裁剪角度包括所述多个对象区域对应的多个角度；

将所述裁剪图像进行拼接，得到拼接图像；

2.根据权利要求1所述的方法，其特征在于，所述使用对象检测模型对所述拼接图像进行对象检测，得到对象检测框之前，还包括：

3.根据权利要求2所述的方法，其特征在于，所述特征检测网络包括第一阶段特征金字塔和第二阶段特征金字塔；

4.根据权利要求3所述的方法，其特征在于，所述将所述多个对象锚框与对应的对象标注框进行样本匹配，得到目标对象锚框，包括：

其中，所述第一阈值大于所述第二阈值。

5.根据权利要求2所述的方法，其特征在于，所述对象锚框的锚框尺寸基于所述对象锚框所属的特征图相对于原图的步长确定，所述特征图为所述特征检测网络输出的图像。

6.根据权利要求2所述的方法，其特征在于，所述获取训练数据，包括：

7.根据权利要求2所述的方法，其特征在于，所述损失函数包括交叉损失函数和smoothL1损失函数；

所述交叉损失函数通过下式表示：

L_cls＝ylogf+(1-y)log(1-f)

所述smoothL1损失函数通过下式表示：

8.根据权利要求1至7任一所述的方法，其特征在于，所述将所述对象检测框按照对应的裁剪角度映射回所述鱼眼图像，得到对象检测结果，包括：

基于非极大值抑制算法对多个对象检测框进行筛选；

将筛选后的对象检测框映射回所述鱼眼图像。

9.根据权利要求1至7任一所述的方法，其特征在于，所述将所述对象检测框按照对应的裁剪角度映射回所述鱼眼图像，得到对象检测结果，包括：

10.根据权利要求1至7任一所述的方法，其特征在于，所述多个对象区域以所述圆心为中心点分布，所述基于所述鱼眼图像的圆心按照多个裁剪角度对所述鱼眼图像进行图像裁剪，得到裁剪图像，包括：

基于所述上边缘和预设裁剪尺寸，得到裁剪区域；

11.一种鱼眼图像中的对象检测装置，其特征在于，所述装置包括处理器和存储器；所述存储器中存储有程序，所述程序由所述处理器加载并执行以实现如权利要求1至10任一项所述的鱼眼图像中的对象检测方法。

12.一种计算机可读存储介质，其特征在于，所述存储介质中存储有程序，所述程序被处理器执行时用于实现如权利要求1至10任一项所述的鱼眼图像中的对象检测方法。