CN107545263A

CN107545263A - 一种物体检测方法及装置

Info

Publication number: CN107545263A
Application number: CN201710652233.3A
Authority: CN
Inventors: 王生进; 李栋
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2017-08-02
Filing date: 2017-08-02
Publication date: 2018-01-05
Anticipated expiration: 2037-08-02
Also published as: CN107545263B

Abstract

本发明实施例提供一种物体检测方法及装置，所述方法包括：接收样本图片，训练所述样本图片并标注所述样本图片中各个感兴趣物体的轴对齐矩形边框位置，获得所述样本图片的图片特征图；通过对所述图片特征图进行预设的卷积操作和预设的反卷积操作，获得与所述样本图片的尺寸大小一致的输出特征图；通过将图像复原L2损失函数、窗口分类Softmax损失函数和窗口校正平滑L1损失函数三种损失函数线性加和训练网络，获得目标训练网络；输入所述输出特征图到所述目标训练网络，获得初始检测结果，对所述初始检测结果进行非极大值抑制，获得所述样本图片中各个感兴趣物体的检测结果。本发明实施例实现了对图片中物体的检测识别率的提高，并尽可能地检测到图片中具有不同尺寸的目标，特别是小尺寸目标。

Description

一种物体检测方法及装置

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种物体检测方法及装置。

背景技术

物体检测是计算机视觉领域的核心任务之一，是图像理解和认知的关键技术，其根本目的是依靠计算机算法从静态或动态图像中识别感兴趣的物体。物体检测不仅具有重要的理论研究价值，是物体跟踪、身份与属性识别、图像语义描述等其他计算机视觉任务的研究基础，而且具有重要的实际应用价值和广阔的应用前景。例如，基于车载摄像机的车辆检测技术在智能辅助驾驶与无人驾驶领域有着重要应用，通过检测行车周围环境中的其他车辆目标，动态分析其与当前车辆的车距，能够消解潜在的车车冲突和可能发生的事故，从而提高车辆行驶安全性和交通通行效率，为保障人民生命安全和道路交通安全提供技术支撑。在安防视频监控领域，车辆检测技术也有着重要的应用前景，是后续车辆追踪、车牌识别、车辆属性识别(型号、颜色等)等任务的基础。同时，车辆检测还能够应用于智能交通流量统计系统，通过自动检测视频流中的车辆目标并计数，能够自动统计重要道路、关卡等场合的车流量，提升交通系统效率。因此，车辆检测技术具有重要的研究价值和广泛的应用前景。

目前主流的物体检测技术采用深度学习的框架，利用事先收集的大量目标样本训练神经网络，输出图片中目标的类型和位置。基于深度学习的物体检测方法相比利用传统特征和分类器的方法识别性能更高，能够应用于复杂场景中的目标检测。然而，许多实际应用场合对检测识别率要求较高，需要尽可能地检测到图片中具有不同尺寸的目标，特别是小尺寸目标。

因此，如何提高检测识别率，尽可能检测到图片中不同尺寸的目标，特别是小尺寸目标，是需要亟待解决的问题。

发明内容

针对现有技术中的缺陷，本发明实施例提供一种物体检测方法及装置。

第一方面，本发明实施例提供一种物体检测方法，所述方法包括：

接收样本图片，训练所述样本图片并标注所述样本图片中各个感兴趣物体的轴对齐矩形边框位置，获得所述样本图片的图片特征图；

通过对所述图片特征图进行预设的卷积操作和预设的反卷积操作，获得与所述样本图片的尺寸大小一致的输出特征图；

通过将图像复原L2损失函数、窗口分类Softmax损失函数和窗口校正平滑L1损失函数三种损失函数线性加和训练网络，获得目标训练网络；

输入所述输出特征图到所述目标训练网络，获得初始检测结果，对所述初始检测结果进行非极大值抑制处理，获得所述样本图片中各个感兴趣物体的检测结果。

可选的，所述图像复原L2损失函数具体包括：

其中，b表示输入的所述样本图片的图片特征图；

f(b)表示对所述图片特征图进行所述预设的卷积操作与所述预设的反卷积操作后获得的所述输出特征图。

可选的，所述窗口分类Softmax损失函数具体包括：

其中，z是softmaxwithloss损失层输入的图片特征图；

f(z)是softmax损失函数输出的图片特征图的分类结果；

y是输入的所述图片特征图z对应的类别，y＝0，1，...，N；

N是所述感兴趣的物体类别；

k为Softmax损失函数输出的图片特征图的当前维度索引号；

j为Softmax损失函数输出的图片特征图的索引号。

可选的，所述窗口校正平滑L1损失函数具体包括：

其中，t表示预测的所述输出特征图的边框位置；

v表示人工标注的所述图片特征图的真实位置；

x，y，w，h分别表示所述输出特征图的边框的中心横纵坐标和边框的宽高；

l(t_i-v_i)为预测的所述输出特征图的边框位置与人工标注的所述图片特征图的真实位置的差值，即误差；

l(a)为l(t_i-v_i)的物理表达式，l(t_i-v_i)根据l(a)表达式的值获得；

a表示的是t_i-v_i；

i表示的是预测的所述输出特征图的边框序号。

第二方面，本发明实施例提供一种物体检测装置，所述装置包括：

样本训练模块，用于接收样本图片，训练所述样本图片并标注所述样本图片中各个感兴趣物体的轴对齐矩形边框位置，获得所述样本图片的图片特征图；

卷积和反卷积模块，用于通过对所述图片特征图进行预设的卷积操作和预设的反卷积操作，获得与所述样本图片的尺寸大小一致的输出特征图；

网络训练模块，用于通过将图像复原L2损失函数、窗口分类Softmax损失函数和窗口校正平滑L1损失函数三种损失函数线性加和训练网络，获得目标训练网络；

处理模块，用于输入所述输出特征图到所述目标训练网络，获得初始检测结果，对所述初始检测结果进行非极大值抑制处理，获得所述样本图片中各个感兴趣物体的检测结果。

可选的，所述网络训练模块中所述图像复原L2损失函数具体包括：

其中，b表示输入的所述样本图片的图片特征图；

可选的，所述网络训练模块中所述窗口分类Softmax损失函数具体包括：

其中，z是softmaxwithloss损失层输入的图片特征图；

f(z)是softmax损失函数输出的图片特征图的分类结果；

y是输入的所述图片特征图z对应的类别，y＝0，1，...，N；

N是所述感兴趣的物体类别；

k为Softmax损失函数输出的图片特征图的当前维度索引号；

j为Softmax损失函数输出的图片特征图的索引号；。

可选的，所述网络训练模块中所述窗口校正平滑L1损失函数具体包括：

其中t表示预测的所述输出特征图的边框位置；

v表示人工标注的所述图片特征图的真实位置；

a表示的是t_i-v_i；

i表示的是预测的所述输出特征图的边框序号。

第三方面，本发明实施例提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行上述对应的任一方法。

第四方面，本发明实施例提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机程序，所述计算机程序使所述计算机执行上述对应的任一方法。

本发明实施例提供的物体检测方法及装置，基于对称网络结构的多尺度物体检测方法，通过结合卷积和反卷积技术，搭建多尺度物体检测网络，通过将具有相同尺寸大小的卷积层和反卷积层特征融合，通过将图像复原L2损失函数、窗口分类Softmax损失函数和窗口校正平滑L1损失函数三种损失函数线性加和训练网络获得目标训练网络，并将经过卷积和反卷积后的特征图输入目标训练网络获得物体检测结果，实现了对图片中物体的检测识别率的提高，并尽可能地检测到图片中具有不同尺寸的目标，特别是小尺寸目标。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的物体检测方法的流程示意图；

图2为本发明实施例中训练网络的输入输出示意图；

图3为本发明实施例提供的物体检测装置的结构示意图；

图4为本发明一个实施例提供的电子设备的逻辑框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种物体检测方法，图1为本发明实施例提供的物体检测方法的流程示意图，如图1所示，所述方法包括：

步骤S101、接收样本图片，训练所述样本图片并标注所述样本图片中各个感兴趣物体的轴对齐矩形边框位置，获得所述样本图片的图片特征图；

其中，所述图片特征图(或者叫地标图)是指利用参数化特征(如点和线)的全局位置来表示环境。机器人的外部环境被一些列参数化的特征，即二维坐标点表示。这些静态的地标点被观测器(装有传感器的机器人)利用多目标跟踪的方法跟踪，从而估计机器人的运动。

步骤S102、通过对所述图片特征图进行预设的卷积操作和预设的反卷积操作，获得与所述样本图片的尺寸大小一致的输出特征图；

其中，所述卷积操作是指，通过卷积神经网络对图片特征图进行限缩，卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。它包括卷积层(alternating convolutional layer)和池层(pooling layer)。

一般地，CNN的基本结构包括两层，其一为特征提取层，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征。一旦该局部特征被提取后，它与其它特征间的位置关系也随之确定下来；其二是特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性。此外，由于一个映射面上的神经元共享权值，因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层，这种特有的两次特征提取结构减小了特征分辨率。

CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN的特征检测层通过训练数据进行学习，所以在使用CNN时，避免了显示的特征抽取，而隐式地从训练数据中进行学习；再者由于同一特征映射面上的神经元权值相同，所以网络可以并行学习，这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性，其布局更接近于实际的生物神经网络，权值共享降低了网络的复杂性，特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。

所述反卷积操作是指通过测量输出和已知输入重构未知输入的过程

步骤S103、通过将图像复原L2损失函数、窗口分类Softmax损失函数和窗口校正平滑L1损失函数三种损失函数线性加和训练网络，获得目标训练网络；

其中，所述损失函数通常而言是由损失项(loss term)和正则项(regularizationterm)组成，损失项对回归问题，常用的有：平方损失(for linear regression)，绝对值损失；对分类问题，常用的有：hinge loss(for soft margin SVM)，log loss(for logisticregression)。正则项常用的有L1-regularization和L2-regularization。

一般来说，我们在进行机器学习任务时，使用的每一个算法都有一个目标函数，算法便是对这个目标函数进行优化，特别是在分类或者回归任务中，便是使用损失函数(LossFunction)作为其目标函数，又称为代价函数(Cost Function)。损失函数是用来评价模型的预测值Y＝f(X)与真实值Y的不一致程度，它是一个非负实值函数。通常使用L(Y,f(x))来表示，损失函数越小，模型的性能就越好。

步骤S104、输入所述输出特征图到所述目标训练网络，获得初始检测结果，对所述初始检测结果进行非极大值抑制处理，获得所述样本图片中各个感兴趣物体的检测结果。

其中，所述非极大值抑制顾名思义就是抑制不是极大值的元素，搜索局部的极大值。在物体检测非极大值抑制应用十分广泛，主要目的是为了消除多余的框，找到最佳的物体检测的位置。

本发明实施例提供的物体检测方法，基于对称网络结构的多尺度物体检测方法，通过结合卷积和反卷积技术，搭建多尺度物体检测网络，通过将具有相同尺寸大小的卷积层和反卷积层特征融合，通过将图像复原L2损失函数、窗口分类Softmax损失函数和窗口校正平滑L1损失函数三种损失函数线性加和训练网络获得目标训练网络，并将经过卷积和反卷积后的特征图输入目标训练网络获得物体检测结果，实现了对图片中物体的检测识别率的提高，并尽可能地检测到图片中具有不同尺寸的目标，特别是小尺寸目标。

在上述实施例的基础上，所述图像复原L2损失函数具体包括：

其中，b表示输入的所述样本图片的图片特征图；

在上述实施例的基础上，所述窗口分类Softmax损失函数具体包括：

其中，z是softmaxwithloss损失层输入的图片特征图；

f(z)是softmax损失函数输出的图片特征图的分类结果；

y是输入的所述图片特征图z对应的类别，y＝0，1，...，N；

N是所述感兴趣的物体类别；

k为Softmax损失函数输出的图片特征图的当前维度索引号；

j为Softmax损失函数输出的图片特征图的索引号；。

在上述实施例的基础上，所述窗口校正平滑L1损失函数具体包括：

其中t表示预测的所述输出特征图的边框位置；

v表示人工标注的所述图片特征图的真实位置；

a表示的是t_i-v_i；

i表示的是预测的所述输出特征图的边框序号。

本发明实施例的具体实施方式为：

将接收到的样本图片进行网络训练，训练时，网络输入为整幅样本图片，训练样本图片需标注轴对齐的物体矩形边框位置，获得样本图片的图片特征图。卷积操作阶段，将获得的样本图片的图片特征图通过5层卷积操作Conv_i，i＝1，2，3，4，5逐渐将特征图缩小，记特征层尺寸依次为S_i，i＝1，2，3，4，5。卷积操作将特征层的尺寸变小，S_i>S_j若i<j。每一层卷积之后增加ReLU非线性输出单元以及池化操作。反卷积操作阶段，在第5层卷积层之后，依次增加4层反卷积操作Deconv_i，i＝1，2，3，4，记特征层尺寸依次为D_i，i＝1，2，3，4，保证反卷积层与卷积层特征图尺寸一致，即S_i＝D_5-i，i＝1，2，3，4。网络最终特征输出尺寸与输入的样本图片一致，采用图像复原L2损失函数计算图像复原误差，图像复原L2损失函数如下所示：

其中，b表示输入的所述样本图片的图片特征图；

为了检测不同尺寸大小的目标，将具有相同尺寸大小的卷积层Conv_i和反卷积层Deconv_5-i特征分别进行级联融合，取i＝3,4。在融合后的特征图以及第5层卷积特征图之后通过ROI池化和全连接变换操作获得N+1维输出向量，N表示感兴趣的物体类别。利用窗口分类Softmax损失函数进行窗口分类，利用窗口校正平滑L1损失函数进行窗口位置校正。

窗口分类Softmax损失函数如下：

其中，z是softmaxwithloss损失层输入的图片特征图；

f(z)是softmax损失函数输出的图片特征图的分类结果；

y是输入的所述图片特征图z对应的类别，y＝0，1，...，N；

N是所述感兴趣的物体类别；

k为Softmax损失函数输出的图片特征图的当前维度索引号；

j为Softmax损失函数输出的图片特征图的索引号。

窗口校正平滑L1损失函数如下：

其中，t表示预测的所述输出特征图的边框位置；

v表示人工标注的所述图片特征图的真实位置；

a表示的是t_i-v_i；

i表示的是预测的所述输出特征图的边框序号。

本发明实施例采用多任务学习方式同时优化三种目标：图像复原L2损失函数、窗口分类Softmax损失函数和窗口校正平滑L1损失函数，总体损失函数为三者函数线性相加并通过总体损失函数训练网络得到目标训练网络，将通过卷积和反卷积操作得到的输出特征图输入到训练好的目标训练网络，如图2所示，获得样本图片的初始检测结果，在对初始检测结果进行非极大值抑制处理，排除重复检测框，获得样本图片的最终物体检测结果。

本发明实施例提供一种物体检测装置，图3为本发明实施例提供的物体检测装置的结构示意图，如图3所示，所述装置包括：样本训练模块301、卷积和反卷积模块302、网络训练模块303和处理模块304；其中，

样本训练模块301用于接收样本图片，训练所述样本图片并标注所述样本图片中各个感兴趣物体的轴对齐矩形边框位置，获得所述样本图片的图片特征图；卷积和反卷积模块302用于通过对所述图片特征图进行预设的卷积操作和预设的反卷积操作，获得与所述样本图片的尺寸大小一致的输出特征图；网络训练模块303用于通过将图像复原L2损失函数、窗口分类Softmax损失函数和窗口校正平滑L1损失函数三种损失函数线性加和训练网络，获得目标训练网络；处理模块304用于输入所述输出特征图到所述目标训练网络，获得初始检测结果，对所述初始检测结果进行非极大值抑制处理，获得所述样本图片中各个感兴趣物体的检测结果。

本发明实施例提供的物体检测装置，通过卷积和反卷积模块结合卷积和反卷积技术，搭建多尺度物体检测网络，通过将具有相同尺寸大小的卷积层和反卷积层特征融合，通过网络训练模块将图像复原L2损失函数、窗口分类Softmax损失函数和窗口校正平滑L1损失函数三种损失函数线性加和训练网络获得目标训练网络，并将经过卷积和反卷积后的特征图输入目标训练网络获得物体检测结果，实现了对图片中物体的检测识别率的提高，并尽可能地检测到图片中具有不同尺寸的目标，特别是小尺寸目标。

在上述实施例的基础上，所述网络训练模块中所述图像复原L2损失函数具体包括：

其中，b表示输入的所述样本图片的图片特征图；

在上述实施例的基础上，所述网络训练模块中所述窗口分类Softmax损失函数具体包括：

其中，z是softmaxwithloss损失层输入的图片特征图；

f(z)是softmax损失函数输出的图片特征图的分类结果；

y是输入的所述图片特征图z对应的类别，y＝0，1，...，N；

N是所述感兴趣的物体类别；

k为Softmax损失函数输出的图片特征图的当前维度索引号；

j为Softmax损失函数输出的图片特征图的索引号；。

在上述实施例的基础上，所述网络训练模块中所述窗口校正平滑L1损失函数具体包括：

其中t表示预测的所述输出特征图的边框位置；

v表示人工标注的所述图片特征图的真实位置；

a表示的是t_i-v_i；

i表示的是预测的所述输出特征图的边框序号。

本发明提供的物体检测装置是用来实现上述物体检测方法的，所述物体检测方法已经详细描述其具体实施方式，故在此不再赘述。

图4为本发明一个实施例提供的电子设备的逻辑框图，如图4所示，所述电子设备，包括：处理器(processor)401、存储器(memory)402和总线403；

其中，所述处理器401和存储器402通过所述总线403完成相互间的通信；所述处理器401用于调用所述存储器402中的程序指令，以执行上述各方法实施例所提供的方法。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法。

最后应说明的是：以上各实施例仅用以说明本发明的实施例的技术方案，而非对其限制；尽管参照前述各实施例对本发明的实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

Claims

1.一种物体检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述图像复原L2损失函数具体包括：

其中，b表示输入的所述样本图片的图片特征图；

3.根据权利要求1所述的方法，其特征在于，所述窗口分类Softmax损失函数具体包括：

<mrow> <msub> <mi>L</mi> <mrow> <mi>c</mi> <mi>l</mi> <mi>s</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>z</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <mi>log</mi> <mi> </mi> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>z</mi> <mi>y</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>z</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <msup> <mi>e</mi> <msub> <mi>z</mi> <mi>k</mi> </msub> </msup> <mrow> <msub> <mi>&Sigma;</mi> <mi>j</mi> </msub> <msup> <mi>e</mi> <msub> <mi>z</mi> <mi>j</mi> </msub> </msup> </mrow> </mfrac> </mrow>

其中，z是softmaxwithloss损失层输入的图片特征图；

f(z)是softmax损失函数输出的图片特征图的分类结果；

y是输入的所述图片特征图z对应的类别，y＝0，1，...，N；

N是所述感兴趣的物体类别；

k为Softmax损失函数输出的图片特征图的当前维度索引号；

j为Softmax损失函数输出的图片特征图的索引号。

4.根据权利要求1所述的方法，其特征在于，所述窗口校正平滑L1损失函数具体包括：

<mrow> <msub> <mi>L</mi> <mrow> <mi>l</mi> <mi>o</mi> <mi>c</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>,</mo> <mi>v</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>&Element;</mo> <mo>{</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>,</mo> <mi>w</mi> <mo>,</mo> <mi>h</mi> <mo>}</mo> </mrow> </munder> <mi>l</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>l</mi> <mrow> <mo>(</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mn>0.5</mn> <msup> <mi>a</mi> <mn>2</mn> </msup> <mo>,</mo> <mo>|</mo> <mi>a</mi> <mo>|</mo> <mo><</mo> <mn>1</mn> </mtd> </mtr> <mtr> <mtd> <mo>|</mo> <mi>a</mi> <mo>|</mo> <mo>-</mo> <mn>0.5</mn> <mo>,</mo> <mo>|</mo> <mi>a</mi> <mo>|</mo> <mo>&GreaterEqual;</mo> <mn>1</mn> </mtd> </mtr> </mtable> </mfenced> </mrow>

其中，t表示预测的所述输出特征图的边框位置；

v表示人工标注的所述图片特征图的真实位置；

a表示的是t_i-v_i；

i表示的是预测的所述输出特征图的边框序号。

5.一种物体检测装置，其特征在于，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，所述网络训练模块中所述图像复原L2损失函数具体包括：

其中，b表示输入的所述样本图片的图片特征图；

7.根据权利要求5所述的方法，其特征在于，所述网络训练模块中所述窗口分类Softmax损失函数具体包括：

其中，z是softmaxwithloss损失层输入的图片特征图；

f(z)是softmax损失函数输出的图片特征图的分类结果；

y是输入的所述图片特征图z对应的类别，y＝0，1，...，N；

N是所述感兴趣的物体类别；

k为Softmax损失函数输出的图片特征图的当前维度索引号；

j为Softmax损失函数输出的图片特征图的索引号。

8.根据权利要求5所述的方法，其特征在于，所述网络训练模块中所述窗口校正平滑L1损失函数具体包括：

其中，t表示预测的所述输出特征图的边框位置；

v表示人工标注的所述图片特征图的真实位置；

a表示的是t_i-v_i；

i表示的是预测的所述输出特征图的边框序号。

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至4任一所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机程序，所述计算机程序使所述计算机执行如权利要求1至4任一所述的方法。