CN110414574A

CN110414574A - 一种目标检测方法、计算设备及存储介质

Info

Publication number: CN110414574A
Application number: CN201910621848.9A
Authority: CN
Inventors: 余清洲; 陈良; 张伟; 许清泉; 傅松林
Original assignee: Xiamen Meitu Technology Co Ltd
Current assignee: Xiamen Meitu Technology Co Ltd
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2019-11-05

Abstract

本发明公开了一种目标检测方法，适于在计算设备中执行，包括：将待检测图像输入包含多个卷积块的卷积网络，获取经特定卷积块处理后的至少一个特征图；基于预设的尺度和长宽比，计算得到所获取的特征图对应的多个先验框，其中至少一个先验框指向目标物体；将获取的特征图和对应的先验框输入预测网络，以得到图像中目标物体的位置和类别。该方案能够提高模型检测的性能，尤其是提高了对小目标物体的检测精度。

Description

一种目标检测方法、计算设备及存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种目标检测方法、计算设备及存储介质。

背景技术

目标检测近年来取得了重要的进展，主流的算法分为两种类型，一种是两段式的方法，主要是先通过启发式方法或者卷积神经网络产生一系列稀疏的先验框，然后对这些先验框进行分类和回归；一种是单段式的方法，如SSD算法，主要是均匀地在图片的不同位置进行密集抽样，然后利用卷积神经网络提取特征后直接进行分类和回归。

目前SSD算法采用卷积神经网络提取不同尺度的特征图直接进行检测，大尺度的特征图(网络较靠前的特征图)可以用来检测小物体，小尺度特征图(网络较靠后的特征图)用来检测大物体。因此，SSD十分依赖于高分辨率的大尺度特征图来检测小目标。但是由于在神经网络中，浅层的特征图位于网络靠前的位置，往往得不到充分的训练，没有学习到足够的特征，SSD网络对小目标识别效果仍然很差。

因此，需要一种目标检测方法，能够提高对小目标检测的准确性，提升目标检测模型的检测性能。

发明内容

为此，本发明提供了一种目标检测方法，以力图解决或者至少缓解上面存在的至少一个问题。

根据本发明的一个方面，提供了一种目标检测方法，该方法适于在计算设备中执行。首先，将待检测图像输入包含多个卷积块的卷积网络，获取经特定卷积块处理后的至少一个特征图。然后，基于预设的尺度和长宽比，计算得到所获取的特征图对应的多个先验框，其中至少一个先验框指向目标物体。最后，将获取的特征图和对应的先验框输入预测网络，以得到图像中目标物体的位置和类别。

可选地，在上述方法中，所获取的至少一个特征图是由处于卷积网络中靠后的卷积块所输出的特征图，用于表征深层特征。

可选地，在上述方法中，首先，基于预设的最大尺度和最小尺度以及特征图的数量，计算每个特征图对应先验框的尺度。然后，基于各特征图对应先验框的尺度和预设的一组长宽比，分别得到各特征图对应的多个先验框。

可选地，在上述方法中，卷积块为深度残差网络，所述深度残差网络包括卷积核大小为3×3的深度可分离卷积层和卷积核大小为1×1的卷积层。

可选地，在上述方法中，还包括训练生成卷积网络和预测网络的步骤：首先，构建预训练的卷积网络和预训练的预测网络，并初始化网络参数。然后，将训练图像输入预训练的卷积网络和预训练的预测网络进行处理，得到预测物体框的位置和类别置信度。最后，基于训练图像中标注的真实物体框的位置和类别、以及预测物体框的位置和类别置信度，迭代更新网络参数，直到满足预定条件时训练结束，以得到训练生成的卷积网络和预测网络。

可选地，在上述方法中，基于真实物体框的位置与预测物体框的位置之间的定位损失值、以及标注的类别与预测的类别置信度之间的分类损失值的加权和，迭代更新网络参数。

可选地，在上述方法中，预定条件为定位损失值和分类损失值的加权和小于预定值或者前后两次迭代的加权和之差小于预定阈值或者迭代更新的次数达到预设的迭代次数。

可选地，在上述方法中，基于下述公式计算定位损失值和分类损失值的加权和：

其中，L_loc为定位损失值，L_conf为分类损失值，N为匹配的先验框的数量，α为权重系数，g是真实物体框的位置，l为预测物体框的位置，x为标注的类别，c为预测类别置信度。

可选地，在上述方法中，基于下述公式计算定位损失值：

其中，i为预测物体框的序号，j为真实物体框的序号，l_i-g_j为第i个预测物体框与第j个真实物体框之间的位置偏差，Pos表示训练图像中正样本先验框的数量，N表示匹配的先验框的数量，表示第i个预测物体框与第j个真实物体框关于类别k是否匹配。

可选地，在上述方法中，基于下述公式计算分类损失值：

其中，N表示匹配的先验框的数量，c表示预测的分类，Pos表示训练图像中的正样本先验框的数量，Neg表示训练图像中的负样本先验框的数量，i为预测物体框的序号，j为真实物体框的序号，表示第i个预测物体框与第j个真实物体框关于类别p是否匹配，表示第i个预测物体框对应类别p的类别置信度。

可选地，在上述方法中，在将待检测图像输入卷积网络之前，对待检测图像进行归一化处理，并将其缩放到预定尺寸。

根据本发明的又一方面，提供了一种计算设备，包括：一个或多个处理器；和存储器；一个或多个程序，其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序包括用于执行如上所述方法的指令。

根据本发明的再一方面，提供了一种存储一个或多个程序的计算机可读存储介质，一个或多个程序包括指令，指令当计算设备执行时，使得计算设备执行如上所述的方法。

根据本发明方案，根据本发明的方案，通过将浅层神经网络替换为深度残差网络，能够更好的提取细节特征，从而在提取靠后层卷积层输出的特征图进行预测时，能够包含更多的语义信息，提高模型检测的性能，尤其是提高了对小目标物体的检测精度。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明的一个实施例的计算设备100的构造示意图；

图2示出了根据本发明的一个实施例的目标检测方法200的示意性流程图；

图3示出了根据本发明的一个实施例的目标检测模型300的结构示意图；

图4示出了根据本发明的一个实施例的深度残差网络的结构示意图；

图5示出了根据本发明的一个实施例的特征图对应的先验框的示意图；

图6示出了根据本发明的一个实施例的预测一个特征图中目标物体的位置和类别的示意图。

图7示出了根据本发明一个实施例的训练图像的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

在卷积神经网络中，位于深层的特征图感受野更大，能够覆盖更大的图像范围，往往一个像素特征就可以代表图像中的大部分信息，包含更多的语义信息，但是深层的特征图往往分辨率较低。本方案对基于SSD的目标检测模型的浅层卷积网络替换为深度残差网络，以便更好地提取图像的细节特征，当从网络靠后层提取特征图进行预测时，能够提升对于小目标的检测效果。

图1是示例计算设备100的框图。在基本的配置102中，计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。

取决于期望的配置，处理器104可以是任何类型的处理器，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用，或者在一些实现中，存储器控制器118可以是处理器104的一个内部部分。

取决于期望的配置，系统存储器106可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中，应用122可以布置为在操作系统上利用程序数据124进行操作。在一些实施例中，计算设备100被配置为执行目标检测方法200，程序数据124中就包含了用于执行方法200的指令。

计算设备100还可以包括有助于从各种接口设备(例如，输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156，它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、图像输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160，其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以是这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中以编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。在一些实施例中，计算机可读介质中存储一个或多个程序，这一个或多个程序中包括执行某些方法的指令。

计算设备100可以实现为小尺寸便携(或者移动)电子设备的一部分，这些电子设备可以是诸如蜂窝电话、数码照相机、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。当然，计算设备100也可以实现为包括桌面计算机和笔记本计算机配置的个人计算机，或者是具有上述配置的服务器。本发明的实施方式对此均不作限制。

图2示出了根据本发明的一个实施例的目标检测方法200的示意性流程图。该方法可以在计算设备100中执行，如图2所示，该方法200始于步骤S210。

在步骤S210中，将待检测图像输入包含多个卷积块的卷积网络，获取经特定卷积块处理后的至少一个特征图。

图3示出了根据本发明的一个实施例的目标检测模型300的结构示意图。如图3所示，目标检测模型300包括相互耦接的卷积网络310和预测网络320，卷积网络310中包含多个卷积块。预测网络320包括位置预测单元321和类别预测单元322，分别适于输出图像中各个目标物体框的位置和类别置信度。如图3所示，可以提取靠后层的特定卷积块输出的特征图输入预测网络320。

卷积网络中的卷积块为深度残差网络。图4示出了根据本发明的一个实施例的深度残差网络的结构示意图。如图4所示，深度残差网络采用跳转连接的方式直接将输入x传到输出作为初始结果，输出结果为H(x)＝F(x)+x。将这种结构级联起来，就得到了深度残差网络。深度残差网络可以使得浅层网络部分得到充分训练。因此，靠后层的卷积块输出的特征图具有较好的细节特征。对于卷积而言，卷积核可以看做一个三维的滤波器：通道维度和空间维度(特征图的宽和高)，常规的卷积操作就是实现通道相关性和空间相关性的联合映射。而深度可分离卷积可以将卷积层通道间的相关性和空间相关性分开映射，能达到更好的效果。根据本发明的一个实施例，深度残差网络中使用深度可分离卷积。

表1示出了根据本发明的一个实施例的目标检测模型300的部分网络参数。

表1目标检测模型300的部分网络参数

如上表1所示，conv表示卷积，conv/dw表示深度可分离卷积，每个深度残差网络包括卷积核大小为3×3的深度可分离卷积层和卷积核大小为1×1的卷积层。mbox_loc和mbox_conf分别表示输出的预测目标物体的位置和类别置信度。

根据本发明的一个实施例，所获取的至少一个特征图是处于卷积网络中靠后的卷积块所对应的特征图，用于表征深层特征。即特定卷积块为卷积网络中靠后层的卷积块，用于提取图像的深层特征。如上表1所示，在一种实施例中，可以获取特定卷积块conv11,conv13，conv14_2,conv15_2,conv16_2,conv17_2输出的特征图用于预测目标物体的位置和类别。

根据本发明的一个实施例，在将待检测图像输入卷积网络之前，可以对待检测图像进行归一化处理，并将其缩放到预定尺寸。常用的图像归一化方法是最大值最小值归一化方法，公式如下：

其中，x_i表示图像像素点值，min(x),max(x)分别表示图像像素的最大值和最小值。可以使用openCV实现图像归一化处理。归一化并不会改变图像本身的信息，对于后续卷积网络处理有很大的好处。还可以对归一化后的图像进行缩放处理，以得到尺寸一致的三通道图像。

随后在步骤S220中，基于预设的尺度和长宽比，计算得到所获取的特征图对应的多个先验框，其中至少一个先验框指向目标物体。

图5示出了根据本发明的一个实施例的特征图中先验框的示意图。如图5所示，特征图的尺度为8×8，先验框的尺度可以根据特征图的尺度来确定。特征图由浅层到深层对应的尺度由小到大，可以根据预先设置的最大尺度和最小尺度以及所获取的特征图的数量确定各个特征图对应的先验框的尺度。例如，可以设置最小尺度Smin＝0.2,最大尺度Smax＝0.9，对于抽取的N个特征图，对应的先验框的尺度为

其中，N表示用于预测的特征图的数量，S_k表示第k个特征图的尺度，S_min为预先设置的先验框最小尺度，S_max为预先设置的先验框最大尺度。

然后，可以各特征图对应先验框的尺度和预设的一组长宽比，分别得到各特征图对应的多个先验框。例如，可以使用相同的一组长宽比{1,2,1/2,3,1/3}。对于长宽比为1的情况，增加一个尺度为的先验框。

最后，在步骤S230中，将获取的特征图和对应的先验框输入预测网络，以得到图像中目标物体的位置和类别。

图6示出了根据本发明的一个实施例的预测目标物体的位置和类别的示意图。如图6所示，特征图的尺度为4×4，在特征图上生成p个先验框，每个先验框的其中一个卷积层输出每个先验框的位置(cx,cy,w,h)，另一个卷积层输出检测到不同类别物体的概率(c1,c2,…cp)，输出个数为预测类别个数。再将所有的先验框位置整合为mbox_loc，将所有默认框预测类别的向量组合为mbox_conf。

根据本发明的一个实施例，可以预先对卷积网络和预测网络进行训练，以便基于训练后的网络进行目标检测。首先，构建预训练的卷积网络和预训练的预测网络，并初始化网络参数。然后，将训练图像输入预训练的卷积网络和预训练的预测网络进行处理，得到预测物体框的位置和类别置信度。最后，基于训练图像中标注的真实物体框的位置和类别、以及预测物体框的位置和类别置信度，迭代更新网络参数，直到满足预定条件时训练结束，以得到训练生成的卷积网络和预测网络。

图7示出了根据本发明一个实施例的训练图像的示意图。如图7所示，为了检测图片中的猫、狗、人脸，标注图片中各个目标物体的边框，并对框中的物体标注出类别(在训练时还需要加上背景类别)。为了便于显示，在图7中在各个物体框旁边标注出了目标物体的类别：cat，dog、face。还可以将猫脸类别标注为1，狗脸类别标注为2，人脸类别标注为3，背景类别标注为0。

在本发明的一个实现方式中，对于位置误差，可以采用SmoothL1损失函数计算，对于置信度误差，可以采用softmax损失函数计算。

可以基于下述公式计算定位损失值和分类损失值的加权和：

可以基于下述公式计算定位损失值：

其中，i为预测物体框的序号，j为真实物体框的序号，l_i-g_j为第i个预预测物体框与第j个真实物体框之间的位置偏差，Pos表示训练图像中正样本先验框的数量，N表示匹配的先验框的数量，表示第i个预测物体框与第j个真实物体框关于类别k是否匹配。

由于在深层神经网络中误差的梯度可在更新中累计相乘，如果网络层之间的梯度值大于1，则重复相乘会导致梯度呈指数增长，导致网络权重大幅度更新使网络变得不稳定。因此使用平滑损失函数，当预测值与真实值相差小于1时，使用均方差损失并添加0.5的平滑系数，当预测值与真实值相差大于等于1，则降低损失次幂，这时反向传播求导就不存在该项，从而可以解决梯度爆炸的问题。

可以基于先验框与真实框的交并比，确定与真实框匹配的先验框。能够匹配的视为正样本，否则为负样本。其中交并比是目标检测中使用的一个概念，是产生的先验框与标注的真实框的交叠率，即它们的交集与并集的比值。最理想情况是完全重叠，即比值为1。先验框与真实框的匹配原则主要有两点：首先，对于图片中每个真实框，找到与其交并比最大的先验框与其匹配。对于剩余的未匹配的先验框，若某个真实框的交并比大于某个阈值(一般是0.5)，那么该先验框也与这个真实框相匹配。预测框以这些匹配后的先验框为基准，在一定程度上能够减少训练难度。

对于类别置信度损失，需要考虑训练图像中正样本先验框和负样本先验框的选择。可以基于下述公式计算分类损失值：

其中公式中的第一部分比第二部分多项，实际上是为了确定中p的取值，而第二部分p恒为0，则不需要项。

基于损失值的梯度反向传播，经多次迭代更新网络的参数，当损失值的加权和满足预定条件，例如定位损失值和分类损失值的加权和小于预定值或者前后两次迭代的损失值加权和之差小于预定阈值，或者达到预定迭代次数时，训练结束，以得到训练生成的卷积网络和预测网络。

根据本发明的方案，通过将浅层神经网络替换为深度残差网络，能够更好的提取细节特征，从而在提取靠后层卷积层输出的特征图进行预测时，能够包含更多的语义信息，提高模型检测的性能，尤其是提高了对小目标物体的检测精度。

应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明一并公开了：

A9、如A8所述的方法，其中，基于下述公式计算所述定位损失值：

A10、如A8所述的方法，其中，基于下述公式计算分类损失值：

A11、如A1所述的方法，其中，将待检测图像输入包含多个卷积块的卷积网络，获取经特定卷积块处理后的至少一个特征图的步骤之前，所述方法还包括：对待检测图像进行归一化处理，并将其缩放到预定尺寸。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明所述的方法。

以示例而非限制的方式，计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明范围由所附权利要求书限定。

Claims

1.一种目标检测方法，所述方法适于在计算设备中执行，包括：

将待检测图像输入包含多个卷积块的卷积网络，获取经特定卷积块处理后的至少一个特征图；

基于预设的尺度和长宽比，计算得到所获取的特征图对应的多个先验框，其中至少一个先验框指向目标物体；

将获取的特征图和对应的先验框输入预测网络，以得到图像中目标物体的位置和类别。

2.如权利要求1所述的方法，其中，所获取的至少一个特征图是由处于卷积网络中靠后的卷积块所输出的特征图，用于表征深层特征。

3.如权利要求1所述的方法，其中，所述基于预设的尺度和长宽比，计算得到所获取的特征图对应的多个先验框的步骤包括：

基于预设的最大尺度和最小尺度以及特征图的数量，计算每个特征图对应先验框的尺度；

基于各特征图对应先验框的尺度和预设的一组长宽比，分别得到各特征图对应的多个先验框。

4.如权利要求1所述的方法，其中，所述卷积块为深度残差网络，所述深度残差网络包括卷积核大小为3×3的深度可分离卷积层和卷积核大小为1×1的卷积层。

5.如权利要求1-4中任一项所述的方法，还包括训练生成卷积网络和预测网络的步骤：

构建预训练的卷积网络和预训练的预测网络，并初始化网络参数；

将训练图像输入预训练的卷积网络和预训练的预测网络进行处理，得到预测物体框的位置和类别置信度；

基于训练图像中标注的真实物体框的位置和类别、以及预测物体框的位置和类别置信度，迭代更新网络参数，直到满足预定条件时训练结束，以得到训练生成的卷积网络和预测网络。

6.如权利要求5所述的方法，其中，基于训练图像中标注的真实物体框的位置和类别、以及预测物体框的位置和类别置信度，迭代更新网络参数的步骤包括：

基于真实物体框的位置与预测物体框的位置之间的定位损失值、以及标注的类别与预测的类别置信度之间的分类损失值的加权和，迭代更新网络参数。

7.如权利要求6所述的方法，其中，所述预定条件为定位损失值和分类损失值的加权和小于预定值或者前后两次迭代的加权和之差小于预定阈值或者迭代更新的次数达到预设的迭代次数。

8.如权利要求7所述的方法，其中，基于下述公式计算定位损失值和分类损失值的加权和：

9.一种计算设备，包括：

存储器；

一个或多个处理器；

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-8所述方法中的任一方法的指令。

10.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当计算设备执行时，使得所述计算设备执行根据权利要求1-8所述的方法中的任一方法。