CN111144398A

CN111144398A - 目标检测方法、装置、计算机设备和存储介质

Info

Publication number: CN111144398A
Application number: CN201811302293.3A
Authority: CN
Inventors: 黄永祯; 曹春水; 杨家辉
Original assignee: Watrix Technology Beijing Co Ltd
Current assignee: Watrix Technology Beijing Co Ltd
Priority date: 2018-11-02
Filing date: 2018-11-02
Publication date: 2020-05-12

Abstract

本申请涉及一种目标检测方法、装置、计算机设备和存储介质，所述方法包括：将待检测图像输入已训练的卷积神经网络模型中，通过已训练的卷积神经网络模型对待检测图像进行特征提取，得到对应的特征图，根据特征图从多个输出层中选择目标输出层，在目标输出层输出待检测目标的识别结果和定位结果。通过设置多个输出层，每个输出层用于输出不同尺寸的检测目标，提升模型的检测能力，根据目标的尺寸来选择输出层使得网络的检测更具有针对性，从而提升目标检测的精确度。

Description

目标检测方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机视觉领域，尤其涉及一种目标检测方法、装置、计算机设备和存储介质。

背景技术

随着计算机视觉技术的发展，计算机视觉技术被应用到各个技术领域中。计算机视觉最主要的是图像数据处理，图像中感兴趣目标物的实时高精度检测具有重要的应用价值。目标物检测的速度和精度受到下面几个方面的影响：(1)目标物尺度大小不确定，模型需要支持各种尺度的目标物检测；(2)模型结构的设计和学习策略的制定，不同的网络结构和学习策略千差万别。

近期提出的single shot multibox detector(SSD)实现了较高精度较高速度的目标物检测，它通过在深度卷积神经网络的多个特征层添加识别和定位环节一定程度上实现了覆盖多个尺度的目标检测，通过在每个尺度上设置各种不同的锚框，在锚框上同时学习物体类别分类和坐标回归实现模型的学习。但是由于锚框的设置缺乏精确有效的方法进行度量，导致检测精度受到影响。

发明内容

为了解决上述技术问题，本申请提供了一种目标检测方法、装置、计算机设备和存储介质。

一种目标检测方法，包括：

将待检测图像输入已训练的卷积神经网络模型中，其中已训练的卷积神经网络模型包含多个卷积层和多个输出层，各个输出层用于输出不同尺寸的待检测目标；

通过已训练的卷积神经网络模型对待检测图像进行特征提取，得到对应的特征图；

根据特征图从多个输出层中选择目标输出层，在目标输出层输出待检测目标的识别结果和定位结果。

一种目标检测装置，包括：

图像卷积模块，用于将待检测图像输入已训练的卷积神经网络模型中，其中已训练的卷积神经网络模型包含多个卷积层和多个输出层，各个输出层用于输出不同尺寸的待检测目标，通过已训练的卷积神经网络模型对待检测图像进行特征提取，得到对应的特征图；

识别定位模块，用于根据特征图从多个输出层中选择目标输出层，在目标输出层输出待检测目标的识别结果和定位结果。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

上述目标检测方法、装置、计算机设备和存储介质，通过将待检测图像输入已训练的卷积神经网络模型中，通过已训练的卷积神经网络模型对待检测图像进行特征提取，得到对应的特征图，根据特征图从多个输出层中选择目标输出层，在目标输出层输出待检测目标的识别结果和定位结果。通过设置多个输出层，每个输出层用于输出不同尺寸的检测目标，提升模型的检测能力，根据目标的尺寸来选择输出层使得网络的检测更具有针对性，从而提升目标检测的精确度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中图像检测方法的应用场景图；

图2为一个实施例中图像检测方法的流程示意图；

图3为一个具体实施例中神经网络模型的网络结构示意图；

图4为一个实施例中生成已训练的卷积神经网络模型的步骤流程图；

图5为一个实施例中确定已训练的卷积神经网络模型的步骤流程图；

图6为一个实施例中多个检测目标的目标检测和定位步骤流程图；

图7为一个实施例中图像检测装置的结构框图；

图8为一个实施例中生成神经网络模型的结构框图；

图9为一个实施例中模型确定单元的结构框图；

图10为一个实施例中计算机设备的结构框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为一个实施例中目标检测方法的应用环境图。参照图1，该目标检测方法应用于目标检测系统。该目标检测系统包括终端110和服务器120。终端110和服务器120通过网络连接。服务器120获取包含待检测目标的待检测图像，将待检测图像输入已训练的卷积神经网络模型中，通过已训练的卷积神经网络模型对待检测图像进行特征提取，得到对应的特征图，根据特征图从多个输出层中选择目标输出层，在目标输出层输出待检测目标的识别结果和定位结果。将输出的识别结果和定位结果发送至终端110。

其中上述图像获取、特征提取、目标检测和定位等过程都可以在终端110上完成。终端110具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

如图2所示，在一个实施例中，提供了一种目标检测方法。本实施例主要以该方法应用于上述图1中的终端110(或服务器120)来举例说明。参照图2，该目标检测方法具体包括如下步骤：

步骤S202，获取包含待检测目标的待检测图像。

具体地，待检测目标是指感兴趣目标，如对车辆定位时，感兴趣目标为车辆、对行人定位时，感兴趣目标为行人等。待检测图像是指通过拍摄设备获取到的图像，待检测图像中包含待检测目标，是指拍摄设备拍摄的图像中包含了用户感兴趣的目标，在一副图像中的待检测目标至少包含一个，图像仅包含一个待检测目标中，图仅包含一个人、一辆车等，当图像中包含多个待检测目标时，待检测目标可以相同也可以不相同，相同可以是指类别相同，其中类别可以自定义，如按照车、动物、汽车等进行分类。计算机设备获取图像拍摄设备拍摄的图像，其中图像中包含了用户感兴趣的目标。

在一个实施例中，在获取待检测图像之前，可以对待检测图像进行预处理，其中预处理包括去燥、缩放、旋转、拼接和映射等。

步骤S204，将待检测图像输入已训练的卷积神经网络模型中。

在本具体实施例中，已训练的卷积神经网络模型包含多个卷积层和多个输出层，各个输出层用于输出不同尺寸的待检测目标。

步骤S206，通过已训练的卷积神经网络模型对待检测图像进行特征提取，得到对应的特征图。

步骤S208，根据特征图从多个输出层中选择目标输出层，在目标输出层输出待检测目标的识别结果和定位结果。

具体地，已训练的卷积神经网络模型是指通过大量的携带了目标标识信息和包含感兴趣目标的图像进行学习训练得到的网络。卷积神经网络包含多个卷积层和多个输出层，不同的卷积层提取的特征不一致得到不同的卷积特征图，不同的输出层用于输出不同尺寸的待检测目标。其中卷积层的层数和输出层的层数用户可以自定义，如输出层的层数为5、6或者10等，具体可以根据用户需求设置。将待检测图像输入已训练的卷积神经网络模型的输入层，各个卷积层的输入数据为上一个卷积层的输出数据，通过各个卷积层对应的输入数据进行卷积运算，得到对应的卷积特征图，当学习到卷积特征图中的待检测目标其中任意一个输出层输出的目标相适应时，在相适应的输出层输出待检测目标的识别结果和定位结果，其中识别结果是指待检测目标所述的类别，定位结果是指待检测目标的位置信息，其中位置信息的表现方式用户可以自定义，如采用定位框的四个交点信息，或者定位框的中心位置和对角定点坐标确定等。

如图3所示提供了一个具体实施例中已训练的卷积神经网络模型的机构图，图3中包含5个输出层分别为Loss1、Loss2、Loss3、Loss4和Loss5，每一个长方形的框中代表一个卷积层，每个卷积中的Strider表示卷积步长，num表示卷积核的个数，conv3×3表示卷积核大小为3×3，箭头代表的是复制跳连，复制跳连是指将两个不同的卷积层输出的特征图进行合并条件到另一个卷积层的过程。其中待检测图像的尺寸大小用户可以自定义，以输入图像的尺寸为256*256*3为例，说明各个输出层的大小，其中loss1的输出结果为64*64*(4+n)，loss2的输出结果为32*32*(4+n)，loss3的输出结果为32*32*(4+n)，loss4的输出结果为32*32*(4+n)，loss5的输出结果为16*16*(4+n)，其中4+n中的4表示包含4个用于负责获取目标物左上角坐标和右下角坐标的通道或者左下角坐标和右上角坐标，可以采用可左上角点和右下角点到中心的横纵坐标的差值表示，n个用于代表类别的通道，各个通道用于确定目标物的类别。网络中使用复制跳连强化了网络的表达能力，图像的下采样步长设计为，其模型中设置的5个尺度目标物的检测，分别设置在不同感受野大小的特征层，每个位置负责检测的目标物大小为该位置处神经元视野大小的0.6-0.9之间。Loss层的设计中，取消了SSD(single shot multibox detector)算法中的锚框，以单类目标检测为例，每个尺度的输出是5个通道的矩阵，其中4个通道是通常的坐标回归，还有1个通道以均方误差损失函数回归一个标识目标物位置中心的区域，区域的确定方法是：以目标真实框的中心为原点，对于输出通道上的某个位置，计算该位置的神经元的感受野中心到原点的距离的倒数作为该位置的期望响应值，并设置一个响应值阈值，低于阈值的位置处期望响应值设置为0。

上述目标检测方法，获取包含待检测目标的待检测图像，将待检测图像输入已训练的卷积神经网络模型中，其中已训练的卷积神经网络模型包含多个卷积层和多个输出层，各个输出层用于输出不同尺寸的待检测目标，通过已训练的卷积神经网络模型对待检测图像进行特征提取，得到对应的特征图，根据特征图从多个输出层中选择目标输出层，在目标输出层输出待检测目标的识别结果和定位结果。通过设置多个输出层，每个输出层用于输出不同尺寸的检测目标，提升模型的检测能力，根据目标的尺寸来选择输出层使得网络的检测更具有针对性，从而提升目标检测的精确度。

在一个实施例中，如图4所示，生成已训练的卷积神经网络模型的步骤包括：

步骤S402，构建卷积神经网络模型，卷积神经网络模型包含多个卷积层和多个输出层。

步骤S404，获取训练图像集合，训练图像集合中的训练图像包含训练目标和训练目标所对应的标识信息。

在本具体实施例中，标识信息包含目标的尺寸信息。

步骤S406，将训练图像和对应标识信息输入卷积神经网络模型中，获取卷积神经网络模型中的各个输出层的标准尺寸信息。

步骤S408，当卷积神经网络模型学习到训练图像的训练目标的尺寸信息，与标准尺寸信息匹配时，在与标准尺寸信息对应的输出层输出对应的识别结果和定位结果。

步骤S410，根据与各个训练目标对应的识别结果、定位结果和标识信息调整卷积神经网络模型，直到卷积神经网络模型满足预设模型收敛条件，得到已训练的卷积神经网络模型。

具体地，卷积神经网络模型是指技术人员设计的包含多个卷积和多个输出层的网络模型，每个输出层的标准尺寸信息是指输出层的感受野大小，不同的输出层的感受野大小不一致。在卷积神经网络模型中，当模型设计好之后每个神经元都会有属于自己的感受野，感受野的大小尺寸是可以依据卷积神经网络的网络结构精确计算得到。获取训练图像集合，其中待训练图像集合包含了多张携带标识信息的图像，标识信息是指用于标识图像和标识图像中的目标的标签数据，其中标签数据包含图像编号、图像中的目标的编号和图像中的目标的定位信息和尺寸信息，其中定位信息可以采用坐标等用于描述定位的数据表示。

通过卷积神经网络模型对各个待训练图像进行学习，得到各个卷积层对应的卷积特征图，待训练图像中的训练目标的尺寸信息与输出层的标准尺寸信息匹配时，在匹配的输出层输出训练目标的识别结果和定位结果。其中待训练图像中的训练目标的尺寸信息与输出层的标准尺寸信息匹配是指训练目标的尺寸信息与标准尺寸信息的差异度在预设范围之内，如设置其中的一个输出层的标准尺寸信息为A，则输出层输出的训练目标的尺寸信息为k1A-k2A，其中K1和K2的值根据需求自定义，如设置k1-0.6，k2＝0.9。

在得到各个训练目标的识别结果和定位结果后，根据各个训练目标对应的标识信息中的识别结果和定位结果确定识别和定位是否准确，当识别结果和定位结果任意一个结果存在差异时，根据差异调整卷积神经网络模型的参数，直到满足预设模型收敛条件时，模型训练结束。其中预设模型收敛条件是指设计人员预先设置的用于判断模型是否收敛的条件，收敛条件可以自定义，如定义根据模型损失函数计算的损失值小于预设损失阈值时，模型收敛。采用卷积神经网络模型是因为卷积神经网络的运算速度快，精确度，能够有效的对目标进行检测，满足检测的实时性要求。通过大量的带标签的图像数据进行学习，训练得到的网络模型能够学习大量的数据特征，使得模型更为准确。

在一个具体的实施例中，生成已训练的卷积神经网络模型包括：首先收集大量人形图片数据作为训练图片，由人工标注图片中的每一个人形的框，形成人工标注的定位监督信息，搭建卷积神经网络模型，搭建的模型的多个输出端添加分类和定位的监督信息和对应的损失函数，成批送入成对的图片与人工标注监督信息，利用随机梯度下降法端到端训练模型，等待模型收敛，模型收敛后，去除损失函数，送入测试图片，通过非极大值抑制算法整合所有尺度的类别和定位框的输出从而获得最终输出。

在一个实施例中，如图5所示，标识信息还包括定位信息和目标类别，步骤S410，包括：

步骤S4102，将标识信息中的定位信息作为标准输出定位信息，将标识信息中的目标类别作为标准输出类别信息。

步骤S4104，计算标准输出定位信息与定位结果的定位差异度，计算标准输出类别信息与识别结果的类别差异度。

步骤S4106，根据定位差异度和类别差异度采用梯度下降法调整各个卷积层的参数，更新定位差异度和类别差异度，直到更新后的定位差异度和类别差异度满足预设收敛条件，得到已训练的卷积神经网络模型。

具体地，标识信息中的定位信息是指在输入卷积神经网络模型之前，用户对训练图像中的训练目标的位置信息进行提取得到的准确位置信息，标准输出定位信息为标识中的定位信息是指期望在经过卷积神经网络之后所输出的定位信息与标识中的定位信息相匹配。同理标识信息中的目标类别是指输入卷积神经网络模型之前，用户对训练图像中的训练目标的标识的目标类别，如训练目标为人则标记为人，为物则标记为物，具体的分类方式用户可以根据需求自定义，标准输出类别信息为标识中的目标类别是指期望在经过卷积神经网络之后所输出的识别结果为目标类别，如输入图像中包含的训练目标为人，则期望输出的识别结果为人。

由于网络是对不同的图像进行学习和训练，故学习的是一些基本的特征无法使得一个模型能够适应所有的图像，那么在输入不同的图像时，模型输出的结果与期望输出的结果存在差异，通过缩小模型的真实输出结果与期望输出结果之间的差异来调整模型的参数，即可以通过计算真实输出的识别结果和定位结果与标准输出识别结果和标准输出定位信息之间的差异度，通过不断训练缩小两者的差异度实现模型收敛。

在一个实施例中，如图6所示，待检测目标包含多个，步骤S208包括：

步骤S4082，根据各个待检测目标对应的特征图确定各个待检测目标对应的视觉模式特征。

步骤S4084，根据各个待检测目标对应的视觉模式特征确定各个待见目标对应的目标输出层，在与各个待检测目标匹配的输出层，输出各个待检测目标对应的识别结果和定位结果。

具体地，待检测目标包含多个是指同一幅图像上包含了多个待检测目标，如在同一幅图像上包含了人、动物、车等待检测目标。视觉模式特征是一组用于描述物体的特征的数据，如大目标有大目标的视觉模式特征，小目标有小目标的视觉模式特征，根据卷积特征图确定各个待检测目标的视觉模式特征，并根据视觉模式特征确定对应的目标输出层。目标输出层是已训练的卷积神经网络模型中的多个输出层的一个或多个，不通的目标输出层对应的待检测目标不一致。设人、动物和车所对应的目标输出层不一致，则在人对应的输出层中输出识别结果为人，定位信息为人在图像中的位置信息，在动物对应的输出层中输出识别结果为动物，定位信息为动物在图像中的位置信息，同理在其他的输出层中得到识别结果为车和车的定位信息。

在一个实施例中，待检测图像中包含多个相同类别的待检测目标，如一幅图像中包含多个人，由于人长得高矮不一致、拍照时所出的位置不一致，拍摄出来的人在图像中所占的比例不一致，通过模型检测时，可能从不同的输出层中输出不同的人和对应的定位信息。

图2、4-6为一个实施例中目标检测方法的流程示意图。应该理解的是，虽然图2、4-6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、4-6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种目标检测装置200，包括：

数据获取模块202，用于获取包含待检测目标的待检测图像。

图像卷积模块204，用于将待检测图像输入已训练的卷积神经网络模型中，其中已训练的卷积神经网络模型包含多个卷积层和多个输出层，各个输出层用于输出不同尺寸的待检测目标，通过已训练的卷积神经网络模型对待检测图像进行特征提取，得到对应的特征图。

识别定位模块206，用于根据特征图从多个输出层中选择目标输出层，在目标输出层输出待检测目标的识别结果和定位结果。

在一个实施例中，如图8所示，上述目标检测装置200还包括：

模型生成模块208，用于生成已训练的卷积神经网络模型包括：

模型生成模块208包括：

模型构建单元2082，用于构建卷积神经网络模型，卷积神经网络模型包含多个卷积层和多个输出层。

数据获取单元2084，用于获取训练图像集合，训练图像集合中的训练图像包含训练目标和训练目标所对应的标识信息，标识信息包含目标的尺寸信息。

模型训练单元2086，将训练图像和对应标识信息输入卷积神经网络模型中，获取卷积神经网络模型中的各个输出层的标准尺寸信息，当卷积神经网络模型学习到训练图像的训练目标的尺寸信息，与标准尺寸信息匹配时，在与标准尺寸信息对应的输出层输出对应的识别结果和定位结果。

模型确定单元2088，用于根据与各个训练目标对应的识别结果、定位结果和标识信息调整卷积神经网络模型，直到卷积神经网络模型满足预设模型收敛条件，得到已训练的卷积神经网络模型。

在一个实施例中，如图9所示，模型确定单元2088，包括：

信息获取子单元2088a，用于将标识信息中的定位信息作为标准输出定位信息，将标识信息中的目标类别作为标准输出类别信息。

差异度计算子单元2088b，用于计算标准输出定位信息与定位结果的定位差异度，计算标准输出类别信息与识别结果的类别差异度。

模型确定子单元2088c，用于根据定位差异度和类别差异度采用梯度下降法调整各个卷积层的参数，更新定位差异度和类别差异度，直到更新后的定位差异度和类别差异度满足预设收敛条件，得到已训练的卷积神经网络模型。

在一个实施例中，识别定位模块206还用于根据各个待检测目标对应的特征图确定各个待检测目标对应的视觉模式特征，根据各个待检测目标对应的视觉模式特征确定各个待见目标对应的目标输出层，在与各个待检测目标匹配的输出层，输出各个待检测目标对应的识别结果和定位结果，其中待检测目标包含多个。

图10示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110(或服务器120)。如图10所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现目标检测方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行目标检测方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的目标检测装置可以实现为一种计算机程序的形式，计算机程序可在如图10所示的计算机设备上运行。计算机设备的存储器中可存储组成该目标检测装置的各个程序模块，比如，图7所示的数据获取模块202、图像卷积模块204和识别定位模块206。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的目标检测方法中的步骤。

例如，图10所示的计算机设备可以通过如图7所示的目标检测装置中的数据获取模块202执行获取包含待检测目标的待检测图像。计算机设备可通过图像卷积模块204执行将待检测图像输入已训练的卷积神经网络模型中，其中已训练的卷积神经网络模型包含多个卷积层和多个输出层，各个输出层用于输出不同尺寸的待检测目标，通过已训练的卷积神经网络模型对待检测图像进行特征提取，得到对应的特征图。计算机设备可通过识别定位模块206执行根据特征图从多个输出层中选择目标输出层，在目标输出层输出待检测目标的识别结果和定位结果。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：获取包含待检测目标的待检测图像，将待检测图像输入已训练的卷积神经网络模型中，其中已训练的卷积神经网络模型包含多个卷积层和多个输出层，各个输出层用于输出不同尺寸的待检测目标，通过已训练的卷积神经网络模型对待检测图像进行特征提取，得到对应的特征图，根据特征图从多个输出层中选择目标输出层，在目标输出层输出待检测目标的识别结果和定位结果。

在一个实施例中，生成已训练的卷积神经网络模型的步骤包括：构建卷积神经网络模型，卷积神经网络模型包含多个卷积层和多个输出层，获取训练图像集合，训练图像集合中的训练图像包含训练目标和训练目标所对应的标识信息，标识信息包含目标的尺寸信息，将训练图像和对应标识信息输入卷积神经网络模型中，获取卷积神经网络模型中的各个输出层的标准尺寸信息，当卷积神经网络模型学习到训练图像的训练目标的尺寸信息，与标准尺寸信息匹配时，在与标准尺寸信息对应的输出层输出对应的识别结果和定位结果，根据与各个训练目标对应的识别结果、定位结果和标识信息调整卷积神经网络模型，直到卷积神经网络模型满足预设模型收敛条件，得到已训练的卷积神经网络模型。

在一个实施例中，标识信息还包括定位信息和目标类别，根据与各个训练目标对应的识别结果、定位结果和标识信息调整卷积神经网络模型，直到卷积神经网络模型满足预设模型收敛条件，得到已训练的卷积神经网络模型，包括：将标识信息中的定位信息作为标准输出定位信息，将标识信息中的目标类别作为标准输出类别信息，计算标准输出定位信息与定位结果的定位差异度，计算标准输出类别信息与识别结果的类别差异度，根据定位差异度和类别差异度采用梯度下降法调整各个卷积层的参数，更新定位差异度和类别差异度，直到更新后的定位差异度和类别差异度满足预设收敛条件，得到已训练的卷积神经网络模型。

在一个实施例中，待检测目标包含多个，根据特征图从多个输出层中选择目标输出层，在目标输出层输出待检测目标的识别结果和定位结果包括：根据各个待检测目标对应的特征图确定各个待检测目标对应的视觉模式特征，根据各个待检测目标对应的视觉模式特征确定各个待见目标对应的目标输出层，在与各个待检测目标匹配的输出层，输出各个待检测目标对应的识别结果和定位结果。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取包含待检测目标的待检测图像，将待检测图像输入已训练的卷积神经网络模型中，其中已训练的卷积神经网络模型包含多个卷积层和多个输出层，各个输出层用于输出不同尺寸的待检测目标，通过已训练的卷积神经网络模型对待检测图像进行特征提取，得到对应的特征图，根据特征图从多个输出层中选择目标输出层，在目标输出层输出待检测目标的识别结果和定位结果。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种目标检测方法，所述方法包括：

将待检测图像输入已训练的卷积神经网络模型中，其中所述已训练的卷积神经网络模型包含多个卷积层和多个输出层，各个所述输出层用于输出不同尺寸的待检测目标；

通过所述已训练的卷积神经网络模型对所述待检测图像进行特征提取，得到对应的特征图；

根据所述特征图从多个所述输出层中选择目标输出层，在所述目标输出层输出待检测目标的识别结果和定位结果。

2.根据权利要求1所述的方法，其特征在于，生成所述已训练的卷积神经网络模型的步骤包括：

构建卷积神经网络模型，所述卷积神经网络模型包含多个卷积层和多个输出层；

获取训练图像集合，所述训练图像集合中的训练图像包含训练目标和所述训练目标所对应的标识信息，所述标识信息包含目标的尺寸信息；

将所述训练图像和对应标识信息输入所述卷积神经网络模型中，获取所述卷积神经网络模型中的各个所述输出层的标准尺寸信息；

当所述卷积神经网络模型学习到所述训练图像的训练目标的尺寸信息，与所述标准尺寸信息匹配时，在与所述标准尺寸信息对应的输出层输出对应的识别结果和定位结果；

根据与各个所述训练目标对应的所述识别结果、所述定位结果和所述标识信息调整所述卷积神经网络模型，直到所述卷积神经网络模型满足预设模型收敛条件，得到所述已训练的卷积神经网络模型。

3.根据权利要求2所述的方法，其特征在于，所述标识信息还包括定位信息和目标类别，所述根据与各个所述训练目标对应的所述识别结果、所述定位结果和所述标识信息调整所述卷积神经网络模型，直到所述卷积神经网络模型满足预设模型收敛条件，得到所述已训练的卷积神经网络模型，包括：

将所述标识信息中的定位信息作为标准输出定位信息；

将所述标识信息中的目标类别作为标准输出类别信息；

计算所述标准输出定位信息与定位结果的定位差异度；

计算所述标准输出类别信息与识别结果的类别差异度；

根据所述定位差异度和所述类别差异度采用梯度下降法调整各个卷积层的参数，更新所述定位差异度和所述类别差异度，直到更新后的所述定位差异度和所述类别差异度满足预设收敛条件，得到所述已训练的卷积神经网络模型。

4.根据权利要求1所述的方法，其特征在于，所述待检测目标包含多个，所述根据所述特征图从多个所述输出层中选择目标输出层，在所述目标输出层输出所述待检测目标的识别结果和定位结果包括：

根据各个所述待检测目标对应的特征图确定各个所述待检测目标对应的视觉模式特征；

根据各个所述待检测目标对应的视觉模式特征确定各个待见目标对应的目标输出层，在与各个所述待检测目标匹配的输出层，输出各个所述待检测目标对应的识别结果和定位结果。

5.根据权利要求1至4任意一项所述的方法，其特征在于，所述已训练的卷积神经网络包含5个输出层。

6.一种目标检测装置，其特征在于，所述装置包括：

图像卷积模块，用于将所述待检测图像输入已训练的卷积神经网络模型中，其中所述已训练的卷积神经网络模型包含多个卷积层和多个输出层，各个所述输出层用于输出不同尺寸的待检测目标，通过所述已训练的卷积神经网络模型对所述待检测图像进行特征提取，得到对应的特征图；

识别定位模块，用于根据所述特征图从多个所述输出层中选择目标输出层，在所述目标输出层输出所述待检测目标的识别结果和定位结果。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

模型生成模块，用于生成所述已训练的卷积神经网络模型包括：

所述模型生成模块包括：

模型构建单元，用于构建卷积神经网络模型，所述卷积神经网络模型包含多个卷积层和多个输出层；

数据获取单元，用于获取训练图像集合，所述训练图像集合中的训练图像包含训练目标和所述训练目标所对应的标识信息，所述标识信息包含目标的尺寸信息；

模型训练单元，将所述训练图像和对应标识信息输入所述卷积神经网络模型中，获取所述卷积神经网络模型中的各个所述输出层的标准尺寸信息，当所述卷积神经网络模型学习到所述训练图像的训练目标的尺寸信息，与所述标准尺寸信息匹配时，在与所述标准尺寸信息对应的输出层输出对应的识别结果和定位结果；

模型确定单元，用于根据与各个所述训练目标对应的所述识别结果、所述定位结果和所述标识信息调整所述卷积神经网络模型，直到所述卷积神经网络模型满足预设模型收敛条件，得到所述已训练的卷积神经网络模型。

8.根据权利要求6所述的装置，其特征在于，所述识别定位模块还用于根据各个所述待检测目标对应的特征图确定各个所述待检测目标对应的视觉模式特征，根据各个所述待检测目标对应的视觉模式特征确定各个待见目标对应的目标输出层，在与各个所述待检测目标匹配的输出层，输出各个所述待检测目标对应的识别结果和定位结果，其中所述待检测目标包含多个。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。