CN110807385B

CN110807385B - 目标检测方法、装置、电子设备及存储介质

Info

Publication number: CN110807385B
Application number: CN201911020868.7A
Authority: CN
Inventors: 罗泽坤; 王亚彪; 彭瑾龙; 甘振业; 汪铖杰; 李季檩
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2024-01-12
Anticipated expiration: 2039-10-24
Also published as: CN110807385A

Abstract

本申请实施例公开了一种目标检测方法、装置、电子设备及存储介质，该方法包括：获取视频图像的当前帧为待检测图像；对所述待检测图像进行特征提取，得到相应的特征图；基于所述特征图将所述待检测图像划分为至少两个栅格；若某个栅格内有第一目标对象的中心落入其中，则根据该栅格预设的锚点对所述第一目标对象进行预测，得到所述第一目标对象的第一检测框和所述第一目标对象的目标区域的第二检测框。本申请实施例能够保证目标检测的性能，且有利于提高目标检测的实时性。

Description

目标检测方法、装置、电子设备及存储介质

技术领域

本申请涉及视频图像处理技术领域，尤其涉及一种目标检测方法、装置、电子设备及存储介质。

背景技术

计算机视觉是一门研究如何使机器“看”的科学，其用图像采集设备和电脑代替人眼对目标进行识别、跟踪和测量，涵盖了图像语义理解、图像识别以及视频图像处理等多种技术，而在视频图像处理领域，目标检测起着尤为重要的作用。一般的，目标检测方法分为基于人工设计特征的方法和基于深度学习的方法，其中，基于人工设计特征的方法首先对候选区域提取特征，之后利用分类器对候选区域进行分类，确定是否包含检测目标，但是基于人工设计特征的方法检测性能较差。相比较而言，基于深度学习的方法检测性能优越，其学到的特征具有更强的层次表达能力和鲁棒性，可直接应用到目标检测上，但是基于深度学习的方法算法复杂，且计算量大，检测的实时性仍不能满足实际需要。

发明内容

为解决上述问题，本申请提供了一种目标检测方法、装置、电子设备及存储介质，能够保证目标检测的性能，且有利于提高目标检测的实时性。

本申请实施例第一方面提供了一种目标检测方法，该目标检测方法包括：

获取视频图像的当前帧为待检测图像；

对所述待检测图像进行特征提取，得到相应的特征图；

基于所述特征图将所述待检测图像划分为至少两个栅格；

若某个栅格内有第一目标对象的中心落入其中，则根据该栅格预设的锚点对所述第一目标对象进行预测，得到所述第一目标对象的第一检测框和所述第一目标对象的目标区域的第二检测框，所述第二检测框位于所述第一检测框内。

本申请实施例另一方面提供了一种目标检测装置，该目标检测装置包括：

获取模块，用于获取视频图像的当前帧为待检测图像；

处理模块，用于对所述待检测图像进行特征提取，得到相应的特征图；

所述处理模块，用于基于所述特征图将所述待检测图像划分为至少两个栅格；

所述处理模块，用于若某个栅格内有第一目标对象的中心落入其中，则根据该栅格预设的锚点对所述第一目标对象进行预测，得到所述第一目标对象的第一检测框和所述第一目标对象的目标区域的第二检测框，所述第二检测框位于所述第一检测框内。

本申请实施例再一方面，提供了一种电子设备，该电子设备包括输入设备和输出设备，还包括处理器，适于实现一条或多条指令；以及，计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如下步骤：

获取视频图像的当前帧为待检测图像；

对所述待检测图像进行特征提取，得到相应的特征图；

基于所述特征图将所述待检测图像划分为至少两个个栅格；

本申请实施例再一方面提供了一种计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如下步骤：

获取视频图像的当前帧为待检测图像；

对所述待检测图像进行特征提取，得到相应的特征图；

基于所述特征图将所述待检测图像划分为多个栅格；

本申请实施例通过获取视频图像的当前帧为待检测图像；对所述待检测图像进行特征提取，得到相应的特征图；基于所述特征图将所述待检测图像划分为至少两个栅格；若某个栅格内有第一目标对象的中心落入其中，则根据该栅格预设的锚点对所述第一目标对象进行预测，得到所述第一目标对象的第一检测框和所述第一目标对象的目标区域的第二检测框。由于本申请实施例提供的目标检测模型同样采用卷积神经网络训练而成，其提取出的特征可以融合更多的底层信息，特征的层次表达能力和鲁棒性并没有受影响，能够保证对待检测图像的目标检测性能，另外，该目标检测模型在结构结构设计上更轻量化，采用锚点对目标对象进行预测，计算速度更快，有利于提高目标检测的实时性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1-a为本申请实施例提供的一种应用架构图；

图1-b为本申请实施例提供的一种目标对象的检测结果示例图；

图1-c为本申请实施例提供的另一种目标对象的检测结果示例图；

图2为本申请实施例提供的一种目标检测方法的流程示意图；

图3为本申请实施例提供的一种目标检测模型的结构示意图；

图4为本申请实施例提供的一种目标检测模型的特征提取网络的结构示意图；

图5为本申请实施例提供的另一种目标检测方法的流程示意图；

图6为本申请实施例提供的一种栅格划分的示例图；

图7-a为本申请实施例提供的一种锚点与第一候选检测框的位置示例图；

图7-b为本申请实施例提供的一种锚点与第一候选检测框的交集示例图；

图7-c为本申请实施例提供的一种锚点与第一候选检测框的并集示例图；

图8为本申请实施例提供的一种目标检测装置的结构示意图；

图9为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本申请说明书、权利要求书和附图中出现的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。此外，术语“第一”、“第二”和“第三”等是用于区别不同的对象，而并非用于描述特定的顺序。

本申请实施例提供一种目标检测方案以对视频图像中的目标对象进行检测，由于是同时检测出视频图像中同一类目标对象的两个部分，因此，不管是在民用领域或是商业领域，都有着很强的实用性。该目标检测方案可以应用于电子设备中，该电子设备包括但不限于智能手机、台式电脑、平板电脑、超级计算机、服务器等，具体的，该电子设备可以对获取到的视频图像实时进行目标检测，也可以在接收到目标检测请求后对获取到的视频图像进行目标检测，例如：需要对某个路口进行人流量统计时，该电子设备就可以实时对该路口的图像采集终端采集的视频图像进行目标检测，再例如：公安在抓捕犯罪嫌疑人时，在知道犯罪嫌疑人驾车逃跑的方向的情况下，电子设备在接收到对该方向的车辆进行目标检测的请求下，便可执行本申请实施例提供的目标检测方案，以进行目标车辆跟踪，等等。

首先结合相关附图来举例介绍下本申请实施例的方案可能应用到的网络系统架构。请参见图1-a，图1-a为本申请实施例提供的一种应用架构图，如图1-a所示，包括中控中心和图像采集终端，其中，中控中心和图像采集终端通过有线或无线的网络连接通信。中控中心可以是小区监控中心、公安办案指挥中心、商场人流统计中心等，该中控中心设置有能够进行目标检测的电子设备，该电子设备通过执行相关目标检测算法完成目标检测；图像采集终端可以是任意具有图像采集功能的终端设备，例如，道路上的高速相机和摄像机、用户使用的智能手机、小区的监控摄像头等，图像采集终端通常会实时向中控中心发送其采集的视频图像，或者是在接收到中控中心的上传指令的情况下才发送其采集的视频图像。在一种实施例中，如图1-b所示，当需要对某一段道路的车辆进行目标检测时，中控中心的电子设备能够同时检测出图像采集终端采集的视频图像中的所有车辆和每一车辆的车牌；再一种实施例中，如图1-c所示，当需要对某一路口的行人进行目标检测时，中控中心的电子设备能够同时检测出图像采集终端采集的视频图像中的所有行人和每一行人的人头。

由此可见，本申请实施例提供的目标检测方案，可同时检测出同一目标对象的两个部分，例如：人脸和鼻子、人体和人头、车辆和车牌等，相较于目前需要对该两个部分分别进行检测的方案，本申请实施例的目标检测方案在目标跟踪、人流统计、轨迹分析等场景中更为实用。

基于图1-a所示的应用架构，本申请实施例提出一种目标检测方法，该目标检测方法可由电子设备执行，请参见图2，该目标检测方法可包括如下步骤：

S21，获取视频图像的当前帧为待检测图像。

本申请具体实施例中，视频图像可以是图像采集终端采集的实时视频图像，也可以是视频图像采集终端存储在本地的历史视频图像，或者还可以是中控中心存储在本地的历史视频图像，对视频图像的来源不作限定。例如：可以是道路上的摄像头或商场中的监控直接拍摄的视频图像，也可以是用户外出时使用手机拍摄的视频图像。在一些可选的实施方式中，中控中心可向图像采集终端发送一视频图像上传指令，图像采集终端响应于该视频上传指令将当前采集的视频图像上传；或者可以为图像采集终端设定视频图像上传时间，当该上传时间达到时，图像采集终端向中控中心上传视频图像，例如：每隔5分钟、10分钟等等。

视频图像的当前帧指视频图像中在当前时间要进行分析的图像帧，例如：街道某路口当前时间抓拍到的图像帧，该当前帧中通常包括至少一类需要检测的目标对象，例如：行人、车辆、房屋建筑等。

S22，对所述待检测图像进行特征提取，得到相应的特征图。

本申请具体实施例中，具体可将待检测图像输入预训练的目标检测模型进行特征提取，得到相应的特征图，该目标检测模型指能够从待检测图像中预测出目标对象具有匹配关系的两部分的模型，其仍然基于卷积神经网络设计，结构如图3所示，主要包括特征提取网络和检测层，特征提取网络作为目标检测模型的骨干网络部分，采用YOLO(You OnlyLook Once，一瞥目标检测算法)v2的Darknet19网络结构，具体如图4所示，包含19个卷积层(Convolutional)和5个最大池化层(Maxpool)，19个卷积层中使用了较多的3*3卷积核，同时，将1*1的卷积核设置于3*3卷积核之间，用来压缩特征，最大池化层均采用2*2的过滤器，步长为2，经过卷积层处理的特征在每次池化操作后把通道数翻倍，例如：尺寸为224*224，通道数为32的特征图经过一个最大池化层的处理，通道数变为64，尺寸为56*56，通道数为128的特征图经过一个最大池化层的处理，通道数变为256。

另外，特征提取网络在训练阶段每隔几次迭代后就会微调网络的输入尺寸，例如：每迭代10次就会随机选择新的输入尺寸，使得本申请实施例中的目标检测模型可以灵活调整待检测图像的输入尺寸(例如1312*726，864*480等)，能够胜任不能分辨率的检测任务。假设上述待检测图像的尺寸为864*480，将其输入目标检测模型，经过特征提取网络19个卷积层和5个最大池化层的处理，最终输出一个尺寸为M*M的特征图。

S23，基于所述特征图将所述待检测图像划分为至少两个栅格。

本申请具体实施例中，在步骤S22提取出尺寸为M*M的特征图的基础上，如图5所示，目标检测模型的检测层基于特征提取网络提取出的特征图的尺寸将待检测图像划分为M*M个栅格。由于特征提取网络在最开始训练的时候将输入图像的尺寸从448*448缩减到416*416，这就使得训练好的目标检测模型使用特征提取网络对待检测图像提取出的特征图尺寸为奇数，根据尺寸为奇数的特征图划分出的栅格必定有一个中心栅格，有利于确保待检测图像中较大的目标对象的中心落在中心栅格内，该中心栅格专门负责预测中心落在其内的目标对象，从而避免了目标对象的中心落在栅格线上，需要目标中心附近的四个栅格去预测目标对象的情况。

S24，若某个栅格内有第一目标对象的中心落入其中，则根据该栅格预设的锚点对所述第一目标对象进行预测，得到所述第一目标对象的第一检测框和所述第一目标对象的目标区域的第二检测框，所述第二检测框位于所述第一检测框内。

本申请具体实施例中，第一目标对象指待检测图像中的目标对象，锚点指一种用于对待检测图像中的第一目标对象进行预测的候选窗口，第一检测框指第一目标对象的整体的检测框，第二检测框指第一目标对象的目标区域的检测框，目标区域可以是第一目标对象的任何区域，例如：行人的人头、人脸部的眼睛、车辆的车牌等等。当待检测图像中的第一目标对象为某街道的行人时，该行人人体的中心正好落在划分好的中心栅格内，那么中心栅格就负责对该行人进行预测，此时，第一检测框即指该行人整个人体的检测框，第二检测框即指该行人的人头检测框，人头即为该行人的目标区域，由于人头是人体的一部分且都属于该行人，因此，得到的第一检测框和第二检测框是来自于同一第一目标对象的检测框对。具体的，我们为M*M的栅格中的每个栅格都预设了锚点(anchor)，由该锚点对待检测图像中的行人进行预测，每个锚点均需预测出该行人的人体检测框、人头检测框、该行人的类别和人体检测框中包括该行人的人体的置信度。当然，在某些场景中，若待检测图像中的第一目标对象为车辆时，第一检测框即指该车辆整个车身的检测框，第二检测框即指该车辆的车牌检测框或该车辆上其他部位的检测框。

另外，步骤S22中特征图的通道数可根据预设锚点的数量确定，例如，在为每个栅格预设S个锚点的情况下，特征提取网络提取出的特征图的通道数计算公式为：(4+4+1+1)*S，其中两个4分别表示第一检测框的预测值个数和第二检测框的预测值个数，两个1分别表示置信度和类别。

需要说明的是，本申请实施例还可以根据实际使用情况对特征提取网络进行适当修改，例如，可替换成Darknet53或其他速度更快的骨干网络，当待检测图像中的第一目标对象较小时，可更改卷积层的步长以保留更多的底层信息，当待检测图像中的第一目标对象较简单时，可适当减少卷积层，以减少特征融合，具体不作限定。

可以看出，本申请实施例通过获取视频图像的当前帧为待检测图像；对所述待检测图像进行特征提取，得到相应的特征图；基于所述特征图将所述待检测图像划分为至少两个栅格；若某个栅格内有第一目标对象的中心落入其中，则根据该栅格预设的锚点对所述第一目标对象进行预测，得到所述第一目标对象的第一检测框和所述第一目标对象的目标区域的第二检测框。由于本申请实施例提供的目标检测模型同样采用卷积神经网络训练而成，其提取出的特征可以融合更多的底层信息，特征的层次表达能力和鲁棒性并没有受影响，能够保证对待检测图像的目标检测性能，另外，该目标检测模型在结构结构设计上更轻量化，采用锚点对目标对象进行预测，计算速度更快，有利于提高目标检测的实时性。

请参见图5，图5为本申请实施例提供的另一种目标检测方法的流程示意图，如图5所示，包括步骤：

S51，获取视频图像的当前帧为待检测图像。

本申请具体实施例中，视频图像为图像采集终端采集的实时视频图像，例如：超市监控摄像头当前拍摄到的视频图像，当前帧即指图像采集终端采集的实时视频图像中在当前时间捕捉到需要进行分析的图像帧。该当前帧中通常包括至少一类需要检测的目标对象，例如：行人、车辆、房屋建筑等。

S52，对所述待检测图像进行特征提取，得到相应的特征图。

本申请具体实施例中，上述对所述待检测图像进行特征提取，具体可以是将所述待检测图像输入预训练的目标检测模型的特征提取网络进行特征提取，经过多个卷积和多个最大池化处理，最终得到7*7的特征图。

S53，基于所述特征图将所述待检测图像划分为至少两个栅格，所述至少两个栅格中的每个栅格均预设有N个锚点。

本申请具体实施例中，在步骤S52提取出7*7的特征图的基础上，目标检测模型的检测层将待检测图像划分为7*7的栅格，具体如图6所示。在一种可选的实施方式中，在使用目标检测模型进行检测之前，可通过预设数据集得到每个栅格预设的锚点，包括步骤：

获取预设数据集中的各第二目标对象的尺寸大小；

采用K均值聚类算法对所述各第二目标对象的尺寸大小进行聚类得到N个尺寸大小，根据该N个尺寸大小为所述至少两个栅格中每个栅格设定N个锚点。

预设数据集指用来训练目标检测模型的数据集，其可以是采用网络爬虫工具从网页中爬取到的图像集，也可以是现有的常用数据集，例如COCO数据集，第二目标对象即指数据集中的目标对象，例如，该第二目标对象可以是车辆、人脸、行人等，通过获取该预设数据集中的各第二目标对象的尺寸大小，采用K均值聚类算法将数据集中的各第二目标对象的尺寸大小聚类成N个尺寸，例如9个，那么，就为划分出的多个栅格中的每个栅格设定9个锚点。相对于基于人工选取锚点的方案，本申请实施例通过K均值聚类算法选取出来的锚点可能更符合数据集的概率分布，预测效果更好。较佳的，由于本申请实施例提供的目标检测模型仅设定了一个检测层，为每个栅格预设5个锚点便能满足检测需要。

S54，若某个栅格内有第一目标对象的中心落入其中，则通过该栅格的N个所述锚点预测出N组预测结果，所述N组预测结果中的每组预测结果均包括所述第一目标对象的第一候选检测框、所述目标区域的第二候选检测框、类别概率以及所述第一候选检测框的置信度，所述第二候选检测框位于所述第一候选检测框内。

本申请具体实施例中，第一候选检测框、第二候选检测框指N个锚点中每个锚点预测出还未进行过滤删除的检测框，如图6所示，待检测图像中的第一目标对象为行人，其人体中心落在中心栅格内，那么就由中心栅格通过预设的N个锚点对待检测图像中的人体以及与该人体对应的人头进行预测，每个锚点预测一组结果，中心栅格的N个锚点就会预测出N组预测结果，例如：1号锚点对应一组预测结果、2号锚点对应一组预测结果……N号锚点对应一组预测结果。该N组预测结果中的每组预测结果均包括第一候选检测框的位置(例如：人体检测框的位置)、第二候选检测框的位置(例如：人头检测框的位置)、第一目标对象的类别概率(例如：是否为人体)，以及所述第一候选检测框的置信度，该第一候选检测框和第二候选检测框同时输出，可理解为匹配的检测框对，例如：1号锚点会预测出一个检测框对、2号锚点会预测出一个检测框对。

S55，根据所述置信度得到所述第一目标对象的第一检测框和所述目标区域的第二检测框。

本申请具体实施例中，在N个锚点预测出N组预测结果的基础上，根据每组预测结果中的置信度对N组预测结果进行过滤，即删除置信度较低的预测结果中的第一候选检测框和第二候选检测框，保留置信度大于阈值或最高的一组预测结果。具体包括如下步骤：

根据所述置信度对所述N组预测结果进行过滤，得到置信度最高的一组预测结果；

将所述置信度最高的一组预测结果中的第一候选检测框和第二候选检测框确定为所述第一目标对象的第一检测框和所述目标区域的第二检测框。

在一种实施方式中，N个所述锚点中每个锚点对所述第一候选检测框的预测值包括所述第一候选检测框的中心点坐标的偏移量、所述第一候选检测框的宽度和高度的偏移量；所述方法还包括：

根据所述第一候选检测框的中心点坐标的偏移量和该每个锚点的坐标计算得到所述第一候选检测框的左上角坐标；

根据该每个锚点的宽度和高度计算得到所述第一候选检测框的宽度和高度；

基于所述第一候选检测框的左上角坐标、所述第一候选检测框的宽度和高度确定所述第一候选检测窗口。

本申请具体实施例中，每一第一候选检测框的左上角坐标、宽度和高度可由以下公式计算得到：

predict^x＝x+i；

predict^y＝y+j；

predict^w＝e^w×anchor^w；

predict^h＝e^h×anchor^h；

其中，(predict^x，predict^y)表示所述第一候选检测框的左上角坐标，(predict^w，predict^h)表示所述第一候选检测框的宽度和高度，(x，y)表示预测出的所述第一候选检测框的中心点坐标的偏移量，例如：人体的中心点坐标，(w，h)表示预测出的所述第一候选检测框的宽度和高度的偏移量，例如：人体的宽度和高度，(i，j)表示对应锚点的坐标位置，例如：计算1号锚点预测出的第一候选检测框的位置时，(i，j)即指2号锚点的坐标位置，(anchor^w，anchor^h)表示对应锚点的宽度和高度，e^w和e^h表示自然常数。

基于计算出的第一候选检测框的左上角坐标、宽度和高度便能确定第一候选检测框在待检测图像中的位置。

在一种实施方式中，N个所述锚点中每个锚点对所述第二候选检测框的预测值包括所述第二候选检测框的左上角坐标的偏移量和右下角坐标的偏移量；所述方法还包括：

根据所述第二候选检测框的左上角坐标的偏移量、该每个锚点的坐标、该每个锚点的宽度和高度计算得到所述第二候选检测框的左上角坐标；

根据所述第二候选检测框的右下角坐标的偏移量、该每个锚点的坐标、该每个锚点的宽度和高度计算得到所述第二候选检测框的右下角坐标；

基于所述第二候选检测框的左上角坐标、右下角坐标确定所述第二候选检测框。

本申请具体实施例中，每一第二候选检测框的左上角坐标、右下角坐标可由以下公式计算得到：

predict^x1＝tx1×anchor^w+i；

predict^y1＝ty1×anchor^h+j；

predict^x2＝tx2×anchor^w+i；

predict^y2＝ty2×anchor^h+j；

其中，(predict^x1，predict^y1)表示所述第二候选检测框的左上角坐标，例如：人头的左上角坐标，(predict^x2，predict^y2)表示所述第二候选检测框的右下角坐标，例如：人头的右下角坐标，(tx1，ty1)和(tx2，ty2)分别表示表示预测出的第二候选检测框的左上角坐标和右下角坐标的偏移量。基于计算出的第二候选检测框的左上角坐标、右下角坐标便能确定第二候选检测框在待检测图像中的位置。

在一种实施方式中，所述目标检测模型的训练过程包括：将所述数据集分为训练集和测试集，并对所述训练集中的数据进行标注；将所述训练集中的标注数据输入所述特征提取网络进行特征提取，得到所述标注数据对应的特征图；基于所述标注数据对应的特征图，利用所述检测层对所述标注数据中的各第二目标对象进行预测；获取所述检测层激发的损失函数值，根据该损失函数值调整所述检测层的网络参数权重；经过多次迭代后，采用所述测试集中的数据对所述检测层的预测效果进行测试，若该预测效果符合预设期望，则得到训练好的所述目标检测模型。

本申请具体实施例中，按照预设比例将数据集分为训练组与测试组，之后，对训练组中的数据进行标注，例如：标注出同一行人的人体和人头、标注出人脸和该人脸上的鼻子等。训练过程中，为了使训练好的目标检测模型具有对不同尺寸的待检测图像的检测能力，可以将标注数据处理成多个尺寸，例如：320*320、608*608等，模型训练同样是采用特征提取网络对输入的标注数据进行特征提取，采用检测层进行目标检测，同时，训练过程中考虑检测层激发的损失函数LOSS，当该损失函数值大于阈值时，可对检测层的网络参数权重进行调整，使得模型预测出的第一候选框和第二候选框向锚点收敛，但在某些情况下，损失函数值小于阈值就不一定表示目标检测模型训练好了，因此，在经过预设次数的迭代后，例如：160次，采用测试集对检测层的检测效果进行测试，判断其检测速度和检测精度，当这些参考指标符合预设期望时，便得到训练好的目标检测模型，经过大量测试，本申请实施例提供的目标检测模型可实现600fps(Frame Per Second，每秒传输帧)以上的检测速度。

具体的，训练过程中考虑的损失函数公式为：

LOSS＝loss_con+loss_cls+loss1_coord+loss2_coord；

其中，LOSS表示整个检测层的损失，loss_con表示预测出的第二目标对象的置信度损失，loss_cls表示第二目标对象的类别损失，loss1_coord表示第二目标对象的第一候选检测框的坐标损失，loss2_coord表示第二目标对象的第二候选检测框的坐标损失；

loss_con＝(IOU＜T)×λ_noobj×(0-confidence)+(IOU＞T)×λ_obj×(IOU-confidence)；

其中，IOU表示每个锚点与预测出的第二目标对象的第一候选检测框之间的交并比，如图7-a所示，标注为A的框为路牌(此处第二目标对象为路牌)的一个预设锚点，标注为B的框为该锚点预测出的路牌的第一候选检测框，T为阈值，图7-b为A框和B框的交集面积Area ofOverlap，图7-c为A框和B框的并集面积Area of Union，那么，此处的IOU的计算公式为：

当IOU大于阈值T时认为第一候选检测框包含第二目标对象，否则认为第一候选检测框不包含第二目标对象，λ_noobj和λ_obj为常数，confidence表示第一候选检测框包含第二目标对象的置信度；

其中，λ_class为常数，c表示类别数，c＝1，truth^c表示第二目标对象的实际类别，predict^c表示第二目标对象的预测类别；

loss1_coord＝λ_coord×∑_{r1∈(x，y，w，h)}(truth^r1-predict^r1)²；

其中，λ_coord为常数，truth^r1表示第二目标对象的第一候选检测框的实际坐标，predict^r1表示第二目标对象的第一候选检测框的预测坐标，(x，y)表示第二目标对象的第一候选检测框的中心点坐标的偏移量，(w，h)表示第二目标对象的第一候选检测框的宽度和高度的偏移量；

loss2_coord＝λ_coord×∑_{r2∈(x1，y1，x2，y2)}(truth^r2-predict^r2)²；

其中，truth^r2表示第二目标对象的第二候选检测框的实际坐标，predict^r2表示第二目标对象的第二候选检测框的预测坐标，(x1，y1)表示第二目标对象的第二候选检测框的左上角坐标的偏移量，(x2，y2)表示第二目标对象的第二候选检测框的右下角坐标的偏移量。

基于上述目标检测方法实施例的描述，本申请实施例还提供一种目标检测装置，所述目标检测装置可以是运行于终端中的一个计算机程序(包括程序代码)。该目标检测装置可以执行图2或图5所示的方法。请参见图8，该目标检测装置包括：

获取模块81，用于获取视频图像的当前帧为待检测图像；

处理模块82，用于对所述待检测图像进行特征提取，得到相应的特征图；

所述处理模块81，用于基于所述特征图将所述待检测图像划分为至少两个栅格；

所述处理模块82，用于若某个栅格内有第一目标对象的中心落入其中，则根据该栅格预设的锚点对所述第一目标对象进行预测，得到所述第一目标对象的第一检测框和所述第一目标对象的目标区域的第二检测框，所述第二检测框位于所述第一检测框内。

在一种实施方式中，所述多个栅格中每个栅格均预设有N个所述锚点，所述处理模块82在用于根据该栅格预设的锚点对所述第一目标对象进行预测，得到所述第一目标对象的第一检测框和所述第一目标对象的目标区域的第二检测框方面，具体用于：

通过该栅格的N个所述锚点预测出N组预测结果，所述N组预测结果中的每组预测结果均包括所述第一目标对象的第一候选检测框、所述目标区域的第二候选检测框、类别概率以及所述第一候选检测框的置信度，所述第二候选检测框位于所述第一候选检测框内；

根据所述置信度得到所述第一目标对象的第一检测框和所述目标区域的第二检测框。

在一种实施方式中，所述处理模块82在用于根据所述置信度得到所述第一目标对象的第一检测框和所述目标区域的第二检测框方面，具体用于：

在一种实施方式中，N个所述锚点中每个锚点对所述第一候选检测框的预测值包括所述第一候选检测框的中心点坐标的偏移量、所述第一候选检测框的宽度和高度的偏移量；所述处理模块82具体还用于：

基于所述第一候选检测框的左上角坐标、所述第一候选检测框的宽度和高度确定所述第一候选检测框。

在一种实施方式中，N个所述锚点中每个锚点对所述第二候选检测框的预测值包括所述第二候选检测框的左上角坐标的偏移量和右下角坐标的偏移量；所述处理模块82具体还用于：

在一种实施方式中，所述处理模块82具体还用于：获取预设数据集中的各第二目标对象的尺寸大小；采用K均值聚类算法对所述各第二目标对象的尺寸大小进行聚类得到N个尺寸大小，根据该N个尺寸大小为所述多个栅格中每个栅格设定N个锚点。

在一种实施方式中，所述处理模块82在对所述待检测图像进行特征提取，得到相应的特征图方面，具体用于：

将所述待检测图像输入预训练的目标检测模型进行特征提取，得到相应的特征图。

在一种实施方式中，所述处理模块82在用于所述目标检测模型的训练方面，具体用于：

将所述数据集分为训练集和测试集，并对所述训练集中的数据进行标注；

将所述训练集中的标注数据输入所述特征提取网络进行特征提取，得到所述标注数据对应的特征图；

基于所述标注数据对应的特征图，利用所述检测层对所述标注数据中的各第二目标对象进行预测；

获取所述检测层激发的损失函数值，根据该损失函数值调整所述检测层的网络参数权重；

采用所述测试集中的数据对所述检测层的预测效果进行测试，若该预测效果符合预设期望，则得到训练好的所述目标检测模型。

在一种实施方式中，所述损失函数的公式为：

LOSS＝loss_con+loss_cls+loss1_coord+loss2_coord；

其中，LOSS表示整个检测层的损失，loss_con表示预测出的第二目标对象的置信度损失，loss_cls表示第二目标对象的类别损失，loss1_coord表示第二目标对象的第一候选检测框的坐标损失，loss2_coord表示第二目标对象的第二候选检测框的坐标损失：

其中，IOU表示每个锚点与预测出的第二目标对象的第一候选检测框之间的交并比，T为阈值，当IOU大于阈值T时认为第一候选检测框包含第二目标对象，否则认为第一候选检测框不包含第二目标对象，λ_noobj和λ_obj为常数，confidence表示第一候选检测框包含第二目标对象的置信度；

loss1_coord＝λ_coord×∑_{r1∈(x，y，w，h})(truth^r1-predict^r1)²；

loss2_coord＝λ_coord×∑_{r2∈(x1，y1，x2，v2)}(truth^r2-predict^r2)²；

根据本申请的一个实施例，图8所示的目标检测装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本发明的其它实施例中，基于目标检测装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2或图5中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图8中所示的目标检测装置设备，以及来实现本发明实施例的目标检测方法。所述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

基于上述方法实施例以及装置实施例的描述，本发明实施例还提供一种电子设备。请参见图9，该电子设备至少包括处理器91、输入设备92、输出设备93以及计算机存储介质94。其中，电子设备内的处理器91、输入设备92、输出设备93以及计算机存储介质94可通过总线或其他方式连接。

计算机存储介质94可以存储在电子设备的存储器中，所述计算机存储介质94用于存储计算机程序，所述计算机程序包括程序指令，所述处理器91用于执行所述计算机存储介质94存储的程序指令。处理器91(或称CPU(Central Processing Unit，中央处理器))是电子设备的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。

在一个实施例中，本申请实施例提供的电子设备的处理器91可以用于进行一系列目标检测处理，包括：获取视频图像的当前帧为待检测图像；对所述待检测图像进行特征提取，得到相应的特征图；基于所述特征图将所述待检测图像划分为至少两个栅格；若某个栅格内有第一目标对象的中心落入其中，则根据该栅格预设的锚点对所述第一目标对象进行预测，得到所述第一目标对象的第一检测框和所述第一目标对象的目标区域的第二检测框，所述第二检测框位于所述第一检测框内。

在一个实施例中，所述多个栅格中每个栅格均预设有N个所述锚点，处理器91执行所述根据该栅格预设的锚点对所述第一目标对象进行预测，得到所述第一目标对象的第一检测框和所述第一目标对象的目标区域的第二检测框，包括：

在一个实施例中，处理器91执行所述根据所述置信度得到所述第一目标对象的第一检测框和所述目标区域的第二检测框，包括：

在一个实施例中，N个所述锚点中每个锚点对所述第一候选检测框的预测值包括所述第一候选检测框的中心点坐标的偏移量、所述第一候选检测框的宽度和高度的偏移量；处理器91具体还用于：

在一个实施例中，N个所述锚点中每个锚点对所述第二候选检测框的预测值包括所述第二候选检测框的左上角坐标的偏移量和右下角坐标的偏移量；处理器91具体还用于：

在一个实施例中，在所述获取视频图像的当前帧为待检测图像之前，处理器91具体还用于：

获取预设数据集中的各第二目标对象的尺寸大小；

在一个实施例中，处理器91执行所述对所述待检测图像进行特征提取，得到相应的特征图，包括：

将所述待检测图像输入预训练的目标检测模型进行特征提取，得到相应的特征图。在一个实施例中，所述目标检测模型包括特征提取网络和检测层，处理器91执行所述目标检测模型的训练过程包括：

在一个实施例中，处理器91执行所述损失函数的计算公式为：

LOSS＝loss_con+loss_cls+loss1_coord+loss2_coord；

其中，λ_class为常数，c表示类别数，对于类别损失，只需考虑一个类别，即第一候选检测框框定的目标所属的类别，因此c＝1，truth^c表示第二目标对象的实际类别，predict^c表示第二目标对象的预测类别；

loss1_coord＝λ_coord×∑_{r1∈(x，y，w，h)}(truth^r1-predict^r1)²；

示例性的，上述电子设备可以是计算机、笔记本电脑、平板电脑、掌上电脑、服务器等。电子设备可包括但不仅限于处理器91、输入设备92、输出设备93以及计算机存储介质94。本领域技术人员可以理解，所述示意图仅仅是电子设备的示例，并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

需要说明的是，由于电子设备的处理器91执行计算机程序时实现上述的目标检测方法中的步骤，因此上述目标检测方法的实施例均适用于该电子设备，且均能达到相同或相似的有益效果。

本申请实施例还提供了一种计算机存储介质(Memory)，所述计算机存储介质是电子设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括终端中的内置存储介质，当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器91加载并执行的一条或多条的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的，还可以是至少一个位于远离前述处理器91的计算机存储介质。在一个实施例中，可由处理器91加载并执行计算机存储介质中存放的一条或多条指令，以实现上述有关目标检测方法的相应步骤；具体实现中，计算机存储介质中的一条或多条指令由处理器91加载并执行如下步骤：

获取视频图像的当前帧为待检测图像；

对所述待检测图像进行特征提取，得到相应的特征图；

基于所述特征图将所述待检测图像划分为至少两个栅格；

需要说明的是，由于计算机存储介质的计算机程序被处理器执行时实现上述的目标检测方法中的步骤，因此上述目标检测方法的所有实施例或实施方式均适用于该计算机可读存储介质，且均能达到相同或相似的有益效果。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种目标检测方法，其特征在于，所述方法包括：

获取视频图像的当前帧为待检测图像；

对所述待检测图像进行特征提取，得到相应的特征图；

基于所述特征图将所述待检测图像划分为至少两个栅格，所述至少两个栅格中每个栅格均预设有N个锚点；

若某个栅格内有第一目标对象的中心落入其中，则通过该栅格的N个所述锚点预测出N组预测结果，所述N组预测结果中的每组预测结果均包括所述第一目标对象的第一候选检测框、所述第一目标对象的目标区域的第二候选检测框、类别概率以及所述第一候选检测框的置信度，所述第二候选检测框位于所述第一候选检测框内；根据所述置信度得到所述第一目标对象的第一检测框和所述目标区域的第二检测框，所述第二检测框位于所述第一检测框内；

所述方法还包括：

N个所述锚点中每个锚点对所述第一候选检测框的预测值包括所述第一候选检测框的中心点坐标的偏移量、所述第一候选检测框的宽度和高度的偏移量，根据所述第一候选检测框的中心点坐标的偏移量和该每个锚点的坐标计算得到所述第一候选检测框的左上角坐标；

基于所述第一候选检测框的左上角坐标、所述第一候选检测框的宽度和高度确定所述第一候选检测框；

或包括：

N个所述锚点中每个锚点对所述第二候选检测框的预测值包括所述第二候选检测框的左上角坐标的偏移量和右下角坐标的偏移量，根据所述第二候选检测框的左上角坐标的偏移量、该每个锚点的坐标、该每个锚点的宽度和高度计算得到所述第二候选检测框的左上角坐标；

2.根据权利要求1所述的方法，其特征在于，所述根据所述置信度得到所述第一目标对象的第一检测框和所述目标区域的第二检测框，包括：

3.根据权利要求1或2所述的方法，其特征在于，在所述获取视频图像的当前帧为待检测图像之前，所述方法还包括：

获取预设数据集中的各第二目标对象的尺寸大小；

采用K均值聚类算法对所述各第二目标对象的尺寸大小进行聚类得到N个尺寸大小，根据该N个尺寸大小为所述至少两个栅格中每个栅格设定N个锚点；

所述对所述待检测图像进行特征提取，得到相应的特征图，包括：

4.根据权利要求3所述的方法，其特征在于，所述目标检测模型包括特征提取网络和检测层，所述目标检测模型的训练过程包括：

5.根据权利要求4所述的方法，其特征在于，所述损失函数的公式为：

LOSS＝loss_con+loss_cls+loss1_coord+loss2_coord；

loss_con＝(IOU＜T)×λ_noobj×(0-confidence)+(IOU>T)×λ_obj×(IOU-confidence)；

loss1_coord＝λ_coord×∑_{r1∈(x，y，w，h})(truth^r1-predict^r1)²；

6.一种目标检测装置，其特征在于，所述装置包括：

获取模块，用于获取视频图像的当前帧为待检测图像；

所述处理模块，用于基于所述特征图将所述待检测图像划分为至少两个栅格，所述至少两个栅格中每个栅格均预设有N个锚点；

所述处理模块，用于若某个栅格内有第一目标对象的中心落入其中，则通过该栅格的N个所述锚点预测出N组预测结果，所述N组预测结果中的每组预测结果均包括所述第一目标对象的第一候选检测框、所述第一目标对象的目标区域的第二候选检测框、类别概率以及所述第一候选检测框的置信度，所述第二候选检测框位于所述第一候选检测框内；根据所述置信度得到所述第一目标对象的第一检测框和所述目标区域的第二检测框，所述第二检测框位于所述第一检测框内；

所述处理模块还用于：

N个所述锚点中每个锚点对所述第一候选检测框的预测值包括所述第一候选检测框的中心点坐标的偏移量、所述第一候选检测框的宽度和高度的偏移量，所述处理模块根据所述第一候选检测框的中心点坐标的偏移量和该每个锚点的坐标计算得到所述第一候选检测框的左上角坐标；根据该每个锚点的宽度和高度计算得到所述第一候选检测框的宽度和高度；基于所述第一候选检测框的左上角坐标、所述第一候选检测框的宽度和高度确定所述第一候选检测框；

或还用于：

N个所述锚点中每个锚点对所述第二候选检测框的预测值包括所述第二候选检测框的左上角坐标的偏移量和右下角坐标的偏移量，所述处理模块根据所述第二候选检测框的左上角坐标的偏移量、该每个锚点的坐标、该每个锚点的宽度和高度计算得到所述第二候选检测框的左上角坐标；根据所述第二候选检测框的右下角坐标的偏移量、该每个锚点的坐标、该每个锚点的宽度和高度计算得到所述第二候选检测框的右下角坐标；基于所述第二候选检测框的左上角坐标、右下角坐标确定所述第二候选检测框。

7.一种电子设备，包括输入设备和输出设备，其特征在于，还包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1-5任一项所述的目标检测方法。

8.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如权利要求1-5任一项所述的目标检测方法。