CN110490910A

CN110490910A - 目标检测方法、装置、电子设备及存储介质

Info

Publication number: CN110490910A
Application number: CN201910743822.1A
Authority: CN
Inventors: 童星; 冯昊楠; 张玉双
Original assignee: SF Technology Co Ltd; Fengtu Technology Shenzhen Co Ltd
Current assignee: SF Technology Co Ltd; Fengtu Technology Shenzhen Co Ltd; SF Tech Co Ltd
Priority date: 2019-08-13
Filing date: 2019-08-13
Publication date: 2019-11-22

Abstract

本发明实施例公开了一种目标检测方法、装置、电子设备及存储介质。其中，该目标检测方法包括：从视频流中提取关键帧；将关键帧由当前第一分辨率调整为第二分辨率，得到调整后图像；根据调整后图像对关键帧的目标区域进行图像裁剪，得到目标图像；根据目标图像对视频流中各图像帧进行目标追踪，输出目标检测结果。本发明实施例中在现有目标检测技术中将视频逐帧拆分为图片处理的基础上，增加对图片降低分率处理及图像裁剪的阶段，在对关键帧降低分辨率处理及图像裁剪后，可以大大降低参与后续计算的图像像素数量，提高了目标检测的速度，同时由于图像裁剪处理，使得后续参与目标检测的图像更加专注于目标区域的检测，提高了目标检测的准确度。

Description

目标检测方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机技术领域，具体涉及一种目标检测方法、装置、电子设备及存储介质。

背景技术

图像处理技术在航空航天、公共安全、生物医学、电子商务、多媒体等领域都具有巨大的应用价值和广泛的应用市场。其中，目标检测及跟踪技术经过长时间的研究，已经取得了长足的发展与进步，以人、车辆等对象为目标的目标检测算法研究已经成为一个研究方向众多并有着广泛应用于前景的学术和科技领域。

在目标检测及跟踪技术中，需要从拍摄的视频中检测并跟踪目标，具体需要从多帧图像中选择成像质量较好的图像来进行检测并跟踪目标的运动轨迹，其中成像质量可能受到目标的非配合状态、目标发生运动或摄像头参数的影响。

现有的目标检测和跟踪算法中，需要将视频逐帧拆分为图片处理，这样会导致检测速度很慢，以无人驾驶为例，需要实时检测出当前道路的交通标志信息，此过程对速度要求很高，现阶段交通标志检测算法在图片能获得较好效果，但检测速度仍然过慢，并且由于目标快速运动以及转弯过程中视场变化，当前匹配算法很难保证将同一个目标不同帧匹配上，导致很多重复目标被检测出来，重复目标匹配不上，出现目标的重复输出。

发明内容

本发明实施例提供一种目标检测方法、装置、电子设备及存储介质，可以大大降低参与后续计算的图像像素数量，提高了目标检测的速度，同时使得参与目标检测的图像更加专注于目标区域的检测，提高了目标检测的准确度。

第一方面，本申请提供一种目标检测方法，所述目标检测方法包括：

从视频流中提取关键帧；

将所述关键帧由当前第一分辨率调整为第二分辨率，得到调整后图像，所述第一分辨率高于所述第二分辨率；

根据所述调整后图像对所述关键帧的目标区域进行图像裁剪，得到目标图像；

根据所述目标图像，对所述视频流中各图像帧进行目标追踪，输出目标检测结果。

在本申请一些实施例中，所述根据所述调整后图像对所述关键帧的目标区域进行图像裁剪，得到目标图像，包括：

确定所述调整后图像中的目标区域；

根据所述调整后图像中的目标区域，对应确定所述关键帧中目标区域；

对所述关键帧中目标区域进行图像裁剪，得到所述目标图像。

在本申请一些实施例中，所述根据所述目标图像，对所述视频流中各图像帧进行目标追踪，输出目标检测结果，包括：

若所述目标图像中包括第一目标的图像，在所述第一目标的图像中提取所述第一目标的图像深度特征；

根据所述第一目标的图像深度特征，对所述视频流各图像帧中的目标进行目标追踪，输出第一目标的检测结果。

在本申请一些实施例中，所述根据所述第一目标的图像深度特征，对所述视频流各图像帧中的目标进行目标追踪，输出第一目标的检测结果，包括：

判断所述关键帧是否为所述视频流中第一个图像帧；

若是，则新建第一追踪器，并保存所述第一目标的图像深度特征；

利用所述第一追踪器以及所述第一目标的图像深度特征，对所述视频流各图像帧中的第一目标进行目标追踪，输出第一目标的检测结果。

在本申请一些实施例中，所述利用所述第一追踪器以及所述第一目标的图像深度特征，对所述视频流各图像帧中的第一目标进行目标追踪，输出第一目标的检测结果，包括：

分别以所述视频流中除所述第一个图像帧之外的图像帧为目标图像帧，利用所述第一追踪器，确定所述目标图像帧中的第二目标；

根据所述第一目标的图像深度特征，判断所述第二目标与所述第一目标与是否匹配；

若匹配，更新所述第一目标的图像深度特征；

在所述视频流中连续预设数量的图像帧中未检测到第一目标时，输出第一目标的检测结果。

在本申请一些实施例中，所述根据所述第一目标的图像深度特征，判断所述第二目标与所述第一目标与是否匹配，包括：

利用马氏距离计算所述第二目标与所述第一目标的第一匹配度；

根据所述第一目标的图像深度特征，计算所述第二目标与第一目标的第二匹配度；

根据所述第一匹配度和所述第二匹配度，计算所述第二目标和所述第一目标的目标匹配度；

根据所述目标匹配度，判断所述第二目标与所述第一目标与是否匹配。

在本申请一些实施例中，所述方法还包括：

若所述第二目标与所述第一目标不匹配，新建第二追踪器，并保存所述第二目标的图像深度特征；

利用所述第二追踪器和所述第二目标的图像深度特征，对所述视频流各图像帧中的第二目标进行目标追踪，输出第二目标的检测结果。

第二方面，本申请提供一种目标检测装置，所述目标检测装置包括：

提取单元，用于从视频流中提取关键帧；

处理单元，用于将所述关键帧由当前第一分辨率调整为第二分辨率，得到调整后图像，所述第一分辨率高于所述第二分辨率；

裁剪单元，用于根据所述调整后图像对所述关键帧的目标区域进行图像裁剪，得到目标图像；

输出单元，用于根据所述目标图像，对所述视频流中各图像帧进行目标追踪，输出目标检测结果。

在本申请一些实施例中，所述裁剪单元具体用于：

确定所述调整后图像中的目标区域；

在本申请一些实施例中，所述输出单元具体用于：

判断所述关键帧是否为所述视频流中第一个图像帧；

在本申请一些实施例中，所述输出单元具体用于：

若匹配，更新所述第一目标的图像深度特征；

在本申请一些实施例中，所述输出单元具体还用于：

根据所述第一目标的图像深度特征，计算所述第二目标与所述第一目标的第二匹配度；

在本申请一些实施例中，所述输出单元具体还用于：

第三方面，本申请提供一种电子设备，所述电子设备包括：

一个或多个处理器；

存储器；以及

一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并配置为由所述处理器执行以实现第一方面中任一项所述的目标检测方法。

第四方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器进行加载，以执行第一方面中任一项所述的目标检测方法中的步骤。

本发明实施例通过从视频流中提取关键帧；将关键帧由当前第一分辨率调整为第二分辨率，得到调整后图像，第一分辨率高于第二分辨率；根据调整后图像对关键帧的目标区域进行图像裁剪，得到目标图像；根据目标图像，对视频流中关键帧进行目标追踪，输出目标检测结果。本发明实施例中在现有目标检测技术中将视频逐帧拆分为图片处理的基础上，增加对图片进行降低分率处理及图像裁剪的阶段，在对关键帧进行降低分辨率处理及图像裁剪后，可以大大降低参与后续计算的图像像素数量，提高了目标检测的速度，同时由于图像裁剪处理，使得后续参与目标检测的图像更加专注于目标区域的检测，提高了目标检测的准确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的目标检测系统的场景示意图；

图2是本发明实施例中提供的目标检测方法的一个实施例流程示意图；

图3是本发明实施例中提供的步骤203的一个实施例流程示意图；

图4是本发明实施例中提供的步骤204的一个实施例流程示意图；

图5是本发明实施例中提供的目标检测方法的一个场景流程示意图；

图6是本发明实施例中提供的目标检测装置的一个实施例结构示意图；

图7是本发明实施例中提供的电子设备的一个实施例结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本申请中，“示例性”一词用来表示“用作例子、例证或说明”。本申请中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本发明，给出了以下描述。在以下描述中，为了解释的目的而列出了细节。应当明白的是，本领域普通技术人员可以认识到，在不使用这些特定细节的情况下也可以实现本发明。在其它实例中，不会对公知的结构和过程进行详细阐述，以避免不必要的细节使本发明的描述变得晦涩。因此，本发明并非旨在限于所示的实施例，而是与符合本申请所公开的原理和特征的最广范围相一致。

本发明实施例提供一种目标检测方法、装置、电子设备及存储介质，以下分别进行详细说明。

请参阅图1，图1为本发明实施例所提供的目标检测系统的场景示意图，该目标检测系统可以包括电子设备100，电子设备100中集成有目标检测装置，如图1中的电子设备。

本发明实施例中电子设备100主要用于从视频流中提取关键帧；将所述关键帧由当前第一分辨率调整为第二分辨率，得到调整后图像；根据所述调整后图像对所述关键帧的目标区域进行图像裁剪，得到目标图像；根据所述目标图像，对所述视频流中各图像帧进行目标追踪，输出目标检测结果。

本发明实施例中，该电子设备100可以是独立的电子设备，也可以是多个电子设备组成的设备网络或设备集群，例如，服务器网络或服务器集群，本发明实施例中所描述的电子设备100，其包括但不限于计算机、车载设备、网络主机、单个网络设备、多个网络设备集或多个服务器构成的云服务器。其中，云服务器由基于云计算(Cloud Computing)的大量计算机或网络服务器构成。

本领域技术人员可以理解，图1中示出的应用环境，仅仅是与本申请方案一种应用场景，并不构成对本申请方案应用场景的限定，其他的应用环境还可以包括比图1中所示更多或更少的电子设备，例如图1中仅示出1个电子设备，可以理解的，该目标检测系统还可以包括一个或多个其他电子设备，具体此处不作限定。

另外，如图1所示，该目标检测系统还可以包括存储器200，用于存储数据，如存储视频数据或目标检测数据，例如视频采集设备采集采集的视频文件等。

需要说明的是，图1所示的目标检测系统的场景示意图仅仅是一个示例，本发明实施例描述的目标检测系统以及场景是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定，本领域普通技术人员可知，随着目标检测系统的演变和新业务场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。

首先，本发明实施例中提供一种目标检测方法，所述目标检测方法包括：从视频流中提取关键帧；将所述关键帧由当前第一分辨率调整为第二分辨率，得到调整后图像；根据所述调整后图像对所述关键帧的目标区域进行图像裁剪，得到目标图像；根据所述目标图像，对所述视频流中各图像帧进行目标追踪，输出目标检测结果。

目标检测，是从拍摄的视频中检测并跟踪目标，具体需要从多帧图像中选择图像来进行检测并跟踪目标的运动轨迹，输出目标检测结果。

其中，目标追踪，又叫目标跟踪，目标追踪就是在给定某视频序列初始帧的目标大小与位置的情况下，预测后续帧中该目标的大小与位置，进而可以在视频流各图像帧中确定目标大小及位置，以得到目标在运动过程中的由远及近或由近及远而产生的尺度大小变化的现象。目标追踪是计算机视觉中的一个重要研究方向，有着广泛的应用，如：视频监控，人机交互，无人驾驶等。

本发明实施例中，目标可以是可作为检测目标的对象，在本发明实施例中，目标可以泛指某一类型的对象，例如人脸、车辆、交通标志或行人等等。这时，目标检测可以为人脸检测、车辆检测、交通标志检测或行人检测，其目的是检测出图像中的人脸、车辆、交通标志或行人。目标也可以是具有特定特征、区别于其他同类型对象的对象，例如某一特定用户的人脸。这时，目标检测的目的可以为对该特定用户的人脸进行检测以确定待检测图像中是否存在该特定用户的人脸、以及当待检测图像中存在该特定用户的人脸时，确定该特定用户的人脸的位置。

如图2所示，为本发明实施例中目标检测方法的一个实施例流程示意图，该目标检测方法可以包括：

201、从视频流中提取关键帧。

具体的，视频流可以是视频采集装置采集的视频流，视频采集装置可以是安装在电子设备中的视频采集装置，也可以是独立于电子设备之外的视频采集装置，例如，当电子设备为车载设备时，视频采集装置可以是车载设备中的一个视频采集模块，当然，视频采集装置也可以是车辆中独立于车载设备之外的一个单独的视频采集设备，具体此处不作限定。

该视频采集装置中可以包括安装在目标设备(例如车辆)上的一个或多个摄像头，视频采集装置用于利用该一个或多个摄像头采集目标设备周围的环境图像，并形成视频流实时传输给电子设备。

另外，由于视频流中是连续采集的视频图像，对于视频流中的图像帧来说，在一段时间内，连续图像帧中出现的目标可能是相同的，因此本发明实施例中为了提高目标检测效率，可以每隔预设帧数(例如5帧)在视频流中选择关键帧，其中，视频流的第一个图像帧由于是开始帧，可以直接选择为关键帧。具体的，如第一帧为关键帧，然后每隔5帧在视频流中选择关键帧，即第7帧又选择为关键帧，依次类推。

202、将所述关键帧由当前第一分辨率调整为第二分辨率，得到调整后图像。

本发明实施例中，可以对所述关键帧进行低分率处理(即对关键帧进行降低分辨率的处理)，得到调整后图像，具体的，对关键帧进行降低分辨率的处理可以有多种方式，在一个具体实施例中，由于每个图像都对应有一个分辨率，因此可以直接调整所述关键帧的分辨率，得到调整后图像。具体的，即将所述关键帧由当前第一分辨率调整为第二分辨率，得到调整后图像包括：将所述关键帧由当前第一分辨率调整为第二分辨率，得到调整后图像，其中，所述第一分辨率高于所述第二分辨率，即调整后的图像的分辨率低于所述关键帧的分辨率。

需要说明的是，本发明实施例中，对关键帧进行降低分辨率的处理，得到调整后图像的目的是为了通过调整后图像去检测目标区域，减少运算量，提高目标区域的检测速度和效率。因此，在对关键帧进行降低分辨率的处理，得到调整后图像的过程中，除了降低分辨率，所述调整后图像和所述关键帧尺寸可以相同，也可以是满足预设的比例关系，例如所述调整后图像为所述关键帧尺寸的1/n，n为正整数，具体的，如所述调整后图像为所述关键帧尺寸的1/2。这样就可以通过调整后图像确定目标区域后，再在关键帧中去对应以确定目标区域。当然，为了提高运算效率，作为优选，所述调整后图像和所述关键帧尺寸相同。

203、根据所述调整后图像对所述关键帧的目标区域进行图像裁剪，得到目标图像。

其中，所述关键帧的目标区域为关键帧中检测到的目标对应的区域，如人脸、车辆、交通标志或行人等目标对应的区域，具体的，例如当关键帧中包括某交通标志目标时，该关键帧的目标区域即包括该交通标志对应的区域。

需要说明的是，所述关键帧中目标区域可以包括多个目标对应的区域，例如若关键帧中包括多个目标，则所述关键帧中目标区域则包括该多个目标对应的区域。

本发明实施例中可以通过目标检测算法或目标检测模型(具体可以参照下述实施例)中，对图像帧中目标检测输出目标检测框，每个目标检测框即可以为本发明实施例中每个目标对应的区域，即一个目标区域。

具体的，如图3所示，所述根据所述调整后图像对所述关键帧的目标区域进行图像裁剪，得到目标图像，可以进一步包括：

301、确定所述调整后图像中的目标区域。

具体的，可以将调整后图像输入预设的目标检测模型中，以通过该目标检测模型进行目标检测，输出所述调整后图像中的目标区域。其中，目标检测模型可以是YOLO网络模型，其中，YOLO网络模型可以是采用YOLOv1、YOLOv2或YOLOv3算法。当然，为了提高速度，该目标检测模型还可以采用速度更快的Darknet-19模型，其中，Darknet-19是YOLOv2网络模型，包括19个卷积层和5个maxpooling层，Darknet-19与VGG16模型设计原则是一致的，主要采用3*3卷积层，采用2*2的池化层之后，特征图维度降低2倍，而同时将特征图的channles增加两倍。

在目标检测模型采用Darknet-19模型基础之上，本发明实施例中还可以在此基础上用Dense block结构替换Darknet-19模型中传统的卷积结构，以进一步获得精度的提升，其中，Dense block是DenseNet(密集连接卷积网络)中的基础子模块单元，将DenseNet和Darknet-19的优点进行融合，并采用opencv4对模型进行加速，在不增加时间开销的基础上，获得算法精度上的提升，使得目标检测模型对目标的检测获得更快的速度。

302、根据所述调整后图像中的目标区域，对应确定所述关键帧中目标区域。

由于调整后图像和原始图像(即关键帧)尺寸相同或存在预设比例关系，在调整后图像上确定目标大概位置(即目标区域)，即可再映射到关键帧中，对应确定所述关键帧中目标区域。例如，当调整后图像和关键帧尺寸相同时，在调整后图像中确定目标区域之后，即可直接对应在关键帧中确定目标区域。

步骤302中根据所述调整后图像中的目标区域，对应确定所述关键帧中目标区域，此时，所述关键帧中目标区域可以包括多个区域，例如若关键帧中包括多个目标，则所述关键帧中目标区域则包括多个目标对应的区域，此时目标图像也为多个，每个目标图像对应一个目标。

303、对所述关键帧中目标区域进行图像裁剪，得到所述目标图像。

在确定所述关键帧中目标区域之后，即可根据目标区域切割关键帧，得到包括目标区域的图像块，具体的，即对所述关键帧中目标区域进行图像裁剪，得到所述目标图像，该目标图像中包括该确定的目标区域。

204、根据所述目标图像，对所述视频流中各图像帧进行目标追踪，输出目标检测结果。

本发明实施例通过从视频流中提取关键帧；将所述关键帧由当前第一分辨率调整为第二分辨率，得到调整后图像；根据调整后图像对关键帧的目标区域进行图像裁剪，得到目标图像；根据目标图像，对视频流中关键帧进行目标追踪，输出目标检测结果。本发明实施例中在现有技术将视频逐帧拆分为图片处理的基础上，增加对图片降低分辨率处理及图像裁剪的阶段，在对关键帧降低分辨率处理及图像裁剪后，可以大大降低参与后续计算的图像像素数量，提高了目标检测的速度，同时由于图像裁剪处理，使得后续参与目标检测的图像更加专注于目标区域的检测，提高了目标检测的准确度。

目前，传统的目标追踪通过卡尔曼滤波器构建目标运动模型，会逐帧预测目标的位置，计算检测目标与预测目标位置的重合度，设置合适的阈值判断是否匹配正确。这种目标检测方式对于检测间隔要求比较高，最好是逐帧检测，因此也会加大目标检测整体时间开销。同时，对于车辆等移动装置的目标检测领域来说，由于车辆行车过程中并非匀速，经常面临加减速、转弯等情况。单一追踪运动模型很难处理突然的运动状态变化，会照成跟踪丢失，大大降低整体算法性能，考虑到传统目标追踪算法的不足，本发明实施例中采用深度表征信息与运动模型相结合的方式，以提高追踪匹配准确率。

具体的，在本发明一些实施例中，如图4所示，步骤204中所述根据所述目标图像，对所述视频流中各图像帧进行目标追踪，输出目标检测结果的步骤可以进一步包括：

401、若所述目标图像中包括第一目标的图像，在所述第一目标的图像中提取所述第一目标的图像深度特征。

由于当关键帧中包括多个目标时，所述关键帧中目标区域为多个，目标图像也为多个，每个目标图像对应一个目标。因此，当目标图像中包括第一目标的图像时，即可在所述第一目标的图像中提取所述第一目标的图像深度特征。

其中，考虑到传统算法的不足，本发明实施例，增加图像深度特征来刻画目标运动匹配度，即在所述第一目标的图像中提取所述第一目标的图像深度特征。图像深度特征采用10层ResNet网络进行提取，考虑到有些特定领域(如交通标志)的目标较小，特点鲜明，可以采用128维向量来描述图像深度特征。可以理解的是，本发明实施例中，图像深度特征可以不用严格按照上述设置，例如，图像深度特征可以采用更深层(多于10层)的网络进行提取，以及图像深度特征可以是更多维度(多于128维向量)的特征，但增加网络层数以及特征维度都会增加计算量，减少的话又会降低算法性能，当前设置(128维向量)可以在较快的情况下保证相对很好的效果。

402、根据所述第一目标的图像深度特征，对所述视频流各图像帧中的目标进行目标追踪，输出第一目标的检测结果。

本发明实施例中，可以利用目标追踪器对所述视频流各图像帧中的目标进行目标追踪。目标追踪器简称追踪器，追踪器用于在确定目标(包括目标大小与位置)的情况下，预测视频流后续图像帧中该目标的大小与位置，并判断该预测目标与追踪的目标是否匹配，以实现对目标的追踪匹配。每个追踪器可以包含对应目标的图像深度特征以及目标的运动轨迹。

其中，追踪器可以包括目标追踪模型，将目标图像中目标的图像深度特征输入目标追踪模型，即可预测目标图像中对应的目标，并判断该预测目标与追踪的目标是否匹配，实现对目标的追踪匹配。本发明实施例中，目标追踪模型可以是通过卡尔曼滤波器构建的目标运动模型，该目标运动模型可以在视频流中逐帧预测目标的位置，计算检测目标与预测目标位置的重合度，设置合适的阈值判断检测目标与预测目标是否匹配正确。

具体的，本发明实施例中根据所述第一目标的图像深度特征，对所述视频流各图像帧中的目标进行目标追踪，输出第一目标的检测结果可以进一步包括：判断所述关键帧是否为所述视频流中第一个图像帧；若是，则新建第一追踪器，并保存所述第一目标的图像深度特征；利用所述第一追踪器以及所述第一目标的图像深度特征，对所述视频流各图像帧中的第一目标进行目标追踪，输出第一目标的检测结果。

进一步的，所述利用所述第一追踪器以及所述第一目标的图像深度特征，对所述视频流各图像帧中的第一目标进行目标追踪，输出第一目标的检测结果，包括：分别以所述视频流中除所述第一个图像帧之外的图像帧为目标图像帧，利用所述第一追踪器，确定所述目标图像帧中的第二目标；根据所述第一目标的图像深度特征，判断所述第二目标与所述第一目标与是否匹配；若匹配，更新所述第一目标的图像深度特征；在所述视频流中连续预设数量的图像帧中未检测到第一目标时，输出第一目标的检测结果。

本发明实施例中追踪器可以是目标预测模型(目标预测模型可以参照现有技术，此处不作限定)，利用追踪器可以预测目标的位置，因此，本发明实施例中利用所述第一追踪器，可以确定所述目标图像帧中的第二目标，具体的，由于追踪器可以包括目标追踪模型，可以将目标图像帧输入目标追踪模型，预测所述目标图像帧中的第二目标。

其中，根据所述第一目标的图像深度特征，判断所述第二目标与所述第一目标与是否匹配可以包括：利用马氏距离计算所述第二目标与所述第一目标的第一匹配度；根据所述第一目标的图像深度特征，计算所述第二目标与所述第一目标的第二匹配度；根据所述第一匹配度和第二匹配度，计算第二目标和所述第一目标的目标匹配度，根据该目标匹配度，判断所述第二目标与所述第一目标与是否匹配。

需要说明的是，本发明实施例中判断两个目标是否匹配时，实质判断的是所述第二目标的位置信息与所述第一目标的图像与是否匹配，即判断的第一目标的图像与第二目标的图像是否匹配，上述利用所述第一追踪器，确定所述目标图像帧中的第二目标，即确定了第二目标的位置信息。

进一步，根据该目标匹配度，判断所述第二目标与所述第一目标与是否匹配可以是：判断该目标匹配度是否达到预设阈值(如90％)，则确定第二目标与所述第一目标与匹配，反之，若未达到预设阈值，则确定第二目标与第一目标不匹配。

传统的目标匹配算法使用马氏距离来刻画目标匹配程度，具体采用如下公式：

其中，d¹(i,j)是马氏距离，d_j是检测框的位置信息(即本发明实施例中目标图像，对于第一目标来说即为第一目标的图像)，y_i是追踪器预测位置信息(对于第一追踪器来说，即第二目标的位置信息)，是卡尔曼滤波器在当前时刻观测空间的协方差矩阵。

如果单独用图像深度特征来刻画运动匹配度。具体的，可以采用以下公式来刻画匹配程度：

其中，是检测目标的图像深度特征，是包含追踪器保存全部匹配上的检测目标的图像深度特征集合，d²(i,j)会计算当前检测目标与追踪器中图像深度特征中最小的距离，本发明实施例中用来表示匹配程度。

本发明实施例中，将上述两种方式进行融合，采用两种匹配程度融合表示，具体采用如下公式：

d_i，j＝d¹(i,j)+(1-a)d²(i,j)

其中，d_i，j为融合后的匹配度计算公式，a权重系数，取值范围为0～1，推荐取值为0.5。

具体的，将该公式应用到本发明实施例中，即利用马氏距离计算第二目标与第一目标的第一匹配度d¹(i,j)；根据所述第一目标的图像深度特征计算与第一目标的第二匹配度d²(i,j)；根据所述第一匹配度和第二匹配度，计算第二目标和第一目标的目标匹配度d_i，j，当目标匹配度达到预设阈值(如90％)，则确定第二目标与所述第一目标与匹配，反之，若未达到预设阈值，则确定第二目标与第一目标不匹配。

本发明实施例中，对于每个图像帧，若包括n个图像，以及有m个追踪器进行预测，计算得到n个目标图像与m个追踪器的预测目标之间的匹配度后，采用匈牙利算法(Hungarian Algorithm)就可以得到最优的目标匹配结果。

另外，对于视频流中连续预设数量(如5帧)的图像帧中未检测到目标时，则可以认为目标消失，可以将所有存储的目标的图像深度特征做相应的信息整合，输出包含目标的图像的目标检测结果。例如，在所述视频流中连续预设数量的图像帧中未检测到第一目标时，输出第一目标的检测结果。

在本发明实施例中若所述第二目标与所述第一目标不匹配，则表示出现了新的目标，可以新建第二追踪器，并保存所述第二目标的图像深度特征；利用所述第二追踪器和所述第二目标的图像深度特征，对所述视频流各图像帧中的第二目标进行目标追踪，输出第二目标的检测结果。其中，利用所述第二追踪器和所述第二目标的图像深度特征，对所述视频流各图像帧中的第二目标进行目标追踪，输出第二目标的检测结果的具体方式，可以参照上述内容中利用所述第一追踪器和所述第一目标的图像深度特征，对所述视频流各图像帧中的第一目标进行目标追踪，输出第一目标的检测结果的方式，此处不再赘述。

下面结合一个具体场景示意图对本发明实施例进行描述，如图5所示，本发明实施例中采用τ间隔取视频帧检测(即上述每隔预设帧数(例如5帧)在视频流中选择关键帧，以得到目标图像的过程)，并根据最初检测结果帧初始化所有追踪器(tracks)。每个追踪器(track)将包含对应目标的图像深度特征以及运动轨迹，每个track包含运动模型以及目标全部序列帧的图像深度特征并且具有一定的生命周期，每个track存在的帧数达到它的生命周期时，就会被删除并且输出对应的结果。对于每次检测到的目标，需要将已有的追踪器和检测到目标匹配关联起来。首先提取目标的图像深度特征(如CNN特征，即卷积网络特征)以及预测的目标的位置信息，采用匹配算法对检测目标图像与追踪器包含的目标的位置信息作匹配，判断是否为同一目标，如果为同一目标，匹配上的检测目标可认为是追踪器所追踪的目标，并根据新的检测目标信息更新追踪器，并存储目标的图像深度特征，刷新track的生命周期。未匹配上的检测目标即不是同一目标，作为新的目标创新新的追踪器(track)来保存检测信息。当追踪器一直没有检测目标与之匹配上，可以认为目标消失，追踪会对所有存储的检测信息做相应的信息整合，输出清晰可见的包含交通标志位置信息的图像。

为了更好实施本发明实施例中目标检测方法，在目标检测方法基础之上，本发明实施例中还提供一种目标检测装置，该目标检测装置应用于服务器，如图6所示，为本发明实施例中目标检测装置的一个实施例结构示意图，该目标检测装置600包括提取单元601、处理单元602、裁剪单元603和输出单元604，具体的：

提取单元601，用于从视频流中提取关键帧；

处理单元602，用于将所述关键帧由当前第一分辨率调整为第二分辨率，得到调整后图像；

裁剪单元603，用于根据所述调整后图像对所述关键帧的目标区域进行图像裁剪，得到目标图像；

输出单元604，用于根据所述目标图像，对所述视频流中各图像帧进行目标追踪，输出目标检测结果。

在本申请一些实施例中，所述裁剪单元603具体用于：

确定所述调整后图像中的目标区域；

在本申请一些实施例中，所述输出单元604具体用于：

判断所述关键帧是否为所述视频流中第一个图像帧；

在本申请一些实施例中，所述输出单元604具体用于：

若匹配，更新所述第一目标的图像深度特征；

在本申请一些实施例中，所述输出单元具体还用于：

在本申请一些实施例中，所述输出单元604具体还用于：

本发明实施例通过提取单元601从视频流中提取关键帧；处理单元602将所述关键帧由当前第一分辨率调整为第二分辨率，得到调整后图像；裁剪单元603根据调整后图像对关键帧的目标区域进行图像裁剪，得到目标图像；输出单元604根据目标图像，对视频流中关键帧进行目标追踪，输出目标检测结果。本发明实施例中在现有技术将视频逐帧拆分为图片处理的基础上，增加对图片进行低分率处理及图像裁剪的阶段，在对关键帧进行低分辨率处理及图像裁剪后，可以大大降低参与后续计算的图像像素数量，提高了目标检测的速度，同时由于图像裁剪处理，使得后续参与目标检测的图像更加专注于目标区域的检测，提高了目标检测的准确度。

本发明实施例还提供一种电子设备，其集成了本发明实施例所提供的任一种目标检测装置，所述电子设备包括：

一个或多个处理器；

存储器；以及

一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并配置为由所述处理器执行上述目标检测方法实施例中任一实施例中所述的目标检测方法中的步骤。

本发明实施例还提供一种电子设备，其集成了本发明实施例所提供的任一种目标检测装置。如图7所示，其示出了本发明实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器701、一个或一个以上计算机可读存储介质的存储器702、电源703和输入单元704等部件。本领域技术人员可以理解，图7中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器701是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器702内的软件程序和/或模块，以及调用存储在存储器702内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器701可包括一个或多个处理核心；优选的，处理器701可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器701中。

存储器702可用于存储软件程序以及模块，处理器701通过运行存储在存储器702的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器702可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器702可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器702还可以包括存储器控制器，以提供处理器701对存储器702的访问。

电子设备还包括给各个部件供电的电源703，优选的，电源703可以通过电源管理系统与处理器701逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源703还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元704，该输入单元704可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器701会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器702中，并由处理器701来运行存储在存储器702中的应用程序，从而实现各种功能，如下：

从视频流中提取关键帧；

将所述关键帧由当前第一分辨率调整为第二分辨率，得到调整后图像；

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种计算机可读存储介质，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，RandomAccess Memory)、磁盘或光盘等。其上存储有计算机程序，所述计算机程序被处理器进行加载，以执行本发明实施例所提供的任一种目标检测方法中的步骤。例如，所述计算机程序被处理器进行加载可以执行如下步骤：

从视频流中提取关键帧；

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对其他实施例的详细描述，此处不再赘述。

具体实施时，以上各个单元或结构可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元或结构的具体实施可参见前面的方法实施例，在此不再赘述。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种目标检测方法、装置、电子设备及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种目标检测方法，其特征在于，所述目标检测方法包括：

从视频流中提取关键帧；

2.根据权利要求1所述的目标检测方法，其特征在于，所述根据所述调整后图像对所述关键帧的目标区域进行图像裁剪，得到目标图像，包括：

确定所述调整后图像中的目标区域；

3.根据权利要求1所述的目标检测方法，其特征在于，所述根据所述目标图像，对所述视频流中各图像帧进行目标追踪，输出目标检测结果，包括：

4.根据权利要求3所述的目标检测方法，其特征在于，所述根据所述第一目标的图像深度特征，对所述视频流各图像帧中的目标进行目标追踪，输出第一目标的检测结果，包括：

判断所述关键帧是否为所述视频流中第一个图像帧；

5.根据权利要求4所述的目标检测方法，其特征在于，所述利用所述第一追踪器以及所述第一目标的图像深度特征，对所述视频流各图像帧中的第一目标进行目标追踪，输出第一目标的检测结果，包括：

若匹配，更新所述第一目标的图像深度特征；

6.根据权利要求5所述的目标检测方法，其特征在于，所述根据所述第一目标的图像深度特征，判断所述第二目标与所述第一目标与是否匹配，包括：

7.根据权利要求5所述的目标检测方法，其特征在于，所述方法还包括：

8.一种目标检测装置，其特征在于，所述目标检测装置包括：

提取单元，用于从视频流中提取关键帧；

9.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储器；以及

一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并配置为由所述处理器执行以实现权利要求1至7中任一项所述的目标检测方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器进行加载，以执行权利要求1至7任一项所述的目标检测方法中的步骤。