CN111696134B

CN111696134B - 一种目标检测方法、装置以及电子设备

Info

Publication number: CN111696134B
Application number: CN202010494374.9A
Authority: CN
Inventors: 李映辉
Original assignee: Apollo Intelligent Connectivity Beijing Technology Co Ltd
Current assignee: Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2023-05-23
Anticipated expiration: 2040-06-03
Also published as: CN111696134A

Abstract

本申请公开了一种目标检测方法、装置以及电子设备，涉及计算机视觉技术领域。具体实现方案为：在采集的第i帧图像满足预设目标检测条件的情况下，采用深度学习算法对第i帧图像进行目标检测，获得第i帧图像的第一目标检测结果；利用目标跟踪算法，基于第一目标检测结果对第i帧图像的后续的M帧图像进行目标跟踪，得到M帧图像中每一帧图像的第二目标检测结果。在采集的第i帧图像满足预设目标检测条件的情况下，方可采用深度学习算法对第i帧图像进行目标检测，通过引入目标跟踪算法，对第i帧图像后续的M帧图像进行目标跟踪实现对M帧图像的目标检测，可减少利用深度学习算法进行目标检测的情况，减少计算量，从而可减少功耗。

Description

一种目标检测方法、装置以及电子设备

技术领域

本申请涉及计算机技术中的计算机视觉技术领域，尤其涉及一种目标检测方法、装置以及电子设备。

背景技术

目前目标检测已应用到各个领域中，例如，在路面上进行车辆的检测等。

现在常用的目标检测方法是，使用深度学习算法逐帧检测，即对每一帧采用深度学习算法进行目标检测，计算量较大，即在目标检测过程中，功耗较大。

发明内容

本申请提供一种目标检测方法、装置和电子设备，以解决目标检测过程中功耗较大的问题。

第一方面，本申请一个实施例提供一种目标检测方法，包括：

在采集的第i帧图像满足预设目标检测条件的情况下，采用深度学习算法对所述第i帧图像进行目标检测，获得所述第i帧图像的第一目标检测结果，所述i为正整数；

利用目标跟踪算法，基于所述第一目标检测结果对所述第i帧图像的后续的M帧图像进行目标跟踪，得到所述M帧图像中每一帧图像的第二目标检测结果，所述M为正整数。

本申请实施例的目标检测方法中，无需采用深度学习算法对采集的每一帧进行检测，而是需要采集的图像满足预设目标检测条件的情况下方可采用深度学习算法进行检测，即在采集的第i帧图像满足预设目标检测条件的情况下，方可采用深度学习算法对第i帧图像进行目标检测，获得第i帧图像的第一目标检测结果，而第i帧图像后续的M帧图像是通过目标跟踪算法依据第i帧图像的第一目标检测结果进行目标跟踪，得到M帧图像中每一帧图像的第二目标检测结果，实现对采集的图像的目标检测。如此，在采集的第i帧图像满足预设目标检测条件的情况下，方可采用深度学习算法对第i帧图像进行目标检测，通过引入目标跟踪算法，对第i帧图像后续的M帧图像进行目标跟踪实现对M帧图像的目标检测，可减少利用深度学习算法进行目标检测的情况，减少在目标检测过程中的计算量，从而可减少目标检测的功耗。

第二方面，本申请一个实施例提供一种目标检测装置，所述装置包括：

第一检测模块，用于在采集的第i帧图像满足预设目标检测条件的情况下，采用深度学习算法对所述第i帧图像进行目标检测，获得所述第i帧图像的第一目标检测结果，所述i为正整数；

第二检测模块，用于利用目标跟踪算法，基于所述第一目标检测结果对所述第i帧图像的后续的M帧图像进行目标跟踪，得到所述M帧图像中每一帧图像的第二目标检测结果，所述M为正整数。

利用本申请实施例的目标检测装置在进行目标检测过程中，无需采用深度学习算法对采集的每一帧进行检测，而是需要采集的图像满足预设目标检测条件的情况下方可采用深度学习算法进行检测，即在采集的第i帧图像满足预设目标检测条件的情况下，方可采用深度学习算法对第i帧图像进行目标检测，获得第i帧图像的第一目标检测结果，而第i帧图像后续的M帧图像是通过目标跟踪算法依据第i帧图像的第一目标检测结果进行目标跟踪，得到M帧图像中每一帧图像的第二目标检测结果，实现对采集的图像的目标检测。如此，在采集的第i帧图像满足预设目标检测条件的情况下，方可采用深度学习算法对第i帧图像进行目标检测，通过引入目标跟踪算法，对第i帧图像后续的M帧图像进行目标跟踪实现对M帧图像的目标检测，可减少利用深度学习算法进行目标检测的情况，减少在目标检测过程中的计算量，从而可减少目标检测的功耗。

第三方面，本申请一个实施例还提供一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请各实施例提供的方法。

第四方面，本申请一个实施例还提供一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本申请各实施例提供的方法。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请提供的一个实施例的目标检测方法的流程示意图之一；

图2是本申请提供的一个实施例的问目标检测方法的流程示意图之二；

图3是用来实现本申请实施例的目标检测方法的目标检测系统的示意图；

图4是本申请提供的一个实施例的目标检测装置的结构图；

图5是用来实现本申请实施例的目标检测方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

如图1所示，根据本申请的实施例，本申请提供一种目标检测方法，可应用于电子设备，包括：

步骤S101：在采集的第i帧图像满足预设目标检测条件的情况下，采用深度学习算法对第i帧图像进行目标检测，获得第i帧图像的第一目标检测结果。

深度学习为机器学习的一种，是一类模式分析方法的统称，例如，典型的深度学习算法有卷积神经网络(convolutional neural network)、深度置信网络(Deep BeliefNetwork，简称DBN)和堆栈自编码网络(stacked auto-encoder network)算法等，即深度学习算法有多种，在本申请实施例中，对此不作限定。

其中，i为正整数。第i帧图像为采集的图像中的一帧图像，i可以取1，2，……，n，1≤i≤n，n为摄像头采集的图像的总数量。可以理解，采集的任意一帧图像一旦满足预设目标检测条件，则可通过深度学习算法对该帧图像进行目标检测，获得该帧图像的第一目标检测结果。即可对采集的图像的每一帧进行预设目标检测条件的判断，只要满足预设目标检测条件，则对该帧图像通过深度学习算法进行目标检测，直到停止采集图像等。需要说明的是，若第i帧图像不满足预设目标检测条件，则不对第i帧图像通过深度学习算法进行目标检测。作为一个示例，可通过摄像头采集图像，即上述采集的第i帧图像可以为摄像头采集的第i帧图像，其中，摄像头可以为电子设备上的摄像头。

步骤S102：利用目标跟踪算法，基于第一目标检测结果对第i帧图像的后续的M帧图像进行目标跟踪，得到M帧图像中每一帧图像的第二目标检测结果。

其中，M为正整数。第i帧图像的后续的M帧图像，即为在第i帧图像之后采集的M帧图像，采集时间在第i帧图像的采集时间之后。在得到第i帧图像的第一目标检测结果后，将其作为目标跟踪算法的依据，即可通过目标跟踪算法，基于第一目标检测结果对第i帧图像的后续采集的M帧图像(例如，后续摄像头采集的M帧图像)进行目标跟踪，M帧图像中的每一帧图像分别有对应的第二目标检测结果，实现目标检测。作为一个示例，M帧图像为连续的M帧图像，即利用深度学习算法进行一次目标检测后，对后续连续的M帧图像中的每一帧进行目标跟踪，如此，可得到M帧图像的每一帧图像的第二目标检测结果。目标跟踪算法有多种，在本申请实施例中，对此不作限定。需要说明的是，目标跟踪算法的单次计算量小于深度学习算法的单次计算量。使用跟踪算法对目标进行跟踪，能够提高检测帧率，提升检测结果的稳定性，同时可减少深度学习算法对系统资源的高消耗。

本申请实施例的目标检测方法中，无需采用深度学习算法对采集的每一帧进行检测，而是需要采集的图像满足预设目标检测条件的情况下方可采用深度学习算法进行检测，即在采集的第i帧图像满足预设目标检测条件的情况下，方可采用深度学习算法对第i帧图像进行目标检测，获得第i帧图像的第一目标检测结果，而第i帧图像后续的M帧图像是通过目标跟踪算法依据第i帧图像的第一目标检测结果进行目标跟踪，得到M帧图像中每一帧图像的第二目标检测结果，实现对采集的图像的目标检测。如此，在采集的第i帧图像满足预设目标检测条件的情况下，方可采用深度学习算法对第i帧图像进行目标检测，通过引入目标跟踪算法，对第i帧图像后续的M帧图像进行目标跟踪实现对M帧图像的目标检测，可减少利用深度学习算法进行目标检测的情况，减少在目标检测过程中的计算量，从而可减少目标检测的功耗。与此同时，也可提高目标检测效率。

在一个示例中，为避免集中利用CPU(中央处理器)或GPU(图形处理器)进行检测导致硬件资源利用不充分以及集中在一个元件上进行检测容易导致检测效率较差的问题，由于深度学习算法功耗较大，可在GPU上运行深度学习算法，目标跟踪算法功耗相对较小，在CPU上运行目标跟踪算法，即将深度学习算法和目标跟踪算法运行在不同元件中运行，充分利用系统资源，且深度学习算法和目标跟踪算法可同时运行。

在一个实施例中，预设目标检测条件可以包括：

第i帧图像与第一目标帧图像之间的帧数量为预设帧间隔数；

或者，第i帧图像的采集时间与第一目标帧图像的采集时间之间的时间差大于预设间隔时长。

其中，第一目标帧图像为在采集第i帧图像之前最近一次通过深度学习算法进行目标检测的帧图像；

其中，M为预设帧间隔数，或者，M帧图像包括在第i帧图像的采集时间之后的预设间隔时长内采集的帧图像以及经过预设间隔时长后第一次采集的帧图像。

第i帧图像与第一目标帧图像之间的帧数量可以理解为第i帧图像与第一目标帧图像相差或间隔的帧数量，即第i帧图像与第一目标帧图像的帧间隔数量。例如，第一目标帧图像为第11帧图像，i为1，则间隔的帧数量为10帧。在本实施例中，可以按照预设帧间隔数，间隔通过深度学习算法进行目标检测，第i帧图像与之前最近一次通过深度学习算法进行目标检测的帧图像即第一目标帧图像间隔了预设帧间隔数，则可对第i帧图像通过深度学习算法进行目标检测。其中，M为预设帧间隔数，在这种情况下，第i帧图像的后续的M帧图像为在第i帧图像的采集时间之后采集的预设帧间隔数帧图像。

需要说明的是，上述最近一次可以理解为距离第i帧图像的采集时间最近的一次，即在采集第i帧图像之前最近一次通过深度学习算法进行目标检测的帧图像，可以理解为在采集第i帧图像之前通过深度学习算法完成目标检测的帧图像中采集时间与第i帧图像的采集时间最近的帧图像，由于通过深度学习算法进行目标检测的顺序按照帧图像的采集时间的先后顺序，从而，在采集第i帧图像之前最近一次通过深度学习算法进行目标检测的帧图像，也可以理解为，在采集第i帧图像之前通过深度学习算法完成目标检测的帧图像中目标检测的时间与第i帧图像的采集时间最近的帧图像，在采集第i帧图像之前第一目标帧图像进行目标检测的时间或第一目标帧图像的采集时间距离第i帧图像的采集时间最近。举例说明，在采集第i帧图像之前，对S(大于1的整数)帧图像通过深度学习算法进行了目标检测，则S帧图像中最晚采集的帧图像或最晚进行目标检测的帧图像与第i帧图像的采集时间最近，即为采集第i帧图像之前最近一次通过深度学习算法进行目标检测的帧图像。

例如，预设间隔帧数为10，i为1，对第1帧通过深度学习算法进行目标检测，第1帧图像的后续的M帧图像为在第1帧图像之后采集的10帧图像，需要对这10帧图像通过目标跟踪算法进行目标跟踪，实现对其的目标检测。其中，采集到上述10帧图像中的最后一帧(即10帧中采集时间最晚的一帧，第11帧图像)后，由于第11帧与该第11帧之前最近一次通过深度学习算法进行目标检测的帧图像(即第1帧)间隔了预设间隔帧数，即间隔了10帧，本次是对第1帧通过深度学习算法进行目标检测，则第11帧即是下一次通过深度学习算法进行目标检测的一帧图像，而且，对于第11帧，为第1帧后续的10帧图像中的一帧，也进行了目标跟踪，有其对应的第二目标检测结果，即第11帧既通过深度学习算法进行目标检测，又可在第1帧图像利用深度学习算法进行目标检测后通过目标跟踪算法进行目标跟踪。需要说明的是，上述预设目标检测条件或者也可以包括第i帧图像为第1帧图像，即对于第1帧图像，没有对应的第一目标图像，通过深度学习算法进行目标检测即可。

另外，也可以按照预设间隔时长，间隔通过深度学习算法进行目标检测，第i帧图像与之前最近一次通过深度学习算法进行目标检测的帧图像即第一目标帧图像间隔了预设间隔时长，则可对第i帧图像通过深度学习算法进行目标检测。在这种情况下，M帧图像包括在第i帧图像的采集时间之后的预设间隔时长内采集的帧图像以及经过预设间隔时长后第一次采集的帧图像。

例如，预设间隔时长为1秒，i为1，对第1帧通过深度学习算法进行目标检测，第1帧图像的后续的M帧图像包括在第1帧图像的采集时间之后的1秒内采集的帧图像以及以在第i帧图像的采集时间为起点经过1秒后最先采集的帧图像，例如，M帧图像包括30帧图像，需要对这30帧图像通过目标跟踪算法进行目标跟踪，实现对其的目标检测。其中，采集到上述30帧图像中的最后一帧(即30帧中采集时间最晚的一帧，第31帧图像)后，由于第31帧图像的采集时间与该第31帧图像之前最近一次通过深度学习算法进行目标检测的帧图像(即第1帧)的采集时间的时间差大于预设间隔时长，即大于1秒，本次是对第1帧通过深度学习算法进行目标检测，则第31帧即是下一次通过深度学习算法进行目标检测的一帧图像，而且，对于第31帧，为第1帧后续的30帧图像中的一帧，也进行了目标跟踪，有其对应的第二目标检测结果，即第31帧既通过深度学习算法进行目标检测，又可在第1帧图像利用深度学习算法进行目标检测后通过目标跟踪算法进行目标跟踪。

即在本实施例中，可在第i帧图像与第一目标帧图像之间的帧数量为预设帧间隔数，或者，第i帧图像的采集时间与第一目标帧图像的采集时间之间的时间差大于预设间隔时长的情况下，方可对第i帧图像通过深度学习算法进行目标检测，第i帧图像后续的M帧图像通过引入目标跟踪算法进行目标跟踪，实现对其的目标检测，无需对每一帧通过深度学习算法进行目标检测，减少计算量，从而减少目标检测的功耗。

在一个实施例中，在采集的第i帧图像满足预设目标检测条件的情况下，采用深度学习算法对第i帧图像进行目标检测，获得第i帧图像的第一目标检测结果之后，还包括：若第i帧图像为采用深度学习算法完成目标检测，且通过跟踪算法完成目标跟踪的帧图像，则确定第i帧图像的第一目标检测结果中的第一目标以及第i帧图像的第二目标检测结果中的第二目标，第一目标与第二目标在第i帧图像中的距离小于预设距离；对第一目标进行特征提取，获得第一特征数据，并对第二目标进行特征提取，获得第二特征数据；基于第一特征数据与第二特征数据，计算第一目标和第二目标之间的相似度；在相似度大于预设相似度的情况下，将第i帧图像的第二目标保存至预设目标集合中。

获得第i帧图像之后，采用深度学习算法对第i帧图像进行目标检测，获得第i帧图像的第一目标检测结果之前，采集的图像中若包括第一目标图像，即若在采集第i帧图像之前有通过深度学习算法完成目标检测的帧图像，则第i帧图像可能落入第一目标图像后续的M帧图像中，则获得第i帧图像后会对第i帧图像进行目标跟踪，得到第i帧图像对应的第二目标检测结果，作为一个示例，可利用目标跟踪算法，基于所述第一目标图像的第一目标检测结果对第i帧图像(包含在第一目标图像的后续的M帧图像中)进行目标跟踪得到第i帧图像的第二目标检测结果。如此，在采集的第i帧图像满足预设目标检测条件的情况下，采用深度学习算法对第i帧图像进行目标检测，获得第i帧图像的第一目标检测结果之后，可确定第i帧图像采用深度学习算法完成了目标检测，还需对其是否已经完成目标跟踪进行判断，若第i帧图像采用深度学习算法已完成目标检测，且通过跟踪算法已完成目标跟踪的帧图像，这种情况，第i帧图像落入了第一目标图像后续的M帧图像中，第i帧图像既通过深度学习算法完成了目标检测得到对应的第一目标检测结果，又通过目标跟踪算法完成了目标跟踪得到对应的第二目标检测结果，第i帧图像的第一目标检测结果中可能包括多个第一检测目标，多个第一检测目标包括第一目标，即通过深度学习算法检测到多个目标，第i帧图像的第二目标检测结果中可能包括多个第二检测目标，多个第二检测目标包括第二目标，即通过深度学习算法在第i帧图像中跟踪到多个目标，由于距离越近的目标为同一目标的可能性越大，如此，可先确定第i帧图像的第一目标检测结果与第i帧图像的第二目标检测结果中的距离相近(即距离小于预设距离)的目标，即第一目标与第二目标。需要说明的是，第一目标与第二目标之间的小于预设距离，表示通过深度学习算法检测到的第一目标与通过目标跟踪算法对第i帧图像跟踪到的第二目标之间的距离相近，即在同一帧图像中通过不同算法得到的目标之间的距离相近，为同一目标的可能性较大，排除第i帧图像的第一目标检测结果与第二目标检测结果之间距离大于或等于预设距离的目标，对距离小于预设距离的第一目标和第二目标进行后续进一步的相似度判断，在所述相似度大于预设相似度的情况下，认为第一目标与第二目标为同一目标，将所述第i帧图像的第二目标保存至预设目标集合中即可。如此，不但可减少计算量，而且通过距离和相似度双重判断，可提高保存至预设目标集合中目标的准确性。

在确定第一目标和第二目标之后，可分别进行特征提取，得到第一特征数据和第二特征数据。图像的特征多种多样，在本申请实施例中，对此不作限定，例如，进行特征提取过程中，可进行HOG特征、灰度特征和梯度特征中至少一个特征的提取。然后根据第一特征数据与第二特征数据，计算第一目标和第二目标之间的相似度，相似度可表征第一目标和第二目标之间的相关性。相似度越大，表示为同一目标的可能性越大，在相似度大于预设相似度(例如，0.95等)的情况下，确定第一目标和第二目标为同一目标，可将第i帧图像的第二目标保存至预设目标集合中，即保留通过目标跟踪算法跟踪到的第二目标。需要说明的是，第一目标可以为多个，第二目标可以为多个，第一目标和第二目标对应，则计算第一目标和对应的第二目标之间的相似度。

在本实施例中，对于既采用所述深度学习算法完成目标检测得到第一目标检测结果，又通过跟踪算法完成目标跟踪得到第二目标检测结果的第i帧图像，可对第一目标检测结果和第二目标检测结果中相近的第一目标和第二目标进行融合，即第一目标和所述第二目标之间的相似度大于预设相似度的情况下，可将第一目标和第二目标进行融合，融合后的结果为第二目标，将第i帧图像的第二目标保存至预设目标集合中即可。不但可节省存储空间，而且可便于后续对目标的调用等。

在一个示例中，上述第一目标可以理解为第一目标坐标，第二目标可以理解为第二目标坐标。在一个示例中，还可将第i帧图像的第二目标的特征保存至预设目标集合中。例如，第二目标的特征可以包括第二目标的HOG特征、第二目标的灰度特征和第二目标的梯度特征中至少一个特征。

在一个实施例中，采用深度学习算法对第i帧图像进行目标检测，获得第i帧图像的第一目标检测结果，包括：对第i帧图像进行灭点检测，获得第i帧图像的灭点位置；基于灭点位置，从第i帧图像截取目标区域，目标区域中包括灭点位置；采用深度学习算法对第i帧图像中目标区域进行目标检测，获得第一目标检测结果。请参阅图2，即在本实施例中，提供一种目标检测方法，该方法可应用电子设备，该方法包括：

S201：在采集的第i帧图像满足预设目标检测条件的情况下，对第i帧图像进行灭点检测，获得第i帧图像的灭点位置。

i为正整数。在透视投影中，一束平行于投影面的平行线的投影可以保持平行，而不平行于投影面的平行线的投影会聚集到一个点，这个点称为灭点(Vanishing Point)。灭点可以看作是无限远处的一点在投影面上的投影。目前，灭点检测算法有多种，在此不作限定。例如，可检测第i帧图像中的平行线段，通过平行线段拟合得到第i帧图像的灭点位置。

S202：基于灭点位置，从第i帧图像截取目标区域，目标区域中包括灭点位置。

灭点检测完毕后，即可根据灭点位置从第i帧图像截取目标区域。截取后的目标区域中是包括灭点位置。作为一个示例，所述目标区域的中心位置为所述灭点位置。

S203：采用深度学习算法对第i帧图像中目标区域进行目标检测，获得第一目标检测结果。

然后采用深度学习算法对截取的目标区域进行目标检测，实现对第i帧图像的目标检测获得第一目标检测结果。

S204：利用目标跟踪算法，基于第一目标检测结果对第i帧图像的后续的M帧图像进行目标跟踪，得到M帧图像中每一帧图像的第二目标检测结果。

其中，M为正整数。上述步骤S204与上述步骤S102对应，在此不再赘述。

即在本实施例中，将灭点检测引入到目标检测过程中，基于通过灭点检测得到的灭点位置从第i帧图像中截取目标区域，可确定第i图像的有效范围，对目标区域通过深度学习算法进行目标检测，提高目标检测效果。

在一个实施例中，从第i帧图像截取目标区域，包括：从循环队列中选取目标尺度比例，其中，循环队列中包括N个预设尺度比例，N为大于1的整数，目标尺度比例为循环队列的N个预设尺度比例中第一尺度比例之后的第一个尺度比例，第一尺度比例为对第一目标帧图像截取目标区域时采用的尺度比例，第一目标帧图像为在采集第i帧图像之前最近一次通过深度学习算法进行目标检测的帧图像；利用目标尺度比例以及灭点位置，从第i帧图像截取目标区域，其中，目标区域的大小与目标尺度比例乘以第i帧图像的大小的结果相同。

循环队列是把顺序队列首尾相连，把存储队列元素的表从逻辑上看成一个环，成为循环队列。在本实施例中，N个预设尺度比例形成一个环，可以看作是收尾相接的圆环，形成循环队列。对于N个预设尺度比例，第j个预设尺度比例之后的预设尺度比例为第j+1个预设尺度比例，j为正整数，j小于或等于N-1，第N个预设尺度比例之后的预设尺度比例为第1个预设尺度比例，如此，形成预设尺度比例圆环，即循环队列。在本实施例中，对第i帧图像截取目标区域的过程中，首先需要选取目标尺度比例，根据灭点位置从第i帧图像中截取第i帧图像的大小的目标尺度比例倍大小的目标区域。而选取的目标尺度比例与在采集第i帧图像之前最近一次通过深度学习算法进行目标检测的帧图像截取目标区域时选取的目标尺度比例有关，可以理解，在选取目标尺度比例过程中，是从N个预设尺度比例中循环选取，例如，N为4，4个预设尺度比例为1、3/4、2/4和1/4，则相邻通过深度学习算法进行目标检测的4帧图像，分别是从4个预设尺度比例中选取不同的目标尺度比例进行截取，且对于通过深度算法进行目标检测的当前帧图像，选取的目标尺度比例，前一帧图像通过深度算法进行目标检测时选取的尺度比例之后的第一个尺度比例，例如，上述4帧图像中采集时间最先的帧图像选取的目标尺度比例是1，采集时间排第二的帧图像选取的是3/4，采集时间排第三的帧图像选取的是2/4，采集时间排最后的帧图像选取的是1/4，一次循环完毕。对于上述4帧图像之后最先将通过深度学习算法进行目标检测的帧图像，例如，为帧图像A，则重新从4个预设尺度比例中选取，由于通过深度学习算法进行目标检测的前一帧图像选取的是1/4，则该帧图像A重新选取1为目标尺度比例，依次类推，针对满足预设目标检测条件的帧图像进行目标尺度比例的选取。需要说明的是，第一个将过深度学习算法进行目标检测算法的帧图像，对应选取的目标尺度比例可以为N个预设尺度比例中的第1个预设尺度比例。其中，N个预设尺度比例可预先根据P和T确定，例如，N个预设尺度比例可以包括P/T、P-1/T、……、1/T，N与P相同，P和T均为用于进行尺度比例划分的参数，且P和T均为常数，P和T可预先根据预测的目标大小以及目标可能出现的范围确定，例如，作为一个示例，P和T可以相同等。举例说明，P和T均可以为4。

即在本实施例中，随着图像的采集，对于不同的帧图像，可从N个预设尺度比例中选取目标尺度比例，第i帧图像的目标尺度比例为循环队列的N个预设尺度比例中第一尺度比例(在采集第i帧图像之前最近一次通过深度学习算法进行目标检测的帧图像选取的尺度比例)之后的第一个尺度比例，即相邻通过深度学习算法进行目标检测的两帧图像选取的目标尺度比例不同，如此，对于需要通过深度学习算法进行目标检测的N帧图像，可输入不同尺度大小的目标区域至深度学习算法进行目标检测，为实现小目标的检测，无需高分辨率帧图像的输入，减少计算量，降低功耗，而且可检测不同远近以及不同大小的目标，提高目标检测效率。

在一个示例中，在第i帧图像不满足预设目标检测条件的情况下，不对其采用深度学习算法进行目标检测，但若第i帧图像为通过所述跟踪算法完成目标跟踪的帧图像，即对第i帧图像已完成目标跟踪得到第二目标检测结果，可将第二检测结果保存至预设目标集中，便于后续调用等。在一个示例中，还可将第i帧图像的第二目标检测结果中每个第二检测目标的特征保存至预设目标集合中。例如，第二检测目标的特征可以包括第第二检测目标的HOG特征、第二检测目标的灰度特征和第二检测目标的梯度特征中至少一个特征。

在一个示例中，在采集的第i帧图像满足预设目标检测条件的情况下，采用深度学习算法对第i帧图像进行目标检测，获得第i帧图像的第一目标检测结果之后，若对第i帧图像未进行目标跟踪，则将第i图像的第一目标检测结果保存至预设目标集中，以便后续调用。在一个示例中，还可将第i帧图像的第一目标检测结果中每个第一检测目标的特征保存至预设目标集合中。例如，第一检测目标的特征可以包括第第一检测目标的HOG特征、第一检测目标的灰度特征和第一检测目标的梯度特征中至少一个特征。

下面以一个具体实施例对上述方法的过程加以具体说明，以按照预设帧间隔数，间隔通过深度学习算法进行目标检测，预设帧间隔数为10，N为4，N个预设尺度比例包括1、3/4、2/4和1/4为例进行说明。

如图3所示，为实现上述目标检测方法的目标检测系统，包括摄像头、灭点检测模块、目标跟踪模块、深度学习模块以及目标融合模块，摄像头分别与灭点检测模块、深度学习模块以及目标跟踪模块连接，目标融合模块分别与深度学习模块以及目标跟踪模块连接，灭点检测模块与深度学习模块连接，另外，灭点检测模块也可与目标跟踪模块连接。

系统启动后，开启摄像头，摄像头开始采集图像，灭点检测模块可通过摄像头采集的图像进行灭点检测获得帧图像的灭点位置，并将帧图像的灭点位置传递给深度学习模块以及目标跟踪模块。深度学习模块按照给定的预设帧间隔数使用深度学习算法进行目标检测，将得到的第一目标检测结果传递给目标哦融合模块。深度学习算法的输入图像按照以下方式循环选取：P/T、P-1/T、……、1/T。

目标跟踪模块对摄像头采集的每一帧图像(除采集的第1帧图像之外)，使用目标跟踪算法进行目标跟踪，获得每一帧图像的第二目标检测结果，并传输给目标融合模块。

目标融合模块对深度学习模块及目标跟踪模块的检测结果进行融合，即对于既通过深度学习算法完成目标检测，且通过目标跟踪算法完成目标跟踪的目标帧图像，可对目标帧图像的第一目标检测结果和第二检测结果中位置相近的第一目标和第二目标，提取HOG特征，计算其相关性，例如，相似度，在相似度满足给定条件的情况下，例如相似度大于预设相速度的情况下，确定第一目标和第二目标为同一目标，进行融合，将第二目标保留在预设目标集合中。

请参考图4，本申请提供一种实施例的目标检测装置400，可应用于电子设备，该装置400包括：

第一检测模块401，用于在采集的第i帧图像满足预设目标检测条件的情况下，采用深度学习算法对第i帧图像进行目标检测，获得第i帧图像的第一目标检测结果，i为正整数；

第二检测模块402，用于利用目标跟踪算法，基于第一目标检测结果对第i帧图像的后续的M帧图像进行目标跟踪，得到M帧图像中每一帧图像的第二目标检测结果，M为正整数。

在一个实施例中，预设目标检测条件包括：

第i帧图像与第一目标帧图像之间的帧数量为预设帧间隔数；

或者，第i帧图像的采集时间与第一目标帧图像的采集时间之间的时间差大于预设间隔时长；

在一个实施例中，该装置还包括：

确定模块，用于若第i帧图像为采用深度学习算法完成目标检测，且通过跟踪算法完成目标跟踪的帧图像，则确定第i帧图像的第一目标检测结果中的第一目标以及第i帧图像的第二目标检测结果中的第二目标，第一目标与第二目标在第i帧图像中的距离小于预设距离；

特征提取模块，用于对第一目标进行特征提取，获得第一特征数据，并对第二目标进行特征提取，获得第二特征数据；

相似度计算模块，用于基于第一特征数据与第二特征数据，计算第一目标和第二目标之间的相似度；

保存模块，用于在相似度大于预设相似度的情况下，将第i帧图像的第二目标保存至预设目标集合中。

在一个实施例中，第一检测模块，包括：

灭点检测模块，用于对第i帧图像进行灭点检测，获得第i帧图像的灭点位置；

图像截取模块，用于基于灭点位置，从第i帧图像截取目标区域，目标区域中包括灭点位置；

目标检测模块，用于采用深度学习算法对第i帧图像中目标区域进行目标检测，获得第一目标检测结果。

在一个实施例中，图像截取模块，包括：

选取模块，用于从循环队列中选取目标尺度比例，其中，循环队列中包括N个预设尺度比例，N为大于1的整数，目标尺度比例为循环队列的N个预设尺度比例中第一尺度比例之后的第一个尺度比例，第一尺度比例为对第一目标帧图像截取目标区域时采用的尺度比例，第一目标帧图像为在采集第i帧图像之前最近一次通过深度学习算法进行目标检测的帧图像；

截取子模块，用于利用目标尺度比例以及灭点位置，从第i帧图像截取目标区域，其中，目标区域的大小与目标尺度比例乘以第i帧图像的大小的结果相同。

上述各实施例的目标检测装置为实现上述各实施例的目标检测方法的装置，技术特征对应，技术效果对应，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图5所示，是根据本申请实施例的目标检测方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图5所示，该电子设备包括：一个或多个处理器501、存储器502，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUM的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。

存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的目标检测方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的目标检测方法。

存储器502作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的目标检测方法对应的程序指令/模块(例如，附图4所示的第一检测模块401、第二检测模块402)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的目标检测方法。

存储器502可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据键盘显示的电子设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器502可选包括相对于处理器501远程设置的存储器，这些远程存储器可以通过网络连接至键盘显示的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

目标检测方法的电子设备还可以包括：输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接，图5中以通过总线连接为例。

输入装置503可接收输入的数字或字符信息，以及产生与键盘显示的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASMC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，在采集的第i帧图像满足预设目标检测条件的情况下，方可采用深度学习算法对第i帧图像进行目标检测，通过引入目标跟踪算法，对第i帧图像后续的M帧图像进行目标跟踪实现对M帧图像的目标检测，可减少利用深度学习算法进行目标检测的情况，从而可减少在目标检测过程中的计算量，减少目标检测的功耗。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种目标检测方法，其特征在于，所述方法包括：

利用目标跟踪算法，基于所述第一目标检测结果对所述第i帧图像的后续的M帧图像进行目标跟踪，得到所述M帧图像中每一帧图像的第二目标检测结果，所述M为正整数；

所述在采集的第i帧图像满足预设目标检测条件的情况下，采用深度学习算法对所述第i帧图像进行目标检测，获得所述第i帧图像的第一目标检测结果之后，还包括：

若所述第i帧图像为采用所述深度学习算法完成目标检测，且通过所述跟踪算法完成目标跟踪的帧图像，则确定第i帧图像的第一目标检测结果中的第一目标以及所述第i帧图像的第二目标检测结果中的第二目标，所述第一目标与所述第二目标在所述第i帧图像中的距离小于预设距离；

对所述第一目标进行特征提取，获得第一特征数据，并对所述第二目标进行特征提取，获得第二特征数据；

基于所述第一特征数据与所述第二特征数据，计算所述第一目标和所述第二目标之间的相似度；

在所述相似度大于预设相似度的情况下，将所述第i帧图像的第二目标保存至预设目标集合中。

2.根据权利要求1所述的方法，其特征在于，所述预设目标检测条件包括：

所述第i帧图像与第一目标帧图像之间的帧数量为预设帧间隔数；

或者，所述第i帧图像的采集时间与所述第一目标帧图像的采集时间之间的时间差大于预设间隔时长；

其中，所述第一目标帧图像为在采集所述第i帧图像之前最近一次通过所述深度学习算法进行目标检测的帧图像；

其中，所述M为所述预设帧间隔数，或者，所述M帧图像包括在所述第i帧图像的采集时间之后的所述预设间隔时长内采集的帧图像以及经过所述预设间隔时长后第一次采集的帧图像。

3.根据权利要求1所述的方法，其特征在于，所述采用深度学习算法对所述第i帧图像进行目标检测，获得所述第i帧图像的第一目标检测结果，包括：

对所述第i帧图像进行灭点检测，获得所述第i帧图像的灭点位置；

基于所述灭点位置，从所述第i帧图像截取目标区域，所述目标区域中包括所述灭点位置；

采用深度学习算法对所述第i帧图像中所述目标区域进行目标检测，获得所述第一目标检测结果。

4.根据权利要求3所述的方法，其特征在于，所述基于所述灭点位置，从所述第i帧图像截取目标区域，包括：

从循环队列中选取目标尺度比例，其中，所述循环队列中包括N个预设尺度比例，所述N为大于1的整数，所述目标尺度比例为所述循环队列的N个预设尺度比例中第一尺度比例之后的第一个尺度比例，所述第一尺度比例为对第一目标帧图像截取目标区域时采用的尺度比例，所述第一目标帧图像为在采集所述第i帧图像之前最近一次通过所述深度学习算法进行目标检测的帧图像；

利用所述目标尺度比例以及灭点位置，从所述第i帧图像截取目标区域，其中，所述目标区域的大小与所述目标尺度比例乘以所述第i帧图像的大小的结果相同。

5.一种目标检测装置，其特征在于，所述装置包括：

第二检测模块，用于利用目标跟踪算法，基于所述第一目标检测结果对所述第i帧图像的后续的M帧图像进行目标跟踪，得到所述M帧图像中每一帧图像的第二目标检测结果，所述M为正整数；

所述装置还包括：

确定模块，用于若所述第i帧图像为采用所述深度学习算法完成目标检测，且通过所述跟踪算法完成目标跟踪的帧图像，则确定第i帧图像的第一目标检测结果中的第一目标以及所述第i帧图像的第二目标检测结果中的第二目标，所述第一目标与所述第二目标在所述第i帧图像中的距离小于预设距离；

特征提取模块，用于对所述第一目标进行特征提取，获得第一特征数据，并对所述第二目标进行特征提取，获得第二特征数据；

相似度计算模块，用于基于所述第一特征数据与所述第二特征数据，计算所述第一目标和所述第二目标之间的相似度；

保存模块，用于在所述相似度大于预设相似度的情况下，将所述第i帧图像的第二目标保存至预设目标集合中。

6.根据权利要求5所述的装置，其特征在于，所述预设目标检测条件包括：

7.根据权利要求5所述的装置，其特征在于，所述第一检测模块，包括：

灭点检测模块，用于对所述第i帧图像进行灭点检测，获得所述第i帧图像的灭点位置；

图像截取模块，用于基于所述灭点位置，从所述第i帧图像截取目标区域，所述目标区域中包括所述灭点位置；

目标检测模块，用于采用深度学习算法对所述第i帧图像中所述目标区域进行目标检测，获得所述第一目标检测结果。

8.根据权利要求7所述的装置，其特征在于，所述图像截取模块，包括：

选取模块，用于从循环队列中选取目标尺度比例，其中，所述循环队列中包括N个预设尺度比例，所述N为大于1的整数，所述目标尺度比例为所述循环队列的N个预设尺度比例中第一尺度比例之后的第一个尺度比例，所述第一尺度比例为对第一目标帧图像截取目标区域时采用的尺度比例，所述第一目标帧图像为在采集所述第i帧图像之前最近一次通过所述深度学习算法进行目标检测的帧图像；

截取子模块，用于利用所述目标尺度比例以及灭点位置，从所述第i帧图像截取目标区域，其中，所述目标区域的大小与所述目标尺度比例乘以所述第i帧图像的大小的结果相同。

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-4中任一项所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行本如权利要求1-4中任一项所述的方法。