CN113963300A

CN113963300A - 目标检测方法、装置、电子设备和存储介质

Info

Publication number: CN113963300A
Application number: CN202111250489.4A
Authority: CN
Inventors: 董青; 王洪志; 李辉
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2022-01-21
Anticipated expiration: 2041-10-26
Also published as: CN113963300B

Abstract

本公开提供了目标检测方法、装置、电子设备和存储介质，涉及图像处理技术领域，具体为人工智能、智能交通和深度学习技术领域。具体实现方案为：获取视频流；对所述视频流中图像进行划分，得到特征图像，所述特征图像的尺寸小于所述视频流中图像的尺寸；对特征图像进行目标检测，得到目标检测结果。本公开实施例可以提高目标检测的处理效率。

Description

目标检测方法、装置、电子设备和存储介质

技术领域

本公开涉及图像处理技术领域，具体为人工智能、智能交通和深度学习技术领域，尤其涉及目标检测方法、装置、电子设备和存储介质。

背景技术

目标检测是通过计算机视觉算法从图像中提取出感兴趣的目标。目标检测作为图像处理中的重要的分支，在各个领域都有着十分广泛的应用。

在地图兴趣点(Point of Interest，POI)更新过程中，可以采集道路周围环境的图像，并在图像中进行招牌检测，实现自动更新地图中POI。

发明内容

本公开提供了一种目标检测方法、装置、电子设备和存储介质。

根据本公开的一方面，提供了一种目标检测方法，包括：

获取视频流；

对所述视频流中图像进行划分，得到特征图像，所述特征图像的尺寸小于所述视频流中图像的尺寸；

对特征图像进行目标检测，得到目标检测结果。

根据本公开的一方面，提供了一种目标检测装置，包括：

视频流获取模块，用于获取视频流；

图像划分模块，用于对所述视频流中图像进行划分，得到特征图像，所述特征图像的尺寸小于所述视频流中图像的尺寸；

目标检测模块，用于对特征图像进行目标检测，得到目标检测结果。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开任一实施例所述的目标检测方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行本公开任一实施例所述的目标检测方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开任一实施例所述的目标检测方法。

本公开实施例可以提高目标检测的处理效率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例提供的一种目标检测方法的示意图；

图2是根据本公开实施例提供的一种目标检测方法的示意图；

图3是现有的滑窗方法的示意图；

图4是根据本公开实施例提供的目标检测方法的滑窗示意图；

图5是根据本公开实施例提供的一种目标检测方法的示意图；

图6是根据本公开实施例提供的一种目标检测装置的示意图；

图7是用来实现本公开实施例的目标检测方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本公开实施例公开的一种目标检测方法的流程图，本实施例可以适用于对视频流中图像进行目标检测的情况。本实施例方法可以由目标检测装置来执行，该装置可采用软件和/或硬件的方式实现，并具体配置于具有一定数据运算能力的电子设备中，该电子设备可以是客户端设备或服务器设备，客户端设备例如手机、平板电脑、车载终端和台式电脑等。

S101，获取视频流。

视频流可以是指以流的形式进行传输的图像数据。对视频流进行解析，可以得到按照时序排列的图像序列。视频流可以是指对指定场景进行持续采集的视频形成的流数据。对视频流进行目标检测可以是指对视频流解析得到的每个图像中进行目标检测。

S102，对所述视频流中图像进行划分，得到特征图像，所述特征图像的尺寸小于所述视频流中图像的尺寸。

视频流中图像可以是指对视频流进行解析得到的图像。通常视频流中包括多帧图像，每帧图像的尺寸相同。对视频流中图像进行划分，用于根据视频流中图像的特征，提取小尺寸的图像。特征图像用于进行目标检测。特征图像可以是指根据图像的特征，对图像进行尺寸缩小处理得到的图像。特征图像的尺寸比视频流中每个图像的尺寸小。视频流中每帧图像可以得到至少一个特征图像。实际上，一帧图像得到的各特征图像可以理解为对该帧图像进行特征提取得到的图像，即得到的全部特征图像代表目标的特征信息能够表征该帧图像中目标的全部特征信息。可以对一帧图像进行裁剪，得到多个特征图像；还可以对一帧图像进行降维特征提取，得到包含目标的特征图像。

在一个具体的例子中，可以采用一个滑动窗口按照预设步长移动，对每帧图像进行裁剪，得到多个特征图像。但为了尽可能的保证每帧图像中的目标会被多个特征图像中的任意一张特征图像完整的召回，需要在每次滑动窗口移动的时候采取一个较小的步长。在此假设每帧图像尺寸为W*H，滑动窗口尺寸(即特征图像的分辨率)为w*h，每次滑窗的步长为sw*sh。如图2所示，可以得到两个不等式N*sw+w≤W，M*sh+h≤H。由此可以算出每帧图像会划分成N*M张特征图像。

S103，对特征图像进行目标检测，得到目标检测结果。

对小尺寸的特征图像进行目标检测，可以减少目标检测的计算量。目标检测结果可以包括特征图像的目标检测结果和/或视频流的目标检测结果。可以将每帧图像的各特征图像进行目标检测，得到每个特征图像的目标检测结果，并进行融合，如直接统计形成集合，得到每帧图像的目标检测结果。在视频流的采集过程中，同一物体会在视频流的连续的多帧图像中均出现，可以将各帧图像的目标检测结果进行融合，例如，去重，得到视频流的目标检测结果。

在对特征图像进行目标检测之前，还可以对特征图像进行预处理。预处理可以是指对特征图像进行调整，以达到目标检测的输入要求。预处理可以包括下述至少一项：尺寸调整、仿射变换、亮度调整和透明度调整等。可以采用预先训练的目标检测模型，对特征图像进行目标检测，而得到目标检测结果，其中，目标检测模型可以是机器学习模型，例如可以是快速区域卷积神经网络(Faster region-based Convolutional Neural Networks，Faster R-CNN)、单步多框检测器(Single Shot MultiBox Detector，SSD)或一次目标检测(You Only Look Once，YOLO)。目标检测模型的输入图像的输入尺寸通常是预设的，可以在特征图像的尺寸与输入尺寸不同时，对特征图像进行预处理，以使特征图像的尺寸与输入尺寸相同。

在一个具体的例子中，视频流可以是地图采集车在移动过程中对周围场景环境进行持续采集得到的视频流，目标为招牌，目标检测可以是对视频流进行招牌检测，目标检测结果包括视频流中每帧图像包括招牌的区域，还可以确定检测到的招牌的地理位置信息。更进一步，还可以根据目标检测结果，确定现实世界的POI，实现自动生成POI，更新地图，提高POI生成的召回上限，提高地图更新POI的效率。

实际上，本公开实施例提供的方法实现在高清超大图中的小目标进行检测，在目标检测之前，对高清大图进行处理，得到缩小的图像，并对缩小的图像进行目标检测，替代直接对高清超大图进行目标检测，将目标检测任务划分为两个任务，实现对目标检测任务的解耦，从而降低任务的复杂度，以及降低数据处理的复杂度。

实际上，现有的地图采集车采集的视频流中图像的尺寸较大，例如分辨率为4K*8K。如果直接对视频流中图像进行处理，目标检测的运算量较大，而且对算力要求较高，容易导致应用程序崩溃，计算出错。现有方式是抽取视频流中关键帧，即不对全部图像进行处理，只对部分图像进行处理，并对抽取的关键帧进行固定区域进行裁剪，对关键帧中裁剪的区域进行目标检测，得到目标检测结果。这样会从源头上丢失一部分图像信息，导致最终检测得到的招牌缺失，也即丢失了POI信息，导致造成整体生产流程的召回降低。

根据本公开的技术方案，通过对视频流中图像进行划分，得到小尺寸的特征图像，并对特征图像进行目标检测，得到目标检测结果，可以在完整保留图像信息的同时，兼顾对小尺寸的图像进行目标检测，提高目标检测的效率，并且降低目标检测的计算量，降低目标检测系统的压力，提高目标检测的准确率。

图2是根据本公开实施例公开的另一种目标检测方法的流程图，基于上述技术方案进一步优化与扩展，并可以与上述各个可选实施方式进行结合。所述对所述视频流中图像进行划分，得到特征图像，具体化为：对所述视频流中每帧图像进行划分，得到所述图像的至少一个子图像；根据所述视频流中每帧图像划分得到的至少一个子图像，形成多路子视频流；采用预设滑动窗口对每路子视频流中子图像进行滑窗处理，得到特征图像。

S201，获取视频流。

S202，在第一方向上对所述视频流中每帧图像进行尺寸变换，得到所述视频流的子图像。

第一方向用于对在该方向上图像进行尺寸调整。在第一方向上对图像进行尺寸变换，实际是调整图像在第一方向上的长度。通常，图像的形状为宽*高的矩形，若第一方向为水平方向，在第一方向上对图像进行尺寸变换是指对图像进行调整，以使图像的宽调整成目标值；若第一方向为竖直方向，在第一方向上对图像进行尺寸变换是指对图像进行调整，以使图像的高调整成目标值。第一方向可以任意设置，或者根据需要进行设定。

S203，在第二方向上采用预设滑动窗口对所述视频流中子图像进行滑窗处理，得到特征图像，所述特征图像的尺寸小于所述视频流中图像的尺寸。

第一方向与第二方向不同。第二方向可以与第一方向垂直。第二方向是指滑动窗口的移动方向。在两个方向均对图像进行处理。第一方向是缩小图像的尺寸，第二方向是对图像进行裁剪。

滑动窗口为预设尺寸的区域，通常是与图像的形状相同的区域。例如，图像为矩形，滑动窗口为矩形。其中，滑动窗口的一边的长度与子图像的一边的长度相同，滑动窗口的另一边的长度小于子图像的另一边的长度。对子图像进行滑窗处理是指，采用滑动窗口以预设步长在子图像中按照一个方向进行滑动，每滑动一次，滑动窗口在子图像中重叠的区域，确定为一个特征图像。每个特征图像的尺寸与滑动窗口的尺寸相同。

将视频流中每帧子图像进行滑窗，将不同帧子图像以相同步长裁剪形成的特征图像作为一路子视频流，最终可以形成多路子视频流。一路子视频流包括特征图像序列，该特征图像序列中包括的特征图像之间的时序与视频流包括的各帧图像之间的时序对应，同样与尺寸变化的各帧子图像之间的时序对应。每帧子图像采用相同划分方式分别得到对应的至少一个特征图像，相应的，在不同帧子图像中，存在位置(步长)对应的特征图像，可以将位置对应的一组特征图像形成一路子视频流。不同位置对应的特征图像可以形成不同路的子视频流。其中，位置对应的子图像可以是指，两个特征图像在划分前的子图像中的相对位置匹配。

对子图像进行滑窗，实际是采用一维滑窗图像剪裁，可以使滑窗的复杂度为线性级，降低图像的滑窗处理的复杂度和运算量，降低对算力的要求，简化特征图像的提取过程，提高特征图像的提取效率。

可选的，所述在第一方向上对所述视频流中每帧图像进行尺寸变换，得到所述视频流的子图像，包括：根据所述图像的尺寸，确定第一方向；对所述视频流中图像进行尺寸变换，缩小所述视频流中图像在所述第一方向上的边长，得到所述视频流的子图像。

可以根据图像的尺寸，确定图像的长边所属的方向和短边所属的方向，并从中选择一个确定为第一方向。通常将较长的边进行剪裁，相应较短的边进行缩小，可以减少图像中损失的关键信息。第一方向可以是图像中短边所属的方向。根据图像的尺寸可以确定哪个方向的边的长度最短，将最短边的所在的方向，确定为第一方向。

对视频流中图像进行尺寸变换，以达到缩小视频流中图像在第一方向上的边长，从而实现对图像进行缩小。其中，尺寸变换不是直接删除图像中部分像素，而是减少图像中与目标无关的冗余像素，保留图像中与组成目标的像素，示例性的，尺寸变化可以采用Resize(调整大小)函数。此外，还可以采用预先训练的图像尺寸变换模型，对图像进行处理，得到缩小后的子图像，其中，图像尺寸变换模型可以是深度学习模型，如卷积神经网络模型。

通过对视频流中每帧图像在第一方向上进行边长缩小，可以缩小图像的尺寸，减少冗余计算量。

可选的，所述在第二方向上采用预设滑动窗口对所述视频流中子图像进行滑窗处理，得到特征图像，包括：根据所述图像的尺寸，确定第二方向；沿着所述第二方向移动所述滑动窗口，并对所述视频流中子图像进行划分，得到所述子图像的至少一个特征图像。

可以根据图像的尺寸，确定图像的长边所属的方向和短边所属的方向，并从中选择一个确定为第二方向。通常将较长的边进行剪裁，可以在减少损失的信息的同时，尽可能保留图像的内容，减少关键信息的损失。第二方向可以是图像中长边所属的方向。根据图像的尺寸可以确定哪个方向的边的长度最长，将最长边的所在的方向，确定为第二方向。

在子图像中沿着第二方向以预设步长移动滑动窗口，并确定每次移动滑动窗口后，滑动窗口映射到子图像中的区域，作为一个特征图像。滑动处理未损失像素，仅仅是将图像进行划分，减少图像信息损失。其中，步长可以小于滑动窗口在第二方向的边长，从而得到的连续特征图像之间存在重合区域。

通过在第一方向进行尺寸变换，并在第二方向上滑窗，实现采用一维滑窗划分子图像，降低滑窗的复杂度，降低数据处理的复杂度，降低算力的要求，简化特征图像的提取过程，提高特征图像的提取效率。

此外，如前述例子，采用宽和高均小于图像的滑动窗口直接对原始视频流中每帧图像进行裁剪，滑动窗口的移动方向包括宽方向和高方向，如图3所示，在sw(宽)方向上移动滑窗，并且，还需要在sh(高)方向上移动滑窗，得到特征图像。每帧图像会划分成N*M张特征图像，视频流可以得到B(帧数)*M*N的特征图像。这种方式的滑动复杂度为平方级。若使用这些特征图像训练目标检测模型，相当于增加了上百倍的计算量，而且，由于滑窗时的小步长重复采样，导致很多区域的计算都是无意义的。

在本公开实施例中，先对原始的视频流中每帧图像在第一方向进行尺寸变化，得到子图像形成的新的视频流，针对每帧子图像在第二方向进行滑窗，每帧子图像可以得到M个特征图像，相当于对视频流进行分路，可以得到M路子视频流。如图目标检测方法4所示，对短边所在的第一方向进行缩小，并在长边所在方向进行滑窗，不同帧的子图像在同一步长得到的特征图像，与原子图像的在视频流中的帧数对应，可以形成一路子视频流。原始的视频流包括B帧图像，则M路子视频流可以得到M路的B个特征图像。只需要对M*B个特征图像训练目标检测模型，可以降低模型的训练计算量，提高模型的训练效率。并且，对视频流进行分路时，对图像的某一边进行分段，替代小步长滑窗裁剪，可以减少同一图像划分得到的子图像的重合面积，可以减少重复采样中的重合区域，减少冗余计算量。

S204，对特征图像进行目标检测，得到目标检测结果。

可选的，目标检测方法，还包括：对至少一个特征图像的目标检测结果进行融合，得到所述视频流的目标检测结果。

子图像可以划分为至少一个特征图像。视频流可以解析得到至少一个图像，对应形成至少一个子图像。从而，最终需要进行目标检测的特征图像的数量为至少一个。在特征图像的数量为一个的情况下，将特征图像的目标检测结果，确定为视频流的目标检测结果。在特征图像的数量为至少两个的情况下，对多个特征图像的目标检测结果进行融合，确定为视频流的目标检测结果。其中，融合可以包括下述至少一项：去除代表同一目标的冗余检测区域、修正各目标的检测区域、删除错误的检测区域和新增正确的检测区域。其中，融合方式可以采用非最大值抑制(Non-Maximum Suppression，NMS)算法实现。

通过对多个特征图像的目标检测结果进行融合，得到视频流的目标检测结果，实现对视频流的目标检测结果进行清洗，提高视频流的目标检测结果的准确率。

此外，针对视频流滑窗得到多路子视频流的特征图像的划分方式中，特征图像还具有时间信息，即特征图像在视频流中的帧数，可以根据该时间信息，对特征图像的目标检测结果进行融合。

可选的，所述对至少一个特征图像的目标检测结果进行融合，得到所述视频流的目标检测结果，包括：根据所述特征图像在所述视频流中的帧数，对各所述特征图像的目标检测结果进行去重，得到所述视频流的目标检测结果。

帧数是指特征图像在视频流的时序。帧数用于标识特征图像在视频流中的时间位置，表征不同特征图像之间的时序关系，以进行目标追踪。采用尺寸变换和滑窗方式对图像进行处理得到特征图像，特征图像来源于图像，并且，在时序上未进行改变，由此特征图像的帧数与图像的帧数相同。如前述，特征图像可以形成多路的子视频流。特征图像标注有在子视频流的帧数，特征图像在子视频流的时序，等同于特征图像在视频流的时序，特征图像在子视频流的帧数为在视频流的帧数，例如图4所示，子视频流和原视频流包括相同帧的图像，图像在子视频流的帧数与在原视频流的帧数相同。

根据特征图像在视频流的帧数，可以对各特征图像中检测得到的目标检测区域进行分类，将确定为同一目标的多个目标检测区域进行去重。其中，分类方式可以是对目标进行追踪，或者还可以采用行人重识别(Person Re-identification，ReID)，对各目标检测区域进行标记，确定属于同一目标的目标检测区域。

通过根据特征图像在视频流中的帧数，对特征图像的目标检测结果进行去重，实现基于特征图像在视频流中的时间信息，快速对目标检测结果进行筛选，降低筛选的复杂度，并提高目标检测结果的筛选效率和准确率，减少目标检测结果的冗余性，提高视频流的目标检测结果的准确率。

根据本公开的技术方案，通过对每帧图像在第一方向进行尺寸变换得到子图像，并对每帧子图像在第二方向上进行滑窗处理，实现一维滑窗，可以使滑窗的复杂度为线性级，降低图像的滑窗处理的复杂度和运算量，降低对算力的要求，简化特征图像的提取过程，提高特征图像的提取效率，并且在尽量减少损失的信息的同时，兼顾降低待处理的特征图像的尺寸，提高目标检测的准确率，同时提高目标检测的效率。

图5是根据本公开实施例公开的另一种目标检测方法的流程图，基于上述技术方案进一步优化与扩展，并可以与上述各个可选实施方式进行结合。所述对所述视频流中图像进行划分，得到特征图像，具体化为：对所述视频流中每帧图像进行区域分类，在所述图像中，确定目标区域，并确定为特征图像。

S501，获取视频流。

S502，对所述视频流中每帧图像进行区域分类，在所述图像中，确定目标区域，并确定为特征图像，所述特征图像的尺寸小于所述视频流中图像的尺寸。

区域分类用于提取包括目标的区域。目标区域为包括目标的区域。实际上，目标区域的尺寸大于目标检测区域。目标区域为疑似包括目标的区域。区域分类用于在图像中粗略筛选出包括目标的区域，即进行特征提取，提取出关键信息的区域，以减少冗余信息。一个图像可以分类出至少一个目标区域，得到至少一个特征图像。示例性的，区域分类方法包括下述至少一项：基于注意力机制的区域分类方法、基于扫视(saccade)机制的区域分类方法和基于全图掩膜(mask)的分类方法等。

区域分类可以采用至少一种分类方式，并对各分类方式得到的分类结果进行融合，得到目标区域。示例性的，采用一种分类方式，可以直接将该分类方式得到的包括目标的备选区域，确定为目标区域。采用至少两种方式，可以对各分类方式得到的包括目标的备选区域进行筛选，得到目标区域。示例性的，对备选区域筛选可以是：针对一帧图像，将各分类方式得到的备选区域映射到该图像中，计算交并比，并在交并比大于等于预设重合面积阈值的备选区域中，筛选出一个备选区域，并将筛选后的备选区域，确定目标区域。其中，在交并比大于等于预设重合面积阈值的备选区域中，筛选出一个备选区域，可以是任意选择一个，还可以是，计算各交并比大于等于预设重合面积阈值的备选区域的并集，确定为筛选得到的备选区域。此外，可以根据需要进行设定，对此不作具体限制。

S503，对特征图像进行目标检测，得到目标检测结果。

对粗筛得到的疑似包括目标的特征图像，进行目标检测，相当于是先对视频流中图像进行粗筛，再精细化的目标检测。

可以对各特征图像的目标检测结果进行融合，其中，融合可以包括下述至少一项：去除代表同一目标的冗余检测区域、修正各目标的检测区域、删除错误的检测区域和新增正确的检测区域。其中，融合方式可以采用非最大值抑制(Non-Maximum Suppression，NMS)算法实现。

在区域分类的特征图像的划分方式中，不需要进行截图操作，进一步降低了截图的计算量。

根据本公开的技术方案，通过对视频流中每帧图像进行区域分类，得到包含目标的目标区域，确定为特征图像，再对特征图像进行目标检测，得到目标检测结果，可以实现将特征图像的提取与目标检测提取进行任务解耦合，降低目标检测的复杂度，提高目标检测的效率，同时提高目标检测的准确率。

根据本公开的实施例，图6是本公开实施例中的目标检测装置的结构图，本公开实施例适用于对视频流中图像进行目标检测的情况。该装置采用软件和/或硬件实现，并具体配置于具备一定数据运算能力的电子设备中。

如图6所示的一种目标检测装置600，包括：视频流获取模块601、图像划分模块602和目标检测模块603；其中，

视频流获取模块601，用于获取视频流；

图像划分模块602，用于对所述视频流中图像进行划分，得到特征图像，所述特征图像的尺寸小于所述视频流中图像的尺寸；

目标检测模块603，用于对特征图像进行目标检测，得到目标检测结果。

进一步的，所述图像划分模块602，包括：所述图像划分模块，包括：子图像划分单元，用于在第一方向上对所述视频流中每帧图像进行尺寸变换，得到所述视频流的子图像；滑窗划分单元，用于在第二方向上采用预设滑动窗口对所述视频流中子图像进行滑窗处理，得到特征图像。

进一步的，所述子图像划分单元，包括：第一方向确定子单元，用于根据所述图像的尺寸，确定第一方向；子图像确定子单元，用于对所述视频流中图像进行尺寸变换，缩小所述视频流中图像在所述第一方向上的边长，得到所述视频流的子图像。

进一步的，所述滑窗划分单元，包括：第二方向确定子单元，用于根据所述图像的尺寸，确定第二方向；滑窗子单元，用于沿着所述第二方向移动所述滑动窗口，并对所述视频流中子图像进行划分，得到所述子图像的至少一个特征图像。

进一步的，所述图像划分模块602，包括：目标粗筛单元，用于对所述视频流中每帧图像进行区域分类，在所述图像中，确定目标区域，并确定为特征图像。

进一步的，所述目标检测装置，还包括：结果融合模块，用于对至少一个特征图像的目标检测结果进行融合，得到所述视频流的目标检测结果。

进一步的，所述结果融合模块，包括：结果去重单元，用于根据所述特征图像在所述视频流中的帧数，对各所述特征图像的目标检测结果进行去重，得到所述视频流的目标检测结果。

上述目标检测装置可执行本公开任意实施例所提供的目标检测方法，具备执行目标检测方法相应的功能模块和有益效果。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性区域图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如目标检测方法。例如，在一些实施例中，目标检测方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的目标检测方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行目标检测方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或区域图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种目标检测方法，包括：

获取视频流；

对特征图像进行目标检测，得到目标检测结果。

2.根据权利要求1所述的方法，其中，所述对所述视频流中图像进行划分，得到特征图像，包括：

在第一方向上对所述视频流中每帧图像进行尺寸变换，得到所述视频流的子图像；

在第二方向上采用预设滑动窗口对所述视频流中子图像进行滑窗处理，得到特征图像。

3.根据权利要求2所述的方法，其中，所述在第一方向上对所述视频流中每帧图像进行尺寸变换，得到所述视频流的子图像，包括：

根据所述图像的尺寸，确定第一方向；

对所述视频流中图像进行尺寸变换，缩小所述视频流中图像在所述第一方向上的边长，得到所述视频流的子图像。

4.根据权利要求2所述的方法，其中，所述在第二方向上采用预设滑动窗口对所述视频流中子图像进行滑窗处理，得到特征图像，包括：

根据所述图像的尺寸，确定第二方向；

沿着所述第二方向移动所述滑动窗口，并对所述视频流中子图像进行划分，得到所述子图像的至少一个特征图像。

5.根据权利要求1所述的方法，其中，所述对所述视频流中图像进行划分，得到特征图像，包括：

对所述视频流中每帧图像进行区域分类，在所述图像中，确定目标区域，并确定为特征图像。

6.根据权利要求1所述的方法，还包括：

对至少一个特征图像的目标检测结果进行融合，得到所述视频流的目标检测结果。

7.根据权利要求6所述的方法，其中，所述对至少一个特征图像的目标检测结果进行融合，得到所述视频流的目标检测结果，包括：

根据所述特征图像在所述视频流中的帧数，对各所述特征图像的目标检测结果进行去重，得到所述视频流的目标检测结果。

8.一种目标检测装置，包括：

视频流获取模块，用于获取视频流；

9.根据权利要求8所述的装置，其中，所述图像划分模块，包括：

子图像划分单元，用于在第一方向上对所述视频流中每帧图像进行尺寸变换，得到所述视频流的子图像；

滑窗划分单元，用于在第二方向上采用预设滑动窗口对所述视频流中子图像进行滑窗处理，得到特征图像。

10.根据权利要求9所述的装置，其中，所述子图像划分单元，包括：

第一方向确定子单元，用于根据所述图像的尺寸，确定第一方向；

子图像确定子单元，用于对所述视频流中图像进行尺寸变换，缩小所述视频流中图像在所述第一方向上的边长，得到所述视频流的子图像。

11.根据权利要求9所述的装置，其中，所述滑窗划分单元，包括：

第二方向确定子单元，用于根据所述图像的尺寸，确定第二方向；

滑窗子单元，用于沿着所述第二方向移动所述滑动窗口，并对所述视频流中子图像进行划分，得到所述子图像的至少一个特征图像。

12.根据权利要求8所述的装置，其中，所述图像划分模块，包括：

目标粗筛单元，用于对所述视频流中每帧图像进行区域分类，在所述图像中，确定目标区域，并确定为特征图像。

13.根据权利要求8所述的装置，还包括：

结果融合模块，用于对至少一个特征图像的目标检测结果进行融合，得到所述视频流的目标检测结果。

14.根据权利要求13所述的装置，其中，所述结果融合模块，包括：

结果去重单元，用于根据所述特征图像在所述视频流中的帧数，对各所述特征图像的目标检测结果进行去重，得到所述视频流的目标检测结果。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的目标检测方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的目标检测方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的目标检测方法。