CN110176024A

CN110176024A - 在视频中对目标进行检测的方法、装置、设备和存储介质

Info

Publication number: CN110176024A
Application number: CN201910424359.4A
Authority: CN
Inventors: 揭泽群
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2019-08-27
Anticipated expiration: 2039-05-21
Also published as: US11900676B2; CN110176024B; US20210342593A1; WO2020233397A1

Abstract

公开了一种在视频中对目标进行检测的方法、装置、车辆、机器人、监控设备、设备以及存储介质。所述方法包括：对第一帧应用目标检测操作，以确定所述第一帧中关于所述目标的第一目标检测结果；对位于所述第一帧之后的第二帧应用目标跟踪操作，以确定所述目标在所述第二帧和所述第一帧之间的变化；以及根据所述第一目标检测结果和所述目标在所述第二帧和所述第一帧之间的变化确定所述第二帧中关于所述目标的第二目标检测结果。

Description

在视频中对目标进行检测的方法、装置、设备和存储介质

技术领域

本申请涉及图像处理领域，具体涉及一种在视频中对目标进行检测的方法、装置、车辆、机器人、监控设备、设备以及存储介质。

背景技术

可以通过对在线视频执行目标检测实现内容分析或目标物体检测等。例如无人车的目标检测定位、机器人目标检测、直播视频的目标检测或安防监控目标检测等。

目前可以利用逐帧的图像目标检测或通过提取每两帧之间的光流信息对视频的每一帧进行目标检测，由于现有的目标检测算法比较费时，因此，希望提供一种速度更快的目标检测方法。

发明内容

本申请的目的是提供一种在视频中对目标进行检测的方法、装置、车辆、机器人、监控设备、设备以及存储介质。

根据本申请的一个方面，提供了一种在视频中对目标进行检测的方法，所述方法包括：对所述视频中的第一帧应用目标检测操作，以确定所述第一帧中关于所述目标的第一目标检测结果；对所述视频中位于所述第一帧之后的第二帧应用目标跟踪操作，以确定所述目标在所述第二帧和所述第一帧之间的变化；以及根据所述第一目标检测结果和所述目标在所述第二帧和所述第一帧之间的变化确定所述第二帧中关于所述目标的第二目标检测结果。

在一些实施例中，对所述视频中位于所述第一帧之后的第二帧应用目标跟踪操作，以确定所述第一目标检测结果对应的目标在所述第二帧和所述第一帧之间的变化包括：利用第一神经网络提取所述第一帧与所述第二帧的组合的语义信息，并根据所提取的语义信息输出指示所述第一目标检测结果对应的目标在所述第一帧和所述第二帧之间的变化的结果。

在一些实施例中，所述第一神经网络的输出包括至少两个输出集合，每个输出集合包括至少一个与所述第二帧尺寸相同的输出图，其中对位于所述第一帧之后的第二帧应用目标跟踪操作，以确定所述目标在所述第二帧和所述第一帧之间的变化包括：根据所述目标的大小选择对应的输出集合，以确定所述目标在所述第二帧和所述第一帧之间的变化。

在一些实施例中，所述目标在所述第二帧和所述第一帧之间的变化是所述目标的位置和形状特征在所述第一帧和所述第二帧之间的变化。

在一些实施例中，根据所述第一目标检测结果和所述目标在所述第二帧和所述第一帧之间的变化确定所述第二帧中关于所述目标的第二目标检测结果包括：根据所述目标在所述第二帧和所述第一帧之间的变化调整所述第一目标检测结果，以确定所述第二目标检测结果。

在一些实施例中，所述方法还包括，对所述视频中位于所述第二帧之后的第三帧应用目标跟踪操作，以确定所述目标在所述第三帧和所述第二帧之间的变化；以及根据所述第二目标检测结果和所述目标在所述第三帧和所述第二帧之间的变化确定所述第三帧中关于所述目标的第三目标检测结果。

在一些实施例中，对所述视频中的第一帧应用目标检测操作，以确定用于所述第一帧的第一目标检测结果包括：基于所述第一帧的前一帧和所述第一帧执行目标跟踪操作，以确定所述第一帧中关于所述目标的目标跟踪结果；以及对所述第一帧和所述目标跟踪结果的组合应用目标检测操作，以确定所述第一帧中关于所述目标的第一目标检测结果。

在一些实施例中，所述第一神经网络是通过以下方法训练的：确定训练第一神经网络所需的第一训练集，其中所述第一训练集包括第一训练视频，所述第一训练视频包括第一训练帧和位于所述第一训练帧之后的第二训练帧，所述第一训练帧和所述第二训练帧中包括待检测的训练目标；确定所述训练目标在所述第二训练帧和所述第一训练帧之间的真实变化；对所述第一训练帧应用目标检测操作，以确定所述第一训练帧中关于所述训练目标的第一训练检测结果；利用第一神经网络对所述第二训练帧应用目标跟踪操作，以确定所述训练目标在所述第二训练帧和所述第一训练帧之间的第一变化；确定所述第一变化与所述真实变化之间的差别；根据所述第一神经网络的至少一个中间层的输出确定所述训练目标在所述第二训练帧和所述第一训练帧之间的第二变化；确定所述第二变化与所述真实变化之间的差别；以及调整所述第一神经网络的参数使得所述第一变化与所述真实变化之间的差别和所述第二变化与所述真实变化之间的差别最小。

根据本公开的另一方面，还提供了一种在视频中对目标进行检测的装置，包括：目标检测单元，配置成对所述视频中的第一帧应用目标检测操作，以确定所述第一帧中关于所述目标的第一目标检测结果；目标跟踪单元，配置成对所述视频中位于所述第一帧之后的第二帧应用目标跟踪操作，以确定所述目标在所述第二帧和所述第一帧之间的变化；以及结果确定单元，配置成根据所述第一目标检测结果和所述目标在所述第二帧和所述第一帧之间的变化确定所述第二帧中关于所述目标的第二目标检测结果。

在一些实施例中，所述目标跟踪单元还配置成：利用第一神经网络提取所述第一帧与所述第二帧的组合的语义信息，并根据所提取的语义信息输出指示所述第一目标检测结果对应的目标在所述第一帧和所述第二帧之间的变化的结果。

在一些实施例中，所述第一神经网络的输出包括至少两个输出集合，每个输出集合包括至少一个与所述第二帧尺寸相同的输出图，其中所述结果确定单元还配置成：根据所述目标的大小选择对应的输出集合以确定所述目标在所述第二帧和所述第一帧之间的变化。

在一些实施例中，所述结果确定单元还配置成：根据所述目标在所述第二帧和所述第一帧之间的变化调整所述第一目标检测结果，以确定所述第二目标检测结果。

在一些实施例中，所述目标跟踪单元还配置成对所述视频中位于所述第二帧之后的第三帧应用目标跟踪操作，以确定所述目标在所述第三帧和所述第二帧之间的变化；以及所述结果确定单元还配置成根据所述第二目标检测结果和所述目标在所述第三帧和所述第二帧之间的变化确定所述第三帧中关于所述目标的第三目标检测结果。

在一些实施例中，所述目标检测单元还配置成基于所述第一帧的前一帧和所述第一帧执行目标跟踪操作，以确定所述第一帧中关于所述目标的目标跟踪结果；以及对所述第一帧和所述目标跟踪结果的组合应用目标检测操作，以确定所述第一帧中关于所述目标的第一目标检测结果。

根据本申请的又一方面，还提供了一种车辆，包括：图像传感器，用于采集视频；存储器，用于存储指令；以及处理器，用于通过执行所述指令，对所采集的视频执行如前所述的方法。

根据本申请的又一方面，还提供了一种机器人，包括：图像传感器，用于采集视频；存储器，用于存储指令；以及处理器，用于通过执行所述指令，对所采集的视频执行如前所述的方法。

根据本申请的又一方面，还提供了一种监视设备，包括：图像传感器，用于采集视频；存储器，用于存储指令；以及处理器，用于通过执行所述指令，对所采集的视频执行如前所述的方法。

根据本申请的又一方面，还提供了一种在视频中对目标进行检测的设备，所述设备包括存储器和处理器，其中所述存储器中存有指令，当利用所述处理器执行所述指令时，使得所述处理器执行如前所述的方法。

根据本申请的又一方面，还提供了一种计算机可读存储介质，其上存储有指令，所述指令在被处理器执行时，使得所述处理器执行如前所述的方法。

利用本申请提供的在视频中对目标进行检测的方法、装置、车辆、机器人、监控设备、设备以及存储介质，通过对第一帧之后的第二帧应用目标跟踪操作，可以通过跟踪第一帧中的目标检测结果对应的目标在第二帧和第一帧之间的变化，并根据第一帧的目标检测结果确定用于第二帧的目标检测结果。利用本申请提供的方法可以对视频中的一部分图像帧执行目标检测操作以确定图像帧中的目标，对视频中另一部分图像帧执行目标跟踪操作已确定图像帧中的目标。即，利用本申请提供的方式，可以以跳帧的方式对视频执行目标检测算法。由于目标跟踪操作的耗时小于目标检测操作的耗时，因此，利用本申请的方案能够减少对视频进行目标检测的计算量，目标检测的实时性更好。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员而言，在没有做出创造性劳动的前提下，还可以根据这些附图获得其他的附图。以下附图并未刻意按实际尺寸等比例缩放绘制，重点在于示出本申请的主旨。

图1示出了根据本申请的图像处理系统的示例性的场景图；

图2示出了根据本申请的实施例的用于在视频中对目标进行检测的方法的示意性的流程图；

图3示出了根据本申请的实施例的一种像素级的目标跟踪算法的示意性的示例；

图4A示出了根据本申请的实施例根据目标跟踪结果对视频中的第一帧进行目标检测的方法的示意性的流程图；

图4B示出了根据本申请的实施例的目标检测过程的示意图；

图5示出了根据本申请的实施例的在视频中对目标进行检测的装置的示意性的框图；

图6示出了根据本申请的实施例的在视频中对目标进行检测的示意图；

图7示出了根据本申请的实施例对视频中的图像帧进行目标检测的过程的示意图；以及

图8示出了根据本申请的实施例的计算设备的架构。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另作定义，此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本申请中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

在对视频进行实时目标检测时，相关技术可以采用对视频中的图像帧逐帧执行目标检测算法的方法。例如，可以利用R-CNN等算法对视频的每一帧执行目标检测。此外，相关技术还可以通过提取每两帧之间的光流信息考虑视频时序特征的连续性，利用光流将不同帧中的同一个物体的特征进行融合，然后进行目标检测。

可以理解的是，对视频中的每一帧执行目标检测是费时的。以NVIDIA GTX1080运算平台为例，目标检测中速度较快的常用算法YOLO速度大概为40帧/秒。此外，如果利用光流信息确定视频的时序特征，则需要事先提取视频中的光流信息，这也需要占用相当大的计算资源。进一步地，一些相关技术需要在得到整个视频后，通过对每一帧的前后帧的特征融合实现该帧的目标检测，因此是离线的视频目标检测。因此，前述相关技术无法满足实时性要求高的场景。

为了提高对视频进行目标检测的速度以满足视频目标检测的实时性要求，本申请提供了一种新的对视频进行目标检测的方法。

图1示出了根据本申请的图像处理系统的示例性的场景图。如图1所示，该图像处理系统100可以包括用户终端110、网络120、服务器130以及数据库140。

用户终端110可以是例如图1中示出的电脑110-1、手机110-2。可以理解的是，事实上，用户终端可以是能够执行数据处理的任何其他类型的电子设备，其可以包括但不限于台式电脑、笔记本电脑、平板电脑、智能手机、智能家居设备、可穿戴设备、车载电子设备、监控设备等。用户终端也可以是设置有电子设备的任何装备，例如车辆、机器人等。

根据本申请提供的用户终端可以用于接收待处理的视频，并利用本申请提供的方法对视频进行目标检测。例如，用户终端可以通过用户终端上设置的图像采集设备(例如照相机、摄像机等)采集待处理的视频。又例如，用户终端也可以从单独设置的图像采集设备接收待处理的视频。再例如，用户终端也可以经由网络从服务器接收待处理的视频，例如，接收从服务器发送的视频流。

在一些实施例中，可以利用用户终端的处理单元对视频帧进行处理。在一些实现方式中，用户终端可以利用用户终端内置的应用程序执行视频的目标检测。在另一些实现方式中，用户终端可以通过调用用户终端外部存储的应用程序执行视频的目标检测。

在另一些实施例中，用户终端将接收的待处理的视频经由网络120发送至服务器130，并由服务器130执行视频的目标检测。在一些实现方式中，服务器130可以利用服务器内置的应用程序执行视频的目标检测。在另一些实现方式中，服务器130可以通过调用服务器外部存储的应用程序执行视频的目标检测。

网络120可以是单个网络，或至少两个不同网络的组合。例如，网络120可以包括但不限于局域网、广域网、公用网络、专用网络等中的一种或几种的组合。

服务器130可以是一个单独的服务器，或一个服务器群组，群组内的各个服务器通过有线的或无线的网络进行连接。一个服务器群组可以是集中式的，例如数据中心，也可以是分布式的。服务器130可以是本地的或远程的。

数据库140可以泛指具有存储功能的设备。数据库130主要用于存储从用户终端110和服务器130工作中所利用、产生和输出的各种数据。数据库140可以是本地的，或远程的。数据库140可以包括各种存储器、例如随机存取存储器(Random Access Memory(RAM))、只读存储器(Read Only Memory(ROM))等。以上提及的存储设备只是列举了一些例子，该系统可以使用的存储设备并不局限于此。

数据库140可以经由网络120与服务器130或其一部分相互连接或通信，或直接与服务器130相互连接或通信，或是上述两种方式的结合。

利用图1中提供的系统可以实现对视频中每一帧中的目标的检测。下文中将以视频中的第一帧和第二帧为例介绍本申请的原理。这里所述的“第一帧”、“第二帧”并不特指视频中出现的第一个图像帧和第二个图像帧，而是可以表示视频中的任意一个图像帧。利用下文中描述的图像处理方法，能够以跳帧的方式实现对视频中的目标进行检测。

下文中将详细阐述本申请提供的图像处理方法的流程。

图2示出了根据本申请的实施例的用于在视频中对目标进行检测的方法的示意性的流程图。其中视频可以是实时视频，也可以是离线视频。

在步骤S202中，可以对第一帧应用目标检测操作，以确定所述第一帧中关于所述目标的第一目标检测结果。这里所说的目标可以是预定义的目标，例如，可以是图像中的人物、动物、植物或任何其他物品。用户可以预先定义视频中要检测的目标的类型。目标检测指的是利用预先定义的算法识别图像中的目标。

在一些实施例中，目标检测操作可以是利用R-CNN、Fast R-CNN、Faster R-CNN、YOLO或SSD等图像目标检测算法中的任何一种所执行的。例如，可以将所述第一帧输入上述目标检测算法，并将目标检测算法输出的结果作为所述第一帧的检测结果。例如，目标检测算法可以输出指示所述第一帧中包括的至少一个预设目标的目标框。这里所说的目标框可以是环绕目标的任何图形，例如目标的轮廓图形或其他规则或不规则图形，例如三角形、矩形等。

在一些实施例中，可以根据所述第一帧之前的图像帧的检测结果对所述第一帧进行目标检测。例如，可以根据所述第一帧的前一帧(或位于所述第一帧之前的任意一帧)的检测结果对所述第一帧执行目标跟踪操作，以确定用于所述第一帧的目标跟踪结果。然后，可以根据所述第一帧的目标跟踪结果和所述第一帧中的图像信息对所述第一帧执行目标检测算法，以确定所述第一帧中的检测结果。本申请稍候将在图4A中详细描述利用第一帧的目标跟踪结果执行目标检测算法的流程，在此不再加以赘述。

在步骤S204中，可以对位于所述第一帧之后的第二帧应用目标跟踪操作，以确定所述目标在所述第二帧和所述第一帧之间的变化。目标跟踪指的是根据目标在两帧之间的变化，基于在前一帧中关于目标的目标检测结果确定在后一帧中关于目标的目标检测结果。

所述第二帧可以是在视频中位于所述第一帧之后的任意一帧。例如，所述第二帧可以是视频中与第一帧相邻的后一图像帧。又例如，所述第二帧也可以是视频中与所述第一帧不相邻、位于所述第一帧之后的一个图像帧。

在一些实施例中，可以利用生成式模型实现目标跟踪操作。在生成式的目标跟踪算法中，可以在当前帧对目标进行建模，然后在下一帧寻找与模型最相似的区域，以根据所确定的最相似的区域预测下一帧中目标的位置。例如，生成式的目标跟踪算法可以是基于卡尔曼滤波、粒子滤波、mean-shift等方法。

在一些实施例中，可以利用判别式模型实现目标跟踪操作。在判别式的目标跟踪算法中，可以将目标跟踪看作是一个二元分类问题。可以同时提取目标和背景信息用来训练分类器。通过将目标从图像序列背景中分离出来。利用训练好的分类器，能够在下一帧中找到最优的目标区域。

在一些实施例中，还可以训练神经网络对视频帧的图像信息进行处理，以生成与视频帧的大小相同的输出图。通过利用适当的样本进行训练，能够使得训练好的神经网络输出的输出图中的每一个像素能够指示该像素所属的目标的尺寸和形状特征在所述第一帧和所述第二帧之间的变化。因此，利用像素级的物体流动预测的方法，能够基于已知的目标检测结果预测在后一帧中的目标的位置。

在一些实施例中，神经网络的输出可以包括至少两个输出集合，每个输出集合包括至少一个与所述第二帧尺寸相同的输出图，其中每个输出集合用于指示预设大小区间目标在所述第一帧和所述第二帧之间的变化。在这种情况下，在步骤S204中，可以包括根据所述目标的大小选择对应的输出集合，以确定所述目标在所述第二帧和所述第一帧之间的变化。

例如，所述变化可以指的是第一帧中的第一目标检测结果对应的目标的位置和形状特征的变化。例如，以第一目标检测结果对应的目标是一个矩形的目标框为例，其形状特征可以指的是矩形目标框的长度和宽度。目标的位置变化可以用目标上的一个特征点的位置变化表示。例如，可以将矩形目标框的左上角的特征点作为目标的特征点，并用左上角的特征点的位置变化表示所述目标的位置变化。

图3示出了根据本申请的实施例的一种像素级的目标跟踪算法的示意性的示例。

下文中将以视频中的第t-1帧和第t帧为例解释本申请的目标跟踪算法的原理。其中t是大于1的整数。然而，本领域技术人员可以理解，事实上可以根据实际情况选择视频中第t帧之前的任意一帧，并利用选择的这一帧的目标检测结果预测第t帧帧中的检测结果。

如图3所示，其中，可以将第t-1帧和第t帧输入第一神经网络。在一些实施例中，可以利用像素级分割网络结构(例如DeepLab系列网络、FCN网络等)实现第一神经网络。例如，第一神经网络中可以包括像素级分割网络结构，以获取第t-1帧和第t帧的像素级的语义信息。

其中，第t-1帧和第t帧是两帧尺寸为H*W的图像。其中H、W可以是以像素个数为单位的尺寸。在一些实施例中，第t-1帧和第t帧具有相同的通道数。例如，当第t-1帧和第t帧是彩色图像时，第t-1帧和第t帧均具有R、G、B三个通道数。通过组合第t-1帧和第t帧，例如在通道维度上连接(concat)可以形成一个尺寸为H*W*6的输入张量。本领域技术人员可以理解，也可以通过其他方式对第t帧和第t-1帧进行组合。

通过利用第一神经网络对上述输入张量进行处理，能够对输入张量进行像素级的语义分割。通过适当地配置所述第一神经网络，可以使得第一神经网络输出至少一个与第t-1帧和第t帧的图像尺寸相等的输出图。例如，可以通过对像素级分割网络输出的结果进行至少一次卷积得到所述第一神经网络的输出图。当所述第一神经网络被配置成输出至少两个输出图时，可以通过对像素级分割网络输出的结果分别进行至少一次卷积分别得到相应的输出图。

通过适当地训练，第一神经网络的输出图中与第t-1帧中的目标对应的每个像素的像素值可以指示该像素所属的目标的位置或形状特征在第t-1帧和第t帧之间的变化。

在一些实施例中，当第t-1帧中的检测结果被表示为矩形的目标框时，可以将第一神经网络配置成输出四个输出图。这四个输出图中的像素的像素值可以用于表示第t-1帧中的目标框在水平方向上的参数x的变化、在垂直方向上的参数y变化、矩形框的宽度w的变化以及矩形框的高度h的变化。在一种实现方式中，上述四个参数x、y、w、h在第t-1帧和第t帧之间的变化可以表示为下式：

Δx＝x_t-x_t-1 (1)

Δy＝y_t-y_t-1 (2)

本领域技术人员可以理解，上述四个参数x、y、w、h在第t-1帧和第t帧之间的变化的表示方式不限于此。例如，Δw也可以表示为Δh也可以表示为本领域技术人员可以根据实际情况确定Δx、Δy、Δw以及Δh的表示方式。

因此，对于第t-1帧中的任意一个目标框，可以利用输出图中对应于该目标框所覆盖的像素的像素值的平均值表示该目标框的位置或形状特征的变化。

可以理解的是，当第t-1帧中的目标表示为其他形状的目标框时，可以根据实际情况确定用于表示目标框的位置和形状的特征，并根据确定的目标框的位置和形状的特征确定目标跟踪网络的输出图的数量。其中每个输出图表示目标框的位置和形状的特征中的一个的变化。

在另一个实施例中，可以将第一神经网络输出的至少一个输出图划分为至少两个输出集合，每个输出集合包括至少一个输出图，其中每个输出集合用于指示预设大小区间目标在所述第一帧和所述第二帧之间的变化。每个输出集合中的输出图分别表示预设大小区间的目标的位置或形状特征的变化。

在一种实现方式中，当第t-1帧中的检测结果被表示为矩形的目标框时，第一神经网络可以输出三个输出集合，其中每个输出集合包括四个输出图。每个输出集合分别表示用于跟踪大尺寸的目标、中等尺寸的目标以及小尺寸的目标。可以根据预设的第一尺寸阈值和第二尺寸阈值确定目标框所述的尺寸区间。例如，可以将尺寸大于(等于)第一尺寸阈值的目标确定为大尺寸的目标，将尺寸小于(等于)第二尺寸阈值的目标确定为小尺寸的目标，将尺寸在第一尺寸阈值和第二尺寸阈值之间的目标确定为中等尺寸的目标。可以根据预先定义的尺寸区间将图像帧中包括的目标框划分为大尺寸的目标框、中等尺寸的目标框以及小尺寸的目标框。通过利用适当的训练集对第一神经网络进行训练，各输出集合对相应尺寸的目标框将具有更好的跟踪效果。可以理解的是，本领域技术人员可以根据实际情况任意确定尺寸区间的划分方式以及尺寸区间的数量。

此外，每个输出集合中包括的四个输出图分别用于表示第t-1帧中的目标框在水平的x方向上的变化、在垂直的y方向上的变化、矩形框的宽度w的变化以及矩形框的高度h的变化。

返回参考图2，在步骤S206中，可以根据所述第一目标检测结果和所述目标在所述第二帧和所述第一帧之间的变化确定所述第二帧中关于所述目标的第二目标检测结果。

在一些实施例中，可以根据所述目标在所述第二帧和所述第一帧之间的变化调整上述第一帧中的第一目标检测结果，以确定用于第二帧的第二目标检测结果。例如，可以根据公式(1)-(4)确定在第二帧中目标的位置和形状特征的参数。

如前所述，利用步骤S202可以确定第一帧(例如第t-1帧)中的目标检测结果，即x_t-1、y_t-1、w_t-1、以及h_t-1。利用步骤S204可以确定所述目标在第一帧和第二帧之间的变化，即Δx、Δy、Δw以及Δh。在x_t-1、y_t-1、w_t-1、h_t-1以及Δx、Δy、Δw以及Δh均已知的情况下，可以利用公式(1)-(4)计算得到x_t、y_t、w_t、h_t。继续参考图3，根据利用第一神经网络输出的输出图，可以确定第t帧的目标跟踪结果。这样的目标跟踪结果可以被确定为第t帧中对应于所述目标的检测结果。

本领域技术人员可以理解，所述目标不限于矩形目标框的形式。事实上，可以利用任何形状的目标框表示图像帧中的检测结果对应的目标。例如，可以使用三角形、圆形等几何形状、目标的轮廓线或任意曲线组成的形状表示图像帧中的检测结果对应的目标。

利用上述方法，可以实现对视频中的部分图像帧执行较为耗时的目标检测，而对另一部分图像帧执行速度更快的目标跟踪，从而加快在视频中对目标进行监测的计算速度。因此，可以理解的是，可以利用第二帧中关于所述目标的第二目标检测结果进一步预测在第二帧之后的第三帧中目标的位置。例如，可以对位于所述第二帧之后的第三帧应用目标跟踪操作，以确定所述目标在所述第三帧和所述第二帧之间的变化。然后，可以根据所述第二目标检测结果和所述目标在所述第三帧和所述第二帧之间的变化确定所述第三帧中关于所述目标的第三目标检测结果。

利用本申请提供的用于在视频中对目标进行检测的方法，通过仅对视频中的部分图像帧应用目标检测算法，而对其他图像帧应用计算量更小的目标跟踪算法，能够提高在视频中对目标进行检测的计算速度，从而能够满足更高的实时性要求。此外，通过对图像帧进行像素级的分割，更能够预测每个像素点所属物体在后续的图像帧中的位置，从而得到最终的目标物体跟踪结果。此外，通过在目标检测的过程中提供目标物体感知的指导信息，可以获得更好的目标检测结果。

下面将介绍本申请中使用的第一神经网络和第二神经网络的训练方法。可以利用预设的训练集对上述第一神经网络和第二神经网络进行训练。其中，第一神经网络和第二神经网络均可以包括输入层、中间层以及输出层。其中所述中间层可以包括至少一个卷积层。

在一些实施例中，可以确定训练第一神经网络所需的第一训练集，其中所述第一训练集包括第一训练视频，所述第一训练视频包括第一训练帧和位于所述第一训练帧之后的第二训练帧，所述第一训练帧和所述第二训练帧中包括待检测的训练目标。技术人员可以通过例如人工标注或利用通用的目标检测算法确定第一训练帧和第二训练帧中的真实检测结果，从而确定所述训练目标在所述第二训练帧和所述第一训练帧之间的真实变化。

通过对所述第一训练帧应用目标检测操作可以确定所述第一训练帧中关于所述训练目标的第一训练检测结果。通过利用第一神经网络对第一训练视频中位于所述第一训练帧之后的第二训练帧应用目标跟踪操作可以确定所述训练目标在所述第二训练帧和所述第一训练帧之间的第一变化。通过调整所述第一神经网络的参数可以使得所述第一变化与所述真实变化之间的差别最小。在一些实施例中，可以使用L1正则项或L2正则项表示上述第一变化与真实变化之间的差别。

在一些实施例中，还可以根据所述第一神经网络的中间层的输出结果对所述第一神经网络进行训练。这样的中间层的输出结果可以被称作是旁支跟踪预测器。例如，可以根据所述第一神经网络的至少一个中间层的输出确定所述训练目标在所述第二训练帧和所述第一训练帧之间的第二变化，并确定所述第二变化与所述真实变化之间的差别。可以调整所述第一神经网络的参数使得所述第一变化与所述真实变化之间的差别和所述第二变化与所述真实变化之间的差别最小。其中所述第二变化的物理意义和前述第一变化的物理意义是相同的，都可以表示训练目标的目标跟踪结果。其区别在于第一变化中包括了第一神经网络中全部卷积层处理的结果，而第二变化中只包括了第一神经网络中部分卷积层的处理结果。通过根据所述第二变化与所述真实变化之间的差别调整第一神经网络中的参数，以使得所述第二变化与所述真实变化之间的差别最小可以实现对第一神经网络进一步的训练。在一些实施例中，可以使用L1正则项或L2正则项表示上述第一变化与真实变化之间的差别。在考虑第二变化的情况下，由于训练过程中的反馈监督结果不仅仅作用于网络末端的输出，也能作用于网络中间的卷积层，因此能够使训练效果更好，网络预测精度更高。

与所述第一变化类似，第二变化也可以是包括至少两个用于跟踪不同尺寸的目标的输出集合。

可以利用预设的训练集对上述第二神经网络进行训练。例如，可以确定第一训练帧中真实的目标的位置和大小。利用本申请在图4A中提供的目标检测方法，根据所述第二神经网络的输出可以确定用于所述第一训练帧的第一训练目标检测结果。可以利用人工标注的方式确定第一训练帧中的真实目标。可以根据上述第一目标检测结果和第一训练帧中的真实目标之间的差异调整第二神经网络中的参数，以使得第一目标检测结果和第一训练帧中的真实目标之间的差异最小。在一些实施例中，可以利用L1正则项或L2正则项表示第一目标检测结果和第一训练帧中的真实目标之间的差异。

图4A示出了根据本申请的实施例的根据目标跟踪结果对视频中的第一帧进行目标检测的方法的示意性的流程图。

在步骤S402中，可以根据第一帧与所述第一帧的前一帧的目标检测结果对所述第一帧执行目标跟踪操作，以确定用于所述第一帧的目标跟踪结果。例如，可以利用如图2、图3中所解释的目标跟踪网络处理第一帧和所述第一帧的前一帧，以得到用于所述第一帧的目标跟踪结果。这里得到的目标跟踪结果可以被用作第一帧的目标检测算法的目标物体感知(instance-aware)的指导信息。

在步骤S404中，可以对所述第一帧和所述第一帧的目标跟踪结果的组合执行目标检测操作，以确定用于所述第一帧的目标检测结果。例如，可以利用第二神经网络对所述第一帧和所述第一帧的目标跟踪结果的组合执行目标检测操作。如前所述，本领域技术人员可以以任何方式实现所述第一帧和所述第一帧的目标跟踪结果的组合，例如在通道维度上的连接。

在一些实施例中，可以根据所述第一帧的目标跟踪结果，将第一帧中除上述目标跟踪结果以外的像素置为零，以得到用于第一帧的目标跟踪图像。将该目标跟踪图像和第一帧的图像在通道维度上进行组合，可以形成一个尺寸为H*W*6的检测输入张量。可以利用目标检测算法对上述检测输入张量进行处理，并得到第一帧的目标检测结果。

图4B示出了根据本申请的实施例的基于目标跟踪结果进行目标检测操作的示意图。图4B的上半部分示出了根据本申请的原理的目标跟踪过程，利用这一目标跟踪过程能够得到第t帧的目标跟踪结果。然后可以将第t帧的目标跟踪结果和第t帧的图像在通道维度上进行组合，并利用目标检测算法对第t帧的目标跟踪结果和第t帧的图像组合的输入张量进行处理，并得到最终的第t帧的目标跟踪结果。

图4B的下半部分示出了利用第t帧的目标跟踪结果对第t帧执行目标检测的过程。如图4B所示，可以将利用目标跟踪算法得到的第t帧的目标跟踪图像与第t帧的图像在通道维度上进行组合并输入训练好的第二神经网络，以得到第t帧的目标检测结果。

图5示出了根据本申请的实施例的在视频中对目标进行检测的装置的示意性的框图。如图5所示，装置500可以包括目标检测单元510、目标跟踪单元520以及结果确定单元530。

目标检测单元510可以配置成对第一帧应用目标检测操作，以确定所述第一帧中关于所述目标的第一目标检测结果。在一些实施例中，目标检测操作可以是利用R-CNN、Fast R-CNN、Faster R-CNN、YOLO或SSD等图像目标检测算法中的任何一种所执行的。例如，可以将所述第一帧输入上述目标检测算法，并将目标检测算法输出的结果作为所述第一帧的检测结果。例如，目标检测算法可以输出指示所述第一帧中包括的至少一个预设目标的目标框。

在一些实施例中，可以根据所述第一帧之前的图像帧的检测结果对所述第一帧进行目标检测。例如，可以根据所述第一帧的前一帧(或位于所述第一帧之前的任意一帧)的检测结果对所述第一帧执行目标跟踪操作，以确定用于所述第一帧的目标跟踪结果。然后，可以根据所述第一帧的目标跟踪结果和所述第一帧中的图像信息对所述第一帧执行目标检测算法，以确定所述第一帧中的检测结果。

目标跟踪单元520可以配置成对位于所述第一帧之后的第二帧应用目标跟踪操作，以确定所述目标在所述第二帧和所述第一帧之间的变化。

可以利用本申请提供的第一神经网络实现目标跟踪。下文中将以视频中的第t-1帧和第t帧为例解释本申请的目标跟踪算法的原理。其中t是大于1的整数。

可以将第t-1帧和第t帧输入第一神经网络。在一些实施例中，可以利用像素级分割网络结构(例如DeepLab系列网络、FCN网络等)实现第一神经网络。例如，第一神经网络中可以包括像素级分割网络结构，以获取第t-1帧和第t帧的像素级的语义信息。

Δx＝x_t-x_t-1 (1)

Δy＝y_t-y_t-1 (2)

在一种实现方式中，当第t-1帧中的检测结果被表示为矩形的目标框时，第一神经网络可以输出三个输出集合，其中每个输出集合包括四个输出图。每个输出集合分别表示用于跟踪大尺寸的目标、中等尺寸的目标以及小尺寸的目标。可以根据预先定义的尺寸区间将图像帧中包括的目标框划分为大尺寸的目标框、中等尺寸的目标框以及小尺寸的目标框。通过利用适当的训练集对第一神经网络进行训练，各输出集合对相应尺寸的目标框将具有更好的跟踪效果。

通过在对图像帧应用目标检测算法的过程中考虑图像帧的跟踪结果，能够实现为目标的检测过程提供一定的参考信息，从而能够改善图像帧的目标检测结果。

结果检测单元530可以配置成根据所述第一目标检测结果和所述目标在所述第二帧和所述第一帧之间的变化确定所述第二帧中关于所述目标的第二目标检测结果。

如前所述，利用目标检测单元510可以确定第一帧(例如第t-1帧)中的目标检测结果，即x_t-1、y_t-1、w_t-1、以及h_t-1。利用目标跟踪单元520可以确定所述目标在第一帧和第二帧之间的变化，即Δx、Δy、Δw以及Δh。在x_t-1、y_t-1、w_t-1、h_t-1以及Δx、Δy、Δw以及Δh均已知的情况下，可以利用公式(1)-(4)计算得到x_t、y_t、w_t、h_t。

利用上述装置，可以实现对视频中的部分图像帧执行较为耗时的目标检测，而对另一部分图像帧执行速度更快的目标跟踪，从而加快在视频中对目标进行监测的计算速度。因此，可以理解的是，可以利用第二帧中关于所述目标的第二目标检测结果进一步预测在第二帧之后的第三帧中目标的位置。例如，目标跟踪单元可以进一步配置成对位于所述第二帧之后的第三帧应用目标跟踪操作，以确定所述目标在所述第三帧和所述第二帧之间的变化。结果确定单元可以配置成根据所述第二目标检测结果和所述目标在所述第三帧和所述第二帧之间的变化确定所述第三帧中关于所述目标的第三目标检测结果。

利用本申请提供的用于在视频中对目标进行检测的装置，通过仅对视频中的部分图像帧应用目标检测算法，而对其他图像帧应用计算量更小的目标跟踪算法，能够提高在视频中对目标进行检测的计算速度，从而能够满足更高的实时性要求。此外，通过对图像帧进行像素级的分割，更能够预测每个像素点所属物体在后续的图像帧中的位置，从而得到最终的目标物体跟踪结果。此外，通过在目标检测的过程中提供目标物体感知的指导信息，可以获得更好的目标检测结果。

图6示出了根据本申请的实施例的在视频中对目标进行检测的示意图。如图6所示，可以利用摄像机620拍摄包括目标的图像610，并形成包括至少两个图像帧的视频630。然后利用检测器640可以对视频630进行目标检测，以得到检测结果650。其中检测器640可以实现为本申请提供的装置500。检测结果650中表示对图像帧中包括的2个目标进行跟踪。本领域技术人员可以理解，根据实际情况，可以对图像帧中包括的任意数量的目标进行跟踪。

在一些实施例中，检测器640可以配置成对视频中的第1+nτ帧执行目标检测算法，并对其余图像帧执行目标跟踪算法。其中n是大于等于0的整数，τ是预定义的正整数。通过这样的配置，能够以跳帧的方式实现对视频630的目标检测，而不需要对每一帧都执行耗时的目标检测算法。本领域技术人员可以理解，上述配置仅是一种示例，本领域技术人员可以根据实际情况选择视频中的任何图像帧执行目标检测算法。

图7示出了根据本申请的实施例对视频中的图像帧进行目标检测的过程的示意图。如图7所示，每隔τ帧，可以对视频的图像帧执行一次耗时的目标检测算法，以得到可用于之后的目标跟踪算法的检测结果。通过每隔一段时间执行一次目标检测算法，能够使得利用本申请原理执行的跳帧目标检测的结果不会偏离真实结果。对于没有执行目标检测算法的视频中的其他图像帧，可以利用目标跟踪算法确定在这些帧中的目标的检测结果(示出为图7中的箭头)。

此外，根据本申请实施例的方法或装置也可以借助于图8所示的计算设备的架构来实现。图8示出了该计算设备的架构。如图8所示，计算设备800可以包括总线810、一个或至少两个CPU 820、只读存储器(ROM)830、随机存取存储器(RAM)840、连接到网络的通信端口850、输入/输出组件860、硬盘870等。计算设备800中的存储设备，例如ROM 830或硬盘870可以存储本申请提供的用于在视频中对目标进行检测的方法的处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。计算设备800还可以包括用户界面880。当然，图8所示的架构只是示例性的，在实现不同的设备时，根据实际需要，可以省略图8示出的计算设备中的一个或至少两个组件。

本申请的实施例也可以被实现为车辆。根据本申请实施例的车辆可以包括用于采集视频的图像传感器、用于存储指令的存储器以及处理器，其中所述处理器通过执行所述指令，对所采集的视频执行参照以上附图描述的根据本申请实施例的方法。

本申请的实施例也可以被实现为机器人。根据本申请实施例的机器人可以包括用于采集视频的图像传感器、用于存储指令的存储器以及处理器，其中所述处理器通过执行所述指令，对所采集的视频执行参照以上附图描述的根据本申请实施例的方法。

本申请的实施例也可以被实现为监控设备。根据本申请实施例的监控设备可以包括用于采集视频的图像传感器、用于存储指令的存储器以及处理器，其中所述处理器通过执行所述指令，对所采集的视频执行参照以上附图描述的根据本申请实施例的方法。

本申请的实施例也可以被实现为计算机可读存储介质。根据本申请实施例的计算机可读存储介质上存储有计算机可读指令。当所述计算机可读指令由处理器运行时，可以执行参照以上附图描述的根据本申请实施例的方法。所述计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。

本领域技术人员能够理解，本申请所披露的内容可以出现多种变型和改进。例如，以上所描述的各种设备或组件可以通过硬件实现，也可以通过软件、固件、或者三者中的一些或全部的组合实现。

此外，如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

此外，虽然本申请对根据本申请的实施例的系统中的某些单元做出了各种引用，然而，任何数量的不同单元可以被使用并运行在客户端和/或服务器上。所述单元仅是说明性的，并且所述系统和方法的不同方面可以使用不同单元。

此外，本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

除非另有定义，这里使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

上面是对本发明的说明，而不应被认为是对其的限制。尽管描述了本发明的若干示例性实施例，但本领域技术人员将容易地理解，在不背离本发明的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此，所有这些修改都意图包含在权利要求书所限定的本发明范围内。应当理解，上面是对本发明的说明，而不应被认为是限于所公开的特定实施例，并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本发明由权利要求书及其等效物限定。

Claims

1.一种在视频中对目标进行检测的方法，所述方法包括：

对所述视频中的第一帧应用目标检测操作，以确定所述第一帧中关于所述目标的第一目标检测结果；

对所述视频中位于所述第一帧之后的第二帧应用目标跟踪操作，以确定所述目标在所述第二帧和所述第一帧之间的变化；以及

根据所述第一目标检测结果和所述目标在所述第二帧和所述第一帧之间的变化确定所述第二帧中关于所述目标的第二目标检测结果。

2.如权利要求1所述的方法，其中，对所述视频中位于所述第一帧之后的第二帧应用目标跟踪操作，以确定所述第一目标检测结果对应的目标在所述第二帧和所述第一帧之间的变化包括：

利用第一神经网络提取所述第一帧与所述第二帧的组合的语义信息，并根据所提取的语义信息输出指示所述第一目标检测结果对应的目标在所述第一帧和所述第二帧之间的变化的结果。

3.如权利要求2所述的方法，其中，所述第一神经网络的输出包括至少两个输出集合，每个输出集合包括至少一个与所述第二帧尺寸相同的输出图，其中

对位于所述第一帧之后的第二帧应用目标跟踪操作，以确定所述目标在所述第二帧和所述第一帧之间的变化包括：

根据所述目标的大小选择对应的输出集合，以确定所述目标在所述第二帧和所述第一帧之间的变化。

4.如权利要求1所述的方法，其中，所述目标在所述第二帧和所述第一帧之间的变化是所述目标的位置和形状特征在所述第一帧和所述第二帧之间的变化。

5.如权利要求1所述的方法，其中，根据所述第一目标检测结果和所述目标在所述第二帧和所述第一帧之间的变化确定所述第二帧中关于所述目标的第二目标检测结果包括：

根据所述目标在所述第二帧和所述第一帧之间的变化调整所述第一目标检测结果，以确定所述第二目标检测结果。

6.如权利要求1所述的方法，还包括，对所述视频中位于所述第二帧之后的第三帧应用目标跟踪操作，以确定所述目标在所述第三帧和所述第二帧之间的变化；以及

根据所述第二目标检测结果和所述目标在所述第三帧和所述第二帧之间的变化确定所述第三帧中关于所述目标的第三目标检测结果。

7.如权利要求1所述的方法，其中，对所述视频中的第一帧应用目标检测操作，以确定用于所述第一帧的第一目标检测结果包括：

基于所述第一帧的前一帧和所述第一帧执行目标跟踪操作，以确定所述第一帧中关于所述目标的目标跟踪结果；以及

对所述第一帧和所述目标跟踪结果的组合应用目标检测操作，以确定所述第一帧中关于所述目标的第一目标检测结果。

8.如权利要求2-7任一项所述的方法，其中所述第一神经网络是通过以下方法训练的：

确定训练第一神经网络所需的第一训练集，其中所述第一训练集包括第一训练视频，所述第一训练视频包括第一训练帧和位于所述第一训练帧之后的第二训练帧，所述第一训练帧和所述第二训练帧中包括待检测的训练目标；

确定所述训练目标在所述第二训练帧和所述第一训练帧之间的真实变化；

对所述第一训练帧应用目标检测操作，以确定所述第一训练帧中关于所述训练目标的第一训练检测结果；

利用第一神经网络对所述第二训练帧应用目标跟踪操作，以确定所述训练目标在所述第二训练帧和所述第一训练帧之间的第一变化；

确定所述第一变化与所述真实变化之间的差别；

根据所述第一神经网络的至少一个中间层的输出确定所述训练目标在所述第二训练帧和所述第一训练帧之间的第二变化；

确定所述第二变化与所述真实变化之间的差别；以及

调整所述第一神经网络的参数使得所述第一变化与所述真实变化之间的差别和所述第二变化与所述真实变化之间的差别最小。

9.一种在视频中对目标进行检测的装置，包括：

目标检测单元，配置成对所述视频中的第一帧应用目标检测操作，以确定所述第一帧中关于所述目标的第一目标检测结果；

目标跟踪单元，配置成对所述视频中位于所述第一帧之后的第二帧应用目标跟踪操作，以确定所述目标在所述第二帧和所述第一帧之间的变化；以及

结果确定单元，配置成根据所述第一目标检测结果和所述目标在所述第二帧和所述第一帧之间的变化确定所述第二帧中关于所述目标的第二目标检测结果。

10.如权利要求9所述的装置，其中，所述目标跟踪单元还配置成：

11.一种车辆，包括：

图像传感器，用于采集视频；

存储器，用于存储指令；以及

处理器，用于通过执行所述指令，对所采集的视频执行如权利要求1-8中任一项所述的方法。

12.一种机器人，包括：

图像传感器，用于采集视频；

存储器，用于存储指令；以及

13.一种监视设备，包括：

图像传感器，用于采集视频；

存储器，用于存储指令；以及

14.一种在视频中对目标进行检测的设备，所述设备包括存储器和处理器，其中所述存储器中存有指令，当利用所述处理器执行所述指令时，使得所述处理器执行如权利要求1-8中任一项所述的方法。

15.一种计算机可读存储介质，其上存储有指令，所述指令在被处理器执行时，使得所述处理器执行如权利要求1-8中任一项所述的对目标进行检测的方法。