CN113313011A

CN113313011A - 视频帧处理方法、装置、计算机设备及存储介质

Info

Publication number: CN113313011A
Application number: CN202110579947.2A
Authority: CN
Inventors: 陈龙泉; 刘余钱
Original assignee: Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2021-08-27

Abstract

本公开提供了一种视频帧处理方法、装置、计算机设备及存储介质，包括：获取当前视频帧和在当前视频帧之前的目标视频帧分别对应的目标检测结果，目标检测结果用于表示至少一个目标对象在视频帧中的位置信息；基于当前视频帧对应的目标检测结果，以及当前视频帧与目标视频帧对应的帧间位移，确定当前视频帧中的目标对象在目标视频帧中对应的目标极线；目标极线用于表示目标对象在目标视频帧中的预测位置，帧间位移用于表示拍摄当前视频帧和目标视频帧时的图像采集设备的位姿变化情况；基于目标视频帧的目标检测结果以及目标极线，确定当前视频帧与目标视频帧中是否包含同一目标对象。

Description

视频帧处理方法、装置、计算机设备及存储介质

技术领域

本公开涉及信息处理技术领域，具体而言，涉及一种视频帧处理方法、装置、计算机设备及存储介质。

背景技术

近些年来，无人驾驶技术高速发展，使得车辆能够完全自主决策进行自动驾驶的相关技术涉及：场景感知、高精度定位，高精度地图、路径规划、行为决策，车辆控制等，在这其中高精度地图是一项较为关键的技术，高精地图中的语义信息包含车道线(虚实，颜色，位置)，路牌，红绿灯等交通元素。

在构建高精地图时，一般需要连续先确定各个交通元素的位置信息，然后在地图中标注出来，相关技术中在标注交通元素时，一般是通过目标追踪的方法，将多帧视频帧输入至预先训练的神经网络中，由神经网络确定包含同一交通元素的多帧视频帧，再基于拍摄多帧视频帧时图像采集装置的位置信息，去对该同一交通元素进行定位并进行标注。

然而每个神经网络只能进行单目标追踪，若要实现对全部交通元素的追踪，则需要训练多个神经网络，这种方法效率较低。

发明内容

本公开实施例至少提供一种视频帧处理方法、装置、计算机设备及存储介质。

第一方面，本公开实施例提供了一种视频帧处理方法，包括：

获取当前视频帧和在当前视频帧之前的目标视频帧分别对应的目标检测结果，所述目标检测结果用于表示至少一个目标对象在视频帧中的位置信息；

基于所述当前视频帧对应的目标检测结果，以及所述当前视频帧与所述目标视频帧对应的帧间位移，确定所述当前视频帧中的所述目标对象在所述目标视频帧中对应的目标极线；所述目标极线用于表示所述目标对象在所述目标视频帧中的预测位置，所述帧间位移用于表示拍摄所述当前视频帧和所述目标视频帧时的图像采集设备的位姿变化情况；

基于所述目标视频帧的目标检测结果以及所述目标极线，确定所述当前视频帧与所述目标视频帧中是否包含同一所述目标对象。

通过上述方法，可以基于当前视频帧和目标视频帧的目标检测结果，确定当前视频帧中的每一个目标对象在目标视频帧中对应的目标极线，并基于目标视频帧的目标检测结果以及所述目标极线，确定当前视频帧和目标视频帧是否包含同一目标对象，然后可以对目标对象进行定位，再基于定位结果去构建高精地图，这样无需训练多个神经网络，即可完成对目标对象的追踪，效率较高。

一种可能的实施方式中，所述获取当前视频帧和在当前视频帧之前的目标视频帧分别对应的目标检测结果，包括：

将所述当前视频帧和所述目标视频帧分别输入至预先训练的神经网络中，得到所述当前视频帧和所述目标视频帧分别对应的目标检测结果。

通过这种方法，可以得到精确的视频帧的目标检测结果，然后基于目标检测结果去判断当前视频帧与所述目标视频帧中是否包含同一所述目标对象时，精度也相应较高。

一种可能的实施方式中，所述目标检测结果包括所述目标对象对应的检测框；

所述基于所述当前视频帧对应的目标检测结果，以及所述当前视频帧与所述目标视频帧对应的帧间位移，确定所述当前视频帧中的所述目标对象在所述目标视频帧中对应的目标极线，包括：

基于所述帧间位移和预设深度范围，将所述当前视频帧对应的目标对象的检测框的中心投影至所述目标视频帧，确定所述目标极线。

通过预设深度范围，可以较精确的预估目标视频帧中的目标极线，进而提高不同视频帧中同一目标对象的检测精度。

所述基于所述目标视频帧的目标检测结果以及所述目标极线，确定所述当前视频帧与所述目标视频帧中是否包含同一所述目标对象，包括：

确定所述目标对象在所述目标视频帧中对应的候选检测框；

检测所述候选检测框的位置信息，以及所述目标极线在所述目标视频帧中的位置信息是否满足预设条件；

若是，则确定所述目标视频帧中满足预设条件的所述候选检测框对应的目标对象与所述目标极线在所述当前视频帧中对应的目标对象为同一目标对象；

若否，则返回重新确定所述当前视频帧对应的目标视频帧。

通过重新确定目标视频帧，可以从其他视频帧中查找是否包含与当前视频帧中相同的目标对象，这样可以避免由于当前的目标视频帧中的目标对象被遮挡而无法对目标对象进行定位的问题。

一种可能的实施方式中，所述目标视频帧为当前视频帧之前的第N帧视频帧；

所述重新确定所述当前视频帧对应的目标视频帧，包括：

将所述当前视频帧之前的第N+t帧视频帧作为重新确定的目标视频帧，所述N+t为小于M的正整数，M和t为预设值，N、t为正整数。

通过预设值M，可以避免对于目标视频帧之前的全部视频帧进行检测，提高了检测效率。

一种可能的实施方式中，所述方法还包括：

确定同一目标对象所在的多帧视频帧；

基于采集所述多帧视频帧的图像采集设备的位置信息，确定所述同一目标对象的位置信息；

基于所述目标对象的位置信息构建地图。

通过这种方法构建的地图，无需借助多个神经网络，因此效率较高。

第二方面，本公开实施例还提供一种视频帧处理装置，包括：

获取模块，用于获取当前视频帧和在当前视频帧之前的目标视频帧分别对应的目标检测结果，所述目标检测结果用于表示至少一个目标对象在视频帧中的位置信息；

第一确定模块，用于基于所述当前视频帧对应的目标检测结果，以及所述当前视频帧与所述目标视频帧对应的帧间位移，确定所述当前视频帧中的所述目标对象在所述目标视频帧中对应的目标极线；所述目标极线用于表示所述目标对象在所述目标视频帧中的预测位置，所述帧间位移用于表示拍摄所述当前视频帧和所述目标视频帧时的图像采集设备的位姿变化情况；

第二确定模块，用于基于所述目标视频帧的目标检测结果以及所述目标极线，确定所述当前视频帧与所述目标视频帧中是否包含同一所述目标对象。

一种可能的实施方式中，所述获取模块，在获取当前视频帧和在当前视频帧之前的目标视频帧分别对应的目标检测结果时，用于：

所述第一确定模块，在基于所述当前视频帧对应的目标检测结果，以及所述当前视频帧与所述目标视频帧对应的帧间位移，确定所述当前视频帧中的所述目标对象在所述目标视频帧中对应的目标极线时，用于：

所述第二确定模块，在基于所述目标视频帧的目标检测结果以及所述目标极线，确定所述当前视频帧与所述目标视频帧中是否包含同一所述目标对象时，用于：

确定所述目标对象在所述目标视频帧中对应的候选检测框；

若否，则返回重新确定所述当前视频帧对应的目标视频帧。

所述第二确定模块，在重新确定所述当前视频帧对应的目标视频帧时，用于：

一种可能的实施方式中，所述装置还包括地图构建模块，用于：

确定同一目标对象所在的多帧视频帧；

基于所述目标对象的位置信息构建地图。

第三方面，本公开实施例还提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

第四方面，本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

关于上述视频帧处理装置、计算机设备、及计算机可读存储介质的效果描述参见上述视频帧处理方法的说明，这里不再赘述。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种极线投影的示意图；

图2示出了本公开实施例所提供的一种视频帧处理方法的流程图；

图3示出了本公开实施例所提供的一种视频帧处理方法中，确定当前视频帧与目标视频帧中是否包含同一所述目标对象方法的流程图；

图4示出了本公开实施例所提供的一种地图构建方法的流程图；

图5示出了本公开实施例所提供的一种视频帧处理装置的架构示意图；

图6示出了本公开实施例所提供的一种计算机设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

经研究发现，相关技术中，在构建高精地图时，一般需要连续先确定各个交通元素的位置信息，然后在地图中标注出来，相关技术中在标注交通元素时，一般是通过目标追踪的方法，将多帧视频帧输入至预先训练的神经网络中，由神经网络确定包含同一交通元素的多帧视频帧，再基于拍摄多帧视频帧时图像采集装置的位置信息，去对该同一交通元素进行定位并进行标注。

另外，相关技术中还可以通过激光雷达获取交通元素的位置信息，然后通过人工进行交通元素标注，一方面通过激光雷达采集数据成本较高，另一方面由于人工标注交通元素，效率和精度都比较低。

基于上述研究，本公开提供了一种视频帧处理方法、装置、计算机设备及存储介质，可以基于当前视频帧和目标视频帧的目标检测结果，确定当前视频帧中的每一个目标对象在目标视频帧中对应的目标极线，并基于目标视频帧的目标检测结果以及所述目标极线，确定当前视频帧和目标视频帧是否包含同一目标对象，然后可以对目标对象进行定位，再基于定位结果去构建高精地图，这样无需训练多个神经网络，即可完成对目标对象的追踪，效率较高。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案，都应该是发明人在本公开过程中对本公开做出的贡献。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种视频帧处理方法进行详细介绍，本公开实施例所提供的视频帧处理方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该视频帧处理方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

首先对极线投影的概念展开介绍。参见图1所示，设O₁和O₂为相机在不同位置下拍摄的图像，对于图像O₁上一个点P₁，仅能通过图像O₁确定P₁的图像位置，但是无法获取P₁对应的物体的深度信息。然后可以给定一个可能的深度范围d，该深度范围表示P₁对应的物体的深度范围，从可能的深度范围中取K个点(可以取最大深度范围和最小深度范围这两个点)，将这些点投影至图像O₂中，可以得到一条极线，该条极线的意义为点P₁在图像O₂中所有可能的位置，即P₂的可能位置。

基于此，本公开提供了一种视频帧处理方法，参见图2所示，为本公开实施例提供的一种视频帧处理方法的流程图，所述方法包括步骤201～步骤203，其中：

步骤201、获取当前视频帧和在当前视频帧之前的目标视频帧分别对应的目标检测结果，所述目标检测结果用于表示至少一个目标对象在视频帧中的位置信息；

步骤202、基于所述当前视频帧对应的目标检测结果，以及所述当前视频帧与所述目标视频帧对应的帧间位移，确定所述当前视频帧中的所述目标对象在所述目标视频帧中对应的目标极线；所述目标极线用于表示所述目标对象在所述目标视频帧中的预测位置，所述帧间位移用于表示拍摄所述当前视频帧和所述目标视频帧时的图像采集设备的位姿变化情况；

步骤203、基于所述目标视频帧的目标检测结果以及所述目标极线，确定所述当前视频帧与所述目标视频帧中是否包含同一所述目标对象。

以下是对上述步骤的详细介绍。

针对步骤201、

这里，所述当前视频帧和所述目标视频帧可以是由图像采集设备在不同位置拍摄的视频帧图像，拍摄当前视频帧和目标视频帧的图像采集设备可以是安装在同一车辆上的同一设备，也可以是参数信息相同的不同设备。

所述目标视频帧可以是当前视频帧前的第N帧视频帧，N为小于M的正整数，M为预设值，具体的目标视频帧的确定将在下面展开介绍；所述目标对象为待检测的对象，例如可以包括车道线(虚实，颜色，位置)，路牌，红绿灯等。

在一种可能的实施方式中，视频帧对应的目标检测结果包括，该视频帧中所包含的目标对象在该视频帧中的对应的检测框。不同的视频帧中所包含的目标对象的个数，以及目标对象的类型可能不同，例如A视频帧中可能仅包括路牌，则A视频帧对应的目标检测结果为路牌对应的检测框；B视频帧中可能仅包括红绿灯，则B视频帧对应的目标检测结果为红绿的对应的检测框。

在一种可能的实施方式中，在获取当前视频帧和在当前视频帧之前的目标视频帧分别对应的目标检测结果时，可以将所述当前视频帧和所述目标视频帧分别输入至预先训练的神经网络中，得到所述当前视频帧和所述目标视频帧分别对应的目标检测结果。

这里，所述神经网络可以是由携带有目标对象的标注信息的样本图像训练得到的，具体的，可以将携带有目标对象的标注信息的样本图像输入至神经网络中，神经网络可以输出样本图像对应的预测目标对象信息，然后基于预测目标对象信息和标注信息对神经网络进行训练。

在另外一种可能的实施方式中，所述当前视频帧和目标视频帧的目标检测结果可以是人工进行标注的，或者其他可以确定目标对象的目标检测结果的确定方法本公开也并不限制。

针对步骤202和步骤203、

所述帧间位移用于表示拍摄所述当前视频帧和所述目标视频帧时的图像采集设备的位姿变化情况，例如可以通过旋转矩阵和平移向量来表示，所述旋转矩阵用于表示朝向变化情况，所述平移向量用于表示位置变化情况；在一种可能的实施方式中，在确定所述当前视频帧和所述目标视频帧的帧间位移时，可以通过拍摄当前视频帧时图像采集设备的位姿信息以及拍摄目标视频帧时的图像采集设备的位姿信息来确定。

所述目标检测结果包括所述目标对象对应的检测框，在一种可能的实施方式中，在确定目标极线时，可以基于所述帧间位移和预设深度范围，将所述当前视频帧对应的目标对象的检测框的中心投影至所述目标视频帧，确定所述目标极线。

在一种可能的实施方式中，在确定所述目标极线时，可以通过如下公式：

P_far＝K(R₁₂d_farK^-1P_center+t₁₂)

P_near＝K(R₁₂d_nearK^-1P_center+t₁₂)

其中，K表示图像采集设备的内参矩阵，R₁₂表示当前视频帧和目标视频帧之间的旋转矩阵，t₁₂表示当前视频帧和目标视频帧之间的平移向量，P_center表示目标对象的检测框的中心点，d_near表示最小预设深度值，d_far表示最大预设深度值，P_near和P_far的连线构成目标极线。

在一种可能的实施方式中，在基于所述目标视频帧的目标检测结果以及所述目标极线，确定所述当前视频帧与所述目标视频帧中是否包含同一所述目标对象时，可以通过如图3所示的方法，包括以下几个步骤：

步骤301、确定所述目标对象在所述目标视频帧中对应的候选检测框。

这里，所述目标对象在所述目标视频帧中对应的候选检测框可以是指距离所述目标极线最近的检测框，或者是指包含所述目标极线的检测框。需要说明的是，可能会出现目标对象在目标视频帧中对应的候选检测框有多个的情况，如有所述目标极线可能穿过多个检测框，在这种情况下，针对每个候选检测框，可以基于步骤302确定符合预设条件的检测框。

步骤302、检测所述候选检测框的位置信息，以及所述目标极线在所述目标视频帧中的位置信息是否满足预设条件。

在一种可能的实施方式中，在检测所述候选检测框的位置信息，以及所述目标极线在所述目标视频帧中的位置信息是否满足预设条件时，可以确定所述候选检测框与所述目标极线之间的重合度，将重合度最高，且大于预设阈值的候选检测框作为满足预设条件的检测框，即所述预设条件可以为所述目标极线的位置信息与所述候选检测框的位置信息之间的重合度大于预设阈值，且重合度最高。

示例性的，针对任一候选检测框，在确定该检测框与目标极线之间的重合度时，可以先确定目标极线的第一长度，以及确定目标极线位于该检测框内的第二长度，将第二长度与第一长度之间的比例作为该检测框与目标极线之间的重合度。

若是，则顺序执行步骤303，若否，则执行步骤304。

步骤303、确定所述目标视频帧中满足预设条件的所述候选检测框对应的目标对象与所述目标极线在所述当前视频帧中对应的目标对象为同一目标对象。

步骤304、返回重新确定所述当前视频帧对应的目标视频帧。

在一种可能的实施方式中，若目标视频帧为当前视频帧之前的第N帧视频帧，则在重新确定当前视频帧对应的目标视频帧时，可以将当前视频帧之前的第N+t帧视频帧作为重新确定的目标视频帧，其中N+t为小于M的正整数，M和t为预设值，N、t为正整数。一般情况下，t为1。

在一种可能的场景中，当前视频帧和目标视频帧均是车辆在行驶过程中拍摄的，因此同一目标对象可能出现在几个连续的视频帧中，但是出现的时间较短，因此通过预设值M，可以避免对于目标视频帧之前的全部视频帧进行检测，提高了检测效率。

示例性的，若M＝6，t＝1，目标视频帧为当前视频帧之前的第1帧视频帧，则可以基于上述步骤201～步骤202，确定第1帧视频帧中是否有满足预设条件的检测框，若没有，则将当前视频帧之前的第2帧视频帧重新作为目标视频帧，并基于上述步骤201～步骤202，确定第2帧视频帧中是否有满足预设条件的检测框，以此类推，在当前视频帧之前的5帧视频帧中找到符合预设条件的检测框。

若当前视频帧包括多个目标对象，则针对每一个目标对象，可以将该目标对象对应的检测框的中心通过上述方法，投影到目标视频帧中，然后确定所述当前视频帧与所述目标视频帧中是否包含同一所述目标对象，若否，则重新确定目标视频帧，若是，则将下一个目标对象的检测框的中心通过上述方法进行投影，以此类推，直至确定当前视频帧中的每一个目标对象是否存在于其他视频帧中。

实际应用中，当前视频帧中的某一目标对象可能是首次出现，在这种情况下，当前视频帧之前的目标视频帧没有符合预设条件的检测框，即当前视频帧之前的目标视频帧不会出现该目标对象；由于车辆在行驶过程中，拍摄视频帧时可能会出现障碍物遮挡的情况下，因此当前视频帧中的不同的目标对象可能出现在不同的目标视频帧中，示例性的，若当前视频帧中包括目标对象A和目标对象B，则可能当前视频帧之前的第一帧视频帧可能出现目标对象A，但是并未出现目标对象B，当前视频帧之前的第二帧视频帧可能出现目标对象B。

实际应用中，除第1帧视频帧外的其他视频帧均会依次作为当前视频帧，因此针对当前视频帧中任一目标对象，在确定目标视频帧中存在该目标对象，由于目标视频帧中存在的目标对象是否存在在之前的其他视频帧中已经检测过，因此可以停止检测其他视频帧，在当前视频帧的所有目标对象都检测完毕后，将当前视频帧的下一视频帧重新确定为当前视频帧，并将当前视频帧作为重新确定的当前视频帧的目标视频帧，并重新执行步骤201～步骤203。

示例性的，若当前视频帧为第5帧视频帧，针对目标对象A，若检测到第4帧视频帧中存在目标对象A，则第3帧视频帧、第2帧视频帧和第1帧视频帧均不用进行检测；在第5帧视频帧中的所有目标对象检测完毕后，可以将第6帧作为当前视频帧，将第5帧视频帧作为目标视频帧，执行步骤201～步骤203。若第6帧视频帧中存在目标对象B，则检测第5帧视频帧中是否存在目标对象B，若存在，则停止检测，若目标对象A和目标对象B为同一目标对象，则可以确定第4帧视频帧、第5帧视频帧以及第6帧视频帧中均存在该目标对象。

在一种可能的实施方式中，在基于视频帧执行完上述步骤201～步骤203之后，可以基于检测结果构建高精地图，示例性的可以通过如图4所述的方法，包括以下几个步骤：

步骤401、确定同一目标对象所在的多帧视频帧。

步骤402、基于采集所述多帧视频帧的图像采集设备的位置信息，确定所述同一目标对象的位置信息。

步骤403、基于所述目标对象的位置信息构建地图。

在一种可能的实施方式中，在确定所述同一目标对象的位置信息时，示例性的可以通过双目定位的方法。在构建地图时，主要是基于目标对象的位置信息，在不包含语义信息的地图上将目标对象进行标注，这样自动驾驶车辆可以基于带有目标对象标注的地图实现高精定位以及驾驶控制等，由于在构建地图时，无需借助多个神经网络，因此效率较高。所述基于所述目标对象的位置信息构建地图，可以是构建高精地图。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与视频帧处理方法对应的视频帧处理装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述视频帧处理方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图5所示，为本公开实施例提供的一种视频帧处理装置的架构示意图，所述装置包括：获取模块501、第一确定模块502、第二确定模块503；其中，

获取模块501，用于获取当前视频帧和在当前视频帧之前的目标视频帧分别对应的目标检测结果，所述目标检测结果用于表示至少一个目标对象在视频帧中的位置信息；

第一确定模块502，用于基于所述当前视频帧对应的目标检测结果，以及所述当前视频帧与所述目标视频帧对应的帧间位移，确定所述当前视频帧中的所述目标对象在所述目标视频帧中对应的目标极线；所述目标极线用于表示所述目标对象在所述目标视频帧中的预测位置，所述帧间位移用于表示拍摄所述当前视频帧和所述目标视频帧时的图像采集设备的位姿变化情况；

第二确定模块503，用于基于所述目标视频帧的目标检测结果以及所述目标极线，确定所述当前视频帧与所述目标视频帧中是否包含同一所述目标对象。

一种可能的实施方式中，所述获取模块501，在获取当前视频帧和在当前视频帧之前的目标视频帧分别对应的目标检测结果时，用于：

所述第一确定模块502，在基于所述当前视频帧对应的目标检测结果，以及所述当前视频帧与所述目标视频帧对应的帧间位移，确定所述当前视频帧中的所述目标对象在所述目标视频帧中对应的目标极线时，用于：

所述第二确定模块503，在基于所述目标视频帧的目标检测结果以及所述目标极线，确定所述当前视频帧与所述目标视频帧中是否包含同一所述目标对象时，用于：

确定所述目标对象在所述目标视频帧中对应的候选检测框；

若否，则返回重新确定所述当前视频帧对应的目标视频帧。

所述第二确定模块503，在重新确定所述当前视频帧对应的目标视频帧时，用于：

一种可能的实施方式中，所述装置还包括地图构建模块504，用于：

确定同一目标对象所在的多帧视频帧；

基于所述目标对象的位置信息构建地图。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

通过上述装置，可以基于当前视频帧和目标视频帧的目标检测结果，确定当前视频帧中的每一个目标对象在目标视频帧中对应的目标极线，并基于目标视频帧的目标检测结果以及所述目标极线，确定当前视频帧和目标视频帧是否包含同一目标对象，然后可以对目标对象进行定位，再基于定位结果去构建高精地图，这样无需训练多个神经网络，即可完成对目标对象的追踪，效率较高。

基于同一技术构思，本公开实施例还提供了一种计算机设备。参照图6所示，为本公开实施例提供的计算机设备600的结构示意图，包括处理器601、存储器602、和总线603。其中，存储器602用于存储执行指令，包括内存6021和外部存储器6022；这里的内存6021也称内存储器，用于暂时存放处理器601中的运算数据，以及与硬盘等外部存储器6022交换的数据，处理器601通过内存6021与外部存储器6022进行数据交换，当计算机设备600运行时，处理器601与存储器602之间通过总线603通信，使得处理器601在执行以下指令：

一种可能的实施方式中，处理器601执行的指令中，所述获取当前视频帧和在当前视频帧之前的目标视频帧分别对应的目标检测结果，包括：

一种可能的实施方式中，处理器601执行的指令中，所述目标检测结果包括所述目标对象对应的检测框；

确定所述目标对象在所述目标视频帧中对应的候选检测框；

若否，则返回重新确定所述当前视频帧对应的目标视频帧。

一种可能的实施方式中，处理器601执行的指令中，所述目标视频帧为当前视频帧之前的第N帧视频帧；

所述重新确定所述当前视频帧对应的目标视频帧，包括：

一种可能的实施方式中，处理器601执行的指令中，所述方法还包括：

确定同一目标对象所在的多帧视频帧；

基于所述目标对象的位置信息构建地图。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的视频帧处理方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的视频帧处理方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种视频帧处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取当前视频帧和在当前视频帧之前的目标视频帧分别对应的目标检测结果，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述目标检测结果包括所述目标对象对应的检测框；

4.根据权利要求1～3任一所述的方法，其特征在于，所述目标检测结果包括所述目标对象对应的检测框；

确定所述目标对象在所述目标视频帧中对应的候选检测框；

若否，则返回重新确定所述当前视频帧对应的目标视频帧。

5.根据权利要求4所述的方法，其特征在于，所述目标视频帧为当前视频帧之前的第N帧视频帧；

所述重新确定所述当前视频帧对应的目标视频帧，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定同一目标对象所在的多帧视频帧；

基于所述目标对象的位置信息构建地图。

7.一种视频帧处理装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述目标检测结果包括所述目标对象对应的检测框；

确定所述目标对象在所述目标视频帧中对应的候选检测框；

若否，则返回重新确定所述当前视频帧对应的目标视频帧。

9.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至6任一项所述的视频帧处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至6任一项所述的视频帧处理方法的步骤。