CN113590877A

CN113590877A - 获取标注数据的方法及装置

Info

Publication number: CN113590877A
Application number: CN202110898405.1A
Authority: CN
Inventors: 刘威; 郑佳俊; 陈翔
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2021-11-02
Anticipated expiration: 2041-08-05
Also published as: CN113590877B

Abstract

本申请实施例公开了一种获取标注数据的方法及装置，属于图像处理技术领域。在本申请实施例中，标注设备根据第一视频帧中检测到的第一目标对象的第一标注数据以及在第二视频帧中检测到的第一目标对象的第二标注数据，确定第一视频帧和第二视频帧之间N个未标注视频帧中每个未标注视频帧中的第一目标对象的标注数据，由此可见，本申请实施例可以根据检测到目标对象的视频帧中的标注数据来确定得到中间未进行目标对象的检测的视频帧的标注数据，不仅可以保证标注的效率，同时还能使得整体的样本数据量大幅度增加，提升了整个视频的资源利用率。

Description

获取标注数据的方法及装置

技术领域

本申请涉及图像处理技术领域，特别涉及一种获取标注数据的方法及装置。

背景技术

随着AI(Artificial Intelligence，人工智能)技术的发展，AI算法所应用的场景越来越复杂。在各类复杂的应用场景中，需要大量准确的样本数据对相应地AI算法进行训练，因此，快速获取大量准确的样本数据极其重要。

目前，对于用于检测图像中的目标对象的AI算法而言，可以通过对视频中的目标对象进行标注来获取样本数据。其中，在一种实现方式中，标注设备可以从视频中的某个视频帧开始，按照一定间隔选取视频帧，对选取的视频帧内的目标对象进行标注，以得到各个视频帧中的目标对象的标注数据，进而根据各个视频帧中的目标对象的标注数据生成包含相应视频帧在内的样本数据。

然而，由于上述实现方式中按照一定间隔只选取了视频中的部分视频帧进行标注，因此，造成了视频中未标注的视频帧资源的浪费，使得整体获得的样本数据量大幅度减少，整个视频的资源利用率下降。

发明内容

本申请实施例提供了一种获取标注数据的方法及装置，可以根据检测到目标对象的视频帧中的标注数据来确定得到中间未进行目标对象的检测的视频帧的标注数据，不仅可以保证标注的效率，同时还能使得整体的样本数据量增加，提升整个视频的资源利用率。所述技术方案如下：

一方面，提供了一种获取标注数据的方法，所述方法包括：

获取在第一视频帧中检测到的第一目标对象的第一标注数据以及在第二视频帧中检测到的所述第一目标对象的第二标注数据，所述第一视频帧为样本视频中位于所述第二视频帧之前的视频帧，且所述第一视频帧和所述第二视频帧之间间隔多个未标注视频帧；

根据所述第一标注数据和所述第二标注数据，确定所述多个未标注视频帧中的N个未标注视频帧中的所述第一目标对象的标注数据。

可选地，所述第一标注数据和所述第二标注数据均包括所述第一目标对象的属性信息，且所述第一标注数据包括在所述第一视频帧中所述第一目标对象的第一位置信息，所述第二标注数据包括在所述第二视频帧中所述第一目标对象的第二位置信息；

所述根据所述第一标注数据和所述第二标注数据，确定所述多个未标注视频帧中的N个未标注视频帧中的所述第一目标对象的标注数据，包括：

根据所述第一位置信息和所述第二位置信息，确定所述第一目标对象的位置偏移量；

根据所述第一目标对象的位置偏移量，确定所述N个未标注视频帧中的每个未标注视频帧中所述第一目标对象的位置信息；

根据所述第一目标对象的属性信息和所述N个未标注视频帧中的每个未标注视频帧中所述第一目标对象的位置信息，确定相应未标注视频帧中所述第一目标对象的标注数据。

可选地，所述根据所述第一目标对象的位置偏移量，确定所述N个未标注视频帧中的每个未标注视频帧中所述第一目标对象的位置信息，包括：

根据所述第一目标对象的位置偏移量，确定所述第一目标对象在所述N个未标注视频帧中的单帧位置偏移量；

根据所述第一位置信息、所述N个未标注视频帧的先后顺序和所述单帧位置偏移量，确定N个未标注视频帧中的每个未标注视频帧中所述第一目标对象的位置信息。

可选地，所述第一位置信息包括在所述第一视频帧中所述第一目标对象所在的检测框的中心点的位置信息，所述第二位置信息包括在所述第二视频帧中所述第一目标对象所在的检测框的中心点的位置信息，所述N个未标注视频帧中的每个未标注视频帧中的所述第一目标对象的位置信息包括相应视频帧中所述第一目标对象所在的检测框的中心点的位置信息。

可选地，所述第一位置信息包括在所述第一视频帧中所述第一目标对象所在的检测框的四个顶点的位置信息，所述第二位置信息包括在所述第二视频帧中所述第一目标对象所在的检测框的四个顶点的位置信息，所述N个未标注视频帧中的每个未标注视频帧中的所述第一目标对象的位置信息包括相应视频帧中所述第一目标对象所在的检测框的四个顶点的位置信息。

可选地，所述方法还包括：

从所述样本视频中的指定视频帧开始，每隔M个视频帧，获取一个待标注视频帧，所述M大于或等于所述N；

每当获取到一个所述待标注视频帧时，在获取到的所述待标注视频帧中检测至少一个目标对象，并确定所述待标注视频帧中的每个目标对象的标注数据；

其中，所述第一视频帧和所述第二视频帧为获取的多个待标注视频帧中相邻的两个待标注视频帧，且所述第一目标对象为所述第一视频帧和所述第二视频帧分别包括的至少一个目标对象中的一个目标对象。

可选地，所述方法还包括：

当确定出所述第二视频帧中的至少一个目标对象中的每个目标对象的标注数据时，根据所述第二视频帧中的每个目标对象的标注数据和所述第一视频帧中的每个目标对象的标注数据，判断所述第一视频帧和所述第二视频帧中是否存在同一个目标对象；

如果所述第一视频帧和所述第二视频帧中存在同一个目标对象，则将相应目标对象作为所述第一目标对象，并执行获取在第一视频帧中检测到的第一目标对象的第一标注数据以及在第二视频帧中检测到的所述第一目标对象的第二标注数据的步骤。

另一方面，提供了一种获取标注数据的装置，所述装置包括：

获取模块，用于获取在第一视频帧中检测到的第一目标对象的第一标注数据以及在第二视频帧中检测到的所述第一目标对象的第二标注数据，所述第一视频帧为样本视频中位于所述第二视频帧之前的视频帧，且所述第一视频帧和所述第二视频帧之间间隔多个未标注视频帧；

确定模块，用于根据所述第一标注数据和所述第二标注数据，确定所述多个未标注视频帧中的N个未标注视频帧中的所述第一目标对象的标注数据。

可选地，所述第一标注数据和所述第二标注数据均包括所述第一目标对象的属性信息，且所述第一标注数据包括在所述第一视频帧中所述第一目标对象的第一位置信息，所述第二标注数据包括在所述第二视频帧中所述第一目标对象的第二位置信息；所述确定模块主要用于：

可选地，所述确定模块还用于：

可选地，所述装置用于：

可选地，所述装置还用于：

另一方面，提供了一种获取标注数据装置，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器执行所述存储器中的可执行指令来执行上述获取标注数据的方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被计算机执行时实现上述所述获取标注数据的方法的步骤。

另一方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述的获取标注数据的方法的步骤。

本申请实施例提供的技术方案带来的有益效果至少包括：

在本申请实施例中，根据第一视频帧中检测到的第一目标对象的第一标注数据以及在第二视频帧中检测到的第一目标对象的第二标注数据，确定第一视频帧和第二视频帧之间N个未标注视频帧中每个未标注视频帧中的第一目标对象的标注数据，由此可见，本申请实施例可以根据检测到目标对象的视频帧中的标注数据来确定得到中间未进行目标对象的检测的视频帧的标注数据，不仅可以保证标注的效率，同时还能使得整体的样本数据量大幅度增加，提升了整个视频的资源利用率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种获取标注数据的方法所涉及的系统架构图；

图2是本申请实施例提供的一种获取标注数据的方法的流程图；

图3是本申请实施例提供的一种获取目标对象的位置偏移量的过程示意图；

图4是本申请实施例提供的一种获取标注数据的装置的结构图；

图5是本申请实施例提供的一种用于获取标注数据的设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在对本申请实施例进行详细的解释说明之前，先对本申请实施例涉及的系统架构进行介绍。

图1是本申请实施例提供的一种获取标注数据的方法所涉及的系统架构图。如图1所示，该系统包括视频存储设备101和标注设备102。其中，视频存储设备101和标注设备102之间能够进行通信。

在本申请实施例中，视频存储设备101用于存储样本视频。其中，样本视频中目标对象的数量可以是一个，也可以是多个。其中，目标对象是指待标注的人或物，例如，目标对象可以是所要获取标注数据的车辆。

标注设备102可以从视频存储设备101中获取视频存储设备101存储的一个或多个样本视频。之后，对于获取到的任一个样本视频，标注设备102可以通过本申请实施例提供的获取标注数据的方法，根据该样本视频中的第一视频帧中检测到的第一目标对象的第一标注数据以及在第二视频帧中检测到的第一目标对象的第二标注数据，确定第一视频帧和第二视频帧之间的N个未标注帧中每个未标注帧中的目标对象的标注数据，其中，第一视频帧可以为该样本视频中的任一视频帧，且第一视频帧和第二视频帧之间间隔多个未标注的视频帧。

可选地，在一种可能的实现方式中，标注设备102可以集成有视频存储设备101存储视频的功能。在这种情况中，标注设备102既可以存储样本视频，同时，标注设备102也可以实现本申请实施例提供的获取标注数据的方法。

在后文的实施例中，将以应用场景中包括一个视频存储设备101和标注设备102为例来对本申请实施例提供的获取标注数据的方法进行示例性说明。

其中，上述的视频存储设备101可以为部署于数据中心的用于存储视频的一台服务器或者是一个服务器集群，标注设备102可以为平板电脑、台式计算机等终端设备。可选地，当标注设备102同时兼具存储样本视频的功能时，该标注设备102也可以为服务器，本申请实施例对此不做限定。

接下来对本申请实施例提供的获取标注数据的方法进行介绍。

图2是本申请实施例提供的一种获取标注数据的方法。如图2所示，该方法应用于前述系统架构中的标注设备中，该方法包括以下步骤：

步骤201：获取在第一视频帧中检测到的第一目标对象的第一标注数据以及在第二视频帧中检测到的第一目标对象的第二标注数据，第一视频帧为样本视频中位于第二视频帧之前的视频帧，且第一视频帧和所述第二视频帧之间间隔多个未标注视频帧。

在本申请实施例中，标注设备首先可以获取待标注的样本视频。其中，基于前述的系统架构介绍可知，样本视频可以存储在视频存储设备中，也可以存储在该标注设备中。基于此，标注设备可以接收视频存储设备发送的样本视频，也可以获取自身存储的多个样本视频中的任一还未进行标注的样本视频。

标注设备在获取到样本视频之后，从样本视频中的指定视频帧开始，每隔M个视频帧，获取一个待标注视频帧；每当获取到一个待标注视频帧时，在获取到的待标注视频帧中检测至少一个目标对象，并确定待标注视频帧中的每个目标对象的标注数据。

其中，指定视频帧可以为该样本视频中的第一个视频帧，也可以为用户指定的该样本视频中的某个位置的视频帧，本申请实施例对此不做限定。

标注设备可以从该指定视频帧开始，每隔M个视频帧，获取一个待标注视频帧。每当获取到一个待标注视频帧之后，标注设备可以通过目标检测算法在该待标注视频帧中检测至少一个目标对象。其中，目标对象是指预先设定的所要标注的对象，示例性地，目标对象可以为人或物，例如，可以为车辆等，本申请实施例对此不做限定。另外，目标检测算法可以为F-RCNN等基于深度学习的算法模型，或者，根据检测的对象的不同，该目标检测算法也不同，例如，当检测的目标对象为人时，该目标检测算法可以为人脸识别算法。

在待标注视频帧中检测到至少一个目标对象之后，标注设备可以获取目标检测算法输出的该至少一个目标对象中的每个目标对象的属性信息以及每个目标对象在该待标注视频帧中的位置信息，之后，将获取到的每个目标对象的属性信息和位置信息作为相应目标对象的标注数据。

其中，每个目标对象的属性信息用于描述相应目标对象的属性特征，且每个目标对象的属性信息可以用于唯一表征相应目标对象。例如，每个目标对象的属性信息可以包括相应目标对象所属的类别、相应目标对象的外形特征等。示例性地，当目标对象为某个人时，该目标对象的属性信息可以包括这个人的性别以及诸如身高、面部特征等外形特征信息。再例如，当目标对象为某个车辆时，该目标对象的属性信息可以包括该车辆的车型、车身颜色、车牌号等信息。

另外，每个目标对象在待标注视频帧中的位置信息可以包括相应目标对象所在的检测框的中心点在待标注视频帧中的位置坐标，除此之外，还可以包括相应目标对象所在的检测框的四个顶点在待标注视频帧中的位置坐标。

在本申请实施例中，标注设备可以按照上述方法，每间隔M个视频帧，获取一个待标注视频帧，并对其进行标注，从而得到所有待标注视频帧的标注数据。之后，标注设备可以从上述已标注的视频帧中获取任意相邻的两个视频帧，将获取的这两个视频帧作为第一视频帧和第二视频帧，此时，该第一视频帧和第二视频帧之间间隔M个视频帧。之后，标注设备获取第一视频帧中的至少一个目标对象的标注数据以及第二视频帧中的至少一个目标对象的标注数据。

在获取到第一视频帧中的至少一个目标对象的标注数据以及第二视频帧中的至少一个目标对象的标注数据之后，标注设备可以检测第一视频帧和第二视频帧中是否存在同一个目标对象。

示例性地，标注设备可以将第一视频帧中的至少一个目标对象中的每个目标对象的属性信息与第二视频帧中的至少一个目标对象中的每个目标对象的属性信息进行比较，如果两个视频帧中存在属性信息相同的目标对象，则说明第一视频帧和第二视频帧中存在同一个目标对象。在这种情况下，标注设备可以将两个视频帧中的同一个目标对象作为第一目标对象，并获取该第一目标对象在两个视频帧中的标注数据，也即第一标注数据和第二标注数据。

需要说明的是，当第一视频帧和第二视频帧中存在同一个目标对象时，第一视频帧和第二视频帧中均可以包括该目标对象的完整图像，或者，第一视频帧和/或第二视频帧中包括的是该目标对象的部分图像，本申请实施例对此不做限定。

可选地，在另一种可能的实现方式中，标注设备也可以在每确定出一个待标注视频帧中的至少一个目标对象的标注数据之后，将该待标注视频帧作为第二视频帧，并获取该第二视频帧的前一个待标注视频帧，也即第一视频帧中的至少一个目标对象的标注数据。之后，根据第二视频帧中的每个目标对象的标注数据和第一视频帧中的每个目标对象的标注数据，判断第一视频帧和第二视频帧中是否存在同一个目标对象；如果第一视频帧和第二视频帧中存在同一个目标对象，则将相应目标对象作为第一目标对象，并获取在第一视频帧中检测到的第一目标对象的第一标注数据以及在第二视频帧中检测到的第一目标对象的第二标注数据。

其中，标注设备根据第一视频帧中的至少一个目标对象的标注数据和第二视频帧中的至少一个目标对象的标注数据判断两个视频帧中是否存在同一个目标对象的过程可以参考前述实现方式中的相关说明，本申请实施例在此不再赘述。

另外，还需要说明的是，在本申请实施例中，第一视频帧和第二视频帧中可能会存在多个相同的目标对象，在这种情况下，对于任一相同的目标对象，均可以将其作为第一目标对象，然后通过本申请实施例提供的方法来获取第一视频帧和第二视频帧之间的N个未标注视频帧中的第一目标对象的标注数据。

步骤202：根据第一标注数据和第二标注数据，确定多个未标注视频帧中的N个未标注视频帧中的第一目标对象的标注数据。

在本申请实施例中，在获取到第一视频帧中的第一标注数据和第二视频帧中的第二标注数据之后，标注设备可以确定第一视频帧和第二视频帧之间间隔的多个未标注视频帧中的N个未标注视频帧中的第一目标对象的标注数据。其中，当第一视频帧和第二视频帧之间间隔M个视频帧时，该N可以等于M，也可以小于M。也就是说，在本申请实施例中，标注设备可以根据第一标注数据和第二标注数据，确定第一视频帧和第二视频帧之间的每个未标注视频帧中的第一目标对象的标注数据。或者，考虑到当第一视频帧和第二视频帧之间间隔的视频帧的数量较多时，目标对象在相邻的视频帧之间的位置变化可能比较小，所以，标注设备也可以从第一视频帧和第二视频帧之间间隔的所有未标注视频帧中选取部分未标注视频帧，然后根据第一标注数据和第二标注数据对这部分选取的未标注视频帧进行标注。

例如，第一视频帧和第二视频帧之间间隔14个未标注视频帧，则标注设备可以从第一视频帧开始，每隔2帧，选取一个未标注视频帧，这样，从14个未标注视频帧中可以选出4个未标注视频帧，进而根据第一标注数据和第二标注数据对选取的4个未标注视频帧中的第一目标对象进行标注。

示例性地，在对N个未标注视频帧进行标注时，由上述步骤201中的介绍可知，某个视频帧中的目标对象的标注数据可以包括该目标对象的属性信息以及该目标对象在该视频中的位置信息。基于此，由于第一标注数据和第二标注数据是第一目标对象在不同视频帧中的标注数据，所以第一标注数据和第二标注数据均包括第一目标对象的属性信息，且第一标注数据包括在第一视频帧中第一目标对象的第一位置信息，第二标注数据包括在第二视频帧中第一目标对象的第二位置信息。在这种情况下，标注设备可以根据第一目标对象的第一位置信息和第二位置信息，确定第一目标对象的位置偏移量；根据第一目标对象的位置偏移量，确定N个未标注视频帧中的每个未标注视频帧中第一目标对象的位置信息；根据第一目标对象的属性信息和N个未标注视频帧中的每个未标注视频帧中第一目标对象的位置信息，确定相应未标注视频帧中第一目标对象的标注数据。

其中，由前述介绍可知，目标对象的位置信息可以为该目标对象所在的检测框的中心点的位置信息。基于此，在本申请实施例中，第一位置信息可以包括在第一视频帧中第一目标对象所在的检测框的中心点的位置信息，第二位置信息可以包括在第二视频帧中第一目标对象所在的检测框的中心点的位置信息。在这种情况下，标注设备可以计算第一视频帧中第一目标对象所在检测框的中心点的横坐标和第二视频帧中第一目标对象所在检测框的中心点的横坐标之间的差值，得到第一目标对象所在检测框的中心点的水平位置偏移量，计算第一视频帧中第一目标对象所在检测框的中心点的纵坐标和第二视频帧中第一目标对象所在检测框的中心点的纵坐标之间的差值，得到第一目标对象所在检测框的中心点的垂直位置偏移量，将该第一目标对象所在检测框的中心点的水平位置偏移量和垂直位置偏移量作为第一目标对象的位置偏移量。

可选地，在一种可能的实现方式中，第一位置信息还可以包括在第一视频帧中第一目标对象所在的检测框的四个顶点的位置信息，第二位置信息还可以包括在第二视频帧中第一目标对象所在的检测框的四个顶点的位置信息。在这种情况下，对于第一视频帧中第一目标对象所在检测框的四个顶点中的任一个顶点，为了方便说明，将该顶点称为第一顶点，标注设备可以确定第二视频帧中第一目标对象所在检测框的四个顶点中与该第一顶点对应的第二顶点，计算第一顶点的横坐标和第二顶点的横坐标之间的差值，得到第一顶点到第二顶点的水平位置偏移量，计算第一顶点的纵坐标和第二顶点的纵坐标之间的差值，得到第一顶点到第二顶点的垂直位置偏移量。

对于第一视频帧中第一目标对象所在检测框的四个顶点中的每个顶点，标注设备均可以通过上述方法计算得到相应顶点的水平位置偏移量和垂直位置偏移量，之后，标注设备将各个顶点的水平位置偏移量和垂直位置偏移量作为第一目标对象的位置偏移量。

可选地，当第一位置信息和第二位置信息同时包括检测框的中心点的位置坐标和四个顶点的位置坐标时，第一目标对象的位置偏移量将包括上述计算得到的检测框的中心点的水平位置偏移量和垂直位置偏移量、四个顶点中每个顶点的水平位置偏移量和垂直位置偏移量。

标注设备在获取到第一目标对象的位置偏移量之后，可以根据第一目标对象的位置偏移量，确定第一目标对象在N个未标注视频帧中的单帧位置偏移量；根据第一位置信息、N个未标注视频帧的先后顺序和该单帧位置偏移量，确定N个未标注视频帧中的每个未标注视频帧中第一目标对象的位置信息。

示例性地，标注设备可以计算第一目标对象的位置偏移量与(N+1)的比值，将该比值作为第一目标对象在N个未标注视频帧中的单帧位置偏移量。

其中，当第一目标对象的位置偏移量包括第一目标对象所在检测框的中心点的水平位置偏移量和垂直位置偏移量，标注设备可以计算检测框的中心点的水平位置偏移量与(N+1)的比值，将该比值作为该中心点的单帧水平偏移量，计算检测框的中心点的垂直位置偏移量与(N+1)的比值，将该比值作为该中心点的单帧垂直偏移量。之后，将该中心点的单帧水平偏移量和单帧垂直偏移量作为该第一目标对象的单帧位置偏移量。

可选地，当第一目标对象的位置偏移量还包括第一目标对象所在检测框的四个顶点中每个顶点的水平位置偏移量和垂直位置偏移量时，标注设备可以分别计算每个顶点的水平位置偏移量和垂直位置偏移量与(N+1)的比值，从而得到相应顶点的单帧水平偏移量和单帧垂直偏移量，在这种情况下，第一目标对象的单帧位置偏移量还可以包括每个顶点的单帧水平偏移量和单帧垂直偏移量。

在得到第一目标对象在N个未标注视频帧中的单帧位置偏移量之后，标注设备可以根据第一目标对象在第一视频帧中的第一位置信息、N个未标注视频帧的先后顺序和该单帧位置偏移量，计算N个未标注视频帧中的每个未标注视频帧中第一目标对象的位置信息。

其中，由前述介绍可知，当第一位置信息包括第一目标对象在第一视频帧中所在检测框的中心点的位置信息时，第一目标对象的单帧位置偏移量将包括第一目标对象的检测框的中心点的单帧水平偏移量和单帧垂直偏移量。在这种情况下，标注设备可以将第一位置信息包括的检测框的中心点的横坐标与第一目标对象所在检测框的中心点的单帧水平偏移量相加，得到N个未标注视频帧中位于第一视频帧的下一个视频帧中第一目标对象所在检测框的中心点的横坐标；将第一位置信息包括的检测框的中心点的纵坐标与第一目标对象所在检测框的中心点的单帧垂直偏移量相加，得到N个未标注视频帧中位于第一视频帧的下一个视频帧中第一目标对象所在检测框的中心点的纵坐标。在得到N个未标注视频帧中位于第一视频帧的下一个视频帧中第一目标对象所在检测框的中心点的位置坐标之后，标注设备可以在该下一个视频帧中第一目标对象所在检测框的中心点的横坐标和纵坐标的基础上，再分别对应的加上中心点的单帧水平偏移量和单帧垂直偏移量，以得到该下一个视频帧的下一个视频帧中第一目标对象所在检测框的中心点的位置坐标，以此类推，标注设备可以计算得到N个未标注视频帧中每个未标注视频帧中第一目标对象所在检测框的中心点的横坐标和纵坐标。此时，各个未标注视频帧中的第一目标对象的位置信息将包括第一目标对象所在检测框的中心点的位置坐标。其中，N个未标注视频帧的先后顺序可以通过N个未标注视频帧的帧号、时间戳等信息来获知，本申请实施例对此不做限定。

例如，参见图3，第一视频帧和第二视频帧中均存在车辆A。其中，第一视频帧和第二视频帧之间间隔两个视频帧，在第一视频帧中车辆A所在检测框的中心点O₁的位置坐标为(x₁，y₁)，在第二视频帧中车辆A所在检测框的中心点O₄的位置坐标为(x₄，y₄)，则当对这两个视频帧均进行标注时，标注设备根据O₁的位置坐标(x₁，y₁)和O₄的位置坐标(x₄，y₄)，计算得到车辆A所在检测框的中心点的水平位置偏移量为(x₄-x₁)，垂直位置偏移量为(y₄-y₁)。

之后，标注设备可以根据车辆A所在检测框的中心点的水平位置偏移量(x₄-x₁)和垂直位置偏移量(y₄-y₁)，计算车辆A所在检测框的中心点的单帧水平偏移量为(x₄-x₁)/(N+1)，其中，N等于2。车辆A所在检测框的中心点的单帧垂直偏移量为(y₄-y₁)/(N+1)，将该中心点的单帧水平偏移量和单帧垂直偏移量作为车辆A的单帧位置偏移量。

在得到车辆A所在检测框的中心点的单帧位置偏移量之后，标注设备可以将第一视频帧中车辆A的检测框的中心点O₁的横坐标x₁与单帧水平偏移量(x₄-x₁)/(N+1)相加，计算得到视频帧A中车辆A所在检测框的中心点O₂的横坐标x₂为(x₁+(x₄-x₁)/(N+1))。将第一视频帧中车辆A的检测框的中心点的纵坐标y₁与单帧垂直偏移量(y₄-y₁)/(N+1)相加，计算得到视频帧A中车辆A所在检测框的中心点O₂的纵坐标y₂为(y₁+(y₄-y₁)/(N+1))；之后，标注设备将中心点O₂的横坐标(x₁+(x₄-x₁)/(N+1))和纵坐标(y₁+(y₄-y₁)/(N+1))，再分别对应的加上单帧水平偏移量(x₄-x₁)/(N+1)和单帧垂直偏移量(y₄-y₁)/(N+1)，得到视频帧B中车辆A所在检测框的中心点O₃的横坐标x₃为(x₁+2*(x₄-x₁)/(N+1))，纵坐标y₃为(y₁+2*(y₄-y₁)/(N+1))。

可选地，当第一位置信息还包括第一目标对象所在检测框的四个顶点的位置坐标时，第一目标对象的单帧位置偏移量还将包括第一目标对象的检测框的每个顶点的单帧水平偏移量和单帧垂直偏移量。在这种情况下，对于每个顶点，标注设备均可以参考前述介绍的计算中心点的位置信息的方式，计算得到N个未标注视频帧中的每个未标注视频帧中第一目标对象所在检测框的顶点的位置坐标。此时，各个未标注视频帧中的第一目标对象的位置信息还将包括第一目标对象所在检测框的每个顶点的位置坐标。

可选地，在一些可能的实现方式中，标注设备在得到第一目标对象的单帧位置偏移量之后，也可以根据第一目标对象的单帧位置偏移量和第二位置信息来确定各个未标注视频帧中的第一目标对象的位置信息。在这种情况中，标注设备可以在第二位置信息的基础上，按照N个未标注视频帧从后到前的顺序，逐帧减去第一目标对象的单帧位置偏移量，从而得到N个未标注视频帧中每个未标注视频帧中第一目标对象的位置信息，本申请实施例在此不再赘述。

在计算得到N个未标注视频帧中的每个未标注视频帧中第一目标对象的位置信息之后，标注设备将第一标注数据和第二标注数据中均包括的第一目标对象的属性信息和计算得到的每个未标注视频帧中的第一目标对象的位置信息，作为相应未标注视频帧中的第一目标对象的标注数据。

需要说明的是，上述实施例中主要以第一视频帧和第二视频帧中包含的一个相同的目标对象为例进行的说明，当第一视频帧和第二视频帧中包括多对相同的目标对象，则对其他相同的目标对象也均可以参照上述方式进行处理，从而得到第一视频帧和第二视频帧之间的每个未标注视频帧中该目标对象的标注数据。

在本申请实施例中，标注设备根据第一视频帧中检测到的第一目标对象的第一标注数据以及在第二视频帧中检测到的第一目标对象的第二标注数据，确定第一视频帧和第二视频帧之间的N个未标注视频帧中每个未标注视频帧中的第一目标对象的标注数据，由此可见，本申请实施例可以根据检测到的目标对象的视频帧中的标注数据确定得到中间未进行目标对象检测的视频帧的标注数据，不仅可以保证标注的效率，同时还能使得整体的样本数据量大幅度增加，提升整个视频的资源利用率。

另外，在本申请实施例中，当第一视频帧和第二视频帧之间间隔的未标注视频帧的数量较多时，考虑到挨得较近的视频帧中目标对象的位置变化可能不太明显，所以标注设备可以从中选取部分未标注视频帧进行标注，以进一步提高标注效率，提升标注数据的质量。

接下来，对本申请实施例提供的获取标注数据的装置进行介绍。

参见图4，本申请实施例提供了一种获取标注数据的装置400，装置400包括：

获取模块401，用于获取在第一视频帧中检测到的第一目标对象的第一标注数据以及在第二视频帧中检测到的第一目标对象的第二标注数据，第一视频帧为样本视频中位于第二视频帧之前的视频帧，且第一视频帧和第二视频帧之间间隔多个未标注视频帧；

确定模块402，用于根据第一标注数据和第二标注数据，确定多个未标注视频帧中的N个未标注视频帧中的第一目标对象的标注数据。

可选地，第一标注数据和第二标注数据均包括第一目标对象的属性信息，且第一标注数据包括在第一视频帧中第一目标对象的第一位置信息，第二标注数据包括在第二视频帧中第一目标对象的第二位置信息；

确定模块402主要用于：

根据第一位置信息和第二位置信息，确定第一目标对象的位置偏移量；

根据第一目标对象的位置偏移量，确定N个未标注视频帧中的每个未标注视频帧中第一目标对象的位置信息；

根据第一目标对象的属性信息和N个未标注视频帧中的每个未标注视频帧中第一目标对象的位置信息，确定相应未标注视频帧中第一目标对象的标注数据。

可选地，确定模块402还用于：

根据第一目标对象的位置偏移量，确定第一目标对象在N个未标注视频帧中的单帧位置偏移量；

根据第一位置信息、N个未标注视频帧的先后顺序和单帧位置偏移量，确定N个未标注视频帧中的每个未标注视频帧中第一目标对象的位置信息。

可选地，第一位置信息包括在第一视频帧中第一目标对象所在的检测框的中心点的位置信息，第二位置信息包括在第二视频帧中第一目标对象所在的检测框的中心点的位置信息，N个未标注视频帧中的每个未标注视频帧中的第一目标对象的位置信息包括相应视频帧中第一目标对象所在的检测框的中心点的位置信息。

可选地，第一位置信息包括在第一视频帧中第一目标对象所在的检测框的四个顶点的位置信息，第二位置信息包括在第二视频帧中第一目标对象所在的检测框的四个顶点的位置信息，N个未标注视频帧中的每个未标注视频帧中的第一目标对象的位置信息包括相应视频帧中第一目标对象所在的检测框的四个顶点的位置信息。

可选地，该装置400用于：

从样本视频中的指定视频帧开始，每隔M个视频帧，获取一个待标注视频帧，M大于或等于N；

每当获取到一个待标注视频帧时，在获取到的待标注视频帧中检测至少一个目标对象，并确定待标注视频帧中的每个目标对象的标注数据；

其中，第一视频帧和第二视频帧为获取的多个待标注视频帧中相邻的两个待标注视频帧，且第一目标对象为第一视频帧和第二视频帧分别包括的至少一个目标对象中的一个目标对象。

可选地，该装置400还用于：

当确定出第二视频帧中的至少一个目标对象中的每个目标对象的标注数据时，根据第二视频帧中的每个目标对象的标注数据和第一视频帧中的每个目标对象的标注数据，判断第一视频帧和第二视频帧中是否存在同一个目标对象；

如果第一视频帧和第二视频帧中存在同一个目标对象，则将相应目标对象作为第一目标对象，并执行获取在第一视频帧中检测到的第一目标对象的第一标注数据以及在第二视频帧中检测到的第一目标对象的第二标注数据的步骤。

综上，在本申请实施例中，标注设备根据第一视频帧中检测到的第一目标对象的第一标注数据以及在第二视频帧中检测到的第一目标对象的第二标注数据，确定第一视频帧和第二视频帧之间N个未标注视频帧中每个未标注视频帧中的第一目标对象的标注数据，由此可见，本申请实施例可以根据检测到目标对象的视频帧中的标注数据来确定得到中间未进行目标对象的检测的视频帧的标注数据，不仅可以保证标注的效率，同时还能使得整体的样本数据量大幅度增加，提升了整个视频的资源利用率。

需要说明的是，上述实施例提供的获取标注数据的装置在获取标注数据时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的获取标注数据的装置与获取标注数据的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图5是根据一示例性实施例示出的一种用于获取标注数据的设备500的结构框图。上述实施例中的标注设备即可通过该设备500来实现。其中，该设备500可以是平板电脑、笔记本电脑、台式电脑等。

通常，设备500包括有：处理器501和存储器502。

处理器501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器501可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器501可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器501还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器502中的非暂态的计算机可读存储介质用于存储至少一个指令，其中，该至少一个指令用于被处理器501所执行以实现本申请中方法实施例提供的获取标注数据的方法。

在一些实施例中，设备500还可选包括有：外围设备接口503和至少一个外围设备。处理器501、存储器502和外围设备接口503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口503相连。具体地，外围设备包括：射频电路504、显示屏505、摄像头组件506、音频电路507、定位组件508和电源509中的至少一种。

外围设备接口503可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器501和存储器502。在一些实施例中，处理器501、存储器502和外围设备接口503被集成在同一芯片或电路板上；在一些其他实施例中，处理器501、存储器502和外围设备接口503中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路504用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路504将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路504包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路504还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏505用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏505是触摸显示屏时，显示屏505还具有采集在显示屏505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器501进行处理。此时，显示屏505还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏505可以为一个，设置设备500的前面板；在另一些实施例中，显示屏505可以为至少两个，分别设置在设备500的不同表面或呈折叠设计；在再一些实施例中，显示屏505可以是柔性显示屏，设置在设备500的弯曲表面上或折叠面上。甚至，显示屏505还可以设置成非矩形的不规则图形，也即异形屏。显示屏505可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。需要说明的是，在本申请实施例中，当该设备500为横屏终端时，该设备500的显示屏的宽高比大于1，例如，该终端500的显示屏的宽高比可以为16:9或4:3。当该设备500为竖屏终端时，则该设备500的显示屏的宽高比小于1，例如，该设备500的显示屏的宽高比可以为9:18或3:4等。

摄像头组件506用于采集图像或视频。可选地，摄像头组件506包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件506还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器501进行处理，或者输入至射频电路504以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在设备500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器501或射频电路504的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路507还可以包括耳机插孔。

定位组件508用于定位设备500的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件508可以是基于GPS(Global PositioningSystem，全球定位系统)、北斗系统或伽利略系统的定位组件。

电源509用于为设备500中的各个组件进行供电。电源509可以是交流电、直流电、一次性电池或可充电电池。当电源509包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，设备500还包括有一个或多个传感器510。该一个或多个传感器510包括但不限于：加速度传感器511、陀螺仪传感器512、压力传感器513、指纹传感器514、光学传感器515以及接近传感器516。

加速度传感器511可以检测以设备500建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器511可以用于检测重力加速度在三个坐标轴上的分量。处理器501可以根据加速度传感器511采集的重力加速度信号，控制显示屏505以横向视图或纵向视图进行用户界面的显示。加速度传感器511还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器512可以检测设备500的机体方向及转动角度，陀螺仪传感器512可以与加速度传感器511协同采集用户对设备500的3D动作。处理器501根据陀螺仪传感器512采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器513可以设置在设备500的侧边框和/或显示屏505的下层。当压力传感器513设置在设备500的侧边框时，可以检测用户对设备500的握持信号，由处理器501根据压力传感器513采集的握持信号进行左右手识别或快捷操作。当压力传感器513设置在显示屏505的下层时，由处理器501根据用户对显示屏505的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器514用于采集用户的指纹，由处理器501根据指纹传感器514采集到的指纹识别用户的身份，或者，由指纹传感器514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器501授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器514可以被设置设备500的正面、背面或侧面。当设备500上设置有物理按键或厂商Logo时，指纹传感器514可以与物理按键或厂商Logo集成在一起。

光学传感器515用于采集环境光强度。在一个实施例中，处理器501可以根据光学传感器515采集的环境光强度，控制显示屏505的显示亮度。具体地，当环境光强度较高时，调高显示屏505的显示亮度；当环境光强度较低时，调低显示屏505的显示亮度。在另一个实施例中，处理器501还可以根据光学传感器515采集的环境光强度，动态调整摄像头组件506的拍摄参数。

接近传感器516，也称距离传感器，通常设置在设备500的前面板。接近传感器516用于采集用户与设备500的正面之间的距离。在一个实施例中，当接近传感器516检测到用户与终端500的正面之间的距离逐渐变小时，由处理器501控制显示屏505从亮屏状态切换为息屏状态；当接近传感器516检测到用户与设备500的正面之间的距离逐渐变大时，由处理器501控制显示屏505从息屏状态切换为亮屏状态。

也即是，本申请实施例不仅提供了一种终端，包括处理器和用于存储处理器可执行指令的存储器，其中，处理器被配置为执行图2所示的获取标注数据方法，而且，本申请实施例还提供了一种计算机可读存储介质，该存储介质内存储有计算机程序，该计算机程序被处理器执行时可以实现图2所示的获取标注数据的方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述图2所示实施例提供的获取标注数据的方法。

以上所述并不用以限制本申请实施例，凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请实施例的保护范围之内。

Claims

1.一种获取标注数据的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述第一标注数据和所述第二标注数据均包括所述第一目标对象的属性信息，且所述第一标注数据包括在所述第一视频帧中所述第一目标对象的第一位置信息，所述第二标注数据包括在所述第二视频帧中所述第一目标对象的第二位置信息；

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一目标对象的位置偏移量，确定所述N个未标注视频帧中的每个未标注视频帧中所述第一目标对象的位置信息，包括：

根据所述第一位置信息、所述N个未标注视频帧的先后顺序和所述单帧位置偏移量，确定所述N个未标注视频帧中的每个未标注视频帧中所述第一目标对象的位置信息。

4.根据权利要求2所述的方法，其特征在于，所述第一位置信息包括在所述第一视频帧中所述第一目标对象所在的检测框的中心点的位置信息，所述第二位置信息包括在所述第二视频帧中所述第一目标对象所在的检测框的中心点的位置信息，所述N个未标注视频帧中的每个未标注视频帧中的所述第一目标对象的位置信息包括相应视频帧中所述第一目标对象所在的检测框的中心点的位置信息。

5.根据权利要求2-4任一所述的方法，其特征在于，所述第一位置信息包括在所述第一视频帧中所述第一目标对象所在的检测框的四个顶点的位置信息，所述第二位置信息包括在所述第二视频帧中所述第一目标对象所在的检测框的四个顶点的位置信息，所述N个未标注视频帧中的每个未标注视频帧中的所述第一目标对象的位置信息包括相应视频帧中所述第一目标对象所在的检测框的四个顶点的位置信息。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.一种获取标注数据的装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述第一标注数据和所述第二标注数据均包括所述第一目标对象的属性信息，且所述第一标注数据包括在所述第一视频帧中所述第一目标对象的第一位置信息，所述第二标注数据包括在所述第二视频帧中所述第一目标对象的第二位置信息；

所述确定模块主要用于：

10.根据权利要求9所述的装置，其特征在于，所述确定模块还用于：