CN110443294A

CN110443294A - 视频标注方法、装置、服务器、用户终端及存储介质

Info

Publication number: CN110443294A
Application number: CN201910676876.0A
Authority: CN
Inventors: 申涛; 黄军政; 宋凡
Original assignee: Fengtu Technology Shenzhen Co Ltd
Current assignee: Fengtu Technology Shenzhen Co Ltd
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2019-11-12

Abstract

本发明实施例公开了一种视频标注方法、装置、服务器、用户终端及存储介质。该服务器侧视频标注方法包括：服务器通过获取视频采集设备采集的多个视频文件；服务器根据多个视频文件发布视频标注任务；服务器将视频标注任务下发给多个用户终端，以使得多个用户终端各自领取视频标注任务进行视频标注，并将视频标注信息反馈给服务器，服务器接收所述多个用户终端反馈的视频标注信息。本发明实施例相对于传统视频标注方案需投入大量人力和资源的情况下，将视频采集设备采集的多个视频文件发布成视频任务，下发给多个用户终端，使得多个用户终端分包完成视频标注任务，大大提高了视频标注的效率和标注准确度，节约了人力和企业资源成本。

Description

视频标注方法、装置、服务器、用户终端及存储介质

技术领域

本发明涉及计算机技术领域，具体涉及一种视频标注方法、装置、服务器、用户终端及存储介质。

背景技术

当前计算机视觉领域，为了训练和优化机器深度学习算法，需要给出大量图片和视频样本数据对训练模型进行训练和学习，大量图片和视频训练数据的准备依赖于人工标注，需要较多的人力投入。

随着机器学习技术在计算机视觉领域的不断应用，对标注过的数据需求量越来越大，传统的纯人工数据标注的方法，由于其先天的特点：人的精力有限，存在着耗时耗人力的缺点，很难满足计算机视觉需要大量已标注数据样本的需求。特别是视频数据标注，比单纯的图像数据标注更加艰巨，一段视频数据的标注往往相当于几万甚至几百万张图像数据标注。

因此沿用传统视频标注方案需要投入大量人力和资源(例如：作业员或硬件资源等)，长期来看耗费的成本较大，标注效率低下，会延缓工程进度和交付时间。

发明内容

本发明实施例提供一种视频标注方法、装置、服务器、用户终端及存储介质，大大提高了视频标注的效率和标注准确度，节约了人力和企业资源成本。

第一方面，本申请提供一种视频标注方法，应用于服务器，所述视频标注方法包括：

获取视频采集设备采集的多个视频文件；

根据所述多个视频文件发布视频标注任务；

将所述视频标注任务下发给多个用户终端，以使得多个用户终端各自领取视频标注任务进行视频标注，并将视频标注信息反馈给所述服务器；

接收所述多个用户终端反馈的视频标注信息。

在本申请一些实施例中，所述获取视频采集设备采集的多个视频文件，包括：

获取视频采集设备采集的原始视频文件，将所述原始视频文件分割为预设时间长度的多个视频文件，

或者，获取视频采集设备按照预设时间长度采集的多个视频文件。

在本申请一些实施例中，所述根据所述多个视频文件发布视频标注任务，包括：

获取发布者为所述多个视频文件添加的任务标识信息，所述任务标识信息包括发布者信息、发布时间信息和任务完成期限信息；

基于所述任务标识信息和所述多个视频文件，发布视频标注任务。

在本申请一些实施例中，所述将所述视频标注任务下发给多个用户终端，包括：

确定与所述任务标识信息匹配的至少一个终端群组；

获取所述至少一个终端群组中的多个用户终端；

将所述视频标注任务下发给所述多个用户终端。

在本申请一些实施例中，在所述接收所述多个用户终端反馈的视频标注信息之后，所述方法还包括：

获取所述多个用户终端中目标用户终端反馈的第一视频标注信息，所述第一视频标注信息为目标视频文件对应的视频标注任务的标注信息；

根据所述第一视频标注信息进行标注融合处理，得到带有标注信息的目标视频文件。

在本申请一些实施例中，所述根据所述第一视频标注信息进行标注融合处理，得到带有标注信息的目标视频文件，包括：

播放所述目标视频文件，以使得用户在播放所述目标视频文件时，对所述第一视频标注信息进行修正；

获取用户对所述第一视频标注信息修正之后的第二视频标注信息；

将所述第二视频标注信息融合渲染到所述目标视频文件中，得到带有标注信息的目标视频文件。

第二方面，本申请提供一种视频标注方法，应用于用户终端，所述视频标注方法包括：

获取服务器发布的多个视频标注任务，每个视频标注任务对应一个视频文件；

获取用户在所述多个视频标注任务中，领取的目标视频标注任务，所述目标视频标注任务对应目标视频文件；

对所述目标视频文件进行标注，获取目标视频标注结果；

将所述目标视频标注结果反馈给所述服务器。

在本申请一些实施例中，所述对所述目标视频文件进行标注，获取目标视频标注结果，包括：

通过预设的视频播放组件播放所述目标视频文件；

在所述视频播放组件上新建标注图层；

检测所述目标视频文件中的关键帧，获取用户在所述标注图层对所述目标视频文件中的关键帧的人工标注信息；

根据所述人工标注信息，对所述所述目标视频文件中的非关键帧进行自动标注，得到目标视频标注结果。

在本申请一些实施例中，所述检测所述目标视频文件中的关键帧，获取用户在所述标注图层对所述目标视频文件中的关键帧的人工标注信息，包括：

依次以所述所述目标视频文件中的图像帧为目标图像帧，检测所述目标图像帧是否为关键帧；

若是，暂停所述目标视频文件，获取用户在所述标注图层对所述目标图像帧的人工标注信息。

第三方面，本申请提供一种视频标注装置，应用于服务器，所述视频标注装置包括：

获取单元，用于获取视频采集设备采集的多个视频文件；

发布单元，用于根据所述多个视频文件发布视频标注任务；

发送单元，用于将所述视频标注任务下发给多个用户终端，以使得多个用户终端各自领取视频标注任务进行视频标注，并将视频标注信息反馈给所述服务器；

接收单元，用于接收所述多个用户终端反馈的视频标注信息。

在本申请一些实施例中，所述获取单元具体用于：

在本申请一些实施例中，所述发布单元具体用于：

在本申请一些实施例中，所述发送单元具体用于：

确定与所述任务标识信息匹配的至少一个终端群组；

获取所述至少一个终端群组中的多个用户终端；

将所述视频标注任务下发给所述多个用户终端。

在本申请一些实施例中，所述装置还包括融合单元，所述融合单元用于：

在所述接收单元接收所述多个用户终端反馈的视频标注信息之后，获取所述多个用户终端中目标用户终端反馈的第一视频标注信息，所述第一视频标注信息为目标视频文件对应的视频标注任务的标注信息；

在本申请一些实施例中，所述融合单元具体用于：

第四方面，本申请提供一种视频标注装置，应用于用户终端，所述视频标注装置包括：

第一获取单元，用于获取服务器发布的多个视频标注任务，每个视频标注任务对应一个视频文件；

第二获取单元，用于获取用户在所述多个视频标注任务中，领取的目标视频标注任务，所述目标视频标注任务对应目标视频文件；

标注单元，用于对所述目标视频文件进行标注，获取目标视频标注结果；

反馈单元，用于将所述目标视频标注结果反馈给所述服务器。

在本申请一些实施例中，所述标注单元具体用于：

通过预设的视频播放组件播放所述目标视频文件；

在所述视频播放组件上新建标注图层；

在本申请一些实施例中，所述标注单元具体用于：

第五方面，本申请提供一种服务器，所述服务器包括：

一个或多个处理器；

存储器；以及

一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并配置为由所述处理器执行以实现第一方面中任一项所述的视频标注方法。

第六方面，本申请提供一种用户终端，所述用户终端包括：

一个或多个处理器；

存储器；以及

一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并配置为由所述处理器执行以实现第二方面中任一项所述的视频标注方法。

第七方面，本申请提供一种存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器进行加载，以执行第一方面或第二方面中任一项所述的视频标注方法中的步骤。

本发明实施例用户终端通过获取服务器发布的多个视频标注任务，每个视频标注任务对应一个视频文件；获取用户在多个视频标注任务中，领取的目标视频标注任务，目标视频标注任务对应目标视频文件；对目标视频文件进行标注，获取目标视频标注结果；将目标视频标注结果反馈给所述服务器。相对于传统视频标注方案仅需在服务器进行人工视频标注，需投入大量人力和资源，本发明实施例服务器只将视频采集设备采集的多个视频文件发布成视频任务，下发给多个用户终端，使得多个用户终端中每个用户终端可分别领取视频标注任务，并在视频标注完成之后将视频标注结果反馈给服务器，有效利用了用户终端的处理能力，降低了服务器的视频标注压力，大大提高了视频标注的效率和标注准确度，节约了人力和企业资源成本。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的视频标注系统的场景示意图；

图2是本发明实施例提供的服务器侧视频标注方法的一个实施例流程示意图；

图3是本发明实施例中在图2所示实施例基础上，提供的视频标注方法的另一个实施例流程示意图；

图4是本发明实施例提供的用户终端侧视频标注方法的一个实施例流程示意图；

图5本发明实施例提供的服务器侧视频标注装置的一个实施例结构示意图；

图6是本发明实施例提供的用户终端侧视频标注装置的一个实施例结构示意图；

图7是本发明实施例提供的服务器的一个实施例结构示意图；

图8是本发明实施例提供的用户终端的一个实施例结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本申请中，“示例性”一词用来表示“用作例子、例证或说明”。本申请中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本发明，给出了以下描述。在以下描述中，为了解释的目的而列出了细节。应当明白的是，本领域普通技术人员可以认识到，在不使用这些特定细节的情况下也可以实现本发明。在其它实例中，不会对公知的结构和过程进行详细阐述，以避免不必要的细节使本发明的描述变得晦涩。因此，本发明并非旨在限于所示的实施例，而是与符合本申请所公开的原理和特征的最广范围相一致。

本发明实施例提供一种视频标注方法、装置、服务器、用户终端及存储介质，以下分别进行详细说明。

请参阅图1，图1为本发明实施例所提供的视频标注系统的场景示意图，该视频标注系统可以包括用户终端100和服务器200，用户终端100和服务器20网络连接，服务器200中集成有视频标注装置，如图1中的服务器，用户终端100可以访问服务器200。

本发明实施例中服务器200主要用于获取视频采集设备采集的多个视频文件；根据所述多个视频文件发布视频标注任务；将所述视频标注任务下发给多个用户终端，以使得多个用户终端各自领取视频标注任务进行视频标注，并将视频标注信息反馈给服务器；接收所述多个用户终端反馈的视频标注信息。

本发明实施例中用户终端100主要用于获取服务器发布的多个视频标注任务，每个视频标注任务对应一个视频文件；获取用户在所述多个视频标注任务中，领取的目标视频标注任务，所述目标视频标注任务对应目标视频文件；对所述目标视频文件进行标注，获取目标视频标注结果；将所述目标视频标注结果反馈给所述服务器。

本发明实施例中，该服务器200可以是独立的服务器，也可以是服务器组成的服务器网络或服务器集群，例如，本发明实施例中所描述的服务器200，其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云服务器。其中，云服务器由基于云计算(Cloud Computing)的大量计算机或网络服务器构成。本发明的实施例中，服务器与用户终端之间可通过任何通信方式实现通信，包括但不限于，基于第三代合作伙伴计划(3rd Generation Partnership Project，3GPP)、长期演进(Long TermEvolution，LTE)、全球互通微波访问(Worldwide Interoperability for MicrowaveAccess，WiMAX)的移动通信，或基于TCP/IP协议族(TCP/IP Protocol Suite，TCP/IP)、用户数据报协议(User Datagram Protocol，UDP)协议的计算机网络通信等。

可以理解的是，本发明实施例中所使用的用户终端100既包括接收和发射硬件的设备，即具有能够在双向通信链路上，执行双向通信的接收和发射硬件的设备。这种用户终端设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备。具体的用户终端100具体可以是台式终端或移动终端，用户终端100具体可以手机、平板电脑、笔记本电脑等中的一种。

本领域技术人员可以理解，图1中示出的应用环境，仅仅是与本申请方案一种应用场景，并不构成对本申请方案应用场景的限定，其他的应用环境还可以包括比图1中所示更多或更少的服务器，或者服务器网络连接关系，例如图1中仅示出1个服务器和2个用户终端，可以理解的，该视频标注系统还可以包括一个或多个其他服务器，或/且一个或多个与服务器网络连接的用户终端，具体此处不作限定。

另外，如图1所示，该视频标注系统还可以包括存储器300，用于存储数据，如存储视频数据，例如视频采集设备采集采集的视频文件。

需要说明的是，图1所示的视频标注系统的场景示意图仅仅是一个示例，本发明实施例描述的视频标注系统以及场景是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定，本领域普通技术人员可知，随着视频标注系统的演变和新业务场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。

如图2所示，为本发明实施例中提供服务器侧的视频标注方法的一个实施例流程示意图，该视频标注方法包括：

201、获取视频采集设备采集的多个视频文件。

其中，视频采集设备可以是现有技术中的视频采集设备，目前，对于物流领域，视频采集设备可以架设在快递员收派车上，架设在快递员收派车上的视频采集设备可以把行进收派车过程中的画面拍摄成视频文件，具体的，拍摄视频文件时可以按照设定的目标拍摄，例如，标志牌，车，人等，具体此处不作限定。

在本发明实施例中，所述获取视频采集设备采集的多个视频文件的步骤有多种实现方式，具体如下：

(1)获取视频采集设备采集的多个视频文件的步骤包括：获取视频采集设备采集的原始视频文件(例如用户将原始视频文件上传到服务器)，将所述原始视频文件分割为预设时间长度的多个视频文件。

具体的，即视频采集设备采集的原始视频文件是一个大文件，通过将所述原始视频文件分割为预设时间长度的多个视频文件，即可获取得到该视频采集设备采集的多个视频文件，其中，预设时间长度可以根据实际应用情况进行设置，例如，预设时间长度为5min长度，即将原始视频文件分割为5min的短视频文件，当然可以理解的是，由于最后分割可能会出现不足5min中的情况，因此该多个视频文件中可能存在一个不足5min长度的视频文件。

(2)获取视频采集设备采集的多个视频文件的步骤包括：获取视频采集设备按照预设时间长度采集的多个视频文件(例如用户将该多个视频文件上传服务器)。

具体的，即视频采集设备拍摄视频时，即时按照预设时间长度进行保存的，例如，当预设时间长度为5min时，即视频采集设备每拍摄视频5min视频，即保存为一个视频文件。

202、根据所述多个视频文件发布视频标注任务。

当服务器获取步骤101中的多个视频文件之后，服务器即可根据多个视频文件发布视频标注任务。具体的，所述根据所述多个视频文件发布视频标注任务的步骤可以包括：获取发布者为所述多个视频文件添加的任务标识信息，所述任务标识信息包括发布者信息、发布时间信息和任务完成期限信息；基于所述任务标识信息和所述多个视频文件，发布视频标注任务。

例如，当服务器获取步骤101中的多个视频文件之后，用户(视频文件的发布者)可以在服务器为该多个视频文件添加的任务标识信息，例如发布者信息、发布时间信息和任务完成期限信息(例如某个视频文件需要在XX日期前完成标注)。其中，发布者信息和发布时间信息，这两个信息可以是上传多个视频文件之后自动添加的，只是在需要用户点击发布后生成，认为是发布者添加的。

可以理解的是，在本发明其他一些实施例中，除了发布者信息、发布时间信息和任务完成期限信息之外，任务标识信息还可以包括更多的信息，例如任务领取者的设定信息，如仅限广东省用户领取该视频文件的视频标注任务等，具体可根据实际情况设置，此处不作限定。

203、将所述视频标注任务下发给多个用户终端，以使得多个用户终端各自领取视频标注任务进行视频标注，并将视频标注信息反馈给所述服务器。

在本发明实施例中，在步骤202中完成根据所述多个视频文件发布视频标注任务之后，即可将所述视频标注任务下发给多个用户终端，在多个用户终端的显示界面即可展示这些视频标注任务。

在本发明一些实施例中，所述将所述视频标注任务下发给多个用户终端具体可以包括包括：确定与所述任务标识信息匹配的至少一个终端群组；获取所述至少一个终端群组中的多个用户终端；将所述视频标注任务下发给所述多个用户终端。

其中，终端群组是按地区或按行业分类的群组，例如深圳地区的终端群组，即包括所有深圳地区的用户终端(具体的，即深圳地区用户的用户终端)，又例如快递行业的终端群组，即包括服务器中已保存的快递行业用户的用户终端，每个终端群组中包括至少一个用户终端。

在服务器下发任务时，可以先确定匹配不同的终端群组，即限制视频标注任务的下发对象，只将只写视频标注任务下发到与所述任务标识信息匹配的至少一个终端群组，在此至少一个终端群组选择多个用户终端，并将视频标注任务下发给所述多个用户终端。

需要说明的是，本发明实施例中确定与所述任务标识信息匹配的至少一个终端群组，可以是获取用户设定的与所述任务标识信息匹配的至少一个终端群组，也可以是服务器根据每个视频标注任务对应的任务标识信息，在服务器中保存的终端群组中查找匹配的至少一个群组，确定与所述任务标识信息匹配的至少一个终端群组，例如，任务标识信息还包括发布者的位置信息(如深圳市)，即可根据发布者的位置信息，查找在该发布者的位置信息范围内的终端群组(如深圳市的终端群组)。

204、接收所述多个用户终端反馈的视频标注信息。

本发明实施例服务器通过获取视频采集设备采集的多个视频文件；服务器根据多个视频文件发布视频标注任务；服务器将视频标注任务下发给多个用户终端，以使得多个用户终端各自领取视频标注任务进行视频标注，并将视频标注信息反馈给服务器，服务器接收所述多个用户终端反馈的视频标注信息。本发明实施例相对于传统视频标注方案需投入大量人力和资源的情况下，将视频采集设备采集的多个视频文件发布成视频任务，下发给多个用户终端，使得多个用户终端分包完成视频标注任务，大大提高了视频标注的效率和标注准确度，节约了人力和企业资源成本。

在步骤204中接收所述多个用户终端反馈的视频标注信息之后，即可根据视频标注信息得到带有标注信息的目标视频文件，以供后续训练模型作为样本数据使用，训练得到视频标注模型，具体的，如图3所示，在所述接收所述多个用户终端反馈的视频标注信息之后，本发明实施例中方法还可以包括：

301、获取所述多个用户终端中目标用户终端反馈的第一视频标注信息，所述第一视频标注信息为目标视频文件对应的视频标注任务的标注信息。

302、根据所述第一视频标注信息进行标注融合处理，得到带有标注信息的目标视频文件。

对于下发给各个用户终端用户的视频文件，各用户终端反馈视频文件对应的标注信息，标注信息审核人员可以在服务器上对用户反馈的标注信息进行审核修正，具体的，即所述根据所述第一视频标注信息进行标注融合处理，得到带有标注信息的目标视频文件的步骤可以包括：播放所述目标视频文件，以使得用户(标注信息审核人员)在播放所述目标视频文件时，对所述第一视频标注信息进行修正；获取用户对所述第一视频标注信息修正之后的第二视频标注信息；将所述第二视频标注信息融合渲染到所述目标视频文件中，得到带有标注信息的目标视频文件。

具体的，对于目标视频文件中的图像帧来说，在一段时间内，连续图像帧中出现的目标可能是相同的，例如在目标视频文件第1帧图像到第10帧图像之间存在10帧图像，若第一视频标注信息中对第1帧图像的标注新和对第10帧图像的标注信息相同，均为“车”，而对第5帧图像信息与其他9帧图像不同，标注为“人”，此时，该第一视频标注中的第5帧图像即可能标注错误，若发现第二视频标注信息中目标视频文件第1帧图像到第10帧图像的标注信息均为“车”，此时，即可根据第二视频标注信息修正第一视频标注信息对第5帧的标注信息，修改为“人”。

另外，本发明实施例中，将视频标注信息融合渲染到视频文件中，得到带有标注信息的视频文件的方式可以参照现有文本和视频融合的方式，具体此处不再赘述。

下面介绍本发明实施例中用户终端侧的视频标注方法，请参阅图4所示，为本发明实施例中用户终端侧的视频标注方法的一个实施例流程示意图，该视频标注方法包括：

401、获取服务器发布的多个视频标注任务，每个视频标注任务对应一个视频文件。

在图2所示实施例中国，服务器将视频标注任务下发给多个用户终端之后，用户终端即可获取到该多个视频标注任务，其中，每个视频标注任务对应一个待标注的视频文件。

402、获取用户在所述多个视频标注任务中，领取的目标视频标注任务，所述目标视频标注任务对应目标视频文件。

对于用户终端的用户来说，他可以在多个视频标注任务中选择自己感兴趣的视频标注任务，此时，用户终端即可获取用户在所述多个视频标注任务中，领取的目标视频标注任务，本发明实施例中，目标视频标注任务对应目标视频文件。

需要说明的，当一个用户终端领取视频标注任务之后，在服务器上该视频标注任务对其他用户终端的用户即不可见。

403、对所述目标视频文件进行标注，获取目标视频标注结果。

本发明实施例中，在用户通过用户终端领取视频标注任务之后，可以在视频标注任务界面显示用于供用户了解视频标注的在线学习文档，方便新手快速学习视频标注。

目前，传统视频标注方法，是对视频文件进行抽帧或截图，获取其中的图像进行标注，这中间需要对直接视频文件进行编解码、抽帧或截图等逻辑，这些逻辑的运行非常耗时和影响标注效率，因此，本发明实施例中，在视频播放组件上新建一个画布图层(即用于标注视频的标注图层)，该标注图层覆盖视频播放组件，该标注图层可以基于原生图像控件扩展开发，该标注图层为透明，可在标注图层任意位置画标注框(标注框可支持矩形和不规则多边形等多种形状)。

具体的，所述对所述目标视频文件进行标注，获取目标视频标注结果，具体可以包括：通过预设的视频播放组件播放所述目标视频文件；在所述视频播放组件上新建标注图层，以供用户在所述标注图层上进行视频标注；检测所述目标视频文件中的关键帧，获取用户在所述标注图层对所述目标视频文件中的关键帧的人工标注信息；根据所述人工标注信息，对所述所述目标视频文件中的非关键帧进行自动标注，得到目标视频标注结果。

通过本发明实施例中标注图层和视频播放组件的分离设置，使得视频标注作业只依赖透明标注图层，即只在标注图层进行视频标注，不对视频文件本身进行编辑，因此不需要进行耗时的编解码等图像处理，大大提高了视频标注效率。

在本发明一些实施例中，所述检测所述目标视频文件中的关键帧，获取用户对所述目标视频文件中的关键帧的人工标注信息，包括：依次以所述所述目标视频文件中的图像帧为目标图像帧，检测所述目标图像帧是否为关键帧；若是，暂停所述目标视频文件，获取用户对所述目标图像帧的人工标注信息。若该目标图像帧非关键帧，则可以按照自动标注算法，将以上一个关键帧的人工标注信息为该目标图像帧的标注信息。

其中，依次以所述目标视频文件中的图像帧为目标图像帧的具体过程如下：对于目标视频文件中，包括按排列顺序排列的一定数量的图像帧，例如目标视频文件包括10帧图像，依次为第1帧图像，第2帧图像，第3帧图像...第10帧图像，按照所述所述目标视频文件中图像帧的排列顺序，依次将所述目标视频文件中图像帧作为目标图像帧，例如，最先将目标视频文件中第1帧图像作为目标图像帧，检测第1帧图像是否为关键帧；若是，暂停目标视频文件，获取用户对第1帧图像的人工标注信息，本发明实施例中，视频文件的第一帧都确定为关键帧，在第1帧图像检测及标注完成之后，将目标视频文件中第2帧图像作为目标图像帧，检测第2帧图像是否为关键帧；若是，暂停目标视频文件，获取用户对第2帧图像的人工标注信息，若第2帧图像为非关键帧，则将第1帧的人工标注信息作为第2帧图像的标注信息，依次类推，直至目标视频文件中的10帧图像均完成检测及标注为止，即完成目标视频文件的视频标注过程。

在一个具体实施例中，对所述目标视频文件进行标注，获取目标视频标注结果可以如下包括：

(1)利用视频播放组件加载目标视频文件进入准备状态，初始化显示目标视频文件的第一帧内容；

(2)、在视频播放组件上新建一个画布图层(即用于标注视频的标注图层)，该标注图层覆盖视频播放组件，该标注图层可以基于原生图像控件扩展开发，该标注图层为透明，可在标注图层任意位置画标注框(标注框可支持矩形和不规则多边形)；

(3)、在视频播放组件显示的目标视频文件第一帧开始视频标注作业(第一帧直接作为关键帧)，第一帧标注完成后，开始播放，检测目标视频文件后续每一帧是否为关键帧(即是否相对上一帧出现新的目标)，若当前帧为关键帧，暂停目标视频文件的播放，让用户在暂停显示的关键帧上进行的视频标注，获取用户在暂停显示的关键帧上的标注信息。

对所述所述目标视频文件中的非关键帧进行可以按照预设的自动标注算法进行自动标注，同样的此处的自动标注算法可以是现有的视频标注算法，具体此处不作限定。这样只需要在有新目标出现的关键帧进行视频标注即可，有规律的普通帧(非关键帧)可以直接由自动标注，大大减少了标注的工作量，提升了视频标注效率。

另外，当检测到当前帧为关键帧，需要进行标注时，可以根据预先获取的参数信息(如拍摄设备的移动速度、坐标等参数)结合线性计算公式计算出标注信息位置，在该标注信息位置显示标注框，方便用户直接在该位置进行标注。根据预先获取的参数信息(如拍摄设备的移动速度、坐标等参数)结合线性计算公式计算出标注信息位置为现有技术，此处不作限定。

(4)、如此往复步骤(3)直到整个目标视频文件标注作业完成。

404、将所述目标视频标注结果反馈给所述服务器。

本发明实施例用户终端通过获取服务器发布的多个视频标注任务，每个视频标注任务对应一个视频文件；获取用户在多个视频标注任务中，领取的目标视频标注任务，目标视频标注任务对应目标视频文件；对目标视频文件进行标注，获取目标视频标注结果；将目标视频标注结果反馈给所述服务器。相对于传统视频标注方案仅在服务器进行人工视频标注，需投入大量人力和资源，本发明实施例服务器只将视频采集设备采集的多个视频文件发布成视频任务，下发给多个用户终端，使得多个用户终端中每个用户终端可分别领取视频标注任务，并在视频标注完成之后将视频标注结果反馈给服务器，有效利用了用户终端的处理能力，降低了服务器的视频标注压力，大大提高了视频标注的效率和标注准确度，节约了人力和企业资源成本。

为了更好实施本发明实施例中视频标注方法，在视频标注方法基础之上，本发明实施例中还提供一种视频标注装置，如图5所示，为本发明实施例中视频标注装置的一个实施例结构示意图，该视频标注装置应用于服务器，该视频标注装置500包括获取单元501、发布单元502、发送单元503和接收单元504：

获取单元501，用于获取视频采集设备采集的多个视频文件；

发布单元502，用于根据所述多个视频文件发布视频标注任务；

发送单元503，用于将所述视频标注任务下发给多个用户终端，以使得多个用户终端各自领取视频标注任务进行视频标注，并将视频标注信息反馈给所述服务器；

接收单元504，用于接收所述多个用户终端反馈的视频标注信息。

在本申请一些实施例中，所述获取单元501具体用于：

在本申请一些实施例中，所述发布单元502具体用于：

在本申请一些实施例中，所述发送单元503具体用于：

确定与所述任务标识信息匹配的至少一个终端群组；

获取所述至少一个终端群组中的多个用户终端；

将所述视频标注任务下发给所述多个用户终端。

在本申请一些实施例中，所述融合单元具体用于：

利用预设的自动标注算法对所述目标视频文件进行标注，得到第二视频标注信息；

根据所述第二视频标注信息修正所述第一视频标注信息，得到第三视频标注信息；

将所述第三视频标注信息融合渲染到所述目标视频文件中，得到带有标注信息的目标视频文件。

本发明实施例服务器通过获取单元501获取视频采集设备采集的多个视频文件；发布单元502根据多个视频文件发布视频标注任务；发送单元503将视频标注任务下发给多个用户终端，以使得多个用户终端各自领取视频标注任务进行视频标注，并将视频标注信息反馈给服务器，接收单元504接收所述多个用户终端反馈的视频标注信息。本发明实施例相对于传统视频标注方案需投入大量人力和资源的情况下，借助软件将视频采集设备采集的多个视频文件发布成视频任务，下发给多个用户终端，使得多个用户终端分包完成视频标注任务，大大提高了视频标注的效率和标注准确度，节约了人力和企业资源成本。

如图6所示，为本发明实施例中视频标注装置的另一个实施例结构示意图，该视频标注装置应用于用户终端，该视频标注装置600包括第一获取单元601、第二获取单元602、标注单元603和反馈单元604：

第一获取单元601，用于获取服务器发布的多个视频标注任务，每个视频标注任务对应一个视频文件；

第二获取单元602，用于获取用户在所述多个视频标注任务中，领取的目标视频标注任务，所述目标视频标注任务对应目标视频文件；

标注单元603，用于对所述目标视频文件进行标注，获取目标视频标注结果；

反馈单元604，用于将所述目标视频标注结果反馈给所述服务器。

在本申请一些实施例中，所述标注单元604具体用于：

播放所述目标视频文件；

检测所述目标视频文件中的关键帧，获取用户对所述目标视频文件中的关键帧的人工标注信息；

在本申请一些实施例中，所述标注单元604具体用于：

若是，暂停所述目标视频文件，获取用户对所述目标图像帧的人工标注信息。

本发明实施例用户终端通过第一获取单元601获取服务器发布的多个视频标注任务，每个视频标注任务对应一个视频文件；第二获取单元602获取用户在所述多个视频标注任务中，领取的目标视频标注任务，所述目标视频标注任务对应目标视频文件；标注单元603对所述目标视频文件进行标注，获取目标视频标注结果；反馈单元604将所述目标视频标注结果反馈给所述服务器。本发明实施例相对于传统视频标注方案需投入大量人力和资源的情况下，借助软件将视频采集设备采集的多个视频文件发布成视频任务，下发给多个用户终端，使得多个用户终端分包完成视频标注任务，大大提高了视频标注的效率和标注准确度，节约了人力和企业资源成本。

本发明实施例还提供一种服务器，其集成了本发明实施例所提供的任一种视频标注装置，所述服务器包括：

一个或多个处理器；

存储器；以及

一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并配置为由所述处理器执行上述服务器侧的视频标注方法实施例中，任一实施例中所述的视频标注方法中的步骤。

本发明实施例还提供一种服务器，其集成了本发明实施例所提供的任一种视频标注方法。如图7所示，其示出了本发明实施例所涉及的服务器的结构示意图，具体来讲：

该服务器可以包括一个或者一个以上处理核心的处理器701、一个或一个以上计算机可读存储介质的存储器702、电源703和输入单元704等部件。本领域技术人员可以理解，图7中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器701是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器702内的软件程序和/或模块，以及调用存储在存储器702内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体监控。可选的，处理器701可包括一个或多个处理核心；优选的，处理器701可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器701中。

存储器702可用于存储软件程序以及模块，处理器701通过运行存储在存储器702的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器702可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器702可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器702还可以包括存储器控制器，以提供处理器701对存储器702的访问。

服务器还包括给各个部件供电的电源703，优选的，电源703可以通过电源管理系统与处理器701逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源703还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入单元704，该输入单元704可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，服务器还可以包括显示单元等，在此不再赘述。具体在本实施例中，服务器中的处理器701会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器702中，并由处理器701来运行存储在存储器702中的应用程序，从而实现各种功能，如下：

获取视频采集设备采集的多个视频文件；

根据所述多个视频文件发布视频标注任务；

接收所述多个用户终端反馈的视频标注信息。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

本发明实施例还提供一种用户终端，其集成了本发明实施例所提供的任一种视频标注装置，所述用户终端包括：

一个或多个处理器；

存储器；以及

一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并配置为由所述处理器执行上述用户终端侧的视频标注方法实施例中，任一实施例中所述的视频标注方法中的步骤。

本发明实施例还提供一种用户终端，其集成了本发明实施例所提供的任一种视频标注方法。如图8所示，其示出了本发明实施例所涉及的用户终端的结构示意图，具体来讲：

该用户终端可以包括一个或者一个以上处理核心的处理器801、一个或一个以上计算机可读存储介质的存储器802、电源803和输入单元804等部件。本领域技术人员可以理解，图8中示出的用户终端结构并不构成对用户终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器801是该用户终端的控制中心，利用各种接口和线路连接整个用户终端的各个部分，通过运行或执行存储在存储器802内的软件程序和/或模块，以及调用存储在存储器802内的数据，执行用户终端的各种功能和处理数据，从而对用户终端进行整体监控。可选的，处理器801可包括一个或多个处理核心；优选的，处理器801可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器801中。

存储器802可用于存储软件程序以及模块，处理器801通过运行存储在存储器802的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器802可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据用户终端的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器802还可以包括存储器控制器，以提供处理器801对存储器802的访问。

用户终端还包括给各个部件供电的电源803，优选的，电源803可以通过电源管理系统与处理器801逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源803还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该用户终端还可包括输入单元804，该输入单元804可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，用户终端还可以包括显示单元等，在此不再赘述。具体在本实施例中，用户终端中的处理器801会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器802中，并由处理器801来运行存储在存储器802中的应用程序，从而实现各种功能，如下：

对所述目标视频文件进行标注，获取目标视频标注结果；

将所述目标视频标注结果反馈给所述服务器。

为此，本发明实施例提供一种存储介质，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。其上存储有计算机程序，所述计算机程序被处理器进行加载，以执行本发明实施例所提供的任一种视频标注方法中的步骤。例如，所述计算机程序被处理器进行加载可以执行如下步骤：

获取视频采集设备采集的多个视频文件；

根据所述多个视频文件发布视频标注任务；

接收所述多个用户终端反馈的视频标注信息。

或者，所述计算机程序被处理器进行加载可以执行如下步骤：

对所述目标视频文件进行标注，获取目标视频标注结果；

将所述目标视频标注结果反馈给所述服务器。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对其他实施例的详细描述，此处不再赘述。

具体实施时，以上各个单元或结构可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元或结构的具体实施可参见前面的方法实施例，在此不再赘述。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种视频标注方法、装置、服务器、用户终端及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频标注方法，其特征在于，应用于服务器，所述视频标注方法包括：

获取视频采集设备采集的多个视频文件；

根据所述多个视频文件发布视频标注任务；

接收所述多个用户终端反馈的视频标注信息。

2.根据权利要求1所述的视频标注方法，其特征在于，所述获取视频采集设备采集的多个视频文件，包括：

3.根据权利要求1所述的视频标注方法，其特征在于，所述根据所述多个视频文件发布视频标注任务，包括：

4.根据权利要求3所述的视频标注方法，其特征在于，所述将所述视频标注任务下发给多个用户终端，包括：

确定与所述任务标识信息匹配的至少一个终端群组；

获取所述至少一个终端群组中的多个用户终端；

将所述视频标注任务下发给所述多个用户终端。

5.根据权利要求1至4中任一所述的视频标注方法，其特征在于，在所述接收所述多个用户终端反馈的视频标注信息之后，所述方法还包括：

6.根据权利要求5所述的视频标注方法，其特征在于，所述根据所述第一视频标注信息进行标注融合处理，得到带有标注信息的目标视频文件，包括：

7.一种视频标注方法，其特征在于，应用于用户终端，所述视频标注方法包括：

对所述目标视频文件进行标注，获取目标视频标注结果；

将所述目标视频标注结果反馈给所述服务器。

8.根据权利要求7所述的视频标注方法，其特征在于，所述对所述目标视频文件进行标注，获取目标视频标注结果，包括：

通过预设的视频播放组件播放所述目标视频文件；

在所述视频播放组件上新建标注图层；

9.根据权利要求8所述的视频标注方法，其特征在于，所述检测所述目标视频文件中的关键帧，获取用户在所述标注图层对所述目标视频文件中的关键帧的人工标注信息，包括：

10.一种视频标注装置，其特征在于，应用于用户终端，所述视频标注装置包括：

11.一种服务器，其特征在于，所述服务器包括：

一个或多个处理器；

存储器；以及

一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并配置为由所述处理器执行以实现权利要求1至6中任一项所述的视频标注方法。

12.一种用户终端，其特征在于，所述用户终端包括：

一个或多个处理器；

存储器；以及

一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并配置为由所述处理器执行以实现权利要求7至9中任一项所述的视频标注方法。

13.一种存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器进行加载，以执行权利要求1至9任一项所述的视频标注方法中的步骤。