CN110826471B

CN110826471B - 视频标签的标注方法、装置、设备及计算机可读存储介质

Info

Publication number: CN110826471B
Application number: CN201911060414.2A
Authority: CN
Inventors: 贺思颖; 张粲; 汪青; 郭莎; 马俊铖
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-01
Filing date: 2019-11-01
Publication date: 2023-07-14
Anticipated expiration: 2039-11-01
Also published as: CN110826471A

Abstract

本申请实施例提供了视频标签的标注方法、装置、设备及计算机可读存储介质，该方法包括：获取待标注的无标签视频；根据无标签视频，确定无标签视频的每一帧的帧级别视频标签的类型和无标签视频的总帧数；根据无标签视频的每一帧的帧级别视频标签的类型和无标签视频的总帧数，对无标签视频标注全局视频标签并确定全局视频标签的类型，以用于得到带全局视频标签的视频；根据全局视频标签的类型和无标签视频的每一帧的帧级别视频标签的类型，对无标签视频的每一帧的帧级别视频标签进行众数滤波，将带全局视频标签的视频拆分成至少一个视频片段；根据至少一个视频片段，确定至少一个视频片段的片段视频标签的类型。该方法提升了视频标签的标注效率。

Description

视频标签的标注方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及计算机技术领域，具体而言，本申请涉及一种视频标签的标注方法、装置、设备及计算机可读存储介质。

背景技术

当前各大主流的社交平台、视频网站、短视频应用程序App等，都以视频作为主要的内容载体，视频内容的好看程度，直接决定了用户对平台的依赖程度，进而影响到平台的流量。因此，需要针对不同的视频场景采用不同的优化策略，例如，包含人脸内容的视频需要检测出人脸的区域做磨皮、祛痘等美化效果；包含风景内容的视频需要对风景做调色、滤镜等处理，使其色彩看起来更加艳丽。实现上述效果需要通过视频片段时序分类模型对视频帧进行逐帧筛选，定位出时序上的兴趣区域。但是，视频片段时序分类模型的训练和验证需要大量的带片段视频标签的视频片段，采用人工标注视频标签需要消耗大量的人力资源，导致视频标签的标注成本高、效率低。

发明内容

本申请针对现有的方式的缺点，提出一种视频标签的标注方法、装置、设备及计算机可读存储介质，用以解决如何提升视频标签的标注效率的问题。

第一方面，本申请提供了一种视频标签的标注方法，包括：

获取待标注的无标签视频；

根据无标签视频，确定无标签视频的每一帧的帧级别视频标签的类型和无标签视频的总帧数；

根据无标签视频的每一帧的帧级别视频标签的类型和无标签视频的总帧数，对无标签视频标注全局视频标签并确定全局视频标签的类型，以用于得到带全局视频标签的视频；

根据全局视频标签的类型和无标签视频的每一帧的帧级别视频标签的类型，对无标签视频的每一帧的帧级别视频标签进行众数滤波，将带全局视频标签的视频拆分成至少一个视频片段；

根据至少一个视频片段，确定至少一个视频片段的片段视频标签的类型。

可选地，根据无标签视频，确定无标签视频的每一帧的帧级别视频标签的类型，包括：

将无标签视频的每一帧逐帧输入至目标检测器，当检测到无标签视频中的帧包括预设的目标，对包括预设的目标的帧标注帧级别视频标签，并确定包括预设的目标的帧的帧级别视频标签的类型为第一标签类型，预设的目标包括人脸；

或当检测到无标签视频中的帧不包括预设的目标，对不包括预设的目标的帧标注帧级别视频标签，并确定不包括预设的目标的帧的帧级别视频标签的类型为第二标签类型，帧级别视频标签的类型包括第一标签类型、第二标签类型中的任意一种。

可选地，根据无标签视频的每一帧的帧级别视频标签的类型和无标签视频的总帧数，对无标签视频标注全局视频标签并确定全局视频标签的类型，包括：

将第一标签类型的帧级别视频标签的数量与帧级别视频标签的总数量相除，得到第一比例系数，帧级别视频标签的总数量与无标签视频的总帧数相同；

将第二标签类型的帧级别视频标签的数量与帧级别视频标签的总数量相除，得到第二比例系数；

根据第一比例系数和第二比例系数，对无标签视频标注全局视频标签并确定全局视频标签的类型，全局视频标签的类型包括第一全局视频标签类型、第二全局视频标签类型中的任意一种。

可选地，根据第一比例系数和第二比例系数，对无标签视频标注全局视频标签并确定全局视频标签的类型，包括：

当第一比例系数大于第一阈值且第一阈值大于第三阈值，对无标签视频标注全局视频标签并确定全局视频标签的类型为第一全局视频标签类型；

或当第二比例系数大于第二阈值且第二阈值大于第三阈值，对无标签视频标注全局视频标签并确定全局视频标签的类型为第二全局视频标签类型。

可选地，当第一比例系数不大于第一阈值且第二比例系数不大于第二阈值，无标签视频不标注全局视频标签。

可选地，根据全局视频标签的类型和无标签视频的每一帧的帧级别视频标签的类型，对无标签视频的每一帧的帧级别视频标签进行众数滤波，将带全局视频标签的视频拆分成至少一个视频片段，包括：

根据全局视频标签的类型、无标签视频的每一帧的帧级别视频标签的类型、预设的容忍度，以容忍度为窗长对无标签视频的每一帧的帧级别视频标签进行众数滤波，得到众数滤波后的帧级别视频标签，容忍度为正奇数；

根据将众数滤波后的帧级别视频标签的类型相同且连续的多个帧作为一个视频片段的方式，将带全局视频标签的视频拆分成至少一个视频片段。

可选地，根据至少一个视频片段，确定至少一个视频片段的片段视频标签的类型，包括：

根据至少一个视频片段，确定至少一个视频片段分别包括的帧的数量；

当视频片段所包括的帧的数量不小于预设的片段长度值且全局视频标签的类型为第一全局视频标签类型，确定视频片段的片段视频标签的类型为正样本，以用于视频片段时序分类模型的训练和验证；

或当视频片段所包括的帧的数量不小于预设的片段长度值且全局视频标签的类型为第二全局视频标签类型，确定视频片段的片段视频标签的类型为负样本，以用于视频片段时序分类模型的训练和验证。

第二方面，本申请提供了一种视频标签的标注装置，包括：

第一处理模块，用于获取待标注的无标签视频；

第二处理模块，用于根据无标签视频，确定无标签视频的每一帧的帧级别视频标签的类型和无标签视频的总帧数；

第三处理模块，用于根据无标签视频的每一帧的帧级别视频标签的类型和无标签视频的总帧数，对无标签视频标注全局视频标签并确定全局视频标签的类型，以用于得到带全局视频标签的视频；

第四处理模块，用于根据全局视频标签的类型和无标签视频的每一帧的帧级别视频标签的类型，对无标签视频的每一帧的帧级别视频标签进行众数滤波，将带全局视频标签的视频拆分成至少一个视频片段；

第五处理模块，用于根据至少一个视频片段，确定至少一个视频片段的片段视频标签的类型。

第三方面，本申请提供了一种电子设备，包括：处理器、存储器和总线；

总线，用于连接处理器和存储器；

存储器，用于存储操作指令；

处理器，用于通过调用操作指令，执行本申请第一方面的视频标签的标注方法。

第四方面，本申请提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被用于执行本申请第一方面的视频标签的标注方法。

本申请实施例提供的技术方案，至少具有如下有益效果：

获取待标注的无标签视频；根据无标签视频，确定无标签视频的每一帧的帧级别视频标签的类型和无标签视频的总帧数；根据无标签视频的每一帧的帧级别视频标签的类型和无标签视频的总帧数，对无标签视频标注全局视频标签并确定全局视频标签的类型，以用于得到带全局视频标签的视频；根据全局视频标签的类型和无标签视频的每一帧的帧级别视频标签的类型，对无标签视频的每一帧的帧级别视频标签进行众数滤波，将带全局视频标签的视频拆分成至少一个视频片段；根据至少一个视频片段，确定至少一个视频片段的片段视频标签的类型。本申请实施例的方案，将全局视频标签和众数滤波相结合，从无标签视频中提取可以用于视频片段时序分类模型的训练和验证的正样本视频片段和/或负样本视频片段，不仅节约人力逐帧标注成本，提升了视频标签的标注效率，而且可扩展性强，方便针对不同视频应用场景，做动态调整。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种视频标签的标注方法的流程示意图；

图2为本申请实施例提供的众数滤波的示意图；

图3为本申请实施例提供的另一种视频标签的标注方法的流程示意图；

图4为本申请实施例提供的视频片段时序分类模型的训练的示意图；

图5为本申请实施例提供的视频片段时序分类模型的测试的示意图；

图6为本申请实施例提供的一种视频标签的标注装置的结构示意图；

图7为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使得本申请的发明目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面详细描述本申请的实施例，该实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习或深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

为了更好的理解及说明本申请实施例的方案，下面对本申请实施例中所涉及到的一些技术用语进行简单说明。

众数滤波：一种非线性平滑技术，众数滤波将视频中每一帧的标签设置为该帧某时序邻域窗口内包含的所有帧的标签的众数值。

本申请实施例提供的技术方案涉及人工智能的计算机视觉技术，下面以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

实施例一

本申请实施例中提供了一种视频标签的标注方法，该方法的流程示意图如图1所示，该方法包括：

S101，获取待标注的无标签视频。

可选地，无标签视频包括微视视频，微视视频的内容包含多种场景，例如，人像作品、自然风光、游戏场景、厨艺展示等。

S102，根据无标签视频，确定无标签视频的每一帧的帧级别视频标签的类型和无标签视频的总帧数。

可选地，根据无标签的视频，判断无标签的视频的每一帧里面是否检出兴趣目标，例如，兴趣目标为人脸；若检出兴趣目标，则将无标签视频中检出兴趣目标的一帧的帧级别视频标签设置为1，确定检出兴趣目标的帧的帧级别视频标签的类型为第一标签类型；若未检出兴趣目标，则将无标签视频中未检出兴趣目标的一帧的帧级别视频标签设置为0，确定未检出兴趣目标的帧的帧级别视频标签的类型为第二标签类型。

S103，根据无标签视频的每一帧的帧级别视频标签的类型和无标签视频的总帧数，对无标签视频标注全局视频标签并确定全局视频标签的类型，以用于得到带全局视频标签的视频。

可选地，用一个全局视频标签表示整个视频，例如，兴趣目标为人脸；当确定整段视频为有人脸的视频，将全局视频标签设置为1，全局视频标签的类型为第一全局视频标签类型；当确定整段视频为无人脸的视频，将全局视频标签设置为0，全局视频标签的类型为第二全局视频标签类型。

S104，根据全局视频标签的类型和无标签视频的每一帧的帧级别视频标签的类型，对无标签视频的每一帧的帧级别视频标签进行众数滤波，将带全局视频标签的视频拆分成至少一个视频片段。

可选地，将带全局视频标签的视频的全部帧序列拆分成至少一个视频片段；带全局视频标签的视频中可以包含多段非连续的视频片段。

S105，根据至少一个视频片段，确定至少一个视频片段的片段视频标签的类型。

可选地，片段视频标签的类型包括正样本和负样本。

本申请实施例中，获取待标注的无标签视频；根据无标签视频，确定无标签视频的每一帧的帧级别视频标签的类型和无标签视频的总帧数；根据无标签视频的每一帧的帧级别视频标签的类型和无标签视频的总帧数，对无标签视频标注全局视频标签并确定全局视频标签的类型，以用于得到带全局视频标签的视频；根据全局视频标签的类型和无标签视频的每一帧的帧级别视频标签的类型，对无标签视频的每一帧的帧级别视频标签进行众数滤波，将带全局视频标签的视频拆分成至少一个视频片段；根据至少一个视频片段，确定至少一个视频片段的片段视频标签的类型。本申请实施例的方案，将全局视频标签和众数滤波相结合，从无标签视频中提取可以用于视频片段时序分类模型的训练和验证的正样本视频片段和/或负样本视频片段，不仅节约人力逐帧标注成本，提升了视频标签的标注效率，而且可扩展性强，方便针对不同视频应用场景，做动态调整。

可选地，预设的目标为兴趣目标；目标检测器指用于从无标签视频中检出兴趣目标的位置的模型或算法。当兴趣目标为人脸，则目标检测器为人脸检测器，当无标签视频中包含人脸，那么人脸检测器将检出人脸所在的位置。将无标签视频的每一帧逐帧输入至人脸检测器，判断无标签的视频的每一帧里面是否检出人脸，若检出人脸，则将无标签视频中检出人脸的一帧的帧级别视频标签设置为1，确定检出人脸的帧的帧级别视频标签的类型为第一标签类型；若未检出人脸，则将无标签视频中未检出人脸的一帧的帧级别视频标签设置为0，确定未检出人脸的帧的帧级别视频标签的类型为第二标签类型。

可选地，当目标检测器检测完无标签视频中的所有帧后，确定帧级别视频标签设置为1的帧占总帧数的比例，即第一比例系数α，以及确定帧级别视频标签设置为0标签的帧占总帧数的的比例，即第二比例系数β。第一比例系数α与第二比例系数β的和为1，即α+β＝1，α和β都为实数。

可选地，预设第一阈值为thr_α，第二阈值为thr_β，第三阈值为0.5；当第一比例系数α大于第一阈值thr_α且第一阈值thr_α大于第三阈值0.5，对无标签视频标注全局视频标签1，并确定全局视频标签的类型为第一全局视频标签类型；或当第二比例系数β大于第二阈值thr_β且第二阈值thr_β大于第三阈值0.5，对无标签视频标注全局视频标签0，并确定全局视频标签的类型为第二全局视频标签类型。

可选地，当第一比例系数α不大于第一阈值thr_α且第二比例系数β不大于第二阈值thr_β，无标签视频不标注全局视频标签，该无标签视频不会参与后续的处理过程。通过设定第一阈值thr_α、第二阈值thr_β和第三阈值为0.5，可以使无标签视频的全局视频标签的标注更加准确，无标签视频的实际的全局视频标签确实为预测的全局视频标签的置信率也更高。

可选地，设定一个容忍度为γ，γ为大于0的奇数，根据全局视频标签的类型、无标签视频的每一帧的帧级别视频标签的类型、预设的容忍度，以容忍度γ为窗长对无标签视频的每一帧的帧级别视频标签进行众数滤波。当前帧的索引为i，滤波考虑的帧索引范围为[i-(γ-1)/2，i+(γ-1)/2]。在全局视频标签为1的视频序列标签上进行众数滤波，即在当前帧的前(γ-1)/2至后(γ-1)/2的范围内只要存在大于(γ-1)/2个1，就把当前帧的标签改为1；同理，在全局视频标签为0的视频序列标签上进行众数滤波，即在当前帧的前(γ-1)/2至后(γ-1)/2的范围内只要存在大于(γ-1)/2个0，就把当前帧的标签改为0。接着，在滤波操作后的帧级别标签上进行视频片段的选取，预设选取的视频片段的片段长度的最小值为L，则在全局视频标签为1的视频中只选取连续1的长度大于等于L的片段作为正样本，在全局视频标签为0的视频中只选取连续0的长度大于等于L的片段作为负样本。

可选地，如图2所示，无标签视频的全局视频标签为1，该无标签视频包含15个帧，无标签视频的帧级别视频标签为[1,1,0,1,1,1,1,1,1,0,0,0,1,1,1]，帧的索引为1～15。预设容忍度γ＝3，即窗长为3，视频片段最小长度为L＝4，则经过窗长为3的众数滤波后，该无标签视频的帧级别标签为[1,1,1,1,1,1,1,1,1,0,0,0,1,1,1]。由于索引为1～9的帧为连续1，并且长度为9，大于最小长度4，故抽取该连续9帧作为正样本；虽然索引为13～15的帧也是连续为1，但不满足最小长度4，故舍弃。

可选地，带全局视频标签的视频中可以包含多段非连续的视频片段，假设一个包含10帧的视频的帧级别标签为[1,1,1,1,1,0,0,1,1,1]，帧序号为1-10。若整个视频看作一个样本，则该样本不能用于训练，因为这个样本中既含0帧又含1帧，故应舍弃。但如果将视频拆分成多个片段，并假设片段选取的最小长度L为3，则帧序号1-5、帧序号8-10为两个有效视频片段，帧序号1-5、帧序号8-10的两个视频片段均可以用于视频片段时序分类模型的训练。视频片段时序分类模型的训练的数据集中增加了这两段有效视频样本，即增加了数据集中视频样本的多样性。

可选地，预设容忍度γ＝1，视频片段最小长度为L＝8，此为更加严格的片段选取策略，会提取出更加纯净的正样本和负样本。当连续至少8帧全为1时，该视频片段才会被作为正样本；当连续至少8帧全为0时，该视频片段才会被作为负样本。

本申请实施例中提供了另一种视频标签的标注方法，该方法的流程示意图如图3所示，该方法包括：

S201，获取待标注的无标签视频。

S202，将无标签视频的每一帧逐帧输入至目标检测器进行检测。

S203，判断无标签视频的每一帧是否存在预设的目标，当无标签视频中的帧包括预设的目标，则转到步骤S204处理；当无标签视频中的帧不包括预设的目标，则转到步骤S205处理。

S204，对包括预设的目标的帧标注帧级别视频标签1，转到步骤S206处理。

可选地，预设的目标为人脸，若检出人脸，则将无标签视频中检出人脸的一帧的帧级别视频标签设置为1，确定检出人脸的帧的帧级别视频标签的类型为第一标签类型。

S205，对不包括预设的目标的帧标注帧级别视频标签0，转到步骤S207处理。

可选地，若未检出人脸，则将无标签视频中未检出人脸的一帧的帧级别视频标签设置为0，确定未检出人脸的帧的帧级别视频标签的类型为第二标签类型。

S206，确定帧级别视频标签设置为1的帧占总帧数的比例，即第一比例系数α；转到步骤S208处理。

S207，确定帧级别视频标签设置为0的帧占总帧数的比例，即第二比例系数β；转到步骤S209处理。

S208，判断第一比例系数α是否大于第一阈值thr_α，当第一比例系数α大于第一阈值thr_α时，转到步骤S210处理；当第一比例系数α不大于第一阈值thr_α时，转到步骤S212处理。

S209，判断第二比例系数β是否大于第二阈值thr_β，当第二比例系数β大于第二阈值thr_β时，转到步骤S211处理；当第二比例系数β不大于第二阈值thr_β时，转到步骤S212处理。

S210，对无标签视频标注全局视频标签1；转到步骤S213处理。

可选地，预设第一阈值为thr_α，第二阈值为thr_β，第三阈值为0.5；当第一比例系数α大于第一阈值thr_α且第一阈值thr_α大于第三阈值0.5，对无标签视频标注全局视频标签1，并确定全局视频标签的类型为第一全局视频标签类型。

S211，对无标签视频标注全局视频标签0；转到步骤S213处理。

可选地，当第二比例系数β大于第二阈值thr_β且第二阈值thr_β大于第三阈值0.5，对无标签视频标注全局视频标签0，并确定全局视频标签的类型为第二全局视频标签类型。

S212，无标签视频不标注全局视频标签。

可选地，当第一比例系数α不大于第一阈值thr_α且第二比例系数β不大于第二阈值thr_β，无标签视频不标注全局视频标签。

S213，得到带全局视频标签的视频。

S214，根据带全局视频标签的视频的全局视频标签的类型和无标签视频的每一帧的帧级别视频标签的类型，对无标签视频的每一帧的帧级别视频标签进行众数滤波，将带全局视频标签的视频拆分成多段视频片段，确定各视频片段的片段视频标签的类型。

S215，当视频片段的片段视频标签为1时，视频片段作为正样本；当视频片段的片段视频标签为0时，视频片段作为负样本。

可选地，正样本和负样本用于视频片段时序分类模型的训练和验证。

本申请实施例中，将全局视频标签和众数滤波相结合，从无标签视频中提取可以用于时序分类任务的正样本视频片段和/或负样本视频片段，时序分类任务包括视频片段时序分类模型的训练和验证，不仅节约人力逐帧标注成本，而且可扩展性强，方便针对不同视频应用场景，做动态调整。

为了更好的理解本申请实施例所提供的方法，下面结合具体应用场景的示例对本申请实施例的方案进行进一步详细说明。

可选地，如图4所示，在视频片段分类模型的训练中，视频片段分类模型为视频片段时序分类模型，训练数据集为包含若干正样本的视频片段和负样本的视频片段的集合，每个视频片段有唯一且确定的片段视频标签。训练时，随机从每个视频片段中抽取固定数量的帧用作网络输入，网络训练的监督信息为该段视频的片段视频标签。

可选地，如图5所示，在视频片段时序分类模型的测试或验证中，首先将待测视频序列分为互不重叠的包含固定m帧的视频片段。若视频总帧数N不能被m整除，则最后一个视频片段只有N％m帧，其中，N％m表示N除以m的余数。由于视频片段时序分类模型固定需要m帧作为输入，因此需要将最后一个视频片段扩展为m帧。将分好的视频片段按时间顺序输入训练好的视频片段时序分类模型，视频片段时序分类模型会给出对这一个包括m帧的视频片段的一个预测类别，则这m帧全部被预测为该预测类别。可选地，预测类别对于二分类任务来说是0、1，对于N分类任务是0、1、…、N-1。其中，N和m都为正整数。

视频片段时序分类模型训练过程需要大量带片段视频标签的视频片段，视频片段时序分类模型测试过程也需要较多的带片段视频标签的视频片段来评估模型性能表现。本申请实施例中，获取待标注的无标签视频；根据无标签视频，确定无标签视频的每一帧的帧级别视频标签的类型和无标签视频的总帧数；根据无标签视频的每一帧的帧级别视频标签的类型和无标签视频的总帧数，对无标签视频标注全局视频标签并确定全局视频标签的类型，以用于得到带全局视频标签的视频；根据全局视频标签的类型和无标签视频的每一帧的帧级别视频标签的类型，对无标签视频的每一帧的帧级别视频标签进行众数滤波，将带全局视频标签的视频拆分成至少一个视频片段；根据至少一个视频片段，确定至少一个视频片段的片段视频标签的类型。本申请实施例的方案，将全局视频标签和众数滤波相结合，从无标签视频中提取可以用于视频片段时序分类模型的训练和验证的正样本视频片段和/或负样本视频片段，不仅节约人力逐帧标注成本，提升了视频标签的标注效率，而且可扩展性强，方便针对不同视频应用场景，做动态调整。

实施例二

基于相同的发明构思，本申请实施例还提供了一种视频标签的标注装置，该装置的结构示意图如图6所示，视频标签的标注装置60，包括第一处理模块601、第二处理模块602、第三处理模块603、第四处理模块604和第五处理模块605。

第一处理模块601，用于获取待标注的无标签视频；

第二处理模块602，用于根据无标签视频，确定无标签视频的每一帧的帧级别视频标签的类型和无标签视频的总帧数；

第三处理模块603，用于根据无标签视频的每一帧的帧级别视频标签的类型和无标签视频的总帧数，对无标签视频标注全局视频标签并确定全局视频标签的类型，以用于得到带全局视频标签的视频；

第四处理模块604，用于根据全局视频标签的类型和无标签视频的每一帧的帧级别视频标签的类型，对无标签视频的每一帧的帧级别视频标签进行众数滤波，将带全局视频标签的视频拆分成至少一个视频片段；

第五处理模块605，用于根据至少一个视频片段，确定至少一个视频片段的片段视频标签的类型。

可选地，第二处理模块602，具体用于将无标签视频的每一帧逐帧输入至目标检测器，当检测到无标签视频中的帧包括预设的目标，对包括预设的目标的帧标注帧级别视频标签，并确定包括预设的目标的帧的帧级别视频标签的类型为第一标签类型，预设的目标包括人脸；或当检测到无标签视频中的帧不包括预设的目标，对不包括预设的目标的帧标注帧级别视频标签，并确定不包括预设的目标的帧的帧级别视频标签的类型为第二标签类型，帧级别视频标签的类型包括第一标签类型、第二标签类型中的任意一种。

可选地，第三处理模块603，具体用于将第一标签类型的帧级别视频标签的数量与帧级别视频标签的总数量相除，得到第一比例系数，帧级别视频标签的总数量与无标签视频的总帧数相同；将第二标签类型的帧级别视频标签的数量与帧级别视频标签的总数量相除，得到第二比例系数；根据第一比例系数和第二比例系数，对无标签视频标注全局视频标签并确定全局视频标签的类型，全局视频标签的类型包括第一全局视频标签类型、第二全局视频标签类型中的任意一种。

可选地，第三处理模块603，具体用于当第一比例系数大于第一阈值且第一阈值大于第三阈值，对无标签视频标注全局视频标签并确定全局视频标签的类型为第一全局视频标签类型；或当第二比例系数大于第二阈值且第二阈值大于第三阈值，对无标签视频标注全局视频标签并确定全局视频标签的类型为第二全局视频标签类型。

可选地，第四处理模块604，具体用于根据全局视频标签的类型、无标签视频的每一帧的帧级别视频标签的类型、预设的容忍度，以容忍度为窗长对无标签视频的每一帧的帧级别视频标签进行众数滤波，得到众数滤波后的帧级别视频标签，容忍度为正奇数；根据将众数滤波后的帧级别视频标签的类型相同且连续的多个帧作为一个视频片段的方式，将带全局视频标签的视频拆分成至少一个视频片段。

可选地，第五处理模块605，具体用于根据至少一个视频片段，确定至少一个视频片段分别包括的帧的数量；当视频片段所包括的帧的数量不小于预设的片段长度值且全局视频标签的类型为第一全局视频标签类型，确定视频片段的片段视频标签的类型为正样本，以用于视频片段时序分类模型的训练和验证；或当视频片段所包括的帧的数量不小于预设的片段长度值且全局视频标签的类型为第二全局视频标签类型，确定视频片段的片段视频标签的类型为负样本，以用于视频片段时序分类模型的训练和验证。

本申请实施例提供的视频标签的标注装置中未详述的内容，可参照上述实施例一提供的视频标签的标注方法，本申请实施例提供的视频标签的标注装置能够达到的有益效果与上述实施例一提供的视频标签的标注方法相同，在此不再赘述。

应用本申请实施例，至少具有如下有益效果：

实施例三

基于相同的发明构思，本申请实施例还提供了一种电子设备，该电子设备的结构示意图如图7所示，该电子设备6000包括至少一个处理器6001、存储器6002和总线6003，至少一个处理器6001均与存储6002电连接；存储器6002被配置用于存储有至少一个计算机可执行指令，处理器6001被配置用于执行该至少一个计算机可执行指令，从而执行如本申请实施例一中任意一个实施例或任意一种可选实施方式提供的任意一种视频标签的标注方法的步骤。

进一步，处理器6001可以是FPGA(Field－Programmable Gate Array，现场可编程门阵列)或者其它具有逻辑处理能力的器件，如MCU(Microcontroller Unit，微控制单元)、CPU(Central Process Unit，中央处理器)。

应用本申请实施例，至少具有如下有益效果：

实施例四

基于相同的发明构思，本申请实施例还提供了另一种计算机可读存储介质，存储有计算机程序，该计算机程序用于被处理器执行时实现本申请实施例一中任意一个实施例或任意一种可选实施方式提供的任意一种视频标签的标注的步骤。

本申请实施例提供的计算机可读存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(RandomAccess Memory，随即存储器)、EPROM(Erasable Programmable Read-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，可读存储介质包括由设备(例如，计算机)以能够读的形式存储或传输信息的任何介质。

应用本申请实施例，至少具有如下有益效果：

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本申请公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解，本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种视频标签的标注方法，其特征在于，包括：

获取待标注的无标签视频；

根据所述无标签视频，确定所述无标签视频的每一帧的帧级别视频标签的类型和所述无标签视频的总帧数；

根据所述无标签视频的每一帧的帧级别视频标签的类型和所述无标签视频的总帧数，对所述无标签视频标注全局视频标签并确定所述全局视频标签的类型，以用于得到带全局视频标签的视频；

根据所述全局视频标签的类型和所述无标签视频的每一帧的帧级别视频标签的类型，对所述无标签视频的每一帧的帧级别视频标签进行众数滤波，将所述带全局视频标签的视频拆分成至少一个视频片段；

根据所述至少一个视频片段，确定所述至少一个视频片段的片段视频标签的类型。

2.根据权利要求1所述的方法，其特征在于，所述根据所述无标签视频，确定所述无标签视频的每一帧的帧级别视频标签的类型，包括：

将所述无标签视频的每一帧逐帧输入至目标检测器，当检测到所述无标签视频中的帧包括预设的目标，对包括所述预设的目标的帧标注帧级别视频标签，并确定包括所述预设的目标的帧的帧级别视频标签的类型为第一标签类型，所述预设的目标包括人脸；

或当检测到所述无标签视频中的帧不包括预设的目标，对不包括所述预设的目标的帧标注帧级别视频标签，并确定不包括所述预设的目标的帧的帧级别视频标签的类型为第二标签类型，所述帧级别视频标签的类型包括所述第一标签类型、所述第二标签类型中的任意一种。

3.根据权利要求2所述的方法，其特征在于，所述根据所述无标签视频的每一帧的帧级别视频标签的类型和所述无标签视频的总帧数，对所述无标签视频标注全局视频标签并确定所述全局视频标签的类型，包括：

将所述第一标签类型的帧级别视频标签的数量与所述帧级别视频标签的总数量相除，得到第一比例系数，所述帧级别视频标签的总数量与所述无标签视频的总帧数相同；

将所述第二标签类型的帧级别视频标签的数量与所述帧级别视频标签的总数量相除，得到第二比例系数；

根据所述第一比例系数和所述第二比例系数，对所述无标签视频标注全局视频标签并确定所述全局视频标签的类型，所述全局视频标签的类型包括第一全局视频标签类型、第二全局视频标签类型中的任意一种。

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一比例系数和所述第二比例系数，对所述无标签视频标注全局视频标签并确定所述全局视频标签的类型，包括：

当所述第一比例系数大于第一阈值且所述第一阈值大于第三阈值，对所述无标签视频标注全局视频标签并确定所述全局视频标签的类型为所述第一全局视频标签类型；

或当所述第二比例系数大于第二阈值且所述第二阈值大于第三阈值，对所述无标签视频标注全局视频标签并确定所述全局视频标签的类型为所述第二全局视频标签类型。

5.根据权利要求3所述的方法，其特征在于，该方法还包括：

当所述第一比例系数不大于第一阈值且所述第二比例系数不大于第二阈值，所述无标签视频不标注全局视频标签。

6.根据权利要求1所述的方法，其特征在于，所述根据所述全局视频标签的类型和所述无标签视频的每一帧的帧级别视频标签的类型，对所述无标签视频的每一帧的帧级别视频标签进行众数滤波，将所述带全局视频标签的视频拆分成至少一个视频片段，包括：

根据所述全局视频标签的类型、所述无标签视频的每一帧的帧级别视频标签的类型、预设的容忍度，以所述容忍度为窗长对所述无标签视频的每一帧的帧级别视频标签进行众数滤波，得到众数滤波后的帧级别视频标签，所述容忍度为正奇数；

根据将所述众数滤波后的帧级别视频标签的类型相同且连续的多个帧作为一个视频片段的方式，将所述带全局视频标签的视频拆分成至少一个视频片段。

7.根据权利要求4所述的方法，其特征在于，所述根据所述至少一个视频片段，确定所述至少一个视频片段的片段视频标签的类型，包括：

根据所述至少一个视频片段，确定所述至少一个视频片段分别包括的帧的数量；

当视频片段所包括的帧的数量不小于预设的片段长度值且所述全局视频标签的类型为所述第一全局视频标签类型，确定视频片段的片段视频标签的类型为正样本，以用于视频片段时序分类模型的训练和验证；

或当视频片段所包括的帧的数量不小于预设的片段长度值且所述全局视频标签的类型为所述第二全局视频标签类型，确定视频片段的片段视频标签的类型为负样本，以用于视频片段时序分类模型的训练和验证。

8.一种视频标签的标注装置，其特征在于，包括：

第一处理模块，用于获取待标注的无标签视频；

第二处理模块，用于根据所述无标签视频，确定所述无标签视频的每一帧的帧级别视频标签的类型和所述无标签视频的总帧数；

第三处理模块，用于根据所述无标签视频的每一帧的帧级别视频标签的类型和所述无标签视频的总帧数，对所述无标签视频标注全局视频标签并确定所述全局视频标签的类型，以用于得到带全局视频标签的视频；

第四处理模块，用于根据所述全局视频标签的类型和所述无标签视频的每一帧的帧级别视频标签的类型，对所述无标签视频的每一帧的帧级别视频标签进行众数滤波，将所述带全局视频标签的视频拆分成至少一个视频片段；

第五处理模块，用于根据所述至少一个视频片段，确定所述至少一个视频片段的片段视频标签的类型。

9.一种电子设备，其特征在于，包括：处理器、存储器；

所述存储器，用于存储计算机程序；

所述处理器，用于通过调用所述计算机程序，执行如权利要求1-7中任一项所述的视频标签的标注方法。

10.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序用于被处理器执行时实现如权利要求1-7中任一项所述的视频标签的标注方法。