CN110991296B

CN110991296B - 视频标注方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN110991296B
Application number: CN201911175050.2A
Authority: CN
Inventors: 贺思颖; 张粲; 汪青; 郭莎; 马俊铖
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2023-04-07
Anticipated expiration: 2039-11-26
Also published as: CN110991296A

Abstract

本申请实施例涉及视频处理技术领域，公开了一种视频标注方法、装置、电子设备及计算机可读存储介质，其中，视频标注方法包括：基于预先设定的目标检测对象，通过至少两个检测算法分别对预设数量的视频进行检测；接着，根据每个检测算法对每个视频的检测结果，通过预设视频标注方式，确定每个视频在每个检测算法下的第一标注结果；接着，根据每个视频的各个第一标注结果，将每个视频的标注结果确定为预定置信度级别的第二标注结果，以用于对视频数据进行分析。

Description

视频标注方法、装置、电子设备及计算机可读存储介质

技术领域

本申请实施例涉及视频处理技术领域，具体而言，本申请涉及一种视频标注方法、装置、电子设备及计算机可读存储介质。

背景技术

随着机器学习技术在计算机视觉领域的不断应用，对标注过的数据需求量越来越大。传统的人工数据标注的方法，由于存在耗时耗人力的缺点，很难满足计算机视觉需要大量已标注数据样本的需求，特别是对视频中的关键数据(例如视频中所包括的目标对象)进行标注，比单纯的图像数据标注更加艰巨，一段视频数据的标注往往相当于几万甚至几百万张图像数据的标注。

目前也出现了一些自动化的视频标注方法，然而本申请的发明人在实现过程中发现，这些自动化的视频标注方法，通常都依赖于单一的检测算法对视频进行逐帧检测，再配合标注模块对逐帧检测的结果进行分析，最终得到相应的视频标注，由于单一的检测算法的准确率往往无法达到100％精准，导致一些复杂的视频会存在模棱两可的标注，严重影响视频标注的可信度。

发明内容

本申请实施例的目的旨在至少能解决上述的技术缺陷之一，特提出以下技术方案：

一方面，提供了一种视频标注方法，包括：

基于预先设定的目标检测对象，通过至少两个检测算法分别对预设数量的视频进行检测；

根据每个检测算法对每个视频的检测结果，通过预设视频标注方式，确定每个视频在每个检测算法下的第一标注结果；

根据每个视频的各个第一标注结果，将每个视频的标注结果确定为预定置信度级别的第二标注结果，以用于对视频数据进行分析。

一方面，提供了一种视频标注装置，包括：

检测模块，用于基于预先设定的目标检测对象，通过至少两个检测算法分别对预设数量的视频进行检测；

第一确定模块，用于根据每个检测算法对每个视频的检测结果，通过预设视频标注方式，确定每个视频在每个检测算法下的第一标注结果；

第二确定模块，用于根据每个视频的各个第一标注结果，将每个视频的标注结果确定为预定置信度级别的第二标注结果，以用于对视频数据进行分析。

在一种可能的实现方式中，第一确定模块用于执行以下任一项：

确定第一标注结果为正样本视频；

确定第一标注结果为负样本视频；

确定第一标注结果为非纯净样本视频；

正样本视频为包括至少一个连续目标片段、且该至少一个连续目标片段满足预定条件的视频；

负样本视频为不包括连续目标片段的视频；

非纯净样本视频为包括至少一个连续目标片段、且该至少一个连续目标片段不满足预定条件的视频；

连续目标片段为包括多个连续的目标视频帧的视频片段，目标视频帧为包括目标检测对象的视频帧。

在一种可能的实现方式中，第二确定模块用于执行以下任一项：

当一个视频的各个第一标注结果均相同时，根据一个视频的各个第一标注结果，将一个视频的标注结果确定为第一置信度级别或第二置信度级别的第二标注结果；

当一个视频的各个第一标注结果不相同时，根据一个视频的各个第一标注结果，将一个视频的标注结果确定为第二置信度级别的第二标注结果；

当一个视频的各个第一标注结果不相同时，确定各个检测算法的精确度，并基于各个检测算法的精确度，根据一个视频的各个第一标注结果，将一个视频的标注结果确定为第三置信度级别或第四置信度级别的第二标注结果；

第一置信度级别高于第二置信度级别，第二置信度级别高于第三置信度级别，第三置信度级别高于第四置信度级别。

在一种可能的实现方式中，第二标注结果包括正样本视频或负样本视频；

当一个视频的各个第一标注结果均相同时，第二确定模块在根据一个视频的各个第一标注结果，将一个视频的标注结果确定为第一置信度级别或第二置信度级别或第三置信度级别的第二标注结果时，用于执行以下任一项：

当一个视频的各个第一标注结果均为正样本视频时，将该一个视频的标注结果确定为第一置信度级别的正样本视频或第二置信度级别的正样本视频；

当一个视频的各个第一标注结果均为负样本视频时，确定该一个视频的标注结果为第一置信度级别的负样本视频；

当一个视频的各个第一标注结果均为非纯净样本视频时，确定该一个视频的标注结果为第三置信度级别的负样本视频。

在一种可能的实现方式中，当一个视频的各个第一标注结果均为正样本视频时，第二确定模块在将该一个视频的标注结果确定为第一置信度级别的正样本视频或第二置信度级别的正样本视频时，用于当确定各个检测算法针对一个视频检测出的连续目标片段的数量相同，将该一个视频的标注结果确定为第一置信度级别的正样本视频；或者用于当若确定各个检测算法针对一个视频检测出的连续目标片段的数量不相同，将该一个视频的标注结果确定为第二置信度级别的正样本视频。

当检测算法为两个，一个视频的两个第一标注结果不相同时，第二确定模块在基于各个检测算法的精确度，根据一个视频的各个第一标注结果，将一个视频的标注结果确定为第三置信度级别的第二标注结果时，用于执行以下任一项：

当第一个检测算法针对一个视频的第一标注结果为正样本视频，第二个检测算法针对该一个视频的第一标注结果为非纯净样本视频，且第一个检测算法的精确度高于第二个检测算法的精确度，将该一个视频的标注结果确定为第三置信度级别的正样本视频；

当第一个检测算法针对一个视频的第一标注结果为正样本视频，第二个检测算法针对该一个视频的第一标注结果为非纯净样本视频，且第一个检测算法的精确度低于第二个检测算法的精确度，将该一个视频的标注结果确定为第三置信度级别的负样本视频。

当检测算法为两个，一个视频的两个第一标注结果不相同时，第二确定模块在基于各个检测算法的精确度，根据一个视频的各个第一标注结果，将一个视频的标注结果确定为第四置信度级别的第二标注结果时，用于执行以下任一项：

当第一个检测算法针对一个视频的第一标注结果为正样本视频，第二个检测算法针对该一个视频的第一标注结果为负样本视频，且第一个检测算法的精确度高于第二个检测算法的精确度，将该一个视频的标注结果确定为第四置信度级别的正样本视频；

当第一个检测算法针对一个视频的第一标注结果为正样本视频，第二个检测算法针对该一个视频的第一标注结果为负样本视频，且第一个检测算法的精确度低于第二个检测算法的精确度，将该一个视频的标注结果确定为第四置信度级别的负样本视频；

当第一个检测算法针对一个视频的第一标注结果为负样本视频，第二个检测算法针对该一个视频的第一标注结果为正样本视频，且第一个检测算法的精确度高于第二个检测算法的精确度，将该一个视频的标注结果确定为第四置信度级别的负样本视频；

当第一个检测算法针对一个视频的第一标注结果为负样本视频，第二个检测算法针对该一个视频的第一标注结果为正样本视频，且第一个检测算法的精确度低于第二个检测算法的精确度，将该一个视频的标注结果确定为第四置信度级别的正样本视频。

当第一个检测算法针对一个视频的第一标注结果为非纯净样本视频，第二个检测算法针对该一个视频的第一标注结果为正样本视频，且第一个检测算法的精确度高于第二个检测算法的精确度，将该一个视频的标注结果确定为第三置信度级别的负样本视频；

当第一个检测算法针对一个视频的第一标注结果为非纯净样本视频，第二个检测算法针对该一个视频的第一标注结果为正样本视频，且第一个检测算法的精确度低于第二个检测算法的精确度，将该一个视频的标注结果确定为第三置信度级别的正样本视频。

在一种可能的实现方式中，第二标注结果包括负样本视频；

当检测算法为两个，一个视频的两个第一标注结果不相同时，第二确定模块在根据一个视频的各个第一标注结果，将一个视频的标注结果确定为第二置信度级别的第二标注结果进，用于执行以下任一项：

当第一个检测算法针对一个视频的第一标注结果为负样本视频，第二个检测算法针对该一个视频的第一标注结果为非纯净样本视频，将该一个视频的标注结果确定为第二置信度级别的负样本视频；

当第一个检测算法针对一个视频的第一标注结果为非纯净样本视频，第二个检测算法针对该一个视频的第一标注结果为负样本视频，将该一个视频的标注结果确定为第二置信度级别的负样本视频。

一方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现上述的视频标注方法。

一方面，提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现上述的视频标注方法。

本申请实施例提供的视频标注方法，通过至少两种检测算法对视频进行逐帧检测，再配合预设视频标注方式对逐帧检测的结果进行分析，最终得到每个视频在每个检测算法下的第一标注结果，从而有效避免了单一检测算法导致的视频标注模棱两可的情况，极大提高视频标注的可信度；通过创造性地引入置信度级别的概念，并根据每个视频在每个检测算法下的第一标注结果，重新确定每个视频的最终标注结果为预定置信度级别的第二标注结果，使得采用类似多种检测算法投票的机制，重新评估视频标注结果的可信度，不仅可以有效区分半模棱两可的视频标注结果与可信度高的视频标注结果，而且可以提供多种置信度级别的样本视频数据，利于后续基于不同置信度级别的样本视频数据，对不同需求的实际视频数据进行个性化分析。

本申请实施例附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请实施例上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例的视频标注方法的流程示意图；

图2为本申请实施例的正样本视频、负样本视频及非纯净样本视频的示意图；

图3为本申请实施例的视频标注框架的示意图；

图4为本申请实施例的每个视频在每个检测算法下的第一标注结果的示意图；

图5为本申请实施例的将集合A中的视频标注为预定置信度级别的标注结果的示意图；

图6为本申请实施例的将集合B中的视频标注为预定置信度级别的标注结果的示意图；

图7为本申请实施例的将集合C中的视频标注为预定置信度级别的标注结果的示意图；

图8为本申请实施例的标注结果示意图；

图9为本申请实施例的视频标注装置的基本结构示意图；

图10为本申请实施例的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

下面以具体地实施例对本申请实施例的技术方案以及本申请实施例的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请一个实施例提供了一种视频标注方法，该方法由计算机设备执行，该计算机设备可以是终端或者服务器。终端可以是台式设备或者移动终端。服务器可以是独立的物理服务器、物理服务器集群或者虚拟服务器。如图1所示，该方法包括：

步骤S110，基于预先设定的目标检测对象，通过至少两个检测算法分别对预设数量的视频进行检测。

具体地，本实施例中，采用三个检测算法分别对预设数量的视频进行检测。假如预先设定的目标检测对象为人脸，待检测的视频的数量为2000个，检测算法分别为检测算法0、检测算法1与检测算法2，则：

一种情况下，可以同时通过检测算法0、检测算法1及检测算法2，分别对该2000个视频中的每个视频逐帧进行人脸的检测，即检测算法0、检测算法1及检测算法2并行对该2000个视频中的每个视频逐帧进行人脸检测。

另一种情况下，可以先通过检测算法0对该2000个视频中的每个视频逐帧进行人脸的检测，再通过过检测算法1对该2000个视频中的每个视频逐帧进行人脸的检测，最后通过检测算法2对该2000个视频中的每个视频逐帧进行人脸的检测。

再一种情况下，可以先通过检测算法1对该2000个视频中的每个视频逐帧进行人脸的检测，再通过过检测算法2对该2000个视频中的每个视频逐帧进行人脸的检测，最后通过检测算法0对该2000个视频中的每个视频逐帧进行人脸的检测。

需要说明的是，上述几种情况仅为示例性说明，在实际应用中可以采用其它的检测过程，本申请实施例不对其作限制。

步骤S120，根据每个检测算法对每个视频的检测结果，通过预设视频标注方式，确定每个视频在每个检测算法下的第一标注结果。

具体地，以上述2000个视频中的第1个视频的标注过程为例进行介绍：

在通过检测算法0完成第1个视频的逐帧检测人脸，得到检测算法0针对第1个视频的检测结果后，通过预设视频标注方式，根据检测算法0针对第1个视频的检测结果，对第1个视频进行标注，得到第1个视频在检测算法0下的标注结果(即上述的第一标注结果)。同样地，在通过检测算法1完成第1个视频的逐帧检测人脸，得到检测算法1针对第1个视频的检测结果后，通过预设视频标注方式，根据检测算法1针对第1个视频的检测结果，对第1个视频进行标注，得到第1个视频在检测算法1下的标注结果(即上述的第一标注结果)。同样地，在通过检测算法2完成第1个视频的逐帧检测人脸，得到检测算法2针对第1个视频的检测结果后，通过预设视频标注方式，根据检测算法2针对第1个视频的检测结果，对第1个视频进行标注，得到第1个视频在检测算法2下的标注结果(即上述的第一标注结果)。

其中，对于该2000个视频中的剩余视频，也采用上述关于第1个视频的标注方式，最终得到该2000个视频中的每个视频在每个检测算法下的第一标注结果。

步骤S130，根据每个视频的各个第一标注结果，将每个视频的标注结果确定为预定置信度级别的第二标注结果，以用于对视频数据进行分析。

具体地，在得到每个视频在每个检测算法下的第一标注结果后，可以采用类似多种检测算法投票的机制，根据每个视频在每个检测算法下的第一标注结果，重新评估每个视频的标注结果，并确定重新评估后的标注结果的置信度级别，从而得到具有一定置信度级别的最终标注结果。其中，重新评估后的标注结果可能为上述的第一标注结果，也可能不是上述的第一标注结果，需要根据实际情况动态确定。

在一种可能的实现方式中，确定一个视频在一个检测算法下的第一标注结果，包括以下任一项：

确定第一标注结果为正样本视频；

确定第一标注结果为负样本视频；

确定第一标注结果为非纯净样本视频。

具体地，每个视频在每个检测算法下的第一标注结果可能是正样本视频，也可能是负样本视频，还可能是非纯净样本视频。即通过预设视频标注方式，根据每个检测算法对每个视频的检测结果，可能将一个视频标注为正样本视频，也可能将一个视频标注为负样本视频，还可能将一个视频标注为非纯净样本视频。

具体地，在实际应用中，目标视频帧是指经检测算法判定存在预先设定的目标检测对象(比如人脸)的视频帧，即目标视频帧为包括目标检测对象的视频帧。非目标视频帧是指经检测算法判定不存在预先设定的目标检测对象(比如人脸)的视频帧。若当前视频帧为目标视频帧，且前一视频帧为非目标视频帧，则可以将当前视频帧定义为起始目标视频帧，若当前视频帧为目标视频帧，且后一视频帧为非目标视频帧，则将当前视频帧定义为终止目标视频帧。

具体地，在一个视频中，从某一个起始目标视频帧S开始，逐帧判断后一个视频帧是否为终止目标视频帧，直到碰到第一个终止目标视频帧E为止，则可以将起始目标视频帧S、终止目标视频帧E以及起始目标视频帧S与终止目标视频帧E之间的各个目标视频帧记作连续目标片段，即连续目标片段是包括多个连续的目标视频帧的视频片段。

具体地，正样本视频可以为包括至少一个连续目标片段、且该至少一个连续目标片段满足预定条件的视频。在一个示例中，当一个视频中包括至少一个连续目标片段，且其中的任一个连续目标片段的连续目标视频帧数大于预定阈值时，可以认为该至少一个连续目标片段满足预定条件，即可以将该视频记作正样本视频，其中，连续目标视频帧数是指连续目标片段中包括的连续目标视频帧的数量。在另一示例中，当一个视频中包括至少两个离散的连续目标片段时，可以认为该视频为包括至少一个连续目标片段、且该至少一个连续目标片段满足预定条件的视频，即可以将该视频记作正样本视频。

具体地，当一个视频中不存在连续目标片段时，可以将该视频记作负样本视频，即负样本视频为不包括连续目标片段的视频。当一个视频中包括至少一个连续目标片段、但该至少一个连续目标片段不满足预定条件时，可以将该视频记作非纯净样本视频，即非纯净样本视频为介于正样本视频与负样本视频之间的模棱两可的视频。在一个示例中，当一个视频中包括至少一个连续目标片段，且其中的每个连续目标片段的连续目标视频帧数均不大于预定阈值时，可以认为该至少一个连续目标片段不满足预定条件，即可以将该视频记作非纯净样本视频。

其中，图2给出了正样本视频、负样本视频及非纯净样本视频的示意图。

下面通过具体示例对本申请实施的相关内容进行具体介绍：

假如预先设定的目标检测对象为人脸，待检测的视频的数量为3113个，即选取一组包含3113个视频的集合，检测算法分别为检测算法0与检测算法1，则可以通过如图3所示的视频标注框架，得到每个视频在每个检测算法下的第一标注结果。图3中的Detector(s)表示检测算法，Mv_s表示正样本视频的数量，Nv_s表示正样本视频的数量，Dv_s表示非纯净样本视频的数量。其中，s取值为0或1，当s取值为0时，Detector(s)表示检测算法0，Mv_s表示在检测算法0下的正样本视频的数量，Nv_s表示在检测算法0下的负样本视频的数量，Dv_s表示在检测算法0下的非纯净样本视频的数量；当s取值为1时，Detector(s)表示检测算法1，Mv_s表示在检测算法1下的正样本视频的数量，Nv_s表示在检测算法1下的负样本视频的数量，Dv_s表示在检测算法1下的非纯净样本视频的数量。

其中，在图3所示的视频标注过程中，通过检测算法0与检测算法1，分别对该3113个视频逐帧进行人脸检测，得到视频帧级别的检测结果，且通过采用预设视频标注方式的视频标注模块，根据每个检测算法对每个视频的检测结果，对每个视频进行标注，得到每个视频在每个检测算法下的第一标注结果。

在一个示例中，基于图3所示的视频标注框架，对上述的3113个视频进行标注，可以得到如下的第一标注结果：检测算法0下的正样本视频与负样本视频的集合包括2895个视频，检测算法0下的非纯净样本视频包括218个视频，检测算法1下的正样本视频与负样本视频的集合包括2265个视频，检测算法1下的非纯净样本视频包括848个视频。其中，由于不同检测算法的精确度不同，所以一个视频在检测算法0下可能为正样本视频，而在检测算法1下可能为非纯净样本视频或负样本视频，同样地，一个视频在检测算法1下可能为正样本视频，而在检测算法0下可能为非纯净样本视频或负样本视频。

下面，对该示例中的每个视频在每个检测算法下的第一标注结果进行具体分析，其中，图4为具体分析结果的示意图。

在图4中，(1)X表示预设数量的视频，即3113个视频。(2)A表示既存在于检测算法0得到的正样本视频与负样本视频的集合中的视频，又存在于检测算法1得到的正样本视频与负样本视频的集合中的视频，即检测算法0与检测算法1共同检出的正样本视频的数量与负样本视频的数量，在一示例中，可以是2121个视频，即A＝2121。(3)B表示存在于检测算法0得到的正样本视频与负样本视频的集合中的视频，而不存在于检测算法1得到的正样本视频与负样本视频的集合中的视频。也就是说，检测算法0成功检测出某些视频为正样本视频或负样本视频，并将其归类到正样本视频与负样本视频的集合中，而检测算法1判定该某些视频不应当归类到正样本视频与负样本视频的集合中，于是，将该某些视频记作检测算法1相对于检测算法0少检出的视频，即集合B为检测算法1相对于检测算法0少检出的视频，在一示例中，可以是774个视频，即B＝774。(4)C表示存在于检测算法1得到的正样本视频与负样本视频的集合中的视频，而不存在于检测算法0得到的正样本视频与负样本视频的集合中的视频。也就是说，检测算法1成功检测出某些视频为正样本视频或负样本视频，并将其归类到正样本视频与负样本视频的集合中，而检测算法0判定该某些视频不应当归类到正样本视频与负样本视频的集合中，于是，将该某些视频记作检测算法1相对于检测算法0新检出的视频，即集合C为检测算法1相对于检测算法0新检出的视频，在一示例中，可以是144个视频，即C＝144。(4)D表示非纯净样本视频，对于检测算法0而言，D＝X-A-B，在一示例中，可以是218个视频，即D＝218；对于检测算法1而言，D＝X-A-C，在一示例中，可以是848个视频，即D＝848。

其中，经由检测算法0和视频标注模块预测出的正样本视频与负样本视频的集合，对应于图4中的集合A与集合B，在一示例中，可以是2895个视频；经由检测算法1和视频标注模块预测出的正样本视频与负样本视频的集合，对应于图4中的集合A与集合C，在一示例中，可以是2265个视频。

根据上述示例可以看出，每个视频在每个检测算法下的第一标注结果可能相同，也可能不相同，于是可以采用类似两种检测算法投票的机制，根据每个视频在每个检测算法下的第一标注结果，重新评估每个视频的标注结果，并且在重新评估每个视频的标注结果的过程中，可以对重新评估后的标注结果设置相应的置信度级别，以得到重新评估后的标注结果的置信度。

具体地，在重新评估每个视频的标注结果的过程中，可以包括如下几种情况：

情况一：当一个视频的两个第一标注结果均相同时，根据该一个视频的两个第一标注结果，可以将该一个视频的标注结果确定为第一置信度级别或第二置信度级别或第三置信度级别的第二标注结果；

情况二：当一个视频的各个第一标注结果不相同时，根据一个视频的各个第一标注结果，将一个视频的标注结果确定为第二置信度级别的第二标注结果；

情况三：当一个视频的各个第一标注结果不相同时，确定各个检测算法的精确度，并基于各个检测算法的精确度，根据一个视频的各个第一标注结果，将一个视频的标注结果确定为第三置信度级别或第四置信度级别的第二标注结果；

其中，第一置信度级别高于第二置信度级别，第二置信度级别高于第三置信度级别，第三置信度级别高于第四置信度级别。

针对上述情况一，如图5所示，集合A中的视频为检测算法0与检测算法1共同检出的正样本视频的数量与负样本视频，但是集合A又可以细分为如下几种类型：集合A0，某个视频(例如视频V1)在检测算法0下的第一标注结果为负样本视频，且该视频V1在检测算法1下的第一标注结果也为负样本视频；集合A1，某个视频V1在检测算法0下的第一标注结果为正样本视频，而该视频V1在检测算法1下的第一标注结果为负样本视频；集合A2，某个视频V1在检测算法0下的第一标注结果为负样本视频，而该视频V1在检测算法1下的第一标注结果为正样本视频；类型A3，某个视频V1在检测算法0下的第一标注结果为正样本视频，且该视频V1在检测算法1下的第一标注结果也为正样本视频。

需要说明的是，图5中的“0”表示负样本视频，“1”表示正样本视频。

在一个示例中，上述集合A0共包括816个视频，这表示该816个视频在检测算法0与检测算法1下的标注结果一致，均为负样本视频。即在该816个视频的每一个视频中均没有检测出包括检测对象的连续目标片段，这说明该816个视频为负样本视频的可信度很高，此时可以将其为负样本视频的置信度设置为第一置信度级别。在具体示例中，该第一置信度级别可以为α＝4，即可以将该816个视频以α＝4的置信度级别归类为负样本视频。

在又一个示例中，上述类型A3共包括749个视频，这表示该749个视频在检测算法0与检测算法1下的标注结果一致，均为正样本视频。即在该749个视频的每一个视频均包括至少一个连续目标片段、且该至少一个连续目标片段满足预定条件，这说明该749个视频为正样本视频的可信度很高，此时可以将其为正样本视频的置信度设置为第一置信度级别或第二置信度级别。

其中，虽然该749个视频在检测算法0与检测算法1下的标注结果均为正样本视频，但是由于正样本视频是包括至少一个连续目标片段、且该至少一个连续目标片段满足预定条件的视频，在这种情况下，同一个视频在检测算法0下检测出的连续目标片段的数量，可能不同于其在检测算法1下检测出的连续目标片段的数量。根据这种情况，当一个视频在检测算法0与检测算法1下检测出的连续目标片段数量相等时，有足够理由认为检测算法0与检测算法1检测出来的连续目标片段几乎重合，于是，可以将该一个视频为正样本视频的置信度设置为第一置信度级别。在具体示例中，第一置信度级别可以为α＝4，即将该视频以α＝4的置信度级别归类为正样本视频。当一个视频在检测算法0与检测算法1下检测出的连续目标片段数量不相等时，可以将该一个视频为正样本视频的置信度设置为第二置信度级别。在具体示例中，第二置信度级别可以为α＝3，即将该视频以α＝3的置信度级别归类为正样本视频。

在又一个示例中，上述集合A1共包括37个视频，这表示该37个视频在检测算法0下的标注结果(比如正样本视频)与其在检测算法1下的标注结果(比如负样本视频)不一致。具体地，当两个检测算法出现正样本视频与负样本视频的争议时，很有可能是检测算法0虽然检测出了正样本视频，但这些被检测出来的目标对象可能是误检，又考虑到负样本视频本身不容易得到，可以将其置信度设置为第四置信度级别。在具体示例中，第四置信度级别可以为α＝1。

虽然可以将其置信度设置为第四置信度级别(例如α＝1的置信度级别)，但是并不能确定应该将其归类为正样本视频，还是将其归类为负样本视频。此时，可以根据检测算法0与检测算法1的精确度来定，其中，当检测算法0的精确度高于检测算法1的精确度时，说明检测算法0的可信度更高，故可以将该37个视频以α＝1的置信度级别归类为正样本视频；当检测算法0的精确度低于检测算法1的精确度时，说明检测算法1的可信度更高，故可以将该37个视频以α＝1的置信度级别归类为负样本视频。

在另一个示例中，上述集合A2共包括519个视频，这表示该519个视频在检测算法0下的标注结果(比如负样本视频)与其在检测算法1下的标注结果(比如正样本视频)不一致。具体地，当两个检测算法出现正样本视频与负样本视频的争议时，很有可能是检测算法0虽然检测出了正样本视频，但这些被检测出来的目标对象可能是误检，又考虑到负样本视频本身不容易得到，可以将其置信度设置为第四置信度级别。在具体示例中，第四置信度级别可以为α＝1。

虽然可以将其置信度设置为第四置信度级别(例如α＝1的置信度级别)，但是并不能确定应该将其归类为正样本视频，还是将其归类为负样本视频。此时，可以根据检测算法0与检测算法1的精确度来定，其中，当检测算法0的精确度高于检测算法1的精确度时，说明检测算法0的可信度更高，故可以将该519个视频以α＝1的置信度级别归类为负样本视频；当检测算法0的精确度低于检测算法1的精确度时，说明检测算法1的可信度更高，故可以将该519个视频以α＝1的置信度级别归类为正样本视频。

此外，以人脸这一目标检测对象在短视频中的应用为例，假如检测算法0的精确度低于检测算法1，依据视频的内容看，检测算法1检测为正样本视频的视频，大部分为游戏视频录屏，并且都具有的特点是：虽然包含人脸，但人脸在画面中的比例特别小。对于这部分视频，检测算法1虽能有效检测出在视频中占比较小的人脸，可以带来人脸数据增益，从这个角度来看，应该将集合A2中的视频作为正样本视频。但是在具体业务中，在游戏画面或者视频中粘贴的表情包，可能不是主观关注的重点，实际使用时，可以通过人为干预，降低其正样本的置信度级别，例如将置信度级别由α＝1降低为α＝0.1，即以α＝0.1的置信度级别，将这部分视频归类为正样本视频，甚至可以直接将其作负样本视频。

此外，针对上述情况一，视频在检测算法0与检测算法1下的标注结果一致，且均为非纯净样本视频时，考虑到负样本视频本身不容易得到，可以不考虑检测算法0的精确度与检测算法1的精确度，而直接将其置信度设置为第三置信度级别的负样本视频。在具体示例中，第三置信度级别可以为α＝2。

针对上述情况二与上述情况三，如图6所示，集合B中的视频检测算法1相对于检测算法0少检出的视频，即集合B中的视频存在于检测算法0得到的正样本视频与负样本视频的集合中，而不存在于检测算法1得到的正样本视频与负样本视频的集合中，可以认为其在检测算法1下的第一标注结果为非纯净样本视频。

其中，集合B又可以细分为如下几种类型：集合B0，某个视频(例如视频V2)在检测算法0下的第一标注结果为正样本视频，且该视频V2在检测算法1下的第一标注结果为非纯净样本视频；集合B1，某个视频V2在检测算法0下的第一标注结果为负样本视频，而该视频V2在检测算法1下的第一标注结果为非纯净样本视频。

在一个示例中，上述集合B0共包括109个视频，这表示该109个视频在检测算法0下的标注结果(比如正样本视频)与其在检测算法1下的标注结果(比如非纯净样本视频)不一致。具体地，当两个检测算法出现正样本视频与非纯净样本视频的争议时，很有可能是检测算法0或检测算法1产生了误检。可以将其置信度设置为第三置信度级别。在具体示例中，第三置信度级别可以为α＝2。

虽然可以将其置信度设置为第三置信度级别(例如α＝2的置信度级别)，但是并不能确定应该将其归类为正样本视频，还是将其归类为负样本视频。此时，可以根据检测算法0与检测算法1的精确度来定，其中，当检测算法0的精确度高于检测算法1的精确度时，说明检测算法0的可信度更高，故可以将该109个视频以α＝2的置信度级别归类为正样本视频；当检测算法0的精确度低于检测算法1的精确度时，说明检测算法1的可信度更高，故可以将该109个视频以α＝2的置信度级别归类为负样本视频。

在又一个示例中，上述集合B1共包括665个视频，这表示该665个视频在检测算法0下的标注结果(比如负样本视频)与其在检测算法1下的标注结果(比如非纯净样本视频)不一致。具体地，考虑到负样本视频本身不容易得到，可以不考虑检测算法0的精确度与检测算法1的精确度，而直接将其置信度设置为第三置信度级别的负样本视频。在具体示例中，第三置信度级别可以为α＝3。

针对上述情况二与情况三，如图7所示，集合C中的视频检测算法1相对于检测算法0新检出的视频，即集合C中的视频存在于检测算法1得到的正样本视频与负样本视频的集合中，而不存在于检测算法0得到的正样本视频与负样本视频的集合中，可以认为其在检测算法0下的第一标注结果为非纯净样本视频。

其中，集合C又可以细分为如下几种类型：集合C0，某个视频(例如视频V3)在检测算法0下的第一标注结果为非纯净样本视频，且该视频V3在检测算法1下的第一标注结果为正样本视频；集合C1，该某个视频V3在检测算法0的第一标注结果为非纯净样本视频，而该视频V3在检测算法1下的第一标注结果为负样本视频。

在一个示例中，上述集合C0共包括60个视频，这表示该60个视频在检测算法0下的标注结果(比如非纯净样本视频)与其在检测算法1下的标注结果(比如正样本视频)不一致。具体地，当两个检测算法出现正样本视频与非纯净样本视频的争议时，很有可能是检测算法0或检测算法1产生了误检。可以将其置信度设置为第三置信度级别。在具体示例中，第三置信度级别可以为α＝2。

虽然可以将其置信度设置为第三置信度级别，但是并不能确定应该将其归类为正样本视频，还是将其归类为负样本视频。此时，可以根据检测算法0与检测算法1的精确度来定，其中，当检测算法0的精确度高于检测算法1的精确度时，说明检测算法0的可信度更高，故可以将该60个视频以α＝2的置信度级别归类为负样本视频；当检测算法0的精确度低于检测算法1的精确度时，说明检测算法1的可信度更高，故可以将该60个视频以α＝2的置信度级别归类为正样本视频。

在又一个示例中，上述集合C1共包括64个视频，这表示该64个视频在检测算法0下的标注结果(比如非纯净样本视频)与其在检测算法1下的标注结果(比如负样本视频)不一致。具体地，考虑到负样本视频本身不容易得到，可以不考虑检测算法0的精确度与检测算法1的精确度，而直接将其置信度设置为第三置信度级别的负样本视频。在具体示例中，第三置信度级别可以为α＝3。

具体地，根据上述几个示例可以看出，在通过检测算法0与检测算法1，分别对上述的3113个视频中的每个视频逐帧进行人脸检测，得到视频帧级别的检测结果后，虽然采用相同的数据集构建规则来提取正样本视频片段与负样本视频片段，但是由于可能存在一个视频中的所有片段都不满足构建规则的情况，因此，该3113个视频在两个检测算法中被利用的视频数量也不相同，比如检测算法0利用的视频数量为2895个(即正样本视频与负样本视频的集合为2895个视频)，检测算法1利用的视频数量为2265个，检测算法0与检测算法1利用的视频数量的并集为3039个。基于上述几个示例的情况，可以将这3039个视频的分析结果，通过如下表1进行具体展示：

表1视频分析结果

需要说明的是，表1中的目标检测对象为人脸，正样本表示上文的正样本视频，负样本代表上文的负样本视频，“段数”表示连续目标片段的数量；“1->0”表示视频在检测算法0下的第一标注结果为正样本视频，在检测算法1下的第一标注结果为负样本视频；“0->1”表示视频在检测算法0下的第一标注结果为负样本视频，在检测算法1下的第一标注结果为正样本视频；“1->1”表示视频在检测算法0下的第一标注结果为正样本视频，在检测算法1下的第一标注结果为正样本视频；“0->0”表示视频在检测算法0下的第一标注结果为负样本视频，在检测算法1下的第一标注结果为负样本视频。

在一种应用场景中，当通过搜索引擎搜索某个目标关键字(例如“书”)的图片时，可以通过本申请实施例的方法，对搜索得到的各种各样的“书”字的图片以及与“书”相关的字的图片进行识别及置信度标注，如图8所示。其中，图8中的“4-正”表示置信度为α＝4的正样本，“3-正”表示置信度为α＝3的正样本，“2-正”表示置信度为α＝2的正样本，“1-正”表示置信度为α＝1的正样本，“4-负”表示置信度为α＝4的负样本，“3-负”表示置信度为α＝3的负样本，“2-负”表示置信度为α＝2的负样本，“1-负”表示置信度为α＝1的负样本，并且α取值越大代表越可信。

图9为本申请又一实施例提供的一种视频标注装置的基本结构示意图，如图9所示，该装置900可以包括检测模块901、第一确定模块902与第二确定模块903，其中：

检测模块901，用于基于预先设定的目标检测对象，通过至少两个检测算法分别对预设数量的视频进行检测；

第一确定模块902，用于根据每个检测算法对每个视频的检测结果，通过预设视频标注方式，确定每个视频在每个检测算法下的第一标注结果；

第二确定模块903，用于根据每个视频的各个第一标注结果，将每个视频的标注结果确定为预定置信度级别的第二标注结果，以用于对视频数据进行分析。

确定第一标注结果为正样本视频；

确定第一标注结果为负样本视频；

确定第一标注结果为非纯净样本视频；

负样本视频为不包括连续目标片段的视频；

在一种可能的实现方式中，第二标注结果包括负样本视频；

本申请实施例提供的装置，通过至少两种检测算法对视频进行逐帧检测，再配合预设视频标注方式对逐帧检测的结果进行分析，最终得到每个视频在每个检测算法下的第一标注结果，从而有效避免了单一检测算法导致的视频标注模棱两可的情况，极大提高视频标注的可信度；通过创造性地引入置信度级别的概念，并根据每个视频在每个检测算法下的第一标注结果，重新确定每个视频的最终标注结果为预定置信度级别的第二标注结果，使得采用类似多种检测算法投票的机制，重新评估视频标注结果的可信度，不仅可以有效区分半模棱两可的视频标注结果与可信度高的视频标注结果，而且可以提供多种置信度级别的样本视频数据，利于后续基于不同置信度级别的样本视频数据，对不同需求的实际视频数据进行个性化分析。

需要说明的是，本实施例为与上述的方法项实施例相对应的装置项实施例，本实施例可与上述方法项实施例互相配合实施。上述方法项实施例中提到的相关技术细节在本实施例中依然有效，为了减少重复，这里不再赘述。相应地，本实施例中提到的相关技术细节也可应用在上述方法项实施例中。

本申请另一实施例提供了一种电子设备，如图10所示，图10所示的电子设备1000包括：处理器1001和存储器1003。其中，处理器1001和存储器1003相连，如通过总线1002相连。进一步地，电子设备1000还可以包括收发器1004。需要说明的是，实际应用中收发器1004不限于一个，该电子设备1000的结构并不构成对本申请实施例的限定。

其中，处理器1001应用于本申请实施例中，用于实现图9所示的检测模块、第一确定模块及第二确定模块的功能。

处理器1001可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器1001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线1002可包括一通路，在上述组件之间传送信息。总线1002可以是PCI总线或EISA总线等。总线1002可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器1003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器1003用于存储执行本申请方案的应用程序代码，并由处理器1001来控制执行。处理器1001用于执行存储器1003中存储的应用程序代码，以实现图9所示实施例提供的视频标注装置的动作。

本申请实施例提供的电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时，可实现：通过至少两种检测算法对视频进行逐帧检测，再配合预设视频标注方式对逐帧检测的结果进行分析，最终得到每个视频在每个检测算法下的第一标注结果，从而有效避免了单一检测算法导致的视频标注模棱两可的情况，极大提高视频标注的可信度；通过创造性地引入置信度级别的概念，并根据每个视频在每个检测算法下的第一标注结果，重新确定每个视频的最终标注结果为预定置信度级别的第二标注结果，使得采用类似多种检测算法投票的机制，重新评估视频标注结果的可信度，不仅可以有效区分半模棱两可的视频标注结果与可信度高的视频标注结果，而且可以提供多种置信度级别的样本视频数据，利于后续基于不同置信度级别的样本视频数据，对不同需求的实际视频数据进行个性化分析。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现上述实施例所示的方法。其中，通过至少两种检测算法对视频进行逐帧检测，再配合预设视频标注方式对逐帧检测的结果进行分析，最终得到每个视频在每个检测算法下的第一标注结果，从而有效避免了单一检测算法导致的视频标注模棱两可的情况，极大提高视频标注的可信度；通过创造性地引入置信度级别的概念，并根据每个视频在每个检测算法下的第一标注结果，重新确定每个视频的最终标注结果为预定置信度级别的第二标注结果，使得采用类似多种检测算法投票的机制，重新评估视频标注结果的可信度，不仅可以有效区分半模棱两可的视频标注结果与可信度高的视频标注结果，而且可以提供多种置信度级别的样本视频数据，利于后续基于不同置信度级别的样本视频数据，对不同需求的实际视频数据进行个性化分析。

本申请实施例提供的计算机可读存储介质适用于上述方法的任一实施例。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种视频标注方法，其特征在于，包括：

根据每个视频的各个第一标注结果，将每个视频的标注结果确定为预定置信度级别的第二标注结果，包括以下任一项，以用于对视频数据进行分析：

当一个视频的各个第一标注结果均相同时，根据一个视频的各个第一标注结果，将一个视频的标注结果确定为第一置信度级别或第二置信度级别或第三置信度级别的第二标注结果；

2.根据权利要求1所述的方法，其特征在于，确定一个视频在一个检测算法下的第一标注结果，包括以下任一项：

确定所述第一标注结果为正样本视频；

确定所述第一标注结果为负样本视频；

确定所述第一标注结果为非纯净样本视频；

所述正样本视频为包括至少一个连续目标片段、且该至少一个连续目标片段满足预定条件的视频；

所述负样本视频为不包括连续目标片段的视频；

所述非纯净样本视频为包括至少一个连续目标片段、且该至少一个连续目标片段不满足预定条件的视频；

所述连续目标片段为包括多个连续的目标视频帧的视频片段，目标视频帧为包括所述目标检测对象的视频帧。

3.根据权利要求1所述的方法，其特征在于，所述第二标注结果包括正样本视频或负样本视频；

当一个视频的各个第一标注结果均相同时，根据一个视频的各个第一标注结果，将一个视频的标注结果确定为第一置信度级别或第二置信度级别或第三置信度级别的第二标注结果，包括以下任一种：

4.根据权利要求3所述的方法，其特征在于，当一个视频的各个第一标注结果均为正样本视频时，将该一个视频的标注结果确定为第一置信度级别的正样本视频或第二置信度级别的正样本视频，包括：

若确定各个检测算法针对一个视频检测出的连续目标片段的数量相同，将该一个视频的标注结果确定为第一置信度级别的正样本视频；

若确定各个检测算法针对一个视频检测出的连续目标片段的数量不相同，将该一个视频的标注结果确定为第二置信度级别的正样本视频。

5.根据权利要求1所述的方法，其特征在于，所述第二标注结果包括正样本视频或负样本视频；

当检测算法为两个，一个视频的两个第一标注结果不相同时，基于各个检测算法的精确度，根据一个视频的各个第一标注结果，将一个视频的标注结果确定为第三置信度级别的第二标注结果，包括以下任一种：

6.根据权利要求1所述的方法，其特征在于，所述第二标注结果包括正样本视频或负样本视频；

当检测算法为两个，一个视频的两个第一标注结果不相同时，基于各个检测算法的精确度，根据一个视频的各个第一标注结果，将一个视频的标注结果确定为第四置信度级别的第二标注结果，包括以下任一种：

7.根据权利要求1所述的方法，其特征在于，所述第二标注结果包括正样本视频或负样本视频；

8.根据权利要求1所述的方法，其特征在于，所述第二标注结果包括负样本视频；

当检测算法为两个，一个视频的两个第一标注结果不相同时，根据一个视频的各个第一标注结果，将一个视频的标注结果确定为第二置信度级别的第二标注结果，包括以下任一项：

9.一种视频标注装置，其特征在于，包括：

第二确定模块，用于根据每个视频的各个第一标注结果，将每个视频的标注结果确定为预定置信度级别的第二标注结果，包括以下任一项，以用于对视频数据进行分析：

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-8任一项所述的视频标注方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现权利要求1-8任一项所述的视频标注方法。