CN110909210A

CN110909210A - 视频筛选方法、装置及存储介质

Info

Publication number: CN110909210A
Application number: CN202010096575.3A
Authority: CN
Inventors: 刘杰辰; 曹琼; 黄宇凯; 郝玉峰; 李科
Original assignee: Beijing Haitian Rui Sheng Polytron Technologies Inc
Current assignee: Beijing Haitian Rui Sheng Polytron Technologies Inc
Priority date: 2020-02-18
Filing date: 2020-02-18
Publication date: 2020-03-24
Anticipated expiration: 2040-02-18
Also published as: CN110909210B

Abstract

本公开涉及一种视频筛选方法、装置及存储介质。其中，视频筛选方法包括：获取视频集，视频集包括多个分别对应于目标人物的视频子集，视频子集包括一个或多个视频片段，视频片段中包括目标人物；基于视频片段，得到视频片段的第一代表帧图片以及多张第二代表帧图片；获取第一代表帧图片的特征向量和各第二代表帧图片的特征向量，并基于第一代表帧图片的特征向量和各第二代表帧图片的特征向量确定视频片段的特征向量；基于视频子集中的视频片段的特征向量，判断任意两个视频子集是否属于同一目标人物的视频子集；若两个视频子集属于同一目标人物的视频子集，则删除两个视频子集中的一个视频子集。通过本公开提高了筛选出重复的视频片段的准确率。

Description

视频筛选方法、装置及存储介质

技术领域

本公开涉及视频筛选技术领域，具体是涉及一种视频筛选方法、装置及存储介质。

背景技术

在计算机视觉针对人脸视频算法的训练中，需要采集大量人脸视频数据。在采集大批人脸数据过程中，难以避免地会出现人员重复采录的问题，这将对后续的视频训练集制作以及视频模型训练造成干扰。

查找并剔除重复采录的人员，除了采用人工比对之外，还可以通过人脸查重算法查找重复采录的人员。对于人工比对进行查重，不仅人工成本较高，而且出现误检的概率也较高。对于通过人脸查重算法查找重复采录的人员，由于人脸查重算法仅能够计算两张静态图片的相似度，因此，导致查重结果的精度不高。

发明内容

为了克服相关技术问题，本公开提供一种视频筛选方法、装置及存储介质。

第一方面，本公开实施例提供一种视频筛选方法，其包括获取视频集，视频集包括多个分别对应于目标人物的视频子集，视频子集包括一个或多个视频片段，视频片段中包括目标人物；基于视频片段，得到视频片段的第一代表帧图片，以及根据第一代表帧图片确定的多张第二代表帧图片；获取第一代表帧图片的特征向量和各第二代表帧图片的特征向量，并基于第一代表帧图片的特征向量和各第二代表帧图片的特征向量确定视频片段的特征向量；基于视频子集中的视频片段的特征向量，判断任意两个视频子集是否属于同一目标人物的视频子集；若两个视频子集属于同一目标人物的视频子集，则删除两个视频子集中的一个视频子集。

一种实施方式中，基于视频片段，得到视频片段的第一代表帧图片，包括：基于视频片段，通过人脸检测，获取视频片段每帧视频帧画面的人脸信息；基于人脸信息，确定人脸面积最大的一帧视频帧画面，并将人脸面积最大的一帧视频帧画面作为第一代表帧图片；根据第一代表帧图片确定的多张第二代表帧图片，包括：基于第一代表帧图片，将人脸面积为第一代表帧图片中人脸面积的第一预设倍数的视频帧画面作为第二代表帧图片。

另一种实施方式中，第二代表帧图片通过以下方式确定：第二代表帧图片中人脸的高度为第一代表帧图片中人脸的高度的0.6-0.8倍、第二代表帧图片中人脸的宽度为第一代表帧图片中人脸的宽度的0.9-1.1倍，或者，第二代表帧图片中人脸的高度为第一代表帧图片中人脸的高度的0.9-1.1倍、第二代表帧图片中人脸的宽度为第一代表帧图片中人脸的宽度的0.6-0.8倍。

又一种实施方式中，基于第一代表帧图片的特征向量和各第二代表帧图片的特征向量确定视频片段的特征向量包括：将第一代表帧图片的特征向量和各第二代表帧图片的特征向量的加权平均值作为视频片段的特征向量，其中，第一代表帧图片的特征向量的权重大于第二代表帧图片的特征向量的权重。

又一种实施方式中，第一代表帧图片的特征向量的权重与第二代表帧图片的特征向量的权重的比例关系和第一代表帧图片中人脸面积与第二代表帧图片中人脸面积的比例关系相对应。

又一种实施方式中，视频子集中包括一个视频片段；基于视频子集中的视频片段的特征向量，判断任意两个视频子集是否属于同一目标人物的视频子集包括：基于视频片段的特征向量，计算任意两个视频片段的特征向量距离，若特征向量距离小于或等于第一阈值，则任意两个视频片段属于同一目标人物的视频子集。

又一种实施方式中，视频子集包括多个视频片段，其中，每个视频片段中目标人物具有预设采录姿势；基于视频子集中的视频片段的特征向量，判断任意两个视频子集是否属于同一目标人物的视频子集包括：基于视频子集中的视频片段的特征向量与其他视频子集中的视频片段的特征向量，计算视频子集中的视频片段与其他视频子集中的视频片段的第一特征向量距离，其中，其他视频子集中的视频片段的目标人物与视频子集中的视频片段的目标人物具有相同的预设采录姿势；将多个视频子集中的视频片段与其他视频子集中的视频片段的第一特征向量距离的加权平均值，作为视频子集与其他视频子集的第二特征向量距离；若第二特征向量距离小于或等于第二阈值，则视频子集与其他视频子集属于同一目标人物的视频子集。

又一种实施方式中，若两个视频子集属于同一目标人物的视频子集，则删除两个视频子集中的一个视频子集包括：获取属于同一目标人物的视频子集；基于视频质量检测算法，计算并获取属于同一目标人物的视频子集中的各视频片段的视频质量；基于各视频片段的视频质量，得到视频子集的视频质量；确定视频质量最高的视频子集，并从视频集中删除视频质量最高的视频子集之外的属于同一目标人物的其他视频子集。

又一种实施方式中，视频筛选方法还包括：将从视频集中删除除视频质量最高的视频子集之外的属于同一目标人物的其他视频子集，以及与其他视频子集对应的视频质量保存至存储库。

又一种实施方式中，基于视频子集中的视频片段的特征向量，判断任意两个视频子集是否属于同一目标人物的视频子集包括：获取视频子集的采录地点，将视频子集按照采录地点划分为不同的采录地点视频子集组；基于视频片段的特征向量，判断属于同一采录地点视频子集组中的任意两个视频子集是否属于同一目标人物的视频子集。

又一种实施方式中，基于所述视频子集中的视频片段的特征向量，判断任意两个视频子集是否属于同一目标人物的视频子集包括：获取视频子集对应的目标人物的性别，将视频子集按照目标人物的性别划分为不同的性别视频子集组；基于视频片段的特征向量，判断属于同一性别视频子集组中的任意两个视频子集是否属于同一目标人物的视频子集。

第二方面，本公开实施例提供了一种视频筛选装置，该视频筛选装置具有实现上述第一方面或第一方面任意一种实施方式中所涉及的视频筛选方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

一种实施方式中，视频筛选装置包括：获取模块，用于获取视频集，视频集包括多个分别对应于目标人物的视频子集，视频子集包括一个或多个视频片段，视频片段中包括所述目标人物；提取模块，用于基于视频片段，得到视频片段的第一代表帧图片，以及根据第一代表帧图片确定的多张第二代表帧图片；处理模块，用于获取第一代表帧图片的特征向量和各第二代表帧图片的特征向量，并基于第一代表帧图片的特征向量和各第二代表帧图片的特征向量确定视频片段的特征向量；判断模块，用于基于视频子集中的视频片段的特征向量，判断任意两个视频子集是否属于同一目标人物的视频子集；执行模块，若两个视频子集属于同一目标人物的视频子集，用于删除两个视频子集中的一个视频子集。

另一种实施方式中，处理模块用于：基于视频片段，通过人脸检测，获取视频片段每帧视频帧画面的人脸信息；基于人脸信息，确定人脸面积最大的一帧视频帧画面，并将人脸面积最大的一帧视频帧画面作为第一代表帧图片；基于第一代表帧图片，将人脸面积为第一代表帧图片中人脸面积的第一预设倍数的视频帧画面作为第二代表帧图片。

又一种实施方式中，第二代表帧图片通过以下方式确定：第二代表帧图片中人脸的高度为第一代表帧图片中人脸的高度的0.6-0.8倍、第二代表帧图片中人脸的宽度为第一代表帧图片中人脸的宽度的0.9-1.1倍，或者，第二代表帧图片中人脸的高度为第一代表帧图片中人脸的高度的0.9-1.1倍、第二代表帧图片中人脸的宽度为第一代表帧图片中人脸的宽度的0.6-0.8倍。

又一种实施方式中，处理模块用于：将第一代表帧图片的特征向量和各第二代表帧图片的特征向量的加权平均值作为视频片段的特征向量，其中，第一代表帧图片的特征向量的权重大于第二代表帧图片的特征向量的权重。

又一种实施方式中，视频子集中包括一个视频片段；判断模块用于：基于视频片段的特征向量，计算任意两个视频片段的特征向量距离，若特征向量距离小于或等于第一阈值，则任意两个视频片段属于同一目标人物的视频子集。

又一种实施方式中，视频子集包括多个视频片段，其中，每个视频片段中目标人物具有预设采录姿势；判断模块用于：基于视频子集中的视频片段的特征向量与其他视频子集中的视频片段的特征向量，计算视频子集中的视频片段与其他视频子集中的视频片段的第一特征向量距离，其中，其他视频子集中的视频片段的目标人物与视频子集中的视频片段的目标人物具有相同的预设采录姿势；将多个视频子集中的视频片段与其他视频子集中的视频片段的第一特征向量距离的加权平均值，作为视频子集与其他视频子集的第二特征向量距离；若第二特征向量距离小于或等于第二阈值，则视频子集与其他视频子集属于同一目标人物的视频子集。

又一种实施方式中，执行模块用于：获取属于同一目标人物的视频子集；基于视频质量检测算法，计算并获取属于同一目标人物的视频子集中的各视频片段的视频质量；基于各视频片段的视频质量，得到视频子集的视频质量；确定视频质量最高的视频子集，并从视频集中删除视频质量最高的视频子集之外的属于同一目标人物的其他视频子集。

又一种实施方式中，执行模块还用于：将从视频集中删除除视频质量最高的视频子集之外的属于同一目标人物的其他视频子集，以及与其他视频子集对应的视频质量保存至存储库。

又一种实施方式中，判断模块还用于：获取视频子集的采录地点，将视频子集按照采录地点划分为不同的采录地点视频子集组；基于视频片段的特征向量，判断属于同一采录地点视频子集组中的任意两个视频子集是否属于同一目标人物的视频子集。

又一种实施方式中，判断模块还用于：获取视频子集对应的目标人物的性别，将视频子集按照目标人物的性别划分为不同的性别视频子集组；基于视频片段的特征向量，判断属于同一性别视频子集组中的任意两个视频子集是否属于同一目标人物的视频子集。

第三方面，本公开实施例提供一种视频筛选装置，其中，视频筛选装置包括：存储器，用于存储指令；以及处理器，用于调用存储器存储的指令执行视频筛选方法。

第四方面，本公开实施例提供一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在由处理器执行时，执行视频筛选方法。

本公开提供的一种视频筛选方法、装置及存储介质，其中，本公开的视频筛选方法通过第一代表帧图片的特征向量和各第二代表帧图片的特征向量确定任意两个视频子集是否属于同一目标人物的视频子集。通过本公开的视频筛选方法，提高了筛选出重复的视频片段的准确率。

附图说明

通过参考附图阅读下文的详细描述，本公开实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的实施方式，其中：

图1示出了本公开实施例提供的一种视频筛选方法的流程图；

图2示出了本公开实施例提供的一种视频筛选方法中删除两个视频子集中的一个视频子集的步骤的流程图；

图3示出了本公开实施例提供的另一种视频筛选方法的流程图；

图4示出了本公开实施例提供的一种视频筛选装置的示意图；

图5示出了本公开实施例提供的一种电子设备的框图。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。

需要注意，虽然本文中使用“第一”、“第二”等表述来描述本公开的实施方式的不同模块、步骤和数据等，但是“第一”、“第二”等表述仅是为了在不同的模块、步骤和数据等之间进行区分，而并不表示特定的顺序或者重要程度。实际上，“第一”、“第二”等表述完全可以互换使用。

本公开提供的视频筛选方法，能够提高查找到的人员重复采录的结果精确度。

图1示出了本公开实施例提供的一种视频筛选方法的流程图。

如图1所示，视频筛选方法包括步骤S101、步骤S102、步骤S103、步骤S104和步骤S105。下面将分别介绍各步骤。

在步骤S101中，获取视频集。

视频集包括多个分别对应于目标人物的视频子集，视频子集包括一个或多个视频片段。视频片段中包括目标人物。

在视频集中，包括有同一目标人物录制的视频子集。其中，视频子集中有一个或多个该目标人物的视频片段。

在整个视频片段中，可以仅有目标人物一人。

视频片段可以是录制有目标人物的正脸的视频片段。

视频片段可以是目标人物在做仰视动作的视频片段。

视频片段可以是目标人物在做俯视动作的视频片段。

视频片段可以是目标人物在做向左看的动作的视频片段。

视频片段还可以是目标人物在做由右看的动作的视频片段。

在步骤S102中，基于视频片段，得到视频片段的第一代表帧图片，以及根据第一代表帧图片确定的多张第二代表帧图片。

通过MTCNN人脸检测模型，基于视频片段，得到视频片段的第一代表帧图片和第二代表帧图片。

第一代表帧图片中具有目标人物。第二代表帧图片中具有目标人物。

对于一段视频片段中，可以识别并获取得到一张第一代表帧图片和四张第二代表帧图片。

在步骤S103中，获取第一代表帧图片的特征向量和各第二代表帧图片的特征向量，并基于第一代表帧图片的特征向量和各第二代表帧图片的特征向量，确定视频片段的特征向量。

第一代表帧图片的特征向量通过计算第一代表帧图片中的目标人物的特征向量而得到。

第二代表帧图片的特征向量通过计算第二代表帧图片中的目标人物的特征向量而得到。

视频片段的特征向量为视频片段中的目标人物的特征向量。

将第一代表帧图片和第二代表帧图片输入到FaceNet模型中，分别提取得到第一代表帧图片的特征向量和第二代表帧图片的特征向量。

基于视频片段的第一代表帧图片的特征向量和视频片段的第二代表帧图片的特征向量，得到视频片段的特征向量。

由于视频片段的特征向量是由视频片段中的多张代表帧图片的特征向量而得到，因此提高了视频片段的特征向量的准确度。

在步骤S104中，基于视频子集中视频片段的特征向量，判断任意两个视频子集是否属于同一目标人物的视频子集。

基于任意两个视频子集中的视频片段的特征向量之间的距离，来判断任意两个视频子集是否属于同一目标人物。

在步骤S105中，若两个视频子集属于同一目标人物的视频子集，则删除两个视频子集中的一个视频子集。

本公开提供的一种视频筛选方法，通过第一代表帧图片的特征向量和各所述第二代表帧图片的特征向量确定任意两个视频子集是否属于同一目标人物的视频子集。通过本公开的视频筛选方法，提高了筛选出重复的视频片段的准确率。

本公开一示例性实施例中，基于视频片段，通过人脸检测，获取视频片段每帧视频帧画面的人脸信息。基于人脸信息，确定人脸面积最大的一帧视频帧画面，并将人脸面积最大的一帧视频帧画面作为第一代表帧图片。

基于视频片段，通过MTCNN人脸检测模型，提取得到视频片段中每一帧视频帧画面的人脸信息。并从中识别出人脸框体的面积最大的一帧视频帧画面作为第一代表帧图片。

人脸框体的面积最大的一帧视频帧画面可以是目标人物在采录视频的过程中，正对镜头的画面。

本公开一示例性实施例中，基于第一代表帧图片，将人脸面积为第一代表帧图片中的人脸面积的第一预设倍数的视频帧画面作为第二代表帧图片。

第一预设倍数可以根据实际情况进行调整，在本公开中，不对第一预设倍数的大小做限定。

第一预设倍数的值可以小于1。第一预设倍数可以为0.6~0.8之间的任意一个值。

在本公开一示例性实施例中，第二代表帧图片可以通过以下方式确定：

第二代表帧图片中人脸的高度可以为第一代表帧图片中人脸的高度的0.6-0.8倍、第二代表帧图片中人脸的宽度可以为第一代表帧图片中人脸的宽度的0.9-1.1倍。或者，第二代表帧图片中人脸的高度可以为第一代表帧图片中人脸的高度的0.9-1.1倍、第二代表帧图片中人脸的宽度可以为第一代表帧图片中人脸的宽度的0.6-0.8倍。为了便于说明，现令第一代表帧图片中人脸框体的高度为h，宽度为w。则根据第一代表帧图片确定的第二代表帧图片。

在一种实施例中，第二代表帧图片中人脸框体的高度可以为3/4h、宽度为0.95~1.05w。

在一种实施例中，第二代表帧图片中人脸框体的高度可以为2/3h、宽度为0.95~1.05w。

在一种实施例中，第二代表帧图片中人脸框体的高度可以为0.95~1.05h，宽度为3/4w。

在一种实施例中，第二代表帧图片中人脸框体的高度还可以为0.95~1.05h，宽度为2/3w。

在本公开一示例性实施例中，将第一代表帧图片的特征向量和各第二代表帧图片的特征向量的加权平均值作为视频片段的特征向量。

第一代表帧图片的特征向量的权重大于第二代表帧图片的特征向量的权重。

第一代表帧图片可以理解为是目标人物在采录视频的过程中，正对镜头的画面。基于第一代表帧图片，可以获取到目标人物的正脸信息。

第一代表帧图片中人脸框体的高度为h，宽度为w，基于第一代表帧图片确定第二代表帧图片。其中，第二代表帧图片中人脸框体的高度可以为3/4h、宽度为0.95~1.05w或第二代表帧图片中人脸框体的高度可以为2/3h、宽度为0.95~1.05w时，第二代表帧图片可以理解为是目标人物在采录视频的过程中向上看或向下看的画面。基于第二代表帧图片，可以获取到目标人物的俯视或仰视时人脸的信息。

第二代表帧图片中人脸框体的高度可以为0.95~1.05h，宽度为3/4w或第二代表帧图片中人脸框体的高度还可以为0.95~1.05h，宽度为2/3w时，第二代表帧图片可以理解为是目标人物在采录视频的过程中向左看或向右看的画面。基于第二代表帧图片，可以获取到目标人物的右脸或左脸的信息。

基于第一代表帧图片的特征向量和各第二代表帧图片的特征向量，来确定视频片段的特征向量，可以包括视频片段中目标人物人脸的多个状态的信息，提高了视频片段的特征向量的准确度。

在本公开一示例性实施例中，第一代表帧图片的特征向量的权重与第二代表帧图片的特征向量的权重的比例关系和第一代表帧图片中人脸面积与第二代表帧图片中人脸面积的比例关系相对应。

由于第一代表帧图片中人脸框体的面积最大，第一代表帧图片可以理解为是视频片段中目标人物正对镜头的画面图片。在基于第一代表帧图片的特征向量和各第二代表帧图片的特征向量确定视频片段的特征向量的过程中，将第一代表帧图片的特征向量的权重设置较大，有利于提高计算得到的视频片段的特征向量的准确度。

在一种实施例中，第一代表帧图片的特征向量的权重与第二代表帧图片的特征向量的权重还可以根据模型训练的训练结果，确定第一代表帧图片的特征向量的权重，和第二代表帧图片的特征向量的权重。

在本公开一示例性实施例中，视频子集包括一个视频片段。

基于视频子集中的视频片段的特征向量，计算任意两个视频片段的特征向量距离，若特征向量距离小于或等于第一阈值，则任意两个视频片段属于同一目标人物的视频子集。

由于视频子集中仅包括一个视频片段，则视频片段的特征向量即为视频子集的特征向量，视频片段之间的特征向量距离即为视频子集之间的特征向量距离。

基于FaceNet模型，对视频片段中的第一代表帧图片和第二代表帧图片中的目标人物进行特征向量提取。并将第一代表帧图片的特征向量和多个第二代表帧图片的特征向量进行加权平均，得到一个128维的代表该视频片段的特征向量。

基于得到的视频片段的特征向量，计算任意两个视频片段的特征向量距离，若特征向量距离小于或等于第一阈值，则认为两个视频片段中的目标人物相似，进而，可以认为这两个视频片段是属于同一目标人物的视频片段。

在本公开一示例性实施例中，视频子集可以包括多个视频片段，其中，每个视频片段中目标人物具有预设采录姿势。

预设采录姿势可以包括正对镜头的采录姿势；由上向下看的采录姿势；由下向上看的采录姿势；由左向右看的采录姿势，或者由右向左看的采录姿势。

基于视频子集中的其他视频片段的特征向量与其他视频子集中的视频片段的向量，计算视频子集中视频片段与其他视频子集中的视频片段的第一特征向量距离。其中，其他视频子集中的视频片段的目标人物与视频子集中的视频片段的目标人物具有相同的预设采录姿势。

将多个视频子集中的视频片段与其他视频子集中的视频片段的第一特征向量距离的加权平均值，作为视频子集与其他视频子集的第二特征向量距离。其中，加权平均值可以是算术平均值。

若第二特征向量距离小于或等于第二阈值，则视频子集与其他视频子集属于同一目标人物的视频子集。

由于视频子集中的每个视频片段具有预设采录姿势，因此，可以获取到与视频子集对应的目标人物在预设采录姿势中的信息，保证了获取得到的目标人物信息的全面性。进而可以提高任意两个视频子集之间的特征向量距离的准确度，保证筛选出重复的视频片段的准确率。

在一种实施例中，每个视频子集可以包括5个视频片段，其中，在每个视频子集中5个视频片中目标人物分别具有正对镜头的采录姿势；由上向下看的采录姿势；由下向上看的采录姿势；由左向右看的采录姿势和由右向左看的采录姿势。

分别计算任意两个视频子集中目标人物具有相同采录姿势的视频片段之间的特征向量距离。由于每个视频子集对应的目标人物具有5个视频片段，因此，对于任意两个视频子集，可以基于视频片段得到5维的特征向量距离的结果，并基于5维的特征向量距离的结果，获取相应两个视频子集的特征向量距离。基于两个视频子集的特征向量距离判断两个视频子集是否属于同一目标人物的视频子集。

在一种实施例中，可以将5维的特征向量距离的结果放入实现训练的带激活函数的单层感知机中，以判断两个视频子集是否属于同一目标人物的视频子集。

图2示出了本公开实施例提供的一种视频筛选方法中删除两个视频子集中的一个视频子集的步骤的流程图。

在本公开一示例性实施例中，如图2所示，在步骤S105中，若两个视频子集属于同一目标人物的视频子集，则删除两个视频子集中的一个视频子集包括步骤S1051、步骤S1052、步骤S1053和步骤S1054。下面将分别介绍各步骤。

在步骤S1051中，获取属于同一目标人物的视频子集。

基于两个视频子集之间特征向量距离可以判断任意两个视频子集是否属于同一目标人物的视频子集。并将属于同一目标人物的视频子集归类在一起。

在步骤S1052中，基于视频质量检测算法，计算并获取属于同一目标人物的视频子集中各视频片段的视频质量。

基于视频片段的抖动重影程度、模糊程度、光照程度、曝光程度、噪点程度、马赛克程度等方面，计算属于同一目标人物的视频子集中各视频片段的视频质量。

在步骤S1053中，基于各视频片段的视频质量，得到视频子集的视频质量。

在一种实施例中，可以将视频子集中各视频片段的视频质量得分的平均值，作为视频子集的视频质量得分。

在步骤S1054中，确定视频质量最高的视频子集，并从视频集中删除视频质量最高的视频子集之外的属于同一目标人物的其他视频子集。

基于视频子集的视频质量得分，可以确定同一目标人物的视频子集中视频质量得分最高的视频子集。对于属于同一目标人物的视频子集，仅保留视频质量最高的视频子集。

对于属于同一目标人物的视频子集而言，保留了视频质量最高的视频子集。通过此种方式，在计算机视觉针对人脸视频算法的训练中，为后续的视频训练集制作以及视频模型训练提高高质量的视频片段素材提供依据。

图3示出了本公开实施例提供的另一种视频筛选方法的流程图。

在本公开一示例性实施例中，如图3所示，视频筛选方法除了步骤S101、步骤S102、步骤S103、步骤S104和步骤S105之外，还包括步骤S106。下面将介绍步骤S106。

在步骤S106中，将从视频集中删除的除视频质量最高的视频子集之外的属于同一目标人物的其他视频子集，以及与其他视频子集对应的视频质量保存至存储库。

在一种实施方式中，除了保留与目标人物对应的视频质量最高的视频子集之外，还将删除的与视频子集属于同一目标人物的其他视频子集，以及其他视频子集的视频质量得分以日志的形式保留，以供用户查看。

在本公开一示例性实施例中，获取视频子集的采录地点，将视频子集按照采录地点划分为不同的采录地点视频子集组。

基于视频片段的特征向量，判断属于同一采录地点视频子集组中的任意两个视频子集是否属于同一目标人物的视频子集。

将视频子集按照采录地点进行分类，并在位于相同采录地点的视频子集中判断任意两个视频子集是否属于同一目标人物的视频子集。

通过此方式，在不影响最终结果的前提下降低了对比数据的数量，提高了比对的效率与精度。

在本公开一示例性实施例中，获取视频子集对应的目标人物的性别，将视频子集按照目标人物的性别划分为不同的性别视频子集组。

基于视频片段的特征向量，判断属于同一性别视频子集组中的任意两个视频子集是否属于同一目标人物的视频子集。

将视频子集按照采集目标人物的性别进行分类，并在目标人物属于同一性别的视频子集中判断任意两个视频子集是否属于同一目标人物的视频子集。

图4示出了本公开实施例提供的一种视频筛选装置的示意图。

基于相同的发明构思，如图4所示，本公开实施例还提供一种视频筛选装置。

视频筛选装置包括获取模块201、提取模块202、处理模块203、判断模块204和执行模块205。下面将分别介绍各模块。

获取模块201，用于获取视频集，视频集包括多个分别对应于目标人物的视频子集，视频子集包括一个或多个视频片段，视频片段中包括目标人物。

提取模块202，用于基于视频片段，得到视频片段的第一代表帧图片，以及根据第一代表帧图片确定的多张第二代表帧图片。

处理模块203，用于获取第一代表帧图片的特征向量和各第二代表帧图片的特征向量，并基于第一代表帧图片的特征向量和各第二代表帧图片的特征向量确定视频片段的特征向量。

判断模块204，用于基于视频子集中的视频片段的特征向量，判断任意两个视频子集是否属于同一目标人物的视频子集。

执行模块205，若两个视频子集属于同一目标人物的视频子集，用于删除两个视频子集中的一个视频子集。

在本公开一示例性实施例中，处理模块203用于：基于视频片段，通过人脸检测，获取视频片段每帧视频帧画面的人脸信息；基于人脸信息，确定人脸面积最大的一帧视频帧画面，并将人脸面积最大的一帧视频帧画面作为第一代表帧图片；基于第一代表帧图片，将人脸面积为第一代表帧图片中人脸面积的第一预设倍数的视频帧画面作为第二代表帧图片。

在本公开一示例性实施例中，第二代表帧图片通过以下方式确定：第二代表帧图片中人脸的高度为第一代表帧图片中人脸的高度的0.6-0.8倍、第二代表帧图片中人脸的宽度为第一代表帧图片中人脸的宽度的0.9-1.1倍。或者，第二代表帧图片中人脸的高度为第一代表帧图片中人脸的高度的0.9-1.1倍、第二代表帧图片中人脸的宽度为第一代表帧图片中人脸的宽度的0.6-0.8倍。

在本公开一示例性实施例中，处理模块203用于：将第一代表帧图片的特征向量和各第二代表帧图片的特征向量的加权平均值作为视频片段的特征向量，其中，第一代表帧图片的特征向量的权重大于第二代表帧图片的特征向量的权重。

在本公开一示例性实施例中，视频子集中包括一个视频片段；判断模块204用于：基于视频片段的特征向量，计算任意两个视频片段的特征向量距离，若特征向量距离小于或等于第一阈值，则任意两个视频片段属于同一目标人物的视频子集。

在本公开一示例性实施例中，视频子集包括多个视频片段，其中，每个视频片段中目标人物具有预设采录姿势；所判断模块204用于：基于视频子集中的视频片段的特征向量与其他视频子集中的视频片段的特征向量，计算视频子集中的视频片段与其他视频子集中的视频片段的第一特征向量距离，其中，其他视频子集中的视频片段的目标人物与视频子集中的视频片段的目标人物具有相同的预设采录姿势；将多个视频子集中的视频片段与其他视频子集中的视频片段的第一特征向量距离的加权平均值，作为视频子集与其他视频子集的第二特征向量距离；若第二特征向量距离小于或等于第二阈值，则视频子集与其他视频子集属于同一目标人物的视频子集。

在本公开一示例性实施例中，执行模块205用于：获取属于同一目标人物的视频子集；基于视频质量检测算法，计算并获取属于同一目标人物的视频子集中的各视频片段的视频质量；基于各视频片段的视频质量，得到视频子集的视频质量；确定视频质量最高的视频子集，并从视频集中删除视频质量最高的视频子集之外的属于同一目标人物的其他视频子集。

在本公开一示例性实施例中，执行模块205用于：将从视频集中删除除视频质量最高的视频子集之外的属于同一目标人物的其他视频子集，以及与其他视频子集对应的视频质量保存至存储库。

在本公开一示例性实施例中，判断模块203还用于：获取视频子集的采录地点，将视频子集按照采录地点划分为不同的采录地点视频子集组；基于视频片段的特征向量，判断属于同一采录地点视频子集组中的任意两个视频子集是否属于同一目标人物的视频子集。

在本公开一示例性实施例中，判断模块203还用于：获取视频子集对应的目标人物的性别，将视频子集按照目标人物的性别划分为不同的性别视频子集组；基于视频片段的特征向量，判断属于同一性别视频子集组中的任意两个视频子集是否属于同一目标人物的视频子集。

图5示出了本公开的一个实施方式提供的一种电子设备30。

如图5所示，本公开的一个实施方式提供的一种电子设备30，其中，该电子设备30包括存储器310、处理器320、输入/输出（Input/Output，I/O）接口330。其中，存储器310，用于存储指令。处理器320，用于调用存储器310存储的指令执行本公开实施例的视频筛选方法。其中，处理器320分别与存储器310、I/O接口330连接，例如可通过总线系统和/或其他形式的连接机构(未示出)进行连接。存储器310可用于存储程序和数据，包括本公开实施例中涉及的视频筛选方法的程序，处理器320通过运行存储在存储器310的程序从而执行电子设备30的各种功能应用以及数据处理。

本公开实施例中处理器320可以采用数字信号处理器(Digital SignalProcessing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现，所述处理器320可以是中央处理单元（Central Processing Unit，CPU）或者具有数据处理能力和/或指令执行能力的其他形式的处理单元中的一种或几种的组合。

本公开实施例中的存储器310可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器（Random Access Memory，RAM）和/或高速缓冲存储器（cache）等。所述非易失性存储器例如可以包括只读存储器（Read-OnlyMemory，ROM）、快闪存储器（Flash Memory）、硬盘（Hard Disk Drive，HDD）或固态硬盘（Solid-State Drive，SSD）等。

本公开实施例中，I/O接口330可用于接收输入的指令（例如数字或字符信息，以及产生与电子设备30的用户设置以及功能控制有关的键信号输入等），也可向外部输出各种信息（例如，图像或声音等）。本公开实施例中I/O接口330可包括物理键盘、功能按键（比如音量控制按键、开关按键等）、鼠标、操作杆、轨迹球、麦克风、扬声器、和触控面板等中的一个或多个。

在一些实施方式中，本公开提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在由处理器执行时，执行上文所述的任何方法。

尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本公开的方法和装置能够利用标准编程技术来完成，利用基于规则的逻辑或者其他逻辑来实现各种方法步骤。还应当注意的是，此处以及权利要求书中使用的词语“装置”和“模块”意在包括使用一行或者多行软件代码的实现和/或硬件实现和/或用于接收输入的设备。

此处描述的任何步骤、操作或程序可以使用单独的或与其他设备组合的一个或多个硬件或软件模块来执行或实现。在一个实施方式中，软件模块使用包括包含计算机程序代码的计算机可读介质的计算机程序产品实现，其能够由计算机处理器执行用于执行任何或全部的所描述的步骤、操作或程序。

出于示例和描述的目的，已经给出了本公开实施的前述说明。前述说明并非是穷举性的也并非要将本公开限制到所公开的确切形式，根据上述教导还可能存在各种变形和修改，或者是可能从本公开的实践中得到各种变形和修改。选择和描述这些实施例是为了说明本公开的原理及其实际应用，以使得本领域的技术人员能够以适合于构思的特定用途来以各种实施方式和各种修改而利用本公开。

Claims

1.一种视频筛选方法，其特征在于，所述视频筛选方法包括：

获取视频集，所述视频集包括多个分别对应于目标人物的视频子集，所述视频子集包括一个或多个视频片段，所述视频片段中包括所述目标人物；

基于所述视频片段，得到所述视频片段的第一代表帧图片，以及根据所述第一代表帧图片确定的多张第二代表帧图片；

获取所述第一代表帧图片的特征向量和各所述第二代表帧图片的特征向量，并基于所述第一代表帧图片的特征向量和各所述第二代表帧图片的特征向量确定所述视频片段的特征向量；

基于所述视频子集中的所述视频片段的特征向量，判断任意两个所述视频子集是否属于同一目标人物的视频子集；

若所述两个视频子集属于同一目标人物的视频子集，则删除所述两个视频子集中的一个视频子集。

2.根据权利要求1所述的视频筛选方法，其特征在于，

所述基于所述视频片段，得到所述视频片段的第一代表帧图片，包括：

基于所述视频片段，通过人脸检测，获取所述视频片段每帧视频帧画面的人脸信息；

基于所述人脸信息，确定所述人脸面积最大的一帧视频帧画面，并将所述人脸面积最大的一帧视频帧画面作为所述第一代表帧图片；

所述根据所述第一代表帧图片确定的多张第二代表帧图片，包括：

基于所述第一代表帧图片，将人脸面积为所述第一代表帧图片中人脸面积的第一预设倍数的视频帧画面作为所述第二代表帧图片。

3. 根据权利要求2所述的视频筛选方法，其特征在于，所述第二代表帧图片通过以下方式确定：

所述第二代表帧图片中人脸的高度为所述第一代表帧图片中人脸的高度的0.6-0.8倍、所述第二代表帧图片中人脸的宽度为所述第一代表帧图片中人脸的宽度的0.9-1.1倍，或者

所述第二代表帧图片中人脸的高度为所述第一代表帧图片中人脸的高度的0.9-1.1倍、所述第二代表帧图片中人脸的宽度为所述第一代表帧图片中人脸的宽度的0.6-0.8倍。

4.根据权利要求1所述的视频筛选方法，其特征在于，所述基于所述第一代表帧图片的特征向量和各所述第二代表帧图片的特征向量确定所述视频片段的特征向量包括：

将所述第一代表帧图片的特征向量和各所述第二代表帧图片的特征向量的加权平均值作为所述视频片段的特征向量，其中，所述第一代表帧图片的特征向量的权重大于所述第二代表帧图片的特征向量的权重。

5.根据权利要求4所述的视频筛选方法，其特征在于，

所述第一代表帧图片的特征向量的权重与所述第二代表帧图片的特征向量的权重的比例关系和所述第一代表帧图片中人脸面积与所述第二代表帧图片中人脸面积的比例关系相对应。

6.根据权利要求1所述的视频筛选方法，其特征在于，

所述视频子集中包括一个视频片段；

所述基于所述视频子集中的所述视频片段的特征向量，判断任意两个所述视频子集是否属于同一目标人物的视频子集包括：

基于所述视频片段的特征向量，计算任意两个所述视频片段的特征向量距离，若所述特征向量距离小于或等于第一阈值，则所述任意两个所述视频片段属于同一目标人物的视频子集。

7.根据权利要求1所述的视频筛选方法，其特征在于，

所述视频子集包括多个视频片段，其中，每个所述视频片段中所述目标人物具有预设采录姿势；

基于所述视频子集中的视频片段的特征向量与其他视频子集中的视频片段的特征向量，计算所述视频子集中的视频片段与所述其他视频子集中的视频片段的第一特征向量距离，其中，所述其他视频子集中的视频片段的目标人物与所述视频子集中的视频片段的目标人物具有相同的预设采录姿势；

将多个所述视频子集中的视频片段与所述其他视频子集中的视频片段的所述第一特征向量距离的加权平均值，作为所述视频子集与所述其他视频子集的第二特征向量距离；

若所述第二特征向量距离小于或等于第二阈值，则所述视频子集与所述其他视频子集属于同一目标人物的视频子集。

8.根据权利要求1所述的视频筛选方法，其特征在于，所述若所述两个视频子集属于同一目标人物的视频子集，则删除所述两个视频子集中的一个视频子集包括：

获取属于同一目标人物的视频子集；

基于视频质量检测算法，计算并获取属于同一目标人物的视频子集中的各视频片段的视频质量；

基于所述各视频片段的视频质量，得到所述视频子集的视频质量；

确定视频质量最高的视频子集，并从所述视频集中删除所述视频质量最高的视频子集之外的属于同一目标人物的其他视频子集。

9.根据权利要求8所述的视频筛选方法，其特征在于，所述方法还包括：

将所述从所述视频集中删除所述除所述视频质量最高的视频子集之外的属于同一目标人物的其他视频子集，以及与所述其他视频子集对应的视频质量保存至存储库。

10.根据权利要求1所述的视频筛选方法，其特征在于，

获取所述视频子集的采录地点，将所述视频子集按照采录地点划分为不同的采录地点视频子集组；

基于所述视频片段的特征向量，判断属于同一所述采录地点视频子集组中的任意两个所述视频子集是否属于同一目标人物的视频子集。

11.根据权利要求1所述的视频筛选方法，其特征在于，

获取所述视频子集对应的目标人物的性别，将所述视频子集按照目标人物的性别划分为不同的性别视频子集组；

基于所述视频片段的特征向量，判断属于同一所述性别视频子集组中的任意两个所述视频子集是否属于同一目标人物的视频子集。

12.一种视频筛选装置，其特征在于，所述视频筛选装置包括：

获取模块，用于获取视频集，所述视频集包括多个分别对应于目标人物的视频子集，所述视频子集包括一个或多个视频片段，所述视频片段中包括所述目标人物；

提取模块，用于基于所述视频片段，得到所述视频片段的第一代表帧图片，以及根据所述第一代表帧图片确定的多张第二代表帧图片；

处理模块，用于获取所述第一代表帧图片的特征向量和各所述第二代表帧图片的特征向量，并基于所述第一代表帧图片的特征向量和各所述第二代表帧图片的特征向量确定所述视频片段的特征向量；

判断模块，用于基于所述视频子集中的所述视频片段的特征向量，判断任意两个所述视频子集是否属于同一目标人物的视频子集；

执行模块，若所述两个视频子集属于同一目标人物的视频子集，用于删除所述两个视频子集中的一个视频子集。

13.根据权利要求12所述的视频筛选装置，其特征在于，所述处理模块用于：

14.根据权利要求13所述的视频筛选装置，其特征在于，所述第二代表帧图片通过以下方式确定：

15.根据权利要求12所述的视频筛选装置，其特征在于，处理模块用于：

16.根据权利要求15所述的视频筛选装置，其特征在于，

17.根据权利要求12所述的视频筛选装置，其特征在于，

所述视频子集中包括一个视频片段；

所述判断模块用于：基于所述视频片段的特征向量，计算任意两个所述视频片段的特征向量距离，若所述特征向量距离小于或等于第一阈值，则所述任意两个所述视频片段属于同一目标人物的视频子集。

18.根据权利要求12所述的视频筛选装置，其特征在于，

所述判断模块用于：基于所述视频子集中的视频片段的特征向量与其他视频子集中的视频片段的特征向量，计算所述视频子集中的视频片段与所述其他视频子集中的视频片段的第一特征向量距离，其中，所述其他视频子集中的视频片段的目标人物与所述视频子集中的视频片段的目标人物具有相同的预设采录姿势；

19.根据权利要求12所述的视频筛选装置，其特征在于，所述执行模块用于：

获取属于同一目标人物的视频子集；

20.根据权利要求19所述的视频筛选装置，其特征在于，所述执行模块还用于：

21.根据权利要求12所述的视频筛选装置，其特征在于，所述判断模块还用于：

22.根据权利要求12所述的视频筛选装置，其特征在于，所述判断模块还用于：

23.一种视频筛选装置，其中，所述视频筛选装置包括：

存储器，用于存储指令；以及

处理器，用于调用所述存储器存储的指令执行权利要求1-11中任意一项所述的视频筛选方法。

24.一种计算机可读存储介质，其中，

所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在由处理器执行时，执行权利要求1-11中任意一项所述的视频筛选方法。