CN110929706B

CN110929706B - 视频抽选方法、装置及存储介质

Info

Publication number: CN110929706B
Application number: CN202010100697.5A
Authority: CN
Inventors: 刘杰辰; 曹琼; 郝玉峰; 黄宇凯; 李科
Original assignee: Beijing Speechocean Technology Co ltd
Current assignee: Beijing Speechocean Technology Co ltd
Priority date: 2020-02-19
Filing date: 2020-02-19
Publication date: 2020-06-02
Anticipated expiration: 2040-02-19
Also published as: CN110929706A

Abstract

本公开涉及一种视频抽选方法、装置及存储介质。其中，所述方法包括获取视频集，包括多个视频片段；得到视频片段的第一代表帧图片以及多张第二代表帧图片；获取第一代表帧图片特征向量和各第二代表帧图片特征向量，基于第一代表帧图片特征向量和各第二代表帧图片特征向量确定视频片段特征向量；获取视频片段与其他各视频片段之间的特征向量距离，基于各特征向量距离，得到视频片段的综合特征向量距离；于视频片段中选取第一数量个数的候选视频片段构成视频片段候选集，计算视频片段候选集中的候选视频片段的视频质量，并将视频质量最高的候选视频片段作为目标视频片段存入目标库。通过本公开的视频抽选方法，提高了采录目标人物的代表性。

Description

视频抽选方法、装置及存储介质

技术领域

本公开涉及视频抽选技术领域，具体是涉及一种视频抽选方法、装置及存储介质。

背景技术

在计算机视觉针对人脸视频算法的训练中，需要采集大量人脸视频数据。在采集大批人脸数据过程中，难以避免地会出现人员重复采录的问题。在采录的不重复人员中，往往也会出现采录的人员在一定程度上存在相似特征的情况，使得采录的人员代表性不强。这将对后续的视频训练集制作以及视频模型训练造成干扰，降低训练效率。

发明内容

为了克服相关技术问题，本公开提供一种视频抽选方法、装置及存储介质。

第一方面，本公开实施例提供一种视频抽选方法，其包括：获取视频集，视频集包括多个视频片段，视频片段中包括目标人物；基于视频片段，得到视频片段的第一代表帧图片，以及根据第一代表帧图片确定的多张第二代表帧图片；获取第一代表帧图片的特征向量和各第二代表帧图片的特征向量，并基于第一代表帧图片的特征向量和各第二代表帧图片的特征向量确定视频片段的特征向量；分别获取视频片段与其他各视频片段之间的特征向量距离，并基于各特征向量距离，得到视频片段的综合特征向量距离；于视频片段中选取第一数量个数的候选视频片段构成视频片段候选集，其中，任一候选视频片段的综合特征向量距离大于任一其他视频片段的综合特征向量距离，第一数量个数的视频片段构成视频片段候选集，或于视频片段中选取候选视频片段构成视频片段候选集，其中，第一数量个数的视频片段的任一候选视频片段的综合特征向量距离均大于预设阈值；基于视频质量检测算法，计算视频片段候选集中的候选视频片段的视频质量，并将视频质量最高的候选视频片段作为目标视频片段存入目标库。

一种实施方式中，视频抽选方法还包括：判断目标库中存储的目标视频片段的数量是否超过数量阈值；若目标库中存储的目标视频片段的数量未超过数量阈值，则基于视频集中剩余的视频片段，选取得到目标视频片段存入目标库。

另一种实施方式中，基于视频集中剩余的视频片段，选取得到目标视频片段存入目标库，包括：分别获取视频集中剩余的视频片段与目标库中存储的各目标视频片段之间的特征向量距离，并基于视频集中剩余的视频片段与目标库存储的各目标视频片段之间的特征向量距离，得到视频集中剩余的视频片段的综合特征距离；选取第一数量个数的视频片段，其中，所述第一数量个数的视频片段的任一综合特征向量距离均大于其他所述视频集中剩余的视频片段的综合特征向量距离，所述第一数量个数的视频片段构成视频片段候选集于视频集中剩余的视频片段中选取第一数量个数的候选视频片段构成视频片段候选集，其中，任一候选视频片段的综合特征向量距离大于任一其他视频片段的综合特征向量距离，或于视频集中剩余的视频片段中选取候选视频片段构成视频片段候选集，其中，所述第一数量个数的视频片段的任一候选视频片段的综合特征向量距离均大于预设阈值；基于视频质量检测算法，计算视频片段候选集中的候选视频片段的视频质量，并将视频质量最高的候选视频片段作为目标视频片段存入目标库。

又一种实施方式中，基于视频片段，得到视频片段的第一代表帧图片，包括：基于视频片段，通过人脸检测，获取视频片段每帧视频帧画面的人脸信息；基于人脸信息，确定人脸面积最大的一帧视频帧画面，并将人脸面积最大的一帧视频帧画面作为第一代表帧图片；根据所述第一代表帧图片确定的多张第二代表帧图片，包括：基于第一代表帧图片，将人脸面积为第一代表帧图片中人脸面积的第一预设倍数的视频帧画面作为第二代表帧图片。

又一种实施方式中，第二代表帧图片通过以下方式确定：第二代表帧图片中人脸的高度为第一代表帧图片中人脸的高度的0.6-0.8倍、第二代表帧图片中人脸的宽度为第一代表帧图片中人脸的宽度的0.9-1.1倍，或者，第二代表帧图片中人脸的高度为第一代表帧图片中人脸的高度的0.9-1.1倍、第二代表帧图片中人脸的宽度为第一代表帧图片中人脸的宽度的0.6-0.8倍。

又一种实施方式中，基于第一代表帧图片的特征向量和各第二代表帧图片的特征向量确定视频片段的特征向量包括：将第一代表帧图片的特征向量和各第二代表帧图片的特征向量的加权平均值作为视频片段的特征向量，其中，第一代表帧图片的特征向量的权重大于第二代表帧图片的特征向量的权重。

又一种实施方式中，第一代表帧图片的特征向量的权重与第二代表帧图片的特征向量的权重的比例关系和第一代表帧图片中人脸面积与第二代表帧图片中人脸面积的比例关系相对应。

又一种实施方式中，基于各特征向量距离，得到视频片段的综合特征向量距离包括：将特征向量距离的平均值，作为视频片段的综合特征向量距离。

又一种实施方式中，第一数量基于视频集中的视频片段的数量和目标库中可存储的目标视频片段的数量而确定。

又一种实施方式中，视频抽选方法还包括：保存视频片段候选集中候选视频片段的综合特征向量距离，以及候选视频片段的视频质量。

又一种实施方式中，在基于视频片段，得到视频片段的第一代表帧图片，以及根据第一代表帧图片确定的多张第二代表帧图片之前，视频抽选方法还包括：基于视频质量检测算法，计算并获取视频片段的视频质量；若视频片段的视频质量未超过视频质量阈值，则终止对视频片段进行抽选。

第二方面，本公开实施例提供了一种视频抽选装置，该视频抽选装置具有实现上述第一方面或第一方面任意一种实施方式中所涉及的视频抽选方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

一种实施方式中，视频抽选装置包括：获取视频集模块，用于获取视频集，视频集包括多个视频片段，视频片段中包括目标人物；提取代表帧图片模块，用于基于视频片段，得到视频片段的第一代表帧图片，以及根据第一代表帧图片确定的多张第二代表帧图片；获取特征向量模块，用于获取第一代表帧图片的特征向量和各第二代表帧图片的特征向量，并基于第一代表帧图片的特征向量和各第二代表帧图片的特征向量确定视频片段的特征向量；获取综合特征向量模块，用于分别获取视频片段与其他各视频片段之间的特征向量距离，并基于各特征向量距离，得到视频片段的综合特征向量距离；获取视频片段候选集模块，用于于视频片段中选取第一数量个数的候选视频片段构成视频片段候选集，其中，任一候选视频片段的综合特征向量距离大于任一其他视频片段的综合特征向量距离，或于视频片段中选取候选视频片段构成视频片段候选集，其中，任一候选视频片段的综合特征向量距离大于预设阈值；处理模块，用于基于视频质量检测算法，计算视频片段候选集中的候选视频片段的视频质量，并将视频质量最高的候选视频片段作为目标视频片段存入目标库。

另一种实施方式中，处理模块还用于：判断目标库中存储的目标视频片段的数量是否超过数量阈值；若目标库中存储的目标视频片段的数量未超过数量阈值，则基于视频集中剩余的视频片段，选取得到目标视频片段存入目标库。

又一种实施方式中，处理模块用于：分别获取视频集中剩余的视频片段与目标库中存储的各目标视频片段之间的特征向量距离，并基于视频集中剩余的视频片段与目标库存储的各目标视频片段之间的特征向量距离，得到视频集中剩余的视频片段的综合特征距离；于视频集中剩余的视频片段中选取第一数量个数的候选视频片段构成视频片段候选集，其中，任一候选视频片段的综合特征向量距离大于任一其他视频片段的综合特征向量距离，或于视频集中剩余的视频片段中选取候选视频片段构成视频片段候选集，其中，任一候选视频片段的综合特征向量距离大于预设阈值；基于视频质量检测算法，计算视频片段候选集中的候选视频片段的视频质量，并将视频质量最高的候选视频片段作为目标视频片段存入目标库。

又一种实施方式中，提取代表帧图片模块用于：基于视频片段，通过人脸检测，获取视频片段每帧视频帧画面的人脸信息；基于人脸信息，确定人脸面积最大的一帧视频帧画面，并将人脸面积最大的一帧视频帧画面作为第一代表帧图片；基于第一代表帧图片，将人脸面积为第一代表帧图片中人脸面积的第一预设倍数的视频帧画面作为第二代表帧图片。

又一种实施方式中，获取特征向量模块用于：将第一代表帧图片的特征向量和各第二代表帧图片的特征向量的加权平均值作为视频片段的特征向量，其中，第一代表帧图片的特征向量的权重大于第二代表帧图片的特征向量的权重。

又一种实施方式中，获取综合特征向量模块用于：将特征向量距离的平均值，作为视频片段的综合特征向量距离。

又一种实施方式中，处理模块还用于：保存视频片段候选集中候选视频片段的综合特征向量距离，以及候选视频片段的视频质量。

又一种实施方式中，获取视频集模块还用于：基于视频质量检测算法，计算并获取视频片段的视频质量；若视频片段的视频质量未超过视频质量阈值，则终止对视频片段进行抽选。

第三方面，本公开实施例提供一种视频抽选装置，其中，视频抽选装置包括：存储器，用于存储指令；以及处理器，用于调用存储器存储的指令执行第一方面或第一方面任一实施方式所述的视频抽选方法。

第四方面，本公开实施例提供一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在由处理器执行时，执行第一方面或第一方面任一实施方式所述的视频抽选方法。

本公开提供的一种视频抽选方法、装置及存储介质，其中，本公开的视频抽选方法基于第一代表帧图片的特征向量和各第二代表帧图片的特征向量确定视频片段候选集中的候选视频片段，并将视频质量最高的候选视频片段作为目标视频片段存入目标库。通过本公开的视频抽选方法，避免了选取的目标视频片段中的目标人物在一定程度上存在相似的特征，提高了采录目标人物的代表性。

附图说明

通过参考附图阅读下文的详细描述，本公开实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的实施方式，其中：

图1示出了本公开实施例提供的一种视频抽选方法的流程图；

图2示出了本公开实施例提供的另一种视频抽选方法的流程图；

图3示出了本公开实施例提供的一种视频抽选方法中基于视频集中剩余的视频片段，选取得到目标视频片段存入目标库的流程图；

图4示出了本公开实施例提供的另一种视频抽选方法的流程图；

图5示出了本公开实施例提供的另一种视频抽选方法的流程图；

图6示出了本公开实施例提供的一种视频抽选装置的示意图；

图7示出了本公开实施例提供的一种电子设备的框图。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。

需要注意，虽然本文中使用“第一”、“第二”等表述来描述本公开的实施方式的不同模块、步骤和数据等，但是“第一”、“第二”等表述仅是为了在不同的模块、步骤和数据等之间进行区分，而并不表示特定的顺序或者重要程度。实际上，“第一”、“第二”等表述完全可以互换使用。

在计算机视觉针对人脸视频算法的训练中，需要采集大量人脸视频数据。在采集大批人脸数据过程中，难以避免地会出现人员重复采录的问题。在不重复的人员采录中，往往也会出现采录的人员在一定程度上存在相似的特征，使得采录的人员代表性不强。

本公开提供的视频抽选方法，避免了选取的目标视频片段中的目标人物在一定程度上存在相似的特征，提高了采录目标人物的代表性。

图1示出了本公开实施例提供的一种视频抽选方法的流程图。

如图1所示，视频抽选方法包括步骤S101、步骤S102、步骤S103、步骤S104、步骤S105和步骤S106。下面将分别介绍各步骤。

在步骤S101中，获取视频集。

视频集包括多个视频片段。视频片段中包括目标人物。

在整个视频片段中，可以仅有目标人物一人。

视频片段可以是录制有目标人物的正脸的视频片段。

视频片段可以是目标人物在做仰视动作的视频片段。

视频片段可以是目标人物在做俯视动作的视频片段。

视频片段可以是目标人物在做向左看的动作的视频片段。

视频片段还可以是目标人物在做由右看的动作的视频片段。

在步骤S102中，基于视频片段，得到视频片段的第一代表帧图片，以及根据第一代表帧图片确定的多张第二代表帧图片。

通过MTCNN人脸检测模型，基于视频片段，得到视频片段的第一代表帧图片和第二代表帧图片。

第一代表帧图片中具有目标人物。第二代表帧图片中具有目标人物。

对于一段视频片段中，可以识别并获取得到一张第一代表帧图片和四张第二代表帧图片。

在步骤S103中，获取第一代表帧图片的特征向量和各第二代表帧图片的特征向量，并基于第一代表帧图片的特征向量和各第二代表帧图片的特征向量，确定视频片段的特征向量。

第一代表帧图片的特征向量通过计算第一代表帧图片中的目标人物的特征向量而得到。

第二代表帧图片的特征向量通过计算第二代表帧图片中的目标人物的特征向量而得到。

视频片段的特征向量为视频片段中的目标人物的特征向量。

将第一代表帧图片和第二代表帧图片输入到FaceNet模型中，分别提取得到第一代表帧图片的特征向量和第二代表帧图片的特征向量。

基于视频片段的第一代表帧图片的特征向量和视频片段的第二代表帧图片的特征向量，得到视频片段的特征向量。

由于视频片段的特征向量是由视频片段中的多张代表帧图片的特征向量而得到，因此提高了视频片段的特征向量的准确度。

在步骤S104中，分别获取视频片段与其他视频片段之间的特征向量距离。并基于各特征向量距离，得到视频片段的综合特征向量距离。

每个视频片段对应一个综合特征向量距离。

综合特征向量距离表示视频片段与其他的视频片段作为一个整体而言，两者之间的特征向量距离。

综合特征向量距离可以表示视频片段中的目标人物与其他视频片段中的目标人物的相似程度。

在一种实施例中，综合特征向量距离可以通过以下方式获得：

获取视频片段与其他视频片段之间的每一个特征向量距离；并求取获得的特征向量距离的平均值，将特征向量距离的平均值作为视频片段的综合特征向量距离。

在步骤S105中，于视频片段中选取第一数量个数的候选视频片段构成视频片段候选集。

其中，任一候选视频片段的综合特征向量距离还可以大于任一其他视频片段的综合特征向量距离。

第一数量个数可以根据实际情况进行调整，在本公开中，不对第一数量个数的具体值做限定。

在一种实施例中，第一数量还可以基于视频集中的视频片段的数量和目标库中可存储的目标视频片段的数量而确定。

视频片段候选集中的候选视频片段的数量，综合考虑了视频集中的视频片段的数量和目标库中可存储的目标视频片段的数量，可以提高候选视频片段的有效性和可参考性。

在一种实施例中，于视频片段中选取候选视频片段构成视频片段候选集。其中，任一候选视频片段的综合特征向量距离大于预设阈值。

预设阈值可以根据实际情况进行调整。

在一种实施例中，对视频片段的综合特征向量距离进行从大到小的排序；并选取前第一数量个数的视频片段作为候选视频片段，以构成视频片段候选集。

视频片段候选集中的候选视频片段中的目标人物与其他视频片段中的目标人物具有较大的差异性。

在步骤S106中，基于视频质量检测算法，计算视频片段候选集中候选视频片段的视频质量，并将视频质量最高的候选视频片段作为目标视频片段存入目标库。

基于视频片段的抖动重影程度、模糊程度、光照程度、曝光程度、噪点程度、马赛克程度等方面，计算属于同一目标人物的视频子集中各视频片段的视频质量。

在视频片段候选集中选取视频质量最高的候选视频片段作为目标视频片段存入目标库，既可以保证目标视频片段与其他视频片段存在较大差异性，使得获取得到目标视频片段更具代表性。另一方面，将视频质量最高的候选视频片段作为目标视频片段存入目标库，可以在计算机视觉针对人脸视频算法的训练中，为后续的视频训练集制作以及视频模型训练提高高质量的视频片段素材提供依据。

图2示出了本公开实施例提供的另一种视频抽选方法的流程图。

在本公开一示例性实施例中，如图2所示，视频抽选方法除了包括步骤S101、步骤S102、步骤S103、步骤S104、步骤S105和步骤S106之外，还包括步骤S107和步骤S108。下面将介绍步骤S107和步骤S108。

在步骤S107中，判断目标库中存储的目标视频片段的数量是否超过数量阈值。

在步骤S108中，若目标库中存储的目标视频片段的数量未超过数量阈值，则基于视频集中剩余的视频片段，选取得到目标视频片段存入目标库。

在一种实施方式中，若目标库中存储的目标视频片段的数量超过数量阈值，则表示目标视频片段的抽选已完成，此时，不再对视频集中剩余的视频片段进行抽选。

数量阈值可以根据实际情况进行调整，在本公开中，不对数量阈值的具体值做限定。

图3示出了本公开实施例提供的一种视频抽选方法中基于视频集中剩余的视频片段，选取得到目标视频片段存入目标库的流程图。

在本公开一示例性实施例中，如图3所示，在步骤S108中，基于视频集中剩余的视频片段，选取得到目标视频片段存入目标库包括步骤S1081、步骤S1082和步骤S1083。下面将分别介绍步骤S1081、步骤S1082和步骤S1083。

在步骤S1081中，分别获取视频集中剩余的视频片段与目标库中存储的各目标视频片段之间的特征向量距离，并基于视频集中剩余的视频片段与目标库存储的各目标视频片段之间的特征向量距离，得到视频集中剩余的视频片段的综合特征距离。

在步骤S1082中，于视频集中剩余的视频片段中选取第一数量个数的候选视频片段构成视频片段候选集。

其中，任一候选视频片段的综合特征向量距离大于任一其他视频片段的综合特征向量距离。

在一种实施例中，于视频集中剩余的视频片段中选取视频片段构成视频片段候选集，其中，任一候选视频片段的综合特征向量距离大于预设阈值。

在步骤S1083中，基于视频质量检测算法，计算视频片段候选集中的候选视频片段的视频质量，并将视频质量最高的候选视频片段作为目标视频片段存入目标库。

在一种实施方式中，视频抽选方法包括以下步骤。

步骤a：对视频片段的综合特征向量距离进行从大到小的排序；并选取前第一数量个数的视频片段作为候选视频片段，以构成视频片段候选集。

步骤b：基于视频质量检测算法，对视频片段候选集中的候选视频片段按照视频质量得分从大到小排序。选择视频质量得分最高的候选视频片段作为第一个存入目标库的目标视频片段。

步骤c：获取视频集中剩余的视频片段与目标库中已存储的目标视频片段之间特征向量距离，并获取的特征向量距离的平均值作为视频集中剩余的视频片段相对于目标库中已存储的目标视频片段的综合特征向量距离。

步骤d：对视频集中剩余的视频片段相对于目标库中已存储的目标视频片段的综合特征向量距离进行从大到小的排序，并选取前第一数量个数的视频片段作为候选视频片段，以构成视频片段候选集。

步骤e：基于视频质量检测算法，对视频片段候选集中的候选视频片段按照视频质量得分从大到小排序。选择视频质量得分最高的候选视频片段作为目标视频片段存入目标库。

重复步骤c至步骤e，直到目标库中存储的目标视频片段数量达到数量阈值。

通过此种方式，一方面，既可以保证录入目标库中的目标视频片段具有与其他视频片段存在较大差异性，使得目标视频片段更具代表性。另一方面，将视频质量最高的候选视频片段作为目标视频片段存入目标库，可以在计算机视觉针对人脸视频算法的训练中，为后续的视频训练集制作以及视频模型训练提高高质量的视频片段素材提供依据。

本公开一示例性实施例中，基于视频片段，通过人脸检测，获取视频片段每帧视频帧画面的人脸信息。基于人脸信息，确定人脸面积最大的一帧视频帧画面，并将人脸面积最大的一帧视频帧画面作为第一代表帧图片。

基于视频片段，通过MTCNN人脸检测模型，提取得到视频片段中每一帧视频帧画面的人脸信息。并从中识别出人脸框体的面积最大的一帧视频帧画面作为第一代表帧图片。

人脸框体的面积最大的一帧视频帧画面可以是目标人物在采录视频的过程中，正对镜头的画面。

本公开一示例性实施例中，基于第一代表帧图片，将人脸面积为第一代表帧图片中的人脸面积的第一预设倍数的视频帧画面作为第二代表帧图片。

第一预设倍数可以根据实际情况进行调整，在本公开中，不对第一预设倍数的大小做限定。

第一预设倍数的值可以小于1。第一预设倍数可以为0.6~0.8之间的任意一个值。

在本公开一示例性实施例中，第二代表帧图片可以通过以下方式确定：

第二代表帧图片中人脸的高度可以为第一代表帧图片中人脸的高度的0.6-0.8倍、第二代表帧图片中人脸的宽度可以为第一代表帧图片中人脸的宽度的0.9-1.1倍。或者，第二代表帧图片中人脸的高度可以为第一代表帧图片中人脸的高度的0.9-1.1倍、第二代表帧图片中人脸的宽度可以为第一代表帧图片中人脸的宽度的0.6-0.8倍。为了便于说明，现令第一代表帧图片中人脸框体的高度为h，宽度为w。则根据第一代表帧图片确定的第二代表帧图片。

在一种实施例中，第二代表帧图片中人脸框体的高度可以为3/4h、宽度为0.95~1.05w。

在一种实施例中，第二代表帧图片中人脸框体的高度可以为2/3h、宽度为0.95~1.05w。

在一种实施例中，第二代表帧图片中人脸框体的高度可以为0.95~1.05h，宽度为3/4w。

在一种实施例中，第二代表帧图片中人脸框体的高度还可以为0.95~1.05h，宽度为2/3w。

在本公开一示例性实施例中，将第一代表帧图片的特征向量和各第二代表帧图片的特征向量的加权平均值作为视频片段的特征向量。

第一代表帧图片的特征向量的权重大于第二代表帧图片的特征向量的权重。

第一代表帧图片可以理解为是目标人物在采录视频的过程中，正对镜头的画面。基于第一代表帧图片，可以获取到目标人物的正脸信息。

第一代表帧图片中人脸框体的高度为h，宽度为w，基于第一代表帧图片确定第二代表帧图片。其中，第二代表帧图片中人脸框体的高度可以为3/4h、宽度为0.95~1.05w或第二代表帧图片中人脸框体的高度可以为2/3h、宽度为0.95~1.05w时，第二代表帧图片可以理解为是目标人物在采录视频的过程中向上看或向下看的画面。基于第二代表帧图片，可以获取到目标人物的俯视或仰视时人脸的信息。

第二代表帧图片中人脸框体的高度可以为0.95~1.05h，宽度为3/4w或第二代表帧图片中人脸框体的高度还可以为0.95~1.05h，宽度为2/3w时，第二代表帧图片可以理解为是目标人物在采录视频的过程中向左看或向右看的画面。基于第二代表帧图片，可以获取到目标人物的右脸或左脸的信息。

基于第一代表帧图片的特征向量和各第二代表帧图片的特征向量，来确定视频片段的特征向量，可以包括视频片段中目标人物人脸的多个状态的信息，提高了视频片段特征向量的准确度。

在本公开一示例性实施例中，第一代表帧图片的特征向量的权重与第二代表帧图片的特征向量的权重的比例关系和第一代表帧图片中人脸面积与第二代表帧图片中人脸面积的比例关系相对应。

由于第一代表帧图片中人脸框体的面积最大，第一代表帧图片可以理解为是视频片段中目标人物正对镜头的画面图片。在基于第一代表帧图片的特征向量和各第二代表帧图片的特征向量确定视频片段的特征向量的过程中，将第一代表帧图片的特征向量的权重设置较大，有利于提高计算得到的视频片段的特征向量的准确度。

在一种实施例中，第一代表帧图片的特征向量的权重与第二代表帧图片的特征向量的权重还可以根据模型训练的训练结果，确定第一代表帧图片的特征向量的权重，和第二代表帧图片的特征向量的权重。

图4示出了本公开实施例提供的另一种视频抽选方法的流程图。

在本公开一示例性实施例中，如图4所示，视频抽选方法除了包括步骤S101、步骤S102、步骤S103、步骤S104、步骤S105和步骤S106之外，还包括步骤S109。下面将介绍步骤S109。

在步骤S109中，保存视频片段候选集中候选视频片段的综合特征向量距离，以及候选视频片段的视频质量。

在一种实施方式中，将每一步中获取的视频片段候选集中的候选视频片段、候选视频片段的综合特征向量距离，以及候选视频片段的视频质量得分以日志的形式保留，以供用户查看。

图5示出了本公开实施例提供的另一种视频抽选方法的流程图。

在本公开一示例性实施例中，如图5所示，视频抽选方法除了包括步骤S101、步骤S102、步骤S103、步骤S104、步骤S105和步骤S106之外，在步骤S102之前，还包括步骤S110和步骤S111。下面将介绍步骤S110和步骤S111。

在步骤S110中，基于视频质量检测算法，计算并获取视频片段的视频质量。

在步骤S111中，若视频片段的视频质量未超过视频质量阈值，则终止对视频片段进行抽选。

在进行视频抽选之前，对视频片段的视频质量进行评价，若视频片段的视频质量未超过视频质量阈值，则终止对视频片段进行抽选。若视频片段的视频质量超过视频质量阈值，则可以基于对视频片段进行抽选。

通过此种方式，首先将视频质量不符合条件的视频片段剔除，使视频质量不符合条件的视频片段不参加到计算综合特征向量距离的步骤中，在一定程度上减少了视频抽选工作的计算量。

图6示出了本公开实施例提供的一种视频抽选装置的示意图。

基于相同的发明构思，如图6所示，本公开实施例还提供一种视频抽选装置。

视频抽选装置包括获取视频集模块201、提取代表帧图片模块202、获取特征向量模块203、获取综合特征向量模块204、获取视频片段候选集模块205和处理模块206。下面将分别介绍各模块。

获取视频集模块201，用于获取视频集，视频集包括多个视频片段，视频片段中包括目标人物。

提取代表帧图片模块202，用于基于视频片段，得到视频片段的第一代表帧图片，以及根据第一代表帧图片确定的多张第二代表帧图片。

获取特征向量模块203，用于获取第一代表帧图片的特征向量和各第二代表帧图片的特征向量，并基于第一代表帧图片的特征向量和各第二代表帧图片的特征向量确定视频片段的特征向量。

获取综合特征向量模块204，用于分别获取视频片段与其他各视频片段之间的特征向量距离，并基于各特征向量距离，得到视频片段的综合特征向量距离。

获取视频片段候选集模块205，用于于视频片段中选取第一数量个数的候选视频片段构成视频片段候选集，其中，任一候选视频片段的综合特征向量距离大于预设阈值，或任一候选视频片段的综合特征向量距离大于任一其他视频片段的综合特征向量距离。

处理模块206，用于基于视频质量检测算法，计算视频片段候选集中的候选视频片段的视频质量，并将视频质量最高的候选视频片段作为目标视频片段存入目标库。

在本公开一示例性实施例中，处理模块206还用于：判断目标库中存储的目标视频片段的数量是否超过数量阈值；若目标库中存储的目标视频片段的数量未超过数量阈值，则基于视频集中剩余的视频片段，选取得到目标视频片段存入目标库。

在本公开一示例性实施例中，处理模块206用于：分别获取视频集中剩余的视频片段与目标库中存储的各目标视频片段之间的特征向量距离，并基于视频集中剩余的视频片段与目标库存储中各目标视频片段之间的特征向量距离，得到视频集中剩余的视频片段的综合特征距离；于视频集中剩余的视频片段中选取第一数量个数的候选视频片段构成视频片段候选集，其中，任一候选视频片段的综合特征向量距离大于任一预设距离，或任一候选视频片段的综合特征向量距离大于任一其他视频片段的综合特征向量距离；基于视频质量检测算法，计算视频片段候选集中的候选视频片段的视频质量，并将视频质量最高的候选视频片段作为目标视频片段存入目标库。

在本公开一示例性实施例中，提取代表帧图片模块202用于：基于视频片段，通过人脸检测，获取视频片段每帧视频帧画面的人脸信息；基于人脸信息，确定人脸面积最大的一帧视频帧画面，并将人脸面积最大的一帧视频帧画面作为第一代表帧图片；基于第一代表帧图片，将人脸面积为第一代表帧图片中人脸面积的第一预设倍数的视频帧画面作为第二代表帧图片。

在本公开一示例性实施例中，第二代表帧图片通过以下方式确定：第二代表帧图片中人脸的高度为第一代表帧图片中人脸的高度的0.6-0.8倍、第二代表帧图片中人脸的宽度为第一代表帧图片中人脸的宽度的0.9-1.1倍，或者，第二代表帧图片中人脸的高度为第一代表帧图片中人脸的高度的0.9-1.1倍、第二代表帧图片中人脸的宽度为第一代表帧图片中人脸的宽度的0.6-0.8倍。

在本公开一示例性实施例中，获取特征向量模块203用于：将第一代表帧图片的特征向量和各第二代表帧图片的特征向量的加权平均值作为视频片段的特征向量，其中，第一代表帧图片的特征向量的权重大于第二代表帧图片的特征向量的权重。

在本公开一示例性实施例中，获取综合特征向量模块204用于：将特征向量距离的平均值，作为视频片段的综合特征向量距离。

在本公开一示例性实施例中，第一数量基于视频集中的视频片段的数量和目标库中可存储的目标视频片段的数量而确定。

在本公开一示例性实施例中，处理模块206还用于：保存视频片段候选集中视频片段的综合特征向量距离，以及视频片段的视频质量。

在本公开一示例性实施例中，获取视频集模块201还用于：基于视频质量检测算法，计算并获取视频片段的视频质量；若视频片段的视频质量未超过视频质量阈值，则终止对视频片段进行抽选。

图7示出了本公开的一个实施方式提供的一种电子设备30。

如图7所示，本公开的一个实施方式提供的一种电子设备30，其中，该电子设备30包括存储器310、处理器320、输入/输出（Input/Output，I/O）接口330。其中，存储器310，用于存储指令。处理器320，用于调用存储器310存储的指令执行本公开实施例的视频抽选方法。其中，处理器320分别与存储器310、I/O接口330连接，例如可通过总线系统和/或其他形式的连接机构(未示出)进行连接。存储器310可用于存储程序和数据，包括本公开实施例中涉及的视频抽选方法的程序，处理器320通过运行存储在存储器310的程序从而执行电子设备30的各种功能应用以及数据处理。

本公开实施例中处理器320可以采用数字信号处理器(Digital SignalProcessing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现，所述处理器320可以是中央处理单元（Central Processing Unit，CPU）或者具有数据处理能力和/或指令执行能力的其他形式的处理单元中的一种或几种的组合。

本公开实施例中的存储器310可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器（Random Access Memory，RAM）和/或高速缓冲存储器（cache）等。所述非易失性存储器例如可以包括只读存储器（Read-OnlyMemory，ROM）、快闪存储器（Flash Memory）、硬盘（Hard Disk Drive，HDD）或固态硬盘（Solid-State Drive，SSD）等。

本公开实施例中，I/O接口330可用于接收输入的指令（例如数字或字符信息，以及产生与电子设备30的用户设置以及功能控制有关的键信号输入等），也可向外部输出各种信息（例如，图像或声音等）。本公开实施例中I/O接口330可包括物理键盘、功能按键（比如音量控制按键、开关按键等）、鼠标、操作杆、轨迹球、麦克风、扬声器、和触控面板等中的一个或多个。

在一些实施方式中，本公开提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在由处理器执行时，执行上文所述的任何方法。

尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本公开的方法和装置能够利用标准编程技术来完成，利用基于规则的逻辑或者其他逻辑来实现各种方法步骤。还应当注意的是，此处以及权利要求书中使用的词语“装置”和“模块”意在包括使用一行或者多行软件代码的实现和/或硬件实现和/或用于接收输入的设备。

此处描述的任何步骤、操作或程序可以使用单独的或与其他设备组合的一个或多个硬件或软件模块来执行或实现。在一个实施方式中，软件模块使用包括包含计算机程序代码的计算机可读介质的计算机程序产品实现，其能够由计算机处理器执行用于执行任何或全部的所描述的步骤、操作或程序。

出于示例和描述的目的，已经给出了本公开实施的前述说明。前述说明并非是穷举性的也并非要将本公开限制到所公开的确切形式，根据上述教导还可能存在各种变形和修改，或者是可能从本公开的实践中得到各种变形和修改。选择和描述这些实施例是为了说明本公开的原理及其实际应用，以使得本领域的技术人员能够以适合于构思的特定用途来以各种实施方式和各种修改而利用本公开。

Claims

1.一种视频抽选方法，其特征在于，所述视频抽选方法包括：

获取视频集，所述视频集包括多个视频片段，所述视频片段中包括目标人物；

基于所述视频片段，得到所述视频片段的第一代表帧图片，以及根据所述第一代表帧图片确定的多张第二代表帧图片；

其中，所述基于所述视频片段，得到所述视频片段的第一代表帧图片，包括：基于所述视频片段，通过人脸检测，获取所述视频片段每帧视频帧画面的人脸信息；基于所述人脸信息，确定人脸面积最大的一帧视频帧画面，并将所述人脸面积最大的一帧视频帧画面作为所述第一代表帧图片；所述根据所述第一代表帧图片确定的多张第二代表帧图片，包括：基于所述第一代表帧图片，将人脸面积为所述第一代表帧图片中人脸面积的第一预设倍数的视频帧画面作为所述第二代表帧图片；

获取所述第一代表帧图片的特征向量和各所述第二代表帧图片的特征向量，并基于所述第一代表帧图片的特征向量和各所述第二代表帧图片的特征向量确定所述视频片段的特征向量；

分别获取所述视频片段与其他各视频片段之间的特征向量距离，并基于各所述特征向量距离，得到所述视频片段的综合特征向量距离；

于所述视频片段中选取第一数量个数的候选视频片段构成视频片段候选集，其中，任一所述候选视频片段的综合特征向量距离大于任一其他视频片段的综合特征向量距离，或

于所述视频片段中选取候选视频片段构成视频片段候选集，其中，任一所述候选视频片段的综合特征向量距离大于预设阈值；

基于视频质量检测算法，计算所述视频片段候选集中的所述候选视频片段的视频质量，并将所述视频质量最高的候选视频片段作为目标视频片段存入目标库。

2.根据权利要求1所述的视频抽选方法，其特征在于，所述视频抽选方法还包括：

判断所述目标库中存储的目标视频片段的数量是否超过数量阈值；

若所述目标库中存储的目标视频片段的数量未超过数量阈值，则基于所述视频集中剩余的视频片段，选取得到目标视频片段存入目标库。

3.根据权利要求2所述的视频抽选方法，其特征在于，所述基于所述视频集中剩余的视频片段，选取得到目标视频片段存入目标库，包括：

分别获取所述视频集中剩余的视频片段与所述目标库中存储的各目标视频片段之间的特征向量距离，并基于所述视频集中剩余的视频片段与所述目标库存储的各目标视频片段之间的特征向量距离，得到所述视频集中剩余的视频片段的综合特征向量距离；

于所述视频集中剩余的视频片段中选取第一数量个数的候选视频片段构成视频片段候选集，其中，任一所述候选视频片段的综合特征向量距离大于任一其他视频片段的综合特征向量距离，或

于所述视频集中剩余的视频片段中选取候选视频片段构成视频片段候选集，其中，任一所述候选视频片段的综合特征向量距离大于预设阈值；

4.根据权利要求1所述的视频抽选方法，其特征在于，所述第二代表帧图片通过以下方式确定：

所述第二代表帧图片中人脸的高度为所述第一代表帧图片中人脸的高度的0.6-0.8倍、所述第二代表帧图片中人脸的宽度为所述第一代表帧图片中人脸的宽度的0.9-1.1倍，或者

所述第二代表帧图片中人脸的高度为所述第一代表帧图片中人脸的高度的0.9-1.1倍、所述第二代表帧图片中人脸的宽度为所述第一代表帧图片中人脸的宽度的0.6-0.8倍。

5.根据权利要求1所述的视频抽选方法，其特征在于，所述基于所述第一代表帧图片的特征向量和各所述第二代表帧图片的特征向量确定所述视频片段的特征向量包括：

将所述第一代表帧图片的特征向量和各所述第二代表帧图片的特征向量的加权平均值作为所述视频片段的特征向量，其中，所述第一代表帧图片的特征向量的权重大于所述第二代表帧图片的特征向量的权重。

6.根据权利要求5所述的视频抽选方法，其特征在于，

所述第一代表帧图片的特征向量的权重与所述第二代表帧图片的特征向量的权重的比例关系和所述第一代表帧图片中人脸面积与所述第二代表帧图片中人脸面积的比例关系相对应。

7.根据权利要求1所述的视频抽选方法，其特征在于，所述基于各所述特征向量距离，得到所述视频片段的综合特征向量距离包括：

将所述特征向量距离的平均值，作为所述视频片段的综合特征向量距离。

8.根据权利要求1所述的视频抽选方法，其特征在于，

所述第一数量基于所述视频集中的视频片段的数量和所述目标库中可存储的目标视频片段的数量而确定。

9.根据权利要求1所述的视频抽选方法，其特征在于，所述视频抽选方法还包括：

保存所述视频片段候选集中候选视频片段的综合特征向量距离，以及所述候选视频片段的视频质量。

10.根据权利要求1所述的视频抽选方法，其特征在于，在所述基于所述视频片段，得到所述视频片段的第一代表帧图片，以及根据所述第一代表帧图片确定的多张第二代表帧图片之前，所述视频抽选方法还包括：

基于视频质量检测算法，计算并获取所述视频片段的视频质量；

若所述视频片段的视频质量未超过视频质量阈值，则终止对所述视频片段进行抽选。

11.一种视频抽选装置，其特征在于，所述视频抽选装置包括：

获取视频集模块，用于获取视频集，所述视频集包括多个视频片段，所述视频片段中包括目标人物；

提取代表帧图片模块，用于基于所述视频片段，得到所述视频片段的第一代表帧图片，以及根据所述第一代表帧图片确定的多张第二代表帧图片；

获取特征向量模块，用于获取所述第一代表帧图片的特征向量和各所述第二代表帧图片的特征向量，并基于所述第一代表帧图片的特征向量和各所述第二代表帧图片的特征向量确定所述视频片段的特征向量；

获取综合特征向量模块，用于分别获取所述视频片段与其他各视频片段之间的特征向量距离，并基于各所述特征向量距离，得到所述视频片段的综合特征向量距离；

获取视频片段候选集模块，用于于所述视频片段中选取第一数量个数的候选视频片段构成视频片段候选集，其中，任一所述候选视频片段的综合特征向量距离大于任一其他视频片段的综合特征向量距离，或

处理模块，用于基于视频质量检测算法，计算所述视频片段候选集中的所述候选视频片段的视频质量，并将所述视频质量最高的候选视频片段作为目标视频片段存入目标库。

12.根据权利要求11所述的视频抽选装置，其特征在于，所述处理模块还用于：

13.根据权利要求12所述的视频抽选装置，其特征在于，所述处理模块用于：

14.根据权利要求11所述的视频抽选装置，其特征在于，所述第二代表帧图片通过以下方式确定：

15.根据权利要求11所述的视频抽选装置，其特征在于，所述获取特征向量模块用于：

16.根据权利要求15所述的视频抽选装置，其特征在于，

17.根据权利要求11所述的视频抽选装置，其特征在于，所述获取综合特征向量模块用于：

18.根据权利要求11所述的视频抽选装置，其特征在于，

19.根据权利要求11所述的视频抽选装置，其特征在于，所述处理模块还用于：

20.根据权利要求11所述的视频抽选装置，其特征在于，所述获取视频集模块还用于：

21.一种视频抽选装置，其中，所述视频抽选装置包括：

存储器，用于存储指令；以及

处理器，用于调用所述存储器存储的指令执行权利要求1-10中任意一项所述的视频抽选方法。

22.一种计算机可读存储介质，其中，

所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在由处理器执行时，执行权利要求1-10中任意一项所述的视频抽选方法。