CN112069357A

CN112069357A - 视频资源处理方法、装置、电子设备及存储介质

Info

Publication number: CN112069357A
Application number: CN202010747558.1A
Authority: CN
Inventors: 乔志强
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-07-29
Filing date: 2020-07-29
Publication date: 2020-12-11
Anticipated expiration: 2040-07-29
Also published as: CN112069357B

Abstract

本发明实施例提供了一种视频资源处理方法、装置、电子设备及存储介质，方法包括：对视频资源包括的视频帧图像进行镜头分析，获得至少一个第一镜头片段，其中，每个所述第一镜头片段包括一个镜头片段，对第一镜头片段中的人物进行检测，获得包括主要人物的第一目标镜头片段，根据标签信息和第一目标镜头片段的属性信息，确定第一目标镜头片段的基本信息，存储基本信息和第一目标镜头片段，并建立第一目标镜头片段与基本信息之间的关联关系。从而在一定程度上实现对视频资源进行精细化分析归类和管理，并且通过建立第一目标镜头片段和基本信息之间的关联关系，可以提高视频片段的检索速度和精确性。

Description

视频资源处理方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机技术领域，特别是涉及一种视频资源处理方法、装置、电子设备及存储介质。

背景技术

随着互联网的快速发展，互联网公司可以为用户提供海量的视频资源，用户可以从海量的视频资源中获取自己需要的视频片段。

由于存在海量的视频资源，视频资源包括长视频和视频片段，用户可能需要观看很多视频，才能从海量的视频资源中获取自己需要的视频片段，非常费时费力。并且，目前的绝大多数视频片段中包含多个镜头片段，对于短视频制作者而言，找到视频片段后，仍需对找到的视频片段进行剪辑，保留自己感兴趣的镜头片段。因此，如何对视频资源进行进行分析归类，实现对镜头片段的精细化管理，以提高视频片段的检索速度和精确性亟待解决。

发明内容

本发明实施例的目的在于提供一种视频资源处理方法、装置、电子设备及存储介质，以解决现有技术中无法实现对镜头片段进行精细化管理，以及镜头片段检索速度和精确性较低的问题。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种视频资源处理方法，执行于服务器，包括：

对视频资源包括的视频帧图像进行镜头分析，获得至少一个第一镜头片段，其中，每个所述第一镜头片段包括一个镜头片段；

对所述第一镜头片段中的人物进行检测，获得包括主要人物的第一目标镜头片段；

根据所述主要人物的标签信息和所述第一目标镜头片段的属性信息，确定所述第一目标镜头片段的基本信息；

存储所述基本信息和所述第一目标镜头片段，并建立所述第一目标镜头片段与所述基本信息之间的关联关系。

在本发明实施的第二方面，还提供了一种视频资源处理装置，设置于服务器，包括：

第一获得模块，用于对视频资源包括的视频帧图像进行镜头分析，获得至少一个第一镜头片段，其中，每个所述第一镜头片段包括一个镜头片段；

第二获得模块，用于对所述第一镜头片段中的人物进行检测，获得包括主要人物的第一目标镜头片段；

第一确定模块，用于根据所述标签信息和所述第一目标镜头片段的属性信息，确定所述第一目标镜头片段的基本信息；

存储模块，用于存储所述基本信息和所述第一目标镜头片段，并建立所述第一目标镜头片段与所述基本信息之间的关联关系。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的视频资源处理方法。

在本发明实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的视频资源处理方法。

本发明实施例提供的视频资源处理方法，通过对视频资源包括的视频帧图像进行镜头分析，获得至少一个第一镜头片段，其中，每个所述第一镜头片段包括一个镜头片段，对第一镜头片段中的人物进行检测，获得包括主要人物的第一目标镜头片段，并根据标签信息和第一目标镜头片段的属性信息，确定第一目标镜头片段的基本信息，存储基本信息和第一目标镜头片段，并建立第一目标镜头片段与基本信息之间的关联关系。由于获得的第一镜头片段中仅包括一个镜头片段，从而保障第一目标镜头片段中也包括一个镜头片段，在一定程度上实现对视频资源进行精细化分析归类和管理。并且通过对第一目标镜头片段中的主要人物进行识别，获得主要人物的标签信息，并且根据标签信息和第一目标镜头片段的属性信息，确定第一目标镜头片段的基本信息，并建立第一目标镜头片段和基本信息之间的关联关系，因此，当用户需要查询自己需要的镜头片段时，用户可以输入基本信息中的部分信息，即可以根据用户输入的部分信息以及关联关系查询到用户感兴趣的第一目标镜头片段，也即无需用户观看很多视频以及对视频片段进行剪辑，即可查询到用户感兴趣的镜头片段，且查询到的镜头片段为包括一个镜头的镜头片段，从而提高了视频片段的检索速度和精确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例中提供的一种视频资源处理方法的步骤流程图；

图2为本发明实施例中提供的另一种视频资源处理方法的步骤流程图；

图3为本发明实施例中提供的又一种视频资源处理方法的步骤流程图；

图4为本发明实施例中提供的一种视频资源处理装置的结构示意图；

图5为本发明实施例中提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

参照图1，图1为本发明实施例中提供的一种视频资源处理方法的步骤流程图。该方法执行于服务器，该方法包括如下步骤：

步骤101、对视频资源包括的视频帧图像进行镜头分析，获得至少一个第一镜头片段，其中，每个第一镜头片段包括一个镜头片段。

可以先对视频资源进行解帧，获得视频资源包括的视频帧图像，之后对视频资源包括的视频帧图像进行镜头分析，例如基于直方图对视频资源进行镜头分析。载入视频帧图像，将载入的视频帧图像作为当前视频帧图像。若当前视频帧图像的尺寸和预设尺寸不同，则将当前视频帧图像的尺寸变换为预设尺寸。若当前视频帧图像的尺寸与预设尺寸相同，则不用变换。

之后判断当前视频帧图像的类型，类型可以为RGB色彩模式，即红色(R)、绿色(G)、蓝色(B)三种颜色，或者类型为HSV颜色模式，HSV颜色模式即色调(H)、饱和度(S)、明度(V)。如果当前视频帧图像为RGB彩色图像，可以将当前视频帧图像从RGB转换到HSV，然后再计算当前视频帧图像对应的直方图；如果当前视频帧图像为灰度图，则可以直接计算当前视频帧图像对应的直方图。基于当前视频帧图像对应的直方图和历史视频帧图像对应的直方图，可以计算当前视频帧图像和历史视频帧图像的距离，该历史视频帧图像为与当前视频帧图像相邻的前一帧图像。如果该距离小于或等于预设阈值，则将当前视频帧图像归为上一个镜头片段，如果该距离大于预设阈值，则将当前视频帧图像归为下一个镜头片段，其中，上一个镜头片段指该历史视频帧图像所属的片段。

例如使用的距离公式如下：

其中,hist_dist表示计算出来的两张图像的距离，也即直方图相似度，hist₁表示历史视频帧图像的直方图矩阵，hist₂表示当前视频帧图像的直方图矩阵,历史视频帧图像为与当前视频帧图像相邻的前一帧图像。

基于上述的直方图分析方法，可以实现将视频资源中包括的视频帧图像进行镜头切隔，获得的每个镜头片段中包括一个镜头片段。

步骤102、对第一镜头片段中的人物进行检测，获得包括主要人物的第一目标镜头片段。

可以通过模型对第一镜头片段中的人物进行检测，识别出该人物是否为指定人物集中的任意一个指定人物(例如通过人脸检测模型检测第一镜头片段包括的图像中的人物的人脸位置，将人脸位置输入到人脸识别模型，通过人脸识别模型识别出该人物是谁，从而可以判断出该人物是否为指定人物集中的任意一个指定人物)，如果第一镜头片段包括一个指定人物，则可以判断该指定人物在第一镜头片段中出现的次数，也即出现的次数等于该第一镜头片段中的视频帧图像中包括该指定人物的帧图像的帧数目，如果帧数目超过第一镜头片段中的视频帧图像的总帧数的90％，可以将该指定人物作为主要人物，将该第一镜头片段作为第一目标镜头片段。或者，计算该第一镜头片段中的指定人物的人脸位置位于视频帧图像的中间位置的图像帧数目1(可以通过人脸检测模型检测人脸位置，根据检测出的人脸位置，判断该人脸位置是否在视频帧图像的中间位置。例如将视频帧图像上的预设区域作为中间区域，中间区域为视频帧图像的区域中除边界区域之外的剩余区域，边界区域为距离视频帧图像的四周边界为预设尺寸的区域，若人脸位置位于预设区域，则可以确定指定人物的人脸位置位于视频帧图像的中间位置)，以及计算指定人物的人脸尺寸大于等于预设尺寸的视频帧图像的图像帧数目2，如果图像帧数目1与第一镜头片段中的视频帧图像的总帧数的比值大于等于预设阈值1，且图像帧数目2与第一镜头片段中的视频帧图像的总帧数的比值大于等于预设阈值2，则将该指定人作为主要人物，将该第一镜头片段作为第一目标镜头片段，也即该第一目标镜头片段中包括一个指定人物，且该指定人物为主要人物。其中，预设阈值1等于预设阈值2或者预设阈值1不等于预设阈值2。

步骤103、根据主要人物的标签信息和第一目标镜头片段的属性信息，确定第一目标镜头片段的基本信息。

可以通过人脸识别模型识别主要人物的人物表情(人物表情例如包括哭、笑等表情)、人物颜值(人物颜值用于衡量人物的漂亮程度)、人脸角度(人脸角度用于表示人脸向上、下、左、右等方向偏转)、人脸清晰度、人脸动作(人脸动作指人物眨眼、睁大眼睛、皱眉、翻白眼等微表情动作)、主要人物所处的环境、服饰颜色、服饰类别中的至少一种，得到标签信息，标签信息包括主要人物的人物表情、人物颜值、人物角度、人脸清晰度、人脸动作、主要人物所处的环境、服饰颜色、服饰类别中的至少一种。属性信息包括第一目标镜头片段所属的专辑标识、剧集标识、开始帧标识、结束帧标识、主要人物的人物标识、人物名称。基本信息中包括标签信息和属性信息。其中，可以根据视频资源的标识，从存储有该视频资源对应的属性文件的其他服务器上下载该属性文件，属性文件中包括该视频资源中的每帧图像的帧号、图像所属的专辑标识、剧集标识、主要人物标识、人物名称，从其他服务器获取到属性文件后，即可以根据属性文件获得第一目标镜头片段的属性信息。

步骤104、存储基本信息和第一目标镜头片段，并建立第一目标镜头片段与基本信息之间的关联关系。

存储基本信息和第一目标镜头片段，并建立第一目标镜头片段与基本信息之间的关联关系，当用户需要查询自己需要的镜头片段时，用户可以输入基本信息中的部分信息(部分信息例如包括专辑标识、剧集标识、人物名称等，用户输入的部分信息为用户感兴趣的信息)，即可以根据用户输入的部分信息以及关联关系查询到用户感兴趣的第一目标镜头片段，即可以查询到符合用户输入的部分信息的第一目标镜头片段。

本实施例提供的视频资源处理方法，通过对视频资源包括的视频帧图像进行镜头分析，获得至少一个第一镜头片段，其中，每个第一镜头片段包括一个镜头片段，对第一镜头片段中的人物进行检测，获得包括主要人物的第一目标镜头片段，根据标签信息和第一目标镜头片段的属性信息，确定第一目标镜头片段的基本信息，存储基本信息和第一目标镜头片段，并建立第一目标镜头片段与基本信息之间的关联关系。由于获得的第一镜头片段中仅包括一个镜头片段，从而保障第一目标镜头片段中也包括一个镜头片段，在一定程度上实现对视频资源进行精细化分析归类和管理。并且根据标签信息和第一目标镜头片段的属性信息，确定第一目标镜头片段的基本信息，并建立第一目标镜头片段和基本信息之间的关联关系，因此，当用户需要查询自己需要的镜头片段时，用户可以输入基本信息中的部分信息，即可以根据用户输入的部分信息以及关联关系查询到用户感兴趣的第一目标镜头片段，也即无需用户观看很多视频以及对视频片段进行剪辑，即可查询到用户感兴趣的镜头片段，且查询到的镜头片段为包括一个镜头的镜头片段，从而提高了视频片段的检索速度和精确性。

参照图2，图2为本发明实施例中提供的另一种视频资源处理方法的步骤流程图。该方法包括如下步骤：

步骤201、对视频资源包括的视频帧图像进行镜头分析，获得至少一个第一镜头片段，其中，每个第一镜头片段包括一个镜头片段。

步骤202、对第一镜头片段中的人物进行检测，获得第二目标镜头片段，其中，第二目标镜头片段为第一镜头片段中至少包括指定人物集中的任意一个指定人物的片段。

第二目标镜头片段中可以包括任意一个指定人物，或者，包括指定人物集中的多个指定人物。

步骤203、根据第二目标镜头片段包括的每个指定人物的人脸尺寸和/或人脸位置，判断每个指定人物是否为主要人物。

其中，根据第二目标镜头片段包括的每个指定人物的人脸尺寸和/或人脸位置，判断每个指定人物是否为主要人物可以通过如下步骤实现：

根据第二目标镜头片段中每个指定人物的人脸尺寸，计算第一帧数目，其中，第一帧数目等于第二目标镜头片段中每个指定人物的人脸尺寸大于等于预设尺寸的图像帧数目；和/或，根据第二目标镜头片段中每个指定人物的人脸位置，计算第二帧数目，第二帧数目等于第二目标镜头片段中每个指定人物的人脸位置位于与指定人物对应的预设区域的图像帧数目；

根据第一帧数目和/或第二帧数目，判断每个指定人物是否为主要人物。

需要说明的是，可以以第二目标镜头片段中的视频帧图像的高度的30％作为预设尺寸，或者以第二目标镜头片段中的视频帧图像的宽度的20％作为预设尺寸。当以第二目标镜头片段中的视频帧图像的高度的30％作为预设尺寸的情况下，指定人物的人脸尺寸指指定人物的人脸的高度的大小。当以第二目标镜头片段中的视频帧图像的宽度的20％作为预设尺寸时，指定人物的人脸尺寸指指定人物的人脸的宽度的大小。

其中，根据第一帧数目和/或第二帧数目，判断每个指定人物是否为主要人物可以通过如下方式实现：

计算第一帧数目与第三帧数目的第一比值，其中，第三帧数目等于第二目标镜头片段中的视频帧图像的总帧数；和/或，计算第二帧数目与第三帧数目的第二比值；

根据第一比值和/或第二比值，判断每个指定人物是否为主要人物。

其中，根据第一比值和/或第二比值，判断每个指定人物是否为主要人物，例如，若第二目标镜头片段中包括指定人物1和指定人物2，指定人物1对应的第一比值大于等于第一预设阈值和/或指定人物1对应的第二比值大于等于第二预设阈值的情况下，将指定人物1作为主要人物。指定人物2对应的第一比值大于等于第一预设阈值和/或指定人物2对应的第二比值大于等于第二预设阈值的情况下，将指定人物2作为主要人物。

为更清楚的介绍如何判断指定人物是否为主要人物，在此进行详细介绍：如果第二目标镜头片段包括两个指定人物，可以根据该两个指定人物的人脸尺寸和/或人脸位置，判断两个指定人物是否为主要人物。以第一指定人物为人物1、第二指定人物为人物2为例，第二目标镜头片段中共包括100帧图像，该100帧图像中有95帧图像同时包括人物1和人物2(即人物1对应的第一帧数目1等于人物2对应的第一帧数目2，且第一帧数目1和第一帧数目2均等于95)、且该95帧图像中的人物1的人脸尺寸和人物2的人脸尺寸大于某个预设尺寸、且人物1的人脸位置和人物2的人脸位置都位于某两个预设区域(即人物1对应的第二帧数目1等于人物2对应的第二帧数目2，且第二帧数目1和第二帧数目2均等于95)，例如，两个预设区域位于视频帧图像的中心区域的左侧和右侧(例如左侧为与人物1对应的预设区域，右侧为与人物2对应的预设区域)，若第一预设阈值等于第二预设阈值且均等于0.8，则由于人物1和人物2对应的第一比值均等于0.95大于0.8、且第二比值均等于0.95大于0.8，则将人物1和人物2均作为主要人物，也即该第二目标镜头片段中包括两个主要人物。

步骤204、若至少一个指定人物为主要人物，则将第二目标镜头片段作为第一目标镜头片段。

其中，在步骤将第二目标镜头片段作为第一目标镜头片段之前，还可以包括如下步骤：

判断第二目标镜头片段是否包括目标子片段，其中，目标子片段为包括除指定人物集中的指定人物之外的其他人物的片段；

相应的，步骤204、若至少一个指定人物为主要人物，则将第二目标镜头片段作为第一目标镜头片段可以通过如下方式实现：

若至少一个指定人物为主要人物、且第二目标镜头片段中包括目标子片段，则去除第二目标镜头片段中的所述目标子片段，以得到第一目标镜头片段。

例如，如果第二目标镜头片段包括一个指定人物，且该指定人物为主要人物，第二目标镜头片段中包括时间长度为4秒内的120帧视频帧图像，每秒传输帧数(FPS，FramesPer Second)为30,第1.5秒至2秒之间的15帧视频帧图像中包括其他人物(即第1.5秒至2秒之间的视频帧图像组成的片段为目标子片段)，则舍弃第二目标镜头片段中的第1.5秒至2秒之间的15帧视频帧图像，该15帧视频帧图像组成目标子片段。在第二目标镜头片段中包括目标子片段的情况下，需要去除第二目标镜头片段中的目标子片段，仅保留第二目标镜头片段中除目标子片段之外的剩余子片段，将剩余子片段作为第一目标镜头片段。去除该目标子片段后，由于目标子片段的开始帧号为46，结束帧号为60，则剩余子片段包括第1帧至第45帧图像组成的子片段1，以及第61帧至120帧图像组成的子片段2，也即得到的第一目标镜头片段包括子片段1和子片段2。其中，子片段1为0秒至1.5秒之间的视频帧图像组成的子片段，子片段2为第2秒至至第4秒之间的视频帧图像组成的子片段2，子片段1和子片段2均为去除第二目标镜头片段中的目标子片段之外得到的第一目标镜头片段。

通过在第二目标镜头片段中包括目标子片段的情况下，去除目标子片段，从而使获得的第一目标镜头片段中的视频帧图像中不包括其他人物，即不包括除指定人物之外的人物。

可选的，若至少一个指定人物为主要人物、且第二目标镜头片段中未包括目标子片段，则将第二目标镜头片段作为第一目标镜头片段。

步骤205、识别第一目标镜头片段中包括的视频帧图像，以获得主要人物的标签信息。

其中，标签信息包括主要人物的人物表情、人物颜值、人物角度、人脸清晰度、人脸动作、主要人物所处的环境、主要人物的服饰颜色和服饰类别中的至少一种。

步骤206、根据主要人物的标签信息和第一目标镜头片段的属性信息，确定第一目标镜头片段的基本信息。

需要说明的是，如果第一目标镜头片段中包括多个指定人物，需要识别第一目标镜头片段中的多个指定人物(例如人物1和人物2)，以获得每个主要人物的标签信息，主要人物包括人物1和人物2，也即分别得到两个人物的标签信息，并根据两个人物的标签信息和第一目标镜头片段的属性信息，确定第一目标镜头片段的基本信息。在用户需要检索同时包括多个指定人物的镜头片段的情况下，可以输入专辑名称、剧集名称、多个指定人物名称等基本信息即可以检索到满足用户需求的镜头片段，例如同时输入人物1的名称和人物2的名称、专辑名称A、剧集名称B，则可以检索到专辑名称A的剧集B的包括人物1和人物2的镜头片段。

步骤207、存储基本信息和第一目标镜头片段，并建立第一目标镜头片段与基本信息之间的关联关系。

本实施例提供的视频资源处理方法，通过根据第二目标镜头片段包括的每个指定人物的人脸尺寸和/或人脸位置，判断每个指定人物是否为主要人物，若至少一个指定人物为主要人物，则将第二目标镜头片段作为第一目标镜头片段，使获得的第一目标镜头片段为包括一个主要人物或多个主要人物的一个镜头片段，实现对视频资源进行精细化分析归类和管理。

可选的，在步骤207之后，还可以包括如下步骤：

接收终端设备发送的查询请求，其中，查询请求包括查询信息，查询信息包括标签信息中的至少一个信息和/或属性信息中的至少一个信息；

响应查询请求，从服务器存储的所有基本信息中确定目标基本信息，其中，目标基本信息中包括查询信息；

根据关联关系，获取目标基本信息对应的第一目标镜头片段，并向终端设备发送目标基本信息对应的第一目标镜头片段，以使终端设备播放目标基本信息对应的第一目标镜头片段。

由于对视频资源进行了精细化归类，用户在进行素材检索的时候(即检索满足用户需求的镜头片段时)，用户可以在终端设备输入人物标识，专辑标识或者剧集标识检索素材，并且可以输入人物的标签信息筛选素材。例如服务器存储的基本信息包括基本信息1、基本信息2、……、基本信息N，用户在终端设备输入专辑名称A和剧集名B，若基本信息1、基本信息2中均包括专辑名称A和剧集名B，则基本信息1、基本信息2均为目标基本信息，并根据基本信息与第一目标镜头片段的关联关系，获取基本信息1对应的第一目标镜头片段1和基本信息2对应的第一目标镜头片段2，并向终端设备发送第一目标镜头片段1和第一目标镜头片段2。其中，可以将第一目标镜头片段上传至云服务器，由云服务器存储第一目标镜头片段，此种情况下，服务器确定目标基本信息后，可以从云服务器下载目标基本信息对应的第一目标镜头片段。终端设备接收到服务器发送的第一目标镜头片段1和第一目标镜头片段2后，可以播放第一目标镜头片段1和第一目标镜头片段2。

需要说明的是，可以通过唯一标识一个第一目标镜头片段的信息摘要算法(MD5，Message-DigestAlgorithm 5)值建立第一目标镜头片段与基本信息的关联关系。基本信息中可以包括该基本信息对应的第一目标镜头片段的MD5值，从而使目标基本信息确定后，可以根据目标基本信息中的MD5值，获取该MD5值对应的第一目标镜头片段，从而可以提高第一目标镜头片段的检索速度。

参照图3，图3为本发明实施例中提供的一种视频资源处理装置的结构示意图。该装置300设置于服务器，包括：

第一获得模块310，用于对视频资源包括的视频帧图像进行镜头分析，获得至少一个第一镜头片段，其中，每个所述第一镜头片段包括一个镜头片段；

第二获得模块320，用于对所述第一镜头片段中的人物进行检测，获得包括主要人物的第一目标镜头片段；

第一确定模块330，用于根据所述主要人物的标签信息和所述第一目标镜头片段的属性信息，确定所述第一目标镜头片段的基本信息；

存储模块340，用于存储所述基本信息和所述第一目标镜头片段，并建立所述第一目标镜头片段与所述基本信息之间的关联关系。

本实施例提供的视频资源处理装置，通过对视频资源包括的视频帧图像进行镜头分析，获得至少一个第一镜头片段，其中，每个所述第一镜头片段包括一个镜头片段，对第一镜头片段中的人物进行检测，获得包括主要人物的第一目标镜头片段，根据标签信息和第一目标镜头片段的属性信息，确定第一目标镜头片段的基本信息，存储基本信息和第一目标镜头片段，并建立第一目标镜头片段与基本信息之间的关联关系。由于获得的第一镜头片段中仅包括一个镜头片段，从而保障第一目标镜头片段中也包括一个镜头片段，在一定程度上实现对视频资源进行精细化分析归类和管理。并且根据标签信息和第一目标镜头片段的属性信息，确定第一目标镜头片段的基本信息，并建立第一目标镜头片段和基本信息之间的关联关系，因此，当用户需要查询自己需要的镜头片段时，用户可以输入基本信息中的部分信息，即可以根据用户输入的部分信息以及关联关系查询到用户感兴趣的第一目标镜头片段，也即无需用户观看很多视频以及对视频片段进行剪辑，即可查询到用户感兴趣的镜头片段，且查询到的镜头片段为包括一个镜头的镜头片段，从而提高了视频片段的检索速度和精确性。

可选的，参照图4，图4为本发明实施例中提供的另一种视频资源处理装置的结构示意图，该装置400中的所述第二获得模块320，包括：

获得子模块3201，用于对所述第一镜头片段中的人物进行检测，获得第二目标镜头片段，其中，所述第二目标镜头片段为所述第一镜头片段中至少包括指定人物集中的任意一个指定人物的片段；

第一判断子模块3202，用于根据所述第二目标镜头片段包括的每个所述指定人物的人脸尺寸和/或人脸位置，判断每个所述指定人物是否为所述主要人物；

确定子模块3203，用于若至少一个所述指定人物为所述主要人物，则将所述第二目标镜头片段作为所述第一目标镜头片段。

可选的，所述第一判断子模块3202，包括：

计算单元32021，用于根据所述第二目标镜头片段中每个所述指定人物的人脸尺寸，计算第一帧数目，其中，所述第一帧数目等于所述第二目标镜头片段中每个所述指定人物的人脸尺寸大于等于预设尺寸的图像帧数目；和/或，根据所述第二目标镜头片段中每个所述指定人物的人脸位置，计算第二帧数目，所述第二帧数目等于所述第二目标镜头片段中每个所述指定人物的人脸位置位于与所述指定人物对应的预设区域的图像帧数目；

判断单元32022，用于根据所述第一帧数目和/或所述第二帧数目，判断每个所述指定人物是否为所述主要人物。

可选的，所述判断单元32022，具体用于计算所述第一帧数目与第三帧数目的第一比值；和/或，计算所述第二帧数目与所述第三帧数目的第二比值；其中，所述第三帧数目等于所述第二目标镜头片段中的视频帧图像的总帧数；根据所述第一比值和/或所述第二比值，判断每个所述指定人物是否为所述主要人物。

可选的，所述第二获得模块320，还包括：

第二判断子模块3204，用于判断所述第二目标镜头片段是否包括目标子片段，其中，所述目标子片段为包括除所述指定人物集中的指定人物之外的其他人物的片段；

所述确定子模块3203，具体用于若至少一个所述指定人物为所述主要人物、且所述第二目标镜头片段中包括所述目标子片段，则去除所述第二目标镜头片段中的所述目标子片段，以得到所述第一目标镜头片段。

可选的，所述确定子模块3203，还用于若至少一个所述指定人物为所述主要人物、且所述第二目标镜头片段中未包括所述目标子片段，则将所述第二目标镜头片段作为所述第一目标镜头片段。

可选的，还包括：

识别模块410，用于识别所述第一目标镜头片段中包括的视频帧图像，以获得所述主要人物的标签信息，其中，所述标签信息包括所述主要人物的人物表情、人物颜值、人物角度、人脸清晰度、人脸动作、所述主要人物所处的环境、所述主要人物的服饰颜色和服饰类别中的至少一种。

可选的，还包括：

接收模块420，用于接收终端设备发送的查询请求，其中，所述查询请求包括查询信息，所述查询信息包括所述标签信息中的至少一个信息和/或所述属性信息中的至少一个信息；

第二确定模块430，用于响应所述查询请求，从所述服务器存储的所有基本信息中确定目标基本信息，其中，所述目标基本信息中包括所述查询信息；

获取模块440，用于根据所述关联关系，获取所述目标基本信息对应的第一目标镜头片段，并向所述终端设备发送所述目标基本信息对应的第一目标镜头片段，以使所述终端设备播放所述目标基本信息对应的第一目标镜头片段。

本发明实施例还提供了一种电子设备，如图5所示，图5为本发明实施例中提供的另一种电子设备的结构示意图。包括处理器501、通信接口502、存储器503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信，

存储器503，用于存放计算机程序；

处理器501，用于执行存储器503上所存放的程序时，实现如下步骤：

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的视频资源处理方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的视频资源处理方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种视频资源处理方法，其特征在于，执行于服务器，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述第一镜头片段中的人物进行检测，获得包括主要人物的第一目标镜头片段，包括：

对所述第一镜头片段中的人物进行检测，获得第二目标镜头片段，其中，所述第二目标镜头片段为所述第一镜头片段中至少包括指定人物集中的任意一个指定人物的片段；

根据所述第二目标镜头片段包括的每个所述指定人物的人脸尺寸和/或人脸位置，判断每个所述指定人物是否为所述主要人物；

若至少一个所述指定人物为所述主要人物，则将所述第二目标镜头片段作为所述第一目标镜头片段。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第二目标镜头片段包括的每个所述指定人物的人脸尺寸和/或人脸位置，判断每个所述指定人物是否为所述主要人物，包括：

根据所述第二目标镜头片段中每个所述指定人物的人脸尺寸，计算第一帧数目，其中，所述第一帧数目等于所述第二目标镜头片段中每个所述指定人物的人脸尺寸大于等于预设尺寸的图像帧数目；和/或，根据所述第二目标镜头片段中每个所述指定人物的人脸位置，计算第二帧数目，所述第二帧数目等于所述第二目标镜头片段中每个所述指定人物的人脸位置位于与所述指定人物对应的预设区域的图像帧数目；

根据所述第一帧数目和/或所述第二帧数目，判断每个所述指定人物是否为所述主要人物。

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一帧数目和/或所述第二帧数目，判断每个所述指定人物是否为所述主要人物，包括：

计算所述第一帧数目与第三帧数目的第一比值；和/或，计算所述第二帧数目与所述第三帧数目的第二比值；其中，所述第三帧数目等于所述第二目标镜头片段中的视频帧图像的总帧数；

根据所述第一比值和/或所述第二比值，判断每个所述指定人物是否为所述主要人物。

5.根据权利要求2所述的方法，其特征在于，在所述将所述第二目标镜头片段作为所述第一目标镜头片段之前，还包括：

判断所述第二目标镜头片段是否包括目标子片段，其中，所述目标子片段为包括除所述指定人物集中的指定人物之外的其他人物的片段；

所述若至少一个所述指定人物为所述主要人物，则将所述第二目标镜头片段作为所述第一目标镜头片段，包括：

若至少一个所述指定人物为所述主要人物、且所述第二目标镜头片段中包括所述目标子片段，则去除所述第二目标镜头片段中的所述目标子片段，以得到所述第一目标镜头片段。

6.根据权利要求5所述的方法，其特征在于，还包括：

若至少一个所述指定人物为所述主要人物、且所述第二目标镜头片段中未包括所述目标子片段，则将所述第二目标镜头片段作为所述第一目标镜头片段。

7.根据权利要求1所述的方法，其特征在于，在所述根据所述主要人物的标签信息和所述第一目标镜头片段的属性信息，确定所述第一目标镜头片段的基本信息之前，还包括：

识别所述第一目标镜头片段中包括的视频帧图像，以获得所述主要人物的标签信息，其中，所述标签信息包括所述主要人物的人物表情、人物颜值、人物角度、人脸清晰度、人脸动作、所述主要人物所处的环境、所述主要人物的服饰颜色和服饰类别中的至少一种。

8.根据权利要求1所述的方法，其特征在于，在所述建立所述第一目标镜头片段与所述基本信息之间的关联关系之后，还包括：

接收终端设备发送的查询请求，其中，所述查询请求包括查询信息，所述查询信息包括所述标签信息中的至少一个信息和/或所述属性信息中的至少一个信息；

响应所述查询请求，从所述服务器存储的所有基本信息中确定目标基本信息，其中，所述目标基本信息中包括所述查询信息；

根据所述关联关系，获取所述目标基本信息对应的第一目标镜头片段，并向所述终端设备发送所述目标基本信息对应的第一目标镜头片段，以使所述终端设备播放所述目标基本信息对应的第一目标镜头片段。

9.一种视频资源处理装置，其特征在于，设置于服务器，包括：

第一确定模块，用于根据所述主要人物的标签信息和所述第一目标镜头片段的属性信息，确定所述第一目标镜头片段的基本信息；

10.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-8任一所述的方法步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一所述的方法。