CN110287949A

CN110287949A - 视频片段提取方法、装置、设备及存储介质

Info

Publication number: CN110287949A
Application number: CN201910695648.8A
Authority: CN
Inventors: 杨跃; 董治; 李深远
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2019-07-30
Filing date: 2019-07-30
Publication date: 2019-09-27
Anticipated expiration: 2039-07-30
Also published as: CN110287949B; US20220277566A1; WO2021017406A1

Abstract

本发明涉及一种视频片段提取方法、装置、设备及存储介质，属于多媒体技术领域。本发明提供了一种能够自动化从视频中提取出精彩片段的方法。通过将视频分割为多个片段，采用人脸检测的手段进行人脸检测，并采用字幕检测的手段，来检测出字幕上界，最终截取出的片段的人脸位置可以满足需求，且能够避开视频的字幕，展示效果好，且避免了用户的繁琐操作，提升了提取片段的效率。

Description

视频片段提取方法、装置、设备及存储介质

技术领域

本发明涉及多媒体技术领域，特别涉及一种视频片段提取方法、装置、设备及存储介质。

背景技术

随着多媒体技术的发展，视频作为一种内容丰富、趣味性强的数据形式，得到了广泛的普及和发展。由于视频的时长通常较长，经常需要从视频中提取一些比较精彩的片段，以供欣赏和传播。

在实现本发明过程中，发明人发现相关技术中，提取视频片段的过程通常依赖人工操作实现，用户会使用视频剪辑软件，以该开始剪辑的位置为起始点，以该结束剪辑的位置为结束点，提取出视频片段。

通过上述方式提取视频片段，操作较为繁琐，效率低下，并且难以从视频中提取出精彩片段。

发明内容

本发明实施例提供了一种视频片段提取方法、装置、设备及存储介质，能够解决相关技术中提取视频片段操作繁琐、效率低下，并且难以从视频中提取出精彩片段的问题。所述技术方案如下：

一方面，提供了一种视频片段提取方法，所述方法包括：

获取视频内容的边界值，所述边界值包括上边界、下边界、左边界以及右边界；

对视频进行关键帧分割，得到多个第一片段；

检测所述多个第一片段中每个第一片段的字幕上界；

检测所述多个第一片段中每个第一片段的人脸位置；

从所述多个第一片段中，选取人脸位置符合预设条件的第二片段；

根据所述第二片段的字幕上界，对所述第二片段进行截取，得到不包含字幕的第三片段。

可选地，所述检测所述多个第一片段中每个第一片段的字幕上界，包括：

对于所述多个第一片段中每个第一片段，从所述第一片段中提取多个视频帧；

将所述多个视频帧输入字幕检测模型，输出所述多个视频帧的字幕位置，所述字幕检测模型用于检测视频帧的字幕位置；

根据所述多个视频帧的字幕位置，得到所述第一片段的字幕上界。

可选地，所述从所述第一片段中提取多个视频帧，包括：

从所述视频的歌词文件中，获取所述视频中每句歌词的时间点；

从所述第一片段中，提取所述时间点对应的视频帧。

可选地，所述将所述多个视频帧输入字幕检测模型，输出所述多个视频帧的字幕位置之后，所述方法还包括：

对所述多个视频帧的字幕位置进行聚类，得到多个类；

从所述多个视频帧的字幕位置中，删除不属于任一个类的字幕位置。

可选地，所述将所述多个视频帧输入字幕检测模型，输出所述多个视频帧的字幕位置之前，所述方法还包括：

获取第一样本图片以及字符；

根据所述第一样本图片以及所述字符，生成第二样本图片，所述第二样本图片包括字幕；

采用所述第二样本图片进行模型训练，得到所述字幕检测模型。

可选地，所述从所述多个第一片段中，选取人脸位置符合预设条件的第二片段，包括下述至少一项：

根据所述第一片段的人脸位置，获取人脸位置分，根据所述人脸位置分，选取所述第二片段，所述人脸位置分表示人脸位置在视频帧的居中程度；

根据所述第一片段的人脸位置，获取人脸大小分，根据所述人脸大小分，选取所述第二片段，所述人脸大小分表示人脸大小相对于视频帧的大小的合适程度。

可选地，所述从所述多个第一片段中，选取人脸位置符合预设条件的第二片段，包括下述任一项：

根据所述人脸位置分以及所述人脸大小分，获取所述第一片段的评分，选取评分大于第一阈值的第一片段，得到所述第二片段；

选取所述人脸位置分大于第二阈值的第一片段，得到所述第二片段；

选取所述人脸大小分大于第三阈值的第一片段，得到所述第二片段。

可选地，所述对视频进行关键帧分割，得到多个第一片段，包括：

检测所述视频中的关键帧，所述关键帧为发生了镜头切换的视频帧；

以所述关键帧为分割点，对所述视频进行分割，得到所述多个第一片段。

可选地，所述检测所述视频中的关键帧，包括下述任一项：

获取所述视频的多个视频帧中每个视频帧的色彩直方图；

根据每个视频帧的色彩直方图，将所述多个视频帧划分为多个类，同一类中任两个视频帧的色彩直方图之间的差异小于预设阈值；

对于所述多个类中的每个类，选取所述类的第一帧，作为所述类对应的关键帧。

可选地，所述获取所述视频的多个视频帧中每个视频帧的色彩直方图，包括：

获取所述视频帧中第一区域的第一直方图，所述第一区域为所述视频帧处于视野中央的区域；

获取所述视频帧中第二区域的第二直方图，所述第二区域为所述视频帧处于视野边缘的区域；

根据所述第一区域的第一权重以及所述第二区域的第二权重，对所述第一直方图以及第二直方图进行加权平均，得到所述色彩直方图，所述第一权重大于第二权重。

可选地，所述对视频进行关键帧分割之前，所述方法还包括：

根据所述边界值，删除所述视频的边框。

可选地，所述获取视频内容的边界值，包括：

对于所述视频的任一视频帧，从所述视频帧的中心开始，向所述视频帧的四周遍历；

对于当前遍历的任一行，当所述行的不同像素点之间的像素差异属于预设范围时，将所述行确定为所述视频帧的内容的上边界或下边界；和/或，对于当前遍历的任一列，当所述列的不同像素点之间的像素差异属于预设范围时，将所述列确定为所述视频帧的内容的左边界或右边界。

可选地，所述获取视频内容的边界值，包括：

获取所述视频的多个视频帧的内容的边界值；

对所述多个视频帧的内容的边界值进行聚类，得到多个类；

从所述多个视频帧的内容的边界值中，删除不属于任一个类的边界。

另一方面，提供了一种视频片段提取装置，所述装置包括：

获取模块，用于获取视频内容的边界值，所述边界值包括上边界、下边界、左边界以及右边界；

分割模块，用于对视频进行关键帧分割，得到多个第一片段；

检测模块，用于检测所述多个第一片段中每个第一片段的字幕上界；

所述检测模块，用于检测所述多个第一片段中每个第一片段的人脸位置；

选取模块，用于从所述多个第一片段中，选取人脸位置符合预设条件的第二片段；

截取模块，用于根据所述第二片段的字幕上界，对所述第二片段进行截取，得到不包含字幕的第三片段。

可选地，所述检测模块，包括：

提取子模块，用于对于所述多个第一片段中每个第一片段，从所述第一片段中提取多个视频帧；

字幕检测模型，用于根据所述多个视频帧，输出所述多个视频帧的字幕位置，所述字幕检测模型用于检测视频帧的字幕位置；

确定子模块，用于根据所述多个视频帧的字幕位置，得到所述第一片段的字幕上界。

可选地，所述提取子模块，用于从所述视频的歌词文件中，获取所述视频中每句歌词的时间点；从所述第一片段中，提取所述时间点对应的视频帧。

可选地，所述装置还包括：聚类模块，用于对所述多个视频帧的字幕位置进行聚类，得到多个类；删除模块，用于从所述多个视频帧的字幕位置中，删除不属于任一个类的字幕位置。

可选地，所述获取模块，还用于获取第一样本图片以及字符；

所述装置还包括：样本生成模块，用于根据所述第一样本图片以及所述字符，生成第二样本图片，所述第二样本图片包括字幕；

模型训练模块，用于采用所述第二样本图片进行模型训练，得到所述字幕检测模型。

可选地，所述选取模块，用于执行下述至少一项：

可选地，所述选取模块，用于执行下述任一项：

可选地，所述分割模块，包括：

检测子模块，用于检测所述视频中的关键帧，所述关键帧为发生了镜头切换的视频帧；

分割子模块，用于以所述关键帧为分割点，对所述视频进行分割，得到所述多个第一片段。

可选地，所述检测子模块，用于：获取所述视频的多个视频帧中每个视频帧的色彩直方图；根据每个视频帧的色彩直方图，将所述多个视频帧划分为多个类，同一类中任两个视频帧的色彩直方图之间的差异小于预设阈值；对于所述多个类中的每个类，选取所述类的第一帧，作为所述类对应的关键帧。

可选地，所述检测子模块，用于：获取所述视频帧中第一区域的第一直方图，所述第一区域为所述视频帧处于视野中央的区域；

可选地，所述装置还包括：删除模块，用于根据所述边界值，删除所述视频的边框。

可选地，所述获取模块，具体用于对于所述视频的任一视频帧，从所述视频帧的中心开始，向所述视频帧的四周遍历；对于当前遍历的任一行，当所述行的不同像素点之间的像素差异属于预设范围时，将所述行确定为所述视频帧的内容的上边界或下边界；和/或，对于当前遍历的任一列，当所述列的不同像素点之间的像素差异属于预设范围时，将所述列确定为所述视频帧的内容的左边界或右边界。

可选地，所述获取模块，包括：

获取子模块，用于获取所述视频的多个视频帧的内容的边界值；

聚类子模块，用于对所述多个视频帧的内容的边界值进行聚类，得到多个类；

删除子模块，用于从所述多个视频帧的内容的边界值中，删除不属于任一个类的边界值。

另一方面，提供了一种计算机设备，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条指令，所述指令由所述一个或多个处理器加载并执行以实现上述视频片段提取方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现上述视频片段提取方法。

本发明实施例提供的技术方案带来的有益效果至少可以包括：

本实施例提供了一种能够自动化从视频中提取出精彩片段的方法。通过将视频分割为多个片段，采用人脸检测的手段进行人脸检测，并采用字幕检测的手段，来检测出字幕上界，最终截取出的片段的人脸位置可以满足需求，且能够避开视频的字幕，展示效果好，且避免了用户的繁琐操作，提升了提取片段的效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种视频片段提取方法的流程图；

图2是本发明实施例提供的一种删除视频的边框的示意图；

图3是本发明实施例提供的一种检测关键帧的示意图；

图4是本发明实施例提供的一种检测字幕的示意图；

图5是本发明实施例提供的一种提取精彩片段的工作流程图；

图6是本发明实施例提供的一种视频片段提取装置的结构示意图；

图7是本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

在一个示例性应用场景中，本实施例可以应用在从音乐短片(英文：music video，简称：MV)提取精彩片段的场景。MV通常具有同一时间段场景切换多、长镜头少、明星人物较多、包含纯色边框的特点，同时经常伴随字幕出现，另外在后期制作过程中经常会加入字幕。而通过执行本实施例提供的方法，可以针对各种各样的MV自动地提取出分辨率统一、无纯色边框、无字幕、人脸大小适中且位置居中的视频片段。当然，MV仅是视频的一种示例，在另一些可能的实施例中，本实施例也可以应用于对短视频、微电影等其他视频来提取片段的场景，本实施例对视频的类型不做限定。

图1是本发明实施例提供的一种视频片段提取方法的流程图。该发明实施例的执行主体为计算机设备，参见图1，该方法包括：

步骤101、计算机设备获取视频内容的边界值。

该边界值包括上边界、下边界、左边界以及右边界。其中，上边界以及下边界可以通过纵坐标表示，左边界以及右边界可以通过横坐标表示。在一些可能的实施例中，视频的内容的边界值可以采用四个边界的点坐标来表示，例如可以采用(x₁，x₂，y₁，y₂)来表示，x₁表示左边界，x₂表示右边界，y₁表示上边界,y₂表示下边界。在另一些可能的实施例中，视频的内容的边界值也可以采用边界上某一个角的点坐标以及内容的宽和高来表示，例如可以采用(x_i，y_i，w_i，h_i)来表示，x_i表示左上角的横坐标，y_i表示左上角的纵坐标,w_i表示宽,h_i表示高。

在一种可能的实现中，步骤101具体可以包括：可以提取视频的多个视频帧，对于视频的任一视频帧，计算机设备从视频帧的中心开始，向视频帧的四周遍历；对于当前遍历的任一行，可以判断该行的不同像素点之间的像素差异是否属于预设范围，当行的不同像素点之间的像素差异属于预设范围时，可以停止遍历，将行确定为视频帧的内容的上边界或下边界。当行的不同像素点之间的像素差异不属于预设范围时，则继续遍历下一行，直至遍历到的行的不同像素点之间的像素差异属于预设范围为止，其中每一行会包括多个像素点，同一行的不同像素点的纵坐标相同而横坐标不同。

同理地，对于当前遍历的任一列，可以判断该列的不同像素点之间的像素差异是否属于预设范围，当列的不同像素点之间的像素差异属于预设范围时，可以停止遍历，将列确定为视频帧的内容的左边界或右边界，当列的不同像素点之间的像素差异不属于预设范围时，则继续遍历下一列，直至遍历到的列的不同像素点之间的像素差异属于预设范围为止，其中每一列会包括多个像素点，同一列的不同像素点的纵坐标不同而横坐标相同。

同一行的不同像素点的像素差异是指同一行的不同像素点在三个通道的像素值之间的差值，具体地，该像素差异包括同一行的不同像素点在红通道的像素值之间的差值、同一行的不同像素点在绿通道的像素值之间的差值以及同一行的不同像素点在蓝通道的像素值之间的差值。同理地，同一列的不同像素点的像素差异是指同一列的不同像素点在三个通道的像素值之间的差值，具体地，该像素差异包括同一列的不同像素点在红通道的像素值之间的差值、同一列的不同像素点在绿通道的像素值之间的差值以及同一列的不同像素点在蓝通道的像素值之间的差值。

像素差异的预设范围可以根据实验、经验或需求设置，例如可以是5。预设范围可以预存在计算机设备中。

其中，在提取视频帧的过程中，考虑到同一视频的多个视频帧的边框的位置通常一致，可以从视频中均匀提取若干个帧，根据提取的帧来获取视频内容的边界值。作为示例，提取的帧的数量可以为3帧至5帧。

可选地，计算机设备得到视频内容的边界值之后，可以根据该边界值，删除视频的边框。具体地，计算机设备可以根据边界值，删除视频内容中边界以外的部分，例如删除上边界之上的部分、下边界之下的部分、左边界之左的部分、右边界之右的部分，从而去除视频中的边框。其中，视频的边框可以是播放视频时，视频画面的四周或边缘出现的一圈边，例如可以是视频黑边(英文：Letter Box)。通常来讲，视频的边框是为了让视频的分辨率统一，而在后期制作过程中向视频加入的区域。通过在提取视频片段之前，先删除纯色边框，能够避免视频的边框影响到提取的视频片段的视觉效果，从而提升视频片段的质量。

在一些可能的实施例中，计算机设备获取多个视频帧中每个视频帧的内容的边界值之后，可以对多个视频帧的内容的边界值进行聚类，得到多个类；可以从多个视频帧的内容的边界值中，删除不属于任一个类的边界值，根据剩余的边界值来执行其他步骤，比如根据剩余的步骤来删除视频的边框。如此，可以去除异常的边界值，比如说，一些背景颜色一致的视频帧的边界，从而保证得到的边界值的准确性。

示例性地，参见图2，其示出了视频删除边框前后的效果示意图，图2中的(a)为原始的视频，视频的顶部和底部包含两条黑边，而通过执行步骤101，可以得到如图2中的(b)所示的视频，从图2中的(b)可见，视频顶部和底部的黑边被去除了。

当然，删除步骤仅是可选步骤，在另一些可能的实施例中，如果视频不包含边框，也可以不执行删除边框的步骤。另外，先执行步骤101仅是对步骤101的时序的一种示例，步骤101也可以在其他步骤之后执行，本实施例对步骤101的执行时机并不做限定。

步骤102、计算机设备对视频进行关键帧分割，得到多个第一片段。

第一片段是指分割视频后得到的片段。在一些可能的实施例中，对视频进行分割的过程可以包括下述步骤一至步骤二。

步骤一、计算机设备检测视频中的关键帧。

关键帧为发生了镜头切换的视频帧，具体地，对于视频的第一个镜头来说，该第一个镜头的关键帧可以是视频的第一帧。对于视频的第二个镜头至最后一个镜头中的任一个镜头来说，关键帧可以是两个镜头之间衔接的一帧，关键帧的上一帧可以是上一个镜头的最后一帧，而关键帧可以是下一个镜头的第一帧。

步骤(1)计算机设备获取视频的多个视频帧中每个视频帧的色彩直方图。

在一些可能的实施例中，计算机设备可以采用色调饱和度明度(英文：hue,saturation,value，简称：HSV)的颜色空间，获取每个视频帧的色彩直方图。其中，色彩直方图的3个通道的区间(bins)数量可以依据人眼的敏感度设置。作为示例，色调(英文：hue,简称：H)通道的区间数量、饱和度(英文：saturation,简称：S)通道的区间数量、明度(英文：value，简称：V)通道的区间数量之间的比值可以设置为(16:4:4)。

在一些可能的实施例中，步骤(1.1)可以包括下述步骤(1.1)至步骤(1.3)。

步骤(1.1)计算机设备获取视频帧中第一区域的第一直方图。

第一区域为视频帧处于视野中央的区域。在一些可能的实施例中，第一区域可以为椭圆区域，以模拟视野范围的形状。例如，第一区域可以是位于视频帧中央75％的椭圆区域。

步骤(1.2)计算机设备获取视频帧中第二区域的第二直方图。

第二区域为视频帧处于视野边缘的区域。在一些可能的实施例中，第一区域可以为视频帧中第一区域以外的区域。

步骤(1.3)计算机设备根据第一区域的第一权重以及第二区域的第二权重，对第一直方图以及第二直方图进行加权平均，得到色彩直方图。

第一权重是指第一区域对应的权重，第二权重是指第二区域对应的权重，第一权重可以大于第二权重。通过采用加权平均的方式，可以将第一区域的直方图以及第二区域的直方图合并为一个直方图。

步骤(2)计算机设备根据每个视频帧的色彩直方图，将多个视频帧划分为多个类。

同一类中任两个视频帧的色彩直方图之间的差异小于预设阈值。一个类可以包括同一个镜头下拍摄的至少一个视频帧。

在一些可能的实施例中，对于任一视频帧，可以根据该视频帧的色彩直方图以及该视频帧之前最近一次发生了镜头切换的视频帧的色彩直方图，获取两个色彩直方图之间的差异，判断差异是否小于预设阈值，以确定视频帧是否发生了镜头切换。

具体来说，可以从第一个视频帧的色彩直方图开始进行遍历，对于当前遍历的第i个视频帧，可以对第i个视频帧的色彩直方图与第一个视频帧的色彩直方图进行比较，得到两个色彩直方图之间的差异；可以判断该差异是否超过预设阈值，当差异超过预设阈值时，表明第i个视频帧的色彩直方图发生突变，可以视为在第i个视频帧发生了镜头切换，则将第1个视频帧至第(i-1)个视频帧作为第一个镜头的视频帧，则第一个类即为第1个视频帧至第(i-1)个视频帧。其中，i为正整数。

之后，将第i个视频帧作为第二个镜头的第一个视频帧，从第i个视频帧开始，对于当前遍历的第k个视频帧，可以对第k个视频帧的色彩直方图与第i个视频帧的色彩直方图进行比较，得到两个色彩直方图之间的差异；可以判断该差异是否超过预设阈值，当差异超过预设阈值时，则将第i个视频帧至第(k-1)个视频帧作为第二个镜头的视频帧，则第二个类即为第i个视频帧至第(k-1)个视频帧。其中，k为正整数，k大于i。

之后，将第k个视频帧作为第三个镜头的第一个视频帧，以此类推，可以每当检测到当前遍历的视频帧发生镜头切换时，更新色彩直方图比较的基准，从而实现了镜头切换聚类的功能，将镜头未切换下拍摄的每个视频帧划分至同一个类中。

在一些可能的实施例中，对于任一视频帧，如果该视频帧的色彩直方图，与该视频帧之前最近一次发生了镜头切换的视频帧的色彩直方图之间的差异大于预设阈值，可以将该视频帧作为候选帧，获取该视频帧的下一个视频帧的色彩直方图，与该最近一次发生了镜头切换的视频帧的色彩直方图之间的差异，判断该差异是否大于预设阈值，如果差异小于或等于预设阈值，则可以不将候选帧作为发生了镜头切换的视频帧，而如果差异大于预设阈值，可以继续判断下下一个视频帧，也可以直接将候选帧作为发生了镜头切换的视频帧。依次类推，可以遍历候选帧之后的预设数目的视频帧，如果该预设数目的视频帧中的每个视频帧的色彩直方图与最近一次发生了镜头切换的视频帧的色彩直方图之间的差异均大于预设阈值，即连续多个视频帧均发生了突变，则可以将候选帧作为发生了镜头切换的视频帧。

如此，在实现了检测关键帧的功能的基础上，增加了容错机制。即使视频中出现色彩直方图随机突变的视频帧，通过继续检测该视频帧之后的连续几个视频帧的色彩直方图是否均发生突变，可以避免将色彩直方图随机突变的视频帧误检测为关键帧，保证检测的关键帧的精确性。

步骤(3)对于多个类中的每个类，计算机设备选取类的第一帧，作为类对应的关键帧。

示例性地，参见图3，其示出了检测关键帧的流程图，可以首先从视频中提取多个视频帧，依据人眼敏感度，对每个视频帧的HSV的bins(区间)的数量设置为不同的比例，将图片中央的椭圆区域作为注意力集中的区域，分配较大的权重，加权合并得到色彩直方图。

步骤二、计算机设备以关键帧为分割点，对视频进行分割，得到多个第一片段。

通过以关键帧为分割点进行分割，每个关键帧可以是一个第一片段的第一帧。

在一些可能的实施例中，得到多个第一片段之后，可以删除时长小于第一时长的第一片段，即删除过短的片段，从而使用时长不小于第一时长的第一片段执行后续检测字幕上界的步骤。另外，对于时长大于第二时长的第一片段来说，可以从该第一片段提取前第三时长的片段，使用前第三时长的片段来执行后续检测字幕上界的步骤。其中，第一时长、第二时长以及第三时长可以根据经验或需求设置，例如，第一时长可以为2秒，第二时长可以为5秒，第三时长可以为5秒。在一种可能的实现中，可以按照每个第一片段的关键帧所属的类的时长，对多个第一片段进行排序，从排序结果中，选取时长小于第一时长的第一片段以进行删除，选取时长大于第二时长的第一片段以进行提取。

步骤103、计算机设备检测多个第一片段中每个第一片段的字幕上界。

本实施例提供了一种基于字幕检测的字幕躲避方法，通过检测出片段中字幕上界，根据字幕上界来对片段进行截取，能够让最终截取出的片段避开字幕，实现得到不包含字幕的精彩片段的功能。在一些可能的实施例中，检测字幕的过程可以包括下述步骤(1)至步骤(3)。

步骤(1)对于多个第一片段中每个第一片段，计算机设备从第一片段中提取多个视频帧。

在一些可能的实施例中，计算机设备可以获取视频的歌词文件，计算机设备可以从视频的歌词文件中，获取视频中每句歌词的时间点。计算机设备可以从第一片段中，提取歌词的时间点对应的视频帧。作为示例，可以获取每句歌词的中间时刻，提取该中间时刻对应的视频帧。其中，歌词的中间时刻可以为歌词的开始时刻和结束时刻之间的均值。歌词文件可以为QRC文件，QRC文件是一种以qrc为扩展名的歌词文件,可以在音乐播放器中同步显示。QRC文件可以用来实现卡拉OK的功能，并且歌词显示可以精准定位到逐字，使歌词同步显示更准确，从而改善传统的LRC(lyric，歌词)文件显示不准确的问题。

通过这种实现方式，对于MV等视频来说，视频中出现字幕的视频帧通常恰好为歌词所在的视频帧，那么通过基于歌词文件中歌词的时间点，来从视频中提取视频帧，可以保证恰好提取出包含字幕的每个视频帧，避免提取的视频帧出现遗漏，也避免提取到不包含字幕的视频帧，从而提高了精确性。

步骤(2)计算机设备调用字幕检测模型，将多个视频帧输入字幕检测模型，输出多个视频帧的字幕位置。

字幕检测模型用于检测视频帧的字幕位置。字幕检测模型可以是基于深度学习的目标检测模型，例如，字幕检测模型可以而不限于是区域卷积神经网络(英文：regionconvolutional neural networks，简称：R-CNN)、快的区域卷积神经网络(Fast R-CNN)、更快的区域卷积神经网络(英文：Faster-region convolutional neural networks，简称：Faster-RCNN)，该字幕检测模型可以包括长短期记忆网络(英文：long short-termmemory，简称：LSTM)模块或双向长短期记忆网络(英文：Bi-directional LSTM，简称：LSTM)模块。作为示例，考虑到字幕通常具有文字大小规范、依次出现的特点，可以选取自然场景文本检测(英文：connectionist text proposal network，简称：CTPN)模型作为字幕检测模型，CPTN模型是一种在Faster-RCNN的基础上加入了LSTM模块的模型。

在一些可能的实施例中，可以预先通过模型训练，得到该字幕检测模型。具体来说，模型训练的过程可以包括下述步骤(2.1)至(2.3)。

(2.1)计算机设备获取第一样本图片以及字符。

(2.2)计算机设备根据第一样本图片以及字符，生成第二样本图片，第二样本图片包括字幕

在一些可能的实施例中，可以采用在无字幕图片上添加字幕的方式，来构建包含字幕的样本图片集。为了区分描述，将原始的样本图片称为第一样本图片，将利用第一样本图片生成的图片称为第二样本图片。第一样本图片可以不包含字幕，另外可以获取不同字体的字符，例如获取中文简体、中文繁体、英文、日文、韩文等五种字体的字符，向第一样本图片添加字符，以生成第二样本图片。其中，可以向第一样本图片随机添加任一大小的字符，以得到第二样本图片；可以向第一样本图片随机添加任一颜色的字符，以得到第二样本图片；可以向第一样本图片随机添加不同字符的组合，以得到第二样本图片。在一个示例性实施例中，第一样本图片的数量可以有多个，可以基于多个第一样本图片以及字符，随机生成不同大小、不同颜色以及不同字符组合的第二样本图片，共计得到10万张第二样本图片。

(2.3)采用第二样本图片进行模型训练，得到字幕检测模型。

在一些可能的实施例中，提取到每个视频帧的字幕位置后，可以通过聚类的手段，来去除误检测的字幕。具体来说，可以对多个视频帧的字幕位置进行聚类，得到多个类。从多个视频帧的字幕位置中，删除不属于任一个类的字幕位置。作为示例，可以采用基于密度的聚类算法(英文：density-based spatial clustering of applications with noise，简称：DBSCAN)进行聚类。

示例性地，参见图4，其示出了字幕检测的流程图，可以根据视频以及视频的QRC文件，得到视频中包含字幕的多个视频帧，将该多个视频帧输入更快的区域卷积神经网络(Faster-RCNN)，将输出结果输入LSTM模型，输出视频帧的字幕位置。

步骤(3)根据多个视频帧的字幕位置，得到第一片段的字幕上界。

例如，可以从多个视频帧的字幕位置中选择最高的位置，作为第一片段的字幕上界。

步骤104、计算机设备检测多个第一片段中每个第一片段的人脸位置。

在一些可能的实施例中，对于多个第一片段中的每个第一片段，计算机设备可以从第一片段中提取至少一个视频帧，调用人脸检测模型，将至少一个视频帧输入人脸检测模型，输出至少一个视频帧的人脸位置，获取至少一个视频帧的人脸位置的平均值，作为该第一片段的人脸位置。其中，如果视频帧包括多个人脸，可以通过检测每个人脸的人脸位置，从多个人脸的人脸位置中，选择最大的人脸位置，作为该视频帧的人脸位置。另外，可以采用每秒提取2帧的方式，从第一片段中提取视频帧。

其中，人脸位置可以通过边界框(英文：bounding box)来表示，该边界框为目标检测问题中需要求解的恰好包围目标的边框。边界框可以记为一组点坐标，例如可以记为左上角的点坐标、边界框的宽以及边界框的高，比如说，可以记为(x_i，y_i，w_i，h_i)，其中，x_i表示边界框的左上角的横坐标，y_i表示边界框的左上角的纵坐标，w_i表示边界框的宽，h_i表示边界框的高。

人脸检测模型用于根据视频帧检测人脸位置。人脸检测模型可以是卷积神经网络，例如，人脸检测模型可以是多任务级联卷积神经网络(英文：multi-task cascadedconvolutional networks，简称：MTCNN)。MTCNN可以基于三级级联CNN网络及在线负样本生成策略生成，MTCNN可以用于进行人脸检测及对齐，MTCNN可以在P40图形处理器(英文：graphics processing unit，简称：GPU)上能实现100每秒传输帧数(英文：frames persecond，简称：fps)以上的速度。

在一些可能的实施例中，对于多个第一片段中的每个第一片段，可以根据人脸检测模型对该第一片段中视频帧的检测结果，获取第一片段中包含人脸的视频帧的数量，获取包含人脸的视频帧的数量与第一片段的视频帧的总数量之间的比值，判断比值是否超过预设比值，当该比值超过预设比值时，则选取第一片段，当比值未超过预设比值时，则过滤掉第一片段。其中，该预设比值可以根据经验、实验或需求设置，例如可以是50％。

步骤105、计算机设备从多个第一片段中，选取人脸位置符合预设条件的第二片段。

第二片段是指人脸位置符合预设条件的第一片段，例如可以是人脸位置居中、人脸大小合适的第一片段。具体地，计算机设备可以通过执行下述实现方式一至实现方式二中的任一项或多项的结合，来选取出第二片段。

实现方式一、根据第一片段的人脸位置，获取人脸位置分，根据人脸位置分，选取第二片段。

人脸位置分表示人脸位置在视频帧的居中程度。人脸位置分越大，表示人脸位置在视频帧中越居中。其中，可以建立人脸位置与人脸位置分之间的映射关系，采用该映射关系对人脸位置进行运算，得到人脸位置分。

在一些可能的实施例中，计算机设备可以采用上述步骤101获取到的视频内容的边界值、步骤103中获取到的字幕上界、步骤104中获取到的人脸位置以及目标分辨率，获取截取参数，根据人脸位置以及截取参数，获取人脸位置分。

其中，截取参数用于在空间上对视频帧进行截取，截取参数用于指示从视频帧中截取的区域的位置，例如，截取参数可以是截取的区域的四个边界的点坐标，又如截取参数可以是截取的区域的一个顶点的点坐标、区域的宽以及区域的高。目标分辨率用于对第一片段的分辨率进行归一化，保证最终截取出的视频片段的分辨率统一，均为目标分辨率，目标分辨率可以根据需求或经验设置，目标分辨率可以预存在计算机设备中，目标分辨率可以预先设置。

作为示例，可以通过下述公式(1)至公式(4)，获取截取参数。

x_icrop＝int(x_i+w_i/2-w_icrop/2)； (1)

y_icrop＝y₀； (2)

h_icrop＝min(y_icsub-y0,h0)； (3)

w_icrop＝int(w_out/h_out*h_icrop)； (4)

其中，x_icrop、y_icrop、h_icrop以及w_icrop表示截取参数，x_icrop表示截取出的片段的中视频帧的左上角的横坐标、y_icrop表示截取出的片段中视频帧的左上角的纵坐标、h_icrop表示截取出的片段中视频帧的高，h_icrop大于0，w_icrop表示截取出的片段中视频帧的宽，w_icrop大于0，w_out表示目标分辨率中在水平方向上的像素数量，h_out表示目标分辨率中在垂直方向上的像素数量，w_out和h_out为正整数，x_i表示人脸位置对应的边界框的横坐标，w_i表示人脸位置对应的边界框的宽，int表示取整运算，min表示求最小值。

在一些可能的实施例中，当x_i+w_i/2＝w_icrop/2，y_i+h_i/2＝h_icrop/2时，人脸位置分可以取得最大值。

实现方式二、根据第一片段的人脸位置，获取人脸大小分，根据人脸大小分，选取第二片段。

人脸大小分表示人脸大小相对于视频帧的大小的合适程度。人脸大小分越大，表示人脸大小相对于视频帧的大小来说越合适。其中，可以建立人脸大小与人脸大小分之间的映射关系，采用该映射关系对人脸大小进行运算，得到人脸大小分。

在一些可能的实施例中，计算机设备可以采用上述步骤101获取到的视频内容的边界值、步骤103中获取到的字幕上界、步骤104中获取到的人脸位置以及目标分辨率，获取截取参数，根据人脸位置以及截取参数，获取人脸大小分。例如，当w_i＝h_icrop/3，人脸大小分可以取得最大。其中，w_i表示人脸位置对应的边界框的宽，h_icrop表示截取出的片段中视频帧的高。

在一些可能的实施例中，选取第二片段的实现方式可以包括：根据人脸位置分以及人脸大小分，获取第一片段的评分，对每个第一片段的评分与第一阈值进行比较，选取评分大于第一阈值的第一片段，得到第二片段。其中，评分用于表示人脸位置和人脸大小的整体合适程度，第一阈值可以根据经验、实验或需求设置，第一阈值可以预存在计算机设备中。举例来说，第一阈值可以是0.35。

其中，可以为人脸位置分以及人脸大小分设置对应的权重，根据人脸位置分的权重以及人脸大小分的权重，对人脸位置分以及人脸大小分进行加权求和，得到第一片段的评分。作为示例，可以采用下述公式(5)，计算得到第一片段的评分。

s＝αs₁+(1-α)s₂； (5)

其中，s表示评分，s₁表示人脸位置分，α表示人脸位置分的权重，s₂表示人脸大小分，(1-α)表示人脸大小分的权重，α大于或等于0且小于或等于1。

通过上述实现方式，可以综合考虑视频中人脸的位置和人脸的大小，从视频的各个第一片段中，过滤掉人脸位置以及人脸大小不合适的第一片段，保证最终选取出的片段的人脸位置居中，人脸大小也合适。

需要说明的一点是，人脸位置和人脸大小均考虑的方式仅是可选方式，在一些可能的实施例中，也可以考虑人脸位置而不考虑人脸大小，对人脸位置分与第二阈值进行比较，选取人脸位置分大于第二阈值的第一片段，得到第二片段，通过这种方式，可以过滤掉人脸位置不合适的第一片段，保证最终选取的片段的人脸位置居中。或者，也可以考虑人脸大小而不考虑人脸位置，对人脸大小分与第三阈值进行比较，选取人脸大小分大于第三阈值的第一片段，得到第二片段，通过这种方式，可以过滤掉人脸大小不合适的第一片段，保证最终选取的片段的人脸大小合适。

步骤106、计算机设备根据第二片段的字幕上界，对第二片段进行截取，得到第三片段，第三片段不包括字幕。

第三片段是指从第二片段中截取出的片段。在一些可能的实施例中，计算机设备可以根据每个第二片段的评分，对每个第二片段按照评分从大到小的顺序进行排序，根据字幕上界对应的截取参数，对排序后的第二片段进行截取，得到第三片段。在一种可能的实现中，可以使用多媒体视频处理工具(英文：fast forward mpeg，简称：ffmpeg)，利用步骤105中实现方式一中的截取参数xicrop、yicrop、hicrop以及wicrop，来进行截取。

在一些可能的实施例中，在截取出第三片段后，可以将第三片段作为精彩片段输出。

在另一些可能的实施例中，可以通过本实施例提供的方法，实现获取精彩片段合集的功能，该精彩片段合集可以作为短视频提供给用户。具体来说，通过执行上述步骤101至步骤106，可以得到多个第三片段，可以对多个第三片段进行拼接，该拼接后的多个第三片段即为精彩片段合集/短视频。其中，也可以先基于预设时长，对多个第三片段进行拼接，拼接后的精彩片段合集/短视频的总时长不超过该预设时长。其中，可以对多个时长小于预设时长的第三片段进行合并，也可以对时长大于预设时长的第三片段进行分割。该预设时长可以根据需求、经验或实验配置，例如可以为10秒。

在一些可能的实施例中，输出的精彩片段合集/短视频可以进行各种后处理，例如可以作为动态背景进行展示，又如可以上传、分享、发布精彩片段合集/短视频等，本实施例对后处理的方式不做限定。

示例性地，以视频为MV为例，参见图5，其示出了从MV中提取精彩片段的流程图，得到原始片段后，可以通过上述步骤101，来对MV的黑边进行检测，删除视频中的黑边，从而得到去除了黑边的MV，通过上述步骤102，检测视频帧中的关键帧，将两次镜头切换之间的多个视频帧划分为一个类，通过上述步骤103，来检测视频中的字幕，以实现躲避字幕上界的功能，通过上述步骤104，来进行人脸检测，通过基于人脸位置和大小进行评分的方式，过滤掉人脸位置和大小不满足要求的片段，最终得到精彩片段。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

图6是本发明实施例提供的一种视频片段提取装置的结构示意图，如图6所示，该装置包括：

获取模块601，用于获取视频内容的边界值，该边界值包括上边界、下边界、左边界以及右边界；

分割模块602，用于对视频进行关键帧分割，得到多个第一片段；

检测模块603，用于检测该多个第一片段中每个第一片段的字幕上界；

该检测模块603，用于检测该多个第一片段中每个第一片段的人脸位置；

选取模块604，用于从该多个第一片段中，选取人脸位置符合预设条件的第二片段；

截取模块605，用于根据该第二片段的字幕上界，对该第二片段进行截取，得到不包含字幕的第三片段。

可选地，该检测模块603，包括：

提取子模块，用于对于该多个第一片段中每个第一片段，从该第一片段中提取多个视频帧；

字幕检测模型，用于根据该多个视频帧，输出该多个视频帧的字幕位置，该字幕检测模型用于检测视频帧的字幕位置；

确定子模块，用于根据该多个视频帧的字幕位置，得到该第一片段的字幕上界。

可选地，该提取子模块，用于从该视频的歌词文件中，获取该视频中每句歌词的时间点；从该第一片段中，提取该时间点对应的视频帧。

可选地，该装置还包括：聚类模块，用于对该多个视频帧的字幕位置进行聚类，得到多个类；删除模块，用于从该多个视频帧的字幕位置中，删除不属于任一个类的字幕位置。

可选地，该获取模块601，还用于获取第一样本图片以及字符；

该装置还包括：样本生成模块，用于根据该第一样本图片以及该字符，生成第二样本图片，该第二样本图片包括字幕；

模型训练模块，用于采用该第二样本图片进行模型训练，得到该字幕检测模型。

可选地，该选取模块604，用于执行下述至少一项：

根据该第一片段的人脸位置，获取人脸位置分，根据该人脸位置分，选取该第二片段，该人脸位置分表示人脸位置在视频帧的居中程度；

根据该第一片段的人脸位置，获取人脸大小分，根据该人脸大小分，选取该第二片段，该人脸大小分表示人脸大小相对于视频帧的大小的合适程度。

可选地，该选取模块604，用于执行下述任一项：

根据该人脸位置分以及该人脸大小分，获取该第一片段的评分，选取评分大于第一阈值的第一片段，得到该第二片段；

选取该人脸位置分大于第二阈值的第一片段，得到该第二片段；

选取该人脸大小分大于第三阈值的第一片段，得到该第二片段。

可选地，该分割模块602，包括：

检测子模块，用于检测该视频中的关键帧，该关键帧为发生了镜头切换的视频帧；

分割子模块，用于以该关键帧为分割点，对该视频进行分割，得到该多个第一片段。

可选地，该检测子模块，用于：获取该视频的多个视频帧中每个视频帧的色彩直方图；根据每个视频帧的色彩直方图，将该多个视频帧划分为多个类，同一类中任两个视频帧的色彩直方图之间的差异小于预设阈值；对于该多个类中的每个类，选取该类的第一帧，作为该类对应的关键帧。

可选地，该检测子模块，用于：获取该视频帧中第一区域的第一直方图，该第一区域为该视频帧处于视野中央的区域；

获取该视频帧中第二区域的第二直方图，该第二区域为该视频帧处于视野边缘的区域；

根据该第一区域的第一权重以及该第二区域的第二权重，对该第一直方图以及第二直方图进行加权平均，得到该色彩直方图，该第一权重大于第二权重。

可选地，该装置还包括：删除模块，用于根据该边界值，删除该视频的边框。

可选地，该获取模块601，具体用于对于该视频的任一视频帧，从该视频帧的中心开始，向该视频帧的四周遍历；对于当前遍历的任一行，当该行的不同像素点之间的像素差异属于预设范围时，将该行确定为该视频帧的内容的上边界或下边界；和/或，对于当前遍历的任一列，当该列的不同像素点之间的像素差异属于预设范围时，将该列确定为该视频帧的内容的左边界或右边界。

可选地，该获取模块601，包括：

获取子模块，用于获取该视频的多个视频帧的内容的边界值；

聚类子模块，用于对该多个视频帧的内容的边界值进行聚类，得到多个类；

删除子模块，用于从该多个视频帧的内容的边界值中，删除不属于任一个类的边界值。

需要说明的是：上述实施例提供的视频片段提取装置在提取视频片段时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频片段提取装置与视频片段提取方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图7是本发明实施例提供的一种计算机设备的结构示意图，该计算机设备700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)701和一个或一个以上的存储器702，其中，存储器702中存储有至少一条指令，至少一条指令由处理器701加载并执行以实现上述视频片段提取方法。当然，该计算机设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该计算机设备还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由计算机设备中的处理器执行以完成上述实施例中的视频片段提取方法。例如，计算机可读存储介质可以是只读存储器(Read-Only Memory，简称：ROM)、随机存取存储器(Random Access Memory，简称：RAM)、只读光盘(Compact Disc Read-Only Memory，简称：CD-ROM)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频片段提取方法，其特征在于，所述方法包括：

对视频进行关键帧分割，得到多个第一片段；

检测所述多个第一片段中每个第一片段的字幕上界；

检测所述多个第一片段中每个第一片段的人脸位置；

2.根据权利要求1所述的方法，其特征在于，所述检测所述多个第一片段中每个第一片段的字幕上界，包括：

3.根据权利要求2所述的方法，其特征在于，所述从所述第一片段中提取多个视频帧，包括：

从所述第一片段中，提取所述时间点对应的视频帧。

4.根据权利要求2所述的方法，其特征在于，所述将所述多个视频帧输入字幕检测模型，输出所述多个视频帧的字幕位置之后，所述方法还包括：

对所述多个视频帧的字幕位置进行聚类，得到多个类；

5.根据权利要求2所述的方法，其特征在于，所述将所述多个视频帧输入字幕检测模型，输出所述多个视频帧的字幕位置之前，所述方法还包括：

获取第一样本图片以及字符；

6.根据权利要求1所述的方法，其特征在于，所述从所述多个第一片段中，选取人脸位置符合预设条件的第二片段，包括下述至少一项：

7.根据权利要求6所述的方法，其特征在于，所述从所述多个第一片段中，选取人脸位置符合预设条件的第二片段，包括下述任一项：

8.根据权利要求1所述的方法，其特征在于，所述对视频进行关键帧分割，得到多个第一片段，包括：

9.根据权利要求8所述的方法，其特征在于，所述检测所述视频中的关键帧，包括下述任一项：

获取所述视频的多个视频帧中每个视频帧的色彩直方图；

10.根据权利要求9所述的方法，其特征在于，所述获取所述视频的多个视频帧中每个视频帧的色彩直方图，包括：

11.根据权利要求1所述的方法，其特征在于，所述对视频进行关键帧分割之前，所述方法还包括：

根据所述边界值，删除所述视频的边框。

12.根据权利要求1所述的方法，其特征在于，所述获取视频内容的边界值，包括：

13.根据权利要求1所述的方法，其特征在于，所述获取视频内容的边界值，包括：

获取所述视频的多个视频帧的内容的边界值；

对所述多个视频帧的内容的边界值进行聚类，得到多个类；

从所述多个视频帧的内容的边界值中，删除不属于任一个类的边界值。

14.一种视频片段提取装置，其特征在于，所述装置包括：

15.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条指令，所述指令由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求13任一项所述的视频片段提取方法。

16.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至权利要求13任一项所述的视频片段提取方法。