CN104796781B

CN104796781B - 视频片段提取方法及装置

Info

Publication number: CN104796781B
Application number: CN201510148098.XA
Authority: CN
Inventors: 陈志军; 侯文迪; 关亚勇
Original assignee: Xiaomi Inc
Current assignee: Xiaomi Inc
Priority date: 2015-03-31
Filing date: 2015-03-31
Publication date: 2019-01-18
Anticipated expiration: 2035-03-31
Also published as: CN104796781A

Abstract

本公开揭示了一种视频片段提取方法及装置，属于图像处理技术领域。所述方法包括：获取目标角色的脸部图片；通过人脸识别方式从原始视频中确定包含所述目标角色的脸部的第一视频片段；基于所述第一视频片段对所述目标角色进行目标跟踪，确定原始视频中除第一视频片段之外，包含所述目标角色的第二视频片段；将所述第一视频片段和所述第二视频片段的集合提取为目标视频片段。本公开通过人脸识别确定包含目标角色脸部的视频片段，基于该视频频段进行该目标角色的跟踪，确定包含该目标角色其他部位的视频片段，即可以从原始视频中单独提取出包含该目标角色的视频片段，简化了用户操作，提高了目标角色定位的准确度，从而提高用户体验。

Description

视频片段提取方法及装置

技术领域

本公开涉及图像处理技术领域，特别涉及一种视频片段提取方法及装置。

背景技术

随着电子及网络技术的不断发展，视频播放业务已经成为用户最常用的网络业务之一，而用户对于视频服务的要求也越来越多样，比如，部分用户只想观看视频中涉及到某位明星的片段。

在相关技术中，用户想要观看视频中目标角色，比如某位明星的视频片段时，需要手动拖动播放进度条，或者点击快进按钮加快视频播放速度，以使视频更快的跳转到包含该明星的片段。

发明内容

本公开提供了一种视频片段提取方法及装置。所述技术方案如下：

第一方面，提供一种视频片段提取方法，所述方法包括：

获取目标角色的脸部图片；

基于所述目标角色的脸部图片，通过人脸识别方式从原始视频中确定包含所述目标角色的脸部的第一视频片段；

基于所述第一视频片段对所述目标角色进行目标跟踪，确定所述原始视频中除所述第一视频片段之外，包含所述目标角色的第二视频片段；

将所述第一视频片段和所述第二视频片段的集合提取为目标视频片段。

可选的，所述基于所述第一视频片段对所述目标角色进行目标跟踪，包括：

从所述第一视频片段的前一个视频帧开始，向前逐一对所述目标角色进行目标跟踪；将跟踪到所述目标角色的视频帧组成的视频片段，确定为所述第二视频片段中位于所述第一视频片段之前的视频片段；

从所述第一视频片段的后一个视频帧开始，向后逐一对所述目标角色进行目标跟踪；将跟踪到所述目标角色的视频帧组成的视频片段，确定为所述第二视频片段中位于所述第一视频片段之后的视频片段。

可选的，所述获取目标角色的脸部图片，包括：

展示目标角色选择区域，所述目标角色选择区域中包含所述原始视频中的各个角色的标识；将至少一个被选择的标识对应的角色确定为所述目标角色；从本地或者服务器获取所述目标角色的脸部图片；

或者，

展示可框选区域，所述可框选区域的背景为所述原始视频中的一个视频帧；将所述可框选区域中被框选部分的背景中包含的至少一个人脸图片获取为所述目标角色的脸部图片；

或者，

展示文本输入框；接收在所述文本输入框中输入的至少一个角色名称；根据所述至少一个角色名称从本地或者服务器获取所述目标角色的脸部图片。

可选的，所述获取目标角色的脸部图片，包括：

获取所述目标角色至少两个不同角度的脸部图片。

可选的，当提取的所述目标视频片段包括两个或者两个以上非连续片段时，所述方法还包括：

确定相邻两个目标视频片段之间的播放时间间隔，所述播放时间间隔为所述相邻两个目标视频片段中的前一个目标视频片段的播放结束时间点与后一个目标视频片段的播放开始时间点之间的间隔；

检测所述播放时间间隔是否小于预设的时间间隔阈值；

若所述播放时间间隔小于所述时间间隔阈值，则将所述相邻两个目标视频片段以及所述相邻两个目标视频片段之间的视频片段进行合并。

将提取到的所述各个目标视频片段按照播放时间从先到后的顺序连接，生成一个视频剪辑。

可选的，当所述目标角色包含至少两个不同角色时，

所述视频剪辑为同时包含所述至少两个不同角色的视频剪辑；

或者，

所述视频剪辑为包含所述至少两个不同角色中的任意角色的视频剪辑。

可选的，所述方法还包括：

根据所述目标视频片段的内容元素为所述目标视频片段生成文字描述；

其中，所述内容元素包括所述目标角色的角色名以及所述目标视频片段的字幕中的至少一种。

第二方面，提供一种视频片段提取装置，所述装置包括：

图片获取模块，用于获取目标角色的脸部图片；

人脸识别模块，用于基于所述目标角色的脸部图片，通过人脸识别方式从原始视频中确定包含所述目标角色的脸部的第一视频片段；

目标跟踪模块，用于基于所述第一视频片段对所述目标角色进行目标跟踪，确定所述原始视频中除所述第一视频片段之外，包含所述目标角色的第二视频片段；

片段提取模块，用于将所述第一视频片段和所述第二视频片段的集合提取为目标视频片段。

可选的，所述目标跟踪模块，包括：

第一跟踪子模块，用于从所述第一视频片段的前一个视频帧开始，向前逐一对所述目标角色进行目标跟踪；将跟踪到所述目标角色的视频帧组成的视频片段，确定为所述第二视频片段中位于所述第一视频片段之前的视频片段；

第二跟踪子模块，用于从所述第一视频片段的后一个视频帧开始，向后逐一对所述目标角色进行目标跟踪；将跟踪到所述目标角色的视频帧组成的视频片段，确定为所述第二视频片段中位于所述第一视频片段之后的视频片段。

可选的，所述图片获取模块，包括：第一展示子模块、角色确定子模块和第一获取子模块，或者，所述图片获取模块，包括：第二展示子模块和第二获取子模块，或者，所述图片获取模块，包括：第三展示子模块、输入接收子模块和第三获取子模块；

所述第一展示子模块，用于展示目标角色选择区域，所述目标角色选择区域中包含所述原始视频中的各个角色的标识；

所述角色确定子模块，用于将至少一个被选择的标识对应的角色确定为所述目标角色；

所述第一获取子模块，用于从本地或者服务器获取所述目标角色的脸部图片；

所述第二展示子模块，用于展示可框选区域，所述可框选区域的背景为所述原始视频中的一个视频帧；

所述第二获取子模块，用于将所述可框选区域中被框选部分的背景中包含的至少一个人脸图片获取为所述目标角色的脸部图片；

所述第三展示子模块，用于展示文本输入框；

所述输入接收子模块，用于接收在所述文本输入框中输入的至少一个角色名称；

所述第三获取子模块，用于根据所述至少一个角色名称从本地或者服务器获取所述目标角色的脸部图片。

可选的，所述图片获取模块，用于获取所述目标角色至少两个不同角度的脸部图片。

可选的，所述装置还包括：

时间间隔确定模块，用于当提取的所述目标视频片段包括两个或者两个以上非连续片段时，确定相邻两个目标视频片段之间的播放时间间隔，所述播放时间间隔为所述相邻两个目标视频片段中的前一个目标视频片段的播放结束时间点与后一个目标视频片段的播放开始时间点之间的间隔；

检测模块，用于检测所述播放时间间隔是否小于预设的时间间隔阈值；

片段合并模块，用于若所述播放时间间隔小于所述时间间隔阈值，则将所述相邻两个目标视频片段以及所述相邻两个目标视频片段之间的视频片段进行合并。

可选的，所述装置还包括：

剪辑生成模块，用于当提取的所述目标视频片段包括两个或者两个以上非连续片段时，将提取到的所述各个目标视频片段按照播放时间从先到后的顺序连接，生成一个视频剪辑。

可选的，当所述目标角色包含至少两个不同角色时，

或者，

可选的，所述装置还包括：

描述生成模块，用于根据所述目标视频片段的内容元素为所述目标视频片段生成文字描述；

第三方面，提供一种视频片段提取装置，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取目标角色的脸部图片；

本公开的实施例提供的技术方案可以包括以下有益效果：

通过人脸识别确定包含目标角色脸部的视频片段，基于该视频频段进行该目标角色的跟踪，确定不包含该目标角色脸部，但是包含该目标角色其他部位的视频片段，即可以从原始视频中单独提取出包含该目标角色的视频片段，不需要用户手动拖动播放进度条或者点击快进按钮即可以快速且准确的找到原始视频中包含目标角色的片段，简化了用户操作，提高了目标角色定位的准确度，从而提高用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种视频片段提取方法的流程图；

图2是根据另一示例性实施例示出的一种视频片段提取方法的流程图；

图3是根据又一示例性实施例示出的一种视频片段提取方法的流程图；

图4是根据又一示例性实施例示出的一种可操作界面的示意图；

图5是根据又一示例性实施例示出的另一种可操作界面的示意图；

图6是根据又一示例性实施例示出的又一种可操作界面的示意图；

图7是根据另一示例性实施例示出的一种视频片段提取装置的框图；

图8是根据一示例性实施例示出的一种视频片段提取装置的框图；

图9是根据另一示例性实施例示出的一种视频片段提取装置的框图；

图10是根据一示例性实施例示出的一种视频片段提取装置的框图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种视频片段提取方法的流程图。该视频片段提取方法可以用于具有视频播放或者视频推送功能的电子设备中，该电子设备可以是智能手机、平板电脑、电子书阅读器、个人电脑或者网络视频服务器等。如图1所示，该视频片段提取方法可以包括以下步骤。

在步骤102中，获取目标角色的脸部图片。

在步骤104中，基于该目标角色的脸部图片，通过人脸识别方式从原始视频中确定包含该目标角色的脸部的第一视频片段。

在步骤106中，基于第一视频片段对该目标角色进行目标跟踪，确定原始视频中除第一视频片段之外，包含该目标角色的第二视频片段。

在步骤108中，将该第一视频片段和该第二视频片段的集合提取为目标视频片段。

可选的，该基于该第一视频片段对该目标角色进行目标跟踪，包括：

从该第一视频片段的前一个视频帧开始，向前逐一对该目标角色进行目标跟踪；将跟踪到该目标角色的视频帧组成的视频片段，确定为该第二视频片段中位于该第一视频片段之前的视频片段；

从该第一视频片段的后一个视频帧开始，向后逐一对该目标角色进行目标跟踪；将跟踪到该目标角色的视频帧组成的视频片段，确定为该第二视频片段中位于该第一视频片段之后的视频片段。

可选的，该获取目标角色的脸部图片，包括：

展示目标角色选择区域，该目标角色选择区域中包含该原始视频中的各个角色的标识；将至少一个被选择的标识对应的角色确定为该目标角色；从本地或者服务器获取该目标角色的脸部图片；

或者，

展示可框选区域，该可框选区域的背景为该原始视频中的一个视频帧；将该可框选区域中被框选部分的背景中包含的至少一个人脸图片获取为该目标角色的脸部图片；

或者，

展示文本输入框；接收在该文本输入框中输入的至少一个角色名称；根据该至少一个角色名称从本地或者服务器获取该目标角色的脸部图片。

可选的，该获取目标角色的脸部图片，包括：

获取该目标角色至少两个不同角度的脸部图片。

可选的，当提取的该目标视频片段包括两个或者两个以上非连续片段时，该方法还包括：

确定相邻两个目标视频片段之间的播放时间间隔，该播放时间间隔为该相邻两个目标视频片段中的前一个目标视频片段的播放结束时间点与后一个目标视频片段的播放开始时间点之间的间隔；

检测该播放时间间隔是否小于预设的时间间隔阈值；

若该播放时间间隔小于该时间间隔阈值，则将该相邻两个目标视频片段以及该相邻两个目标视频片段之间的视频片段进行合并。

将提取到的该各个目标视频片段按照播放时间从先到后的顺序连接，生成一个视频剪辑。

可选的，当该目标角色包含至少两个不同角色时，

该视频剪辑为同时包含该至少两个不同角色的视频剪辑；

或者，

该视频剪辑为包含该至少两个不同角色中的任意角色的视频剪辑。

可选的，该方法还包括：

根据该目标视频片段的内容元素为该目标视频片段生成文字描述；

其中，该内容元素包括该目标角色的角色名以及该目标视频片段的字幕中的至少一种。

综上所述，本公开实施例中提供的视频片段提取方法，通过获取目标角色的脸部图片，通过人脸识别方式从原始视频中确定包含该目标角色的脸部的第一视频片段，基于该第一视频片段确定原始视频中除第一视频片段之外，包含该目标角色的第二视频片段，将该第一视频片段和该第二视频片段的集合提取为目标视频片段，首先通过人脸识别确定包含目标角色脸部的视频片段，基于该视频频段进行该目标角色的跟踪，确定不包含该目标角色脸部，但是包含该目标角色其他部位的视频片段，即可以从原始视频中单独提取出包含该目标角色的视频片段，不需要用户手动拖动播放进度条或者点击快进按钮即可以快速且准确的找到原始视频中包含目标角色的片段，简化了用户操作，提高了目标角色定位的准确度，从而提高用户体验。

图2是根据另一示例性实施例示出的一种视频片段提取方法的流程图。该视频片段提取方法可以用于具有视频播放功能的电子设备中，该电子设备可以是智能手机、平板电脑、电子书阅读器、个人电脑等。如图2所示，该视频片段提取方法可以包括以下步骤。

在步骤202中，获取目标角色的脸部图片。

其中，用户确定目标角色之后，电子设备可以从本地或者服务器获取预先存储的该目标角色的脸部图片。

可选的，在获取目标角色的脸部图片时，可以获取该目标角色至少两个不同角度的脸部图片。

在一部电影中，一个人物角色的脸部可能会以各种角度出现，为了提高识别的准确性，可以获取目标角色各个不同角度的脸部图片，比如正脸图片以及上下左右各个角度的侧脸图片。

在步骤204中，基于该目标角色的脸部图片，通过人脸识别方式从原始视频中确定包含该目标角色的脸部的第一视频片段。

人脸识别技术是基于人的脸部特征，对于输入的图象或者视频流，首先判断其中是否存在人脸,如果存在人脸，则进一步的给出每个脸的位置、大小以及各个主要面部器官的位置信息，并依据上述这些信息，进一步提取每个人脸中所蕴涵的身份特征，将其与已知的人脸特征进行对比，从而识别图像或者视频流中每个人脸所对应的人物身份。对于通过人脸识别技术确定包含该目标角色的脸部的视频片段的步骤，本公开实施例不做赘述。

在本公开实施例中，电子设备通过获取的目标角色各个不同角度的脸部图片，在原始视频的各帧图像中进行人脸识别，确定出存在与其中一个角度的脸部图片相对应的脸部图像的视频帧，并将其中连续的视频帧确定为第一视频片段。其中，从一个原始视频中确定出的第一视频片段通常有多个。

在步骤206中，从该第一视频片段的前一个视频帧开始，向前逐一对该目标角色进行目标跟踪；将跟踪到该目标角色的视频帧组成的视频片段，确定为第二视频片段中位于该第一视频片段之前的视频片段。

在步骤208中，从该第一视频片段的后一个视频帧开始，向后逐一对该目标角色进行目标跟踪；将跟踪到该目标角色的视频帧组成的视频片段，确定为第二视频片段中位于该第一视频片段之后的视频片段。

其中，步骤206和步骤208的执行顺序不分先后，可以同时执行。

人脸识别只有在出现脸部时才能够保证识别的准确性，而视频中的角色经常是以其它随意姿态出现，因此，除了需要确定出现目标角色脸部的视频片段之外，还需要确定出现目标角色其他部位的视频片段。通常情况下，一个场景中每个角色的出现都有一定时间的连贯，因此，可以基于步骤204确定的第一视频片段，对其中出现的目标角色进行目标跟踪，以确定紧邻第一视频片段前后出现的，包含该目标角色的其他部位，比如背面的第二视频片段。

在本公开实施例中，对于第二视频片段中出现在第一视频片段之前的部分，电子设备可以首先确定该第一视频片段的前N个视频帧中的目标角色的完整图像，对该前N个视频帧中的目标角色的完整图像的图像特征(比如图像位置、尺寸以及颜色等)取平均值，从该第一视频片段的前一个视频帧开始，向前逐一对取平均值后的图像进行目标跟踪，直至下一个视频帧中未跟踪到目标角色的图像为止。电子设备将该过程中跟踪到目标角色的图像的视频帧所组成的片段确定为第二视频片段中出现在第一视频片段之前的部分。

同理，对于第二视频片段中出现在第一视频片段之后的部分，电子设备可以首先确定该第一视频片段的后N个视频帧中的目标角色的完整图像，对该后N个视频帧中的目标角色的完整图像的图像特征取平均值，从该第一视频片段的后一个视频帧开始，向后逐一对取平均值后的图像进行目标跟踪，直至下一个视频帧中未跟踪到目标角色的图像为止。电子设备将该过程中跟踪到目标角色的图像的视频帧所组成的片段确定为第二视频片段中出现在第一视频片段之后的部分。

目标跟踪的算法很多，本公开实施例可以使用目前常用的Camshift算法进行目标角色的跟踪，CamShift算法利用目标的颜色特征在视频图像中找到运动的目标所在的位置和大小，在下一视频帧中，用运动目标当前的位置和大小初始化搜索窗口，重复这个过程就可以实现对目标的连续跟踪。在每次搜寻前将搜索窗口的初始值设置为运动目标当前的位置和大小，由于搜索窗口就在运动目标可能出现的区域附近进行搜寻，这样就可以节省大量的搜寻时间，使CamShift算法具有了良好的实时性。同时，CamShift算法是通过颜色匹配找到运动目标，在目标运动的过程中，颜色信息变化不大，所以CamShift算法具有良好的鲁棒性。由于RGB颜色空间对光照亮度变化比较敏感，为了减少光照亮度变化对跟踪效果的影响，CamShift算法将图像由RGB颜色空间转化到HSV颜色空间进行后续处理。

在步骤210中，将该第一视频片段和该第二视频片段的集合提取为目标视频片段。

电子设备将第一视频片段以及该第一视频片段前后相邻的第二视频片段提取为一个目标视频片段。

在步骤212中，当提取的该目标视频片段包括两个或者两个以上非连续片段时，将提取到的该各个目标视频片段按照播放时间从先到后的顺序连接，生成一个视频剪辑。

通常情况下，一个原始视频中可以提取出多个目标视频片段。当提取的目标视频片段包括两个或者两个以上非连续的片段时，可以将各个非联系的目标视频片段合并为一个视频剪辑，以方便观众集中观看原始视频中包含目标角色的视频片段。

可选的，当该目标角色包含至少两个不同角色时，该视频剪辑为同时包含该至少两个不同角色的视频剪辑；或者，该视频剪辑为包含该至少两个不同角色中的任意角色的视频剪辑。

本公开实施例所述的方案可以允许用户同时选择多个不同的角色，当用户选择的目标角色包含至少多个不同角色时，电子设备在提取目标视频时，可以提取包含多个不同角色中任一角色的目标视频片段，即电子设备通过人脸识别获取包含多个不同角色中任意角色的第一视频片段，并根据第一视频片段获取包含该任意角色的第二视频片段，并根据第一视频片段和第二视频片段生成包含多个不同角色中任意角色的视频剪辑；或者，电子设备也可以只获取同时包含多个不同角色的第一视频片段，并根据第一视频片段获取同时包含多个不同角色的第二视频片段，并根据第一视频片段和第二视频片段生成同时包含多个不同角色的视频剪辑。

或者，当用户选择的目标角色包含至少多个不同角色时，电子设备也可以分别对各个不同的角色提取第一视频片段和第二视频片段，并对各个不同的角色对应的第一视频片段和第二视频片段取并集，即获得包含多个不同角色中任意角色的视频剪辑，或者，对各个不同的角色对应的第一视频片段和第二视频片段取交集，即获得同时包含多个不同角色的视频剪辑。

可选的，电子设备还可以根据该目标视频片段的内容元素为该目标视频片段生成文字描述；其中，该内容元素包括该目标角色的角色名以及该目标视频片段的字幕中的至少一种。

图3是根据又一示例性实施例示出的一种视频片段提取方法的流程图。该视频片段提取方法可以用于具有视频播放功能的电子设备中，该电子设备可以是智能手机、平板电脑、电子书阅读器、个人电脑等。如图3所示，该视频片段提取方法可以包括以下步骤。

在步骤302中，展示目标角色选择区域，该目标角色选择区域中包含该原始视频中的各个角色的标识；将至少一个被选择的标识对应的角色确定为该目标角色；从本地或者服务器获取该目标角色的脸部图片。

以图4所示的一种可操作界面的示意图为例，其中，电子设备的视频播放界面400中包含视频播放区域410和目标角色选择区域420，当视频播放区域410中播放某一原始视频时，目标角色选择区域420中包含该原始视频中各个主要目标角色对应的片段选项，各个片段选项以对应的目标角色的角色名或演员名进行标识。用户在目标角色选择区域420中点击“Aa的片段”选项422时，电子设备从本地或者服务器获取目标角色Aa的脸部图片。

在步骤304中，展示可框选区域，该可框选区域的背景为该原始视频中的一个视频帧；将该可框选区域中被框选部分的背景中包含的至少一个人脸图片获取为该目标角色的脸部图片。

以图5所示的另一种可操作界面的示意图为例，其中，电子设备的视频播放界面500中包含视频播放区域510和角色框选按钮520，视频播放区域510不可框选，当视频播放区域510中播放某一原始视频，且当前画面中出现用户感兴趣的目标角色时，用户可以点击角色框选按钮520，此时，视频播放区域510中播放的画面暂停，同时视频播放区域510转化为可框选区域，用户使用光标在该可框选区域中框选出目标角色的脸部部分图片，电子设备将用户框选部分512中的图片作为该目标角色的脸部图片。

在步骤306中，展示文本输入框；接收在该文本输入框中输入的至少一个角色名称；根据该至少一个角色名称从本地或者服务器获取该目标角色的脸部图片。

以图6所示的又一种可操作界面的示意图为例，其中，电子设备的视频播放界面600中包含视频播放区域610和文本输入框620，当视频播放区域610中播放某一原始视频，若用户只想观看该原始视频中的目标角色的片段，则可以在文本输入框620中输入目标角色的角色名或者演员名，并点击“只看他/她”按钮630，电子设备即根据用户输入的角色名或者演员名，从本地或者服务器获取该目标角色在该原始视频的剧照中的脸部图片。

上述步骤302、304以及306中，电子设备获取的脸部图片可以是预先存储的，也可以是电子设备从互联网中实时检索获得的。

其中，步骤302、304以及306中任一步骤得以执行都可以获得目标角色的脸部图片，通常情况下，只需要执行其中的一个步骤即可，在某些情况下，也可以结合其中的两个或者三个步骤来确定目标角色的脸部图片，以提高确定的准确性。

在一部电影中，一个人物角色的脸部可能会以各种角度出现，为了提高后续识别的准确性，可以获取该目标角色各个不同角度的脸部图片，比如正脸图片以及上下左右各个角度的侧脸图片。

在步骤308中，基于该目标角色的脸部图片，通过人脸识别方式从原始视频中确定包含该目标角色的脸部的第一视频片段。

在本公开实施例中，电子设备通过获取的目标角色的各个不同角度的脸部图片，在原始视频的各帧图像中进行人脸识别，确定出存在与其中一个角度的脸部图片相对应的脸部图像的视频帧，并将其中连续的视频帧确定为第一视频片段。其中，从一个原始视频中确定出的第一视频片段通常有多个。

在步骤310中，从该第一视频片段的前一个视频帧开始，向前逐一对该目标角色进行目标跟踪；将跟踪到该目标角色的视频帧组成的视频片段，确定为第二视频片段中位于该第一视频片段之前的视频片段。

在步骤312中，从该第一视频片段的后一个视频帧开始，向后逐一对该目标角色进行目标跟踪；将跟踪到该目标角色的视频帧组成的视频片段，确定为第二视频片段中位于该第一视频片段之后的视频片段。

其中，步骤310和步骤312的执行顺序不分先后，可以同时执行。

人脸识别只有在出现脸部时才能够保证识别的准确性，而视频中的角色经常是以侧面或者其它随意姿态出现，因此，除了需要确定出现目标角色脸部的视频片段之外，还需要确定出现目标角色其他部位的视频片段。通常情况下，一个场景中每个角色的出现都有一定时间的连贯，因此，可以基于步骤204确定的第一视频片段，对其中出现的目标角色进行目标跟踪，以确定紧邻第一视频片段前后出现的，包含该目标角色其他部位，比如背面的第二视频片段。

在步骤314中，将该第一视频片段和该第二视频片段的集合提取为目标视频片段。

在步骤316中，确定相邻两个目标视频片段之间的播放时间间隔，检测该播放时间间隔是否小于预设的时间间隔阈值；若是，则将该相邻两个目标视频片段以及该相邻两个目标视频片段之间的视频片段进行合并。

其中，该播放时间间隔为该相邻两个目标视频片段中的前一个目标视频片段的播放结束时间点与后一个目标视频片段的播放开始时间点之间的间隔。

通常情况下，一个原始视频中可以提取出多个目标视频片段，两个相邻的目标视频片段的剧情可能具有较强的连续性，且两个相邻的目标视频片段相隔的播放时间越短，其剧情的连续性通常也越强。对此，当提取的该目标视频片段包括两个或者两个以上非连续片段时，电子设备可以检测两个相邻的目标视频片段之间的播放时间间隔是否小于预设值，若是，则说明这两个相邻的目标视频片段可能同属同一个剧情场景，可以将这两个相邻的目标视频片段以及这两个片段之间的视频片段进行合并，生成一个较大的目标视频片段。该较大的目标视频片段的起始播放时间是两个相邻的目标视频片段中的前一片段的起始播放时间，该较大的目标视频片段的结束播放时间是两个相邻的目标视频片段中的后一片段的结束播放时间。比如，片段1和片段2是相邻的两个目标视频片段，片段1在前，片段2在后；片段1的起止时间是[a₁，a₂]，片段2的起止时间是[b₁，b₂]，当b₁-a₂小于一定阈值时，将片段1和片段2合成为一个片段，起止时间跨度为[a₁，b₂]，也就是将[a₂，b₁]这段没有出现目标角色的时间段也加入到目标视频片段中。

在步骤318中，将各个目标视频片段按照播放时间从先到后的顺序连接，生成一个视频剪辑。

一个原始视频中提取出的目标视频片段经过合并后仍然可能有多个。当合并后获得的目标视频片段包括两个或者两个以上非连续的片段时，可以将各个非联系的目标视频片段合并为一个视频剪辑，以方便观众集中观看原始视频中包含目标角色的视频片段。

在步骤320中，根据目标视频片段的内容元素为目标视频片段生成文字描述。

为了便于观众了解各个目标视频片段的剧情内容，针对每一个目标视频片段，电子设备还可以从字幕中获取该目标视频片段中的各个角色的对话，从中提取出主要的剧情相关内容，并结合目标角色的角色名生成简单的文字描述，后续在展示该目标视频片段的播放选项时，可以一并展示该文字描述。

在本公开实施例中，仅以电子设备独立完成目标角色的脸部图片的获取、人脸识别、目标跟踪、视频片段提取、合并、剪辑生成以及文字描述的生成等步骤为例加以说明。在实际应用中，还可以将上述步骤分别设置在不同的设备中执行，比如，可以由用户设备(比如智能手机、平板电脑、个人电脑等)接收用户的目标角色选择操作并获取目标角色的脸部图片，用户设备将获取到的目标角色的脸部图片发送给服务器，由服务器进行后续人脸识别、目标跟踪、视频片段提取、合并、剪辑生成以及文字描述的生成等步骤。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图7是根据一示例性实施例示出的一种视频片段提取装置的框图，该视频片段提取装置可以用于执行如图1至3任一所示的方法。如图7所示，该视频片段提取装置包括但不限于：图片获取模块701、人脸识别模块702、目标跟踪模块703以及片段提取模块704；

所述图片获取模块701被设置为用于获取目标角色的脸部图片；

所述人脸识别模块702被设置为用于基于所述目标角色的脸部图片，通过人脸识别方式从原始视频中确定包含所述目标角色的脸部的第一视频片段；

所述目标跟踪模块703被设置为用于基于所述第一视频片段对所述目标角色进行目标跟踪，确定原始视频中除第一视频片段之外，包含所述目标角色的第二视频片段；

所述片段提取模块704被设置为用于将所述第一视频片段和所述第二视频片段的集合提取为目标视频片段。

综上所述，本公开实施例中提供的视频片段提取装置，通过获取目标角色的脸部图片，通过人脸识别方式从原始视频中确定包含该目标角色的脸部的第一视频片段，基于该第一视频片段确定原始视频中除第一视频片段之外，包含该目标角色的第二视频片段，将该第一视频片段和该第二视频片段的集合提取为目标视频片段，首先通过人脸识别确定包含目标角色脸部的视频片段，基于该视频频段进行该目标角色的跟踪，确定不包含该目标角色脸部，但是包含该目标角色其他部位的视频片段，即可以从原始视频中单独提取出包含该目标角色的视频片段，不需要用户手动拖动播放进度条或者点击快进按钮即可以快速且准确的找到原始视频中包含目标角色的片段，简化了用户操作，提高了目标角色定位的准确度，从而提高用户体验。

图8是根据一示例性实施例示出的一种视频片段提取装置的框图，该视频片段提取装置可以用于执行如图1至3任一所示的方法。如图8所示，该视频片段提取装置包括但不限于：图片获取模块701、人脸识别模块702、目标跟踪模块703以及片段提取模块704；

可选的，所述目标跟踪模块703，包括：第一跟踪子模块703a以及第二跟踪子模块703b；

所述第一跟踪子模块703a被设置为用于从所述第一视频片段的前一个视频帧开始，向前逐一对所述目标角色进行目标跟踪；将跟踪到所述目标角色的视频帧组成的视频片段，确定为所述第二视频片段中位于所述第一视频片段之前的视频片段；

所述第二跟踪子模块703b被设置为用于从所述第一视频片段的后一个视频帧开始，向后逐一对所述目标角色进行目标跟踪；将跟踪到所述目标角色的视频帧组成的视频片段，确定为所述第二视频片段中位于所述第一视频片段之后的视频片段。

可选的，所述图片获取模块701，包括：第一展示子模块701a、角色确定子模块701b和第一获取子模块701c，或者，所述图片获取模块701，包括：第二展示子模块701d和第二获取子模块701e，或者，所述图片获取模块701，包括：第三展示子模块701f、输入接收子模块701g和第三获取子模块701h；

所述第一展示子模块701a被设置为用于展示目标角色选择区域，所述目标角色选择区域中包含所述原始视频中的各个角色的标识；

所述角色确定子模块701b被设置为用于将至少一个被选择的标识对应的角色确定为所述目标角色；

所述第一获取子模块701c被设置为用于从本地或者服务器获取所述目标角色的脸部图片；

所述第二展示子模块701d被设置为用于展示可框选区域，所述可框选区域的背景为所述原始视频中的一个视频帧；

所述第二获取子模块701e被设置为用于将所述可框选区域中被框选部分的背景中包含的至少一个人脸图片获取为所述目标角色的脸部图片；

所述第三展示子模块701f被设置为用于展示文本输入框；

所述输入接收子模块701g被设置为用于接收在所述文本输入框中输入的至少一个角色名称；

所述第三获取子模块701h被设置为用于根据所述至少一个角色名称从本地或者服务器获取所述目标角色的脸部图片。

可选的，所述图片获取模块701，用于获取所述目标角色至少两个不同角度的脸部图片。

可选的，所述装置还包括：时间间隔确定模块705、检测模块706以及片段合并模块707；

所述时间间隔确定模块705被设置为用于当提取的所述目标视频片段包括两个或者两个以上非连续片段时，确定相邻两个目标视频片段之间的播放时间间隔，所述播放时间间隔为所述相邻两个目标视频片段中的前一个目标视频片段的播放结束时间点与后一个目标视频片段的播放开始时间点之间的间隔；

所述检测模块706被设置为用于检测所述播放时间间隔是否小于预设的时间间隔阈值；

所述片段合并模块707被设置为用于若所述播放时间间隔小于所述时间间隔阈值，则将所述相邻两个目标视频片段以及所述相邻两个目标视频片段之间的视频片段进行合并。

可选的，所述装置还包括：剪辑生成模块708；

所述剪辑生成模块708被设置为用于当提取的所述目标视频片段包括两个或者两个以上非连续片段时，将提取到的所述各个目标视频片段按照播放时间从先到后的顺序连接，生成一个视频剪辑。

可选的，当所述目标角色包含至少两个不同角色时，所述视频剪辑为同时包含所述至少两个不同角色的视频剪辑；或者，所述视频剪辑为包含所述至少两个不同角色中的任意角色的视频剪辑。

可选的，所述装置还包括：描述生成模块709；

所述描述生成模块709被设置为用于根据所述目标视频片段的内容元素为所述目标视频片段生成文字描述；

综上所述，本公开实施例中提供的视频片段提取装置，通过获取目标角色的脸部图片，通过人脸识别方式从原始视频中确定包含该目标角色的脸部的第一视频片段，基于该第一视频片段确定原始视频中除了第一视频片段之外，包含该目标角色的第二视频片段，将该第一视频片段和该第二视频片段的集合提取为目标视频片段，首先通过人脸识别确定包含目标角色脸部的视频片段，基于该视频频段进行该目标角色的跟踪，确定不包含该目标角色脸部，但是包含该目标角色其他部位的视频片段，即可以从原始视频中单独提取出包含该目标角色的视频片段，不需要用户手动拖动播放进度条或者点击快进按钮即可以快速且准确的找到原始视频中包含目标角色的片段，简化了用户操作，提高了目标角色定位的准确度，从而提高用户体验。

图9是根据一示例性实施例示出的一种视频片段提取装置900的框图。例如，装置900可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图9，装置900可以包括以下一个或多个组件：处理组件902，存储器904，电源组件906，多媒体组件908，音频组件910，输入/输出(I/O)的接口912，传感器组件914，以及通信组件916。

处理组件902通常控制装置900的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器918来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理组件902可以包括多媒体模块，以方便多媒体组件908和处理组件902之间的交互。

存储器904被配置为存储各种类型的数据以支持在装置900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储器904中还存储有一个或多个模块，该一个或多个模块被配置成由该一个或多个处理器920执行，以完成上述图1至3任一所示的全部或者部分步骤。

电源组件906为装置900的各种组件提供电力。电源组件906可以包括电源管理系统，一个或多个电源，及其他与为装置900生成、管理和分配电力相关联的组件。

多媒体组件908包括在所述装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件908包括一个前置摄像头和/或后置摄像头。当装置900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件910被配置为输出和/或输入音频信号。例如，音频组件910包括一个麦克风(MIC)，当装置900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中，音频组件910还包括一个扬声器，用于输出音频信号。

I/O接口912为处理组件902和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件914包括一个或多个传感器，用于为装置900提供各个方面的状态评估。例如，传感器组件914可以检测到装置900的打开/关闭状态，组件的相对定位，例如所述组件为装置900的显示器和小键盘，传感器组件914还可以检测装置900或装置900一个组件的位置改变，用户与装置900接触的存在或不存在，装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件914还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件916还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器904，上述指令可由装置900的处理器918执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图10是根据一示例性实施例示出的一种视频片段提取装置1000的框图。该装置1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1022(例如，一个或一个以上处理器)和存储器1032，一个或一个以上存储应用程序1042或数据1044的存储介质1030(例如一个或一个以上海量存储设备)。其中，存储器1032和存储介质1030可以是短暂存储或持久存储。存储在存储介质1030的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对装置中的一系列指令操作，这一系列的指令操作可以用于执行如图1至3任一所示的全部或者部分步骤。更进一步地，中央处理器1022可以设置为与存储介质1030通信，在装置1000上执行存储介质1030中的一系列指令操作。

装置1000还可以包括一个或一个以上电源1026，一个或一个以上有线或无线网络接口1050，一个或一个以上输入输出接口1058，一个或一个以上键盘1056，和/或，一个或一个以上操作系统1041，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中执行了详细描述，此处将不做详细阐述说明。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种视频片段提取方法，其特征在于，所述方法包括：

获取目标角色的脸部图片；

基于所述第一视频片段对所述目标角色进行目标跟踪，确定所述原始视频中除所述第一视频片段之外，包含所述目标角色的第二视频片段，

其中，所述基于所述第一视频片段对所述目标角色进行目标跟踪，确定所述原始视频中除所述第一视频片段之外，包含所述目标角色的第二视频片段，包括：对所述第一视频片段中出现的所述目标角色进行跟踪，以在原始视频中确定紧邻所述第一视频片段出现的第二视频片段，所述第二视频片段为不包含所述目标角色脸部，但是包含所述目标角色其他部位的视频片段；

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一视频片段对所述目标角色进行目标跟踪，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取目标角色的脸部图片，包括：

或者，

4.根据权利要求1所述的方法，其特征在于，所述获取目标角色的脸部图片，包括：

获取所述目标角色至少两个不同角度的脸部图片。

5.根据权利要求1所述的方法，其特征在于，当提取的所述目标视频片段包括两个或者两个以上非连续片段时，所述方法还包括：

检测所述播放时间间隔是否小于预设的时间间隔阈值；

6.根据权利要求1所述的方法，其特征在于，当提取的所述目标视频片段包括两个或者两个以上非连续片段时，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，当所述目标角色包含至少两个不同角色时，

或者，

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

9.一种视频片段提取装置，其特征在于，所述装置包括：

图片获取模块，用于获取目标角色的脸部图片；

目标跟踪模块，用于基于所述第一视频片段对所述目标角色进行目标跟踪，确定所述原始视频中除所述第一视频片段之外，包含所述目标角色的第二视频片段，

10.根据权利要求9所述的装置，其特征在于，所述目标跟踪模块，包括：

11.根据权利要求9所述的装置，其特征在于，所述图片获取模块，包括：第一展示子模块、角色确定子模块和第一获取子模块，或者，所述图片获取模块，包括：第二展示子模块和第二获取子模块，或者，所述图片获取模块，包括：第三展示子模块、输入接收子模块和第三获取子模块；

所述第三展示子模块，用于展示文本输入框；

12.根据权利要求9所述的装置，其特征在于，

所述图片获取模块，用于获取所述目标角色至少两个不同角度的脸部图片。

13.根据权利要求9所述的装置，其特征在于，所述装置还包括：

14.根据权利要求9所述的装置，其特征在于，所述装置还包括：

15.根据权利要求14所述的装置，其特征在于，当所述目标角色包含至少两个不同角色时，

或者，

16.根据权利要求9所述的装置，其特征在于，所述装置还包括：

17.一种视频片段提取装置，其特征在于，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取目标角色的脸部图片；

其中，所述基于所述第一视频片段对所述目标角色进行目标跟踪，确定所述原始视频中除所述第一视频片段之外，包含所述目标角色的第二视频片段，包括：通过目标跟踪算法对所述第一视频片段中出现的所述目标角色进行跟踪，以在原始视频中确定紧邻所述第一视频片段出现的第二视频片段，所述第二视频片段为不包含所述目标角色脸部，但是包含所述目标角色其他部位的视频片段；