CN110119711B

CN110119711B - 一种获取视频数据人物片段的方法、装置及电子设备

Info

Publication number: CN110119711B
Application number: CN201910397554.2A
Authority: CN
Inventors: 韩冰
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-05-14
Filing date: 2019-05-14
Publication date: 2021-06-11
Anticipated expiration: 2039-05-14
Also published as: CN110119711A

Abstract

本申请实施例提供了一种获取视频数据人物片段的方法、装置及电子设备，其中，该方法包括:获取待处理视频图像；将待处理视频图像拆分成为时序上连续的多个单帧图像；将多个单帧图像输入预设的第一模型进行人脸识别检测，得到目标人员图像；将获取的视频图像输入预设的第二模型进行场景分类，得到各分类场景图像；按照时间戳，对目标人员图像与各分类场景图像进行匹配，得到各分类场景图像中包括的目标人员；将包括同一目标人员的各分类场景图像进行合并，得到第一视频片段集合。本发明将人脸识别和场景检测技术结合到一起生成目标人员的出演片段节约了时间，同时采取合并场景类型图像，使得演员在影视剧片段中出现的跳变性变小。

Description

一种获取视频数据人物片段的方法、装置及电子设备

技术领域

本申请涉及互联网图像处理技术领域，特别是涉及一种获取视频数据人物片段的方法、装置及电子设备。

背景技术

随着互联网的发展，越来越多的用户喜欢利用网络来观看视频，由于每位用户的自身教育、社会经历、性格等因素的影响，会对不同的演员有着自己独特的偏爱，例如部分用户会对某位演员在影视剧中的某个场景片段的表现产生浓厚的兴趣，而对于其余的演员在影视剧中的片段不感兴趣。

现有技术，通过计算机视觉技术对视频数据进行分析，提取出包括目标人物的各视频帧，然后将各视频拼接为人物片段进行展示。

然而，本申请的发明人发现，仅提取包含目标人物的视频帧，容易产生人物片段跳跃的情况，造成人物片段不连续，人物片段质量差。

发明内容

本申请实施例的目的在于提供一种获取视频数据人物片段的方法、装置及电子设备，以实现减少人物片段不连续的情况，提高人物片段质量。具体技术方案如下：

第一方面，本发明实施例提供了一种获取视频数据人物片段的方法，所述方法包括：

获取待处理视频图像；

将所述待处理视频图像拆分成为时序上连续的多个单帧图像；

将多个所述单帧图像输入预设的第一模型进行人脸识别检测，得到目标人员图像，其中所述预设的第一模型具有特定人脸检测和识别能力，所述目标人员图像为包含目标人员的人脸的图像组；

将获取的所述视频图像输入预设的第二模型进行场景分类，得到各分类场景图像，其中所述预设的第二模型具有特定场景的检测能力，所述分类场景图像为一类场景的多个单帧图像的集合；

按照时间戳，对所述目标人员图像与所述各分类场景图像进行匹配，得到各所述分类场景图像中包括的目标人员；

将包括同一所述目标人员的各所述分类场景图像进行合并，得到第一视频片段集合。

可选的，所述目标人员为多个人员，所述将多个所述单帧图像输入预设的第一模型进行人脸识别检测，得到目标人员图像，包括:

针对每个目标人员，利用第一模型对各所述单帧图像进行人脸识别，得到包含该目标人员的图像；

将包含每个目标人员的图像进行合并，得到所述目标人员图像。

可选的，所述利用第一模型对各所述单帧图像进行人脸识别，包括：

提取各所述单帧图像中人脸区域的人脸面部特征；

基于所述第一模型的数据库中的模板人脸特征，对各所述单帧图像的人脸面部特征进行对比，输出目标人员在各所述单帧图像中出现的置信度；

根据各所述置信度的大小，判断各所述单帧图像中是否出现所述目标人员。

可选的，所述按照时间戳，对所述目标人员图像与所述各分类场景图像进行匹配，得到各所述分类场景图像中包括的目标人员，包括：

获取所述各分类场景图像的时间戳和所述目标人员图像的时间戳；

判断所述目标人员图像的时间戳是否在该分类场景图像的时间戳的范围内；

如果是，则确定该分类场景图像中包括所述目标人员。

可选的，所述第一视频片段集合包括各所述目标人员的第二视频片段集合，所述将包括同一所述目标人员的各所述分类场景图像进行合并，得到第一视频片段集合，包括：

分别获取各所述目标人员的分类场景图像；

分别将各所述目标人员的分类场景图像中时间间隔小于预设阈值的分类场景图像进行合并，得到各所述目标人员的第二视频片段集合；

分别判断所述第二视频片段集合中的各个片段的时长是否小于预设时长阈值；

删除所述第二视频片段集合中时长小于所述预设时长阈值的片段。

第二方面，本发明实施例提供一种获取视频数据人物片段的装置，所述装置包括：

获取模块，配置用于获取待处理视频图像；

拆分模块，配置用于将所述待处理视频图像拆分成为时序上连续的多个单帧图像；

人脸识别检测模块，配置用于将多个所述单帧图像输入预设的第一模型进行人脸识别检测，得到目标人员图像，其中所述预设的第一模型具有特定人脸检测和识别能力，所述目标人员图像为包含目标人员的人脸的图像组；

场景分类检测模块，配置用于将获取的所述视频图像输入预设的第二模型进行场景分类，得到各分类场景图像，其中所述预设的第二模型具有特定场景的检测能力，所述分类场景图像为一类场景的多个单帧图像的集合；

匹配模块，配置用于按照时间戳，对所述目标人员图像与所述各分类场景图像进行匹配，得到各所述分类场景图像中包括的目标人员；

合并模块，配置用于将包括同一所述目标人员的各所述分类场景图像进行合并，得到第一视频片段集合。

可选的，所述人脸识别检测模块，包括：

识别子模块，配置用于针对每个目标人员，利用第一模型对各所述单帧图像进行人脸识别，得到包含该目标人员的图像；

合并子模块，配置用于将包含每个目标人员的图像进行合并，得到所述目标人员图像。

可选的，所述识别子模块，包括：

提取单元，配置用于提取各所述单帧图像中人脸区域的人脸面部特征；

对比单元，配置用于基于所述第一模型的数据库中的模板人脸特征，对各所述单帧图像的人脸面部特征进行对比，输出目标人员在各所述单帧图像中出现的置信度；

判断单元，配置用于根据各所述置信度的大小，判断各所述单帧图像中是否出现所述目标人员。

可选的，所述匹配模块，具体用于：

如果是，则确定该分类场景图像中包括所述目标人员。

可选的，所述第一视频片段集合包括各所述目标人员的第二视频片段集合，所述合并模块，具体用于：

分别获取各所述目标人员的分类场景图像；

第三方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行存储器上所存放的程序时，实现上述第一方面任一所述的获取视频数据人物片段的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面任一所述的获取视频数据人物片段的方法。

第五方面，本发明实施例还提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面任一所述的获取视频数据人物片段的方法。

本申请实施例提供的一种获取视频数据人物片段的方法、装置及电子设备。获取待处理视频图像；将待处理视频图像拆分成为时序上连续的多个单帧图像；将多个单帧图像输入预设的第一模型进行人脸识别检测，得到目标人员图像，其中预设的第一模型具有特定人脸检测和识别能力，目标人员图像为包含目标人员的人脸的图像组；将获取的视频图像输入预设的第二模型进行场景分类，得到各分类场景图像，其中预设的第二模型具有特定场景的检测能力，分类场景图像为一类场景的多个单帧图像的集合；按照时间戳，对目标人员图像与各分类场景图像进行匹配，得到各分类场景图像中包括的目标人员；将包括同一目标人员的各所述分类场景图像进行合并，得到第一视频片段集合。本方案采取将人脸识别和场景检测技术结合到一起生成目标人员的出演片段，无需人工编辑，节约了时间；并且第一视频片段集合为各场景下完整片段，同时采取合并场景类型图像，使得演员在影视剧片段中出现的跳变性变小，极大的改善了影视片段质量。当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例的获取视频数据人物片段的方法的第一种流程示意图；

图2为本发明实施例的获取视频数据人物片段的方法的第二种流程示意图；

图3为本发明实施例的获取视频数据人物片段的方法的第三种流程示意图；

图4为本发明实施例的获取视频数据人物片段的方法的第四种流程示意图；

图5为本发明实施例的获取视频数据人物片段的方法的第五种流程示意图；

图6为本发明实施例的获取视频数据人物片段的装置的一种示意图；

图7为本发明实施例的电子设备的一种示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

随着互联网技术的发展，人脸识别技术在视频数据人物片段提取方面得到了深入的应用。现有的影视剧剪辑是将影视剧中进行人脸识别检测的时间点位交给编辑做参考，由编辑完成人脸出现片段的时间框选。人脸识别是利用摄像机采集包含待识别用户的脸部特征信息的数据与预先存储的目标演员的面部数据进行对比来对待识别用户身份进行确认。

场景识别是由计算机自动根据该图像的特征来分析该图像是属于何种具体的场景，例如此处所说的室外场景可以是沙滩、城市，室内场景可以是卧室、厨房，以及事件场景可以为滑雪、跳舞等。场景识别技术在视频网络用户兴趣行为分析方面起着重要的作用，受到了广泛的关注。

现有技术中，仅提取包含目标人物的视频帧，容易产生人物片段跳跃的情况，造成人物片段不连续，人物片段质量差。比如直接利用识别演员的面部特征生成人物出现片段，若此类片段出现的时间非常短2-5秒左右，编辑人员会进行人工扩充，非常的耗费人力，并且人物出现场景之间的跳跃性较大，会造成剧情的不连续性，影响观看效果。

基于以上问题，本申请提出了一种获取视频数据人物片段的方法，可以将人脸识别和场景检测技术很好的融合到一起，可以直接产生出适合观众观看的视频数据，指定人物在特定场景下完整的影视剧片段，不需要进行后续的人工处理。

如图1所示，为本发明实施例的一种获取视频数据人物片段的方法的第一种实施例的流程图。

本申请实施例提供的获取视频数据人物片段的方法应用于视频播放的终端设备或者服务器侧的设备，该方法可以用于对上述视频数据中的人物添加相应的标记，比如标记只看“她”或者“他”，与此同时用户可以选择自己喜欢或者不喜欢的影视片段来观看。

下面，对本发明实施例的一种获取视频数据人物片段的方法进行介绍，该方法可以包括：

步骤S11，获取待处理视频图像。

具体的，本发明实施例中的视频图像可以来自于电视剧、电影、真人秀节目、网络视频、综艺视频等，可以是实时进行获取的，也可以是预先从电视剧节目、网络视频或者网站页面的后端预先获取的。具体的获取方式可以根据用户的行为习惯进行选择和调整，若视频均为实时更新的，则采取实时获取视频图像；若视频均是提前配置好且按照一定顺序循环播放的影视剧，则采取预先获取的方式。

可以理解的，出于对情节以及节目连续性的考虑，部分没有目标演员出现或者没有人物出现的视频数据也有可能属于待处理的视频图像。该视频图像由若干图像要素构成，所述图像要素至少包括图像中的人物数量、性别、季节、环境场景、时间构成。其中环境场景图像要素可以为“厨房”、“办公室”、“卧室”等具有代表性的场景来标记，“时间”可以为“早上”、“中午”、“晚上”等来划分，可以理解的是，还可以添加其他的图像要素比如“主演”、“群众”、“配角”等。

步骤S12，将待处理视频图像拆分成为时序上连续的多个单帧图像。

具体的，视频节目是由多帧视频帧组成的，在进行剪辑时是以图像为基础，识别图像时是判断待识别视频图像中是否包含需要识别的对象，例如影视剧的主演，配角和群众演员等。从待处理的视频图像中逐一提取存在需要剪辑识别的对象的视频帧，对待剪辑的视频帧进行拆分，可以得到多个单帧图像。可以理解的，此处可以利用卷积神经网络实现对待处理视频图像的处理并生成剪辑规则，并基于剪辑规则完成对视频剪辑。也可以利用网络上公开的一些开源工具完成将待处理视频按照某一固定FPS(Frame Per Second每秒传输帧数)拆解成为连续静止的多个单帧图像，为方便后期对图像和视频进行处理，因此按照时间先后顺序对视频进行拆分。比如可以利用Ffmpeg软件将指定时间段的视频文件拆分成为N张视频，该Ffmpeg软件是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。当获取到连续的多个单帧图像后，为了便于后续按照时序进行合并和剪辑时，可以对该图像编号为imageN.bmp的格式，N为正整数，其中连续的多个单帧图像可以分别依次编号为imageM.bmp、imageM+1.bmp、imageM+2.bmp等，该指定时间段可以为出现目标演员人脸的视频片段，该目标演员人脸出现的时间可以为5秒、10秒、20秒或者任意时长，此处对于目标演员出现的具体时长根据各个待处理视频图像而定，出现时长越长获得对应的单帧图像数越多，此处不作任何限制。

步骤S13，将多个单帧图像输入预设的第一模型进行人脸识别检测，得到目标人员图像，其中预设的第一模型具有特定人脸检测和识别能力，目标人员图像为包含目标人员的人脸的图像组。

具体的，预设的第一模型可以为卷积神经网络，将多个单帧图像输入到训练好的卷积神经网络中进行人脸面部特征的识别，筛选出包含目标人员的人脸的图像组。关于人脸识别，可以采用特征脸算法，原理是先将图像灰度化，然后将图像每行首尾相接拉成一个列向量，接下来为了降低运算使用PCA(Principal Component Analysis主成分分析算法)降维，最后进分类器进行分类，除了可以利用神经网络外，还可以采用KNN(k-NearestNeighbor最邻近算法)的方法，该算法没有训练过程，只是将训练数据与训练数据进行距离度量来实现分类。还可以采用数据挖掘算法，例如SVM(Support Vector Machines，支持向量机)，先在训练集上训练一个模型，然后用这个模型直接对测试集进行分类，具体第一模型采取何种算法进行识别，此处不做限制。

本申请实施例的中，每段视频图像由若干帧组成，若第一模型识别出某段影视剧一定数量的连续帧中都出现了包含某位人员的人脸图像时，则判断连续帧图像为目标人员图像，标记为主演的人脸图像；若识别出某段影视剧一定数量的不连续帧中出现了包含某位人员的人脸图像时，则判断该人脸图像也为目标人员图像，标记为配角的人脸图像。通过第一模型识别出待处理视频图像的主演和配角后，方便后期为客户端的用户剪辑推荐主演出演的视频片段集合。

此处的目标人员可以为影视剧中的主演和配角，也可以为广告视频中的主演，主演的个数和配角的个数在此不做任何的限制，即目标人员为多个人员。

步骤S14，将获取的视频图像输入预设的第二模型进行场景分类，得到各分类场景图像，其中预设的第二模型具有特定场景的检测能力，分类场景图像为一类场景的多个单帧图像的集合。

具体的，该处的场景类别可以指场景所属的类别，该场景可以是指图像中的背景，例如可以为厨房、办公室、卧室等室内场景，或者夜景、白天场景、草原场景等室外场景。因此用户可以根据自己的兴趣度对第二模型中的场景类型识别进行相关的设定。

可以理解的，预设的第二模型用于对视频图像进行场景识别，输出各分类场景图像，此处还可以对各分类场景图像进行标记，即该视频图像的场景类别可能是多个场景标签中某个特定场景指示的场景类别，每个场景类别可以包含多个单帧图像。

其中，所述的第二模型同样可以采取卷积神经网络，其可以在移动终端获取待处理的视频图像之前预先训练好，固定在移动终端的设备中。卷积神经网络通常由两部分组成，分别是卷积层和全连接层，在基本的卷积神经网络中，全连接层的作用是将经过多个卷积层和池化层的图像特征图中的特征进行整合，获取图像特征具有的高层含义，之后用于图像分类。而由于全连接层需要固定输入向量的维度，因此输入卷积神经网络的图像均为固定大小的，所以本申请实施例可以将卷积神经网络的最后一个卷积层的输出结果作为最后的识别结果，不使用全连接层，不需要对待识别视频图像大小进行设定，从而提高了图像识别的效率。

步骤S15，按照时间戳，对目标人员图像与各分类场景图像进行匹配，得到各分类场景图像中包括的目标人员。

具体的，获取第二模型识别后的各分类场景片段的时间戳1，以及第一模型识别后得到包含目标人员图像的时间戳2，按照时间戳进行对比，判断确定出各分类场景片段中包含的目标人员的个数以及出现的时间段。例如将某段待处理的视频图像经过第二模型识别后，按照图像特征，划分出了4个场景片段将视频图像拆分后得到的多个单帧图像经过第一模型识别后，检测到了目标人员A、目标人员B、目标人员C、目标人员D以及目标人员E的人脸的图像组和图像组中人脸单帧图像各自的时间戳。

可以理解的，将两个时间戳经过对比后发现在场景片段1中出现了目标人员A、目标人员B、目标人员C；在场景片段2中出现了目标人员A、目标人员B；在场景片段3中出现了目标人员B和目标人员C；在场景片段4中出现了目标人员A、目标人员C和目标人员E。

步骤S16，将包括同一目标人员的各分类场景图像进行合并，得到第一视频片段集合。

例如步骤S15中已经确定出了各分类场景图像中包括的目标人员，将目标人员A在场景片段1、场景片段2、场景片段4出现的视频帧图像进行合并，生成包含目标人员A出现的第一视频片段集合；进一步的将目标人员B在场景片段1、场景片段2、场景片段3出现的视频帧图像进行合并，生成包含目标人员B出现的第一视频片段集合；按照上述方法依次生成包含目标人员C出现的第一视频片段集合以及包含目标人员D出现的第一视频片段集合，最后将目标人员A出现的第一视频片段集合、目标人员B出现的第一视频片段集合、目标人员C出现的第一视频片段集合和目标人员D出现的第一视频片段集合归类到第一视频片段集合中，即该第一视频片段集合是包含各目标人员在各分类场景中出现的视频片段的集合。

可以理解的，第一视频片段可以包括预设的目标演员在待处理视频图像各场景出现的片段集合，用户可以在移动终端根据各自的兴趣度对影视剧目标人员进行选择，通过滑动鼠标或者触摸显示屏来选择某位目标人员在特定场景片段下的待处理视频图像片段。然而，应当理解的是，移动终端可以包括显示屏和触摸敏感表明的移动终端，移动终端支持的各种应用程序，例如可以为音乐处理应用程序、数字视频播放器应用程序。

参见图2，是本申请提供的获取视频数据人物片段的方法的第二种流程示意图，该方法应用于移动终端，如图所示目标人员为多个人员，将多个单帧图像输入预设的第一模型进行人脸识别检测，得到包含目标人员图像，包括以下步骤：

步骤S131，针对每个目标人员，利用第一模型对各单帧图像进行人脸识别，得到包含该目标人员的图像。

具体的，待处理的图像视频可以存在多个目标人员，该目标人员可以根据用户的兴趣度进行设定，比如男演员、女演员、第一主演、第二主演、第一配角、第二配角等，对于目标人员的划定在此不再赘述。可以理解的，此处的第一模型是在对各单帧图像进行人脸识别前就设定好的，不需要重复构建。将各个单帧图像依次进行人脸识别，若单帧图像中存在多个目标人员，则对该单帧图像中出现的目标人员按照一定的顺序依次进行检测和识别。如果识别结果为通过或者不通过，则确定识别结束，进行下一帧图像中对目标人员的检测，如果识别结果为不确定，第一模型(卷积神经网络)中的各个子模型会继续进行检测识别，直到检测的输出结果为通过或不通过为止。在一种可能的实施方式中，此处的第一模型可以为参数量较小并且精度偏低的神经网络，为了加快目标人员的识别速度也可以是一个浅层的并且运行速度比较快的神经网络。第一模型可以包括多个子模型，该多个子模型的计算量和运行时间递增，第一模型的各个子模型也是由不同结构的卷积神经网络实现的。

步骤S132，将包含每个目标人员的图像进行合并，得到目标人员图像。

具体的，步骤S131中将单帧图像中的每个目标人员图像筛选出来，然后对每个目标人员的图像进行合并和整理，生成目标人员A的图像、目标人员B的图像、目标人员C的图像以及目标人员D的图像，最后将目标人员A的图像、目标人员B的图像、目标人员C的图像以及目标人员D的图像进行再次合并，得到目标人员图像。该目标人员图像是由多个目标人员图像组成的集合，并且每帧图像都存在一个时间戳。

参见图3，是本申请提供的获取视频数据人物片段的方法的第三种流程示意图，利用第一模型对各帧图像进行人脸识别，包括以下步骤：

步骤S1311，提取各单帧图像中人脸区域的人脸面部特征。

步骤S1312，基于第一模型的数据库中的模板人脸特征，对各单帧图像的人脸面部特征进行对比，输出目标人员在各所述单帧图像中出现的置信度。

获取第一模型的数据库中目标人员的模板人脸特征，分别将各单帧图像的人脸面部特征与模板人脸特征进行对比，得到并输出目标人员在各单帧图像中出现的置信度。

步骤S1313，根据各置信度的大小，判断各单帧图像中是否出现目标人员。

具体的，获得待处理的影视剧时都会根据主演列表给出一个出演的人物，对每一帧图像按照列表中给出的目标人员的排序分别进行识别，设定置信阈值K，若识别结果的输出阈值大于阈值K，认为该单帧图像中出现了识别的目标人员，若识别结果的输出阈值不大于阈值K，则认为该单帧图像中没有出现目标人员。

可以获取该影视剧主演名单中的目标人员在之前公开的网络视频中的人脸图像作为训练数据，对第一模型进行训练，直到对所训练的图像人脸识别能力至少能够达到一定的识别准确度为止，也可以同时采集多个目标人员的人脸图像对第一模型同时进行训练学习。第一模型会在训练的过程中自动提取特征向量，提取特征向量是为了进行人脸面部特征的识别，所谓的人脸面部特征可以是人脸的脸颊、眉毛、鼻子、耳朵、嘴巴等，应当注意的是，特征数据越多实现人脸识别的准确度越高，但是此处对特征点的数目没有明确的限制。

参见图4，是本申请提供的获取视频数据人物片段的方法的第四种流程示意图，按照时间戳，对目标人员图像与各分类场景图像进行匹配，得到各分类场景图像中包括的目标人员，包括：

步骤S151，获取各分类场景图像的时间戳和目标人员图像的时间戳。

具体的，在本申请实施例中获得各分类场景标签的场景图像后，统计各个场景片段开始和结束的时间戳，在对待处理图像进行场景识别的时候，为了保持视频剧情的连续性，比如在某个场景开始和结束部分存在的上下文信息或者场景转换时的独白尽可能的保留下来，根据与各分类场景图像的剧情的关联性对这部分视频进行划分。例如在场景片段1和场景片段2之间存在一个场景切换的独白部分，根据剧情的关联性，可以将此独白部分划分到场景片段1的后面，即相当于对场景片段1进行了扩充，因此各分类场景图像的时间戳为最终扩充后的场景片段1的时间戳。

步骤S152，判断目标人员图像的时间戳是否在分类场景图像的时间戳的范围内。

具体的，第一模型获取到各个目标人员在待处理视频图像中出现的多个单帧图像以及每帧目标人员的图像的时间戳，结合第二模型获取到待处理视频图像的场景划分片段开始的时间戳以及结束的时间戳，上述两个时间戳进行对比，判断每帧图像中目标人员是否出现在该分类场景图像片段中。

步骤S153，如果是，则确定该分类场景图像中包括目标人员。

具体的，若目标人员图像的时间戳出现在分类场景图像的时间戳的范围内，则说明该分类场景图像中包括目标人员。例如包含目标人员A的时间戳为15S，厨房的分类场景图像的时间戳为10S-20S，则判定厨房的分类场景图像中包括目标人员A。可以理解的，一类场景片段中可以包含多个目标人员，比如厨房的场景片段中可以出现目标人员A、目标人员B、目标人员C；办公室的场景片段中可以出现目标人员A、目标人员B、目标人员D；卧室的场景片段中可以出现目标人员B、目标人员C；按照目标人员图像的时间戳和分类场景图像的时间戳的重合度对各场景中存在的目标人员进行判定，对目标人员出现在各个场景的图像帧进行提取和整合，方便用于后面的视频片段合并剪辑过程。

参见图5，是本申请提供的获取视频数据人物片段的方法的第五种流程示意图，第一视频片段集合包括各目标人员的第二视频片段集合，将包括同一目标人员的各分类场景图像进行合并，得到第一视频片段集合，包括：

步骤S161，分别获取各目标人员的分类场景图像。

步骤S162，分别将各目标人员的分类场景图像中时间间隔小于预设阈值的分类场景图像进行合并，得到各目标人员的第二视频片段集合。

步骤S163，分别判断第二视频片段集合中的各个片段的时长是否小于预设时长阈值。

步骤S164，删除第二视频片段集合中时长小于预设时长阈值的片段。

具体的，获取各个目标人员在分类场景图像的片段集合后，分别对每个目标人员出现的场景片段进行合并，得到了各目标人员的第二视频片段集合。针对每个目标人员出现的各个场景片段，设定可合并时间阈值M，若每个目标人员出现的相邻的两个场景片段中时间间隔小于M，则将这两个视频片段进行合并，若两个场景片段中时间间隔大于M，则将这两个视频片段不进行合并。例如目标人员A在场景片段1、场景片段2、场景片段3、场景片段4都出现了，但是目标人员A在场景片段1和场景片段2中出现的时间间隔小于M则将目标人员A在场景片段1和场景片段2中的部分进行合并；目标人员A在场景片段3和场景片段4中出现的时间间隔大于M，则将目标人员A在场景片段3和场景片段4中出现的部分不进行合并；目标人员A在场景片段2和场景片段3中出现的部分的时间间隔大于M，则将目标人员A在场景片段2和场景片段3中出现的部分不进行合并。

可以理解的，在本申请实施例中设定合并后的片段总长阈值为T，若T为15秒，则对于合并后的第一视频集合中目标人员A出现的视频片段时长大于或者等于15秒的视频片段筛选出来作为第二视频集合，对于小于15秒的视频片段进行删除过滤，另外合并后的第一视频集合中的目标人员B出现的视频片段时长大于或者等于15秒的视频片段筛选出来作为第二视频集合，对于小于15秒的视频片段进行删除过滤，以此类推，完成各目标人员最后的视频剪辑合并作业。该步骤主要是为了解决影视剧中配角出现的时间太短，用户对于这类演员的兴趣度不高，因此在进行人物片段剪辑的时候进行了过滤，保留了出场次数较多，时间较长的人物片段。

第二方面，本发明实施例提供了一种获取视频数据人物片段的装置，参见图6，该装置包括：

获取模块21，配置用于获取待处理视频图像。

拆分模块22，配置用于将待处理视频图像拆分成为时序上连续的多个单帧图像。

人脸识别检测模块23，配置用于将多个单帧图像输入预设的第一模型进行人脸识别检测，得到目标人员图像，其中预设的第一模型具有特定人脸检测和识别能力，目标人员图像为包含目标人员的人脸的图像组。

场景分类检测模块24，配置用于将获取的视频图像输入预设的第二模型进行场景分类，得到各分类场景图像，其中预设的第二模型具有特定场景的检测能力，分类场景图像为一类场景的多个单帧图像的集合。

匹配模块25，配置用于按照时间戳，对目标人员图像与各分类场景图像进行匹配，得到各分类场景图像中包括的目标人员。

合并模块26，配置用于将包括同一目标人员的各分类场景图像进行合并，得到第一视频片段集合。

可选的，人脸识别检测模块23，包括：

识别子模块，配置用于针对每个目标人员，利用第一模型对各所述单帧图像进行人脸识别，得到包含该目标人员的图像。

可选的，识别子模块，包括：

提取单元，配置用于提取各单帧图像中人脸区域的人脸面部特征。

对比单元，配置用于基于第一模型的数据库中的模板人脸特征，对各单帧图像的人脸面部特征进行对比，输出目标人员在各单帧图像中出现的置信度。

判断单元，配置用于根据各置信度的大小，判断各单帧图像中是否出现所述目标人员。

可选的，匹配模块25，具体用于：

获取各分类场景图像的时间戳和目标人员图像的时间戳；判断目标人员图像的时间戳是否在该分类场景图像的时间戳的范围内；如果是，则确定该分类场景图像中包括所述目标人员。

可选的，第一视频片段集合包括各目标人员的第二视频片段集合，合并模块26，具体用于：

分别获取各目标人员的分类场景图像；分别将各目标人员的分类场景图像中时间间隔小于预设阈值的分类场景图像进行合并，得到各目标人员的第二视频片段集合；分别判断第二视频片段集合中的各个片段的时长是否小于预设时长阈值；删除第二视频片段集合中时长小于预设时长阈值的片段。

本发明实施例还提供了一种电子设备，如图7所示，包括处理器701、通信接口702、存储器703和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信，

存储器703，用于存放计算机程序；

处理器701，用于执行存储器703上所存放的程序时，实现如下步骤：

获取待处理视频图像；

将待处理视频图像拆分成为时序上连续的多个单帧图像；

将多个单帧图像输入预设的第一模型进行人脸识别检测，得到目标人员图像，其中预设的第一模型具有特定人脸检测和识别能力，目标人员图像为包含目标人员的人脸的图像组；

将获取的视频图像输入预设的第二模型进行场景分类，得到各分类场景图像，其中预设的第二模型具有特定场景的检测能力，分类场景图像为一类场景的多个单帧图像的集合；

按照时间戳，对目标人员图像与各分类场景图像进行匹配，得到各分类场景图像中包括的目标人员；

将包括同一目标人员的各分类场景图像进行合并，得到第一视频片段集合。

可选的，处理器701用于执行存储器703上所存放的程序时，还能够实现上述任一获取视频数据人物片段的方法。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请实施例还提供了一种计算机可读存储介质，上述计算机可读存储介质内存储有计算机程序，上述计算机程序被处理器执行时实现如下步骤：

获取待处理视频图像；

将待处理视频图像拆分成为时序上连续的多个单帧图像；

本方案采取将人脸识别和场景检测技术结合到一起生成目标人员的出演片段，无需人工编辑，节约了时间；并且第一视频片段集合为各场景下完整片段，同时采取合并场景类型图像，使得演员在影视剧片段中出现的跳变性变小，极大的改善了影视片段质量。

可选的，上述计算机程序被处理器执行时，还能够实现上述任一获取视频数据人物片段的方法。

本发明实施例还提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一获取视频数据人物片段的方法。

需要说明的是，在本文中，各个可选方案中的技术特征只要不矛盾均可组合来形成方案，这些方案均在本申请公开的范围内。诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机程序产品及存储介质的实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种获取视频数据人物片段的方法，其特征在于，所述方法包括：

获取待处理视频图像；

2.根据权利要求1所述的方法，其特征在于，所述目标人员为多个人员，所述将多个所述单帧图像输入预设的第一模型进行人脸识别检测，得到目标人员图像，包括:

3.根据权利要求2所述的方法，其特征在于，所述利用第一模型对各所述单帧图像进行人脸识别，包括：

提取各所述单帧图像中人脸区域的人脸面部特征；

4.根据权利要求1所述的方法，其特征在于，所述按照时间戳，对所述目标人员图像与所述各分类场景图像进行匹配，得到各所述分类场景图像中包括的目标人员，包括：

如果是，则确定该分类场景图像中包括所述目标人员。

5.根据权利要求1所述的方法，其特征在于，所述第一视频片段集合包括各所述目标人员的第二视频片段集合，所述将包括同一所述目标人员的各所述分类场景图像进行合并，得到第一视频片段集合，包括：

分别获取各所述目标人员的分类场景图像；

6.一种获取视频数据人物片段的装置，其特征在于，所述装置包括：

获取模块，配置用于获取待处理视频图像；

7.根据权利要求6所述的装置，其特征在于，所述人脸识别检测模块，包括：

8.根据权利要求7所述的装置，其特征在于，所述识别子模块，包括：

9.根据权利要求6所述的装置，其特征在于，所述匹配模块，包括：

如果是，则确定该分类场景图像中包括所述目标人员。

10.根据权利要求6所述的装置，其特征在于，所述第一视频片段集合包括各所述目标人员的第二视频片段集合，所述合并模块，具体用于：

分别获取各所述目标人员的分类场景图像；

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-5任一所述的获取视频数据人物片段的方法。