CN115484474A

CN115484474A - 视频剪辑处理方法、装置、电子设备及存储介质

Info

Publication number: CN115484474A
Application number: CN202110587602.1A
Authority: CN
Inventors: 张振伟
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2022-12-16

Abstract

本申请提供了一种视频剪辑处理方法、装置、电子设备及计算机可读存储介质；方法包括：获取至少一个视频的人脸数据，其中，人脸数据包括至少一个人脸图像序列，且每个人脸图像序列包括一个用户的人脸图像，人脸图像是用户在观看视频的过程中对用户采集得到的；对每个人脸图像序列进行表情识别处理，得到视频中至少一个视频片段的表情标签；根据每个视频片段对应的开始时间和结束时间对视频进行剪辑处理，得到每个视频片段的文件；基于至少一个视频的视频片段的表情标签，对至少一个视频的视频片段的文件进行聚类处理，得到至少一个表情标签对应的视频合集。通过本申请，能够实现视频的精确剪辑，并生成自动不同的视频合集。

Description

视频剪辑处理方法、装置、电子设备及存储介质

技术领域

本申请涉及视频处理技术领域，尤其涉及一种视频剪辑处理方法、装置、电子设备及计算机可读存储介质。

背景技术

视频剪辑技术是一种对视频进行裁剪得到该视频中的一个或者多个视频片段的技术，例如以电影为例，对总时长为60分钟的电影进行剪辑，得到该电影中第5分钟至第10分钟之间的电影片段作为该电影的精彩片段。

然而，相关技术提供的视频剪辑方案中，主要由人工来完成剪辑操作，需要依赖人工去判断视频内容、然后人工标识出视频中用户可能感兴趣的视频片段并进行剪辑，整个过程需要消耗大量的人力成本和时间成本，并且还很容易出现由于人为疏忽或者剪辑人员的主观判断导致漏剪或者多剪的情况发生，也就是说，相关技术提供的方案中视频剪辑的效率较低且精确度较差，导致剪辑出的视频内容无法满足用户的真实需求。

发明内容

本申请实施例提供一种视频剪辑处理方法、装置、电子设备及计算机可读存储介质，能够实现视频的精确剪辑，并自动生成不同表情标签分别对应的视频合集。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种视频剪辑处理方法，包括：

获取至少一个视频的人脸数据，其中，所述人脸数据包括至少一个人脸图像序列，且每个所述人脸图像序列包括一个用户的人脸图像，所述人脸图像是所述用户在观看所述视频的过程中对所述用户采集得到的；

对每个所述人脸图像序列进行表情识别处理，得到所述视频中至少一个视频片段的表情标签；

根据每个所述视频片段对应的开始时间和结束时间对所述视频进行剪辑处理，得到每个所述视频片段的文件；

基于所述至少一个视频的视频片段的表情标签，对所述至少一个视频的视频片段的文件进行聚类处理，得到至少一个表情标签对应的视频合集。

本申请实施例提供一种视频剪辑处理装置，包括：

获取模块，用于获取至少一个视频的人脸数据，其中，所述人脸数据包括至少一个人脸图像序列，且每个所述人脸图像序列包括一个用户的人脸图像，所述人脸图像是所述用户在观看所述视频的过程中对所述用户采集得到的；

表情识别模块，用于对每个所述人脸图像序列进行表情识别处理，得到所述视频中至少一个视频片段的表情标签；

剪辑模块，用于根据每个所述视频片段对应的开始时间和结束时间对所述视频进行剪辑处理，得到每个所述视频片段的文件；

聚类模块，用于基于所述至少一个视频的视频片段的表情标签，对所述至少一个视频的视频片段的文件进行聚类处理，得到至少一个表情标签对应的视频合集。

上述方案中，所述表情识别模块，还用于针对所述人脸图像序列中的每一帧人脸图像，执行以下处理：对所述人脸图像进行人脸检测处理，得到所述人脸图像中的人脸区域；对所述人脸区域进行特征提取，得到对应的人脸特征数据；基于所述人脸特征数据调用训练后的分类器进行预测处理，得到所述人脸图像对应的表情标签；基于所述人脸图像序列中连续的相同表情标签的人脸图像对应的采集时段，确定所述视频中对应的视频片段，并将所述连续的相同表情标签作为所述视频片段的表情标签。

上述方案中，所述表情识别模块，还用于对所述人脸区域进行特征提取，得到对应的人脸特征向量；其中，所述人脸特征向量的维度小于所述人脸区域的维度，且所述人脸特征向量包括以下至少之一：形状特征向量、运动特征向量、颜色特征向量、纹理特征向量、空间结构特征向量。

上述方案中，所述表情识别模块，还用于检测所述人脸区域中的关键特征点，并基于所述关键特征点对所述人脸区域包括的人脸图像进行对齐校准；将包括对齐校准后的人脸图像的人脸区域进行编辑处理，其中，所述编辑处理包括以下至少之一：归一化处理、剪切处理、缩放处理。

上述方案中，所述装置还包括确定模块，用于当通过多个用户分别对应的人脸图像序列确定所述视频片段的相同的表情标签时，确定所述视频片段包括的每一类表情标签的数量；所述确定模块，还用于将多个所述表情标签中数量小于数量阈值的表情标签作为无效标签；所述装置还包括删除模块，用于删除所述无效标签。

上述方案中，所述确定模块，还用于当通过多个用户分别对应的人脸图像序列确定所述视频片段的多个表情标签时，确定所述视频片段包括的每一类表情标签的数量；所述装置还包括筛选模块，用于从多个所述表情标签中筛选出数量大于数量阈值的表情标签；所述确定模块，还用于确定每个筛选出的表情标签对应的倾向性占比；以及用于将多个所述筛选出的表情标签中倾向性占比小于占比阈值的表情标签作为无效标签；所述删除模块，还用于删除所述无效标签。

上述方案中，所述确定模块，还用于针对所述视频片段执行以下处理：当通过多个用户分别对应的人脸图像序列确定所述视频片段的相同的表情标签时，通过以下方式确定所述视频片段对应的开始时间和结束时间：基于每个用户的表情标签的起始时间和终止时间，建立正态分布曲线；以所述正态分布曲线的对称轴为中心，提取所述正态分布曲线的n％的区间，并将所述区间的起点对应的时间确定为所述视频片段的开始时间、以及将所述区间的终点对应的时间确定为所述视频片段的结束时间；其中，n为正整数且满足0<n<100。

上述方案中，所述聚类模块，还用于当所述视频的数量为1个时，将所述视频中具有相同表情标签的视频片段的文件聚类到同一个视频合集；以及用于当所述视频的数量为多个时，将多个所述视频中具有相同表情标签的视频片段的文件聚类到同一个视频合集，或者，针对多个所述视频中同一类型的视频，将所述同一类型的视频中具有相同表情标签的视频片段的文件聚类到同一个视频合集。

上述方案中，所述确定模块，还用于根据所述视频片段的剧情内容变化的速度，确定m的取值；确定在所述视频中的所述开始时间之前m秒的第一时间；确定在所述视频中的所述结束时间之后m秒的第二时间；所述剪辑模块，还用于基于所述第一时间和所述第二时间，对所述视频进行剪辑处理。

上述方案中，所述剪辑模块，还用于获取所述视频中距离所述第一时间小于时长阈值的第一视频片段、以及距离所述第二时间小于所述时长阈值的第二视频片段；对所述第一视频片段进行语音识别处理，得到第一文本，对所述第一文本进行完整度检测处理，得到第一对话完整度检测结果，根据所述第一对话完整度检测结果对所述第一时间进行调整，得到第三时间；对所述第二视频片段进行语音识别处理，得到第二文本，对所述第二文本进行完整度检测处理，得到第二对话完整度检测结果，根据所述第二对话完整度检测结果对所述第二时间进行调整，得到第四时间；从所述视频中剪辑出包括所述第三时间和所述第四时间之间的视频片段的文件。

上述方案中，所述剪辑模块，还用于获取所述视频中距离所述第一时间小于时长阈值的第一视频片段、以及距离所述第二时间小于所述时长阈值的第二视频片段；对所述第一视频片段进行抽帧处理，得到多个第一视频图像帧，对所述多个第一视频帧图像进行比对处理，得到第一画面完整度检测结果，根据所述第一画面完整度检测结果对所述第一时间进行调整，得到第五时间；对所述第二视频片段进行抽帧处理，得到多个第二视频图像帧，对所述多个第二视频图像帧进行比对处理，得到第二画面完整度检测结果，根据所述第二画面完整度检测结果对所述第二时间进行调整，得到第六时间；从所述视频中剪辑出包括所述第五时间和所述第六时间之间的视频片段的文件。

上述方案中，所述确定模块，还用于针对每个所述视频片段执行以下处理：当观看所述视频的用户的数量为1个时，将所述用户的表情标签的起始时间和终止时间作为所述视频片段对应的开始时间和结束时间；当观看所述视频的用户的数量为多个时，基于多个所述用户的表情标签的起始时间和终止时间确定所述视频片段对应的开始时间和结束时间。

上述方案中，所述获取模块，还用于针对每个所述视频执行以下处理：接收观看所述视频的至少一个用户的终端分别发送的至少一个人脸图像序列，其中，所述人脸图像序列是当所述终端在播放所述视频时，对所述用户进行多次人脸采集得到的。

本申请实施例提供一种视频剪辑处理方法，包括：

显示视频界面，其中，所述视频界面用于播放视频或显示视频列表；

显示视频合集的观看入口，其中，所述视频合集是通过上述任一方案获取的；

响应于针对所述视频合集的观看入口的触发操作，显示视频合集。

本申请实施例提供一种视频剪辑处理装置，包括：

显示模块，用于显示视频界面，其中，所述视频界面用于播放视频或显示视频列表；

所述显示模块，还用于显示视频合集的观看入口，其中，所述视频合集是通过上述任一方案获取的；

所述显示模块，还用于响应于针对所述视频合集的观看入口的触发操作，显示视频合集。

上述方案中，所述显示模块，还用于通过所述观看入口接收输入的关键词；所述装置还包括获取模块，用于从至少一个表情标签对应的视频合集中获取与所述关键词匹配的视频合集；所述显示模块，还用于播放所述匹配的视频合集。

上述方案中，所述显示模块，还用于通过所述观看入口接收输入的关键词；所述获取模块，还用于从至少一个表情标签对应的视频合集中获取与所述关键词匹配的视频合集；以及用于获取用户的历史行为信息；所述装置还包括确定模块，用于基于所述历史行为信息，确定所述用户感兴趣的视频的类型；所述装置还包括筛选模块，用于从所述匹配的视频合集中筛选出与所述类型相同的视频片段；所述显示模块，还用于播放由所述筛选出的视频片段组成的视频合集。

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的视频剪辑处理方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的视频剪辑处理方法。

本申请实施例提供一种计算机程序产品，所述计算机程序产品包括计算机可执行指令，用于被处理器执行时，实现本申请实施例提供的视频剪辑处理方法。

本申请实施例具有以下有益效果：

通过用户表情的识别对视频内容进行片段化剪辑，并自动生成不同表情标签分别对应的视频合集，由于用户表情的变化是对视频内容最真实的判断，因此，通过用户表情识别的视频剪辑，可以让剪辑时机(即视频片段对应的开始时间和结束时间)的判断更加精准，从而使得剪辑出的视频片段更加符合用户的真实需求，提升了用户的观看体验。

附图说明

图1是本申请实施例提供的视频剪辑处理系统100的架构示意图；

图2A是本申请实施例提供的服务器200的结构示意图；

图2B是本申请实施例提供的终端400的结构示意图；

图3是本申请实施例提供的视频剪辑处理方法的流程示意图；

图4是本申请实施例提供的视频剪辑处理方法的流程示意图；

图5A是本申请实施例提供的视频剪辑处理方法的流程示意图；

图5B是本申请实施例提供的视频剪辑处理方法的流程示意图；

图6是本申请实施例提供的视频剪辑处理方法的应用场景示意图；

图7是本申请实施例提供的视频剪辑处理方法的应用场景示意图；

图8是本申请实施例提供的视频剪辑处理方法的应用场景示意图；

图9是本申请实施例提供的视频剪辑处理方法的流程示意图；

图10是本申请实施例提供的表情识别处理过程的流程示意图；

图11是本申请实施例提供的针对输入图像进行预处理的流程示意图；

图12是本申请实施例提供的针对输入图像进行表情识别的原理示意图；

图13是本申请实施例提供的根据多个用户的表情对视频片段进行调优的示意图；

图14是本申请实施例提供的针对单个视频片段设置单个表情标签的示意图；

图15是本申请实施例提供的针对单个视频片段设置多个表情标签的示意图；

图16是本申请实施例提供的根据多个用户的表情产生时间和消失时间建立的正态分布曲线；

图17是本申请实施例提供的针对视频片段进行粗剪和智能化精剪的示意图；

图18是本申请实施例提供的针对多个视频片段生成不同的视频合集的过程示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)视频：泛指将一系列静态影像以电信号的方式加以捕捉、记录、处理、储存、传送和重现的各种技术。连续的图像变化每秒超过24帧画面以上时，根据视觉暂留原理，人眼无法辨别单幅的静态画面，看上去是平滑连续的视觉效果，这样连续的画面叫做视频。

2)表情：又称面部表情，是人体(形体)语言的一部分，是一种生理及心理的反应，通常用于传递情感，表情包括基本表情和复合表情，其中，基本表情包括高兴(happiness)、吃惊(surprise)、悲伤(sadness)、愤怒(anger)、厌恶(disgust)和恐惧(fear)；此外，人类的面部表情还包括惊喜(高兴+吃惊)、悲愤(悲伤+愤怒)等15种可被区分的复合表情。

3)表情标签：用于表征用户的表情的标签，例如当确定出用户的表情为高兴时，对应的表情标签可以是“让人觉得好笑”；当确定出用户的表情为悲伤时，对应的表情标签可以是“让人觉得想哭”。

4)表情识别：通过图像采集装置(例如手机摄像头)对人脸关键部位(例如眉角、鼻尖、嘴角等)的变化进行采集，并基于采集到的人脸图像调用机器学习算法，预测出人脸变化所代表的表情，例如高兴、愤怒、悲伤、恐惧等。

5)视频合集：按照一定的主题分类，将多个视频片段的文件进行合并的集合。

6)客户端：终端中运行的用于提供各种服务的应用程序(APP，APPlication)，例如即时通讯客户端、短视频客户端、直播客户端等。

随着用户需求与多媒体技术的发展，视频的数量也呈指数级的爆炸增长，对视频进行剪辑也成为人们关注的视频处理方式。视频剪辑技术是一种将待剪辑视频通过剪辑的方式得到视频中的一个或多个视频片段的视频处理方式，常应用于短视频制作、视频集锦等视频剪辑场景。

目前，相关技术提供的视频剪辑方案中，主要由人工来完成剪辑操作，需要依赖人工去判断视频内容、然后人工标识出视频中用户可能感兴趣的视频片段并进行剪辑，整个过程需要消耗大量的人力成本和时间成本，并且还很容易出现由于人为疏忽或者剪辑人员的主观判断导致漏剪或者多剪的情况发生，也就是说，相关技术提供的方案中，视频剪辑的效率较低且精确度较差，导致剪辑出的视频内容无法满足用户的真实需求。

针对上述技术问题，本申请实施例提供一种视频剪辑处理方法、装置、电子设备和计算机可读存储介质，能够实现视频的精确剪辑，并自动生成不同表情标签分别对应的视频合集。下面说明本申请实施例提供的电子设备的示例性应用，本申请实施例提供的电子设备可以实施为终端，也可以实施为服务器，或者由终端和服务器协同实施。下面以由终端和服务器协同实施本申请实施例提供的视频剪辑处理方法为例进行说明。

参见图1，图1是本申请实施例提供的视频剪辑处理系统100的架构示意图，为实现支持针对视频进行剪辑，并生成不同类型的视频合集的应用，终端400通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

终端400上运行有客户端410，客户端410可以是在线视频播放客户端、短视频客户端、浏览器等，当终端400在播放视频(例如视频A)的过程中接收到用户(例如用户A)触发的人脸采集指令时，调用图像采集装置(例如终端自带的摄像头)对用户A进行多次人脸采集，得到用户A在观看视频A的过程中对应的人脸图像序列，其中，人脸图像序列是按照用户A的人脸图像的采集时间的先后顺序进行排列的，并且人脸图像序列中的每个人脸图像都有基于视频A的播放时间轴的采集时间(即视频A的播放时间)，例如人脸图像序列中的第一帧人脸图像的采集时间对应于视频A的第1秒(即当视频A播放到第1秒时，对用户A的人脸进行第一次采集得到第一帧人脸图像)，人脸图像序列中的第二帧人脸图像对应于视频A的第2秒(即当视频A播放到第2秒时，对用户A的人脸进行第二次采集得到第二帧人脸图像)，以此类推，人脸图像序列中的最后一帧人脸图像对应于视频A的最后1秒(即当视频A播放到最后1秒时，对用户A的人脸进行最后一次采集得到最后一帧人脸图像)，也就是说，人脸图像序列包括的人脸图像的数量是与视频的时长正相关的。

终端400在得到用户A在观看视频A的过程中对应的人脸图像序列之后，可以通过网络300将得到的人脸图像序列发送至服务器200，以使服务器200针对终端400发送的人脸图像序列进行表情识别处理，得到视频A中至少一个视频片段(这里的视频片段仅仅是根据对应的开始时间和结束时间进行记录的，并没有剪辑出单独的视频片段的文件，例如在根据表情识别结果确定出某个视频片段对应的开始时间和结束时间分别为15:00和15:30时，则可以在视频A的播放时间轴的相应位置进行记录，以根据所记录的位置进行后续的剪辑处理)的表情标签(例如让人想哭、让人想笑、让人害怕等)，接着，服务器200根据每个视频片段对应的开始时间和结束时间对视频A进行剪辑处理，得到每个视频片段的文件(例如假设针对视频A，一共剪辑出10个视频片段的文件)；随后，服务器200可以基于视频A的视频片段的表情标签，对视频A的视频片段的文件进行聚类处理(例如针对视频A中剪辑出的10个视频片段的文件，将具有相同表情标签的视频片段的文件聚类到同一个视频合集)，得到至少一个表情标签对应的视频合集(例如让人想哭的视频合集、让人想笑的视频合集)。

服务器200在得到至少一个表情标签对应的视频合集后，可以将得到的视频合集发送至终端400，以使终端400调用客户端410的人机交互界面进行呈现(例如在浏览器或者在线视频客户端中显示视频合集的观看入口，当终端400接收到用户针对视频合集的观看入口的触发操作时，显示视频合集)，如此，通过用户表情的识别对视频内容进行剪辑处理，可以让剪辑内容的判断更加精准，从而使得剪辑出的视频片段的内容更加符合用户的真实需求，进而提升了用户的内容满意度和观看时长等。

需要说明的是，在实际应用中，观看视频A的用户的数量也可以是多个的，即服务器200可以接收到多个用户的终端分别发送的人脸图像序列(例如包括用户B的终端发送的用户B在观看视频A的过程中对应的人脸图像序列、用户C的终端发送的用户C在观看视频A的过程中对应的人脸图像序列、以及用户D的终端发送的用户D在观看视频A的过程中对应的人脸图像序列等)，则针对视频A中每个视频片段对应的开始时间和结束时间、以及视频片段的表情标签，服务器200可以根据多个用户的人脸图像序列的表情识别结果进行调整(将在下文具体说明调整过程)，如此，通过基于海量用户表情的变化对剪辑时机(即视频片段对应的开始时间和结束时间)以及视频内容的类型进行调优，使得视频剪辑的精确度得到进一步的提高。

此外，还需要说明的是，在实际应用中，视频的数量也可以是多个的，例如在基于用户表情的变化对多个视频分别进行剪辑处理之后，服务器200可以将多个视频中具有相同表情标签的视频片段的文件聚类到同一个视频合集，例如将视频A(例如战争片)中表情标签为“让人想哭”的视频片段的文件、视频B(例如情感片)中表情标签为“让人想哭”的视频片段的文件、以及视频C(例如记录片)中表情标签为“让人想哭”的视频片段的文件聚类到同一个视频合集，从而得到所有让人想哭的视频合集；或者，服务器200也可以根据视频类型对视频合集进行精细化的划分，例如针对多个视频中同一类型的视频(例如战争片)，将战争片中具有相同表情标签(例如“让人想哭”)的视频片段的文件聚类到同一个视频合集，从而得到战争片中让人想哭的视频合集。

在一些实施例中，本申请实施例可以借助于云技术(Cloud Technology)实现，云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、以及应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源。

示例的，图1中示出的服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端400以及服务器200可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

在另一些实施例中，本申请实施例提供的视频剪辑处理方法也可以结合区块链技术实现，例如终端400和服务器200可以是区块链系统中的节点设备。

下面对图1中示出的服务器200的结构进行说明。参见图2A，图2A是本申请实施例提供的服务器200的结构示意图，图2A所示的服务器200包括：至少一个处理器210、存储器240、至少一个网络接口220。服务器200中的各个组件通过总线系统230耦合在一起。可理解，总线系统230用于实现这些组件之间的连接通信。总线系统230除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2A中将各种总线都标为总线系统230。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器240可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器240可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器240包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器240旨在包括任意适合类型的存储器。

在一些实施例中，存储器240能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统241，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块242，用于经由一个或多个(有线或无线)网络接口220到达其他计算设备，示例性的网络接口220包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等。

在一些实施例中，本申请实施例提供的视频剪辑处理装置可以采用软件方式实现，图2A示出了存储在存储器240中的视频剪辑处理装置243，其可以是程序和插件等形式的软件，包括以下软件模块：获取模块2431、表情识别模块2432、剪辑模块2433、聚类模块2434、确定模块2435、删除模块2436和筛选模块2437，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。需要指出的是，在图2A中为了方便表达，一次性示出了上述所有模块，但是不应视为在视频剪辑处理装置243排除了可以只包括获取模块2431、表情识别模块2432、剪辑模块2433和聚类模块2434的实施，将在下文中说明各个模块的功能。

下面继续对图1中示出的终端400的结构进行说明。参见图2B，图2B是本申请实施例提供的终端400的结构示意图。如图2B所示，终端400包括：处理器420、网络接口430、用户接口440、总线系统450和存储器460。其中，用户接口440包括使得能够呈现媒体内容的一个或者多个输出装置441，例如包括一个或者多个扬声器和/或一个或多个视觉显示屏。用户接口440还包括一个或多个输入装置442，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。存储器460中包括：操作系统461、网络通信模块462、呈现模块463，用于经由一个或多个与用户接口440相关联的输出装置441(例如，显示屏、扬声器等)使得能够显示信息(例如，用于操作外围设备和显示内容和信息的用户接口)、输入处理模块464，用于对一个或多个来自一个或多个输入装置442之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动、以及视频剪辑处理装置465。其中，存储在存储器460中的视频剪辑处理装置465中的软件模块包括：显示模块4651、获取模块4652、确定模块4653和筛选模块4654，这些模块是逻辑上的，因此可以根据所实现的功能进行任意的组合或进一步拆分，需要指出的是，在图2B中为了方便表达，一次性示出了上述所有模块，但是不应视为在视频剪辑处理装置465排除了可以只包括显示模块4651的实施，将在下文中说明各个模块的功能。

下面将结合附图对本申请实施例提供的视频剪辑处理方法进行具体说明。需要说明的是，以下是以上文所述的服务器200为视频剪辑处理方法的执行主体为例进行说明的。

参见图3，图3是本申请实施例提供的视频剪辑处理方法的流程示意图，将结合图3示出的步骤进行说明。

在步骤S101中，获取至少一个视频的人脸数据。

在一些实施例中，人脸数据包括至少一个人脸图像序列，且每个人脸图像序列包括一个用户的人脸图像(即人脸图像是用户在观看视频的过程中对用户采集得到的，而非视频中出现的人脸图像)，则可以通过以下方式获取至少一个视频的人脸数据：针对每个视频执行以下处理：接收观看视频的至少一个用户的终端分别发送的至少一个人脸图像序列，其中，人脸图像序列是当终端在播放视频时，对观看视频的用户进行多次人脸采集得到的。

示例的，以视频A为例，当观看视频A的用户的数量为1个时，例如仅有用户A时，在用户A的终端播放视频A的过程中(例如当接收到用户A触发的人脸采集指令时)，对用户A的人脸进行多次采集，得到用户A在观看视频A的过程中对应的人脸图像序列，其中，人脸图像序列中的人脸图像是按照用户A的人脸的采集时间的先后顺序进行排列的，即最先采集到的人脸图像排列靠前，最后采集到的人脸图像排列靠后。此外，每个人脸图像都有基于视频A的播放时间轴的采集时间(即视频A的播放时间)，也就是说，人脸图像序列中的人脸图像的采集时间与视频A的播放时间是一致的。用户A的终端在得到用户A在观看视频A的过程中对应的人脸图像序列之后，可以将得到的人脸图像序列发送至服务器。

示例的，仍以视频A为例，当观看视频A的用户的数量为多个时，针对每个用户，可以通过采用与上述获取用户A在观看视频A的过程中对应的人脸图像序列类似的方式，得到每个用户在观看视频A的过程中分别对应的人脸图像序列，例如用户B在观看视频A的过程中对应的人脸图像序列(即在播放视频A的过程中，通过用户B的终端对用户B的人脸进行多次采集得到)、用户C在观看视频A的过程中对应的人脸图像序列(即在播放视频A的过程中，通过用户C的终端对用户C的人脸进行多次采集得到)、用户D在观看视频A的过程中对应的人脸图像序列(即在播放视频A的过程中，通过用户D的终端对用户D的人脸进行多次采集得到)，随后，针对视频A，服务器可以接收到用户B的终端发送的用户B在观看视频A的过程中对应的人脸图像序列、用户C的终端发送的用户C在观看视频A的过程中对应的人脸图像序列、以及用户D的终端发送的用户D在观看视频A的过程中对应的人脸图像序列。

也就是说，人脸图像序列是与用户以及视频相关的，针对同一用户，在观看不同的视频时，对应的人脸图像序列是不同的；针对同一视频，不同用户在观看时，对应的人脸图像序列也是不同的。

此外，还需要说明的是，在实际应用中，视频的数量也可以是多个的，对于其他视频(例如视频B)，可以采用与视频A类似的处理方式，得到视频B的人脸数据，本申请实施例在此不再赘述。

在步骤S102中，对每个人脸图像序列进行表情识别处理，得到视频中至少一个视频片段的表情标签。

在一些实施例中，可以通过以下方式对每个人脸图像序列进行表情识别处理，得到视频中至少一个视频片段(这里的视频片段仅仅是根据对应的开始时间和结束时间进行记录的，并没有剪辑出包括视频片段的文件，从而避免不必要的资源消耗)的表情标签：针对人脸图像序列中的每一帧人脸图像，执行以下处理：对人脸图像进行人脸检测处理，得到人脸图像中的人脸区域；对人脸区域进行特征提取，得到对应的人脸特征数据；基于人脸特征数据调用训练后的分类器进行预测处理，得到人脸图像对应的表情标签；基于人脸图像序列中连续的相同表情标签对应的人脸图像的采集时段，确定视频中对应的视频片段，并将连续的相同表情标签作为视频片段的表情标签。

示例的，以用户A在观看视频A的过程中对应的人脸图像序列(下文中记为人脸图像序列1)为例，针对人脸图像序列1中的每一帧人脸图像，对人脸图像进行人脸检测处理(例如采用卷积神经网络模型对人脸图像进行人脸检测处理)，得到人脸图像中的人脸区域；接着，对人脸区域进行特征提取，得到对应的人脸特征数据(例如可以通过卷积神经网络模型对人脸图像进行特征提取，得到对应的人脸特征向量；其中，人脸特征向量可以是人脸图像对应的形状特征向量、运动特征向量、颜色特征向量、纹理特征向量、或者空间结构特征向量等，如此，通过对人脸区域进行特征提取，能够实现数据的降维，提高后续数据运算的速度和准确性)，随后，可以基于得到的人脸特征数据调用训练后的分类器(例如线性分类器、神经网络分类器、支持向量机、隐马尔科夫模型等)进行预测处理，得到人脸图像对应的表情标签(即根据识别出的表情，设置对应的表情标签，例如当识别出的表情为高兴时，对应的表情标签可以是“让人想笑”；当识别出的表情为悲伤时，对应的表情标签可以是“让人想哭”)；最后，可以基于连续的相同表情标签的人脸图像的采集时段，确定视频A中对应的视频片段，并将连续的相同表情标签作为对应视频片段的表情标签。

例如，假设人脸图像序列1中的第10帧人脸图像至第20帧人脸图像对应的表情标签均为“让人想笑”时，则可以根据第10帧人脸图像至第20帧人脸图像的采集时段(例如第10秒至第20秒)，确定视频A中对应的视频片段1(例如可以在视频A的播放时间轴上的第10秒以及第20秒的位置进行标记，以作为后续从视频A中剪辑出视频片段1的文件的标识)，并将表情标签“让人想笑”作为视频片段1的表情标签；假设人脸图像序列1中的第50帧人脸图像至第70帧人脸图像对应的表情标签均为“让人想哭”时，则可以根据第50帧人脸图像至第70帧人脸图像的采集时段(例如第50秒至第70秒)，确定视频A中对应的视频片段2(例如可以在视频A的播放时间轴上的第50秒以及第70秒的位置进行标记，以作为后续从视频A中剪辑出视频片段2的文件的标识)，并将表情标签“让人想哭”作为视频片段2的表情标签。

需要说明的是，在实际应用中，连续的相同表情标签的数量是可以根据实际情况灵活调整的，例如当视频的剧情内容变化的速度较慢时，此时用户的表情变化也是较慢的，则连续的相同表情标签的数量可以相应设置的高些，例如当连续的相同表情标签的数量达到30个时，才会确定视频中对应的视频片段；当视频的剧情内容变化的速度较快时，此时用户的表情变化也是较快的，则连续的相同表情标签的数量也可以相应设置的低些，例如当连续的相同表情标签的数量超过10个时，会确定视频中对应的视频片段。也就是说，连续的相同表情标签数量的取值是与视频的剧情内容的变化速度呈负相关的。

在另一些实施例中，承接上述实施例，在对人脸区域进行特征提取之前，还可以执行以下操作：检测人脸区域中的关键特征点(例如眼睛中心、嘴角、鼻尖等)，并基于关键特征点对人脸区域包括的人脸图像进行对齐校准；将包括对齐校准后的人脸图像的人脸区域进行编辑处理，其中，编辑处理包括以下至少之一：归一化处理(即指对人脸图像进行一系列标准的处理变换，使之变换为一固定标准形式的过程，例如可以对人脸图像的像素值进行归一化处理)、剪切处理(即指对人脸区域的尺寸进行剪切，得到统一尺寸的人脸区域)、缩放处理(即指对人脸区域包括的人脸图像的大小进行缩放，使得缩放处理后的人脸图像的大小统一)，如此，能够改善人脸区域包括的人脸图像的质量、消除了干扰信息、统一了人脸图像的大小、比例、灰度值等信息，并且通过对人脸区域进行归一化处理，便于后续的特征提取以及预测分类过程。

在一些实施例中，在对每个人脸图像序列进行表情识别处理，得到视频中至少一个视频片段的表情标签之后，还可以执行以下操作：针对每个视频片段的表情标签执行以下处理：当通过多个用户分别对应的人脸图像序列确定视频片段的相同的表情标签(即一个视频片段只有一个表情标签)时，统计视频片段包括的每一类表情标签的数量；将多个表情标签中数量小于数量阈值的表情标签作为无效标签，并删除无效标签。

示例的，以视频A为例，当多个用户观看了视频A时，每个用户的终端会向服务器上传对应用户在观看视频A的过程中得到的人脸图像序列，接着，服务器会对每个人脸图像序列进行表情识别处理，得到视频A中的视频片段(例如视频片段1)的表情标签，其中，不同用户在观看同一视频片段时对应的表情可能是不同的，例如针对用户A的人脸图像序列，得到视频片段1的表情标签为“让人想哭”、针对用户B的人脸图像序列，得到视频片段1的表情标签为“让人想笑”、针对用户C的人脸图像序列，得到视频片段1的表情标签为“让人想哭”，随后，统计视频片段1包括的每一类表情标签的数量，例如假设针对视频片段1，共得到3种不同的表情标签，其中，表情标签为“让人想哭”的数量为1000(即1000个用户在观看视频片段1时的表情为悲伤)、表情标签为“让人想笑”的数量为50(即50个用户在观看视频片段1时的表情为开心)、表情标签为“让人害怕”的数量为30(即30个用户在观看视频片段1时的表情为恐惧)；最后，将多个表情标签中数量小于数量阈值(例如800)的表情标签作为无效标签(即将“让人想笑”和“让人害怕”的表情标签作为无效标签)，并删除视频片段1包括的“让人想笑”和“让人害怕”的表情标签，仅保留“让人想哭”的表情标签作为视频片段1的表情标签(这是大多数用户对于视频片段1的真实判断)，如此，通过基于海量用户表情识别结果对视频片段的表情标签进行调优，使得视频内容的判断更加精准。

需要说明的是，上述数量阈值的取值是与用户的总数相关的，例如当用户的总数为1000时，对应的数量阈值可以设置为600；当用户的总数为500时，对应的数量阈值可以设置为300。

在另一些实施例中，在对每个人脸图像序列进行表情识别处理，得到视频中至少一个视频片段的表情标签之后，还可以执行以下操作：针对每个视频片段的表情标签执行以下处理：当通过多个用户分别对应的人脸图像序列(即多个用户在观看同一视频(例如视频A)时采集到的人脸图像序列，例如包括用户A在观看视频A时采集得到的人脸图像序列，用户B在观看视频A时采集到的人脸图像序列等)确定视频片段的多个表情标签(即一个视频片段具有多个表情标签)时，统计视频片段包括的每一类表情标签的数量；从多个表情标签中筛选出数量大于数量阈值的表情标签，并确定每个筛选出的表情标签对应的倾向性占比(即指某一类型的表情标签的数量占总的表情标签数量的比例，例如假设一共存在1000个表情标签，其中，类型为“让人想哭”的表情标签的数量为500个，则“让人想哭”的表情标签对应的倾向性占比为50％)；将多个筛选出的表情标签中倾向性占比小于占比阈值的表情标签作为无效标签，并删除无效标签。

示例的，以视频A为例，当多个用户观看了视频A时，每个用户的终端会向服务器上传对应用户在观看视频A的过程中得到的人脸图像序列，接着，服务器会对每个人脸图像序列进行表情识别处理，得到视频A中的视频片段(例如视频片段1)的表情标签，其中，不同用户在观看同一视频片段时对应的表情可能是不同的，例如针对用户A的人脸图像序列，得到视频片段1的表情标签为“让人想哭”、针对用户B的人脸图像序列，得到视频片段1的表情标签为“让人想笑”、针对用户C的人脸图像序列，得到视频片段1的表情标签为“让人想哭”，随后，统计视频片段1包括的每一类表情标签的数量，例如假设针对视频片段1，共得到3种不同的表情标签，其中，表情标签为“让人想哭”的数量为1000，表情标签为“让人想笑”的数量为800、表情标签为“让人害怕”的数量为100，随后，从这3种不同类型的表情标签中筛选出数量大于数量阈值(假设为500)的表情标签，并确定每个筛选出的表情标签对应的倾向性占比(即确定“让人想哭”的表情标签对应的倾向性占比和“让人想笑”的表情标签的倾向性占比，而对于“让人害怕”的表情标签，由于其数量小于数量阈值，则作为无效标签进行删除)，最后，将多个筛选出的表情标签中倾向性占比小于占比阈值(例如40％)的表情标签作为无效标签进行删除，由于“让人想哭”的表情标签对应的倾向性占比(52％)和“让人想笑”的表情标签的倾向性占比(42％)均大于占比阈值，则可以同时将“让人想哭”和“让人想笑”作为视频片段1的表情标签。

在步骤S103中，根据每个视频片段对应的开始时间和结束时间对视频进行剪辑处理，得到每个视频片段的文件。

在一些实施例中，在根据每个视频片段对应的开始时间和结束时间对视频进行剪辑处理之前，还可以执行以下操作：针对视频片段执行以下处理：当通过多个用户分别对应的人脸图像序列确定视频片段的相同的表情标签时，通过以下方式确定视频片段对应的开始时间和结束时间：基于每个用户的表情标签的起始时间和终止时间，建立正态分布曲线；以正态分布曲线的对称轴为中心，提取正态分布曲线的n％的区间，并将区间的起点对应的时间确定为视频片段的开始时间、以及将区间的终点对应的时间确定为视频片段的结束时间；其中，n为正整数且满足0<n<100。

示例的，针对同一个视频片段，由于不同用户表情的产生时间以及表情的保持时长均是不同的，但多个用户表情的产生和消失在视频的播放时间轴上会呈现正态分布，因此，可以通过以下方式确定视频片段对应的开始时间和结束时间：基于每个用户的表情标签的起始时间和终止时间(例如针对同一视频片段，用户A的表情标签的起始时间和终止时间分别为15:01和15:40、用户B的表情标签的起始时间和终止时间分别为14:58和15:35、用户C的表情标签的起始时间和终止时间分别为15:04和15:50)，建立正态分布曲线；接着，以正态分布曲线的对称轴为中心，提取正态分布曲线的n％(0<n<100，且n的取值可以根据最终的剪辑效果进行调整)的区间，并将区间的起点对应的时间(例如15:02)作为视频片段的开始时间、以及将区间的终点对应的时间(例如15:45)作为视频片段的结束时间，如此，通过基于海量用户的人脸图像序列的表情识别结果能够使得剪辑时机(即视频片段对应的开始时间和结束时间)的判断更加精确。

在另一些实施例中，在根据每个视频片段对应的开始时间和结束时间对视频进行剪辑处理之前，还可以执行以下操作：针对每个视频片段执行以下处理：当观看视频的用户的数量为1个时，将用户的表情标签的起始时间和终止时间作为视频片段对应的开始时间和结束时间；当观看视频的用户的数量为多个时，基于多个用户的表情标签的起始时间和终止时间确定视频片段对应的开始时间和结束时间。

示例的，以视频A为例，当观看视频A的用户的数量为1个时，例如仅有用户A时，在对用户A的人脸图像序列进行表情识别处理，得到用户A在不同时刻分别对应的表情标签之后，可以将用户A的连续相同的表情标签的起始时间和终止时间(假设起始时间和终止时间分别为10：00和11:00)直接作为对应的视频片段(例如视频片段1)的开始时间和结束时间(即视频片段1对应的开始时间和结束时间分别为10:00和11:00)。

示例的，仍以视频A为例，当观看视频A的用户的数量为多个时，例如包括用户A、用户B、用户C、用户D等，则在对每个用户分别对应的人脸图像序列进行表情识别处理，得到不同用户在不同时刻分别对应的表情标签之后，可以基于不同用户的连续表情标签的起始时间和终止时间，确定对应的视频片段最终的开始时间和结束时间，例如根据多个用户的表情标签的起始时间和终止时间，建立正态分布曲线，并基于正态分布曲线确定出对应的视频片段的开始时间和结束时间，如此，通过海量用户的表情的产生时间和消失时间进行调优，能够更加精确地确定出视频片段对应的开始时间和结束时间。

在一些实施例中，图3示出的步骤S103可以通过图4示出的步骤S1031至步骤S1034实现，将结合图4示出的步骤进行说明。

在步骤S1031中，根据视频片段的剧情内容变化的速度，确定m的取值。

在一些实施例中，为了避免剪辑出的视频片段的内容不完整(例如缺少画面故事的带入)，在基于用户的表情标签的起始时间和终止时间确定出视频片段对应的开始时间和结束时间之后，还可以根据当前视频片段的剧情内容变化的速度，确定在视频的播放时间轴的开始时间往前、以及结束时间往后需要增加的时长的取值(即m的取值)。

示例的，由于不同视频内容的节奏感不同，因此，用户表情的保持时长也不相同，例如对于打斗类的战争片来说，其节奏较快，相应的，用户的表情变化也较快，因此，m的取值可以设置小些(例如3秒)；而对于情感类的记录片来说，其节奏较慢，相应的，用户的表情变化也较慢，因此，m的取值可以设置大些(例如7秒)。

在步骤S1032中，确定在视频中的开始时间之前m秒的第一时间。

在一些实施例中，以视频A为例，假设视频A中的视频片段1对应的开始时间为10:00，且在步骤S1031中根据视频片段1的剧情内容变化的紧慢程度，确定出的m的取值为3秒时，则可以在视频A的播放时间轴上09:57的位置进行标记，以作为第一时间。

在步骤S1033中，确定在视频中的结束时间之后m秒的第二时间。

在一些实施例中，仍以视频A为例，假设视频A的视频片段1对应的结束时间为11:00，且在步骤S1031中根据视频片段1的剧情内容变化的紧慢程度，确定出m的取值为3秒时，则可以在视频A的播放时间轴上11:03的位置进行标记，以作为第二时间。

在步骤S1034中，基于第一时间和第二时间，对视频进行剪辑处理。

在一些实施例中，承接上文，在确定出第一时间(09:57)和第二时间(11:03)后，可以从视频A中剪辑出位于09:57至11:03之间的视频片段的文件，如此，通过在开始时间往前、结束时间往后增加m秒的方式进行剪辑，能够使得剪辑出的视频内容较为完整，提升了用户的观看体验。

在另一些实施例中，图4示出的步骤S1034还可以通过图5A示出的步骤S10341A至步骤S10344A实现，将结合图5A示出的步骤进行说明。

在步骤S10341A中，获取视频中距离第一时间小于时长阈值的第一视频片段、以及距离第二时间小于时长阈值的第二视频片段。

在一些实施例中，以视频A为例，在确定出视频A中的视频片段1对应的开始时间之前m秒的第一时间、以及视频片段1对应的结束时间之后m秒的第二时间之后，还可以获取视频中距离第一时间小于时长阈值(例如2秒)的第一视频片段、以及距离第二时间小于时长阈值的第二视频片段，例如当第一时间为10:00时，则对应的第一视频片段可以是视频A中从09:58到10:02的视频内容组成的视频片段；当第二时间为11:00时，则对应的第二视频片段可以是视频A中从10:58至11:02的视频内容组成的视频片段。

在步骤S10342A中，对第一视频片段进行语音识别处理，得到第一文本，对第一文本进行完整度检测处理，得到第一对话完整度检测结果，根据第一对话完整度检测结果对第一时间进行调整，得到第三时间。

在一些实施例中，为了避免剪辑出的视频片段的对话不完整(例如一句话被切掉了20％)，在得到第一视频片段之后，可以对第一视频片段进行语音识别处理，以将第一视频片段包括的声音转换为对应的第一文本，接着，对第一文本进行完整度检测处理(例如判断第一文本是否缺少主语、叙事是否完整等)，得到第一对话完整度检测结果，随后，可以根据第一对话完整度检测结果对第一时间进行调整，得到第三时间，例如当基于第一对话完整度检测结果确定在第一时间对话还没有结束时，则可以将第一时间往后移动几秒(移动的秒数是跟对话完整度对应的)，得到第三时间。

在步骤S10343A中，对第二视频片段进行语音识别处理，得到第二文本，对第二文本进行完整度检测处理，得到第二对话完整度检测结果，根据第二对话完整度检测结果对第二时间进行调整，得到第四时间。

在一些实施例中，在得到第二视频片段之后，可以对第二视频片段进行语音识别处理，以将第二视频片段包括的声音转换为对应的第二文本，接着，对第二文本进行完整度检测处理，得到第二对话完整度检测结果，随后，可以根据第二对话完整度检测结果对第二时间进行调整，得到第四时间，例如当基于第二对话完整度检测结果确定在第二时间对话已经结束时，则可以将第二时间往前移动几秒，得到第四时间。

在步骤S10344A中，从视频中剪辑出包括第三时间和第四时间之间的视频片段的文件。

在一些实施例中，以视频A为例，针对视频A中的视频片段1，假设视频片段1对应的开始时间为10:00，结束时间为11:00，根据视频片段1的剧情内容变化的紧慢程度确定出的m的取值为2秒，则第一时间为09:58，第二时间为11:02，接着，假设根据第一对话完整度检测结果对第一时间进行调整，得到的第三时间为09:55，根据第二对话完整度检测结果对第二时间进行调整，得到的第四时间为11:04，则可以从视频A中剪辑出位于09:55至11:04之间的视频片段的文件，如此，通过基于对话完整度检测结果对视频片段的开始时间和结束时间进行调整，使得视频剪辑的精确度更高，避免了剪辑出的视频片段的对话内容不完整，从而提高了用户的观看体验和观看时长。

在另一些实施例中，图4示出的步骤S1034可以通过图5B示出的步骤S10341B至步骤S10344B实现，将结合图5B示出的步骤进行说明。

在步骤S10341B中，获取视频中距离第一时间小于时长阈值的第一视频片段、以及距离第二时间小于时长阈值的第二视频片段。

在步骤S10342B中，对第一视频片段进行抽帧处理，得到多个第一视频帧图像，对多个第一视频帧图像进行比对处理，得到第一画面完整度检测结果，根据第一画面完整度检测结果对第一时间进行调整，得到第五时间。

在一些实施例中，为了避免剪辑出的视频片段的画面不完整，在得到第一视频片段之后，还可以对第一视频片段进行抽帧处理，得到多个第一视频图像帧(例如5个第一视频图像帧，其中，第3个第一视频图像帧是第一时间对应的视频图像帧)，接着，分别将第3个第一视频图像帧与其他的第一视频图像帧进行比对处理，得到第一画面完整度检测结果，例如使用峰值信噪比(PSNR，Peak Signal to Noise Ratio)或者结构相似性(SSIM，Structural Similarity)的方式比较第3个第一视频图像帧(即第一时间对应的视频图像帧)与其他第一视频图像帧之间的相似度，从而判断出第一时间对应的视频图像帧的画面是否完整；随后，根据第一画面完整度检测结果对第一时间进行调整，得到第五时间，例如当根据第一画面完整度检测结果确定第一时间对应的视频帧画面不完整时(例如缺少前序部分画面内容时)，则可以将第一时间往前移动几秒(移动的秒数是跟画面完整度对应的)，得到第五时间。

在步骤S10343B中，对第二视频片段进行抽帧处理，得到多个第二视频帧图像，对多个第二视频帧图像进行比对处理，得到第二画面完整度检测结果，根据第二画面完整度检测结果对第二时间进行调整，得到第六时间。

在一些实施例中，在得到第二视频片段之后，还可以对第二视频片段进行抽帧处理，得到多个第二视频图像帧(例如5个第二视频图像帧，其中，第3个第二视频图像帧是第二时间对应的视频图像帧)，接着，将第3个第二视频图像帧与其他第二视频图像帧进行比对处理，得到第二画面完整度检测结果(即判断出第二时间对应的视频图像帧的画面是否完整)，随后，根据第二画面完整度检测结果对第二时间进行调整，得到第六时间，例如当根据第二画面完整度检测结果确定第二时间对应的视频帧画面不完整时(例如缺少后序部分画面内容)，则可以将第二时间往后移动几秒，得到第六时间。

在步骤S10344B中，从视频中剪辑出包括第五时间和第六时间之间的视频片段的文件。

在一些实施例中，以视频A为例，针对视频A中的视频片段1，假设视频片段1对应的开始时间为10:00，结束时间为11:00，根据视频片段1的剧情内容变化的紧慢程度确定出的m的取值为2秒，则第一时间为09:58，第二时间为11:02，接着，假设根据第一画面完整度检测结果对第一时间进行调整，得到的第五时间为09:55，根据第二画面完整度检测结果对第二时间进行调整，得到的第六时间为11:04，则可以从视频A中剪辑出位于09:55至11:04之间的视频片段的文件，如此，通过基于画面完整度检测结果对视频片段的开始时间和结束时间进行调整，使得视频剪辑的精确度更高，避免了剪辑出的视频片段的画面内容不完整，从而提高了用户的观看体验和观看时长。

需要说明的是，在实际应用中，还可以结合对话完整度检测结果和画面完整度检测结果对视频片段对应的开始时间和结束时间进行调整，如此，通过综合考虑对话完整度以及画面完整度，使得剪辑精度可以得到进一步的提升。

在步骤S104中，基于至少一个视频的视频片段的表情标签，对至少一个视频的视频片段的文件进行聚类处理，得到至少一个表情标签对应的视频合集。

在一些实施例中，可以通过以下方式实现上述的基于至少一个视频的视频片段的表情标签，对至少一个视频的视频片段的文件进行聚类处理，得到至少一个表情标签对应的视频合集：当视频的数量为1个时，将视频中具有相同的表情标签的视频片段的文件聚类到同一个视频合集；当视频的数量为多个时，将多个视频中具有相同的表情标签的视频片段的文件聚类到同一个视频合集，或者，针对多个视频中同一类型的视频，将同一类型的视频中具有相同的表情标签的视频片段的文件聚类到同一个视频合集。

示例的，当视频的数量为1个时，例如仅包括视频A时，在针对视频A进行剪辑处理，得到多个视频片段的文件后，可以将视频A中具有相同的表情标签的视频片段的文件聚类到同一个视频合集中，例如将视频A中表情标签为“让人想哭”的视频片段的文件聚类到让人想哭的视频合集中。

示例的，当视频的数量为多个时，在针对每个视频进行剪辑处理，得到不同视频分别对应的多个视频片段的文件后，可以将多个视频中具有相同的表情标签的视频片段的文件聚类到同一个视频合集，例如将多个视频中表情标签为“让人想哭”的视频片段的文件聚类到同一个让人想哭的视频合集中(即所有让人想哭的视频片段组成的视频集合)，或者，针对多个视频中同一类型的视频(例如记录片)，将记录片中具有相同的表情标签的视频片段的文件聚类到同一个视频合集中(例如记录片中让人想哭的视频片段组成的视频合集)。

下面从终端侧对本申请实施例提供的视频剪辑处理方法进行具体说明。

在一些实施例中，终端(例如上文所述的终端400)上运行有客户端(例如浏览器或者在线视频客户端等)，在客户端的人机交互界面上显示有视频界面，其中，视频界面用于播放视频或者显示视频列表。此外，在客户端的人机交互界面上还可以显示有视频合集的观看入口，其中，视频合集可以是服务器通过实施图3示出的步骤S101至步骤S104得到的，服务器在得到视频合集后，可以将视频合集下发给终端。当终端接收到用户针对客户端的人机交互界面显示的视频合集的观看入口的触发操作时，进行响应以在客户端的人机交互界面中显示视频合集。

示例的，当终端接收到用户通过视频合集的观看入口输入的关键词时，可以从至少一个表情标签对应的视频合集中获取与关键词匹配的视频合集，并播放所匹配的视频合集，例如当用户输入的关键词为“欢乐”时，则可以从至少一个表情标签对应的视频合集中获取表情标签为“让人想笑”的视频合集，并播放让人想笑的视频合集。

示例的，当终端接收到用户通过视频合集的观看入口输入的关键词时，可以从至少一个表情标签对应的视频合集中获取与关键词匹配的视频合集，接着，还可以获取用户的历史行为信息(例如用户的历史观看记录、搜索记录等)，并基于历史行为信息，确定用户可能感兴趣的视频的类型，随后，从匹配的视频合集中筛选出相同类型的视频片段，并播放由筛选出的视频片段组成的视频合集，例如当用户输入的关键词为“欢乐”时，则可以从至少一个表情标签对应的视频合集中获取表情标签为“让人想笑”的视频合集，接着，在根据用户的历史行为信息确定用户可能对战争片感兴趣时，则可以从所有让人想笑的视频合集中进一步筛选出战争片，并播放战争片中让人想笑的视频片段，如此，通过基于用户的历史行为信息对视频合集进行进一步的精细化划分，能够更加符合用户的真实需求，提升用户的观看体验。

本申请实施例提供的视频剪辑处理方法，通过用户表情的识别对视频内容进行片段化剪辑，并自动生成不同表情标签分别对应的视频合集，由于用户表情的变化是对视频内容最真实的判断，因此，通过用户表情识别的视频剪辑，可以让剪辑时机(即视频片段对应的开始时间和结束时间)的判断更加精准，从而使得剪辑出的视频片段更加符合用户的真实需求，提升了用户的观看体验。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

视频剪辑技术是一种将待剪辑视频通过剪辑的方式得到视频中的一个或多个视频片段的视频处理方式，常应用于短视频制作、视频集锦等视频剪辑场景。

目前，相关技术提供的视频剪辑方案中，主要是基于人工的方式去判断视频内容、剪辑内容和合并内容，其效率非常低，并且视频内容的判断容易受剪辑人员个人主观判断的影响，导致视频剪辑的精准度不高。

此外，相关技术还提供了基于画面内容的视频剪辑方式，例如通过人工智能(AI，Artificial Intelligence)判断视频画面的内容对象，并根据画面内容对象的识别对视频内容进行剪辑，然而，通过AI剪辑出的视频内容不能体现用户对于视频内容真实的情绪感知，导致视频剪辑的精准度也较差，无法满足用户的真实需求。

针对上述技术问题，本申请实施例提供了一种视频剪辑处理方法，在用户观看视频时，通过终端(例如手机)自带的摄像头对用户的人脸进行采集，得到对应的人脸图像序列，接着，针对人脸图像序列进行表情识别处理，得到用户的表情，例如喜、怒、哭、开心、恐怖等，随后通过识别出的用户表情对视频内容进行片段化剪辑，最后生成不同表情分别对应的视频合集，例如恐怖的视频合集、开心的视频合集等。用户在观看视频的过程中，实时的表情变化是对视频内容类型最真实的判断，并且还可以基于海量用户表情的变化进行结果调优，如此，通过用户表情识别的视频剪辑方式，可以让剪辑内容的判断更加精准，让剪辑出的视频内容更加符合用户的真实需求，从而提升用户的内容满意度、观看时长等。

下面对本申请实施例提供的视频剪辑处理方法进行具体说明。

示例的，参见图6，图6是本申请实施例提供的视频剪辑处理方法的应用场景示意图，如图6所示，在用户观看视频的过程中，可以在视频的播放界面中显示弹窗601，当终端接收到用户针对弹窗601中显示的“允许”按钮602的点击操作时(即用户授权摄像头开启表情识别功能)，调用摄像头对用户的人脸进行多次采集。也就是说，在用户观看视频的过程中，摄像头会实时捕捉用户的人脸图像，并进行表情识别，以判断出用户当前的表情类型，例如开心、恐怖、伤心等。

在一些实施例中，本申请实施例提供的视频剪辑处理方法可以根据识别出的用户表情的类型，对用户观看的视频内容进行实时标签化。

示例的，参见图7，图7是本申请实施例提供的视频剪辑处理方法的应用场景示意图，如图7所示，当视频播放到40:30时，捕捉到用户的表情开始变成高兴(例如用户开始笑)，当视频播放到40:40时，捕捉到用户的表情恢复正常(例如用户停止笑)，则可以记录这两个时间点，并针对由这两个时间点之间的视频内容组成的视频片段(即从40:30到40:40的视频片段)添加“让人想笑”的表情标签。

示例的，参见图8，图8是本申请实施例提供的视频剪辑处理方法的应用场景示意图，如图8所示，当视频播放到50:40时，捕捉到用户的表情开始变成悲伤(例如用户开始哭)，当视频播放到51:40时，捕捉到用户的表情恢复正常(例如用户停止哭)，则可以记录这两个时间点，并针对从50:40到51:40之间的视频内容组成的视频片段添加“让人想哭”的表情标签。

在另一些实施例中，本申请实施例提供的视频剪辑处理方法还可以根据人脸大数据进行结果调优，从而能够对不同视频片段内容做出最优的标签判断。

示例的，针对同一视频片段，假设一共获取到300个用户在观看该视频片段时对应的表情，其中，90％的用户在观看该视频片段时对应的表情为开心，6％的用户在观看该视频片段时对应的表情为悲伤，4％的用户在观看该视频片段时对应的表情为恐怖，则可以将该视频片段对应的表情标签设置为“让人想笑”的。

在一些实施例中，在得到视频片段对应的最优标签化结果后，可以根据标签化结果对视频进行剪辑，其中，剪辑过程包括粗剪和精细剪辑，从而得到带有表情标签的视频片段。随后，可以通过不同维度和场景需要将视频片段聚类到不同的视频合集中，例如可以将所有表情标签为“让人想哭”的视频片段聚类到同一个视频合集，从而得到所有让人想哭的视频合集；将所有表情标签为“让人想笑”的视频片段聚类到同一个视频合集，从而得到所有让人想笑的视频合集。当然，用户也可以在不同的场景观看这些视频合集，视频合集中的视频片段可以是来源于一部电影或者多部电影的。此外，合集的维度也可以是多种类型的，例如战争片中让人想哭的视频合集、情感片中让人想哭的视频合集。

示例的，参见图9，图9是本申请实施例提供的视频剪辑处理方法的流程示意图，如图9所示，用户在观看视频的过程中需要授权摄像头开启表情识别功能，例如当用户点击图6示出的弹窗601中的“允许”按钮602时，客户端调用终端(例如手机)的摄像头实时采集用户的人脸表情(即采集用户的人脸图像并进行表情识别处理)，并上传至服务器。服务器在接收到终端发送的人脸表情后，对用户的表情和对应的视频片段做匹配，从有效性上计算出不同表情类型的视频片段。随后，服务器可以将有效表情下的视频片段根据一定的剪辑规则进行剪辑处理，形成不同表情标签类型的视频片段。最后，服务器可以根据不同的用户需求和应用场景，生成不同维度的视频合集，并将所生成的视频合集发送至客户端，以在客户端的人机交互界面中进行呈现。

下面对用户在观看视频过程中的表情识别处理过程进行说明。

在一些实施例中，对于表情的识别，通常需要采集机器学习的方式对表情数据进行训练，由于不同视频内容下用户表情的表达程度是有差别的，因此需要针对视频观看场景下用户表情数据进行训练，然后利用训练好的分类器对用户表情进行预测，以此得到观看视频内容的用户表情的匹配特征。

示例的，参见图10，图10是本申请实施例提供的表情识别处理过程的流程示意图，如图10所示，表情识别处理过程主要包括图像输入、人脸检测、图像预处理、特征提取、模式分类和识别结果，下面分别进行说明。

图像输入：在用户观看视频的过程中，通过手机摄像头对用户进行采集，得到静态图像或者动态图像序列。

人脸检测：在数据上核心需要人脸的表情，而输入图像中可能包括非人脸的内容，因此需要通过人脸检测算法确定出输入图像中的人脸区域。

图像预处理：为了便于后续提取特征和分类，需要统一改善输入图像的质量、消除干扰信息、统一图像大小、比例、灰度值等信息，需要对输入图像进行归一化处理。

示例的，参见图11，图11是本申请实施例提供的针对输入图像进行预处理的流程示意图，如图11所示，针对输入图像的预处理过程包括检测人脸图像的关键特征点、针对人脸图像进行缩放、旋转、去噪、以及渲染等过程。

特征提取：为了能计算机能够通过特征理解不同的表情，需要将高区分度的特征输入计算机，特征提取的核心过程是将图像点阵转化成更高级别的图像表述，例如形状、运动、颜色、纹理和空间结构等，在尽可能保证稳定性和识别率的前提下，对庞大的图像数据进行降维处理。

示例的，特征提取的方式包括几何特征提取、统计特征提取、频率域特征提取和运动特征提取等，其中，采用几何特征提取主要是对人脸图像的显著特征，例如眼睛、眉毛、嘴巴等位置变化进行定位、测量，确定其大小、距离、形状以及相互比例等特征，进行表情识别；基于整体统计特征提取的方法主要强调尽可能多的保留原始人脸图像中的信息，并允许分类器发现人脸图像中相关特征，通过对整幅人脸图像进行变换，获取特征进行识别；基于频率域的特征提取方式是将人脸图像从空间域转换到频率域提取其特征(即较低层次的特征)；基于运动特征的提取方法主要是提取动态图像序列的运动特征。

模式分类：通过算法对提取到的特征数据进行训练，从而得到一个有效的分类器，在表情识别的分类器设计和选择阶段，主要有以下方法：用线性分类器、神经网络分类器、支持向量机、隐马尔科夫模型等分类识别方法。

识别结果：将提取到的表情特征输入到训练好的分类器，让分类器给出最优的预测值，即判断最后的表情类型。

示例的，参见图12，图12是本申请实施例提供的针对输入图像进行表情识别的原理示意图，如图12所示，通过对输入图像进行多次卷积处理和下采样处理，得到输入图像对应的特征数据，接着，将特征数据输入训练好的分类器中，以使分类器给出不同表情类型分别对应的概率，其中，表情类型为高兴对应的概率最大，则将输入图像对应的表情类型确定为高兴。

在一些实施例中，为了表情标签的精准，还可以综合所有观看视频的用户的表情数据，对于不同的视频片段做出单一表情标签或者多个表情标签的倾向性计算，例如对于一个视频片段可能有多个表情标签的倾向，可以通过用户数据给出不同表情标签的倾向性程度。

示例的，参见图13，图13是本申请实施例提供的根据多个用户的表情对视频片段进行调优的示意图，如图13所示，可以根据多个用户的表情识别结果对视频片段对应的表情标签进行调优(例如根据不同表情分别对应的倾向性占比对视频片段设置对应的表情标签进行调整)、以及对视频片段对应的开始时间和结束时间进行调优(例如根据不同用户表情的产生时间和结束时间建立正态分布曲线，并基于正态分布曲线确定出视频片段对应的开始和结束时间)。

示例的，参见图14，图14是本申请实施例提供的针对单个视频片段设置单个表情标签的示意图，如图14所示，在数据上报中，每个用户的表情都会被上传，但只有用户的数量达到一定量级的标签表情才能被确定为有效标签，例如可以设置有效量级U，只有标签的数量大于有效量级U时，才能作为有效标签，例如针对某一视频片段，只有“让人恐惧”的表情标签的数量大于有效量级U时，则将表情标签“让人恐惧”作为该视频片段对应的表情标签，并删除其他类型的表情标签。

示例的，参见图15，图15是本申请实施例提供的针对单个视频片段设置多个表情标签的示意图，如图15所示，一个视频片段可能有多种不同类型的表情标签，例如可能有用户看到是开心的表情，有用户看到是伤心的表情，在不同类型的表情标签的数量均超过有效量级U时，可以进行倾向性计算，通过不同表情类型的标签数量得到倾向性占比，例如恐惧是m％(例如m>80)，惊讶是n％(例如n>80)，则后续这个视频片段在这两个表情分类下都可以被使用(即针对这个视频片段同时设置“让人恐惧”和“让人惊讶”的表情标签)。

在一些实施例中，针对同一个视频片段，由于用户表情的产生时间是不确定的(例如不同用户表情的产生时间可能是不同的)，并且不同用户的表情保持时长也是不同的，所以表情的产生和消失在视频播放时间轴上会呈现正态分布，因此，在计算过程中，当标签数量大于有效量级U时开始计算，而在所有大于U的标签数据组成的正态分布曲线(例如图16示出的正态分布曲线)中，提取n％(n为百分为，具体数值可以根据最后效果不断调优)的区间，并根据提取出的区间确定出视频片段对应的开始时间和结束时间。

在一些实施例中，基于有效用户表情产生的过程，能够确定标签产生和结束的时间，但在具体的剪辑应用中，标签产生的时间不能直接被用于视频切片，因为视频要切成片段还需要前后有一些画面故事的带入，所以具体剪辑中还需要进行粗剪和智能化精剪。

示例的，参见图17，图17是本申请实施例提供的针对视频片段进行粗剪和智能化精剪的示意图，如图17所示，粗剪的过程是在确定标签的时间轴上往前、往后增加n秒进行剪辑，其中，n的取值可以根据不同的视频内容和表情类型进行调整，这是因为不同视频内容的节奏感不同，不同表情需要的前置信息也不同。例如对于打斗类的视频，其节奏较快，用户的表情变化也较快，n的取值可以相对较小；而对于情感类的记录片，视频节奏较慢，用户的表情变化也较慢，n的取值则可以相对较大。

在粗剪的基础上，还可以根据对话完整度和画面完整度进行精细的智能化调整，其中，对话完整度主要是根据视频内容中声音起始的完整，避免一句话被切掉10％，例如可以使用智能语音识别将声音转换为文本，并通过文本的完整度检验判断是否是完整的句子；而画面完整度主要是考虑镜头切换的连续性，尽可能呈现出完整的画面，即将当前镜头内容完整呈现出现，例如可以使用视频画面智能识别，对视频进行抽帧，对抽帧画面进行比对，从而判断视频画面差异程度，确定是否切换了镜头，例如可以使用PSNR和SSIM的方式进行相似度比对。

示例的，参见图18，图18是本申请实施例提供的针对多个视频片段生成不同的视频合集的过程示意图，如图18所示，可以将带有不同标签倾向性的视频片段存储至数据库中，并根据不同的使用场景进行合成使用，例如可以从数据库中搜索相同表情类型的视频片段，根据不同场景的需要自动生成视频合集，可以是全集，例如所有让人想哭的视频片段；也可以根据不同视频类型生成精细化的子集，例如战争片中让人想哭的视频片段，情感片中让人想哭的视频片段，其子集的分拆维度可以取决于视频原本的分类信息、时间信息以及用户的观看量等。

在一些实施例中，可以在客户端中呈现生成的视频合集，其中，呈现过程可以分为主动呈现和被动呈现，主动呈现可以从系统全局的角度呈现所有的视频合集，也可以让用户通过不同的表情维度进行搜索；被动呈现可以针对不同用户的喜好呈现出相应的视频合集，例如通过用户过往观看记录，判断用户的喜好是战争片时，推荐的让人想哭的视频片段是由战争片的视频片段形成的视频合集。

本申请实施例提供的视频剪辑处理方法，在用户观看视频时，通过摄像头实时识别用户的表情，例如喜、怒、哭、开心、恐怖等，然后通过用户表情的识别对视频内容进行片段化剪辑，最后生成视频合集，例如恐怖的视频合集、开心的视频合集等。用户在观看视频时，实时的表情变化是对视频内容类型最真实的判断，并且还可以基于海量用户表情的变化进行结果调优，通过用户表情识别的视频剪辑方式，可以让剪辑内容的判断更加精准，让剪辑后的内容更加符合用户的真实需求，从而提升用户的内容满意度和观看时长等。

下面继续说明本申请实施例提供的视频编辑处理装置243实施为软件模块的示例性结构，在一些实施例中，如图2A所示，存储在存储器240的视频剪辑处理装置243中的软件模块可以包括：获取模块2431、表情识别模块2432、剪辑模块2433和聚类模块2434。

获取模块2431，用于获取至少一个视频的人脸数据，其中，人脸数据包括至少一个人脸图像序列，且每个人脸图像序列包括一个用户的人脸图像，人脸图像是用户在观看视频的过程中对用户采集得到的；表情识别模块2432，用于对每个人脸图像序列进行表情识别处理，得到视频中至少一个视频片段的表情标签；剪辑模块2433，用于根据每个视频片段对应的开始时间和结束时间对视频进行剪辑处理，得到每个视频片段的文件；聚类模块2434，用于基于至少一个视频的视频片段的表情标签，对至少一个视频的视频片段的文件进行聚类处理，得到至少一个表情标签对应的视频合集。

在一些实施例中，表情识别模块2432，还用于针对人脸图像序列中的每一帧人脸图像，执行以下处理：对人脸图像进行人脸检测处理，得到人脸图像中的人脸区域；对人脸区域进行特征提取，得到对应的人脸特征数据；基于人脸特征数据调用训练后的分类器进行预测处理，得到人脸图像对应的表情标签；基于人脸图像序列中连续的相同表情标签的人脸图像对应的采集时段，确定视频中对应的视频片段，并将连续的相同表情标签作为视频片段的表情标签。

在一些实施例中，表情识别模块2432，还用于对人脸区域进行特征提取，得到对应的人脸特征向量；其中，人脸特征向量的维度小于人脸区域的维度，且人脸特征向量包括以下至少之一：形状特征向量、运动特征向量、颜色特征向量、纹理特征向量、空间结构特征向量。

在一些实施例中，表情识别模块2432，还用于检测人脸区域中的关键特征点，并基于关键特征点对人脸区域包括的人脸图像进行对齐校准；将包括对齐校准后的人脸图像的人脸区域进行编辑处理，其中，编辑处理包括以下至少之一：归一化处理、剪切处理、缩放处理。

在一些实施例中，视频剪辑处理装置243还包括确定模块2435，用于当通过多个用户分别对应的人脸图像序列确定视频片段的相同的表情标签时，确定视频片段包括的每一类表情标签的数量；确定模块2435，还用于将多个表情标签中数量小于数量阈值的表情标签作为无效标签；视频剪辑处理装置243还包括删除模块2436，用于删除无效标签。

在一些实施例中，确定模块2435，还用于当通过多个用户分别对应的人脸图像序列确定视频片段的多个表情标签时，确定视频片段包括的每一类表情标签的数量；视频剪辑处理装置243还包括筛选模块2437，用于从多个表情标签中筛选出数量大于数量阈值的表情标签；确定模块2435，还用于确定每个筛选出的表情标签对应的倾向性占比；以及用于将多个筛选出的表情标签中倾向性占比小于占比阈值的表情标签作为无效标签；删除模块2436，还用于删除无效标签。

在一些实施例中，确定模块2435，还用于针对视频片段执行以下处理：当通过多个用户分别对应的人脸图像序列确定视频片段的相同的表情标签时，通过以下方式确定视频片段对应的开始时间和结束时间：基于每个用户的表情标签的起始时间和终止时间，建立正态分布曲线；以正态分布曲线的对称轴为中心，提取正态分布曲线的n％的区间，并将区间的起点对应的时间确定为视频片段的开始时间、以及将区间的终点对应的时间确定为视频片段的结束时间；其中，n为正整数且满足0<n<100。

在一些实施例中，聚类模块2434，还用于当视频的数量为1个时，将视频中具有相同表情标签的视频片段的文件聚类到同一个视频合集；以及用于当视频的数量为多个时，将多个视频中具有相同表情标签的视频片段的文件聚类到同一个视频合集，或者，针对多个视频中同一类型的视频，将同一类型的视频中具有相同表情标签的视频片段的文件聚类到同一个视频合集。

在一些实施例中，确定模块2435，还用于根据视频片段的剧情内容变化的速度，确定m的取值；确定在视频中的开始时间之前m秒的第一时间；确定在视频中的结束时间之后m秒的第二时间；剪辑模块2433，还用于基于第一时间和第二时间，对视频进行剪辑处理。

在一些实施例中，剪辑模块2433，还用于获取视频中距离第一时间小于时长阈值的第一视频片段、以及距离第二时间小于时长阈值的第二视频片段；对第一视频片段进行语音识别处理，得到第一文本，对第一文本进行完整度检测处理，得到第一对话完整度检测结果，根据第一对话完整度检测结果对第一时间进行调整，得到第三时间；对第二视频片段进行语音识别处理，得到第二文本，对第二文本进行完整度检测处理，得到第二对话完整度检测结果，根据第二对话完整度检测结果对第二时间进行调整，得到第四时间；从视频中剪辑出包括第三时间和第四时间之间的视频片段的文件。

在一些实施例中，剪辑模块2433，还用于获取视频中距离第一时间小于时长阈值的第一视频片段、以及距离第二时间小于时长阈值的第二视频片段；对第一视频片段进行抽帧处理，得到多个第一视频图像帧，对多个第一视频帧图像进行比对处理，得到第一画面完整度检测结果，根据第一画面完整度检测结果对第一时间进行调整，得到第五时间；对第二视频片段进行抽帧处理，得到多个第二视频图像帧，对多个第二视频图像帧进行比对处理，得到第二画面完整度检测结果，根据第二画面完整度检测结果对第二时间进行调整，得到第六时间；从视频中剪辑出包括第五时间和第六时间之间的视频片段的文件。

在一些实施例中，确定模块2435，还用于针对每个视频片段执行以下处理：当观看视频的用户的数量为1个时，将用户的表情标签的起始时间和终止时间作为视频片段对应的开始时间和结束时间；当观看视频的用户的数量为多个时，基于多个用户的表情标签的起始时间和终止时间确定视频片段对应的开始时间和结束时间。

在一些实施例中，获取模块2431，还用于针对每个视频执行以下处理：接收观看视频的至少一个用户的终端分别发送的至少一个人脸图像序列，其中，人脸图像序列是当终端在播放视频时，对用户进行多次人脸采集得到的。

下面继续说明本申请实施例提供的视频剪辑处理装置465实施为软件模块的示例性结构，在一些实施例中，如图2B所示，存储在存储器460的视频剪辑处理装置465中的软件模块可以包括：显示模块4651。

显示模块4651，用于显示视频界面，其中，视频界面用于播放视频或显示视频列表；显示模块4651，还用于显示视频合集的观看入口，其中，视频合集是通过上述任一实施例提供的视频剪辑处理方法获取的；显示模块4651，还用于响应于针对视频合集的观看入口的触发操作，显示视频合集。

在一些实施例中，显示模块4651，还用于通过观看入口接收输入的关键词；视频剪辑处理装置465还包括获取模块4652，用于从至少一个表情标签对应的视频合集中获取与关键词匹配的视频合集；显示模块4651，还用于播放匹配的视频合集。

在一些实施例中，显示模块4651，还用于通过观看入口接收输入的关键词；获取模块4652，还用于从至少一个表情标签对应的视频合集中获取与关键词匹配的视频合集；以及用于获取用户的历史行为信息；视频剪辑处理装置465还包括确定模块4653，用于基于历史行为信息，确定用户感兴趣的视频的类型；视频剪辑处理装置465还包括筛选模块4654，用于从匹配的视频合集中筛选出与所确定出的类型相同的视频片段；显示模块4651，还用于播放由筛选出的视频片段组成的视频合集。

需要说明的是，本申请实施例装置的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果，因此不做赘述。对于本申请实施例提供的视频剪辑处理装置中未尽的技术细节，可以根据图3、图4、图5A、图5B、或图9中的任一附图的说明而理解。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的视频剪辑处理方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的方法，例如，如图3、图4、图5A、图5B、或图9示出的视频剪辑处理方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，本申请实施例通过用户表情的识别对视频内容进行片段化剪辑，并自动生成不同表情标签分别对应的视频合集，由于用户表情的变化是对视频内容最真实的判断，因此，通过用户表情识别的视频剪辑，可以让剪辑时机(即视频片段对应的开始时间和结束时间)的判断更加精准，从而使得剪辑出的视频片段更加符合用户的真实需求，提升了用户的观看体验。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种视频剪辑处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对每个所述人脸图像序列进行表情识别处理，得到所述视频中至少一个视频片段的表情标签，包括：

针对所述人脸图像序列中的每一帧人脸图像，执行以下处理：

对所述人脸图像进行人脸检测处理，得到所述人脸图像中的人脸区域；

对所述人脸区域进行特征提取，得到对应的人脸特征数据；

基于所述人脸特征数据调用训练后的分类器进行预测处理，得到所述人脸图像对应的表情标签；

基于所述人脸图像序列中连续的相同表情标签的人脸图像对应的采集时段，确定所述视频中对应的视频片段，并将所述连续的相同表情标签作为所述视频片段的表情标签。

3.根据权利要求2所述的方法，其特征在于，所述对所述人脸区域进行特征提取，得到对应的人脸特征数据，包括：

对所述人脸区域进行特征提取，得到对应的人脸特征向量；

其中，所述人脸特征向量的维度小于所述人脸区域的维度，且所述人脸特征向量包括以下至少之一：形状特征向量、运动特征向量、颜色特征向量、纹理特征向量、空间结构特征向量。

4.根据权利要求2所述的方法，其特征在于，在对所述人脸区域进行特征提取之前，所述方法还包括：

检测所述人脸区域中的关键特征点，并基于所述关键特征点对所述人脸区域包括的人脸图像进行对齐校准；

将包括对齐校准后的人脸图像的人脸区域进行编辑处理，其中，所述编辑处理包括以下至少之一：归一化处理、剪切处理、缩放处理。

5.根据权利要求1所述的方法，其特征在于，在对每个所述人脸图像序列进行表情识别处理，得到所述视频中至少一个视频片段的表情标签之后，所述方法还包括：

针对每个所述视频片段的表情标签执行以下处理：

当通过多个用户分别对应的人脸图像序列确定所述视频片段的相同的表情标签时，确定所述视频片段包括的每一类表情标签的数量；

将多个所述表情标签中数量小于数量阈值的表情标签作为无效标签，并删除所述无效标签。

6.根据权利要求1所述的方法，其特征在于，在对每个所述人脸图像序列进行表情识别处理，得到所述视频中至少一个视频片段的表情标签之后，所述方法还包括：

针对每个所述视频片段的表情标签执行以下处理：

当通过多个用户分别对应的人脸图像序列确定所述视频片段的多个表情标签时，确定所述视频片段包括的每一类表情标签的数量；

从多个所述表情标签中筛选出数量大于数量阈值的表情标签，并确定每个筛选出的表情标签对应的倾向性占比；

将多个所述筛选出的表情标签中倾向性占比小于占比阈值的表情标签作为无效标签，并删除所述无效标签。

7.根据权利要求1所述的方法，其特征在于，在根据每个所述视频片段对应的开始时间和结束时间对所述视频进行剪辑处理之前，所述方法还包括：

针对所述视频片段执行以下处理：

当通过多个用户分别对应的人脸图像序列确定所述视频片段的相同的表情标签时，通过以下方式确定所述视频片段对应的开始时间和结束时间：

基于每个用户的表情标签的起始时间和终止时间，建立正态分布曲线；

以所述正态分布曲线的对称轴为中心，提取所述正态分布曲线的n％的区间，并

将所述区间的起点对应的时间确定为所述视频片段的开始时间、以及将所述区间的终点对应的时间确定为所述视频片段的结束时间；

其中，n为正整数且满足0<n<100。

8.根据权利要求1所述的方法，其特征在于，所述基于所述至少一个视频的视频片段的表情标签，对所述至少一个视频的视频片段的文件进行聚类处理，得到至少一个表情标签对应的视频合集，包括：

当所述视频的数量为1个时，将所述视频中具有相同表情标签的视频片段的文件聚类到同一个视频合集；

当所述视频的数量为多个时，将多个所述视频中具有相同表情标签的视频片段的文件聚类到同一个视频合集，或者，针对多个所述视频中同一类型的视频，将所述同一类型的视频中具有相同表情标签的视频片段的文件聚类到同一个视频合集。

9.根据权利要求1所述的方法，其特征在于，所述根据每个所述视频片段对应的开始时间和结束时间对所述视频进行剪辑处理，包括：

根据所述视频片段的剧情内容变化的速度，确定m的取值；

确定在所述视频中的所述开始时间之前m秒的第一时间；

确定在所述视频中的所述结束时间之后m秒的第二时间；

基于所述第一时间和所述第二时间，对所述视频进行剪辑处理。

10.根据权利要求9所述的方法，其特征在于，所述基于所述第一时间和所述第二时间，对所述视频进行剪辑处理，包括：

获取所述视频中距离所述第一时间小于时长阈值的第一视频片段、以及距离所述第二时间小于所述时长阈值的第二视频片段；

对所述第一视频片段进行语音识别处理，得到第一文本，对所述第一文本进行完整度检测处理，得到第一对话完整度检测结果，根据所述第一对话完整度检测结果对所述第一时间进行调整，得到第三时间；

对所述第二视频片段进行语音识别处理，得到第二文本，对所述第二文本进行完整度检测处理，得到第二对话完整度检测结果，根据所述第二对话完整度检测结果对所述第二时间进行调整，得到第四时间；

从所述视频中剪辑出包括所述第三时间和所述第四时间之间的视频片段的文件。

11.根据权利要求9所述的方法，其特征在于，所述基于所述第一时间和所述第二时间，对所述视频进行剪辑处理，包括：

对所述第一视频片段进行抽帧处理，得到多个第一视频图像帧，对所述多个第一视频帧图像进行比对处理，得到第一画面完整度检测结果，根据所述第一画面完整度检测结果对所述第一时间进行调整，得到第五时间；

对所述第二视频片段进行抽帧处理，得到多个第二视频图像帧，对所述多个第二视频图像帧进行比对处理，得到第二画面完整度检测结果，根据所述第二画面完整度检测结果对所述第二时间进行调整，得到第六时间；

从所述视频中剪辑出包括所述第五时间和所述第六时间之间的视频片段的文件。

12.根据权利要求1所述的方法，其特征在于，在根据每个所述视频片段对应的开始时间和结束时间对所述视频进行剪辑处理之前，所述方法还包括：

针对每个所述视频片段执行以下处理：

当观看所述视频的用户的数量为1个时，将所述用户的表情标签的起始时间和终止时间作为所述视频片段对应的开始时间和结束时间；

当观看所述视频的用户的数量为多个时，基于多个所述用户的表情标签的起始时间和终止时间确定所述视频片段对应的开始时间和结束时间。

13.根据权利要求1所述的方法，其特征在于，所述获取至少一个视频的人脸数据，包括：

针对每个所述视频执行以下处理：

接收观看所述视频的至少一个用户的终端分别发送的至少一个人脸图像序列，其中，所述人脸图像序列是当所述终端在播放所述视频时，对所述用户进行多次人脸采集得到的。

14.一种视频剪辑处理方法，其特征在于，所述方法包括：

显示视频合集的观看入口，其中，所述视频合集是通过如权利要求1-13任一项所述的方法获取的；

15.根据权利要求14所述的方法，其特征在于，所述响应于针对所述视频合集的观看入口的触发操作，显示视频合集，包括：

通过所述观看入口接收输入的关键词；

从至少一个表情标签对应的视频合集中获取与所述关键词匹配的视频合集；

播放所述匹配的视频合集。

16.根据权利要求14所述的方法，其特征在于，所述响应于针对所述视频合集的观看入口的触发操作，显示视频合集，包括：

通过所述观看入口接收输入的关键词；

获取用户的历史行为信息；

基于所述历史行为信息，确定所述用户感兴趣的视频的类型；

从所述匹配的视频合集中筛选出与所述类型相同的视频片段；

播放由所述筛选出的视频片段组成的视频合集。

17.一种视频剪辑处理装置，其特征在于，所述装置包括：

18.一种视频编辑处理装置，其特征在于，所述装置包括：

所述显示模块，还用于显示视频合集的观看入口，其中，所述视频合集是通过如权利要求1-13任一项所述的方法获取的；

19.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1-13任一项、或权利要求14-16任一项所述的视频剪辑处理方法。

20.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1-13任一项、或权利要求14-16任一项所述的视频剪辑处理方法。