CN114286171B

CN114286171B - 视频处理方法、装置、设备及存储介质

Info

Publication number: CN114286171B
Application number: CN202110957957.5A
Authority: CN
Inventors: 袁微; 彭博; 田思达
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2023-04-07
Anticipated expiration: 2041-08-19
Also published as: CN114286171A

Abstract

本发明实施例公开了一种视频处理方法、装置、设备及存储介质，其中视频处理方法包括：获取待处理视频以及与待处理视频关联的音频文件；获取N个对象的标识信息，基于N个对象的标识信息对待处理视频进行人脸识别处理，从待处理视频中识别出N个对象相匹配的M个视频片段，一个对象相匹配的视频片段为至少一个；对音频文件进行强拍检测处理，得到音频文件包括的多个卡点音频片段；基于每个视频片段的时长和每个卡点音频片段的时长，从M个视频片段中确定每个卡点音频片段相匹配的视频片段，并根据每个卡点音频片段相匹配的视频片段生成待处理视频对应的剪辑视频。采用本发明实施例可提高视频剪辑的效率和增加剪辑得到的视频的观看效果。

Description

视频处理方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频处理方法、装置、设备及存储介质。

背景技术

随着科技的发展，通过视频记录生活中一些精彩事件已被广泛应用，比如记者通过拍摄视频记录奥运健儿的夺金过程，再如父母通过拍摄视频记录孩子参见节目时的精彩表现。在拍摄视频过程中，可能会拍摄到非目标对象，此时如果只想要目标对象的视频片段，就涉及到对视频的剪辑。

目前对视频裁剪的常用方法是人工从视频的多个图像帧中找出包括目标对象的图像帧，然后将这些图像帧按照时间顺序进行拼接得到只包括目标对象的一个或多个视频片段。这种人工裁剪的方法不仅耗费大量人力，还导致视频剪辑所需时间比较长，视频剪辑效果不佳。因此，在视频处理领域中，如何更好地对视频进行剪辑成为研究的热点问题。

发明内容

本发明实施例提供了一种视频处理方法、装置、设备及存储介质，可自动从一段待处理视频中剪辑出指定人物的视频片段，并为剪辑的视频片段匹配卡点音乐，提高了视频剪辑效率，增加了剪辑后视频的观看效果。

一方面，本发明实施例提供了一种视频处理方法，包括：

获取待处理视频以及与所述待处理视频关联的音频文件；

获取N个对象的标识信息，基于所述N个对象的标识信息对所述待处理视频进行人脸识别处理，从所述待处理视频中识别出所述N个对象相匹配的M个视频片段，一个对象相匹配的视频片段为至少一个，N和M均为大于或等于1的整数；

对所述音频文件进行强拍检测处理，得到所述音频文件包括的多个卡点音频片段；

基于每个视频片段的时长和每个卡点音频片段的时长，从所述M个视频片段中确定每个卡点音频片段相匹配的视频片段，并根据所述每个卡点音频片段相匹配的视频片段生成所述待处理视频对应的剪辑视频。

一方面，本发明实施例提供了一种视频处理装置，包括：

获取单元，用于获取待处理视频以及与所述待处理视频关联的音频文件；

所述获取单元，还用于获取N个对象的标识信息；

处理单元，用于基于所述N个对象的标识信息对所述待处理视频进行人脸识别处理，从所述待处理视频中识别出所述N个对象相匹配的M个视频片段，一个对象相匹配的视频片段为至少一个，N和M均为大于或等于1的整数；

所述处理单元，还用于对所述音频文件进行强拍检测处理，得到所述音频文件包括的多个卡点音频片段；

确定单元，用于基于每个视频片段的时长和每个卡点音频片段的时长，从所述M个视频片段中确定每个卡点音频片段相匹配的视频片段；

所述处理单元，还用于根据所述每个卡点音频文件相匹配的视频片段生成所述待处理视频对应的剪辑视频。

一方面，本发明实施例提供了一种视频处理设备，其特征在于，包括：处理器，适用于实现一条或多条计算机程序；以及计算机存储介质，所述计算机存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由所述处理器加载并执行：

获取待处理视频以及与所述待处理视频关联的音频文件；

一方面，本发明实施例提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序被处理器执行时，用于执行：

获取待处理视频以及与所述待处理视频关联的音频文件；

一方面，本发明实施例提供了一种计算机程序产品或计算机程序，所述计算机程序产品包括计算机程序，所述计算机程序存储在计算机存储介质中；视频处理设备的处理器从所述计算机存储介质中读取所述计算机程序，所述处理器执行所述计算机程序，使得视频处理设备执行：

获取待处理视频以及与所述待处理视频关联的音频文件；

本发明实施例中，在对待处理视频进行剪辑处理时，首先对待处理视频进行人脸识别处理，识别出待处理视频中的N个对象以及与N个对象相匹配的M个视频片段，一个对象相匹配的视频片段可能为一个或多个，与现有技术人工剪辑的方式相比，本申请通过人脸识别技术自动从待处理视频中剪辑出包括N个对象的M个视频片段，在节省了视频剪辑所需的人力资源的同时，还可以提高视频剪辑的效率。进一步的，为了丰富剪辑视频的趣味性，还可以提供与待处理视频关联的音频文件，然后对音频文件进行强拍检测得到多段卡点音频片段，再然后将多个卡点音频片段与视频片段进行匹配，匹配后生成待处理视频的剪辑视频，这样得到的剪辑视频既包括视频片段，还包括与该视频片段匹配的卡点音频片段，增加了剪辑视频的趣味性。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种视频处理方案的应用场景图；

图2是本发明实施例提供的一种视频处理方法的流程示意图；

图3是本发明实施例提供的一种对W个图像进行人脸检测得到人脸图像的示意图；

图4是本发明实施例提供的一种确定目标对象的视频片段的示意图；

图5是本发明实施例提供的一种确定卡点音频片段的示意图；

图6是本发明实施例提供的另一种视频处理方法的流程示意图；

图7是本发明实施例提供的一种镜头切换检测的示意图；

图8是本发明实施例提供的又一种视频处理方法的流程示意图；

图9是本发明实施例提供的一种视频装置的结构示意图；

图10是本发明实施例提供的一种视频处理设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明实施例基于人工智能提出了一种视频处理方案，可以实现从待处理视频中识别出N个对象以及N个对象相匹配的M个视频片段，进一步的，还可以为每个视频片段匹配一个卡点音频片段，相比于现有技术中人工进行视频裁剪的方案，可以节省人力资源，提高视频剪辑效率，并且为每个视频配置一个卡点音频片段，可以增加视频剪辑的趣味性。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

本发明实施例尤其涉及人工智能中的计算机视觉技术，具体可涉及计算机视觉技术中的人脸识别。人脸识别技术是指基于人的脸部信息进行身份识别的技术，人脸识别技术属于计算机视觉技术中一种，计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本发明实施例提供的视频处理方案可以是视频处理设备调用视频处理模型和音频处理模型执行的，视频处理模型主要可以用对待处理视频进行人脸识别处理，从待处理视频中识别出多个对象，以便于视频处理设备从待处理视频中裁剪出每个对象相匹配的视频片段；音频处理模型主要用于对待处理视频关联的音频文件进行强拍检测处理，得到多个卡点音频片段。本发明实施例中所述视频处理设备可以是终端设备，比如智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、智能电视等；或者，视频处理设备也可以是服务器，比如独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。

可选的，视频处理模型和音频处理模型可以是集成在一个模型中的两个子模型，或者，视频处理模型和音频处理模型也可以是各自独立的两个模型。视频处理模型可以是基于视频样本集训练得到的，视频样本集包括多个用于训练的视频样本以及每个视频样本中包括的对象。音频处理模型是基于音频样本集训练得到的，音频样本集包括多个用于训练的音频样本以及每个音频样本对应的强拍位置和卡点音频片段。

在一个实施例中，视频处理模型中可以包括人脸检测网络和人脸识别网络，人脸检测网络主要用于对待处理视频中每个图像帧进行人脸定位，以找到包括人脸的图像帧，并从相应图像帧中裁剪出人脸图像，然后将裁剪得到的多个人脸图像传输给人脸识别网络，由人脸识别对每个人脸图像进行人脸识别，以确定每个人脸图像对应的对象，换句话说，人脸识别模型用于确定每个人脸图像所属对象。

本发明实施例提供的视频处理方案可以通过多种方式比如以web接口形式应用于视频剪辑方案中，下面以通过web接口形式应用于视频剪辑为例，介绍本发明实施例提供的视频处理方案的一种应用场景。参见图1，为本发明实施例提供的一种视频处理方案的应用场景图，当用户需要对待处理视频进行剪辑时，可以在用户终端打开视频处理界面101，在视频处理界面101中显示有视频上传区域102和音频文件上传区域103，视频上传区域102提供给用户上传待处理视频的统一资源定位符(Uniform Resource Locator，URL)，音频文件上传区域103提供给用户上传待处理视频关联的音频文件的URL，与待处理视频关联的音频文件是用于为对待处理视频进行处理后的视频片段进行配乐的。

可选的，视频处理界面101还可以包括指定剪辑对象区域104，用户可以通过指定剪辑对象区域104输入一个或多个对象的标识信息，以在对待处理视频进行剪辑时，只剪辑出与输入的对象相匹配的视频片段。用户指定多个对象后，用户还可以选择将包括这些对象的视频片段合并在一起得到一个剪辑视频，还是分别剪辑每个对象的剪辑视频，例如如果用户触发了视频处理界面101中“多对象拆分剪辑”的按钮表示用户想要得到每个对象各自对应的剪辑视频；如果用户触发了视频处理界面101中“多对象合并剪辑”的按钮表示用户想要将多个对象放在一起得到一个剪辑视频。如此一来，当用户想从待处理视频中分别得到多个对象每个对象对应的剪辑视频时，无需用户多次在视频处理界面101执行一些操作，通过用户的一次操作，便能得到多个对象对应的剪辑视频，简化视频剪辑过程中用户的操作，增强用户体验。

假设用户在视频处理界面101中触发了“多对象拆分剪辑”的按钮，用户终端会将待处理视频、音频文件以及指定对象传输给视频处理设备，需要说明的是，用户终端与视频处理设备可以是同一个设备，也可以是不同的设备，本发明实施例在图1中以用户终端与视频处理设备是不同的设备为例。视频处理设备通过105中的步骤对待处理视频进行剪辑，具体可包括：先调用视频处理模型对待处理视频进行人脸识别处理，识别出待处理视频中的N个对象，以及N个对象相匹配的M个视频片段，这N个对象是用户通过用户终端指定的；然后视频处理设备调用音频处理模型对音频文件进行强拍检测得到多个卡点音频片段；然后为每个对象对应的一个或多个视频片段选取匹配的卡点音频，基于相匹配的卡点音频为每个视频片段进行配乐，得到一个对象对应的剪辑视频，采用相同的方法，可以得到每个对象对应的剪辑视频，然后将每个对象对应的剪辑视频如图1中106所示传输给用户终端进行显示。

通过图1可见，与现有技术人工剪辑的方式相比，本申请通过人脸识别技术自动从待处理视频中剪辑出包括N个对象的M个视频片段，在节省了视频剪辑所需的人力资源的同时，还可以提高视频剪辑的效率。进一步的，为了丰富剪辑视频的趣味性，还可以提供与待处理视频关联的音频文件，然后对音频文件进行强拍检测得到多段卡点音频片段，再然后将多个卡点音频片段与视频片段进行匹配，匹配后生成待处理视频的剪辑视频，这样得到的剪辑视频既包括视频片段，还包括与该视频片段匹配的卡点音频片段，增加了剪辑视频的趣味性。

基于上述的视频处理方案以及视频处理方案的应用场景，本发明实施例提供的一种视频处理方法，参见图2，为本发明实施例提供的一种视频处理方法的流程示意图。图2所示的视频处理方法可由视频处理设备执行，具体可由视频处理设备的处理器执行，图2所示的视频处理方法可包括如下步骤：

步骤S201、获取待处理视频以及与待处理视频关联的音频文件。

其中，视频处理设备可以是用户终端，也可以不是用户终端；当视频处理设备为用户终端时，视频处理设备获取待处理视频的方式可以是：用户在视频处理设备中输入一个视频地址比如视频的URL，视频处理设备下载与视频地址对应的视频，并将下载到的视频确定为待处理视频。

当视频处理设备与用户终端不是同一个设备时，视频处理设备获取待处理视频，可以包括：视频处理设备获取用户通过用户终端上传的一段视频，将该段视频确定为待处理视频。换句话说，视频处理设备获取到的待处理视频可以是用户直接上传的一段视频，比如用户通过用户终端录制了一段视频，用户可以将该段视频上传给视频处理设备。这种获取待处理视频的方式更适用于待处理视频较小，不需要耗费太多传输资源和时间的场景中，由用户直接上传待处理视频给视频处理设备。

当视频处理设备与用户终端不是同一个设备时，视频处理设备获取待处理视频，还可以包括：视频处理设备获取用户上传的视频地址；下载与该视频地址对应的视频，将下载的该视频作为获取到的待处理视频。其中，视频地址可以是URL，视频处理设备根据URL从网上下载对应的视频作为待处理视频。这种获取待处理视频的方式更适用于待处理视频较大，如果此时用户终端直接向视频处理设备传输待处理视频可能会花费较多的用户终端资源以及浪费更多的传输时间，采用此种方式可以解决这个问题。

其中，作为一种可选的实施方式，与待处理视频关联的音频文件可以是用户指定的。具体实现中，如果用户终端与视频处理设备是同一个设备，那么该音频文件可以是用户在视频处理设备中输入了一个音频地址，视频处理设备下载与该音频地址对应的音频文件，下载到的音频文件就是与待处理视频关联的音频文件。如果用户终端与视频处理设备不是同一个设备，音频文件可以是用户终端传输给视频处理的。或者，视频处理设备获取音频文件的方式还可以是用户终端传输一个音频地址给视频处理设备，视频处理设备下载与该音频地址相匹配的音频文件，将下载到的文件传输作为与待处理视频关联的音频文件。

作为另一种可选的实施方式，与待处理视频关联的音频文件可以是视频处理设备根据待处理视频的主题或者待处理视频的内容自动为待处理视频选取的。比如待处理视频的主题是家人团聚，视频处理设备为该待处理视频选取的关联的音频文件可以是“相亲相爱一家人”；再如，待处理视频的主题是朋友聚会，视频处理设备为该待处理视频选取的关联的音频文件可以是“朋友”等等。

步骤S202、获取N个对象的标识信息，基于N个对象的标识信息对待处理视频进行人脸识别处理，从待处理视频中识别出N个对象以及与N个对象相匹配的M个视频片段。

其中，N个对象的标识信息可以包括每个对象的参考人脸特征。可选的，视频处理设备获取每个对象的人脸特征的方式可以包括：视频处理设备直接获取用户上传的每个对象的参考特征。具体地，用户可以获取到每个对象的参考特征的保存地址，将该保存地址传输给视频处理设备，视频处理设备基于该保存地址获取每个对象的参考人脸特征。

可选的，视频处理设备获取每个对象的人脸特征的方式还可以包括：视频处理设备获取用户指定的N个对象中每个对象的身份信息，然后基于身份信息与参考人脸特征之间的对应关系，从人脸注册库中获取每个对象的参考人脸特征。其中，人脸注册库可以是预先构建的，其中存储有多个对象对应的参考人脸特征。在构建人脸注册库时，针对每个对象可以采集3-5张图像，图像像素可以大于200*200。针对每个图像采用人脸检测以及人脸识别技术得到每个对象对应的参考人脸特征。其中，人脸检测和人脸识别技术可以参见下述描述。

视频处理设备获取到需要进行裁剪的待处理视频后，可以先将待处理视频进行抽帧处理，得到待处理视频包括的多个图像帧，然后对每个图像帧采用人脸检测和人脸识别技术进行处理，以从待处理视频中识别出N个对象以及与N个对象相匹配的M个视频片段。其中，N个对象可以是用户指定的，比如在对待处理视频进行人脸识别处理之前，用户可以指定从待处理视频中裁剪包括某一个对象的视频片段，或者采集多个对象的视频片段，一个视频片段包括一个对象。具体实现中，对待处理视频进行人脸识别处理，从待处理视频中识别出N个对象以及与N个对象相匹配的M个视频片段，包括以下步骤：

s1：对待处理视频进行抽帧处理得到W个图像。作为一种可选的实施方式，视频处理设备对待处理视频进行抽帧处理得到W个图像，可以包括：视频处理设备采用全抽帧的方式对待处理视频进行抽帧处理得到W个图像。其中，全抽帧可以理解为：抽取图像的频率和待处理视频的帧率是相同的，例如，当待处理视频的帧率为每秒25帧时，视频处理设备可以每秒抽取25个图像，那么，对于一个时长为m的待处理视频来说，视频处理设备对其进行抽帧处理后得到的W个图像，W的取值具体可以为25*m。可以理解的，采用全抽帧的方式对待处理视频进行抽帧处理，可以获取到待处理视频中更多的图像，从而能够更加全面的识别出待处理视频中的N个对象。作为另一种可选的实施方式，视频处理设备对待处理视频进行抽帧处理得到W个图像，还可以包括：视频处理设备采用采样抽帧的方式对待处理视频进行抽帧处理得到W个图像。采样抽帧可以理解为：抽取图像的帧率和待处理视频的帧率是不相同的，例如，当待处理视频的帧率为n时，每秒抽取k个图像，k为小于n的正整数，那么，对于一个时长为m秒的待处理视频来说，视频处理设备对其进行采样抽帧后得到W个图像，W的具体取值可以为k*m。显然，采用采样抽帧方式得到的图像数量少于全抽帧方式得到的图像数量，得到的图像数量越少，可以减少视频处理设备在人脸识别处理时的计算量，有效减少资源消耗。

s2：调用人脸检测网络分别对W个图像进行人脸检测处理，得到P个人脸图像，P个人脸图像是对W个图像中包括人脸的L个目标图像进行人脸区域裁剪得到的。其中，人脸检测网络是用于检测图像中人脸的空间位置的网络，调用人脸检测网络分别对W个图像进行人脸检测，得到P个人脸图像的实施方式可以包括：调用人脸检测网络分别对W个图像进行人脸检测，从W个图像中确定包括人脸的L个目标图像，以及每帧目标图像中的人脸位置信息，L和W均为大于1的整数，且P小于W；基于每个目标图像中人脸位置信息对所述每个目标图像进行人脸裁剪处理，得到P个人脸图像。

其中，本申请所用到的人脸检测网络可以是三个级联的卷积神经网络(Multi-task convolutional neural networks，MTCNN)，也可以称为多任务级联卷积神经网络，MTCNN在对每个图像进行人脸检测的流程可以包括三个阶段，第一阶段：利用一个全卷积神经网络(该全卷积神经网络叫做Proposal Network(P-Net))对图像进行检测处理得到人脸五官的候选窗口及其边框回归向量；然后基于估计的边框回归向量对候选窗口进行校准，之后使用非极大值抑制合并高度重叠的候选窗口；第二阶段：将所有候选窗口提供给另外一个CNN网络，该CNN网络进一步去除大量错误的候选窗口，使用边框回归进行校准；第三阶段：这一阶段与第二阶段相似，但是在这一阶段的目标是识别更为精确的人脸区域，通过这一阶段会输出5个面部特征点(左眼、右眼、鼻子、左嘴角、右嘴角)的位置信息。可以理解的，采用MTCNN进行人脸检测使得人脸识别速度快效果好，在人脸检测和特征点定位的任务上，MTCNN具有实时处理的性能，利用了检测和对准之间固有的关系来增强他们的性能。特备在预测人脸及脸部标记点的时候，通过三阶的级联卷积神经网络对任务进行从粗到细的处理。

通过人脸检测网络对W个图像进行人脸检测，可以确定出包括人脸的L个目标图像，以及每个目标图像中的人脸5个关键点的位置信息，根据人脸5个关键点的位置信息可以确定出每个目标图像中的人脸位置信息。进一步的，可以按照人脸位置信息对每个目标图像进行人脸区域裁剪，可以得到从每个目标图像中裁剪下来的人脸图像。举例来说，参见图3，为本发明实施例提供的一种对W个图像进行人脸检测得到人脸图像的示意图，在图3中，假设W的取值为3，3个图像分别表示为图像1，图像2以及图像3，利用MTCNN网络分别对3个图像进行人脸检测以确定每个图像中人脸位置信息，假设人脸位置信息是以标注框的形式表示的。通过对3个图像进行人脸检测，假设确定图像1和图像3中包括人脸，图像2中不包括人脸，标注框A表示图像1中人脸位置信息，标注框B表示图3中人脸位置信息。进一步的，从图像1中按照标注框A进行裁剪得到人脸图像1，以及从图像3中按照标注框B进行裁剪得到人脸图像2。

可选的，由于包括人脸的目标图像中的人脸可能存在侧脸或者歪头的情况，如果直接裁剪可能得到人脸图像效果不是很好，因此，在对目标图像进行裁剪之前，还可以对目标图像进行人脸对齐处理。其中，本发明实施例可以采用仿射变换算法对每个目标图像中的5个面部特征点的坐标进行调整，使得人脸变换到正脸的位置，并指定裁剪的每个人脸图像大小相同比如均为112*112像素。

s3：调用人脸识别网络分别对P个人脸图像进行人脸识别，得到每个人脸图像对应的人脸特征。其中，人脸识别网络是基于人脸的脸部信息进行身份识别的网络，人脸识别网络可以是50层的残差网络(ResNet50)。ResNet50的50层结构如下：一个对输入的原始图像进行预处理的网络层(可以称之为输入层)，该输入层用于对输入进来的原始图像进行处理，该层可由一个7*7的卷积核负责进行特征提取，且卷积核的步长为2，输入层对原始图像进行处理后会时原始图像的长宽降低为原来的1/2，该输入层之后连接一个最大池化层，最大池化层可以进一步降低原始图像的分辨率；48个对处理后图像进行特征提取的网络层(可以称之为特征提取层)，特征提取层主要是使用重复残差块进行特征提取，这个过程可以分为几个阶段，每个阶段都通过2个残差块和一个下采样块进行特征提取处理，每个残差块和下采样块可以通过不同的卷积层进行特征提取，这部分技术比较成熟，本发明实施例不再赘述；一个全连接层，该全连接层用于把前面提取到的特征综合起来。

可选的，人脸检测网络可以是基于CASIA-WebFace公开人脸识别数据集进行训练的，训练人脸识别网络时采用的损失函数可以是角度间隔损失函数。采用人脸检测网络对每个人脸图像进行人脸识别后，可以将人脸检测网络的全连接层的输出的512维的嵌入特征embedding作为每个人脸图像的人脸特征。

s4：基于每个人脸图像对应的人脸特征、N个对象的标识信息以及每个人脸图像所属的目标图像，从L个目标图像中确定出每个对象对应的图像集。任一对象对应的图像集中包括一个或多个目标图像，这一个或多个目标图像仅包括任一对象的人脸，这一个或多个目标图像可以是待处理视频中的连续帧，也可以是不连续的。

假设N个对象中包括目标对象，目标对象可以是N个对象中任意一个对象，下面以目标对象为例，介绍如何基于每个人脸图像对应的人脸特征、N个对象的标识信息以及每个人脸图像所属的目标图像，确定每个对象对应的图像集。

作为一种可选的实施方式，基于每个人脸图像对应的人脸特征、N个对象的标识信息以及每个人脸图像所属的目标图像从L个目标图像中确定出每个对象对应的图像集，可以包括：分别对每个人脸图像对应的人脸特征与目标用户对应的参考人脸特征进行特征差运算，得到P个特征差值，一个人脸图像对应一个特征差值；从P个特征差值中选择小于特征差阈值的特征差值；将P个人脸图像中，与选择的特征差值对应的人脸图像确定为目标用户相匹配的人脸图像，以及将相匹配的人脸图像所属的目标图像组成所述目标对象对应的图像集。简单来说，就是逐一比较目标对象的参考人脸特征与各个人脸图像对应的人脸特征，然后将比较相似的人脸特征对应的人脸图像确定为目标对象的人脸图像，进一步的，确定该人脸图像是从哪个目标图像中裁剪下来的，将该目标图像添加到目标对象对应的图像集中。例如，在图3中，假设人脸图像1是目标对象相匹配的人脸图像，人脸图像1是对图像1进行裁剪得到的，那么图像1就是目标对象对应的图像集中一个。

作为另一种可选的实施方式，基于所述每个人脸图像对应的人脸特征、所述N个对象的标识信息以及所述每个人脸图像所属的目标图像，从所述L个目标图像中确定出每个对象对应的图像集，还可以包括：获取每个目标图像在所述待处理视频中的出现时间；对所述每个目标图像在所述待处理视频中的出现时间、所述每个人脸图像在所述每个人脸图像所属的目标图像中的人脸位置信息，以及所述目标对象对应的参考人脸特征进行聚类运算，从所述L个目标图像中确定出所述目标对象对应的图像集。通过时间信息、空间的位置信息以及人脸特征三个维度同时进行聚类，将出现时间接近、空间的位置信息接近，且人脸特征接近的目标图像聚类成同一类，这类目标图像是属于同一个对象。应当理解的，在实际应用中，仅仅依靠人脸识别网络识别出的每个对象对应的图像集可能会存在一定误差，比如某个目标图像中包括对象A的人脸，但是人脸识别网络却识别出该目标图像包括对象B的人脸。通过这种聚类的方法确定属于同一个用户的图像集，可以提高识别准确性。

s5：将每个对象对应的图像集中目标图像进行拼接处理得到每个对象对应的至少一个视频片段，各个对象对应的至少一个视频片段组成M个视频片段。以目标对象为例，将图像集中各个目标图像进行拼接处理得到每个对象的至少一个视频片段，可以包括：根据目标对象对应的图像集中每个目标图像在所述待处理视频中的出现时间，将所述目标对象对应的图像集中相邻的目标图像按照时间信息的先后顺序进行拼接，得到所述目标对象对应的一个视频片段。举例来说，参见图4，为本发明实施例提供的一种确定目标对象的视频片段的示意图。在图4中，对待处理视频进行抽帧处理得到4个图像，通过人脸检测网络和人脸识别网络进行处理后，图像1、图像2以及图像4是目标对象的图像集中包括的目标图像；由于图像1和图像2在待处理视频中是相邻的图像，将这两个图像按照出现的先后顺序进行拼接，得到目标对象的一个视频片段；图像4单独组成了目标对象的一个片段。

步骤S203、对音频文件进行强拍检测处理，得到音频文件包括的多个卡点音频片段。

通过上述步骤S202对待处理视频进行处理后，下面通过步骤S203对相匹配的音频文件进行处理，以便生成具有音频卡点的剪辑视频。在对音频文件进行处理的主要目的是为了检测出音频文件中的强拍位置，基于该强拍位置将音频文件切割成多个卡点音频片段，比如将每两个相邻强拍之间的音频作为一个卡点音频片段。例如，参见图5，为本发明实施例提供的一种确定卡点音频片段的示意图，在图5中501表示音频文件的点位坐标，0，1，2，3表示的是音频文件的强拍点位，0和1之间的音频片段为一个卡点音频片段，1和2之间的音频片段作为一个卡点音频片段，以此类推，得到多个卡点音频片段。通常情况下，在音乐中拍子分为强拍和弱拍，强拍则是音乐力度强的拍子，强拍和弱拍同时搭配，使其音乐出现节奏的变化。在本发明实施例中，强拍除了可以是传统意义上的“强拍”之外，该可以是用户预先设置的，比如用户可以将一段音频中传统意义上的“弱拍”设置为强拍。

可选的，对音频文件进行强拍检测处理，得到音频文件包括的多个卡点音频片段，可以包括：提取音频文件的节拍特征，以及音频文件的和声特征；调用音频处理模型分别对节拍特征和和声特征进行强拍检测，得到所述文件中每个节拍为强拍的第一概率和第二概率；基于所述节拍为强拍的第一概率和第二概率确定音频文件包括的多个强拍；在所述音频文件中，将两个相邻强拍组成一个卡点音频片段。

其中，提取节拍特征的大致流程可以是先通过短时傅里叶变换(STFT)来计算幅度谱图，然后，应用对数滤波器来压缩幅度。针对每一帧，计算当前帧与和前一帧之间的差异，最后，针对长度为Δb/np的窗口计算频率幅度的平均值来对特征序列进行节拍同步，得到的结果作为节拍特征。Δb是节拍周期，也就是一个节拍的长度，np是节拍分割数，是预先设定的一个常数值。音频文件的和声特征是用来表示整首歌的谐波内容，本发明实施例中可以采用色度特征来表征和声特征。

音频处理模型可以利用两个并行的循环神经网络构建的，基于西方音乐数据集Ballroom对音频处理模型进行训练，训练完成后的音频处理模型可以对节拍特征或者和声特征进行强拍识别处理，得到音频文件中某个节拍为强拍的概率。本发明实施例中，调用音频处理模型分别对节拍特征以及和声特征进行强拍识别处理，得到每个节拍为强拍的第一概率和第二概率；进一步的，基于第一概率和第二概率确定音频文件中的强拍。

在一个实施例中，基于第一概率和第二概率确定音频文件中的强拍，可以包括：将第一概率和第二概率输入到动态贝叶斯网络(DBN)中，该网络可以作为一个解码器，综合考虑两个概率值，确定一个节拍为强拍的综合概率，然后将每个节拍为强拍的概率值解码为强拍的时间序列，也就是确定一段音频文件中每个强拍点位。

步骤S204、基于每个视频片段的时长和每个卡点音频的时长，从M个视频片段中确定每个卡点音频片相匹配的视频片段，并根据每个卡点音频片段相匹配的视频片段生成待处理视频对应的剪辑视频。

可选的，每个卡点音频片段相配的视频片段的时长大于或等于所述每个卡点视频片段的时长，根据所述每个卡点视频片段相匹配的视频片段生成所述待处理视频对应的剪辑视频，可以包括：根据每个卡点音频片段的时长对每个卡点音频片段相匹配的视频片段进行时长调整，调整后视频片段的时长等于相匹配的卡点音频片段的时长；按照每个卡点音频片段在音频文件中的排列顺序，将每个卡点音频片段相匹配的，调整后视频片段进行拼接处理，得到拼接视频；采用音频文件对拼接视频进行配乐处理，得到待处理视频对应的剪辑视频。例如，在图5中，每个卡点音频片段具有一个对应的视频片段，利用每个卡点音频片段为每个视频片段配乐，并将配乐的所有视频片段进行拼接，便得到了剪辑视频。

由前述可知，在对待处理视频进行剪辑之前，用户可以指定剪辑方式，比如多对象合并剪辑，该是多对象拆分剪辑；如果剪辑方式是多对象合并剪辑，那么各个音频卡点片段相匹配的视频片段是属于不同对象的视频片段，比如第一个音频卡点片段相匹配的视频片段是属于对象A的一个视频片段，第二个卡点音频片段相匹配的视频片段是属于对象B的一个视频片段；这种情况下，对待处理视频进行剪辑可以得到一个剪辑视频，在这个剪辑视频里面包括N个对象，这个剪辑视频的每个图像中只包括N个对象中的一个对象。

如果剪辑方式是多对象拆分剪辑，那么各个音频卡点片段相匹配的视频片段是属于同一个对象的不同视频片段的，并且会有多组卡点音频片段相匹配的视频片段，每组中卡点音频片段相匹配的视频片段是属于同一个对象的。这种情况下，对待处理视频进行剪辑会得到N个剪辑视频，每个对象对应的多个视频片段和每个视频片段相匹配的卡点音频会生成一个剪辑视频。

基于上述的视频处理方法的实施例，本发明实施例提供了另一种视频处理方法，参见图6，为本发明实施例提供的另一种视频处理方法的流程示意图。图6所述的视频处理方法可由视频处理设备执行，具体可由视频处理视频中的处理器执行。图6所述的视频处理方法可包括如下步骤：

步骤S601、获取待处理视频以及与待处理视频关联的音频文件。

步骤S602、获取N个对象的标识信息，基于N个对象的标识信息对待处理视频进行人脸识别处理，从待处理视频中识别出N个对象相匹配的M个初始视频片段。

在一个实施例中，步骤S601和步骤S602中包括的一些可行的实施方式可参见上述图2实施例中步骤S201和步骤S202的描述。在图2实施例中，通过步骤s1-s5确定出的M个视频片段的方法，可以用在图6所示的实施例中，具体用于确定M个初始视频片段。为了避免由于镜头切换带来的剪辑视频观看效果不佳，在图6实施例中，在得到M个初始视频片段之后，进一步对每个初始视频片段进行镜头切换检测，并根据镜头切换检测的结果更新每个初始视频片段，得到M个视频片段。具体地，对每个初始视频片段进行镜头切换检测的步骤可包括步骤S603和步骤S604。

步骤S603、获取每个初始视频片段对应的初始时间区间。

每个初始视频片段对应的初始时间区间中包括开始时间和结束时间，每个初始视频片段的开始时间是指每个初始视频片段中第一个图像在待处理视频中的出现时间，每个初始视频片段的结束时间是指每个初始视频片段中最后一个图像在待处理视频中的出现时间。例如，一个初始视频片段中第一个图像在待处理视频中的出现时间为第31分钟，该初始视频片段中最后一个图像在待处理视频中的出现时间为第35分钟，那么该初始视频片段的初始时间区间可以表示为[第31分钟，第35分钟]。

步骤S604、基于每个初始视频片段对应的初始时间区间进行镜头切换检测，并根据镜头切换检测的结果更新M个初始视频片段，得到M个视频片段。

下面以M个初始视频片段中的目标初始视频片段为例，介绍步骤S604包括的一些可行实施方式。具体地，基于每个初始视频片段对应的初始时间区间进行镜头切换检测，包括：基于目标初始视频片段对应的初始时间区间中开始时间为目标初始视频片段确定第一镜头切换检测区间，以及基于目标初始视频片段对应的初始时间区间中的结束时间为目标初始视频片段确定第二镜头切换检测区间；获取待处理视频中属于第一镜头切换检测区间的第一图像集，以及待处理视频中属于第二镜头切换检测区间的第二图像集；基于所述第一图像集中各个相邻图像对中两个相邻图像之间的相似度差以及所述第二图像集中各个相邻图像对中两个相邻图像之间的相似度差更新所述目标初始视频片段。

在一个实施例中，基于所述第一图像集中相邻图像对中两个相邻图像之间的相似度差更新所述目标初始视频片段中的第一个图像，包括：若所述第一图像集中存在相似度差大于阈值的至少一个第一相邻图像对，则按照在所述待处理视频中出现的先后顺序从所述至少一个第一相邻图像对中选择出现较晚的第一目标相邻图像对，并将所述第一目标相邻图像对中出现较晚的图像添加到所述目标初始视频片段中，以及将所述第一图像集中位于出现较晚的图像与所述目标初始视频片段中第一图像之间的各个图像均添加到所述目标初始视频片段中；若所述第二图像集中存在相似度差大于阈值的至少一个第二相邻图像对，则按照在所述待处理视频中的先后顺序从所述至少一个第二相邻图像对中选择出现较早的第二目标相邻图像对，并将所述第二目标相邻图像对中出现较早的图像添加到所述目标初始视频片段中，以及将所述第二图像集中位于出现较早的图像与所述目标初始视频片段中最后一个图像之间的各个图像均添加到所述目标视频片段中。可选的，可以通过计算每个相邻图像对中每个图像的颜色直方图，然后通过颜色直方图计算两个图像之间的相似度差。

其中，在至少一个第一相邻图像对中出现较晚的第一目标相邻图像对是指该图像对中包括的图像在待处理视频中的出现时间均晚于其他第一相邻图像中各个图像在待处理视频中的出现时间。例如，至少一个第一相邻图像对的数量为2个，第一个相邻图像对中包括,图像1和图像2，图像1在待处理视频中的出现时间为第30分钟第1秒，图像2在待处理视频中的出现时间为第30分钟后第2秒；第二个相邻图像对中包括图像2和图像3，图像2在待处理视频中的出现时间为第30分钟第2秒，图像3在待处理视频中的出现时间为第30分钟第3秒，相比来看，第二个相邻图像对中各个图像在待处理视频中的出现时间晚于第一个相邻图像对中各个图像的出现时间，因此可以选择第二个相邻图像对作为第一目标相邻图像对。相反的，第二目标相邻图像对中各个图像在待处理视频中的出现时间早于其他第二相邻图像中图像的出现时间，基于上述例子，图像1和图像2组成一个第二相邻图像对，图像2和图像3组成一个第二相邻图像对，图像1和图像2组成的第二相邻图像对会被选择第二目标相邻图像对。

下面通过图7简单介绍如何对目标初始频段进行镜头切换检测，以实现对目标初始视频片段进行更新，得到一个视频片段。在图7中701表示目标初始视频片段，目标初始视频片段中包括图像1、图像2和图像3，三个图像按照各自在待处理视频中的出现时间由早到晚依次排列；图像1在待处理视频中的出现时间是目标初始视频片段对应的初始时间区间中的开始时间，图像3对应在待处理视频中的出现时间是目标初始视频片段对应的初始时间区间中的结束时间。

将开始时间的前一段时间比如2秒作为第一镜头检测区间，以及将结束时间的后一段时间比如2秒作为第二镜头检测区间，包括待处理视频中图像A，图像B以及图像C落入到第一镜头检测区间，组成了第一图像集；图像E，图像F以及图像G落入第二镜头检测区间，组成了第二图像集。对第一图像集中各个相邻图像对进行相似度检测得到图像A和图像B之间的相似度差大于阈值，图像B与图像C之间的相似度差不大于阈值，那么将图像B、图像C添加到目标初始视频片段中。对第二图像集中各个相邻图像对进行相似度检测得到图像E和图像F之间的相似度差，以及图像F和图像G之间的相似度差均大于阈值，那么就将图像E添加到目标初始视频片段中。更新后的目标初始视频片段作为一个视频片段。

步骤S605、根据每个视频片段中第一个图像在待处理视频中的出现时间，以及每个视频片段中最后一个图像在待处理视频中的出现时间，确定每个视频片段对应的目标时间区间；并基于每个视频片段对应的目标时间区间确定每个视频片段的时长。

在确定出每个视频片段对应的目标时间区间后，还可以将每个视频片段的目标时间区间，每个视频片段对应的对象以及每个对象对应的视频片段的数量进行关联存储。例如，目标对象对应的视频片段，以及各个视频片段的目标时间区间的关联存储可以表示为{(开始时间1，结束时间1)，(开始时间2，结束时间2)，(开始时间3，结束时间3)|Xn}，其中，Xn表示目标对象对应的视频片段的总数量。

可选的，根据每个视频片段对应的目标时间区间确定每个视频片段对应的时长，可以包括：将每个视频片段对应的目标时间区间中，结束时间与开始时间之间的差值作为每个视频片段的时长。

步骤S606、对音频文件进行强拍检测处理，得到音频文件包括的多个卡点音频片段，并获取每个卡点音频片段的时长。

在一个实施例中，步骤S606中包括的一些可行的实施方式可参见图2实施例中步骤S203的描述，在此不再赘述。

步骤S607、基于每个视频片段的时长和每个卡点音频片段的时长，从M个视频片段中确定每个卡点音频片段相匹配的视频片段，并根据每个卡点音频片段相匹配的视频片段生成待处理视频对应的剪辑视频。

已知音频文件中强拍的时间位置(或者称为强拍点位)和指定的M个视频片段，可以依次将时长最合适的视频片段填充到相邻两个点位之间，进而获得待处理视频对应的剪辑视频。步骤S607中涉及的一些可行的实施方式可参见图2实施例中步骤S204的相关描述，在此不再赘述。

基于上述步骤S601和步骤S607的描述，本发明实施例提供了一种视频处理的流程示意图，参见图8所示。具体地，视频处理设备获取到待处理视频后，对待处理视频进行抽帧处理，得到多个图像；然后分别对多个图像进行人脸检测和人脸识别处理，根据人脸检测和人脸识别的结果，得到多个人脸，以及每个人脸在待处理视频中的出现时间，比如在时刻1出现了人脸1，在时刻2出现了人脸2，人脸在待处理视频中出现的时间实际上是每个人脸所属图像在待处理视频中的出现时间；进一步的，基于人脸所属图像，可以确定出每个对象对应的图像集，然后按照图像的出现时间将每个对象的图像集中各个图像进行拼接，得到每个对象对应的至少一个视频片段，比如对象1对应的视频片段1，对象2对应的视频片段2等等。视频处理设备获取与待处理视频关联的音频文件，对音频文件进行强拍检测得到多个强拍点位，以及每个强拍点位在音频文件中的出现时间；最后，基于每个视频片段的时长与相邻强拍点位之间组成的卡点音频片段的时长，在每两个相邻的强拍点位之间填充相匹配的视频片段，最后生成了一段卡点剪辑视频。

本发明实施例中，本发明实施例中，在对待处理视频进行剪辑处理时，首先对待处理视频进行人脸识别处理，识别出待处理视频中的N个对象以及与N个对象相匹配的M个初始视频片段，与现有技术人工剪辑的方式相比，本申请通过人脸识别技术自动从待处理视频中剪辑出包括N个对象的M个初始视频片段，在节省了视频剪辑所需的人力资源的同时，还可以提高视频剪辑的效率。进一步的，对每个初始视频片段进行镜头切换检测，并根据检测结果更新每个初始视频片段得到M个视频片段。镜头切换检测的目的是为了保证每个视频片段中各个图像均是镜头在同一个状态下拍摄的，视频片段中不存在镜头切换的情况出现，如此可以避免由于镜头切换带来的观看不佳的情况出现。

并且，为了丰富剪辑视频的趣味性，还可以提供与待处理视频关联的音频文件，然后对音频文件进行强拍检测得到多段卡点音频片段，再然后将多个卡点音频片段与视频片段进行匹配，匹配后生成待处理视频的剪辑视频，这样得到的剪辑视频既包括视频片段，还包括与该视频片段匹配的卡点音频片段，增加了剪辑视频的趣味性。

基于上述的视频处理方法的实施例，本发明实施例提供了一种视频处理装置，参见图9，为本发明实施例提供的一种视频处理装置的结构示意图。图9所示的视频处理装置可运行如下单元：

获取单元901，用于获取待处理视频以及与所述待处理视频关联的音频文件；

所述获取单元901，还用于获取N个对象的标识信息；

处理单元902，用于基于所述N个对象的标识信息对所述待处理视频进行人脸识别处理，从所述待处理视频中识别出所述N个对象相匹配的M个视频片段，一个对象相匹配的视频片段为至少一个，N和M均为大于或等于1的整数；

所述处理单元902，还用于对所述音频文件进行强拍检测处理，得到所述音频文件包括的多个卡点音频片段；

确定单元903，用于基于每个视频片段的时长和每个卡点音频片段的时长，从所述M个视频片段中确定每个卡点音频片段相匹配的视频片段；

所述处理单元902，还用于根据所述每个卡点音频文件相匹配的视频片段生成所述待处理视频对应的剪辑视频。

在一个实施例中，所述每个卡点音频片段相配的视频片段的时长大于或等于所述每个卡点视频片段的时长，所述处理单元902在根据所述每个卡点视频片段相匹配的视频片段生成所述待处理视频对应的剪辑视频时，执行如下步骤：

根据所述每个卡点音频片段的时长对所述每个卡点音频片段相匹配的视频片段进行时长调整，调整后视频片段的时长等于相匹配的卡点音频片段的时长；按照所述每个卡点音频片段在所述音频文件中的排列顺序，将所述每个卡点音频片段相匹配的，调整后视频片段进行拼接处理，得到拼接视频；采用所述音频文件对所述拼接视频进行配乐处理，得到所述待处理视频对应的剪辑视频。

在一个实施例中，所述处理单元902在基于所述N个对象的标识信息对所述待处理视频进行人脸识别处理，从所述待处理视频中识别出N个对象相匹配的M个视频片段时，执行如下步骤：

对所述待处理视频进行抽帧处理得到W个图像；调用人脸检测网络分别对所述W个图像进行人脸检测处理，得到P个人脸图像，所述P个人脸图像是对所述W个图像中包括人脸的L个目标图像进行人脸区域裁剪得到的；

调用人脸识别网络分别对所述P个人脸图像进行人脸识别，得到每个人脸图像对应的人脸特征；基于所述每个人脸图像对应的人脸特征、所述N个对象的标识信息以及所述每个人脸图像所属的目标图像，从所述L个目标图像中确定出每个对象对应的图像集，任一对象对应的图像集中每个目标图像均包括所述任一对象的人脸；

将所述每个对象对应的图像集中的目标图像进行拼接处理得到所述每个对象对应的至少一个视频片段，各个对象对应的至少一个视频片段组成M个视频片段。

在一个实施例中，所述N个对象的标识信息包括N个对象中每个对象对应的参考人脸特征，所述N个对象包括目标对象，所述目标对象为所述N个对象中任意一个；所述处理单元902在基于所述每个人脸图像对应的人脸特征、所述N个对象的标识信息以及所述每个人脸图像所属的目标图像，从所述L个目标图像中确定出每个对象对应的图像集时，执行如下步骤：

分别对所述每个人脸图像对应的人脸特征与所述目标用户对应的参考人脸特征进行特征差运算，得到P个特征差值，一个人脸图像对应一个特征差值；从所述P个特征差值中选择小于特征差阈值的特征差值；将所述P个人脸图像中，与选择的特征差值对应的人脸图像确定为所述目标用户相匹配的人脸图像，以及将相匹配的人脸图像所属的目标图像组成所述目标对象对应的图像集。

获取每个目标图像在所述待处理视频中的出现时间；对所述每个目标图像在所述待处理视频中的出现时间、所述每个人脸图像在所述每个人脸图像所属的目标图像中的人脸位置信息，以及所述目标对象对应的参考人脸特征进行聚类运算，从所述L个目标图像中确定出所述目标对象对应的图像集。

在一个实施例中，所述N个对象中包括目标对象，所述目标对象为所述N个对象中任意一个，所述处理单元902在将所述每个对象对应的图像集中图像进行拼接处理得到每个对象对应的至少一个视频片段时，执行如下步骤：

根据所述目标对象对应的图像集中每个目标图像在所述待处理视频中的出现时间，将所述目标对象对应的图像集中相邻的目标图像按照出现时间的先后顺序进行拼接，得到所述目标对象对应的一个视频片段。

在一个实施例中，所述处理单元902在基于所述N个对象的标识信息对所述待处理视频进行人脸识别处理，从所述待处理视频中识别出所述N个对象相匹配的M个视频片段时，执行如下步骤：

基于所述N个对象的标识信息从所述待处理视频中识别出N个对象相匹配的M个初始视频片段，每个初始视频片段中包括一个对象的人脸；

获取所述每个初始视频片段对应的初始时间区间，所述每个初始频片段对应的初始时间区间中包括开始时间和结束时间，所述开始时间是指所述每个初始视频片段中第一个图像在所述待处理视频中的出现时间，所述结束时间是指所述每个初始视频片段中最后一个图像在所述待处理视频中的出现时间；

基于所述每个初始视频片段对应的初始时间区间进行镜头切换检测，并根据镜头切换检测的结果对所述每个初始视频片段进行更新，得到所述M个视频片段。

在一个实施例中，所述M个初始视频片段包括目标初始视频片段，所述目标初始视频片段为所述M个初始视频片段中任意一个；所述处理单元902在基于所述每个初始视频片段对应的初始时间区间进行镜头切换检测，并根据镜头切换检测的结果对所述每个初始视频片段进行更新时，执行如下步骤：

基于所述目标初始视频片段对应的初始时间区间中开始时间为所述目标初始视频片段确定第一镜头切换检测区间，以及基于所述目标初始视频片段对应的初始时间区间中结束时间为所述目标初始视频片段确定第二镜头切换检测区间；获取所述待处理视频中属于所述第一镜头切换检测区间的第一图像集，以及所述待处理视频中属于所述第二镜头切换检测区间的第二图像集；

基于所述第一图像集中各个相邻图像对中两个相邻图像之间的相似度差以及所述第二图像集中各个相邻图像对中两个相邻图像之间的相似度差更新所述目标初始视频片段。

在一个实施例中，所述处理单元902在述基于所述第一图像集中各个相邻图像对中两个相邻图像之间的相似度差以及所述第二图像集中各个相邻图像对中两个相邻图像之间的相似度差更新所述目标初始视频片段时，执行如下步骤：

若所述第一图像集中存在相似度差大于阈值的至少一个第一相邻图像对，则按照在所述待处理视频中出现的先后顺序从所述至少一个第一相邻图像对中选择出现较晚的第一目标相邻图像对，并将所述第一目标相邻图像对中出现较晚的图像，以及所述第一图像集中位于出现较晚的图像与所述目标初始视频片段中第一图像之间的各个图像均添加到所述目标初始视频片段中；

若所述第二图像集中存在相似度差大于阈值的至少一个第二相邻图像对，则按照在所述待处理视频中出现的先后顺序从所述至少一个第二相邻图像对中选择出现较早的第二目标相邻图像对，并将所述第二目标相邻图像对中出现较早的图像，以及所述第二图像集中位于出现较早的图像与所述目标初始视频片段中最后一个图像之间的各个图像均添加到所述目标视频片段中。

在一个实施例中，所述确定单元903，还用于根据所述每个视频片段中第一个图像在所述待处理视频中的出现时间，以及所述每个视频片段中最后一个图像在所述待处理视频中的出现时间，确定所述每个视频片段对应的目标时间区间；基于所述每个视频片段对应的目标时间区间确定所述每个视频片段的时长。

在一个实施例中，所述处理单元902在对所述音频文件进行强拍检测处理得到所述音频文件包括的多个卡点音频片段时，执行如下步骤：

提取所述音频文件的节拍特征，以及所述音频文件的和声特征；调用音频处理模型分别对所述节拍特征和所述和声特征进行强拍检测，得到所述音频文件中每个节拍为强拍的第一概率和第二概率；基于所述每个节拍为强拍的第一概率和第二概率确定所述音频文件包括的多个强拍；在所述音频文件中，将两个相邻强拍组成一个卡点音频片段。

根据本申请的一个实施例，图2和图6所示的视频处理方法所涉及各个步骤可以是由图9所示的视频处理装置中的各个单元来执行的。例如，图2所述的步骤S201可由图9所示的视频处理装置中的获取单元901来执行，步骤S202可由图9所示的视频处理装置中的获取单元901和处理单元902来执行，步骤S203可由图9所示的视频处理装置中的确定单元903来执行，步骤S204可由图9所示的视频处理装置中的确定单元903和处理单元902来执行；再如，图6所述的步骤S601和步骤S603可由图9所述的视频处理装置中的获取单元901来执行，步骤S602可由图9所述的视频处理装置中的获取单元901和处理单元902来执行，步骤S604可由图9所述的视频处理装置中的处理单元902来执行，步骤S605可由图9所述的视频处理装置中的确定单元903来执行，步骤S606和步骤S607可由图9所述的视频处理装置中的处理单元902来执行。

根据本申请的另一个实施例，图9所示的视频处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，基于数据处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2和图6所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图9中所示的视频处理装置，以及来实现本申请实施例的视频处理方法。所述计算机程序可以记载于例如计算机可读存储介质上，并通过计算机可读存储介质装载于上述视频处理设备中，并在其中运行。

基于上述的方法实施例以及装置实施例，本申请实施例提供了一种视频处理设备，参见图10，为本申请实施例提供的一种视频处理设备的结构示意图。图10所示的视频处理设备中可以包括处理器1001、输入接口1002、输出接口1003以及计算机存储介质1004。其中，处理器1001、输入接口1002、输出接口1003以及计算机存储介质1004可通过总线或其他方式连接。

计算机存储介质1004可以存储在视频处理设备的存储器中，所述计算机存储介质1004用于存储计算机程序，所述处理器1001用于执行所述计算机存储介质1004存储的计算机程序。处理器1001(或称CPU(Central Processing Unit，中央处理器))是视频处理设备的计算核心以及控制核心，其适于实现一条或多条计算机程序，具体适于加载并执行：

获取待处理视频以及与所述待处理视频关联的音频文件；获取N个对象的标识信息，基于所述N个对象的标识信息对所述待处理视频进行人脸识别处理，从所述待处理视频中识别出所述N个对象相匹配的M个视频片段，一个对象相匹配的视频片段为至少一个，N和M均为大于或等于1的整数；

对所述音频文件进行强拍检测处理，得到所述音频文件包括的多个卡点音频片段；基于每个视频片段的时长和每个卡点音频片段的时长，从所述M个视频片段中确定每个卡点音频片段相匹配的视频片段，并根据所述每个卡点音频片段相匹配的视频片段生成所述待处理视频对应的剪辑视频。

本申请实施还提供了一种计算机存储介质(Memory)，所述计算机存储介质是视频处理设备的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括视频处理设备的内置存储介质，当然也可以包括视频处理设备所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了视频处理设备的操作系统。并且，在该存储空间中还存放了适于被处理器1001加载并执行的一条或多条的计算机程序。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的计算机存储介质。

在一个实施例中，所述计算机存储介质中存储的一条或多条计算机程序可由处理器1001加载并执行：

在一个实施例中，所述每个卡点音频片段相配的视频片段的时长大于或等于所述每个卡点视频片段的时长；所述处理器1001在根据所述每个卡点视频片段相匹配的视频片段生成所述待处理视频对应的剪辑视频时，执行如下步骤：

根据所述每个卡点音频片段的时长对所述每个卡点音频片段相匹配的视频片段进行时长调整，调整后视频片段的时长等于相匹配的卡点音频片段的时长；

按照所述每个卡点音频片段在所述音频文件中的排列顺序，将所述每个卡点音频片段相匹配的，调整后视频片段进行拼接处理，得到拼接视频；采用所述音频文件对所述拼接视频进行配乐处理，得到所述待处理视频对应的剪辑视频。

在一个实施例中，所述处理器1001在基于所述N个对象的标识信息对所述待处理视频进行人脸识别处理，从所述待处理视频中识别出N个对象相匹配的M个视频片段时，执行如下步骤：

在一个实施例中，所述N个对象的标识信息包括N个对象中每个对象对应的参考人脸特征，所述N个对象包括目标对象，所述目标对象为所述N个对象中任意一个；所述处理器1001在基于所述每个人脸图像对应的人脸特征、所述N个对象的标识信息以及所述每个人脸图像所属的目标图像，从所述L个目标图像中确定出每个对象对应的图像集时，执行如下步骤：

分别对所述每个人脸图像对应的人脸特征与所述目标用户对应的参考人脸特征进行特征差运算，得到P个特征差值，一个人脸图像对应一个特征差值；

从所述P个特征差值中选择小于特征差阈值的特征差值；将所述P个人脸图像中，与选择的特征差值对应的人脸图像确定为所述目标用户相匹配的人脸图像，以及将相匹配的人脸图像所属的目标图像组成所述目标对象对应的图像集。

在一个实施例中，所述N个对象中包括目标对象，所述目标对象为所述N个对象中任意一个，所述处理器1001在将所述每个对象对应的图像集中图像进行拼接处理得到每个对象对应的至少一个视频片段时，执行如下步骤：

在一个实施例中，所述处理器1001在基于所述N个对象的标识信息对所述待处理视频进行人脸识别处理，从所述待处理视频中识别出所述N个对象相匹配的M个视频片段时，执行如下步骤：

在一个实施例中，所述M个初始视频片段包括目标初始视频片段，所述目标初始视频片段为所述M个初始视频片段中任意一个；所述处理器1001在基于所述每个初始视频片段对应的初始时间区间进行镜头切换检测，并根据镜头切换检测的结果对所述每个初始视频片段进行更新时，执行如下步骤：

在一个实施例中，所述处理器1001在基于所述第一图像集中各个相邻图像对中两个相邻图像之间的相似度差以及所述第二图像集中各个相邻图像对中两个相邻图像之间的相似度差更新所述目标初始视频片段时，执行如下步骤：

在一个实施例中，所述处理器1001还用于执行：根据所述每个视频片段中第一个图像在所述待处理视频中的出现时间，以及所述每个视频片段中最后一个图像在所述待处理视频中的出现时间，确定所述每个视频片段对应的目标时间区间；基于所述每个视频片段对应的目标时间区间确定所述每个视频片段的时长。

在一个实施例中，所述处理器1001在对所述音频文件进行强拍检测处理得到所述音频文件包括的多个卡点音频片段时，执行如下步骤：

本申请实施例提供了一种计算机程序或计算机产品，所述计算机产品包括计算机程序，所述计算机程序存储在计算机存储介质中；视频处理设备的处理器从所述计算机存储介质中读取所述计算机程序，执行如图2或图4所示的视频处理方法。

Claims

1.一种视频处理方法，其特征在于，包括：

获取待处理视频以及与所述待处理视频关联的音频文件；

获取N个对象的标识信息，基于所述N个对象的标识信息对所述待处理视频进行人脸识别处理，从所述待处理视频中识别出所述N个对象相匹配的M个视频片段，一个对象相匹配的视频片段为至少一个，N和M均为大于或等于1的整数；所述标识信息包括每个对象的参考人脸特征，其中，人脸特征是由相应对象的参考特征的保存地址得到的，或者是由指定对象的身份信息和参考人脸特征之间的对应关系获取到的；

提取所述音频文件的节拍特征以及和声特征，并分别对所述音频文件的所述节拍特征和和声特征进行强拍检测处理，得到所述音频文件包括的多个卡点音频片段；

基于每个视频片段的时长和每个卡点音频片段的时长，从所述M个视频片段中确定每个卡点音频片段相匹配的视频片段，并根据所述每个卡点音频片段相匹配的视频片段和指定的剪辑方式生成所述待处理视频对应的剪辑视频。

2.如权利要求1所述的方法，其特征在于，所述每个卡点音频片段相配的视频片段的时长大于或等于每个卡点视频片段的时长，所述根据所述每个卡点视频片段相匹配的视频片段生成所述待处理视频对应的剪辑视频，包括：

按照所述每个卡点音频片段在所述音频文件中的排列顺序，将所述每个卡点音频片段相匹配的，调整后视频片段进行拼接处理，得到拼接视频；

采用所述音频文件对所述拼接视频进行配乐处理，得到所述待处理视频对应的剪辑视频。

3.如权利要求1所述的方法，其特征在于，所述基于所述N个对象的标识信息对所述待处理视频进行人脸识别处理，从所述待处理视频中识别出N个对象相匹配的M个视频片段，包括：

对所述待处理视频进行抽帧处理得到W个图像；

调用人脸检测网络分别对所述W个图像进行人脸检测处理，得到P个人脸图像，所述P个人脸图像是对所述W个图像中包括人脸的L个目标图像进行人脸区域裁剪得到的；

调用人脸识别网络分别对所述P个人脸图像进行人脸识别，得到每个人脸图像对应的人脸特征；

基于所述每个人脸图像对应的人脸特征、所述N个对象的标识信息以及所述每个人脸图像所属的目标图像，从所述L个目标图像中确定出每个对象对应的图像集，任一对象对应的图像集中每个目标图像均包括所述任一对象的人脸；

4.如权利要求3所述的方法，其特征在于，所述N个对象的标识信息包括N个对象中每个对象对应的参考人脸特征，所述N个对象包括目标对象，所述目标对象为所述N个对象中任意一个；所述基于所述每个人脸图像对应的人脸特征、所述N个对象的标识信息以及所述每个人脸图像所属的目标图像，从所述L个目标图像中确定出每个对象对应的图像集，包括：

分别对所述每个人脸图像对应的人脸特征与目标用户对应的参考人脸特征进行特征差运算，得到P个特征差值，一个人脸图像对应一个特征差值；

从所述P个特征差值中选择小于特征差阈值的特征差值；

将所述P个人脸图像中，与选择的特征差值对应的人脸图像确定为所述目标用户相匹配的人脸图像，以及将相匹配的人脸图像所属的目标图像组成所述目标对象对应的图像集。

5.如权利要求3所述的方法，其特征在于，所述N个对象的标识信息包括N个对象中每个对象对应的参考人脸特征，所述N个对象包括目标对象，所述目标对象为所述N个对象中任意一个；所述基于所述每个人脸图像对应的人脸特征、所述N个对象的标识信息以及所述每个人脸图像所属的目标图像，从所述L个目标图像中确定出每个对象对应的图像集，包括：

获取每个目标图像在所述待处理视频中的出现时间；

对所述每个目标图像在所述待处理视频中的出现时间、所述每个人脸图像在所述每个人脸图像所属的目标图像中的人脸位置信息，以及所述目标对象对应的参考人脸特征进行聚类运算，从所述L个目标图像中确定出所述目标对象对应的图像集。

6.如权利要求3所述的方法，其特征在于，所述N个对象中包括目标对象，所述目标对象为所述N个对象中任意一个，所述将所述每个对象对应的图像集中图像进行拼接处理得到每个对象对应的至少一个视频片段，包括：

7.如权利要求1所述的方法，其特征在于，所述基于所述N个对象的标识信息对所述待处理视频进行人脸识别处理，从所述待处理视频中识别出所述N个对象相匹配的M个视频片段，包括：

获取所述每个初始视频片段对应的初始时间区间，所述每个初始视频片段对应的初始时间区间中包括开始时间和结束时间，所述开始时间是指所述每个初始视频片段中第一个图像在所述待处理视频中的出现时间，所述结束时间是指所述每个初始视频片段中最后一个图像在所述待处理视频中的出现时间；

8.如权利要求7所述的方法，其特征在于，所述M个初始视频片段包括目标初始视频片段，所述目标初始视频片段为所述M个初始视频片段中任意一个；所述基于所述每个初始视频片段对应的初始时间区间进行镜头切换检测，并根据镜头切换检测的结果对所述每个初始视频片段进行更新，包括：

基于所述目标初始视频片段对应的初始时间区间中开始时间为所述目标初始视频片段确定第一镜头切换检测区间，以及基于所述目标初始视频片段对应的初始时间区间中结束时间为所述目标初始视频片段确定第二镜头切换检测区间；

获取所述待处理视频中属于所述第一镜头切换检测区间的第一图像集，以及所述待处理视频中属于所述第二镜头切换检测区间的第二图像集；

9.如权利要求8所述的方法，其特征在于，所述基于所述第一图像集中各个相邻图像对中两个相邻图像之间的相似度差以及所述第二图像集中各个相邻图像对中两个相邻图像之间的相似度差更新所述目标初始视频片段，包括：

若所述第二图像集中存在相似度差大于阈值的至少一个第二相邻图像对，则按照在所述待处理视频中出现的先后顺序从所述至少一个第二相邻图像对中选择出现较早的第二目标相邻图像对，并将所述第二目标相邻图像对中出现较早的图像，以及所述第二图像集中位于出现较早的图像与所述目标初始视频片段中最后一个图像之间的各个图像均添加到所述目标初始视频片段中。

10.如权利要求9所述的方法，其特征在于，所述方法还包括：

根据所述每个视频片段中第一个图像在所述待处理视频中的出现时间，以及所述每个视频片段中最后一个图像在所述待处理视频中的出现时间，确定所述每个视频片段对应的目标时间区间；

基于所述每个视频片段对应的目标时间区间确定所述每个视频片段的时长。

11.如权利要求1～10任一项所述的方法，其特征在于，所述对所述音频文件进行强拍检测处理得到所述音频文件包括的多个卡点音频片段，包括：

提取所述音频文件的节拍特征，以及所述音频文件的和声特征；

调用音频处理模型分别对所述节拍特征和所述和声特征进行强拍检测，得到所述音频文件中每个节拍为强拍的第一概率和第二概率；

基于所述每个节拍为强拍的第一概率和第二概率确定所述音频文件包括的多个强拍；

在所述音频文件中，将两个相邻强拍组成一个卡点音频片段。

12.一种视频处理装置，其特征在于，包括：

所述获取单元，还用于获取N个对象的标识信息；

处理单元，用于基于所述N个对象的标识信息对所述待处理视频进行人脸识别处理，从所述待处理视频中识别出所述N个对象相匹配的M个视频片段，一个对象相匹配的视频片段为至少一个，N和M均为大于或等于1的整数；所述标识信息包括每个对象的参考人脸特征，其中，人脸特征是由相应对象的参考特征的保存地址得到的，或者是由指定对象的身份信息和参考人脸特征之间的对应关系获取到的；

所述处理单元，还用于提取所述音频文件的节拍特征以及和声特征，并分别对所述音频文件的所述节拍特征和和声特征进行强拍检测处理，得到所述音频文件包括的多个卡点音频片段；

所述处理单元，还用于根据每个卡点音频文件相匹配的视频片段和指定的剪辑方式生成所述待处理视频对应的剪辑视频。

13.一种视频处理设备，其特征在于，包括：

处理器，适用于实现一条或多条计算机程序；

计算机存储介质，所述计算机存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由所述处理器加载并执行如权利要求1-11任一项所述的视频处理方法。

14.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序被处理器执行时用于执行如权利要求1-11任一项所述的视频处理方法。