CN113709384A

CN113709384A - 基于深度学习的视频剪辑方法、相关设备及存储介质

Info

Publication number: CN113709384A
Application number: CN202110243565.2A
Authority: CN
Inventors: 苏业; 董伟; 徐敘遠; 张培成; 王烨鑫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-03-04
Filing date: 2021-03-04
Publication date: 2021-11-26
Also published as: WO2022184117A1; US20230049135A1

Abstract

本发明实施例公开了一种基于深度学习的视频剪辑方法、装置、计算机设备及介质，其中方法包括：获取目标视频以及关于所述目标视频的剪辑需求，所述目标视频中包括一个或多个对象；调用深度学习模型对所述目标视频中的各个对象进行属性识别，得到所述各个对象的属性信息；根据所述各个对象的属性信息，从所述一个或多个对象中选取满足所述剪辑需求的目标对象；从所述目标视频中剪辑出与所述目标对象相关联的多个图像组，并采用所述多个图像组，生成所述目标视频对应的剪辑视频。本发明实施例可以实现自动化地剪辑视频，有效节省时间成本和人力成本，进而有效提升视频剪辑效率。

Description

基于深度学习的视频剪辑方法、相关设备及存储介质

技术领域

本发明涉及互联网技术领域，具体涉及图像处理技术领域，尤其涉及一种基于深度学习的视频剪辑方法、一种基于深度学习的视频剪辑装置、一种计算机设备及一种计算机存储介质。

背景技术

随着移动互联网的不断发展，短视频近年来成为一种新的内容传播形式，且随着短视频的普及，极大满足了人们在日常生活中，更快速方便地获取更多信息的需求；所谓的短视频是指：利用软件对目标视频进行切割、合并以及二次编码等视频处理后，所生成的播放时长较短的剪辑视频。目前，剪辑得到短视频(或称为剪辑视频)的方式通常是：首先，由用户观看整个目标视频的视频内容；在对视频内容达到一定的熟悉程度后，再由用户通过视频剪辑软件按照自身需求从目标视频中逐一裁剪出多个视频片段；最后将多个视频片段进行拼接，以得到剪辑视频。由此可见，现有的视频剪辑方式不仅会使得人力成本较高；还会由于用户因需消耗大量时间来熟悉视频内容，而导致视频剪辑所需的时间成本较高，进而导致视频剪辑效率较低。

发明内容

本发明实施例提供了一种基于深度学习的视频剪辑方法、相关设备及存储介质，可以实现自动化地剪辑视频，有效节省时间成本和人力成本，进而有效提升视频剪辑效率。

一方面，本发明实施例提供了一种基于深度学习的视频剪辑方法，所述方法包括：

获取目标视频以及关于所述目标视频的剪辑需求，所述目标视频中包括一个或多个对象；

调用深度学习模型对所述目标视频中的各个对象进行属性识别，得到所述各个对象的属性信息，所述深度学习模型是利用深度学习技术进行模型训练，所得到的具有属性识别能力的模型；

根据所述各个对象的属性信息，从所述一个或多个对象中选取满足所述剪辑需求的目标对象；

从所述目标视频中剪辑出与所述目标对象相关联的多个图像组，并采用所述多个图像组，生成所述目标视频对应的剪辑视频。

另一方面，本发明实施例提供了一种基于深度学习的视频剪辑装置，所述装置包括：

获取单元，用于获取目标视频以及关于所述目标视频的剪辑需求，所述目标视频中包括一个或多个对象；

识别单元，用于调用深度学习模型对所述目标视频中的各个对象进行属性识别，得到所述各个对象的属性信息，所述深度学习模型是利用深度学习技术进行模型训练，所得到的具有属性识别能力的模型；

处理单元，用于根据所述各个对象的属性信息，从所述一个或多个对象中选取满足所述剪辑需求的目标对象；

所述处理单元，还用于从所述目标视频中剪辑出与所述目标对象相关联的多个图像组，并采用所述多个图像组，生成所述目标视频对应的剪辑视频。

再一方面，本发明实施例提供了一种计算机设备，所述计算机设备包括输入接口和输出接口，所述计算机设备还包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如下步骤：

再一方面，本发明实施例提供了一种计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如下步骤：

本发明实施例针对待剪辑的目标视频，可通过调用深度学习模型对目标视频中的各个对象进行属性识别，以较为准确地得到各个对象的属性信息；从而使得可根据各个对象的属性信息较为准确地选取出满足剪辑需求的目标对象，并从目标视频中自动剪辑出与目标对象相关的图像组，进而可通过采用多个图像组自动生成目标视频所对应的剪辑视频。由此可见，本发明实施例通过利用深度学习技术可实现视频的自动化剪辑；在整个视频剪辑过程中，无需任何用户的介入参与，可有效节省时间成本和人力成本，从而有效提升视频剪辑效率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的一种终端和服务器之间的交互示意图；

图1b是本发明实施例提供的一种视频剪辑方案的方案示意图；

图2是本发明实施例提供的一种视频剪辑方法的流程示意图；

图3a是本发明实施例提供的深度学习模型中的第一模型的模型结构示意图；

图3b是本发明实施例提供的深度学习模型中的第二模型的模型结构示意图；

图4是本发明另一实施例提供的一种视频剪辑方法的流程示意图；

图5a是本发明实施例提供的一种确定卡点视频片段的方法示意图；

图5b是本发明实施例提供的一种生成静态视频片段的方法示意图；

图5c是本发明实施例提供的一种生成剪辑视频的方法示意图；

图5d是本发明实施例提供的另一种生成剪辑视频的方法示意图；

图6是本发明实施例提供的一种视频剪辑框架的结构示意图；

图7是本发明实施例提供的一种视频剪辑装置的结构示意图；

图8是本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

随着互联网技术的不断发展，人工智能(Artificial Intelligence，AI)技术也随之得到更好的发展。所谓的人工智能技术是指利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术；其主要通过了解智能的实质，生产出一种新的能以人类智能相似的方式做出反应的智能机器，使得智能机器具有感知、推理与决策等多种功能。相应的，AI技术是一门综合学科，其主要包括计算机视觉技术(Computer Vision，CV)、语音处理技术、自然语言处理技术以及机器学习(MachineLearning，ML)/深度学习等几大方向。

其中，计算机视觉技术是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(OpticalCharacter Recognition，光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D(三维)技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是AI的核心，是使计算机设备具有智能的根据途径；所谓的机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科；其专门研究计算机设备怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。而深度学习则是一种利用深层神经网络系统，进行机器学习的技术；机器学习/深度学习通常可包括人工神经网络、置信网络、强化学习(Reinforcement Learning，RL)、迁移学习、归纳学习、式教学习等多种技术。

基于上述所提及的AI技术中的计算机视觉技术以及机器学习/深度学习技术，本发明实施例提出了一种视频剪辑方案以实现自动化地剪辑视频，提升视频剪辑效率。在具体实现中，该视频剪辑方案可由一个计算机设备执行，该计算机设备可以是终端或者服务器；其中，终端可包括但不限于：智能手机、平板电脑、笔记本电脑、台式计算机、智能电视等；终端内均可运行各式各样的客户端(application，APP)，如视频播放客户端、社交客户端、浏览器客户端、信息流客户端、教育客户端，等等。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器，等等。应理解的是，若计算机设备为服务器，则当任一用户存在视频剪辑需求时，可通过任一终端将待剪辑的目标视频上传至计算机设备(即服务器)，使得计算机设备采用该视频剪辑方案对目标视频进行剪辑处理，从而得到剪辑视频，如图1a所示。

其中，该视频剪辑方案的大致原理可参见图1b所示，具体如下：首先，计算机设备可预先利用机器学习/深度学习技术，训练得到一个具有属性识别能力的深度学习模型。可理解的是，深度学习模型本质上是一个属性识别模型；所谓的属性识别模型是指：基于机器学习技术/深度学习技术对标注样本数据(如样本图像和指定属性标签的对应关系)进行学习训练后得到的数学模型，学习训练的过程中可获得该数学模型的模型参数，使得后续识别预测时可通过加载该模型参数，计算出输入数据中的各个对象包括指定范围内的某个属性的概率。当需要对目标视频进行视频剪辑时，计算机设备便可先通过该深度学习模型对目标视频进行视频理解，以确定出目标视频中所包括的各个对象以及各个对象的属性信息。其次，计算机设备可根据各个对象的属性信息从目标视频中，自动剪辑出与满足剪辑需求的目标对象相关联的多帧图像或者多个子视频片段。最后，可采用剪辑出的多帧图像或者多个子视频片段，直接拼接得到一个剪辑视频；或者采用合适的音乐对剪辑出的多帧图像或者多个子视频片段进行配乐以及视频拼接处理，得到剪辑视频。

由此可见，本发明实施例所提出的视频剪辑方案，可在无任何人工干预的情况下，通过利用深度学习技术和剪辑需求从目标视频中智能选取多帧图像或者多个子视频片段，从而实现全自动地剪辑出一个无配乐的剪辑视频，或者具有合适配乐的剪辑视频；这样的自动剪辑方式，可有效节省时间成本和人力成本，从而有效提升视频剪辑效率。并且，随着剪辑需求的不同，可使得计算机设备所选取的目标对象也随之不同，进而可使得生成的剪辑视频也随之不同；那么，通过设置多种不同的剪辑需求，还可丰富剪辑视频的种类，有效提升剪辑产生的多样性。

基于上述视频剪辑方案的相关描述，本发明实施例提出一种基于深度学习的视频剪辑方法，该视频剪辑方法可以由上述所提及的计算机设备执行。请参见图2，该视频剪辑方法可包括以下步骤S201-S205：

S201，获取目标视频以及关于目标视频的剪辑需求。

在具体实施过程中，用户可通过向计算机设备发送视频剪辑请求，以请求计算机设备对目标视频进行视频剪辑；相应的，计算机设备可根据该视频剪辑请求获取目标视频。在一种实施方式中，视频剪辑请求可以是一个vid请求，所谓的vid是指一种无声音的视频文件流媒体格式；那么在此实施方式下，目标视频可以是一种无声音的视频，即目标视频可以理解为只包括一个由多帧图像所构成的连续图像序列。再一种实施方式中，视频剪辑请求可以是一个vid+wav请求，所谓的wav是指一种标准数字音频文件；那么在此实施方式下，目标视频可以是一种有声音的视频，即目标视频可以理解为同时包括一个由多帧图像所构成的连续图像序列，以及一个音频数据。

应理解的是，上述所提及的目标视频可以是任一类型的视频，如影视视频、综艺视频、自媒体视频、游戏视频，等等。所谓的影视视频是指：在指定拍摄场景中，按照事先制作好的剧本对人物和/或动物的表演过程以及周围的环境进行录制，并后期加上音频、特效等制作而成的视频；综艺视频是指：一种综合多种艺术形式并带有娱乐性的视频；自媒体视频是指：普通大众采用摄像设备对某个场景进行拍摄，且通过网络等途径向外发布的视频，如vlog(video blog，视频记录/视频博客/视频网络日志)；游戏视频是指：在一个或多个玩家用户玩耍目标游戏的过程中，对任一玩家用户的终端屏幕中所显示的游戏画面，或者对观看该任一玩家用户的游戏过程的观看用户的终端屏幕中所显示的游戏画面进行屏幕录制而成的视频。

目标视频中可包括一个或多个对象，此处所提及的对象可以根据目标视频的类型确定。例如，当目标视频为影视视频、综艺视频或者自媒体视频时，目标视频中的对象可以是指以下任一种：人物、动物、建筑物，等等；当目标视频为游戏视频时，目标视频中的对象可以是指：游戏中的虚拟角色对象，等等。为便于阐述，后续均以对象为人物为例进行说明。

计算机设备除了获取目标视频以外，还可获取关于目标视频的剪辑需求；该剪辑需求可以是用户在发送视频剪辑请求时所设置的剪辑目的确定的，也可以是由计算机设备根据预设的任一剪辑目的所确定，对此不作限定。其中，剪辑目的用于指示欲将目标视频剪辑成目标类型的剪辑视频，此处的目标类型可以包括以下任一种：角色集锦类、CP集锦类、动作一致性类、角色情绪定向类，等等。下面将分别对各个类型的剪辑视频的具体定义进行阐述：

①角色集锦类的剪辑视频是指：由包含同一个主要角色的多个图像组拼接在一起所形成的视频。此处所提及的主要角色是指：目标视频中对象频次大于频次阈值或者对象频次最大的对象；所谓的对象频次是指：对象在目标视频中出现的次数，如某对象A在目标视频中出现了100次，那么该对象A的对象频次便为100。相应的，若剪辑目的用于指示欲将目标视频剪辑成角色集锦类的剪辑视频，则剪辑需求可用于指示：选取对象频次大于频次阈值的对象，或者选取对象频次最大的对象；此处的频次阈值可根据经验值或者业务需求设置，例如频次阈值可以设置为500次。

②CP集锦类的剪辑视频是指：由包含同一个热门CP的多个图像组拼接在一起所形成的视频。此处所提及的热门CP是指：目标视频中出现次数大于次数阈值或者出现次数最大的CP，所谓的CP是指由两个对象所构成的对象对，如由不同性别且具有恋人关系的两个对象所构成的恋人对，由相同性别且具有好友关系的两个对象所构成的闺蜜对/兄弟对，等等。相应的，若剪辑目的用于指示欲将目标视频剪辑成CP集锦类的剪辑视频，则剪辑需求可用于指示：选取出现次数大于次数阈值或者出现次数最大的CP；此处的次数阈值可根据经验值或者业务需求设置，例如次数阈值可以设置为200次。

③动作一致性类的剪辑视频是指：由包含执行着同一个动作的至少一个对象的各个图像组拼接在一起所形成的视频。此处所提及的同一个动作可以是针对一个对象而已的，也可以是针对多个对象而言的，对此不作限制；当针对一个对象而言时，该同一个动作可以是该对象在不同时刻所执行的共同动作，或者该对象在不同时刻所执行的预设动作；当针对多个对象而言时，该同一个动作可以是各个对象所执行的共同动作，或者各个对象所执行的预设动作。相应的，若剪辑目的用于指示欲将目标视频剪辑成动作一致性类的剪辑视频，则剪辑需求可用于指示：选取执行有共同动作的对象，或者选取执行有预设动作的对象；此处的预设动作可以根据需求设置，如用户比划一个心型的比心动作，舞蹈动作，等等。

④角色情绪定向类的剪辑视频是指：由包含处于同一情绪状态的至少一个对象的各个图像组拼接在一起所形成的视频。此处所提及的同一个情绪状态可以是针对一个对象而言的，也可以是针对多个对象而言的，对此不作限制；当针对一个对象而言时，该同一个情绪状态可以是该对象在不同时刻所具有的共同情绪状态，或者该对象在不同时刻所具有的预设情绪状态；当针对多个对象而言时，该同一个情绪状态可以是各个对象所具有的共同情绪状态，或者各个对象所具有的预设情绪状态。相应的，若剪辑目的用于指示欲将目标视频剪辑成角色情绪定向类的剪辑视频，则剪辑需求可用于指示：选取具有共同情绪状态的对象，或者选取具有预设情绪状态的对象；此处的预设情绪状态可以根据需求设置，如高兴状态、悲伤状态，等等。

S202，调用深度学习模型对目标视频中的各个对象进行属性识别，得到各个对象的属性信息。

其中，深度学习模型可以是利用深度学习技术进行模型训练，所得到的具有属性识别能力的模型；具体的，该深度学习模型可以是预先利用机器学习/深度学习技术，将初始神经网络模型在海量的标注样本数据上进行训练，所得到的具有面部识别、动作识别、情绪识别等原子能力的模型。通过深度学习模型对目标视频中的各个对象进行属性识别，所得到的任一对象的属性信息可包括以下至少一项：面部信息、动作信息(如人脸信息)、情绪信息以及性别信息，等等。具体的，任一对象的面部信息可包括：任一对象的多个面部特征以及每个面部特征的面部时间标记；任一面部特征的面部时间标记用于指示：从目标视频中识别得到任一面部特征时，该任一对象所属的图像。任一对象的动作信息可包括：任一对象的多个动作特征以及每个动作特征的动作时间标记；任一动作特征的动作时间标记用于指示：从目标视频中识别得到任一动作特征时，该任一对象所属的子图像序列。任一对象的情绪信息可包括：任一对象的多个情绪特征以及每个情绪特征的情绪时间标记；任一情绪特征的情绪时间标记用于指示：从目标视频中识别得到任一情绪特征时，该任一对象所属的图像。需要说明的是，任一用户的任一特征均可具有多个时间标记；例如，若任一对象可能在多帧图像中(假设5帧图像)存在同一面部特征(设面部特征A)，那么该面部特征A可具有5个面部时间标记；又如，若任一对象在多个子图像序列(假设3个子图像序列)中存在同一动作特征(设动作特征A)，那么该动作特征A可具有2个动作时间标记，等等。

在一种具体实现中，由于同一个对象在不同图像中所具有的面部特征、情绪特征等特征均不相同，因此在识别各对象的面部信息、情绪信息等信息时，可基于图像帧为单位进行属性识别。基于此，深度学习模型可包括第一模型；该第一模型是指基于深度卷积神经网络构建训练的，可用于对目标视频中的每一帧图像进行独立的属性识别的网络模型。其中，卷积神经网络(Convolutional Neural Network，CNN)是一种前馈神经网络，其可通过模拟人大脑神经元的工作机制进行工作。卷积神经网络通常可包括一个或多个卷积层和顶端的全连通层，同时还可包括关联权重和池化层(pooling layer)；这一结构使得卷积神经网络能够充分利用输入数据的二维结构，对输入数据进行属性识别，从而得到较为准确的属性信息。基于该卷积神经网络的相关描述，本发明实施例可搭建一个如图3a所示的深度卷积神经网络，从而使得可采用图3a所示的深度卷积神经网络构建训练得到第一模型。

参见图3a所示，该深度卷积神经网络可依次包括：输入层(Input)、卷积+激活层(convolution+relu)、池化层(pooling)、卷积+激活层、池化层、压平层(flatten)、全连接层(full connected)以及归一化层(sofmax)。其中，输入层负责接收图像；卷积+激活层负责执行卷积操作和激活操作，通过卷积操作可提取出图像特征，通过激活操作可有助于网络获得非线性特征；池化层负责执行池化操作，通过池化操作可保留显著特征、去除冗余信息以及减少后续的计算量；压平层负责执行数据压平操作(即将多维的数据转换成一维数据的处理)，通过数据压平操作可有效降低数据的维度，便于后续的数据处理；全连接层负责执行数据连接操作，此处的数据连接操作是指将多个特征数据整合到一起，以输出一个值的操作；归一化层负责通过全连接层的输出结果预测图像中各对象的属性信息以及每个属性信息的预测概率，从而输出预测概率大于概率阈值或者预测概率最大的属性信息。由于本发明实施例采用卷积+激活层和池化层交叉的方式来构建深度卷积神经网络，可使得采用该深度卷积神经网络搭建并训练得到第一模型的过程中，能够较好地根据样本数据的标注类别较好地学习到每个标注类别下的属性特征，并在逐渐训练中提升属性识别的准确率，进而得到鲁棒性较好的第一模型。

在此具体实现中，步骤S202的具体实施方式可以包括：将目标视频拆分成独立的各帧图像，并依次调用深度学习模型中的第一模型对独立的各帧图像进行对象属性识别，得到各个对象的属性信息。其中，此处的对象属性识别可包括以下至少一项：面部识别和情绪识别；那么相应的，采用该实施方式所得到的任一对象的属性信息可包括以下至少一项：面部信息和情绪信息，即面部信息和情绪信息是通过第一模型识别得到的。可选的，由于同一个对象的性别信息是唯一的，因此也可调用第一模型对独立的各帧图像进行性别识别，得到各个对象的性别信息，以便于后续基于该性别信息进行CP识别。

再一种具体实现中，由于任一对象的动作通常是动态的，是具有运动轨迹的，基于单帧图像很难识别出对象的运动轨迹，从而很难识别出对象的动作；因此，在识别各对象的动作信息时，可基于图像序列为单位进行动作识别。基于此，深度学习模型可包括第二模型；该第二模型是基于slowfast(一种目标快慢检测算法)算法搭建训练的，可用于对目标视频中的每个子图像序列进行动作识别的快慢结合的网络模型。参见图3b所示，该第二模型可包括第一通道网络(Low frame rate)、第二通道网络(High frame rate)以及预测层(prediction)。其中，第一通道网络的输入为低帧率的第一图像序列，其用来捕获空间语义信息和静态内容；第二通道网络的输入为高帧率的第二图像序列，其用于捕获运动信息和动态内容；预测层的输入为第一通道网络的输出结果和第二通道网络的输出结果，其用于根据两个输出结果进行动作预测，从而输出预测得到的动作特征以及该动作特征的动作时间标记。并且，第一通道网络所使用的卷积核的尺寸可为{T，S²，C}，T、S和C分别表示时序、空间和channel(通道)的尺寸；第二通道网络所使用的卷积核的尺寸可为{αT，S²，βC}，α表示速度比率(跳帧率)，β表示通道比率，α和β的具体取值可根据经验值设置。需要说明的是，第二通道网络具有较小的通道，是一个轻量级的网络。

在此具体实现中，步骤S202的具体实施方式可以包括：将目标视频拆分成多个子图像序列，每个子图像序列所包括的图像的数量可根据第二模型的处理能力确定；例如，第二模型每次只能输入64帧图像，那么每个子图像序列可以包括64帧图像。然后，可调用深度学习模型中的第二模型分别对各个子图像序列进行对象动作识别，得到各个对象的动作信息，即任一对象的动作信息是通过第二模型识别得到的。具体的，针对任一子图像序列，可对任一子图像序列进行跳帧处理，以得到与第二模型中的第一通道网络所适配的第一图像序列，以及对任一子图像序列进行跳帧处理，以得到与第二模型中的第二通道网络所适配的第二图像序列。然后，分别调用第一通道网络对第一图像序列进行卷积处理，调用第二通道网络对第二图像序列进行卷积处理；并且，第二通道网络每次执行卷积处理后，可将所得到的处理结果通过侧向连接送入第一通道网络，使得第一通道网络可以及时了解到第二通道网络的处理结果，进而根据该处理结果执行后续的卷积处理。最后，可调用预测层根据第一通道网络的输出结果和第二通道网络的输出结果进行动作预测，从而输出该任一子图像序列所包括的动作特征。

需要说明的是，在业务数据的增长的同时，上述所提及的对单帧图像进行识别的第一模型、以及对子图像序列进行识别的第二模型等各个模型均可在大数据的加持下，持续提升识别效果；同时，该各个模型还可以在出现新元素(即新属性)的识别需求时，通过更改样本数据采用标注-微调的方式来快速迭代各个模型的识别能力，从而使得各个模型可以较好且快速地适应业务需求。

S203，根据各个对象的属性信息，从一个或多个对象中选取满足剪辑需求的目标对象。

由前述可知，任一对象的属性信息可包括以下至少一项：面部信息、动作信息、情绪信息以及性别信息等信息；剪辑需求可用于指示如何对目标视频中的一个或多个对象进行对象选取。那么相应的，步骤S203的具体实施方式可以包括：

若剪辑需求指示选取对象频次大于频次阈值的对象，或者选取对象频次最大的对象，则可分别根据各个对象的面部信息统计各个对象在目标视频中出现的对象频次；然后，从一个或多个对象中选取对象频次大于频次阈值的任一对象作为目标对象；或者，从一个或多个对象中选取对象频次最大的对象作为目标对象。其中，以任一对象为例，根据该任一对象的面部信息统计各个对象在目标视频中出现的对象频次的具体实施方式可以是：统计任一对象的面部信息中所包括的面部时间标记的数量，将统计得到的数量作为任一对象在目标视频中出现的对象频次。

若剪辑需求指示选取执行有共同动作的对象，或者选取执行有预设动作的对象，则可根据各个对象的动作信息从多个对象中选取第一对象组，并将第一对象组中的任一对象作为目标对象，该第一对象组中的各个对象均执行有共同动作；或者，根据各个对象的动作信息从多个对象中，选取执行有预设动作的任一对象作为目标对象。其中，根据各个对象的动作信息从多个对象中选取第一对象组的具体实施方式可以是：依次遍历多个对象，按照动作空间规则采用当前遍历的当前对象的动作信息中的各个动作特征，分别对除当前对象以外的各个其他对象的动作信息进行特征命中匹配；此处的特征命中匹配是指：针对当前对象的任一动作特征，在其他对象的动作信息中查找与该任一动作特征同时满足动作空间规则的特征的处理。若成功命中一个或多个其他对象，则将当前对象和命中的其他对象均添加至第一对象组中，否则，则继续遍历剩余未被遍历的对象，直至各个对象均被遍历，此时便可得到第一对象组。需说明的是，上述所提及的动作空间对齐规则可包括以下任一种：动作特征一致的对齐规则，动作特征一致且动作速度一致的对齐规则，动作特征一致、动作速度一致且对象执行动作时所处的空间位置相同的对齐规则，等等。

若剪辑需求指示选取具有共同情绪状态的对象，或者选取具有预设情绪状态的对象，则可根据各个对象的情绪信息从多个对象中选取第二对象组，并将第二对象组中的任一对象作为目标对象，该第二对象组中的各个对象均具有共同情绪状态；或者，根据各个对象的情绪信息从多个对象中，选取具有预设情绪状态的任一对象作为目标对象。

若剪辑需求指示选取出现次数大于次数阈值或者出现次数最大的CP，任一对象的属性信息还可包括关联对象信息，该关联对象信息可包括任一对象的一个或多个关联对象，以及每个关联对象所对应的关联时间标记；其中，关联对象是指和任一对象同时出现在一帧图像中的对象，任一关联对象的关联时间标记用于指示：任一对象和任一关联对象同时出现时所对应的帧图像。则计算机设备针对任一对象，还可根据任一对象的属性信息中所包括的关联时间标记的数量，统计任一对象和该任一对象的各个关联对象共同出现的出现次数，并将大于预设阈值的出现次数所对应的关联对象和任一对象确定为一个CP；采用该统计方法对各个对象均进行处理后，便可得到多个CP。然后，可从多个CP中选取出现次数大于次数阈值或者出现次数最大的CP，并将选取的CP中的任一对象作为目标对象。需要说明的是，针对确定出的任一CP，还可根据该任一CP中的两个对象的性别信息进一步确定该任一CP的类型；例如，若该任一CP中的两个对象的性别信息不同，则可将该任一CP确定为恋人对；又如，若该任一CP中的两个对象的性别信息相同，则可将该任一CP确定为闺蜜对或者兄弟对，等等。

S204，从目标视频中剪辑出与目标对象相关联的多个图像组。

在具体实施过程中，计算机设备可提供两种剪辑方式：图片剪辑方式和片段剪辑方式；所谓的图片剪辑方式是指：以一帧图像为剪辑单位，每次从目标视频中剪辑出与目标对象相关联的一帧图像的方式；所谓的片段剪辑方式是指：以视频片段为剪辑单位，每次从目标视频中剪辑出与目标对象相关联的一个子视频片段的方式。那么相应的，计算机设备在执行步骤S204时，可根据实际需求或者任意地从两种剪辑方式中选取一种剪辑方式，并采用被选取的目标剪辑方式从目标视频中剪辑出与目标对象相关联的多个图像组。其中，当被选取的目标剪辑方式为图片剪辑方式时，经过多次执行剪辑操作，便可得到与目标对象相关联的多帧图像；此情况下，各个图像组均包括一帧图像。当被选取的剪辑方式为片段剪辑方式时，经过多次执行剪辑操作，便可得到与目标对象相关联的多个子视频片段；此情况下，各个图像组均包括一个子视频片段。

需要说明的是，计算机设备在采用目标剪辑方式从目标视频中剪辑出与目标对象相关联的多个图像组时，可采用目标剪辑方式直接对目标视频进行剪辑，从而剪辑出与目标对象相关联的多个图像组。进一步的，考虑到目标视频可能会由于各种因素而存在一些低质图像。例如，可能因为存在一些镜头是在夜间拍摄或者镜头高速运动，而导致目标视频中由这些镜头所采集的部分帧图像非常模糊，使得目标视频存在模糊图像。又如，目标视频中可能存在因在相近时间内出现而给用户带来重复和冗余感的重复图像；再如，目标视频中可能存在因同时包含多个对象而给用户带来视觉上的密集感的多人同框图像，等等。若直接对目标视频进行剪辑，则可能会使得剪辑得到的图像组包括这些低质图像，从而影响最终得到的剪辑视频的视频质量。因此为了提升图像组的可靠性和图像质量，进而提升剪辑视频的视频质量，计算机设备也可先对目标视频进行低质图像的过滤处理，然后再采用目标剪辑方式从通过过滤处理所得到的有效视频中，剪辑出与目标对象相关联的多个图像组。

应理解的是，上述只是示例性地列举了低质图像可能包括的图像种类，低质图像具体可包括哪一种类的图像，是可根据剪辑目的确定的。例如，当剪辑目的用于指示欲将目标视频剪辑成角色集锦类的剪辑视频时，由于角色集锦类的剪辑视频是针对同一个对象而言的，因此在此情况下，可将模糊图像、重复图像以及多人同框图像均可作为低质图像；即在情况下，在对目标视频进行低质图像过滤时，可将模糊图像、重复图像以及多人同框图像均过滤掉。又如，当剪辑目的用于指示欲将目标视频剪辑成CP集锦类的剪辑视频时，由于CP集锦类的剪辑视频是针对同一个CP(即两个对象)而言的，因此在此情况下，可只将模糊图像和重复图像认为是低质图像，而多人同框图像便可认为不是低质图像；即此情况下，在对目标视频进行低质图像过滤时，可只将模糊图像和重复图像过滤掉，而无需将多人同框图像过滤掉，等等。

还需要说明的是，若目标对象是根据面部信息选取的，则表明计算机设备欲将目标视频剪辑成角色集锦类的剪辑视频，因此剪辑出的多个图像组中的各个图像组均包括目标对象。若目标对象是根据动作信息选取的，则表明计算机设备欲将目标视频剪辑成动作一致性类的剪辑视频，因此剪辑出的多个图像组中可至少包括：包含目标对象，且目标对象执行共同动作或者预设动作的图像组；举例来说，假设目标视频中的图像A、图像B以及图像C均包括目标对象，但目标对象在图像A中执行的是比心动作、在图像B中执行的是捧腹动作，在图像C中执行的是抬头动作；如果预设动作为比心动作，则多个图像组中可包括图像A。可选的，多个图像组中还可包括：包含第一对象组中除目标对象以外的第一对象，且第一对象执行共同动作的图像组，或者包含第二对象且第二对象执行预设动作的图像组。

若目标对象是根据情绪信息选取的，则表明计算机设备欲将目标视频剪辑成角色情绪定向类的剪辑视频，因此剪辑出的多个图像组中可至少包括：包含目标对象，且目标对象具有共同情绪状态或预设情绪状态的图像组；举例来说，假设目标视频中的图像A、图像B以及图像C均包括目标对象，但目标对象在图像A中处于开心状态、在图像B中处于痛苦状态，在图像C中处于绝望状态；如果预设情绪状态为开心状态，则多个图像组中可包括图像A。可选的，多个图像组中还可包括：包含第二对象组除目标对象以外的第三对象，且第三对象具有共同情绪状态的图像组，或者包含第四对象且第四对象具有预设情绪状态的图像组，等等。若目标对象是根据关联对象信息选取的，则表明计算机设备欲将目标视频剪辑成CP集锦类的剪辑视频，因此剪辑出的多个图像组中的各个图像组均包括：包含目标对象所属的CP的图像组。

S205，采用多个图像组，生成目标视频对应的剪辑视频。

在一种实施方式中，可直接对多个图像组进行拼接处理，得到目标视频对应的剪辑视频。再一种实施方式中，也可获取一首目标音乐，并对目标音乐进行节奏点位的识别，以确定出目标音乐中的各个节奏点位；从而根据各个节奏点位之间的间隔时长对多个图像组进行卡点拼接处理，从而生成一个音乐卡点视频，并将该音乐卡点视频作为剪辑视频。其中，音乐卡点视频是指：可恰好在音乐的节奏点位处进行图像切换或者视频片段切换，通过音画结合而形成一种较好观感的视频。需要说明的是，在生成剪辑视频时，还可支持横跨不同的视频(如不同的电影电视剧)；也就是说，在通过步骤S204剪辑出多个图像组后，计算机设备还可按照此剪辑原理从其他视频中剪辑出与目标对象相关联的其他图像组，从而采用多个图像组和其他图像组，一并生成目标视频对应的剪辑视频。例如，若剪辑目的用于指示欲将目标视频剪辑成动作一致性类的剪辑视频，则还可从其他视频中剪辑出包含执行着共同动作或者预设动作的对象的其他图像组，从而采用其他图像组和多个图像组一并生成剪辑视频。

还需要说明的是，目标音乐本质上是一个由多个时间点位(或称为音乐点位)以及每个时间点位的音频振幅值所构成的音频数据；且应理解的是，每个时间点位除了具有音频振幅值这一属性外，还可包括声音频率、能量、音量和音色等声音属性；其中，声音频率是指物体在单个时间点位中完成全振动的次数；音量又可称为音强或响度，其是指人耳对所听到的声音大小强弱的主观感受；音色又可称为音品，其用于反映基于每个时间点位的音频振幅值所产生的声音的特征。相应的，目标音乐中的节奏点位又可称为重音点位，其可以包括：目标音乐中能量、音量、音色局部最大的时间点位，和/或能量、音量、音色发生突变的时间点位，等等。

请参见图4，是本发明实施例提供的另一种基于深度学习的视频剪辑方法的流程示意图，该视频剪辑方法可以由上述所提及的计算机设备执行。请参见图4，该视频剪辑方法可包括以下步骤S401-S408：

S401，获取目标视频以及关于目标视频的剪辑需求，目标视频中包括一个或多个对象。

S402，调用深度学习模型对目标视频中的各个对象进行属性识别，得到各个对象的属性信息，该深度学习模型是利用深度学习技术进行模型训练，所得到的具有属性识别能力的模型。

S403，根据各个对象的属性信息，从一个或多个对象中选取满足剪辑需求的目标对象。

需说明的是，本发明实施例所提及的步骤S401-S403的具体实施方式可以参见上述发明实施例所提及的步骤S201-S203的具体实施方式，在此不再赘述。

S404，对目标视频进行低质图像检测处理，得到目标视频中的低质图像。

其中，低质图像可包括以下至少一种：根据图像清晰度所确定的模糊图像、重复图像，以及同时包含多个对象的多人同框图像。由于针对不同种类的低质图像，可采用不同的检测方式进行低质图像检测处理；因此在具体实施过程中，计算机设备可根据实际的剪辑目的来预先确定低质图像可包括哪些种类的图像，从而确定采用哪种检测方式来对目标视频进行低质图像检测处理。具体的，若剪辑目的用于指示将目标视频剪辑成角色集锦类的剪辑视频、或者剪辑成动作一致性集锦类的剪辑视频、又或者剪辑成角色情绪定向类的剪辑视频，则低质图像可包括模糊图像、重复图像以及多人同框图像中的一种或多种；若剪辑目的用于指示将目标视频剪辑成CP集锦类的剪辑视频，则低质图像可包括模糊图像和重复图像中的一种或多种。

下面将分别从如何检测模糊图像、如何检测重复图像以及如何检测多人同框图像等三个方面，对步骤S404的具体实施方式进行阐述：

(一)低质图像包括模糊图像：

在一种具体实现中，可以以独立的一帧图像为检测单位，通过分别计算目标视频中的各帧图像的图像清晰度，并分别根据各帧图像的图像清晰度来检测各帧图像是否为模糊图像。其中，任一图像的图像清晰度可以采用：通过对任一图像进行卷积处理后，所得到的卷积图像的标准差(或方差)进行表示。相应的，步骤S404的具体实施方式可以包括：

获取与目标视频所适配的动态清晰度阈值，该动态清晰度阈值是根据目标视频中的部分图像的图像清晰度计算得到的。遍历目标视频中的各帧图像，并对当前遍历的当前图像进行卷积处理，得到卷积图像；具体的，可采用拉普拉斯算子对当前遍历的当前图像进行卷积处理，得到卷积图像；可选的，也可采用预设的卷积核对当前遍历的当前图像进行卷积处理，得到卷积图像。然后，可对卷积图像中的各个像素值进行均值运算，并根据计算得到的均值和各个像素值之间的差异，计算当前图像的图像清晰度；具体的，根据计算得到的均值和各个像素值之间的差异，计算当前图像的标准差或者方差，将计算结果作为当前图像的图像清晰度。在得到当前图像的图像清晰度后，便可将当前图像的图像清晰度和动态清晰度阈值进行比较；若当前图像的图像清晰度小于动态清晰度阈值，则将当前图像确定为模糊图像。

再一种具体实现中，若目标视频是采用多个镜头拍摄得到的，则还可以以一个镜头所拍摄得到的一个分镜片段为检测单位，通过分别计算各个分镜片段的片段清晰度，并分别根据各个分镜片段的片段清晰度来检测各个分镜片段是否模糊，并将模糊的分镜片段中的各帧图像均作为模糊图像。其中，任一分镜片段的片段清晰度可以根据该任一分镜片段中的各帧图像的图像清晰度计算得到。相应的，步骤S404的具体实施方式可以包括：

获取与目标视频所适配的动态清晰度阈值；将目标视频拆分成多个分镜片段，并遍历多个分镜片段，一个分镜片段中的各帧图像是采用同一个镜头拍摄得到。其次，可计算当前遍历的当前分镜片段中的各帧图像的图像清晰度。然后，可根据当前分镜片段中的各帧图像的图像清晰度，计算得到当前分镜片段的片段清晰度；具体的，可计算当前分镜片段中的各帧图像的图像清晰度的均值，将计算得到的均值作为当前分镜片段的片段清晰度；或者，采用当前分镜片段的各帧图像的权重，对当前分镜片段中的各帧图像的图像清晰度进行加权求和，得到当前分镜片段的片段清晰度。需说明的是，当前分镜片段中的各帧图像的权重的总和等于1，且各帧图像的权重可以是预先设置的，也可以是根据各帧图像在当前分镜片段中的排列位置确定，排列位置越靠近中间位置，则权重越大。在得到当前分镜片段的片段清晰度后，便可将当前分镜片段的片段清晰度和动态清晰度阈值进行比较；若片段清晰度小于动态清晰度阈值，则将当前分镜片段中的各帧图像均确定为模糊图像。

其中，在上述两种具体实现中，获取与目标视频所适配的动态清晰度阈值这一步骤的具体实施方式可以是：对目标视频进行图像采样处理，得到K帧采样图像，K为正整数；分别计算各帧采样图像的图像清晰度，并按照阈值计算策略根据各帧采样图像的图像清晰度，计算与目标视频所适配的动态清晰度阈值。其中，阈值计算策略可用于指示：将各帧采样图像的图像清晰度的均值作为动态清晰度阈值；或者，按照图像清晰度从大到小的顺序对各帧采样图像进行重排列，并将重排列后的第k个采样图像的图像清晰度作为动态清晰度阈值。此处所提及的k∈[1，K]，且k的具体取值可根据业务需求设置；例如，设总共采样了100帧图像，业务需求指示将图像清晰度后10％所对应的采样图像的图像清晰度作为动态清晰度阈值，则可将重排列后的第90个采样图像的图像清晰度作为动态清晰度阈值。

需要说明的是，上述均是以动态清晰度阈值为例进行说明的；在其他实施例中，也可获取预先设置的固定清晰度阈值，并通过将图像清晰度或者片段清晰度和固定清晰度阈值进行比较来检测模糊图像；其具体实施方式可以参见上述所提及的关于动态清晰度阈值的实施方式，在此不再赘述。

(二)低质图像包括重复图像：

在一种具体实现中，若任一对象的属性信息包括：任一对象的面部信息，且面部信息包括：任一对象的多个面部特征及每个面部特征的面部时间标记；任一面部特征的面部时间标记用于指示：从目标视频中识别得到任一面部特征时，任一对象所属的图像；则计算机设备针对任一对象，可结合该任一对象的面部信息中的面部时间标记来检测目标视频中是否存在关于该任一对象的重复图像。相应的，步骤S404的具体实施方式可以包括：

首先，可遍历一个或多个对象，并按照面部时间标记从小到大的顺序对当前遍历的当前对象的面部信息中的各个面部特征进行排列。其次，可依次遍历排列后的各个面部特征，从位于当前遍历的第一面部特征之后且未被选取过的面部特征中选取第二面部特征；并计算第一面部特征和第二面部特征之间的面部相似度，以及第一图像和第二图像之间的播放时间差；此处所提及的第一图像为第一面部特征的面部时间标记所指示的图像，第二图像则为第二面部特征的面部时间标记所指示的图像。然后，可通过比较面部相似度是否大于第一阈值来判断第一面部特征和第二面部特征是否相似，以及通过比较播放时间差是否大于时间差阈值来判断第一图像和第二图像是否在相近的时间内出现的。若面部相似度大于第一阈值，且播放时间差小于时间差阈值，则可确定第二图像为重复图像；可选的，也可将第二图像所在的分镜片段中的各帧图像均作为重复图像。若面部相似度不大于第一阈值，和/或播放时间差不小于时间差阈值，则确定第二图像不是重复图像，此时可重新选取第二面部特征，并再次跳转至计算第一面部特征和第二面部特征之间的面部相似度这一步骤，直至当前对象的面部信息中的各个面部特征均被遍历。应理解的是，在当前对象的面部信息中的各个面部特征均被遍历后，可继续遍历下一个对象，直至目标视频中的各个对象均被遍历完。

再一种具体实现中，若目标视频是采用多个镜头拍摄得到的，则计算机设备还可通过任意两个分镜片段之间的片段相似度，来检测两个分镜片段是否是重复片段，从而检测两个分镜片段中的图像是否为重复图像。相应的，步骤S404的具体实施方式可以包括：

首先，可将目标视频拆分成多个分镜片段，各个分镜片段按照在目标视频中出现的先后顺序进行排列，且一个分镜片段中的各帧图像是采用同一个镜头拍摄得到。其次，可遍历多个分镜片段，并从位于当前遍历的当前分镜片段之后且未被选取过的分镜片段中选取参考分镜片段。然后，可计算当前分镜片段和参考分镜片段之间的片段相似度；具体的，可采用式1.1所示的余弦相似度公式来计算当前分镜片段和参考分镜片段之间的片段相似度；或者，还可采用其他相似度计算公式(如皮尔逊相关度公式、欧式距离公式等)来计算当前分镜片段和参考分镜片段之间的片段相似度。在得到片段相似度之后，可通过比较片段相似度是否大于第二阈值来判断当前分镜片段和参考分镜片段之间是否相似。若片段相似度大于第二阈值，则认为当前分镜片段和参考分镜片段是相似的，此时可认为参考分镜片段是一个重复的分镜片段，因此可将参考分镜片段中的各帧图像均确定为重复图像；否则，则重新选取参考分镜片段，并再次跳转至计算当前分镜片段和参考分镜片段之间的片段相似度这一步骤，直至无法再选取出当前分镜片段的参考分镜片段。应理解的是，在确定无法再选取出当前分镜片段的参考分镜片段后，可继续遍历下一个分镜片段，直至目标视频的各个分镜片段均被遍历完。

其中，S表示当前分镜片段和参考分镜片段之间的片段相似度；A表示当前分镜片段、A_i表示当前分镜片段中的第i帧图像；B表示参考分镜片段，B_i表示参考分镜片段中的第i帧图像；n表示当前分镜片段或者参考分镜片段所包括的图像的数量。

(三)低质图像包括多对象同框图像：

由前述可知，任一对象的属性信息可包括：任一对象的面部信息，且面部信息包括：任一对象的多个面部特征及每个面部特征的面部时间标记；任一面部特征的面部时间标记用于指示：从目标视频中识别得到任一面部特征时，任一对象所属的图像。因此，计算机设备可根据各个对象的面部信息中的面部时间标记，统计目标视频中的各帧图像所对应的面部时间标记的数量，以确定各帧图像对应的对象数量(person_id的数量)。若任一图像所对应的对象数量(person_id的数量)大于数量阈值(如2或3等)，则可确定该任一图像为多对象同框图像。可选的，还可将该任一图像所在的分镜片段中的各帧图像均视为多对象同框图像。

S405，从目标视频中过滤掉低质图像，得到有效视频；并从有效视频中剪辑出与目标对象相关联的多个图像组，各个图像组均包括一帧图像，或者均包括一个子视频片段。

在一种具体实现中，若计算机设备采用的是图片剪辑方式对有效视频进行的剪辑，则剪辑出的各个图像组均包括一帧图像。具体的，从有效视频中剪辑出与目标对象相关联的多个图像组的具体实施方式可以是：根据目标对象的属性信息从有效视频中确定出与目标对象相关联的多帧图像，分别从有效视频中剪辑出确定的各帧图像。其中，与目标对象相关联的图像可以包括以下任一种：①包含目标对象的帧图像；②包含目标对象且目标对象具有共同情绪状态或预设情绪状态的帧图像，可选的，包含第三对象且第三对象具有共同情绪状态的图像组，或者包含第四对象且第四对象具有预设情绪状态的帧图像；③包含目标对象所属的CP的帧图像。

再一种具体实现中，若计算机设备采用的是片段剪辑方式对有效视频进行的剪辑，则剪辑出的各个图像组均包括一个子视频片段。具体的，从有效视频中剪辑出与目标对象相关联的多个图像组的具体实施方式可以是：先获取目标音乐，并对目标音乐进行节奏检测，得到目标音乐中的各个节奏点位。其次，可根据目标音乐的各个节奏点位将目标音乐划分成M个音乐片段，每个音乐片段的起始播放点或者结束播放点为一个节奏点位，M为正整数。然后，可遍历M个音乐片段，根据当前遍历的当前音乐片段的播放时长从有效视频中剪辑出与目标对象关联的一个子视频片段，使得剪辑出的这个子视频片段的时长与当前音乐片段的播放时长相等。当目标音乐中的M个音乐片段均被遍历完，则可得到与目标对象相关联的多个图像组。

其中，与目标对象相关联的图像组可包括以下任一种：①包含目标对象的子视频片段；②包含目标对象且目标对象执行共同动作或者预设动作的子图像序列对应的子视频片段；可选的，包含第一对象且第一对象执行共同动作的子图像序列对应的子视频片段，或者包含第二对象且第二对象执行预设动作的子图像序列对应的子视频片段；③包含目标对象且目标对象具有共同情绪状态或预设情绪状态的帧图像的子视频片段，可选的，包含第三对象且第三对象具有共同情绪状态的帧图像的子视频片段，或者包含第四对象且第四对象具有预设情绪状态的帧图像的子视频片段；④包含目标对象所属的CP的帧图像的子视频片段。

另外，计算机设备在获取目标音乐时，可以从音乐库中随机选取一个音乐作为目标音乐；也可以通过结合剪辑目的以及剪辑方式(即图片剪辑方式或片段剪辑方式)，来确定目标音乐。例如，第一种情况：剪辑目的用于指示将目标视频剪辑成CP集锦类的剪辑视频。那么在此情况下，无论剪辑方式是图片剪辑方式还是片段剪辑方式，均可从定向的音乐风格(如抒情快乐的音乐风格)下的多个音乐中选取目标音乐。第二种情况：剪辑目的用于指示将目标视频剪辑成角色集锦类的剪辑视频，或者指示将目标视频剪辑成角色情绪定向类的剪辑视频，又或者指示将目标视频剪辑成动作一致性类的剪辑视频。那么在此情况下，若剪辑方式为图片剪辑方式，即各个图像组均包括一帧图像，则由于帧图像的灵活性较高，可适用任意音乐风格下的音乐或者任意音乐情绪对应的音乐；因此，可任意选取一首音乐作为目标音乐，或者可从定向的目标情绪所对应的多个音乐中选取目标音乐。若剪辑方式为片段剪辑方式，即各个图像组均包括一个子视频片段，则可统计每个分镜片段的视频情绪，并将最多的那个视频情绪所对应的音乐风格作为目标音乐风格；然后，从目标音乐风格下的多个音乐中，选取目标音乐。

其中，统计任一分镜片段的视频情绪的具体实施方式可以是：首先，可基于任一分镜片段中的各个对象的情绪特征，识别判定任一分镜片段的初步情绪；同时，可对任一分镜片段中的各帧图像中的文本信息(如台词文本)进行情绪识别，得到参考情绪。然后，可结合参考情绪和初步情绪，最终判定出任一分镜片段的视频情绪。在一种实施方式中，可计算参考情绪和初步情绪之间的情绪相似度，若情绪相似度大于预设阈值，则可直接将参考情绪或者初步情绪作为任一分镜片段的视频情绪。再一种实施方式中，可预先设置情绪分值表，该情绪分值表中可包括多个情绪以及每个情绪对应的分值；那么计算机设备可在情绪分值表中查询初步情绪对应的第一分值，以及查询参考情绪对应的第二分值，然后根据初步情绪对应的权重值以及参考情绪对应的权重值，对第一分值和第二分值进行加权求和，得到加权值；最后，可在情绪分值表中查询加权值对应的情绪，并将查询到的情绪作为任一分镜片段的视频情绪。

其中，从目标音乐风格下的多个音乐中，选取目标音乐的具体实施方式可以是：根据各个子视频片段(即各个图像组)的视频情绪，确定出一个目标情绪；识别目标音乐风格下的每个音乐的音乐情绪，将与目标情绪相同的音乐情绪所对应的音乐作为目标音乐。应理解的是，识别任一子视频片段的视频情绪的方式与识别任一分镜片段的视频情绪的方式类似，在此不再赘述。识别任一音乐的音乐情绪的具体实施方式可以是：将任一音乐转为语谱图，并通过CRNN(Convolutional Recurrent Neural Networks，卷积循环神经网络)模型对该语谱图进行音频情绪分类，得到该任一音乐的音乐情绪。

S406，根据多个图像组，确定与目标音乐中的各个音乐片段关联的卡点视频片段。

由前述可知，目标音乐包括M个音乐片段，每个音乐片段的起始播放点或者结束播放点为一个节奏点位，M为正整数。并且，由于音乐卡点视频是一种可恰好在音乐的节奏点位处进行图像切换或者视频片段切换的视频，因此用于生成音乐卡顿视频的任一卡点视频片段的播放时长需等于相关联的音乐片段的播放时长。由于多个图像组中的各个图像组可能是均包括一个子视频片段，也可能是只包括一帧图像；因此，随着多个图像组的情况不同，步骤S406的具体实施方式也随之不同，具体参见下述描述。

在一种具体实现中，若各个图像组均包括一个子视频片段，则步骤S406的具体实施方式可以是：根据各个图像组(各个子视频片段)的播放时长，从多个图像组(多个子视频片段)中选取播放时长等于第m个音乐片段的播放时长的子视频片段，作为与第m个音乐片段关联的卡点视频片段；其中，m∈[1，M]。可选的，若剪辑目的用于指示欲将目标视频剪辑成角色集锦类的剪辑视频，则为了提升后续剪辑视频的观感，还可在根据各个图像组的播放时长，从多个图像组中选取出播放时长等于第m个音乐片段的播放时长的子视频片段后，对选取出的子视频片段中的各帧图像进行面部周边裁剪，以裁剪掉除影响目标对象的面部呈现的其他内容；然后，将裁剪后的子视频片段作为与第m个音乐片段关联的卡点视频片段。举例来说，设选取出的子视频片段中只存在一帧图像Y包括了目标对象和其他对象，且其他对象离目标对象的面部较近，那么可在该图像Y中裁剪掉其他对象，并保持该子视频片段中的其他帧图像不变，从而得到与第m个音乐片段关联的卡点视频片段，如图5a所示。

再一种具体实现中，若各个图像组均包括一帧图像，则步骤S406的具体实施方式可以是：从多个图像组(多帧图像)中选取与第m个音乐片段相匹配的目标图像，采用目标图像生成静态视频片段，并将静态视频片段作为与第m个音乐片段关联的卡点视频片段。其中，静态视频片段中的各帧图像均为目标图像，且静态视频片段的播放时长等于第m个音乐片段的播放时长。举例来说，设目标图像为图5b中的上图所示，第m个音乐片段的播放时长为3秒，那么采用该目标图像所生成的3秒静态视频片段的示意图可参见图5b中的下图所示。可选的，若剪辑目的用于指示欲将目标视频剪辑成角色集锦类的剪辑视频，则计算机设备也可在选取出目标图像后，对目标图像进行面部周边裁剪，以裁剪掉除影响目标对象的面部呈现的其他内容；然后，再采用裁剪后的目标图像生成静态视频片段。

需要说明的是，从目标视频中所剪辑出的图像组的数量和目标音乐中的音乐片段的数量可能相同，也可不同，对此不作限定。在一种情况中，若从目标视频中剪辑出的图像组的数量多于或等于音乐片段的数量时，计算机设备在根据各个音乐片段的播放时长生成卡点视频片段时，可选用不同的图像组，从而使得生成的各个卡点视频片段之间可互不相同；以各个图像组均包括一帧图像(即卡点视频片段均为静态视频片段为例)，那么后续通过步骤S407-S408采用卡点视频片段所生成的剪辑视频的示意图可参见图5c所示。再一种情况中，若从目标视频中剪辑出的图像组的数量少于音乐片段的数量时，计算机设备在根据各个音乐片段的播放时长生成卡点视频片段时，可重复选用一个或多个图像组，从而使得生成的各个卡点视频片段中存在一个或多个重复的卡点视频片段；此情况下，后续通过步骤S407-S408采用各个卡点视频片段所生成的剪辑视频的示意图可参见图5d所示。

S407，按照各个音乐片段在目标音乐中的排列顺序，对各个音乐片段关联的卡点视频片段进行拼接处理，得到拼接视频。

S408，采用目标音乐对拼接视频进行配乐处理，得到剪辑视频。

在步骤S407-S408中，由于各个卡点视频片段的播放时长等于其所关联的音乐片段的播放时长，因此按照各个音乐片段的排列顺序对各个卡点视频片段进行拼接处理以及配乐处理后，可得到卡点准确的剪辑视频；从而使得在播放剪辑视频时，能够较为准确地在目标音乐的各个节奏点位处进行片段切换。

本发明实施例可通过利用深度学习技术，智能地选取目标视频中满足剪辑需求和剪辑目的的多个图像组；并且，在剪辑出多个图像组，并采用多个图像组生成剪辑视频的过程中，可采用目标音乐对其进行智能地卡点配乐处理，从而全自动剪辑出具有合适配乐的精彩剪辑视频，提升剪辑视频产出的多样性。由于在整个视频剪辑过程中，无需任何用户的介入参与，可有效节省时间成本和人力成本，从而有效提升视频剪辑效率。

基于上述图2以及图4所示的视频剪辑方法的实施例描述，本发明实施例可提供一个视频剪辑框架，以便于用户存在视频剪辑需求时，可直接调用该视频剪辑框架来对目标视频进行视频剪辑处理。参见图6所示，该视频剪辑框架可包括视频理解模块、图像过滤模块以及视频剪辑模块；下面将分别对这三个模块的工作原理进行阐述：

(一)视频理解模块：该视频理解模块主要用于对目标视频进行一个或多个维度的属性识别，如性别识别、CP识别、动作识别、情绪识别以及面部识别等；从而得到目标视频中的各个对象的属性信息。

(二)图像过滤模块：该图像过滤模块主要用于对目标视频进行低质图像的过滤处理，从而得到有效视频。具体的，该图像过滤模块可用于从目标视频中随机采样(或称为图像抽帧)，得到K个采样图像，并根据这K个采样图像的图像清晰度动态计算得到一个动态清晰度阈值；然后，可基于该动态清晰度阈值筛选出目标视频中的模糊图像。另外，图像过滤模块还可用于执行多人同框的过滤处理，和/或重复图像的过滤处理，等等。

(三)视频剪辑模块：该视频剪辑模块主要用于采用一种或多种剪辑手法从图像过滤模块所输出的有效视频中剪辑出多个图像组，并对多个图像组进行拼接以及智能配乐处理等操作，以得到剪辑视频。其中，此处所提及的剪辑手法可大致分为两大类：图像卡点剪辑手法、视频片段卡点剪辑手法；其中，图像卡点剪辑手法是指从有效视频中剪辑出目标对象相关联的多帧图像，采用多帧图像生成剪辑视频的手法；视频卡点剪辑手法是指从有效视频中剪辑出目标对象相关联的多个子视频片段，采用多个子视频片段生成剪辑视频的手法。

需要说明的是，每个类别的剪辑手法可用于生成一种或多种类型的剪辑视频。例如，针对图像卡点剪辑手法而言，其可用于生成：角色集锦类的剪辑视频、cp甜蜜抒情集锦类的剪辑视频、角色情绪定向类的剪辑视频；又如，针对视频片段卡点剪辑手法而言，其可用于生成：角色集锦类的剪辑视频、cp甜蜜抒情集锦类的剪辑视频、动作一致性类的剪辑视频、角色情绪定向类的剪辑视频，等等。其中，cp甜蜜抒情集锦类的剪辑视频是指：通过CP识别确定热门cp在目标视频中出现的时间，通过ffmpeg在有效视频中提取甜蜜或抒情风格的图像或者子视频片段，将提取出的图像或者子视频片段进行拼接所形成的集锦视频。还需说明的是，任一剪辑手法所生成的任一类型的剪辑视频可以是一个经过智能配乐处理所得到的音乐卡点视频，也可以是一个未经过智能配乐处理所得到的普通剪辑视频，对此不作限制。

在实际应用中，用户可通过发送视频剪辑请求，触发视频剪辑框架调用上述模块对目标视频进行识别及剪辑，从而生产出视频片段卡点、图像片卡点、男女主甜蜜集锦、动作一致性集锦等多种类型的精彩剪辑视频，从而支持广告侧的短视频大批量投放及影业的宣发需求。该视频剪辑框架可在零人工介入下，基于算法生产大批量不同类型的精彩视频集锦，用于广告投放、剧集宣发等场景，极大缩短内容生产-宣发的链路时长，助力新剧集的宣传和热度提升。并且，还能够生产大量不同人物、情绪及动作等特征的精彩视频，在极大丰富平台的内容产出多样性的同事，也可以给予人工剪辑新的思路和反馈。

基于上述视频剪辑方法的相关实施例的描述，本发明实施例还提出了一种基于深度学习的视频剪辑装置，该视频剪辑装置可以是运行于计算机设备端中的一个计算机程序(包括程序代码)。该视频剪辑装置可以执行图2或图4所示的视频剪辑方法；请参见图7，所述视频剪辑装置可以运行如下单元：

获取单元701，用于获取目标视频以及关于所述目标视频的剪辑需求，所述目标视频中包括一个或多个对象；

识别单元702，用于调用深度学习模型对所述目标视频中的各个对象进行属性识别，得到所述各个对象的属性信息，所述深度学习模型是利用深度学习技术进行模型训练，所得到的具有属性识别能力的模型；

处理单元703，用于根据所述各个对象的属性信息，从所述一个或多个对象中选取满足所述剪辑需求的目标对象；

所述处理单元703，还用于从所述目标视频中剪辑出与所述目标对象相关联的多个图像组，并采用所述多个图像组，生成所述目标视频对应的剪辑视频。

在一种实施方式中，处理单元703在用于从所述目标视频中剪辑出与所述目标对象相关联的多个图像组时，可具体用于：

对所述目标视频进行低质图像检测处理，得到所述目标视频中的低质图像，所述低质图像包括以下至少一种：根据图像清晰度所确定的模糊图像、重复图像，以及同时包含多个对象的多人同框图像；

从所述目标视频中过滤掉所述低质图像，得到有效视频；并从所述有效视频中剪辑出与所述目标对象相关联的多个图像组。

再一种实施方式中，所述低质图像包括所述模糊图像；相应的，处理单元703在用于对所述目标视频进行低质图像检测处理，得到所述目标视频中的低质图像时，可具体用于：

获取与所述目标视频所适配的动态清晰度阈值；

遍历所述目标视频中的各帧图像，并对当前遍历的当前图像进行卷积处理，得到卷积图像；

对所述卷积图像中的各个像素值进行均值运算，并根据计算得到的均值和所述各个像素值之间的差异，计算所述当前图像的图像清晰度；

若所述当前图像的图像清晰度小于所述动态清晰度阈值，则将所述当前图像确定为所述模糊图像。

再一种实施方式中，所述目标视频是采用多个镜头拍摄得到的，所述低质图像包括所述模糊图像；相应的，处理单元703在用于对所述目标视频进行低质图像检测处理，得到所述目标视频中的低质图像时，可具体用于：

获取与所述目标视频所适配的动态清晰度阈值；

将所述目标视频拆分成多个分镜片段，并遍历所述多个分镜片段，一个分镜片段中的各帧图像是采用同一个镜头拍摄得到；

计算当前遍历的当前分镜片段中的各帧图像的图像清晰度，并根据所述当前分镜片段中的各帧图像的图像清晰度，计算得到所述当前分镜片段的片段清晰度；

若所述片段清晰度小于所述动态清晰度阈值，则将所述当前分镜片段中的各帧图像均确定为所述模糊图像。

再一种实施方式中，处理单元703在用于获取与所述目标视频所适配的动态清晰度阈值时，可具体用于：

对所述目标视频进行图像采样处理，得到K帧采样图像，K为正整数；

分别计算各帧采样图像的图像清晰度，并按照阈值计算策略根据所述各帧采样图像的图像清晰度，计算与所述目标视频所适配的动态清晰度阈值；

其中，所述阈值计算策略用于指示：按照图像清晰度从大到小的顺序对所述各帧采样图像进行重排列，并将重排列后的第k个采样图像的图像清晰度作为所述动态清晰度阈值，k∈[1，K]；或者，将所述各帧采样图像的图像清晰度的均值作为所述动态清晰度阈值。

再一种实施方式中，任一对象的属性信息包括：所述任一对象的面部信息，且所述面部信息包括：所述任一对象的多个面部特征及每个面部特征的面部时间标记；任一面部特征的面部时间标记用于指示：从所述目标视频中识别得到所述任一面部特征时，所述任一对象所属的图像；

所述低质图像包括所述重复图像，则处理单元703在用于对所述目标视频进行低质图像检测处理，得到所述目标视频中的低质图像时，可具体用于：

遍历所述一个或多个对象，按照面部时间标记从小到大的顺序对当前遍历的当前对象的面部信息中的各个面部特征进行排列；

依次遍历排列后的各个面部特征，从位于当前遍历的第一面部特征之后且未被选取过的面部特征中选取第二面部特征；

计算所述第一面部特征和所述第二面部特征之间的面部相似度，以及第一图像和第二图像之间的播放时间差；所述第一图像为所述第一面部特征的面部时间标记所指示的图像，所述第二图像为所述第二面部特征的面部时间标记所指示的图像；

若所述面部相似度大于第一阈值，且所述播放时间差小于时间差阈值，则确定所述第二图像为所述重复图像；否则，则重新选取第二面部特征。

再一种实施方式中，所述目标视频是采用多个镜头拍摄得到的，所述低质图像包括所述重复图像；相应的，处理单元703在用于对所述目标视频进行低质图像检测处理，得到所述目标视频中的低质图像时，可具体用于：

将所述目标视频拆分成多个分镜片段，各个分镜片段按照在所述目标视频中出现的先后顺序进行排列，且一个分镜片段中的各帧图像是采用同一个镜头拍摄得到；

遍历所述多个分镜片段，并从位于当前遍历的当前分镜片段之后且未被选取过的分镜片段中选取参考分镜片段；

计算所述当前分镜片段和所述参考分镜片段之间的片段相似度；

若片段相似度大于第二阈值，则将所述参考分镜片段中的各帧图像均确定为所述重复图像；否则，则重新选取参考分镜片段。

再一种实施方式中，各个图像组均包括一个子视频片段；相应的，处理单元703在用于从所述有效视频中剪辑出与所述目标对象相关联的多个图像组时，可具体用于：

获取目标音乐，并对所述目标音乐进行节奏检测，得到所述目标音乐中的各个节奏点位；

根据目标音乐的各个节奏点位将所述目标音乐划分成M个音乐片段，每个音乐片段的起始播放点或者结束播放点为一个节奏点位，M为正整数；

遍历所述M个音乐片段，根据当前遍历的当前音乐片段的播放时长从所述有效视频中剪辑出与所述目标对象关联的一个子视频片段。

再一种实施方式中，处理单元703在用于采用所述多个图像组，生成所述目标视频对应的剪辑视频时，可具体用于：

根据所述多个图像组，确定与目标音乐中的各个音乐片段关联的卡点视频片段，任一卡点视频片段的播放时长等于相关联的音乐片段的播放时长；所述目标音乐包括M个音乐片段，每个音乐片段的起始播放点或者结束播放点为一个节奏点位，M为正整数；

按照所述各个音乐片段在所述目标音乐中的排列顺序，对所述各个音乐片段关联的卡点视频片段进行拼接处理，得到拼接视频；

采用目标音乐对所述拼接视频进行配乐处理，得到剪辑视频。

再一种实施方式中，各个图像组均包括一帧图像，或者均包括一个子视频片段；相应的，处理单元703在用于根据所述多个图像组，确定与目标音乐中的各个音乐片段关联的卡点视频片段时，可具体用于：

若所述各个图像组均包括一个子视频片段，则根据所述各个图像组的播放时长，从所述多个图像组中选取播放时长等于第m个音乐片段的播放时长的子视频片段，作为与第m个音乐片段关联的卡点视频片段，其中，m∈[1，M]；

若所述各个图像组均包括一帧图像，则从所述多个图像组中选取与第m个音乐片段相匹配的目标图像，采用所述目标图像生成静态视频片段，并将所述静态视频片段作为与第m个音乐片段关联的卡点视频片段；其中，所述静态视频片段中的各帧图像均为所述目标图像，且所述静态视频片段的播放时长等于所述第m个音乐片段的播放时长。

再一种实施方式中，所述任一对象的属性信息包括以下至少一项：面部信息、动作信息以及情绪信息；相应的，处理单元703在用于根据所述各个对象的属性信息，从所述一个或多个对象中选取满足所述剪辑需求的目标对象时，可具体用于：

若所述剪辑需求指示选取对象频次大于频次阈值的对象，或者选取对象频次最大的对象，则分别根据所述各个对象的面部信息统计所述各个对象在所述目标视频中出现的对象频次；从所述一个或多个对象中选取对象频次大于所述频次阈值的任一对象作为目标对象；或者，从所述一个或多个对象中选取对象频次最大的对象作为目标对象；

若所述剪辑需求指示选取执行有共同动作的对象，或者选取执行有预设动作的对象，则根据所述各个对象的动作信息从所述多个对象中选取第一对象组，并将所述第一对象组中的任一对象作为目标对象，所述第一对象组中的各个对象执行有共同动作；或者，根据所述各个对象的动作信息从所述多个对象中，选取执行有所述预设动作的任一对象作为目标对象；

若所述剪辑需求指示选取具有共同情绪状态的对象，或者选取具有预设情绪状态的对象，则根据所述各个对象的情绪信息从所述多个对象中选取第二对象组，并将所述第二对象组中的任一对象作为目标对象，所述第二对象组中的各个对象具有共同情绪状态；或者，根据所述各个对象的情绪信息从所述多个对象中，选取具有所述预设情绪状态的任一对象作为目标对象。

根据本发明的一个实施例，图2或图4所示的方法所涉及的各个步骤均可以是由图7所示的视频剪辑装置中的各个单元来执行的。例如，图2中所示的步骤S201和步骤S202可分别由图7中所示的获取单元701和识别单元702执行，步骤S203-步骤S204均可由图7中所示的处理单元703执行。又如，图4中所示的步骤S401和步骤S402可分别由图7中所示的获取单元701和识别单元702执行，步骤S403-步骤S408均可以由图7中所示的处理单元703执行，等等。

根据本发明的另一个实施例，图7所示的视频剪辑装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本发明的其它实施例中，基于视频剪辑装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本发明的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2或图4中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图7中所示的视频剪辑装置设备，以及来实现本发明实施例的视频剪辑方法。所述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

基于上述方法实施例以及装置实施例的描述，本发明实施例还提供一种计算机设备。请参见图8，该计算机设备至少包括处理器801、输入接口802、输出接口803以及计算机存储介质804。其中，计算机设备内的处理器801、输入接口802、输出接口803以及计算机存储介质804可通过总线或其他方式连接。

计算机存储介质804可以存储在计算机设备的存储器中，所述计算机存储介质804用于存储计算机程序，所述计算机程序包括程序指令，所述处理器801用于执行所述计算机存储介质804存储的程序指令。处理器801(或称CPU(Central Processing Unit，中央处理器))是计算机设备的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能；在一个实施例中，本发明实施例所述的处理器801可以用于进行一系列的视频剪辑处理，具体包括：获取目标视频以及关于所述目标视频的剪辑需求，所述目标视频中包括一个或多个对象；调用深度学习模型对所述目标视频中的各个对象进行属性识别，得到所述各个对象的属性信息，所述深度学习模型是利用深度学习技术进行模型训练，所得到的具有属性识别能力的模型；根据所述各个对象的属性信息，从所述一个或多个对象中选取满足所述剪辑需求的目标对象；从所述目标视频中剪辑出与所述目标对象相关联的多个图像组，并采用所述多个图像组，生成所述目标视频对应的剪辑视频，等等。

本发明实施例还提供了一种计算机存储介质(Memory)，所述计算机存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了计算机设备的操作系统。并且，在该存储空间中还存放了适于被处理器801加载并执行的一条或多条的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的，还可以是至少一个位于远离前述处理器的计算机存储介质。在一个实施例中，可由处理器801加载并执行计算机存储介质中存放的一条或多条指令，以实现上述有关图2或图4所示的视频剪辑方法的实施例中的各个方法步骤。

需要说明的是，根据本申请的一个方面，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述图2或图4所示的视频剪辑方法实施例方面的各种可选方式中提供的方法。

并且，应理解的是，以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于深度学习的视频剪辑方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述从所述目标视频中剪辑出与所述目标对象相关联的多个图像组，包括：

3.如权利要求2所述的方法，其特征在于，所述低质图像包括所述模糊图像，所述对所述目标视频进行低质图像检测处理，得到所述目标视频中的低质图像，包括：

获取与所述目标视频所适配的动态清晰度阈值；

4.如权利要求2所述的方法，其特征在于，所述目标视频是采用多个镜头拍摄得到的，所述低质图像包括所述模糊图像；所述对所述目标视频进行低质图像检测处理，得到所述目标视频中的低质图像，包括：

获取与所述目标视频所适配的动态清晰度阈值；

5.如权利要求3或4所述的方法，其特征在于，所述获取与所述目标视频所适配的动态清晰度阈值，包括：

6.如权利要求2所述的方法，其特征在于，任一对象的属性信息包括：所述任一对象的面部信息，且所述面部信息包括：所述任一对象的多个面部特征及每个面部特征的面部时间标记；任一面部特征的面部时间标记用于指示：从所述目标视频中识别得到所述任一面部特征时，所述任一对象所属的图像；

所述低质图像包括所述重复图像，所述对所述目标视频进行低质图像检测处理，得到所述目标视频中的低质图像，包括：

7.如权利要求2所述的方法，其特征在于，所述目标视频是采用多个镜头拍摄得到的，所述低质图像包括所述重复图像；所述对所述目标视频进行低质图像检测处理，得到所述目标视频中的低质图像，包括：

8.如权利要求2所述的方法，其特征在于，各个图像组均包括一个子视频片段，所述从所述有效视频中剪辑出与所述目标对象相关联的多个图像组，包括：

9.如权利要求1所述的方法，其特征在于，所述采用所述多个图像组，生成所述目标视频对应的剪辑视频，包括：

10.如权利要求9所述的方法，其特征在于，各个图像组均包括一帧图像，或者均包括一个子视频片段；所述根据所述多个图像组，确定与目标音乐中的各个音乐片段关联的卡点视频片段，包括：

11.如权利要求1所述的方法，其特征在于，所述任一对象的属性信息包括以下至少一项：面部信息、动作信息以及情绪信息；所述根据所述各个对象的属性信息，从所述一个或多个对象中选取满足所述剪辑需求的目标对象，包括：

12.如权利要求11所述的方法，其特征在于，

若所述目标对象是根据面部信息选取的，则所述多个图像组中的各个图像组均包括所述目标对象；

若所述目标对象是根据动作信息选取的，则所述多个图像组中至少包括：包含所述目标对象，且所述目标对象执行所述共同动作或者所述预设动作的图像组；

若所述目标对象是根据情绪信息选取的，则所述多个图像组中至少包括：包含所述目标对象，且所述目标对象具有所述共同情绪状态或所述预设情绪状态的图像组。

13.如权利要求11所述的方法，其特征在于，所述深度学习模型包括以下至少一种：第一模型和第二模型；

所述面部信息和所述情绪信息是通过所述第一模型识别得到的，所述第一模型是指基于深度卷积神经网络构建训练的，用于对所述目标视频中的每一帧图像进行独立的属性识别的网络模型；

所述动作信息是通过所述第二模型识别得到的，所述第二模型是指基于目标快慢检测算法构建训练的，用于对所述目标视频中的每个子图像序列进行动作识别的快慢结合的网络模型。

14.一种基于深度学习的视频剪辑装置，其特征在于，包括：

15.一种计算机设备，包括输入接口和输出接口，其特征在于，还包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1-13任一项所述的基于深度学习的视频剪辑方法。