CN112800805A

CN112800805A - 视频剪辑方法、系统、计算机设备及计算机存储介质

Info

Publication number: CN112800805A
Application number: CN201911033267.XA
Authority: CN
Inventors: 蔡鹤鸣; 钱龙
Original assignee: Shanghai Bilibili Technology Co Ltd
Current assignee: Shanghai Bilibili Technology Co Ltd
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2021-05-14
Also published as: US11495264B2; US20210125639A1

Abstract

本发明实施例公开了一种视频剪辑方法，包括：获取待处理视频，对所述待处理视频中的每一帧图像进行物体检测，以得到每一帧图像中的包含的所有物体；采用预先训练好的分类模型对框选出的所有物体进行分类识别，以从所述所有物体中挑选出人体区域图像；计算每一帧图像中挑选出的各个人体区域图像与待剪辑的目标人物图像的相似度；将每一帧图像中的各个所述人体区域图像中与所述目标人物图像的相似度大于预设阈值的人体区域图像作为剪辑图像；将各帧图像的所述剪辑图像按时间顺序进行合成，得到剪辑视频。本发明实施例还公开了一种视频剪辑系统。本发明的有益效果在于：可以针对待处理视频中的目标人物进行精确剪辑，并合成视频。

Description

视频剪辑方法、系统、计算机设备及计算机存储介质

技术领域

本发明实施例涉及视频处理领域，尤其涉及一种视频剪辑方法、系统、计算机设备及计算机存储介质。

技术背景

近年来，随着各种自媒体业务的飞速发展，各种自媒体视频越来越多，因而涌现出了许许多多的视频剪辑应用，这些视频剪辑应用是对视频片段或图像进行裁剪、叠加、拼接，以形成一个新的视频(如短视频、视频集锦等)。

本专利申请发明人发现，现有的视频剪辑方式功能较为有限，仅能实现裁剪、叠加、拼接等简单的功能，对于特殊功能的视频剪辑(如横版素材改竖版视频的剪辑)仍然极大的依赖人工，效率低，成本高。

发明内容

有鉴于此，本发明实施例的目的是提供一种视频剪辑方法、系统、计算机设备及计算机存储介质，以解决现有竖版视频剪辑极大依赖人工的问题。

为实现上述目的，本发明实施例提供了一种视频剪辑方法，包括：

获取待处理视频，对所述待处理视频中的每一帧图像进行物体检测，以得到每一帧图像中的包含的所有物体，其中，通过检测框框选出各个物体所在的区域；

采用预先训练好的分类模型对框选出的所有物体进行分类识别，以从所述所有物体中挑选出人体区域图像；

计算每一帧图像中挑选出的各个人体区域图像与待剪辑的目标人物图像的相似度；

将每一帧图像中的各个所述人体区域图像中与所述目标人物图像的相似度大于预设阈值的人体区域图像作为剪辑图像；

将各帧图像的所述剪辑图像按时间顺序进行合成，得到剪辑视频。

进一步地，对所述待处理视频中的每一帧图像进行物体检测，以得到每一帧图像中的包含的所有物体的步骤，包括：

采用预先训练好的物体检测模型对所述待处理视频中的每一帧图像进行物体检测，以得到每一帧图像中的包含的所有物体。

进一步地，所述分类模型的训练步骤，包括：

以样本人物图像为参照对象，对待处理图像进行分类；

将与所述样本人物图像为同类的待处理图像作为正样本数据，与所述样本人物图像为不同类的待处理图像作为负样本数据；

根据Triplet loss对正样本数据与负样本数据进行类间距离调整，以扩大所述正样本数据与负样本数据的差距。

进一步地，计算每一帧图像中挑选出的各个人体区域图像与待剪辑的目标人物图像的相似度的步骤，包括：

提取每一帧图像中的各个人体区域图像的多个第一特征向量，得到n维第一特征向量；

提取所述目标人物图像的多个第二特征向量，得到m维第二特征向量，其中，n≤m，n与m均为正整数；

计算所述第一特征向量与所述第二特征向量的欧式距离，所述欧式距离即为相似度。

进一步地，将每一帧图像中的各个所述人体区域图像中与所述目标人物图像的相似度大于预设阈值的人体区域图像作为剪辑图像的步骤，包括：

根据所述人体区域图像对应的检测框设置剪辑框，所述剪辑框包括剪辑图像及所述剪辑图像对应的相似度；

识别每帧所述待处理视频中的剪辑框及对应的相似度，选取所述剪辑框中相似度大于预设阈值的剪辑图像。

进一步地，根据所述人体区域图像对应的检测框设置剪辑框的步骤，包括：

获取所述人体区域图像对应的检测框的移动速度，选取单位帧内所述人体区域图像对应的检测框的平均速度，作为所述人体区域图像对应的检测框的移动速度；

将所述人体区域图像对应的检测框的移动速度作为所述剪辑框的移动速度。

进一步地，获取所述人体区域图像对应的检测框的移动速度，选取单位帧内所述人体区域图像对应的检测框的平均速度，作为剪辑框的移动速度的步骤，包括：

锚定所述人体区域图像对应的检测框的中心点，判断相邻帧的所述人体区域图像对应的检测框的中心点的距离是否大于预设距离值；

若相邻帧的所述人体区域图像对应的检测框的中心点的距离大于预设距离值，以单位帧内所述人体区域图像对应的检测框的平均速度作为所述人体区域图像对应的检测框的移动速度。

为实现上述目的，本发明实施例还提供了一种视频剪辑系统，包括：

检测模块，用于获取待处理视频，对所述待处理视频中的每一帧图像进行物体检测，以得到每一帧图像中的包含的所有物体，其中，通过检测框标记各个物体所在的区域；

分类模块，用于采用预先训练好的分类模型对框选出的所有物体进行分类识别，以从所述所有物体中挑选出人体区域图像；

计算模块，用于计算每一帧图像中挑选出的各个人体区域图像与待剪辑的目标人物图像的相似度；

选取模块，用于将每一帧图像中的各个人体区域图像与所述目标人物图像的相似度大于预设阈值的人体区域图像作为剪辑图像；

组合模块，用于将所述剪辑图像按时间顺序进行合成，得到剪辑视频。

为实现上述目的，本发明实施例还提供了一种计算机设备，所述计算机设备包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的视频剪辑系统，所述视频剪辑系统被所述处理器执行时实现如上所述的视频剪辑方法的步骤。

为实现上述目的，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序可被至少一个处理器所执行，以使所述至少一个处理器执行如上所述的视频剪辑方法的步骤。

本发明实施例提供的视频剪辑方法、系统、计算机设备及计算机存储介质，通过对待处理视频进行物体检测识别出每一帧图像中的所有人体，计算每一帧图像中的所有人体与目标人物图像进行相似度计算，最后将相似度大于预设阈值的剪辑图像进行按时间顺序合成，得到目标人物的剪辑视频。本实施例可以在单人或多人场景中，根据待剪辑的目标人物图像，自动针对某一个特定人物进行视频剪辑，避免了人工进行剪辑所导致的效率低、成本高的情况。

附图说明

图1示意性示出了根据本申请实施例的环境应用示意图。

图2为本发明视频剪辑方法实施例一的流程图。

图3为本发明实施例图1中所述分类模型的训练步骤流程图。

图4为本发明实施例图2中步骤S104的流程图。

图5为本发明实施例图2中步骤S106的流程图。

图6为本发明实施例图6中步骤S106A的流程图。

图7为本发明实施例图7中步骤S106A1的流程图。

图8为本发明视频剪辑系统实施例二的程序模块示意图。

图9为本发明计算机设备实施例三的硬件结构示意图。

图10为本发明实施例剪辑框示意图。

图11为本发明实施例相似度排序的示意图。

图12为本发明实施例剪辑图像的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示意性示出了根据本申请实施例的环境应用示意图。在示例性的实施例中，计算机设备2可以通过一个或多个网络40获取待处理视频30，计算机设备2还可以通过一个或多个网络40连接多个客户终端50。

多个客户终端50可以被配置为访问计算机设备2的内容和服务。多个客户终端50可以包括可执行视频剪辑方法的计算设备，诸如移动设备，平板设备，膝上型计算机器等。多个客户终端50可以与一个或多个用户相关联。每个用户可以使用客户终端50来访问计算机设备2，且每个用户可以使用客户终端50来访问计算机设备2获取待处理视频30。多个客户终端50可以使用不同的网络40来访问计算机设备2。计算机设备2处理用户通过客户终端50输入的任何指令，不难理解，计算机设备2可以用于执行本文描述的任何方面。

示例性的，客户终端50可以向用户输出(例如，显示或呈现)进行处理(视频剪辑)后内容。

实施例一

参阅图2，示出了一种视频剪辑方法的步骤流程图。可以理解，本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备2为执行主体进行示例性描述。具体如下。

步骤S100，获取待处理视频，对所述待处理视频中的每一帧图像进行物体检测，以得到每一帧图像中包含的所有物体，其中，通过检测框框选出各个物体所在的区域。

具体地，用户可以将待处理视频上传或下载至计算机设备2，以便计算机设备2获取待处理视频。而后，计算机设备2进行物体检测，将待处理视频中的每一帧图像中的所有物体识别出来，并利用检测框标记各物体所在的区域。

更具体地说，检测框可以将各个物体所在区域进行识别标记，检测框将各个物体标出，可以为后续人体区域剪裁提供参考，以便将人体更精确的进行剪裁，实现较好的剪裁效果。

需要说明的是，本实施例中的物体检测算法可以为Haar+Adaboost(哈尔特征+分类器)的检测方法来进行物体检测，也可以为基于深度学习技术的检测算法，比如Fast R-CNN(快速区域检测的卷积网络算法)和Faster R-CNN(高速区域检测的卷积网络算法)等两阶段检测算法来进行物体检测。

示例性地，步骤S100进一步包括：

具体地，本实施例中的物体检测模型为基于深度学习技术进行训练得到，比如基于Fast R-CNN(快速区域检测的卷积网络)模型训练得到的物体检测模型，或者基于R-CNN(区域检测的卷积网络)模型训练得到的物体检测模型。

在训练得到物体检测模型之后，将待识别的帧图像输入至该物体检测模型中，通过该物体检测模型即可输出通过检测框框选出所有物体的帧图像。

步骤S102，采用预先训练好的分类模型对框选出的所有物体进行分类识别，以从所述所有物体中挑选出人体区域图像。

具体地，检测框框选的内容包括物体、人体，通过预先训练的分类模型识别检测框框选的每一帧图像，若识别到人体，则该人体的人体区域进行保留，以实现物体内容的去除。

示例性地，参阅图3，所述分类模型的训练步骤，包括：

步骤S102A，以样本人物图像为参照对象，对待处理图像进行分类。

具体地，获取大量样本视频，样本视频为包含有样本人物图像的视频；样本人物图像指的是包含待检测人物的图像，可以为动漫人物。选取样本人物图像时，为了加快运行速度，可以在该样本视频中截取样本人物图像，将每个样本视频中的样本人物图像作为参照对象，对待处理图像进行分类。

步骤S102B，将与所述样本人物图像为同类的待处理图像作为正样本数据，与所述样本人物图像为不同类的待处理图像作为负样本数据。

具体地，样本人物图像为人体区域图像，与样本人物图像为同类的待处理图像指的是包含人体区域图像，与样本人物图像为不同类的待处理图像指的是不包含人体的其他物体图像。

步骤S102C，根据Triplet loss对正样本数据与负样本数据进行类间距离调整，以扩大所述正样本数据与负样本数据的差距。

具体地，所述Triplet Loss函数用于进一步缩小类内差距。将x作为样本人物图像，x1属于与x的同一类别，x2属于与x的不同类别。

为了规范分类模型，采用一种自适应阈值设定策略，阈值设定为同类距离均值与异类距离均值之差，进一步调整正负样本数据之间的差值大小，对样本数据的约束条件如下：

x＝x1，x≠x2；

用损失函数进行训练，直至最终结果小于预设值，得到对应的样本人物图像的分类算法。

步骤S104，计算每一帧图像中挑选出的各个人体区域图像与待剪辑的目标人物图像的相似度。

具体地，将每一帧图像的人体区域图像进行特征提取，与待剪辑的目标人物图像进行特征提取，再计算两者特征之间的相似度。如图10所示，将人体区域图像与目标人物图像的相似度进行显示，为了便于查看，还可如图11所示，将人体区域图像按照相似度大小进行排序。

示例性地，参阅图4，步骤S104进一步包括：

步骤S104A，提取每一帧图像中的人体区域图像的多个第一特征向量，得到n维第一特征向量。

具体地，将所述各个人体区域图像中的特征进行向量化处理，得到第一特征向量，将每个特征向量进行组合得到第一特征矩阵。提取的特征不限于各个人体区域图像中人物图像的人脸大小、眼睛间距、嘴巴特征、头发特征、穿着服饰等，每个特征对应一个维度的第一特征向量。

步骤S104B，提取所述目标人物图像的多个第二特征向量，得到m维第二特征向量，其中，n≤m，n与m均为正整数。

具体地，将目标人物图像中的特征进行向量化处理，得到第二特征向量，将每个特征向量进行组合得到第一特征矩阵。提取的特征不限于目标人物图像的人脸大小、眼睛间距、嘴巴特征、头发特征、穿着服饰等，每个特征对应一个维度的第二特征向量。由于目标人物在视频中是运动的，因此，提取的特征可能不完整，提取的特征即n≤m。

步骤S104C，计算所述第一特征向量与所述第二特征向量的欧式距离，所述欧式距离即为相似度。

具体地，局部特征对于局部特征提取，首先在水平方向对图像特征进行逐行提取，然后再进行1x1的卷积操作。这样得到的特征代表人体区域图像的一个水平部分。在局部特征的学习中，通过计算最短路径进行对齐操作。

F和G分别是人体区域图像与目标人物图像的两个图像的局部特征，每个距离矩阵D的计算公式：

D＝|F_i-G_i|-|F_j-G_j|；

其中，D是人体区域图像的第i个特征和目标人物图像的第j个特征之间的距离，定义两幅图像之间的局部距离为从(1，1)到(H，H)的最短路径的总距离，再求出最短路径Dmin；D越大，表示相似度越大。

步骤S106，将每一帧图像中的各个所述人体区域图像中与所述目标人物图像的相似度大于预设阈值的人体区域图像作为剪辑图像。

具体地，预设阈值可以将与目标人物图像不相似的人体区域图像进行筛选，尤其当该帧图像没有目标人物时。

示例性地，参阅图5，步骤S106进一步包括：

步骤S106A，根据所述人体区域图像对应的检测框设置剪辑框，所述剪辑框包括人体区域图像及所述人体区域图像对应的相似度。

具体地，剪辑框用于将每一帧图像中的人体区域图像进行框选，并且在将人体区域图像的相似度进行显示，如图10所示。

步骤S106B，识别每帧所述待处理视频中的剪辑框及对应的相似度，选取所述剪辑框中相似度大于预设阈值的人体区域图像作为剪辑图像。

具体地，对剪辑框上标识的相似度进行筛选，将待处理视频的每一帧图像中相似度大于预设阈值的人体区域图像作为剪辑图像，其中，预设阈值为预先进行设置的，比如，设置为99％，在相似度大于或者等于99％时，才将该人体区域图像作为剪辑图像。剪辑框设置时，可根据检测框进行设置，以将剪辑图像与人体区域图像相适应，即，将人物抠出，后续可贴背景，实现视频的正常观看。剪辑框也可以固定尺寸，剪辑出部分背景，实现剪辑后视频的直接观看，例如图12所示，为剪辑图像。

示例性地，参阅图6，步骤S106A进一步包括：

步骤S106A1，获取所述人体区域图像对应的检测框的移动速度，选取单位帧内所述人体区域图像对应的检测框的平均速度，作为所述人体区域图像对应的检测框的移动速度。

具体地，为了防止剪辑视频抖动，单位帧可以自定义，例如3帧、5帧等。

步骤S106A2，将所述人体区域图像对应的检测框的移动速度作为所述剪辑框的移动速度。

具体地，若剪辑框的移动速度与人体区域图像对应的检测框的移动速度一致，会出现剪辑视频抖动的情况；但如果剪辑框的移动速度太慢，会导致目标人物出现在剪辑框外面的情况；因此，需调参调出一个合适的速度值，在二者之间取得平衡。取单位帧(例如5帧)图像的人体区域图像对应的检测框的平均速度作为剪辑框的移动速度。

示例性地，参阅图7，步骤S106A1进一步包括：

步骤S106AA，锚定所述人体区域图像对应的检测框的中心点，判断相邻帧的所述人体区域图像对应的检测框的中心点的距离是否大于预设距离值。

具体地，所有的人体区域图像对应的检测框的中心点都进行锚定，可以以首帧图像的人体区域图像对应的检测框的中心点为起点，依次判断相邻帧的人体区域图像对应的检测框的中心点的距离是否大于预设距离值。对所有帧图像的人体区域图像对应的检测框都进行检测，后续的人体区域图像对应的检测框的移动速率就很好调整。

步骤S106AB，若相邻帧的所述人体区域图像对应的检测框的中心点的距离大于预设距离值，以单位帧内所述人体区域图像对应的检测框的平均速度作为所述人体区域图像对应的检测框的移动速度。

具体地，将大于预设距离值的人体区域图像对应的检测框个数进行统计，若个数过多，则取单位帧的人体区域图像对应的检测框的平均速度作为人体区域图像对应的检测框的移动速度，以使剪辑框选取的剪辑图像清晰。单位帧可以预先进行设置，若相邻帧的人体区域图像对应的检测框的中心点的距离与预设距离值之间的差值过大，则将单位帧的取值相应的调大，反之调小。

步骤S108，将各帧图像的所述剪辑图像按时间顺序进行合成，得到剪辑视频。

具体地，按时间顺序将剪辑图像进行合成，使用视频合成技术进行合成，得到剪辑视频。可以对剪辑视频进行相应的渲染，得到所需的视频效果。

实施例二

请继续参阅图8，示出了本发明视频剪辑系统实施例二的程序模块示意图。在本实施例中，视频剪辑系统20可以包括或被分割成一个或多个程序模块，一个或者多个程序模块被存储于存储介质中，并由一个或多个处理器所执行，以完成本发明，并可实现上述基于海量数据的风险识别方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序本身更适合于描述视频剪辑系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能：

检测模块200，用于获取待处理视频，对所述待处理视频中的每一帧图像进行物体检测，以得到每一帧图像中包含的所有物体，其中，通过检测框框选出各个物体所在的区域。

示例性地，检测模块200还用于：

分类模块202，用于采用预先训练好的分类模型对框选出的所有物体进行分类识别，以从所述所有物体中挑选出人体区域图像。

示例性地，所述分类模块202还用于训练所述分类算法：

以样本人物图像为参照对象，对待处理图像进行分类。

将与所述样本人物图像为同类的待处理图像作为正样本数据，与所述样本人物图像为不同类的待处理图像作为负样本数据。

x＝x1，x≠x2；

计算模块204，用于计算每一帧图像中挑选出的各个人体区域图像与待剪辑的目标人物图像的相似度。

示例性地，计算模块204进一步用于：

提取每一帧图像中的人体区域图像的多个第一特征向量，得到n维第一特征向量。

提取所述目标人物图像的多个第二特征向量，得到m维第二特征向量，其中，n≤m，n与m均为正整数。

D＝|Fi-Gi|-|Fj-Gj|；

选取模块206，将每一帧图像中的各个所述人体区域图像中与所述目标人物图像的相似度大于预设阈值的人体区域图像作为剪辑图像。

示例性地，选取模块206还用于：

根据所述人体区域图像对应的检测框设置剪辑框，所述剪辑框包括人体区域图像及所述人体区域图像对应的相似度。

识别每帧所述待处理视频中的剪辑框及对应的相似度，选取所述剪辑框中相似度大于预设阈值的人体区域图像作为剪辑图像。

示例性地，选取模块206进一步用于：

获取所述人体区域图像对应的检测框的移动速度，选取单位帧内所述人体区域图像对应的检测框的平均速度，作为所述人体区域图像对应的检测框的移动速度。

示例性地，选取模块206进一步用于：

锚定所述人体区域图像对应的检测框的中心点，判断相邻帧的所述人体区域图像对应的检测框的中心点的距离是否大于预设距离值。

组合模块208，用于将所述剪辑图像按时间顺序进行合成，得到剪辑视频。

实施例三

参阅图9，是本发明实施例三之计算机设备的硬件架构示意图。本实施例中，所述计算机设备2是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图9所示，所述计算机设备2至少包括，但不限于，可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及视频剪辑系统20。其中：

本实施例中，存储器21至少包括一种类型的计算机可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算机设备2的内部存储单元，例如该计算机设备2的硬盘或内存。在另一些实施例中，存储器21也可以是计算机设备2的外部存储设备，例如该计算机设备2上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件，例如实施例二的视频剪辑系统20的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器22在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中，处理器22用于运行存储器21中存储的程序代码或者处理数据，例如运行视频剪辑系统20，以实现实施例一的视频剪辑方法。

所述网络接口23可包括无线网络接口或有线网络接口，该网络接口23通常用于在所述服务器2与其他电子装置之间建立通信连接。例如，所述网络接口23用于通过网络将所述服务器2与外部终端相连，在所述服务器2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，GSM)、宽带码分多址(Wideband CodeDivision Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。需要指出的是，图9仅示出了具有部件20-23的计算机设备2，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。在本实施例中，存储于存储器21中的所述视频剪辑系统20还可以被分割为一个或者多个程序模块，所述一个或者多个程序模块被存储于存储器21中，并由一个或多个处理器(本实施例为处理器22)所执行，以完成本发明。

例如，图8示出了所述实现视频剪辑系统20实施例二的程序模块示意图，该实施例中，所述视频剪辑系统20可以被划分为检测模块200、分类模块202、计算模块204、选取模块206与组合模块208。其中，本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序更适合于描述所述视频剪辑系统20在所述计算机设备2中的执行过程。所述程序模块200-208的具体功能在实施例二中已有详细描述，在此不再赘述。

实施例四

本实施例还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储视频剪辑系统20，被处理器执行时实现实施例一的视频剪辑方法。

本发明实施例提供的视频剪辑方法、系统、计算机设备及计算机存储介质，通过对待处理视频进行物体检测识别出每一帧图像中的所有人体，计算每一帧图像中的所有人体与目标人物图像进行相似度计算，最后将相似度大于预设阈值的剪辑图像进行按时间顺序合成，得到目标人物的剪辑视频。可以在多人场景中，针对某一个特定人物进行视频剪辑，并且识别速度快，效率高，省时省力。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种视频剪辑方法，其特征在于，包括：

2.根据权利要求1所述的视频剪辑方法，其特征在于，对所述待处理视频中的每一帧图像进行物体检测，以得到每一帧图像中的包含的所有物体的步骤，包括：

3.根据权利要求1所述的视频剪辑方法，其特征在于，所述分类模型的训练步骤，包括：

以样本人物图像为参照对象，对待处理图像进行分类；

4.根据权利要求1所述的视频剪辑方法，其特征在于，计算每一帧图像中挑选出的各个人体区域图像与待剪辑的目标人物图像的相似度的步骤，包括：

提取每一帧图像中的人体区域图像的多个第一特征向量，得到n维第一特征向量；

5.根据权利要求1所述的视频剪辑方法，其特征在于，将每一帧图像中的各个所述人体区域图像中与所述目标人物图像的相似度大于预设阈值的人体区域图像作为剪辑图像的步骤，包括：

根据所述人体区域图像对应的检测框设置剪辑框，所述剪辑框包括人体区域图像及所述人体区域图像对应的相似度；

6.根据权利要求5所述的视频剪辑方法，其特征在于，根据所述人体区域图像对应的检测框设置剪辑框的步骤，包括：

7.根据权利要求6所述的视频剪辑方法，其特征在于，获取所述人体区域图像对应的检测框的移动速度，选取单位帧内所述人体区域图像对应的检测框的平均速度，作为剪辑框的移动速度的步骤，包括：

8.一种视频剪辑系统，其特征在于，包括：

9.一种计算机设备，其特征在于，所述计算机设备包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的视频剪辑系统，所述视频剪辑系统被所述处理器执行时实现如权利要求1-7中任一项所述的视频剪辑方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序可被至少一个处理器所执行，以使所述至少一个处理器执行如权利要求1-7中任一项所述的视频剪辑方法的步骤。