CN113689440A

CN113689440A - 一种视频处理方法、装置、计算机设备以及存储介质

Info

Publication number: CN113689440A
Application number: CN202110971660.4A
Authority: CN
Inventors: 黄均昕; 杨跃; 董治; 雷兆恒
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2021-11-23

Abstract

本申请公开了一种视频处理方法、装置、计算机设备以及存储介质，其中，方法包括：获取处理视频的视频帧序列，然后对视频帧序列进行场景切割处理，剔除掉场景切换视频帧，得到N个视频帧集合，每个视频帧集合对应一个场景，然后确定N个视频帧集合中的目标视频帧集合的参考对象，并根据目标视频帧集合包括的目标视频帧中参考对象所在的图像区域，得到裁剪图像集合，最后根据裁剪图像集合生成待处理视频的片段视频。通过该方法，提升了对视频的处理效率。

Description

一种视频处理方法、装置、计算机设备以及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频处理方法、装置、计算机设备以及存储介质。

背景技术

随着信息技术的飞速发展，各类视频踊跃而出，相较于非移动终端，移动终端显得更受欢迎，人们喜欢用移动终端听歌看视频，人们在观看的视频过程中，常常是关注某一个特殊的对象，有关注焦点的视频，才更受人们的喜爱。因此，对视频中的对象进行跟踪处理得到针对关注对象的视频是当下的研究热点之一。

目前，大多数针对视频的关注对象进行视频跟踪编辑的方案，大多数是通过人工剪辑得到的，这样的方法，比较耗费时间和精力，效率低下。

发明内容

本发明实施例提供了一种视频处理方法、装置、计算机设备以及存储介质，可以提高对视频处理的效率。

本申请实施例一方面公开了一种视频处理方法，该方法包括：

获取待处理视频的视频帧序列；

对所述视频帧序列进行场景切割处理，得到N个视频帧集合，每个视频帧集合对应一个场景，所述N为大于1的整数；

确定所述N个视频帧集合中的目标视频帧集合的参考对象，所述目标视频帧集合为所述N个视频帧集合中的任意一个；

针对所述目标视频帧集合，对包括的目标视频帧中的参考对象所在的图像区域进行裁剪，得到所述目标视频帧集合对应的裁剪图像集合，其中所述目标视频帧为所述目标视频帧集合中包括参考对象的视频帧；

根据所述裁剪图像集合生成所述待处理视频的片段视频。

本申请实施例一方面公开了一种视频处理装置，该装置包括：

获取单元，用于获取待处理视频的视频帧序列；

处理单元，用于对所述视频帧序列进行场景切割处理，得到N个视频帧集合，每个视频帧集合对应一个场景，所述N为大于1的整数；

确定单元，用于确定所述N个视频帧集合中的目标视频帧集合的参考对象，所述目标视频帧集合为所述N个视频帧集合中的任意一个；

所述处理单元，还用于针对所述目标视频帧集合，对包括的目标视频帧中的参考对象所在的图像区域进行裁剪，得到所述目标视频帧集合对应的裁剪图像集合，其中所述目标视频帧为所述目标视频帧集合中包括参考对象的视频帧,根据所述裁剪图像集合生成所述待处理视频的片段视频。

本申请实施例一方面公开了一种计算机设备，该计算机设备包括：处理器，适于实现一条或多条计算机程序；以及，计算机存储介质，所述计算机存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由所述处理器加载并执行上述的视频处理方法。

本申请实施一方面公开了一种计算机可读存储介质，所述计算机存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由处理器加载并执行上述的视频处理方法。

本申请实施例一方面公开了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行上述的视频处理方法。

本申请实施例中，计算机设备针对待处理视频进行处理，得到待处理视频帧序列，然后对视频帧序列进行场景切割处理，剔除掉场景切换视频帧，得到N个视频帧集合，每个视频帧集合对应一个场景，然后确定N个视频帧集合中的目标视频帧集合的参考对象，并根据目标视频帧集合包括的目标视频帧中参考对象所在的图像区域进行裁剪，得到裁剪图像集合，最后根据裁剪图像集合生成待处理视频的片段视频。该方法，通过对视频场景进行切割，进而根据各个场景中的参考对象以及包括参考对象的图像区域，可以自动对视频帧进行裁剪，得到片段视频，从而提升了对视频的处理效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例公开的一种视频处理系统的架构示意图；

图2是本申请实施例公开的一种视频处理方法的流程示意图；

图3a是本申请实施例公开的一种优先级顺序的示意图；

图3b是本申请实施例公开的参考对象确认过程的示意图；

图3c是本申请实施例公开的一种裁剪方法的示意图；

图4是本申请实施例公开的另一种视频处理方法的流程示意图；

图5是本申请实施例公开的一种目标运动轨迹的示意图；

图6是本申请实施例公开的又一种视频处理方法的流程图；

图7是本申请实施例公开的一种视频处理装置的结构示意图；

图8是本申请实施例公开的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了有效提升竖版视频转换的质量以及效率，本申请实施例提出了一种视频处理方案以及相应的视频处理系统；图1为本申请实施例公开的一种视频处理系统的架构示意图，该视频处理系统100至少可以包括：终端设备101和计算机设备102，其中，终端设备101主要可以用于向计算机设备102发送待处理的视频，或者在一些可行的实施例中，待处理视频也可以是计算机设备102在接收到片段视频搜索时，从数据库中获取的；计算机设备102主要可以用于对待处理视频进行处理，得到对应的片段视频。进一步的，终端设备101和计算机设备102可以实现通信连接，连接方式包括有线连接和无线连接，对此不作限制。

需要说明的是：上述所提及的终端设备101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能车载等，但并不局限于此。上述所提及的计算机设备102可以是服务器，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。图1只是示例性地表征视频处理系统的系统架构，并不对此进行限定。例如，图1中计算机设备102可以部署成区块链网络中的节点，或者计算机设备102接入区块链网络，使得计算机设备102可将内部数据上传至区块链网络进行存储，以防止内部数据被篡改，从而保证数据安全性。

在具体实现中，通过上述的视频处理系统实现本申请实施例所提出视频处理方案大致流程如下：计算机设备102针对待处理视频进行处理，得到待处理视频帧序列，然后对视频帧序列进行场景切割处理，剔除掉场景切换视频帧，得到N个视频帧集合，每个视频帧集合对应一个场景，然后确定N个视频帧集合中的目标视频帧集合的参考对象，并根据目标视频帧集合包括的目标视频帧中参考对象所在的图像区域，得到裁剪图像集合，最后根据裁剪图像集合生成待处理视频的片段视频。

基于上述描述，本申请实施例提供的视频处理方法裁剪了待处理视频的视频帧序列中的场景转换帧，使得视频衔接更为自然，再通过参考对象来确定最终的片段视频，可以使得转换后的视频集中在参考对象上，从而提升了视频的质量，同时，由于视频处理过程中无需人工参与，减少了人工，也可以提升视频处理效率。

在具体的实现场景中，对于一些播放音乐的软件，每首音乐都有对应的音乐短片(Music Video，MV)，因此，用户在使用移动端进行音乐播放的过程中，还会同步的观看MV，MV大多数都需要用户点击屏幕并翻转移动终端才能更方便地观看，因此，为了方便用户，需要对该MV进行适当的处理，如直接转换为竖版视频，这样用户就无需翻转移动终端便可以观看MV，可以让用户有更佳的体验，本方案就是针对MV进行竖版转换，可以提高转换后视频的质量以及转换过程的效率，提升了用户的观看体验，且对开发人员而言，节省人工剪辑操作成本，视频转换效率更高。

基于上述视频处理系统，本申请实施例公开了一种视频处理方法，请参见图2，图2是本申请实施例公开的一种视频处理方法的流程示意图，该方法可以由计算机设备执行，计算机设备可以是独立的服务器，具体的，该方法流程可以包括步骤S201-S205：

S201、获取待处理视频的视频帧序列。

在具体的实现过程中，计算机设备先获取待处理视频，该待处理视频可以是在客户端的用户需要片段视频时，发送给计算机设备的视频，此处的用户一般指的是管理视频的人员；或者，该待处理视频可以是计算机设备收到用户搜索片段视频时，计算机设备从数据库中自动获取的，此处的用户指的是使用视频软件播放视频的用户。

在一种可能的实现的方式中，当计算机设备获取到待处理视频后，对该待处理视频进行预处理，预处理具体可以是对待处理视频进行分帧处理，得到该待处理视频对应的每一个视频帧，从而得到视频帧序列，该视频帧序列是按照待处理视频的播放顺序进行排序的。其中，对待处理视频进行分帧处理可以采用opencv，opencv是计算机视觉中经典的专用库，其支持多语言、跨平台且功能强大；还可以采用其他的软件对待处理视频进行处理，得到视频帧序列，这里就不再一一列举了。在执行步骤S202之前，计算机设备还可以对视频帧序列进行基于像素值计算的边缘消除，消除视频帧无用的要素，例如纯色边框，以保证后续更好地对视频帧进行处理。

其中，上述的待处理视频可以是横版视频，横版视频和竖版视频是两种不同的视频播放方式，最直观的形式是两者在设备屏幕上的尺寸不同，横版视频的比例一般是16:9，竖版视频的比例一般是9:16。本申请的目的就是为了将横版视频转换为竖版视频，以方便用户在不对设备进行翻转的前提下，拥有更好的视频观感。

S202、对视频帧序列进行场景切割处理，得到N个视频帧集合。

在一种可能的实现方式中，当计算机设备对待处理视频处理得到视频帧序列后，该方法通过预测场景切换帧的方式实现场景切割。由于场景切割任务只需要关注图像的全局性特征，因此实现切割的具体步骤包括：将视频帧序列中的每一个视频帧图像大幅缩小，使每一个视频帧图像的像素值较少，这样有利于提升处理速度；接着将缩小后的视频帧序列输入轻量级的CNN神经网络，将2D卷积和1D卷积串联迫使网络分别学习图像空间和时序的特征；将特征输入Sigmoid函数得到每一视频帧图像是否属于场景切换帧的评分数值。具体的，若在视频帧序列中包括评分数值大于指定阈值的参考视频帧，其中，参考视频帧为视频帧序列中的任意一个视频帧，则将该参考视频帧确定为场景切换帧，并将场景切换帧从视频帧序列中删除，保留评分数值小于或者等于指定阈值的视频帧，然后再根据各个参考视频帧在视频序列中的位置，对删除参考视频帧后的视频帧序列进行整理，得到N个视频帧集合，其中N为大于1的整数。可以理解成，一个视频帧集合对应一个视频片段，每个视频帧集合对应一个视频场景，视频场景可以相同也可以不同。例如，对待处理视频的视频帧序列进行场景切换帧删除过后，得到5个视频帧集合，便可以理解成5个视频片段，其中，每个视频片段对应一个视频场景，5个视频片段可以存在相同的视频场景，如第一个视频场景可以和第四个视频场景相同或者相似。

需要注意的是，在对删除参考视频帧(场景切换帧)后的视频帧序列进行整理的过程中，为了保证最终成片的观赏性，可以只保留时间长度大于1秒的片段进行后续处理。

S203、确定N个视频帧集合中的目标视频帧集合的参考对象。

在一种可能的实现方式中，当确定N个视频帧集合后，计算机设备再基于显著性检测以及目标检测方法确定N个视频帧集合中的目标视频帧集合的参考对象，其中目标视频帧集合为N个视频帧集合中的任一视频帧集合，也就是说，需要确定出每个视频帧集合中的参考对象。

具体实现过程包括：在本申请实施例中，可以采用单阶目标检测网络yolov3(一种目标检测网络)对目标视频帧集合进行逐帧处理，检测和定位目标视频帧集合中出现的对象，这里的对象一般是指人物，一个视频帧可以同时出现多个对象。在这个过程中，还可以直接舍弃没有对象出现的视频帧，若对象是人物，则直接舍弃没有人物出现的视频帧。针对N个视频帧集合中的每一个视频帧集合，都重复该操作。

其中，需要注意的是，不是每个视频帧集合都能够检测到对象，视频帧集合中没有检测到人物就视为视频帧集合中没有对象。在一些情况下可以直接舍弃该视频帧集合，例如：1、视频帧集合中没有人物，如黑屏等情况；2、视频帧集合帧数太小(视频片段时长1秒)；3、帧画面中文字面积占比过大或过于局中，无法规避，横瓶转竖瓶，若把字幕剪辑进去很影响观感。

其中，Yolo系列网络是目标检测任务的经典模型，yolov3模型在速度和预测精度之间达到很好平衡，因此，采用本申请采用yolov3效果更佳。本申请将yolov3用于人物检测中，具体使用目标检测通用数据集COCO(COCO数据集是一个大型的、丰富的物体检测，分割和字幕数据集，图像包括91类目标，328000个影像和2500000个标签，是目前为止有语义分割的最大数据集，提供的类别有80类，有超过33万张图片，其中20万张有标注，整个数据集中个体的数目超过150万个)中包含的人物的图像对yolov3的预训练模型进行微调(finetune)，使模型在人物检测的精度达到更高水平。除了人物之外，该模型也适用于几乎任何感兴趣目标的检测，比如宠物、汽车等，后续若将这些元素也加入剪辑生成的集锦中必然使成片更加有观赏性。

若目标视频帧集合中检测到多个对象，从多个对象中确定出参考对象。本申请基于人物检测和显著性检测共同决定目标视频帧集合中的参考对象，具体的过程包括：由于一个视频帧中有多个对象，为每一个对象都标记一个tracking id(追踪标识)，本申请处理的更多的是音乐短片，多个对象可以是人物，因此，采用人脸识别技术将多个人物与明星库中的明星进行匹配以确定优先级顺序，所述优先级顺序是基于对象类型划分的，比如歌手、普通人等，优先级顺序从高到低可以是歌手、普通人及未露脸的人(大多数情况为背对镜头的人)，从tracking id中选取优先级最高的人物作为参考人物，也就是本申请中的参考对象。请参见图3a，其是本申请实施例公开的一种优先级顺序的示意图，当最高优先级层级的对象只有一个时，可以直接将该对象确定为参考对象，当最高优先级层级的对象不止一个时，结合热力图确定参考对象。

在一些可行的实施例中，在单个层级中可能存在多个tracking id，也就是从多个对象中确定出的优先级最高的对象包括至少两个时，比如都是歌手，在这种情况下，可以结合显著性检测来确定视频帧中镜头聚焦的tracking id。显著性检测具体是，针对目标视频帧生成一张热力图，目标视频帧为视频帧序列中的任意一个视频帧，热力图表征视频帧图像中的对象出现的数值，热力图的数值为显著性检测网络对画面每一个像素的评分，评分数值范围0～1，由此可以得到一个画面的显著性热力图，分数越高的区域代表模型预测该像素越可能是人眼关注的焦点。将热力图纵向求和得到目标视频帧在水平方向上的注意力曲线，注意力曲线的横坐标为目标视频帧的横坐标，纵坐标为视觉注意力值。计算同一个层级中每一个tracking id在该目标视频帧集合中所覆盖的热力值的平均值，得到每一个tracking id的热力值的平均值，选择热力值的平均值最高的tracking id作为该目标视频帧集合的参考对象，具体的计算方式为：每一个tracking id对应的是一个2维的目标检测结果框，用(x1，y1，x2，y2)标注，(x1，y1)是框左上角坐标，(x2，y2)是框右下角坐标，由于每个像素都有对应的注意力数值，那么tracking id的注意力平均值就是检测框内所有像素对应的注意力数值的平均值。

请参见图3b，其是本申请实施例公开的一种参考对象确认过程的示意图，其中310代表的是注意力曲线图，320代表一张视频帧图像，330中的每个虚线框代表的是目标区域，也就是多个对象区域，其中，将视频帧图像320输入神经网络后，得到一张热力图，将热力图中的数值纵向求和得到注意力曲线图310，再通过注意力曲线图310计算视频帧图像330中每个虚线框的热力值的平均值，确定出最终的参考对象。其中，横坐标代表的是视频帧图像的横坐标，纵坐标代表的是视觉注意力值，纵坐标越高说明对应的视频帧横坐标位置的视觉注意力越高。针对N个视频帧集合中的每一个视频帧集合都执行该操作，得到每个视频帧集合对应的参考对象。

S204、针对目标视频帧集合，对包括的目标视频帧中的参考对象所在的图像区域进行裁剪，得到目标视频帧集合对应的裁剪图像集合。

其中，目标视频帧为目标视频帧集合中包括参考对象的视频帧。

在一种可能的实现方式中，计算机设备可以针对目标视频帧集合，对包括的目标视频帧中的参考对象所在的图像区域进行裁剪，得到目标视频帧集合对应的裁剪图像集合。为了实现将横版视频转换为竖版视频，需要对原始的视频帧进行裁剪，一方面是裁剪包括参考对象的区域，另一方面，裁剪掉视频帧中的字幕区域，避免字幕区域对视频帧图像中参考对象的遮挡，使得转换后的视频呈现一个高质量的状态。所以，在具体的实现过程中，首先计算机设备确定出目标视频帧集合中包括的目标视频帧中的字幕区域，也就是对每一个视频帧进行文字检测，将前后视频帧的文字框聚类，得到目标视频帧集合包括的目标视频帧中字幕出现的位置，进而对出现字幕的区域进行裁剪，针对在裁剪的区域中出现的字幕，该方法可以自适应选择原裁剪区域的最大有效区域予以保留，也就是在保留参考对象的基础上，裁剪掉最大的字幕区域，然后得到裁剪图像集合，裁剪图像集合包括：对目标视频帧中参考对象的图像区域进行裁剪后得到的裁剪图像，目标视频帧为目标视频帧集合中包括参考对象的视频帧。一个视频帧集合对应一个裁剪图像集合，N个视频帧集合就有N个裁剪图像集合。对应的，裁剪方法可以参见图3c，其是本申请实施例公开的一种裁剪方法的示意图，我们可以看到虚线框301是保留参考对象的截取框，302是剪裁字幕后保留的最大有效区域。

S205、根据裁剪图像集合生成待处理视频的片段视频。

在一种可能的实现过程中，根据裁剪图像集合生成待处理视频的片段视频之前，计算机设备还可以对裁剪图像集合进行尺寸调整，也就是将原来的横版尺寸转换为竖版尺寸，具体可以是根据预设尺寸将裁剪图像集合中的图像进行竖屏转换，然后再根据竖屏转换后的图像生成待处理视频的片段视频。可以是用ffmpeg工具将裁剪图像集合中图像经过超分辨率处理的单帧画面，拼接成1080p的高清竖版视频。其中，需要注意的是，由于片段视频是以移动端播放为主，因此为适应现在流行的大屏高清智能移动端的屏幕，经过裁剪后的单帧画面会通过GAN网络(生成对抗网络，Generative Adversarial Networks)进行超分辨率处理以填充像素，提升清晰度，以保证播放视频的质量。

本申请实施中，主要阐述的是计算机设备针对待处理视频进行处理，得到待处理视频帧序列，然后对视频帧序列进行场景切割处理，剔除掉场景切换视频帧，得到N个视频帧集合，每个视频帧集合对应一个场景，然后确定N个视频帧集合中的目标视频帧集合的参考对象，并根据目标视频帧集合包括的目标视频帧中参考对象所在的图像区域，得到裁剪图像集合，最后根据裁剪图像集合生成待处理视频的片段视频。该方法通过对视频场景进行切割，进而根据各个场景中的参考对象以及包括参考对象的图像区域，自动对视频帧进行裁剪得到片段视频，从而提升了对视频的处理效率。

根据上述视频处理系统以及视频处理方法，本申请实施例公开了另一种视频处理方法，请参见图4，其为本申请实施例公开的另一种视频处理方法的流程示意图，对应的执行主体可以是计算机设备，计算机设备可以是独立部署的服务器，具体的，该视频处理方法可以包括步骤S401-S408：

S401、获取待处理视频的视频帧序列。

S402、对视频帧序列进行场景切割处理，得到N个视频帧集合。

S403、确定N个视频帧集合中的目标视频帧集合的参考对象。

其中，步骤S401-S403在图2示出的相关实施例中进行了阐述，这里就不再赘述了。

S404、确定目标视频帧集合中参考对象的目标运动轨迹。

在一种可能的实现方式中，将N个视频帧集合中的任一个视频帧集合作为目标视频帧集合，则在这种情况下，计算机设备确定目标视频帧集合中参考对象的目标运动轨迹，本申请实施例可以采用VIoU-tracker对参考对象进行行动轨迹的跟踪，具体步骤包括：当确定参考对象后，为该参考对象打上tracking id。采用VIou-tracker跟踪算法对参考对象的tracking id进行跟踪，最后得到一条参考对象的目标运动轨迹。其中，目标运动轨迹用于描述参考对象在目标视频帧集合的不同视频帧的位置变化，目标运动轨迹的横坐标用于指示参考对象所在的视频帧编号，目标运动轨迹的纵坐标用于指示参考对象所在视频帧中的横坐标。VIoU-tracker的主要工作原理为：首先得到相邻两帧所有的有效检测框，同时对前一帧中检测到的目标进行轨迹跟踪，预测下一帧该目标出现的位置，计算下一帧预测的目标与下一帧检测到的目标之间的IoU(IoU是计算两个检测框重叠率的指标)，IoU最大的就认为是同一个目标，进行匹配。与此同时，对没有被匹配的目标，该方法会持续跟踪该目标，如果在规定的允许最大预测时间范围内和检测的结果有匹配上就成功了，这种方法可以填补了不能匹配上的这段空白范围。对应到本申请实施例中，基于参考对象在目标视频帧集合中第一个视频帧的图像位置，利用该跟踪算法预测参考对象在第一个视频帧之后的下一个视频帧的图像位置，根据第一个视频帧的图像位置以及下一个视频帧的图像位置，确定参考对象的目标运动轨迹。一个视频帧集合中往往包括多个视频帧，数量可能是几十，按照跟踪算法依次确定参考对象在每一个视频帧中的图像位置，进而根据各个视频帧中参考对象的图像位置确定出参考对象的目标运动轨迹。

在另一个可行的实施例中，在得到目标视频帧集合的各个视频帧中参考对象的图像位置后，还需要对这些图像位置进行优化才可以得到最终的目标运动轨迹。请参见图5，其是本申请实施例公开的一种目标运动轨迹的示意图，图5的横坐标为一个视频帧集合中各个视频帧的帧编号，纵坐标为视频帧的参考对象的横坐标位置(图5中的实心点)。在本申请实施例中，横版转竖版主要关注参考对象的横坐标的运动轨迹。为了使视频镜头运动具有更好的运动观感，运动轨迹需要进一步优化。主要需要优化的情况有三个方面：a.使偏差较大的轨迹点回归；b.参考对象在画面大范围运动时需要平滑镜头的移动；c.参考对象轻微移动时可以固定镜头。

相应地，优化的主要步骤包括：第一步、先根据第一个视频帧的图像位置以及下一个视频帧的图像位置确定目标视频帧集合对应的主体运动轨迹点，确定主体运动轨迹点中满足偏离条件的目标位置点，参见图5，空心点则是满足偏离条件的目标位置点；对应的偏离条件可以是计算图5所有离散点的纵坐标平均值μ和标准差σ，当参考对象的纵坐标值>μ+1.5×σ，或者参考对象的纵坐标值<μ-1.5×σ，都判定为满足偏离条件的目标位置点，然后将这些目标位置点删除。第二步、用多项式回归拟合预测位置点，预测位置点是与删除的目标位置点对应的位置点。第三步、用一维高斯函数平滑处理噪声点归位后的整个轨迹，对于小范围波动的轨迹可以用横线(即上述的固定镜头)代替。

S405、根据目标运动轨迹确定在目标视频帧集合包括的各个目标视频帧中参考对象所在的图像区域。

根据目标运动轨迹确定在目标视频帧集合包括的各个目标视频帧中参考对象所在的图像区域，也就是说图像区域是根据目标运动轨迹来的，就是每个图像区域都包含了参考对象。

S406、确定各个目标视频帧中参考对象所在的图像区域中的字幕区域。

S407、按照最大字幕区域对图像区域进行裁剪，得到裁剪图像集合。

S408、根据裁剪图像集合生成待处理视频的片段视频。

对应的，步骤S405-S408已经在图2所示出的相关实施例中进行了详细的阐述，这里就不再赘述。对于本申请实施例提供的视频处理方法，可以利用图6进行大致的阐述，图6是本申请实施例公开的又一种视频处理方法的流程图，大体流程是，获取待处理视频，对待处理视频进行分帧处理以及场景切割，得到多个视频帧集合，将多个视频帧集合中的任一个视频帧集合作为目标视频帧集合，基于目标检测和显著性检测确定参考对象，根据跟踪算法确定参考对象的目标运动轨迹，同时，在处理过程中包括对目标视频帧集合中的视频帧进行无纯色边框检测以及字幕检测，最后，再根据无纯色边框检测结果、字幕检测结果对目标运动轨迹对应的视频帧进行裁剪，得到片段视频。

在本申请结合音乐视频的特点，提出了针对竖版转换的视频处理方法具有以下优势：首先，本申请采用了深度学习的方法来检测视频的快速转场和渐变转场相关的场景切换帧，可以保证对场景做好切分的同时剔除转场帧。此外，为了高效地跟踪视频帧集合中出现的参考对象，本申请融合了人物检测、显著性检测和人脸识别共同定位视频帧集合中的参考对象，并使用了追踪器对参考对象在整个视频帧集合中的帧间轨迹进行跟踪。为防止轨迹的跳脱或快速移动给观感带来不适，本申请对得到的轨迹线条进行了优化。最后，本申请对每个视频帧集合中参考对象为中心进行横版转竖版的剪裁，可以很好地规避画面中字幕的干扰。综合来讲，在本申请中，对待处理视频的裁剪包括时序和画面的裁剪，时序上，将完整视频裁剪成集锦片段；画面上，将每一帧画面中参考对象所在的图像区域裁剪出来。

基于上述的方法实施例，本申请实施例还提供了一种视频处理装置的结构示意图。参见图7，为本申请实施例提供的一种视频处理装置的结构示意图。图7所示的视频处理装置700可运行如下单元：

获取单元701，用于获取待处理视频的视频帧序列；

处理单元702，用于对所述视频帧序列进行场景切割处理，得到N个视频帧集合，每个视频帧集合对应一个场景，所述N为大于1的整数；

确定单元703，用于确定所述N个视频帧集合中的目标视频帧集合的参考对象，所述目标视频帧集合为所述N个视频帧集合中的任意一个；

所述处理单元702，还用于针对所述目标视频帧集合，对包括的目标视频帧中的参考对象所在的图像区域进行裁剪，得到所述目标视频帧集合对应的裁剪图像集合，其中所述目标视频帧为所述目标视频帧集合中包括参考对象的视频帧；

所述处理单元702，还用于根据所述裁剪图像集合生成所述待处理视频的片段视频。

在一种可能的实现方式中，所述处理单元702针对所述目标视频帧集合，对包括的目标视频帧中的参考对象所在的图像区域进行裁剪，得到所述目标视频帧集合对应的裁剪图像集合，具体用于：

确定所述目标视频帧集合中所述参考对象的目标运动轨迹，所述目标运动轨迹用于描述所述参考对象在不同目标视频帧的位置变化，所述目标运动轨迹的横坐标用于指示所述参考对象所在的目标视频帧编号，所述目标运动轨迹的纵坐标用于指示所述参考对象所在目标视频帧中的横坐标；

根据所述目标运动轨迹，在所述目标视频帧集合包括的目标视频帧中确定所述参考对象所在的图像区域；

裁剪所述图像区域得到裁剪图像集合。

确定各个所述图像区域中的字幕区域；

按照最大字幕区域对所述图像区域进行裁剪，得到裁剪图像集合。

在一种可能的实现方式中，所述处理单元702对所述视频帧序列进行场景切割处理，得到N个视频帧集合，具体用于：

若所述视频帧序列中包括场景切换帧，删除所述场景切换帧；

根据所述场景切换帧在所述视频序列中的位置，对删除所述场景切换帧后的视频帧序列进行整理，得到N个视频帧集合。

在一种可能的实现方式中，所述确定单元703确定所述N个视频帧集合中的目标视频帧集合的参考对象，具体用于：

针对所述N个视频帧集合中的目标视频帧集合，确定所述目标视频帧集合包括的每一个视频帧对应的对象；

若所述目标视频帧集合对应的对象为多个，根据预设的优先级顺序将所述目标视频帧集合的多个对象中优先级最高的对象确定为所述目标视频帧集合的参考对象，所述优先级顺序是基于对象类型划分的。

在一种可能的实现方式中，所述确定单元703根据预设的优先级顺序将所述目标视频帧集合的多个对象中优先级最高的对象确定为所述目标视频帧集合的参考对象，具体用于：

若根据所述预设的优先级顺序从所述多个对象中确定出的优先级最高的对象包括至少两个，确定所述至少两个对象在所述目标视频帧集合中的热力图；

根据所述热力图计算所述至少两个对象中每个对象的热力值的平均值；

将所述热力值的最高平均值所对应的对象确定为所述目标视频帧集合的参考对象。

在一种可能的实现方式中，所述确定单元703确定所述目标视频帧集合中所述参考对象的目标运动轨迹，具体用于：

基于所述参考对象在所述目标视频帧集合中第一个视频帧的图像位置，利用跟踪算法确定所述参考对象在所述第一个视频帧之后的下一个视频帧的图像位置；

至少根据所述第一个视频帧的图像位置以及所述下一个视频帧的图像位置，确定所述参考对象的目标运动轨迹。

在一种可能的实现方式中，所述确定单元703至少根据所述第一个视频帧的图像位置以及所述下一个视频帧的图像位置，确定所述参考对象的目标运动轨迹，具体用于：

根据所述第一个视频帧的图像位置以及所述下一个视频帧的图像位置确定所述目标视频帧集合对应的主体运动轨迹点；

确定所述主体运动轨迹点中满足偏离条件的目标位置点，并删除所述目标位置点；

利用多项式回归方法拟合预测位置点，所述预测位置点是与删除的目标位置点对应的；

根据所述预测位置点对所述主体运动轨迹点进行优化，得到目标运动轨迹。

在一种可能的实现方式中，所述处理单元702根据所述裁剪图像集合生成所述待处理视频的片段视频，具体用于：

根据预设尺寸将所述裁剪图像集合中的图像进行竖屏转换；

根据竖屏转换后的图像生成所述待处理视频的片段视频。

根据本申请的一个实施例，图2以及图4所示的视频处理方法所涉及各个步骤可以是由图7所示的视频处理装置中的各个单元来执行的。例如，图2所示的视频处理方法中步骤S201可由图7所示的视频处理装置中的获取单元701来执行，步骤S202和步骤S204可由图7所示的视频处理装置中的处理单元702来执行，步骤S203可由图7所示的视频处理装置中的确定单元703来执行；再如，图4所示的视频处理方法中步骤S401可由图7所示的视频处理装置中的获取单元701来执行，步骤S402、步骤S407-S408可由图7所示的视频处理装置中的处理单元702来执行，步骤S403-S406可由图7所示的视频处理装置中的确定单元703来执行。

根据本申请的另一个实施例，图7所示的视频处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，基于视频处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2以及图4所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图7中所示的视频处理装置，以及来实现本申请实施例视频处理方法。所述计算机程序可以记载于例如计算机可读存储介质上，并通过计算机可读存储介质装载于上述计算机设备中，并在其中运行。

本申请实施例中，获取单元701获取处理视频的视频帧序列，然后处理单元702对视频帧序列进行场景切割处理，剔除掉场景切换视频帧，得到N个视频帧集合，每个视频帧集合对应一个场景，然后确定单元703确定N个视频帧集合中的目标视频帧集合的参考对象，并根据目标视频帧集合包括的目标视频帧中参考对象所在的图像区域，得到裁剪图像集合，最后处理单元702根据裁剪图像集合生成待处理视频的片段视频。通过该方法，通过对视频场景进行切割，进而根据各个场景中的参考对象以及包括参考对象的图像区域，可以自动对视频帧进行裁剪，得到片段视频，从而提升了对视频的处理效率。

基于上述方法以及装置实施例，本申请实施例提供了一种计算机设备。参见图8，为本申请实施例提供的一种计算机设备的结构示意图。图8所示的计算机设备800至少包括处理器801、输入接口802、输出接口803、计算机存储介质804以及存储器805。其中，处理器801、输入接口802、输出接口803、计算机存储介质804以及存储器805可通过总线或其他方式连接。

计算机存储介质804可以存储在计算机设备800的存储器805中，所述计算机存储介质804用于存储计算机程序，所述计算机程序包括程序指令，所述处理器801用于执行所述计算机存储介质804存储的程序指令。处理器801(或称CPU(Central Processing Unit，中央处理器))是计算机设备800的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条计算机指令从而实现相应方法流程或相应功能。

本申请实施例还提供了一种计算机存储介质(Memory)，所述计算机存储介质是计算机设备800中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括计算机设备800中的内置存储介质，当然也可以包括计算机设备800支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了计算机设备800的操作系统。并且，在该存储空间中还存放了适于被处理器801加载并执行的一条或多条的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的计算机存储介质。

在一个实施例中，所述计算机存储介质可由处理器801加载并执行计算机存储介质中存放的一条或多条指令，以实现上述有关图2、图4以及图6所示的视频处理方法的相应步骤。具体实现中，计算机存储介质中的一条或多条指令由处理器801加载并执行如下步骤：

获取待处理视频的视频帧序列；

根据所述裁剪图像集合生成所述待处理视频的片段视频。

在一种可能的实现方式中，所述处理器801针对所述目标视频帧集合，对包括的目标视频帧中的参考对象所在的图像区域进行裁剪，得到所述目标视频帧集合对应的裁剪图像集合，具体用于：

裁剪所述图像区域得到裁剪图像集合。

确定各个所述图像区域中的字幕区域；

在一种可能的实现方式中，所述处理器801对所述视频帧序列进行场景切割处理，得到N个视频帧集合，具体用于：

在一种可能的实现方式中，所述处理器801确定所述N个视频帧集合中的目标视频帧集合的参考对象，具体用于：

在一种可能的实现方式中，所述处理器801根据预设的优先级顺序将所述目标视频帧集合的多个对象中优先级最高的对象确定为所述目标视频帧集合的参考对象，具体用于：

在一种可能的实现方式中，所述处理器801确定所述目标视频帧集合中所述参考对象的目标运动轨迹，具体用于：

在一种可能的实现方式中，所述处理器801至少根据所述第一个视频帧的图像位置以及所述下一个视频帧的图像位置，确定所述参考对象的目标运动轨迹，具体用于：

在一种可能的实现方式中，所述处理器801根据所述裁剪图像集合生成所述待处理视频的片段视频，具体用于：

根据预设尺寸将所述裁剪图像集合中的图像进行竖屏转换；

根据竖屏转换后的图像生成所述待处理视频的片段视频。

本申请实施例中，计算机设备800包括的处理器801获取处理视频的视频帧序列，然后对视频帧序列进行场景切割处理，剔除掉场景切换视频帧，得到N个视频帧集合，每个视频帧集合对应一个场景，然后确定N个视频帧集合中的目标视频帧集合的参考对象，并根据目标视频帧集合包括的目标视频帧中参考对象所在的图像区域，得到裁剪图像集合，最后根据裁剪图像集合生成待处理视频的片段视频。通过该方法，通过对视频场景进行切割，进而根据各个场景中的参考对象以及包括参考对象的图像区域，可以自动对视频帧进行裁剪，得到片段视频，从而提升了对视频的处理效率。

根据本申请的一个方面，本申请实施例还提供了一种计算机产品或计算机程序，该计算机产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。处理器801从计算机可读存储介质中读取该计算机指令，处理器801执行该计算机指令，使得计算机设备800执行图2、图4以及图6所示的视频处理方法。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可能可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

获取待处理视频的视频帧序列；

根据所述裁剪图像集合生成所述待处理视频的片段视频。

2.根据权利要求1所述的方法，其特征在于，所述针对所述目标视频帧集合，对包括的目标视频帧中的参考对象所在的图像区域进行裁剪，得到所述目标视频帧集合对应的裁剪图像集合，包括：

裁剪所述图像区域得到裁剪图像集合。

3.根据权利要求2所述的方法，其特征在于，所述针对所述目标视频帧集合，对包括的目标视频帧中的参考对象所在的图像区域进行裁剪，得到所述目标视频帧集合对应的裁剪图像集合，包括：

确定各个所述图像区域中的字幕区域；

4.根据权利要求1所述的方法，其特征在于，所述对所述视频帧序列进行场景切割处理，得到N个视频帧集合，包括：

5.根据权利要求1或2所述的方法，其特征在于，所述确定所述N个视频帧集合中的目标视频帧集合的参考对象，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据预设的优先级顺序将所述目标视频帧集合的多个对象中优先级最高的对象确定为所述目标视频帧集合的参考对象，包括：

7.根据权利要求2所述的方法，所述确定所述目标视频帧集合中所述参考对象的目标运动轨迹，包括：

8.根据权利要求7所述的方法，其特征在于，所述至少根据所述第一个视频帧的图像位置以及所述下一个视频帧的图像位置，确定所述参考对象的目标运动轨迹，包括：

9.根据权利要求1所述的方法，其特征在于，所述根据所述裁剪图像集合生成所述待处理视频的片段视频，包括：

根据预设尺寸将所述裁剪图像集合中的图像进行竖屏转换；

根据竖屏转换后的图像生成所述待处理视频的片段视频。

10.一种计算机设备，其特征在于，所述计算机设备包括：

处理器，适于实现一条或多条计算机程序；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由所述处理器加载并执行如权利要求1-9任一项所述的视频处理方法。

11.一种计算机可读存储介质，其特征在于，其特征在于，所述计算机存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由处理器加载并执行如权利要求1-9任一项所述的视频处理方法。