CN113840159A

CN113840159A - 视频处理方法、装置、计算机系统及可读存储介质

Info

Publication number: CN113840159A
Application number: CN202111132329.XA
Authority: CN
Inventors: 卢杨
Original assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2021-09-26
Filing date: 2021-09-26
Publication date: 2021-12-24

Abstract

本公开提供了一种视频处理方法，包括：基于多个目标视频帧各自的目标对象，确定多个目标视频帧各自的预裁剪框，其中，多个目标视频帧是从待处理视频中提取得到的；基于多个目标视频帧各自的预裁剪框，确定待处理视频的相机运动轨迹，其中，相机运动轨迹用于表征待处理视频中待裁剪的目标对象的运动轨迹；以及基于待处理视频的相机运动轨迹，确定待处理视频中每个视频帧的裁剪框的位置和尺寸，以便基于裁剪框的位置和尺寸对待处理视频进行裁剪，得到裁剪后视频。本公开还提供了一种视频处理装置、计算机系统、可读存储介质及计算机程序产品。

Description

视频处理方法、装置、计算机系统及可读存储介质

技术领域

本公开涉及计算机技术领域，更具体地，涉及一种视频处理方法、装置、计算机系统、可读存储介质及计算机程序产品。

背景技术

随着互联网技术以及人工智能等新技术的飞速发展，视频行业逐步进入我们的生活中，例如用户通过视频可以观看新闻、电影或者直播节目等。移动终端从互联网多媒体中点播或者直播视频的应用越来越广泛。

在实现本公开构思的过程中，发明人发现相关技术中至少存在如下问题：在使用不同的显示器或者应用程序来播放视频，其格式、分辨率等存在着差异，影响视频内容显示的质量。

发明内容

有鉴于此，本公开提供了一种视频处理方法、装置、计算机系统、可读存储介质及计算机程序产品。

本公开的一个方面提供了一种视频处理方法，包括：

基于多个目标视频帧各自的目标对象，确定多个目标视频帧各自的预裁剪框，其中，多个目标视频帧是从待处理视频中提取得到的；

基于多个目标视频帧各自的预裁剪框，确定待处理视频的相机运动轨迹，其中，相机运动轨迹用于表征待处理视频中待裁剪的目标对象的运动轨迹；以及

基于待处理视频的相机运动轨迹，确定待处理视频中每个视频帧的裁剪框的位置和尺寸，以便基于裁剪框的位置和尺寸对待处理视频进行裁剪，得到裁剪后视频。

根据本公开的实施例，基于多个目标视频帧各自的预裁剪框，确定待处理视频的相机运动轨迹包括：

基于多个目标视频帧各自的预裁剪框，确定待处理视频中多个镜头各自的相机运动类型；其中，相机运动类型包括以下至少一种：中心静止类型、视频扫视类型、区域静止类型、运动追踪类型；

基于待处理视频中多个镜头各自的相机运动类型，确定待处理视频的相机运动轨迹。

根据本公开的实施例，其中，基于待处理视频中多个镜头各自的相机运动类型，确定待处理视频的相机运动轨迹还包括：

基于待处理视频中多个镜头各自的相机运动类型，确定待处理视频的离散相机运动轨迹；

对待处理视频的离散相机运动轨迹进行轨迹优化，得到平滑相机运动轨迹，以便基于平滑相机运动轨迹，确定待处理视频中每个视频帧的裁剪框的位置和尺寸。

根据本公开的实施例，视频处理方法还包括：

计算待处理视频的帧间相似度；

基于待处理视频的帧间相似度结果，确定待处理视频的多个镜头；

提取多个镜头各自的目标视频帧，得到多个目标视频帧。

根据本公开的实施例，基于多个目标视频帧各自的目标对象，确定多个目标视频帧各自的预裁剪框包括：

针对多个目标视频帧中的每个目标视频帧，利用识别算法提取每个目标视频帧的多个对象和多个对象的对象检测框；

基于多个对象的类别，确定多个对象各自的裁剪权重；

将裁剪权重满足预设条件的对象确定为目标对象，并将裁剪权重满足预设条件的对象的对象检测框合并作为预裁剪框。

根据本公开的实施例，基于多个目标视频帧各自的目标对象，确定多个目标视频帧各自的预裁剪框还包括：

针对多个目标视频帧中的每个目标视频帧，判断每个目标视频帧的多个对象中是否有文字对象；

在每个目标视频帧的多个对象中有文字对象的情况下，确定文字对象的文字检测框的尺寸；

判断文字检测框的尺寸是否满足预设阈值；

在文字检测框的尺寸大于或等于预设阈值的情况下，将文字检测框合并至预裁剪框内；

在文字检测框的尺寸小于预设阈值的情况下，将检测框删除。

根据本公开的实施例，视频处理方法还包括：

解码待处理视频，提取音频；

基于目标分辨率，利用纯色背景、模糊背景或者识别内容填充裁剪后视频的背景，得到第一目标视频；

将第一目标视频与音频进行编码，得到第二目标视频。

本公开的另一个方面还提供了一种视频处理装置，包括：

第一确定模块，用于基于多个目标视频帧各自的目标对象，确定多个目标视频帧各自的预裁剪框，其中，多个目标视频帧是从待处理视频中提取得到的；

第二确定模块，用于基于多个目标视频帧各自的预裁剪框，确定待处理视频的相机运动轨迹，其中，相机运动轨迹用于表征待处理视频中待裁剪的目标对象的运动轨迹；以及

第三确定模块，用于基于待处理视频的相机运动轨迹，确定待处理视频中每个视频帧的裁剪框的位置和尺寸，以便基于裁剪框的位置和尺寸对待处理视频进行裁剪，得到裁剪后视频。

本公开的再一方面提供了一种计算机系统，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

其中，当上述一个或多个程序被上述一个或多个处理器执行时，使得上述一个或多个处理器实现上述的方法。

本公开的再一方面提供了一种计算机可读存储介质，存储有计算机可执行指令，上述指令在被执行时用于实现上述的方法。

本公开的再一方面提供了一种计算机程序产品，上述计算机程序产品包括计算机可执行指令，上述指令在被执行时用于实现上述的方法。

根据本公开的实施例，因为采用了一种视频处理方法，包括：基于多个目标视频帧各自的目标对象，确定多个目标视频帧各自的预裁剪框，其中，多个目标视频帧是从待处理视频中提取得到的；基于多个目标视频帧各自的预裁剪框，确定待处理视频的相机运动轨迹，其中，相机运动轨迹用于表征待处理视频中待裁剪的目标对象的运动轨迹；以及基于待处理视频的相机运动轨迹，确定待处理视频中每个视频帧的裁剪框的位置和尺寸，以便基于裁剪框的位置和尺寸对待处理视频进行裁剪，得到裁剪后视频的技术手段，基于目标对象确定目标视频帧的预裁剪框，保证待处理视频所表达的视频内容，并且根据待处理视频的相机运动轨迹来确定待处理视频中的每个视频帧的裁剪框的位置和尺寸，从而在保证画面内容完整的基础上播放效果稳定，避免抖动。所以至少部分地克服了现有视频裁剪或填充后画面不突出或者裁剪掉部分内容的技术问题，进而达到了处理后的目标视频的整体性和一致性更强，提升视觉观感的技术效果。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了可以应用本公开的视频处理方法及装置的示例性系统架构；

图2示意性示出了根据本公开实施例的视频处理方法的流程图；

图3示意性示出了根据本公开实施例的目标视频帧的示意图；

图4示意性示出了根据本公开另一实施例的目标视频帧的示意图；

图5示意性示出了根据本公开另一实施例的视频处理方法的流程图；

图6示意性示出了根据本公开实施例的视频处理装置的框图；以及

图7示意性示出了根据本公开实施例的适于实现视频处理方法的计算机系统的框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

在实际播放视频资源时，会存在终端的播放界面全屏的分辨率是720x1280，而视频素材画面的分辨率是360x360。在这种情况下，在实际全屏播放的时候，视频可以被扩展到分辨率为720x720，即对齐其中一边，并且保证视频完整。

但是这将会导致视频实际播放区域有很多黑边(填充的一种手段)，当播放界面与视频的比例差异较大时，这个情况很明显。例如，用手机竖屏模式下看电影，实际播放区域就只有中间区域；再例如短视频媒体，仅支持竖版视频，则横版视频并不能通过翻转屏幕获得更大的展示区域。

因此，通过以上方式进行尺寸的调节扩展，视频素材画面实际展示区域大小没有变化，当播放界面与原视频尺寸差异很大时，比如竖版移动设备播放横版视频时，视频有效的展示区域就还是很小。严重影响观感。

在本公开的相关实施例中，也可以采用对视频进行裁剪的方式进行扩展改善，例如对固定区域进行裁剪。

但是，采用裁剪的方式进行尺寸扩展，需要从视频中裁剪出主要的画面内容，当视频的比例变化不大时，能较为完整的保留视频内容，并且获得不错的视觉观感。但是当视频的比例变化较大时，需要裁剪掉大量的内容，影响原本的视频含义的表达。

本公开的实施例提供了一种视频处理方法。该方法包括基于多个目标视频帧各自的目标对象，确定多个目标视频帧各自的预裁剪框，其中，多个目标视频帧是从待处理视频中提取得到的；基于多个目标视频帧各自的预裁剪框，确定待处理视频的相机运动轨迹，其中，相机运动轨迹用于表征待处理视频中待裁剪的目标对象的运动轨迹；以及基于待处理视频的相机运动轨迹，确定待处理视频中每个视频帧的裁剪框的位置和尺寸，以便基于裁剪框的位置和尺寸对待处理视频进行裁剪，得到裁剪后视频。

利用本公开实施例提供的视频处理方法，能实现混合的自动化的视频尺寸扩展，即根据视频的内容，自适应的调整裁剪和填充的比例，更为完整的保留原始视频所要表达的视频内容，并且兼顾目标视频的显示效果。

图1示意性示出了根据本公开实施例的可以应用视频处理方法及装置的示例性系统架构100。需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，根据该实施例的系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线和/或无线通信链路等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如视频处理类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等厨艺视频数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

需要说明的是，本公开实施例所提供的视频处理方法一般可以由服务器105执行。相应地，本公开实施例所提供的视频处理装置一般可以设置于服务器105中。本公开实施例所提供的视频处理方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的视频处理装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。或者，本公开实施例所提供的文本图像校正方法也可以由终端设备101、102、或103执行，或者也可以由不同于终端设备101、102、或103的其他终端设备执行。相应地，本公开实施例所提供的文本图像校正装置也可以设置于终端设备101、102、或103中，或设置于不同于终端设备101、102、或103的其他终端设备中。

例如，待处理视频可以原本存储在终端设备101、102、或103中的任意一个(例如，终端设备101，但不限于此)之中，或者存储在外部存储设备上并可以导入到终端设备101中。然后，终端设备101可以将待处理视频数据发送到其他服务器、或服务器集群，并由接收该待处理视频数据的其他服务器、或服务器集群来执行本公开实施例所提供的视频处理方法。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2示意性示出了根据本公开实施例的视频处理方法的流程图。

如图2所示，该方法包括操作S210～S230。

在操作S210，基于多个目标视频帧各自的目标对象，确定多个目标视频帧各自的预裁剪框，其中，多个目标视频帧是从待处理视频中提取得到的。

在操作S220，基于多个目标视频帧各自的预裁剪框，确定待处理视频的相机运动轨迹，其中，相机运动轨迹用于表征待处理视频中待裁剪的目标对象的运动轨迹。

在操作S230，基于待处理视频的相机运动轨迹，确定待处理视频中每个视频帧的裁剪框的位置和尺寸，以便基于裁剪框的位置和尺寸对待处理视频进行裁剪，得到裁剪后视频。

根据本公开的实施例，从待处理视频中提取多个目标视频帧的方式不做限定。例如，可以按照等间隔采样方式采样视频帧作为目标视频帧，也可以以固定比例采样方式采样视频帧作为目标视频帧，还可以利用帧间相似度确定多个镜头之间的镜头边界，从多个镜头中分别提取出各自的一个或多个视频帧作为目标视频帧。

根据本公开的实施例，可以基于多个目标视频帧各自的目标对象，确定多个目标视频帧各自的预裁剪框。在本公开的实施例中，目标对象可以是目标视频帧中表达视频含义的对象，例如，人、物或者文字等。

利用本公开实施例的基于目标对象来确定目标视频帧中的预裁剪框的方式，支持个性化的画面裁剪，实现即使待处理视频中画面内容非常杂乱，也能从中提取出目标对象的画面。

根据本公开的实施例，可以基于多个目标视频帧各自的预裁剪框，确定待处理视频的相机运动轨迹。在本公开的实施例中，该相机运动轨迹可以是多个镜头中的每个镜头的相机运动轨迹，也可以是整个待处理视频的相机运动轨迹，在此不再赘述。

根据本公开的实施例，可以基于待处理视频的相机运动轨迹，再确定待处理视频中每个视频帧的裁剪框的位置和尺寸。

本公开实施例提供的视频处理方法，支持个性化的画面裁剪方式，而且考虑待处理视频的相机运动轨迹，使裁剪后视频中的每个画面的内容都具有代表性，目标对象表达突出，且画面稳定，不容易造成画面抖动。

下面参考图3～图5，结合具体实施例对例如图2所示的方法做进一步说明。

根据本公开的实施例，视频处理方法还可以包括确定多个目标视频帧的操作。

例如，计算待处理视频的帧间相似度；基于待处理视频的帧间相似度结果，确定待处理视频的多个镜头；以及提取多个镜头各自的目标视频帧，得到多个目标视频帧。

根据本公开的实施例，计算待处理视频帧的帧间相似度的方法不做限定。例如，可以是直方图法、帧差法或者Embedding(嵌入)特征法等方法。在本公开的实施例中，直方图法可以是通过计算待处理视频中的相邻视频帧之间的直方图结果差来确定帧间相似度，以此判断其差异性。在本公开的实施例中，帧差法可以是计算待处理视频中相邻视频帧之间的像素差，根据阈值统计差异像素的数量或比例，以此确定帧间相似度。在本公开的实施例中，Embedding特征法可以是通过神经网络模型提取待处理视频中相邻视频帧的特征，然后计算特征之间的帧间相似度。

根据本公开的实施例，可以基于待处理视频的帧间相似度结果，来划分各个镜头之间的差异边界，确定待处理视频的多个镜头。提取每个镜头的目标视频帧作为采样视频帧。

根据本公开的实施例，每个镜头中可以提取一个视频帧作为目标视频帧，也可以提取多个视频帧作为目标视频帧，在此不再赘述。在提取多个视频帧作为目标视频帧的情况下，可以按照视频帧序列，采用等间隔采样或者固定比例采样的方式从每个镜头中提取视频帧，作为目标视频帧。在本公开的实施例中，等间隔采样可以是采用每n帧或者t秒抽取一帧的方式进行采样。在本公开的实施例中，固定比例采样可以是将采样比例转化为采样间隔进行采样，比如50％的固定比例采样可转化为每2帧提取一帧的等间隔采样方式。

根据本公开的实施例，利用上述确定多个目标视频帧的操作，可以在保证处理质量的前提下，简化处理时间。

根据本公开的实施例，可以通过如下操作来基于多个目标视频帧各自的目标对象，确定多个目标视频帧各自的预裁剪框。

例如，针对多个目标视频帧中的每个目标视频帧，利用识别算法提取每个目标视频帧中的多个对象和多个对象的对象检测框；基于多个对象的类别，确定多个对象各自的裁剪权重；将裁剪权重满足预设条件的对象确定为目标对象，并将裁剪权重满足预设条件的多个对象的对象检测框合并作为预裁剪框。

根据本公开的实施例，识别算法可以包括类别检测方法、人脸检测方法、文字检测方法、主颜色检测方法中的一种或多种。

根据本公开的实施例，可以利用类别检测方法提取目标视频帧中的多个对象中的每个对象的类别，基于多个对象的类别来确定多个对象各自的裁剪权重。

根据本公开的实施例，可以利用类别检测方法提取目标视频帧中的多个对象中的每个对象的类别，并辅助结合颜色检测方法或者人脸检测方法来精细化区分多个对象中的每个对象的对象检测框所占整个视频帧的像素比例(即面积比例)。然后基于多个对象的类别和像素比例，确定多个对象各自的裁剪权重。

例如，计算对象的类别的基础权重(base-weight)，计算对象检测框占整个视频帧的像素比例的扩展权重(extended-weight)，根据基础权重和扩展权重共同来确定裁剪权重。例如，计算公式可以为Score＝base_weight+extended_weight*area_ratio。其中，Score代表裁剪权重，area_ratio代表每一个对象检测框占整个视频帧的像素比例。

根据本公开的实施例，还可以针对对象的类别预设类别重要程度，基于预设类别重要程度，将对象检测框划分为必要对象检测框和非必要对象检测框。即，可以基于对象检测框的类别来分别按照裁剪权重进行排序。

根据本公开实施例，将裁剪权重满足预设条件的对象确定为目标对象，可以是指按照裁剪权重进行排序，按照排序结果抽取预设数目的对象作为目标对象。还可以是指，将裁剪权重满足预设权重阈值的对象确定为目标对象。

根据本公开的实施例，可以将裁剪权重满足预设条件的多个对象的对象检测框合并作为预裁剪框，但是并不局限于此。还可以是先对必要对象检测框中的裁剪权重满足预设条件的检测框进行合并，如果合并后的区域宽度或者高度大于或等于目标全裁剪尺寸(可以根据待处理视频尺寸和目标尺寸计算而来)，则不再合并非必要对象检测框，反之，则逐个合并非必要对象检测框，直到满足该要求。

图3示意性示出了根据本公开实施例的目标视频帧的示意图。

如图3所示，通过识别算法可以提取目标视频帧中的对象人的人检测框310和对象花的花检测框320。基于预设的各个对象的类别以及所占视频帧的像素比例(即，显示面积)，可以确定人的裁剪权重标签330和花的裁剪权重标签340，以标签的形式显示出来，以示区别。

此外，还可以根据目标视频帧中的对象的类别，划分出必要对象检测框和非必要对象检测框。例如，还可以在如图3中，确定对象人的必要对象检测框标签350，确定对象花的非必要检测框标签360，以标签的形式显示出来，以示区分。

在进行预裁剪框的确定时，可以基于目标分辨率(即最终显示界面分辨率)，来确定是仅将人检测框作为预裁剪框，还是将人检测框以及花检测框合并作为预裁剪框。

根据本公开的实施例，可以利用本公开实施例提供的预裁剪框来最终确定待处理视频帧中的各个视频帧的裁剪框的裁剪大小。

根据本公开的实施例，采用此种方式确定预裁剪框，可以更为精准的且灵活的把控裁剪尺寸，不会造成对待处理视频中重要对象(即，目标对象)删除的问题。

根据本公开的实施例，在基于多个目标视频帧各自的目标对象，确定多个目标视频帧各自的预裁剪框的操作中，还需要考虑文字对象，将文字对象与其他目标对象结合考虑，可以避免造成截断文字的问题。

例如，针对多个目标视频帧中的每个目标视频帧，判断每个目标视频帧的多个对象中是否有文字对象；在每个目标视频帧的多个对象中有文字对象的情况下，确定文字对象的文字检测框的尺寸；判断文字检测框的尺寸是否满足预设阈值(即，预设文字尺寸阈值)；在文字检测框的尺寸大于或等于预设文字尺寸阈值的情况下，将文字检测框合并至预裁剪框内；在文字检测框的尺寸小于预设文字尺寸阈值的情况下，将检测框删除。

根据本公开的实施例，可以利用文字检测方法检测并确定是否有文字对象，在确定有文字对象的情况下，根据文字对象的文字检测框的尺寸，来确定是否将文字检测框保留。在文字检测框的尺寸大于或等于预设文字尺寸阈值的情况下，表明文字清晰，是待处理视频内容要表达的一部分，将文字检测框合并至预裁剪框内，可以充分表达视频内容。在文字检测框的尺寸小于预设文字尺寸阈值的情况下，表明文字不重要，可以删除。

根据本公开的实施例，还可以通过判断文字检测框与上述预裁剪框是否有交集的方式来确定是否保留该文字检测框。在存在交集的情况下，可以将该文字检测框合并到预裁剪框中。以此避免文字切断的问题。

图4示意性示出了根据本公开另一实施例的目标视频帧的示意图。

如图4所示，可以通过类别检测方法确定存在对象人、对象瓶子和对象花。以裁剪权重和类别的重要程度等为考量因素，在确定目标视频帧中的必要检测框为对象人的人检测框410和对象瓶子的瓶子检测框420后，也确定对象花的花检测框430为非必要检测框，删除花检测框的基础上，可以通过文字检测方法检测到文字检测框440，并根据文字检测框440的尺寸，确定该文字检测框440是否保留。

如图4所示可以看出，保留文字检测框440，将文字检测框440与人检测框410和瓶子检测框420合并作为预裁剪框450，将更清楚的表达视频帧中的图像内容与意义，使内容表达更丰富。

利用本公开实施例提供的预裁剪框的确定方式，不仅避免重要文字被切断，而且不会将待处理视频的重要内容删除，使内容丰富、表达清晰。

根据本公开的实施例，可以采用如下操作来基于多个目标视频帧各自的预裁剪框，确定待处理视频的相机运动轨迹。

例如，基于多个目标视频帧各自的预裁剪框，确定待处理视频中多个镜头各自的相机运动类型；以及基于待处理视频中多个镜头各自的相机运动类型，确定待处理视频的相机运动轨迹。

根据本公开的实施例，相机运动类型可以理解为裁剪框的运动类型。其中，相机运动类型可以包括中心静止类型、视频扫视类型、区域静止类型、运动追踪类型中的一种或多种。

根据本公开的实施例，可以通过确定预裁剪框内部有目标对象的目标视频帧数量占镜头内目标视频帧总数的比例来确定相机运动类型。

例如，根据帧间相似度确定待处理视频中的不同镜头分界后，从每个镜头内选取多个目标视频帧进行分析，例如10个目标视频帧。由于部分视频帧可能未有目标对象，从而导致目标视频帧中的预裁剪框有可能为空。例如预裁剪框内无目标对象的目标视频帧数量为2或者为5等。可以计算具有目标对象的目标视频帧数量占目标视频帧总量的比例，并利用该比例与运动类型阈值进行判断，满足中心静止类型阈值的，则确定镜头的相机运动类型为中心静止类型。以此类推，满足视频扫视类型阈值的，则确定镜头的相机运动类型为视频扫视类型；满足区域静止类型阈值的，则确定镜头的相机运动类型为区域静止类型；满足运动追踪类型阈值的，则确定镜头的相机运动类型为运动追踪类型。

根据本公开的实施例，可以通过待处理视频中各个镜头的相机运动类型来确定待处理视频中各个镜头的相机运动轨迹。基于相机运动轨迹，可以确定每个视频帧的裁剪框的位置和尺寸。进而可以实现准确的自适应性裁剪。

根据本公开的实施例，待处理视频中可以单个镜头内的所有视频帧的裁剪框尺寸保持相同，但是并不局限于此。还可以是整个待处理视频中所有视频帧的尺寸保持相同。

根据本公开的实施例，可以根据预设参数进行裁剪框中裁剪尺寸的确定。

根据本公开的实施例，还可以通过多个目标视频帧中的预裁剪框来确定，例如，选取最大的预裁剪框作为最终的裁剪框。将最大的预裁剪框尺寸作为所有视频帧中的裁剪框尺寸。

根据本公开的实施例，在确定了每个镜头的每个视频帧的裁剪框的裁剪尺寸后，可以基于相机运动轨迹来确定裁剪框的中心点坐标。

例如，对于中心静止类型，裁剪框的中心点坐标即为视频的中心点坐标，则整个待处理视频的裁剪框的中心点可以为裁剪框的中心点。

例如，对于视频扫视类型，可以首先确定扫视方向为水平方向或竖直方向，然后相机运动为从左到右或从上到下，由此可以确定镜头内的起始帧的中心点坐标，其余点的位置坐标可以通过线性插值或者线性拟合的方式计算而来。

例如，对于区域静止类型，可以首先计算镜头内检测框轨迹运动的最远点，如水平方向的最左侧和最右侧，竖直方向的最上方和最下方，然后取四个位置的中心点作为裁剪框中心点坐标。

例如，对于运动追踪类型，可以通过多项式拟合的方式将目标视频帧上的裁剪框中心点拟合一个多项式函数，然后再计算在完整的视频帧上的裁剪框中心点坐标，即相机运动轨迹。

利用本公开实施例提供的视频处理方法，可以对待处理视频进行镜头划分，并且，可以基于镜头内各相机的运动类型，确定相机运动轨迹，确定单镜头中各个视频帧的裁剪框的尺寸以及位置，更精细准确。

根据本公开的实施例，在计算不同镜头的裁剪框位置之前，确定镜头内的相机运动类型，对于一些检测到的目标对象较少的镜头，计算出的裁剪框在镜头内部的分布较为稀疏，如果全部采用追踪目标运动的方式会导致所裁剪出的画面不具备代表性。此外，当已有的裁剪框之间的位移较小时，如果采用追踪的方式也容易造成画面抖动。因此，在确定不同镜头内的相机运动类型后，再根据相机运动类型确定裁剪框的位置坐标，可以将裁剪出的画面既具有代表性，又使最终的播放稳定，避免抖动。

根据本公开的实施例，基于待处理视频中多个镜头各自的相机运动类型，确定待处理视频的相机运动轨迹还可以具体包括如下操作。

例如，基于待处理视频中多个镜头各自的相机运动类型，确定待处理视频的离散相机运动轨迹；以及对待处理视频的离散相机运动轨迹进行轨迹优化，得到平滑相机运动轨迹，以便基于平滑相机运动轨迹，确定待处理视频中每个视频帧的裁剪框的位置和尺寸。

根据本公开的实施例，利用可分析的多个目标视频帧只能确定离散相机运动轨迹。在本公开的实施例中，可以基于离散相机运动轨迹来确定待处理视频中每个视频帧的裁剪框的位置。

根据本公开的实施例，还可以对待处理视频的离散相机运动轨迹进行轨迹优化，得到平滑相机运动轨迹。再基于平滑相机运动轨迹来确定待处理视频中每个视频帧的裁剪框的位置。

根据本公开的实施例，对离散相机运动轨迹进行轨迹优化，进而利用平滑相机运动轨迹来确定待处理视频中的每个视频帧的裁剪框的位置，可以使播放效果更好，减少抖动。

根据本公开的实施例，视频处理方法还可以包括进行背景填充以及与音频编码等操作。

例如，解码待处理视频，提取音频；基于目标分辨率，利用纯色背景、模糊背景或者识别内容填充裁剪后视频的背景，得到第一目标视频；以及将第一目标视频与音频进行编码，得到第二目标视频。

根据本公开的实施例，解码待处理视频，不光可以提取音频，还可以提取待处理视频中的其他解码信息。例如帧率、长度、宽度、时长、帧数等基本属性信息。

根据本公开的实施例，目标分辨率可以是目标终端的播放界面的目标分辨率，例如，可以是电视上的播放界面的目标分辨率，也可以是手机应用程序上的播放界面的目标分辨率，还可以是手机、平板电脑等网页上的播放界面的目标分辨率。

根据本公开的实施例，可以预先将待处理视频的裁剪框与目标分辨率进行比较分析，在待处理视频的裁剪框小于目标分辨率的情况下，或者待处理视频的裁剪框与目标分辨率不匹配的情况下，进行背景填充。

根据本公开的实施例，可以根据预设的填充方式或者传入的填充方式将裁剪后视频扩充到完整的目标分辨率(即，目标视频尺寸)。

根据本公开的实施例，可以利用纯色背景、模糊背景或者识别内容填充裁剪后视频。

例如，填充方式为纯色背景填充。可以是构建指定颜色的背景图片，并与裁剪后视频进行融合，完成纯色背景填充。

例如，填充方式为模糊背景填充。可以是构建具有磨砂效果的背景图片，并与裁剪后视频进行融合，完成模糊背景填充。

需要说明的是，可以利用高斯模糊和/或中值模糊等方式将图片处理为具有磨砂玻璃效果的背景。

需要说明的是，在本公开实施例中提供的背景图片，可以为从待处理视频中裁剪出来。可以以待处理视频的裁剪框的中心点作为背景图片的中心，根据目标分辨率(即目标输出视频的比例)计算裁剪尺寸，再将裁剪出的图片进行模糊，得到背景图片。

例如，填充方式为识别内容填充。可以是通过视频修补技术，利用已训练好的视频修补模型，将裁剪后视频修补到目标分辨率。

根据本公开的实施例，支持的背景填充方式有纯色背景填充、模糊背景填充和识别内容填充，形式多样且丰富。此外，基于视频修补技术的内容识别填充方式使得目标视频在完整性、画面内容的连续性和视觉观感上都更为出色。

根据本公开的实施例，本公开提供的视频处理方法，不仅支持智能的计算需要裁剪和填充比例的同时，还支持个性化的处理参数的传入，比如裁剪比例、填充比例、目标对象等等。实现多种方式兼容的效果。

图5示意性示出了根据本公开另一实施例的视频处理方法的流程图。

如图5所示，该方法可以包括操作S510～S570。

在操作S510，输入待处理视频，并输入目标分辨率以及参数等。

在操作S520，对待处理视频进行解码。

在操作S530，计算待处理视频的帧间相似度，确定相邻两个镜头之间的镜头边界以及每个镜头内的目标视频帧。

在操作S540，利用识别算法提取目标视频帧中的对象检测框，确定预裁剪框。

在操作S550，计算镜头的相机运动类型。

在操作S560，确定镜头的相机运动轨迹。后续可以再进行轨迹优化。

在操作S570，对待处理视频进行裁剪、填充、编码，得到目标视频。

根据本公开的实施例，可以基于目标分辨率和预裁剪框来确定裁剪框的尺寸，可以根据相机运动轨迹以及参数确定裁剪框的位置(即，中心点坐标)，基于裁剪框的尺寸和位置，进行待处理视频的裁剪、填充以及编码。

需要说明的是，本公开实施例提供的是自适应裁剪和填充，但是并不局限于此，还可以是利用填充和裁剪分别对应单一的尺寸扩展方式。

根据本公开的实施例，目标分辨率可以是720X1280的形式，也可以是3∶4这样的长宽比的形式。

根据本公开的实施例，待处理视频可以是视频链接、视频存储的地址等形式作为输入。

根据本公开的实施例，输入的参数可以是预设的裁剪和/或填充的比例。利用自定义比例的尺寸扩展方式，可实现多样式的、个性化的视频扩展。

综上所述，利用本公开实施例提供的视频处理方法，利用帧间相似度技术，合理进行镜头划分、以及目标视频帧的提取；通过识别算法准确识别目标对象以及确定各个视频帧的裁剪框尺寸，并基于确定相机运动类型和相机运动轨迹，合理确定各个视频帧的裁剪框位置，最终实现自适应的调整裁剪和填充，并有效解决待处理视频因与目标视频的长宽比存在差异较大，而不能完整保留原始视频所要表达的内容的问题。

图6示意性示出了根据本公开的实施例的视频处理装置的框图。

如图6所示，视频处理装置600可以包括第一确定模块610、第二确定模块620、以及第三确定模块630。

第一确定模块610，用于基于多个目标视频帧各自的目标对象，确定多个目标视频帧各自的预裁剪框，其中，多个目标视频帧是从待处理视频中提取得到的。

第二确定模块620，用于基于多个目标视频帧各自的预裁剪框，确定待处理视频的相机运动轨迹，其中，相机运动轨迹用于表征待处理视频中待裁剪的目标对象的运动轨迹。

第三确定模块630，用于基于待处理视频的相机运动轨迹，确定待处理视频中每个视频帧的裁剪框的位置和尺寸，以便基于裁剪框的位置和尺寸对待处理视频进行裁剪，得到裁剪后视频。

根据本公开的实施例，支持个性化的画面裁剪方式，而且考虑待处理视频的相机运动轨迹，使裁剪后视频中的每个画面的内容都具有代表性，目标对象表达突出，且画面稳定，不容易造成画面抖动。

根据本公开的实施例，第二确定模块620可以包括第一确定子模块和第二确定子模块。

第一确定子模块，用于基于多个目标视频帧各自的预裁剪框，确定待处理视频中多个镜头各自的相机运动类型；其中，相机运动类型包括以下至少一种：中心静止类型、视频扫视类型、区域静止类型、运动追踪类型。

第二确定子模块，用于基于待处理视频中多个镜头各自的相机运动类型，确定待处理视频的相机运动轨迹。

根据本公开的实施例，第二确定子模块可以包括第一确定单元以及优化单元。

第一确定单元，用于基于待处理视频中多个镜头各自的相机运动类型，确定待处理视频的离散相机运动轨迹。

优化单元，用于对待处理视频的离散相机运动轨迹进行轨迹优化，得到平滑相机运动轨迹，以便基于平滑相机运动轨迹，确定待处理视频中每个视频帧的裁剪框的位置和尺寸。

根据本公开的实施例，视频处理装置600还可以包括计算模块、第四确定模块、以及提取模块。

计算模块，用于计算待处理视频的帧间相似度。

第四确定模块，用于基于待处理视频的帧间相似度结果，确定待处理视频的多个镜头。

提取模块，用于提取多个镜头各自的目标视频帧，得到多个目标视频帧。

根据本公开的实施例，第一确定模块610可以包括提取单元、第二确定单元以及第一合并单元。

提取单元，用于针对多个目标视频帧中的每个目标视频帧，利用识别算法提取每个目标视频帧的多个对象和多个对象的对象检测框。

第二确定单元，用于基于多个对象的类别，确定多个对象各自的裁剪权重。

第一合并单元，用于将裁剪权重满足预设条件的对象确定为目标对象，并将裁剪权重满足预设条件的对象的对象检测框合并作为预裁剪框。

根据本公开的实施例，第一确定模块610还可以包括第一判断单元、第三确定单元、第二判断单元、第二合并单元、以及删除单元。

第一判断单元，用于针对多个目标视频帧中的每个目标视频帧，判断每个目标视频帧的多个对象中是否有文字对象。

第三确定单元，用于在每个目标视频帧的多个对象中有文字对象的情况下，确定文字对象的文字检测框的尺寸。

第二判断单元，用于判断文字检测框的尺寸是否满足预设阈值。

第二合并单元，用于在文字检测框的尺寸大于或等于预设阈值的情况下，将文字检测框合并至预裁剪框内。

删除单元，用于在文字检测框的尺寸小于预设阈值的情况下，将检测框删除。

根据本公开的实施例，视频处理装置600还可以包括解码模块、填充模块以及编码模块。

解码模块，用于解码待处理视频，提取音频。

填充模块，用于基于目标分辨率，利用纯色背景、模糊背景或者识别内容填充裁剪后视频的背景，得到第一目标视频。

编码模块，用于将第一目标视频与音频进行编码，得到第二目标视频。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，第一确定模块610、第二确定模块620、以及第三确定模块630中的任意多个可以合并在一个模块/单元/子单元中实现，或者其中的任意一个模块/单元/子单元可以被拆分成多个模块/单元/子单元。或者，这些模块/单元/子单元中的一个或多个模块/单元/子单元的至少部分功能可以与其他模块/单元/子单元的至少部分功能相结合，并在一个模块/单元/子单元中实现。根据本公开的实施例，第一确定模块610、第二确定模块620、以及第三确定模块630中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，第一确定模块610、第二确定模块620、以及第三确定模块630中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

需要说明的是，本公开的实施例中视频处理装置部分与本公开的实施例中视频处理方法部分是相对应的，视频处理装置部分的描述具体参考视频处理方法部分，在此不再赘述。

图7示意性示出了根据本公开实施例的适于实现上文描述的方法的计算机系统的框图。图7示出的计算机系统仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，根据本公开实施例的计算机系统700包括处理器701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。处理器701例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器701还可以包括用于缓存用途的板载存储器。处理器701可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 703中，存储有系统700操作所需的各种程序和数据。处理器701、ROM 702以及RAM 703通过总线704彼此相连。处理器701通过执行ROM 702和/或RAM 703中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 702和RAM 703以外的一个或多个存储器中。处理器701也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，系统700还可以包括输入/输出(I/O)接口705，输入/输出(I/O)接口705也连接至总线704。系统700还可以包括连接至I/O接口705的以下部件中的一项或多项：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

根据本公开的实施例，根据本公开实施例的方法流程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被处理器701执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 702和/或RAM 703和/或ROM 702和RAM 703以外的一个或多个存储器。

本公开的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行本公开实施例所提供的方法的程序代码，当计算机程序产品在电子设备上运行时，该程序代码用于使电子设备实现本公开实施例所提供的视频处理方法。

在该计算机程序被处理器701执行时，执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例，上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。

在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分709被下载和安装，和/或从可拆卸介质711被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

根据本公开的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java，C++，python，“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种视频处理方法，包括：

基于多个目标视频帧各自的目标对象，确定所述多个目标视频帧各自的预裁剪框，其中，所述多个目标视频帧是从待处理视频中提取得到的；

基于所述多个目标视频帧各自的预裁剪框，确定所述待处理视频的相机运动轨迹，其中，所述相机运动轨迹用于表征所述待处理视频中待裁剪的目标对象的运动轨迹；以及

基于所述待处理视频的相机运动轨迹，确定所述待处理视频中每个视频帧的裁剪框的位置和尺寸，以便基于所述裁剪框的位置和尺寸对所述待处理视频进行裁剪，得到裁剪后视频。

2.根据权利要求1所述的方法，其中，所述基于所述多个目标视频帧各自的预裁剪框，确定所述待处理视频的相机运动轨迹包括：

基于所述多个目标视频帧各自的预裁剪框，确定所述待处理视频中多个镜头各自的相机运动类型；其中，所述相机运动类型包括以下至少一种：中心静止类型、视频扫视类型、区域静止类型、运动追踪类型；

基于所述待处理视频中多个镜头各自的相机运动类型，确定所述待处理视频的相机运动轨迹。

3.根据权利要求2所述的方法，其中，所述基于所述待处理视频中多个镜头各自的相机运动类型，确定所述待处理视频的相机运动轨迹包括：

基于所述待处理视频中多个镜头各自的相机运动类型，确定所述待处理视频的离散相机运动轨迹；

对所述待处理视频的离散相机运动轨迹进行轨迹优化，得到平滑相机运动轨迹，以便基于所述平滑相机运动轨迹，确定所述待处理视频中每个视频帧的裁剪框的位置和尺寸。

4.根据权利要求2所述的方法，还包括：

计算所述待处理视频的帧间相似度；

基于所述待处理视频的帧间相似度结果，确定所述待处理视频的多个镜头；

提取所述多个镜头各自的目标视频帧，得到所述多个目标视频帧。

5.根据权利要求1所述的方法，其中，所述基于多个目标视频帧各自的目标对象，确定所述多个目标视频帧各自的预裁剪框包括：

针对所述多个目标视频帧中的每个目标视频帧，利用识别算法提取所述每个目标视频帧的多个对象和所述多个对象的对象检测框；

基于所述多个对象的类别，确定所述多个对象各自的裁剪权重；

将裁剪权重满足预设条件的对象确定为所述目标对象，并将所述裁剪权重满足预设条件的对象的对象检测框合并作为所述预裁剪框。

6.根据权利要求5所述的方法，其中，所述基于多个目标视频帧各自的目标对象，确定所述多个目标视频帧各自的预裁剪框还包括：

针对所述多个目标视频帧中的每个目标视频帧，判断所述每个目标视频帧的多个对象中是否有文字对象；

在所述每个目标视频帧的多个对象中有文字对象的情况下，确定所述文字对象的文字检测框的尺寸；

判断所述文字检测框的尺寸是否满足预设阈值；

在所述文字检测框的尺寸大于或等于所述预设阈值的情况下，将所述文字检测框合并至所述预裁剪框内；

在所述文字检测框的尺寸小于所述预设阈值的情况下，将所述检测框删除。

7.根据权利要求1所述的方法，还包括：

解码所述待处理视频，提取音频；

基于目标分辨率，利用纯色背景、模糊背景或者识别内容填充所述裁剪后视频的背景，得到第一目标视频；

将所述第一目标视频与所述音频进行编码，得到第二目标视频。

8.一种视频处理装置，包括：

第一确定模块，用于基于多个目标视频帧各自的目标对象，确定所述多个目标视频帧各自的预裁剪框，其中，所述多个目标视频帧是从待处理视频中提取得到的；

第二确定模块，用于基于所述多个目标视频帧各自的预裁剪框，确定所述待处理视频的相机运动轨迹，其中，所述相机运动轨迹用于表征所述待处理视频中待裁剪的目标对象的运动轨迹；以及

第三确定模块，用于基于所述待处理视频的相机运动轨迹，确定所述待处理视频中每个视频帧的裁剪框的位置和尺寸，以便基于所述裁剪框的位置和尺寸对所述待处理视频进行裁剪，得到裁剪后视频。

9.一种计算机系统，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有可执行指令，所述指令被处理器执行时使处理器实现权利要求1至7中任一项所述的方法。

11.一种计算机程序产品，包括：

计算机可执行指令，所述指令在被执行时使用于实现权利要求1至7中任一项所述的方法。