CN110189378A

CN110189378A - 一种视频处理方法、装置及电子设备

Info

Publication number: CN110189378A
Application number: CN201910433639.1A
Authority: CN
Inventors: 文为; 林佳月; 张桥松; 周阳
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2019-08-30
Anticipated expiration: 2039-05-23
Also published as: CN110189378B

Abstract

本发明实施例提供了一种视频处理方法、装置及电子设备，其中，该方法包括：对从待处理视频中抽取的待检测视频帧进行目标检测，并根据检测得到的检测框信息，确定待检测视频帧中的主体框；按照客户端播放窗口的尺寸信息，以主体框的中心像素点为裁剪框的中心像素点，根据待检测视频帧的高度和宽度，确定裁剪框在待检测视频帧中的位置信息和尺寸信息；根据裁剪框的位置信息和移动轨迹，确定裁剪框在任意两个相邻的待检测视频帧之间的视频帧中的位置信息；根据裁剪框在各个视频帧中的位置信息和裁剪框尺寸信息对各个视频帧进行裁剪，得到裁剪后的视频帧。这样，依据该横屏视频中的视频内容进行裁剪，可以保证裁剪后的视频帧中保留了视频主要内容。

Description

一种视频处理方法、装置及电子设备

技术领域

本发明涉及视频处理技术领域，特别是涉及一种视频处理方法、装置及电子设备。

背景技术

随着智能终端设备的广泛应用，人们可以使用安装在智能终端设备上的各种应用软件做各种实行，例如，可以使用安装在智能手机上的拍照应用拍摄图片，可以使用安装在智能手机上的视频播放应用播放视频。

通常情况下，待播放的视频包括横屏视频和竖屏视频，当智能终端设备采用竖屏方式全屏播放横屏视频时，该智能终端设备上的视频播放窗口的长宽比与该智能终端设备的屏幕长宽比不同，为了更好的在竖屏全屏上呈现横屏视频，在相关技术中，通常是对该横屏视频的所有视频帧，以同一像素点作为基准，并按照该视频播放窗口的宽度进行裁剪。

例如，如图1所示，实线框110表示智能终端设备，虚线框120表示横屏视频，点a为横屏视频的所有视频帧的同一像素点，在相关技术中，可以以点a为基准，按照实线框110的视频播放窗口的宽度，裁剪掉该横屏视频的所有视频帧两侧，保留该横屏视频的所有视频帧的中间部分，从而可以得到裁剪后的横屏视频，然后在该视频播放窗口中，播放该裁剪后的横屏视频。

然而，发明人在实现本发明的过程中发现，现有技术至少存在如下问题：

在每一帧视频中，重要画面并不一定总是在该视频帧的中间部分，可能会在视频帧的左侧，也可能会在视频帧的右侧。上述的裁剪视频帧的方式，会造成裁剪后的视频中的重要主体丢失，内容表达不完整，可观赏性差。

发明内容

本发明实施例的目的在于提供一种视频处理方法、装置及电子设备，以在对横屏视频进行裁剪时，保证裁剪后的视频中保留重要主体，保证画面呈现的流畅和内容的完整，提高观赏性。具体技术方案如下：

在本发明实施的一个方面，本发明实施例提供了一种视频处理方法，该方法包括：

从待处理视频中抽取待检测视频帧，并对待检测视频帧进行目标检测，得到待检测视频帧中的检测框及其检测框信息；

根据检测框的检测框信息，确定待检测视频帧中的主体框；

获取并按照客户端播放窗口的尺寸信息，以主体框的中心像素点为裁剪框的中心像素点，根据待检测视频帧的高度和宽度，确定与客户端播放窗口的尺寸信息相适应的裁剪框在待检测视频帧中的位置信息和尺寸信息；

根据裁剪框在任意两个相邻的待检测视频帧中的位置信息，确定裁剪框在任意两个相邻的待检测视频帧之间的视频帧中的移动轨迹；

根据移动轨迹，确定裁剪框在任意两个相邻的待检测视频帧之间的视频帧上的位置信息；

根据裁剪框在各个视频帧中的位置信息和裁剪框的尺寸信息，对待处理视频中的各个视频帧进行裁剪，并将裁剪后的对应尺寸的视频帧合成为裁剪后的视频。

在本发明实施的又一方面，还提供了一种视频处理装置，该装置包括：

目标检测模块，用于从待处理视频中抽取待检测视频帧，并对待检测视频帧进行目标检测，得到待检测视频帧中的检测框及其检测框信息；

主体框确定模块，用于根据检测框的检测框信息，确定待检测视频帧中的主体框；

第一裁剪框信息确定模块，用于获取并按照客户端播放窗口的尺寸信息，以主体框的中心像素点为裁剪框的中心像素点，根据待检测视频帧的高度和宽度，确定与客户端播放窗口的尺寸信息相适应的裁剪框在待检测视频帧中的位置信息和尺寸信息；

移动轨迹确定模块，用于根据裁剪框在任意两个相邻的待检测视频帧中的位置信息，确定裁剪框在任意两个相邻的待检测视频帧之间的视频帧中的移动轨迹；

第二裁剪框信息确定模块，用于根据移动轨迹，确定裁剪框在任意两个相邻的待检测视频帧之间的视频帧上的位置信息；

视频裁剪模块，用于根据裁剪框在各个视频帧中的位置信息和裁剪框的尺寸信息，对待处理视频中的各个视频帧进行裁剪，并将裁剪后的对应尺寸的视频帧合成为裁剪后的视频。

在本发明实施的又一方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述的视频处理方法。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的视频处理方法。

在本发明实施的又一方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的视频处理方法。

本发明实施例提供的一种视频处理方法、装置及电子设备，在对待处理视频进行裁剪时，可以首先从待处理视频中抽取待检测视频帧，并对待检测视频帧进行目标检测，得到待检测视频帧中的检测框及其检测框信息，进而根据检测框的检测框信息，确定待检测视频帧中的主体框；在得到主体后，可以获取并按照客户端播放窗口的尺寸信息，以主体框的中心像素点为裁剪框的中心像素点，根据待检测视频帧的高度和宽度，确定与客户端播放窗口的尺寸信息相适应的裁剪框在待检测视频帧中的位置信息和尺寸信息；然后根据裁剪框在任意两个相邻的待检测视频帧中的位置信息，确定裁剪框在任意两个相邻的待检测视频帧之间的视频帧中的移动轨迹；再根据移动轨迹，确定裁剪框在任意两个相邻的待检测视频帧之间的视频帧上的位置信息；这样，可以确定出裁剪框在每个视频帧中的位置信息，最后，根据裁剪框在各个视频帧中的位置信息和裁剪框的尺寸信息，对待处理视频中的各个视频帧进行裁剪，从而可以得到裁剪后的视频帧。通过本发明实施例，在对横屏视频进行裁剪时，可以依据该横屏视频中的视频内容进行裁剪，从而可以保证将裁剪后的视频帧合成为裁剪后的视频时，该视频中保留重要主体，保证画面呈现的流畅和内容的完整，提高观赏性。当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为现有技术中对横屏视频进行裁剪的示意图；

图2为本发明实施例的一种视频处理方法第一种实施方式的流程图；

图3为本发明实施例的一种视频处理方法第二种实施方式的流程图；

图4为本发明实施例的一种视频处理方法第三种实施方式的流程图；

图5为本发明实施例的一种视频处理方法第四种实施方式的流程图；

图6为本发明实施例的一种视频处理方法第五种实施方式的流程图；

图7为本发明实施例的一种视频处理方法第六种实施方式的流程图；

图8为本发明实施例的一种视频处理方法第七种实施方式的流程图；

图9为本发明实施例的一种视频处理装置的结构示意图；

图10为本发明实施例的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

为了解决现有技术存在的问题，本发明实施例提供了一种视频处理方法、装置及电子设备，以在对横屏视频进行裁剪时，根据视频帧中的内容对视频进行裁剪，保证裁剪后的视频帧中保留有重要画面。

下面，首先对本发明实施例的一种视频处理方法进行介绍，如图2所示，为本发明实施例的一种视频处理方法第一种实施方式的流程图，该方法可以包括：

S210，从待处理视频中抽取待检测视频帧，并对待检测视频帧进行目标检测，得到待检测视频帧中的检测框及其检测框信息。

其中，检测框信息包括：检测框在待检测视频帧中的位置信息、检测框的尺寸信息和/或检测框中物体的识别概率信息。

在一些示例中，本发明实施例的一种视频处理方法，可以应用于服务器，也可以应用于移动终端，该移动终端可以是智能手机、平板电脑、笔记本等。该服务器和移动终端可以统称为视频处理设备。

上述的视频处理设备在对待处理的横屏视频进行处理时，可以从该待处理视频中抽取待检测视频帧。

在一些示例中，该视频处理设备可以从该待处理视频中，逐帧抽取待检测视频帧。在又一些示例中，为了降低处理的复杂度，提高视频处理效率，上述的视频处理设备也可以每间隔预定个数的视频帧来抽取待检测视频帧，例如，每间隔24个视频帧抽取一个待检测视频帧，还可以以预设的周期来抽取待检测视频帧。

上述的视频处理设备在抽取到待检测视频帧后，可以采用预先设置在该视频处理设备中的目标检测算法，对该待检测视频帧进行目标检测。

在一些示例中，在采用该目标检测算法对待检测视频帧进行检测时，该目标检测算法可以框选出各个目标，还可以检测出各个目标所在的检测框的位置信息，以及各个目标所在的检测框的尺寸信息，还可以检测到检测框中的目标的概率信息，该目标的概率信息为该目标检测算法检测到的目标为哪种物体或人物的概率。

S220，根据检测框的检测框信息，确定待检测视频帧中的主体框。

上述的视频处理设备在得到该检测框的检测框信息后，可以根据该检测框的检测框信息，确定待检测视频帧中的主体框。

在一些示例中，上述的视频处理设备可以将得到的检测框中，检测框的尺寸信息最大的检测框作为主体框；也可以将得到的检测框中，中心位置与待检测视频帧的距离最小的检测框，作为主体框；还可以将得到的检测框中，目标的概率信息最大的检测框，作为主体框，这都是可以的。

S230，获取并按照客户端播放窗口的尺寸信息，以主体框的中心像素点为裁剪框的中心像素点，根据待检测视频帧的高度和宽度，确定与客户端播放窗口的尺寸信息相适应的裁剪框在待检测视频帧中的位置信息和尺寸信息。

上述的视频处理设备在得到主体框后，为了确定对该待检测视频帧进行裁剪时的裁剪位置，并且，为了使得裁剪后得到的视频帧与客户端播放窗口的尺寸信息相适应，可以以主体框的中心像素点为裁剪框的中心像素点，根据待检测视频帧的高度和宽度，确定与客户端播放窗口的尺寸信息相适应的裁剪框在待检测视频帧中的位置信息和尺寸信息。

这样，可以使得裁剪后的视频帧可以与该客户端播放窗口相适应。

在一些示例中，上述的视频处理设备在得到该客户端播放窗口的尺寸信息后，当该客户端播放窗口的高度信息与待检测视频帧的高度信息相同时，可以按照该客户端播放窗口的宽度信息，确定对待检测视频帧进行裁剪的裁剪框的宽度信息，从而可以得到该裁剪框在该待检测视频帧中的尺寸信息；然后可以将主体框的中心像素点作为该裁剪框的中心像素点，从而可以得到该裁剪框在该待检测视频帧中的位置信息。

S240，根据裁剪框在任意两个相邻的待检测视频帧中的位置信息，确定裁剪框在任意两个相邻的待检测视频帧之间的视频帧中的移动轨迹。

在一些示例中，上述的视频处理设备可以抽取多个待检测视频帧，该视频处理设备在确定出裁剪框在待检测视频帧中的位置信息后，为了能够确定出裁剪框在两个相邻的待检测视频帧之间的各个视频帧中的位置信息，该视频处理设备可以根据任意两个相邻的待检测视频帧中的主体框的位置信息，来计算该裁剪框在任意两个相邻的待检测视频帧之间的视频帧中的移动轨迹。

在一些示例中，可以用待检测视频帧中的裁剪框的中心像素点表示该裁剪框的位置信息，也可以用该裁剪框的四个角中任意一个角的像素点表示该裁剪框的位置信息，例如，可以用该裁剪框的左上角的像素点表示该裁剪框的位置信息。

在一些示例中，上述的视频处理设备在计算该裁剪框在任意两个相邻的待检测视频帧之间的视频帧中的移动轨迹时，可以采用预先设置的轨迹计算算法来进行计算。该轨迹计算算法可以是线性计算公式，也可以是非线性计算公式。

在一些示例中，可以对该待检测待处理视频的具有相同物体或人物的任意两个或以上视频帧设置一个移动轨迹，该移动轨迹中还可以包含有该相同的物体或人物在不同视频帧中的位置信息。

因此，可以通过该裁剪框在任意两个相邻的待检测视频帧中的位置信息，确定出裁剪框在任意两个相邻的待检测视频帧之间的视频帧中的移动轨迹。

在一些示例中，可以采用如下方式来确定裁剪框在任意两个相邻的待检测视频帧之间的视频帧中的移动轨迹：

步骤A，当任意两个相邻的待检测视频帧中裁剪框的位置信息之间的差值小于预设距离阈值时，根据任意两个相邻的待检测视频帧中裁剪框的位置信息之间的差值，和任意两个相邻的待检测视频帧之间的视频帧的数量，确定裁剪框在任意两个相邻的待检测视频帧之间的视频帧中的移动方向和移动速度。

在一些示例中，该预设距离阈值可以是预先根据经验设置的阈值。当任意两个相邻的待检测视频帧中裁剪框的位置信息之间的差值小于预设距离阈值时，则可以说明裁剪框的移动范围很小，并且，通过移动裁剪框，可以在对视频进行裁剪后，为用户形成一种镜头移动的视觉效果。

在得到裁剪框在任意两个相邻的待检测视频帧之间的视频帧中的移动方向和移动速度后，可以依据该裁剪框的移动方向和移动速度，确定出该裁剪框的移动轨迹。

步骤B，当任意两个相邻的待检测视频帧中裁剪框的位置信息之间的差值大于或等于预设距离阈值时，将任意两个相邻的待检测视频帧中的前一个视频帧中裁剪框的位置信息，作为裁剪框在任意两个相邻的待检测视频帧之间的视频帧中的位置信息。

其中，前一个视频帧为按照待处理视频的播放顺序，先播放的待检测视频帧。

在一些示例中，当任意两个相邻的待检测视频帧中裁剪框的位置信息之间的差值大于或等于预设距离阈值时，若此时再移动裁剪框，则裁剪后的视频容易给用户造成镜头晃动的感觉，影响用户的观看体验。对此，可以采用步骤B的方法，从该两个相邻的待检测视频帧的前一个待检测视频帧，至该两个相邻的待检测视频帧的后一个待检测视频帧的前一个视频帧，不移动该裁剪框的位置，然后，采用该裁剪框在该两个相邻的待检测视频帧的后一个待检测视频帧的位置信息和尺寸信息，对该两个相邻的待检测视频帧的后一个待检测视频帧进行裁剪。

S250，根据移动轨迹，确定裁剪框在任意两个相邻的待检测视频帧之间的视频帧上的位置信息。

上述的视频处理设备在确定出该裁剪框在任意两个相邻的待检测视频帧之间的视频帧中的移动轨迹后，可以基于该移动轨迹，确定出裁剪框在任意两个相邻的待检测视频帧之间的视频帧上的位置信息。

在一些示例中，该移动轨迹可以是该裁剪框的位置信息与视频帧的帧数之间的对应关系。通过确定该任意两个相邻的待检测视频帧之间的各个视频帧的帧数，并给予该移动轨迹，可以确定出该裁剪框在任意两个相邻的待检测视频帧之间的视频帧上的位置信息。

S260，根据裁剪框在各个视频帧中的位置信息和裁剪框的尺寸信息，对待处理视频中的各个视频帧进行裁剪，并将裁剪后的对应尺寸的视频帧合成为裁剪后的视频。

通过上述的步骤，可以确定出该裁剪框在任意两个相邻的待检测视频帧之间的视频帧中的位置信息，从而可以确定出该裁剪框在该待处理视频中的每个视频帧中的位置信息。

在本步骤中，上述的视频处理设备可以根据该裁剪框在该待处理视频中的各个视频帧中的位置信息和该裁剪框的尺寸信息，对该待处理视频帧中的各个视频帧进行裁剪，从而可以得到裁剪后的视频帧。

在一些示例中，在得到裁剪后的视频帧后，可以按照原裁剪后的视频帧对应的待处理视频帧的顺序，对该裁剪后的视频帧进行排序，并按照待处理视频的帧率，将裁剪后的视频帧合成为裁剪后的视频，从而可以使得在播放裁剪后的视频时，该裁剪后的视频的播放帧率与对应的未裁剪前的视频的播放帧率一致。

在一些示例中，在对待处理视频中的各个视频帧进行裁剪时，可以保留裁剪框内的视频内容，去掉裁剪框外的视频内容。

在一些示例中，在对待处理视频中的各个视频帧进行裁剪时，还可以将裁剪框内的视频内容进行复制，然后将复制得到的视频作为裁剪后的视频帧。

本发明实施例提供的一种视频处理方法，在对待处理视频进行裁剪时，可以首先从待处理视频中抽取待检测视频帧，并对待检测视频帧进行目标检测，得到待检测视频帧中的检测框及其检测框信息，进而根据检测框的检测框信息，确定待检测视频帧中的主体框；在得到主体后，可以获取并按照客户端播放窗口的尺寸信息，以主体框的中心像素点为裁剪框的中心像素点，根据待检测视频帧的高度和宽度，确定与客户端播放窗口的尺寸信息相适应的裁剪框在待检测视频帧中的位置信息和尺寸信息；然后根据裁剪框在任意两个相邻的待检测视频帧中的位置信息，确定裁剪框在任意两个相邻的待检测视频帧之间的视频帧中的移动轨迹；再根据移动轨迹，确定裁剪框在任意两个相邻的待检测视频帧之间的视频帧上的位置信息；这样，可以确定出裁剪框在每个视频帧中的位置信息，最后，根据裁剪框在各个视频帧中的位置信息和裁剪框的尺寸信息，对待处理视频中的各个视频帧进行裁剪，从而可以得到裁剪后的视频帧。通过本发明实施例，在对横屏视频进行裁剪时，可以依据该横屏视频中的视频内容进行裁剪，从而可以保证将裁剪后的视频帧合成为裁剪后的视频时，该视频中保留重要主体，保证画面呈现的流畅和内容的完整，提高观赏性。

在图2所示的一种视频处理方法的基础上，本发明实施例还提供了一种可能的实现方式，如图3所示，为本发明实施例的一种视频处理方法中第二种实施方式的流程图，该方法可以包括：

S310，对待处理视频进行场景检测，在检测到待处理视频中存在场景切换时，将待处理视频中两个相邻场景中的后一个场景的第一个视频帧作为待检测视频帧。

S320，从待处理视频中抽取待检测视频帧，并对待检测视频帧进行目标检测，得到待检测视频帧中的检测框及其检测框信息；

S330，根据检测框的检测框信息，确定待检测视频帧中的主体框；

S340，获取并按照客户端播放窗口的尺寸信息，以主体框的中心像素点为裁剪框的中心像素点，根据待检测视频帧的高度和宽度，确定与客户端播放窗口的尺寸信息相适应的裁剪框在待检测视频帧中的位置信息和尺寸信息；

S350，根据裁剪框在任意两个相邻的待检测视频帧中的位置信息，确定裁剪框在任意两个相邻的待检测视频帧之间的视频帧中的移动轨迹；

S360，根据移动轨迹，确定裁剪框在任意两个相邻的待检测视频帧之间的视频帧上的位置信息；

S370，根据裁剪框在各个视频帧中的位置信息和裁剪框的尺寸信息，对待处理视频中的各个视频帧进行裁剪，并将裁剪后的对应尺寸的视频帧合成为裁剪后的视频。

在一些示例中，在抽取待检测视频帧时，可以将该待处理视频中的关键视频帧作为待检测视频帧，该关键视频帧通常是角色或者物体运动或变化中的关键动作所处的那一帧。当待处理视频中的场景发生变化时，该发生变化的场景对应的视频帧也可以是关键视频帧，为了避免造成裁剪后的视频中的画面不连续，可以在场景发生变化时，将场景发生变化时两个相邻场景中的后一个场景的第一个视频帧作为待检测视频帧。

在一些示例中，可以对该待处理视频进行场景检测，以便确定上述的待处理视频中是否存在多个场景。

在对该待处理视频进行场景检测时，可以从待处理视频中获取任意两个相邻的第一视频帧和第二视频帧，然后检测第一视频帧和第二视频帧的相似度是否小于或等于预设相似度阈值；如果是，将第一视频帧和第二视频帧作为待检测视频帧，如果否，将第二视频帧作为第一视频帧，并将与第二视频帧相邻的视频帧作为第二视频帧，并执行检测第一视频帧和第二视频帧的相似度是否小于或等于预设相似度阈值的步骤。

在一些示例中，可以通过比对该第一视频帧中的颜色、亮度和/或纹理，与第二视频帧中的颜色、亮度和/或纹理，来确定该第一视频帧与第二视频帧的相似度。

在一些示例中，可以预先设置一个相似度阈值，当该相似度小于或等于该相似度阈值时，则可以说明该两个视频帧为场景发生变化时的视频帧，当该相似度大于该相似度阈值时，则说明该两个视频帧中的场景没有发生变化，不需要将该两个视频帧中的任一个视频帧作为待检测视频帧。

在一些示例中，当该相似度小于或等于该相似度阈值时，该第二视频帧是场景发生变化后的第一个视频帧，则可以将第二视频帧作为待检测视频帧。

在一些示例中，当该相似度大于该相似度阈值时，为了继续寻找待检测视频帧，可以将第二视频帧作为第一视频帧，并将与第二视频帧相邻的视频帧作为第二视频帧。这样，可以实现通过检测第一视频帧和第二视频帧的相似度是否小于或等于预设相似度阈值，确定第二视频帧与第二视频帧的下一视频帧之间的场景是否发生变化，以及是否需要将该第二视频帧的下一视频帧作为待检测视频帧。

在一些示例中，上述的视频处理设备也可以采用将每间隔预定个数视频帧抽取的视频帧和通过场景检测得到的待检测视频帧作为抽取得到的待检测视频帧，例如，每间隔24个视频帧和所有场景发生变换后的第一个视频帧作为抽取得到的待检测视频帧。

在一些示例中，还可以采用其他场景检测算法对待处理视频进行场景检测，这里不再赘述。

应当理解的是，步骤S320～S370可以参考本发明实施例的一种视频处理方法第一种实施方式中的步骤S210～S260，这里不再赘述。

在图2所示的一种视频处理方法的基础上，本发明实施例还提供了一种可能的实现方式，如图4所示，为本发明实施例的一种视频处理方法中第三种实施方式的流程图，该视频处理方法还可以包括：

S410，从待处理视频中抽取待检测视频帧，对待检测视频帧进行目标检测，得到待检测视频帧的检测结果；

S420，在检测结果中未包含目标时，对待检测视频帧进行显著性检测，得到待检测视频帧的显著图；

S430，提取待检测视频帧的显著图中的显著区域，并基于显著区域和待检测视频帧，确定待检测视频帧中的检测框及其检测框信息。

S440，根据检测框的检测框信息，确定待检测视频帧中的主体框；

S450，获取并按照客户端播放窗口的尺寸信息，以主体框的中心像素点为裁剪框的中心像素点，根据待检测视频帧的高度和宽度，确定与客户端播放窗口的尺寸信息相适应的裁剪框在待检测视频帧中的位置信息和尺寸信息；

S460，根据裁剪框在任意两个相邻的待检测视频帧中的位置信息，确定裁剪框在任意两个相邻的待检测视频帧之间的视频帧中的移动轨迹；

S470，根据移动轨迹，确定裁剪框在任意两个相邻的待检测视频帧之间的视频帧上的位置信息；

S480，根据裁剪框在各个视频帧中的位置信息和裁剪框的尺寸信息，对待处理视频中的各个视频帧进行裁剪，并将裁剪后的对应尺寸的视频帧合成为裁剪后的视频。

在一些示例中，在采用目标检测算法对上述的待检测视频帧进行目标检测时，当该待检测视频帧包括人、动物等显著目标时，该目标检测算法可以很好的检测出该待检测视频帧中的目标，然而，当该待检测视频帧为景色的视频帧，不包括人、动物等显著目标时，该目标检测算法可能无法检测出该待检测视频帧中的目标。对此，可以对待检测视频帧进行显著性检测，得到待检测视频帧的显著性检测结果。

在一些示例中，在采用目标检测算法进行检测时，通常该检测结果中会标注有目标的位置以及目标的可能性，当该检测结果中没有标注目标的位置以及目标的可能性时，则可以认为该检测结果中未包含目标。

在一些示例中，在对待检测视频帧进行显著性检测后，可以得到该待检测视频帧的显著图，在一些示例中，该显著图可以是热度图，也可以是灰度图等。

在又一些示例中，在得到该待检测视频帧的显著图后，可以提取该显著图中的显著区域，然后可以基于该显著区域，确定出该待检测视频帧中的检测框。例如，当该待检测视频帧中的显著区域为一个时，可以将包含该显著区域的矩形形状作为该待检测视频帧的检测框。当该待检测视频帧中的显著区域为多个时，可以将包含每个显著区域的矩形形状作为该待检测视频帧的检测框。

在又一些示例中，在得到该待检测视频帧的显著图中的显著区域后，可以将完全包含该显著区域的矩形形状的尺寸信息作为该显著区域的尺寸信息，并且，可以将该矩形形状的中心的位置信息作为该显著区域的位置信息，从而可以确定出该显著图中的显著区域的位置信息和尺寸信息。

然后可以将待检测视频帧中，与该显著区域的位置信息和尺寸信息对应的尺寸信息和位置信息作为检测框信息，将该待检测视频帧中，与该矩形形状对应的矩形形状作为检测框。在一些示例中，该检测框中可以包含该待检测视频帧的部分图像。

通过本发明实施例，可以在目标检测算法无法检测出待检测视频帧中的目标时，采用显著性检测确定该待检测视频帧中的目标，从而可以确定该待检测视频帧中的检测框和检测框信息，从而可以实现采用后续步骤对该待处理视频进行裁剪处理。

应当理解的是，步骤S440～S480可以参考本发明实施例的一种视频处理方法第一种实施方式中的步骤S220～S260，这里不再赘述。

在图2所示的一种视频处理方法的基础上，为了提高确定主体框的准确度，本发明实施例还提供了一种可能的实现方式，如图5所示，为本发明实施例的一种视频处理方法中第四种实施方式的流程图，该视频处理方法可以包括：

S510，从待处理视频中抽取待检测视频帧，并对待检测视频帧进行目标检测，得到待检测视频帧中的检测框及其检测框信息。

S520，针对每个检测框，根据该检测框在待检测视频帧中的位置信息，计算该检测框的中心像素点与待检测视频帧中心像素点的距离。

S530，根据统计得到的该检测框的面积和所有检测框的总面积，计算该检测框的面积占比。

S540，对该检测框的中心像素点与待检测视频帧中心像素点的距离、该检测框的面积占比和该检测框中物体的识别概率信息进行加权处理，得到该检测框的加权值。

在一些示例中，上述的视频处理设备可以检测到多个检测框，为了在该多个检测框中确定出主体框，该视频处理设备可以针对每个检测框，计算该检测框的加权值。

在一些示例中，反应该检测框中的内容重要性的因素可以包括该检测框的位置、该检测框的面积、该检测框中物体的识别概率信息，因此，可以对该三个因素进行加权处理。

在一些示例中，该检测框的中心像素点与待检测视频帧的中心像素点的距离，可以反映出该该检测框的位置的重要性，因此，可以根据该检测框在待检测视频帧中的位置信息，计算该检测框的中心像素点与待检测视频帧中心像素点的距离。与该待检测视频帧中心像素点的距离越小，则说明该检测框中的人物或物体越靠近中心点；与该待检测视频帧中心像素点的距离越大，则说明该检测框中的人物或物体越远离中心点。

在又一些示例中，该检测框占所有检测框纵面的占比越大，则可以说明该检测框越重要，也就是说，该检测框的面积的大小也可以反映出该检测框的重要性，因此，可以根据统计得到的该检测框的面积和所有检测框的总面积，计算该检测框的面积占比。

具体的，上述的视频处理设备可以统计该待检测视频帧中的所有检测框的数量，以及每个检测框的面积，然后可以计算得到所有检测框的总面积，进而可以计算得到该检测框的面积占比。

上述的视频处理设备在得到该检测框的面积占比和该检测框的中心像素点与待检测视频帧中心像素点的距离后，可以对该检测框的中心像素点与待检测视频帧中心像素点的距离、该检测框的面积占比和该检测框中物体的识别概率信息进行加权处理。

在一些示例中，可以将该检测框的中心像素点与待检测视频帧中心像素点的距离的倒数、该检测框的面积占比以及该检测框中物体的识别概率信息直接相加，得到该检测框的加权值。

还可以分别为该检测框的中心像素点与待检测视频帧中心像素点的距离的倒数、该检测框的面积占比以及该检测框中物体的识别概率信息设置对应的系数，然后计算该检测框的中心像素点与待检测视频帧中心像素点的距离的倒数、该检测框的面积占比以及该检测框中物体的识别概率信息分别与对应的系数的乘积，最后相加得到该检测框的加权值。

S550，在所有检测框中，选择加权值最高的检测框为主体框。

上述的视频处理设备在得到该待检测视频帧中的所有检测框的加权值后，可以将加权值最高的检测框作为主体框。

这样，可以充分考虑影响检测框重要性的各个因素，从而可以更准确的确定出主体框，进而可以提高对待处理视频进行裁剪的裁剪效果，提高裁剪后的视频的质量。

S560，获取并按照客户端播放窗口的尺寸信息，以主体框的中心像素点为裁剪框的中心像素点，根据待检测视频帧的高度和宽度，确定与客户端播放窗口的尺寸信息相适应的裁剪框在待检测视频帧中的位置信息和尺寸信息；

S570，根据裁剪框在任意两个相邻的待检测视频帧中的位置信息，确定裁剪框在任意两个相邻的待检测视频帧之间的视频帧中的移动轨迹；

S580，根据移动轨迹，确定裁剪框在任意两个相邻的待检测视频帧之间的视频帧上的位置信息；

S590，根据裁剪框在各个视频帧中的位置信息和裁剪框的尺寸信息，对待处理视频中的各个视频帧进行裁剪，并将裁剪后的对应尺寸的视频帧合成为裁剪后的视频。

应当理解的是，步骤S510、S560～S590可以参考本发明实施例的一种视频处理方法第一种实施方式中的步骤S210、S230～S260，这里不再赘述。

在图5所示的一种视频处理方法的基础上，为了提高确定主体框的准确度，本发明实施例还提供了一种可能的实现方式，如图6所示，为本发明实施例的一种视频处理方法中第五种实施方式的流程图，该视频处理方法还可以包括：

S601，从待处理视频中抽取待检测视频帧，并对待检测视频帧进行目标检测，得到待检测视频帧中的检测框及其检测框信息。

S602，针对每个检测框，根据该检测框在待检测视频帧中的位置信息，计算该检测框的中心像素点与待检测视频帧中心像素点的距离。

S603，根据统计得到的该检测框的面积和所有检测框的总面积，计算该检测框的面积占比。

S604，将待检测视频帧输入预先训练得到的眼动点检测模型中，得到待检测视频帧的眼动点检测图像。

其中，预先训练得到的眼动点检测模型是采用视频帧样本和对应的眼动点图像样本，训练得到的检测模型。

S605，根据检测框在待检测视频帧中的位置信息和检测框的尺寸信息，计算眼动点检测图像中与检测框对应的眼动显著区域的亮度值；

S606，统计眼动点检测图像中，所有眼动显著区域的亮度总值；

S607，针对每个眼动显著区域，计算该眼动显著区域的亮度值在亮度总值中的占比；

S608，对该检测框的中心像素点与待检测视频帧中心像素点的距离、该检测框的面积占比、该检测框中物体的识别概率信息和该检测框对应的眼动显著区域的亮度值在亮度总值中的占比进行加权处理，得到该检测框的加权值。

S609，在所有检测框中，选择加权值最高的检测框为主体框。

S610，获取并按照客户端播放窗口的尺寸信息，以主体框的中心像素点为裁剪框的中心像素点，根据待检测视频帧的高度和宽度，确定与客户端播放窗口的尺寸信息相适应的裁剪框在待检测视频帧中的位置信息和尺寸信息；

S611，根据裁剪框在任意两个相邻的待检测视频帧中的位置信息，确定裁剪框在任意两个相邻的待检测视频帧之间的视频帧中的移动轨迹；

S612，根据移动轨迹，确定裁剪框在任意两个相邻的待检测视频帧之间的视频帧上的位置信息；

S613，根据裁剪框在各个视频帧中的位置信息和裁剪框的尺寸信息，对待处理视频中的各个视频帧进行裁剪，并将裁剪后的对应尺寸的视频帧合成为裁剪后的视频。

在一些示例中，为了进一步提高确定主体框的准确度，本发明实施例的视频处理方法在确定主体框时，还可以结合该待检测视频帧的眼动点检测图像来确定。

在又一些示例中，该眼动点检测图像可以反映出观看视频的用户对同一图像帧中不同物体或人物的感兴趣程度。例如，视频帧的眼动点检测图像中，一个区域的亮度越高，则说明观看该区域的用户越多；一个区域的亮度越低，则说明观看该区域的用户越少。通过观看不同区域的用户的数量的多少，可以确定出不同区域的重要性。

因此，可以将待检测视频帧输入预先训练得到的眼动点检测模型中，得到待检测视频帧的眼动点检测图像。

在一些示例中，该预先训练得到的眼动点检测模型可以是采用深度神经网络的模型，也可以是采用强化学习算法得到的模型。

上述的视频处理设备在得到待检测视频帧的眼动点检测图像后，为了确定每个检测框中的物体或人物的重要性，可以根据检测框在待检测视频帧中的位置信息和检测框的尺寸信息，计算眼动点检测图像中，与检测框对应的眼动显著区域的像素值。

在一些实例中，上述的视频处理设备可以计算该眼动显著区域中，每一列的像素值的总和，然后将每一列的像素值进行求和，可以得到该眼动显著区域的像素值，该眼动显著区域的像素值可以反映对应的检测框的重要性。

通过上述步骤，上述的视频处理设备可以计算得到与每个检测框对应的眼动显著区域的像素值，进而可以计算所有眼动显著区域的像素总值。

在一些示例中，上述的视频处理设备可以在计算得到所有眼动显著区域的像素值的总值后，可以计算每个眼动显著区域的像素值在像素总值中的像素占比。进而可以对该检测框的中心像素点与待检测视频帧中心像素点的距离、该检测框的面积占比、该检测框中物体的识别概率信息和该检测框对应的眼动显著区域的像素占比进行加权处理，得到该检测框的加权值。

这样，结合每个检测框对应的眼动显著区域的像素值，来确定主体框，从而可以进一步提高确定主体框的准确度。

应当理解的是，步骤S601～S603和步骤S609～S613可以参考上述实施例中的步骤S510～S530和S550～S590，这里不再赘述。

在图2所示的一种视频处理方法的基础上，为了提高确定主体框的准确度，本发明实施例还提供了一种可能的实现方式，如图7所示，为本发明实施例的一种视频处理方法中第六种实施方式的流程图，该视频处理方法还可以包括：

S710，从待处理视频中抽取待检测视频帧，并对待检测视频帧进行目标检测，得到待检测视频帧中的检测框及其检测框信息。

S720，对检测框进行人脸检测，在检测框中检测到人脸时，将检测到人脸的检测框确定为待定主体框。

S730，根据待定主体框的检测框信息，确定待检测视频帧中的主体框。

S740，获取并按照客户端播放窗口的尺寸信息，以主体框的中心像素点为裁剪框的中心像素点，根据待检测视频帧的高度和高度，确定与客户端播放窗口的尺寸信息相适应的裁剪框在待检测视频帧中的位置信息和尺寸信息；

S750，根据裁剪框在任意两个相邻的待检测视频帧中的位置信息，确定裁剪框在任意两个相邻的待检测视频帧之间的视频帧中的移动轨迹；

S760，根据移动轨迹，确定裁剪框在任意两个相邻的待检测视频帧之间的视频帧上的位置信息；

S770，根据裁剪框在各个视频帧中的位置信息和裁剪框的尺寸信息，对待处理视频中的各个视频帧进行裁剪，并将裁剪后的对应尺寸的视频帧合成为裁剪后的视频。

在一些示例中，在对待检测视频帧进行目标检测时，可以得到包含有物体的检测框，也可以得到包含有人物的人脸的检测框。当待检测视频帧中同时存在包含有物体的检测框和包含于人物的人脸的检测框时，则人物的重要性大于物体的重要性，因此，可以对检测框进行人脸检测，以检测是否存在人物。

当检测到一个检测框中存在人脸时，可以将检测到人脸的该检测框作为主体框。当检测到多个检测框中均存在人脸时，为了从该存在人脸的多个检测框中确定出主体框，可以将检测到人脸的检测框确定为待定主体框，然后根据该待定主体框的检测框信息，从该检测到人脸的多个检测框中，确定出主体框。

在一些示例中，在确定出主体框后，在确定裁剪框在该待检测视频帧中的位置信息时，可以将该裁剪框包含有该人脸时的位置信息，确定为该裁剪框在该待检测视频帧中的位置信息，从而可以实现对第一种实施方式中确定出的裁剪框在该待检测视频帧中的位置信息的修正。

应当理解的是，步骤S710、S740～S770可以参考上述实施例中的步骤S210、S230～S260，这里不再赘述。

在图7所示的一种视频处理方法的基础上，为了提高确定主体框的准确度，本发明实施例还提供了一种可能的实现方式，如图8所示，为本发明实施例的一种视频处理方法中第七种实施方式的流程图，该视频处理方法还可以包括：

S810，从待处理视频中抽取待检测视频帧，并对待检测视频帧进行目标检测，得到待检测视频帧中的检测框及其检测框信息。

S820，对检测框进行人脸检测，在检测框中检测到人脸时，将检测到人脸的检测框确定为待定主体框。

S830，获取第一音频信息。

其中，第一音频信息为预先分段得到的多段音频信息中的音频信息，且第一音频信息在待处理视频中的时间段，包含待检测视频帧在待处理视频中的播放时刻，多段音频信息是基于音频特征进行分段得到的；

S840，提取待定主体框中的唇部特征，对第一音频信息和唇部特征进行特征匹配，得到待定主体框的匹配结果；

S850，根据待定主体框的检测框信息和待定主体框的匹配结果，确定待检测视频帧中的主体框。

S860，获取并按照客户端播放窗口的尺寸信息，以主体框的中心像素点为裁剪框的中心像素点，根据待检测视频帧的高度和高度，确定与客户端播放窗口的尺寸信息相适应的裁剪框在待检测视频帧中的位置信息和尺寸信息；

S870，根据裁剪框在任意两个相邻的待检测视频帧中的位置信息，确定裁剪框在任意两个相邻的待检测视频帧之间的视频帧中的移动轨迹；

S880，根据移动轨迹，确定裁剪框在任意两个相邻的待检测视频帧之间的视频帧上的位置信息。

S890，根据裁剪框在各个视频帧中的位置信息和裁剪框的尺寸信息，对待处理视频中的各个视频帧进行裁剪，并将裁剪后的对应尺寸的视频帧合成为裁剪后的视频。

在一些示例中，当同时存在至少两个检测框信息相同的待定主体框时，第五种实施方式中的方法，无法确定出主体框，对此，可以结合说话人来确定主体框，也就是说，将包含有说话人的检测框确定为主体框。

在一些示例中，上述的视频处理设备可以先提取具有相同检测框信息的待定主体框中的唇部特征。然后，获取第一音频信息，然后对该第一音频信息和唇部特征进行特征匹配。

在一些示例中，第一音频信息为预先分段得到的多段音频信息中的音频信息，且第一音频信息在待处理视频中的时间段，包含待检测视频帧在待处理视频中的播放时刻，进一步的，该多段音频信息是基于音频特征进行分段得到的，也就是说，该多段音频信息可以是不同的说话人说话的音频信息。当该待定主体框中的唇部特征与该第一音频信息匹配时，则可以说明该待定主体框中的人脸是该第一音频信息对应的人。则可以将该待定主体框作为主体框。因此，可以通过特征匹配，确定出与该第一音频信息特征相匹配的唇部特征，进而可以确定出包含有说话人的检测框，从而可以实现将包含有说话人的检测框确定为主体框。

在一些示例中，该多段音频信息是基于音频信息的音色特征进行分段得到的。还可以是基于音频信息对应的语句进行分段得到的。

应当理解的是，步骤S810～S820、S860～S890可以参考上述实施例中的步骤S710～S720、S740～S770，这里不再赘述。

相应于上述的方法实施例，本发明实施例还提供了一种视频处理装置，如图9所示，为本发明实施例的一种视频处理装置的结构示意图，该装置可以包括：

目标检测模块910，用于从待处理视频中抽取待检测视频帧，并对待检测视频帧进行目标检测，得到待检测视频帧中的检测框及其检测框信息；

主体框确定模块920，用于根据检测框的检测框信息，确定待检测视频帧中的主体框；

第一裁剪框信息确定模块930，用于获取并按照客户端播放窗口的尺寸信息，以主体框的中心像素点为裁剪框的中心像素点，根据待检测视频帧的高度和宽度，确定与客户端播放窗口的尺寸信息相适应的裁剪框在待检测视频帧中的位置信息和尺寸信息；

移动轨迹确定模块940，用于根据裁剪框在任意两个相邻的待检测视频帧中的位置信息，确定裁剪框在任意两个相邻的待检测视频帧之间的视频帧中的移动轨迹；

第二裁剪框信息确定模块950，用于根据移动轨迹，确定裁剪框在任意两个相邻的待检测视频帧之间的视频帧上的位置信息；

视频裁剪模块960，用于根据裁剪框在各个视频帧中的位置信息和裁剪框的尺寸信息，对待处理视频中的各个视频帧进行裁剪，并将裁剪后的对应尺寸的视频帧合成为裁剪后的视频。

本发明实施例提供的一种视频处理设备，在对待处理视频进行裁剪时，可以首先从待处理视频中抽取待检测视频帧，并对待检测视频帧进行目标检测，得到待检测视频帧中的检测框及其检测框信息，进而根据检测框的检测框信息，确定待检测视频帧中的主体框；在得到主体后，可以获取并按照客户端播放窗口的尺寸信息，以主体框的中心像素点为裁剪框的中心像素点，根据待检测视频帧的高度和宽度，确定与客户端播放窗口的尺寸信息相适应的裁剪框在待检测视频帧中的位置信息和尺寸信息；然后根据裁剪框在任意两个相邻的待检测视频帧中的位置信息，确定裁剪框在任意两个相邻的待检测视频帧之间的视频帧中的移动轨迹；再根据移动轨迹，确定裁剪框在任意两个相邻的待检测视频帧之间的视频帧上的位置信息；这样，可以确定出裁剪框在每个视频帧中的位置信息，最后，根据裁剪框在各个视频帧中的位置信息和裁剪框的尺寸信息，对待处理视频中的各个视频帧进行裁剪，从而可以得到裁剪后的视频帧。通过本发明实施例，在对横屏视频进行裁剪时，可以依据该横屏视频中的视频内容进行裁剪，从而可以保证将裁剪后的视频帧合成为裁剪后的视频时，该视频中保留重要主体，保证画面呈现的流畅和内容的完整，提高观赏性。

在一些示例中，该视频处理装置，还可以包括：

场景检测模块，用于对待处理视频进行场景检测，在检测到待处理视频中存在场景切换时，将待处理视频中两个相邻场景中的后一个场景的第一个视频帧作为待检测视频帧。

在一些示例中，目标检测模块910，可以包括：

目标检测子模块，用于对待检测视频帧进行目标检测，得到待检测视频帧的检测结果；

显著性检测子模块，用于在检测结果中未包含目标时，对待检测视频帧进行显著性检测，得到待检测视频帧的显著图；

检测框信息确定模块，用于提取待检测视频帧的显著图中的显著区域，并基于显著区域和待检测视频帧，确定待检测视频帧中的检测框及其检测框信息。

在一些示例中，主体框确定模块920，包括：

距离计算子模块，用于针对每个检测框，根据该检测框在待检测视频帧中的位置信息，计算该检测框的中心像素点与待检测视频帧中心像素点的距离；

面积占比计算子模块，用于根据统计得到的该检测框的面积和所有检测框的总面积，计算该检测框的面积占比；

加权值计算子模块，用于对该检测框的中心像素点与待检测视频帧中心像素点的距离、该检测框的面积占比和该检测框中物体的识别概率信息进行加权处理，得到该检测框的加权值；

主体框确定子模块，用于在所有检测框中，选择加权值最高的检测框为主体框。

在一些示例中，该视频处理装置，还包括：

眼动点检测图像获取模块，用于将待检测视频帧输入预先训练得到的眼动点检测模型中，得到待检测视频帧的眼动点检测图像，其中，预先训练得到的眼动点检测模型是采用视频帧样本和对应的眼动点图像样本，训练得到的检测模型；

眼动显著区域亮度值计算模块，用于根据检测框在待检测视频帧中的位置信息和检测框的尺寸信息，计算眼动点检测图像中与检测框对应的眼动显著区域的亮度值；

亮度总值计算模块，用于统计眼动点检测图像中，所有眼动显著区域的亮度总值；

亮度值占比计算模块，用于针对每个眼动显著区域，计算该眼动显著区域的亮度值在亮度总值中的占比；

加权值计算子模块，还用于：

对该检测框的中心像素点与待检测视频帧中心像素点的距离、该检测框的面积占比、该检测框中物体的识别概率信息和该检测框对应的眼动显著区域的亮度值在亮度总值中的占比进行加权处理，得到该检测框的加权值。

在一些示例中，该视频处理装置，还包括：

待定主体框确定模块，用于对检测框进行人脸检测，在检测框中检测到人脸时，将检测到人脸的检测框确定为待定主体框；

主体框确定模块920，还用于：

根据待定主体框的检测框信息，确定待检测视频帧中的主体框。

在一些示例中，该视频处理装置，还包括：

音频信息获取模块，用于获取第一音频信息，其中，第一音频信息为预先分段得到的多段音频信息中的音频信息，且第一音频信息在待处理视频中的时间段，包含待检测视频帧在待处理视频中的播放时刻，多段音频信息是基于音频特征进行分段得到的；

特征匹配模块，用于提取待定主体框中的唇部特征，对第一音频信息和唇部特征进行特征匹配，得到待定主体框的匹配结果；

主体框确定模块920，还用于：

根据待定主体框的检测框信息和待定主体框的匹配结果，确定待检测视频帧中的主体框。

在一些示例中，移动轨迹确定模块940，具体用于：

当任意两个相邻的待检测视频帧中裁剪框的位置信息之间的差值小于预设距离阈值时，根据任意两个相邻的待检测视频帧中裁剪框的位置信息之间的差值，和任意两个相邻的待检测视频帧之间的视频帧的数量，确定裁剪框在任意两个相邻的待检测视频帧之间的视频帧中的移动方向和移动速度；

当任意两个相邻的待检测视频帧中裁剪框的位置信息之间的差值大于或等于预设距离阈值时，将任意两个相邻的待检测视频帧中的前一个视频帧中裁剪框的位置信息，作为裁剪框在任意两个相邻的待检测视频帧之间的视频帧中的位置信息，其中，前一个视频帧为按照待处理视频的播放顺序，先播放的待检测视频帧。

本发明实施例还提供了一种电子设备，如图10所示，包括处理器1001、通信接口1002、存储器1003和通信总线1004，其中，处理器1001，通信接口1002，存储器1003通过通信总线1004完成相互间的通信，

存储器1003，用于存放计算机程序；

处理器1001，用于执行存储器1003上所存放的程序时，实现如下步骤：

根据检测框的检测框信息，确定待检测视频帧中的主体框；

本发明实施例提供的一种电子设备，在对待处理视频进行裁剪时，可以首先从待处理视频中抽取待检测视频帧，并对待检测视频帧进行目标检测，得到待检测视频帧中的检测框及其检测框信息，进而根据检测框的检测框信息，确定待检测视频帧中的主体框；在得到主体后，可以获取并按照客户端播放窗口的尺寸信息，以主体框的中心像素点为裁剪框的中心像素点，根据待检测视频帧的高度和宽度，确定与客户端播放窗口的尺寸信息相适应的裁剪框在待检测视频帧中的位置信息和尺寸信息；然后根据裁剪框在任意两个相邻的待检测视频帧中的位置信息，确定裁剪框在任意两个相邻的待检测视频帧之间的视频帧中的移动轨迹；再根据移动轨迹，确定裁剪框在任意两个相邻的待检测视频帧之间的视频帧上的位置信息；这样，可以确定出裁剪框在每个视频帧中的位置信息，最后，根据裁剪框在各个视频帧中的位置信息和裁剪框的尺寸信息，对待处理视频中的各个视频帧进行裁剪，从而可以得到裁剪后的视频帧。通过本发明实施例，在对横屏视频进行裁剪时，可以依据该横屏视频中的视频内容进行裁剪，从而可以保证将裁剪后的视频帧合成为裁剪后的视频时，该视频中保留重要主体，保证画面呈现的流畅和内容的完整，提高观赏性。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。在一些示例中，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的视频处理方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的视频处理方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

从待处理视频中抽取待检测视频帧，并对所述待检测视频帧进行目标检测，得到所述待检测视频帧中的检测框及其检测框信息；

根据所述检测框的检测框信息，确定所述待检测视频帧中的主体框；

获取并按照客户端播放窗口的尺寸信息，以所述主体框的中心像素点为裁剪框的中心像素点，根据所述待检测视频帧的高度和宽度，确定与所述客户端播放窗口的尺寸信息相适应的裁剪框在所述待检测视频帧中的位置信息和尺寸信息；

根据所述裁剪框在任意两个相邻的待检测视频帧中的位置信息，确定所述裁剪框在所述任意两个相邻的待检测视频帧之间的视频帧中的移动轨迹；

根据所述移动轨迹，确定所述裁剪框在所述任意两个相邻的待检测视频帧之间的视频帧上的位置信息；

根据所述裁剪框在各个视频帧中的位置信息和所述裁剪框的尺寸信息，对所述待处理视频中的各个视频帧进行裁剪，并将裁剪后的对应尺寸的视频帧合成为裁剪后的视频。

2.根据权利要求1所述的方法，其特征在于，在所述从待处理视频中抽取待检测视频帧之前，所述方法还包括：

对待处理视频进行场景检测，在检测到所述待处理视频中存在场景切换时，将所述待处理视频中两个相邻场景中的后一个场景的第一个视频帧作为所述待检测视频帧。

3.根据权利要求1或2所述的方法，其特征在于，所述对所述待检测视频帧进行目标检测，得到所述待检测视频帧中的检测框及其检测框信息，包括：

对所述待检测视频帧进行目标检测，得到所述待检测视频帧的检测结果；

在所述检测结果中未包含目标时，对所述待检测视频帧进行显著性检测，得到所述待检测视频帧的显著图；

提取所述待检测视频帧的显著图中的显著区域，并基于所述显著区域和所述待检测视频帧，确定所述待检测视频帧中的检测框及其检测框信息。

4.根据权利要求1或2所述的方法，其特征在于，所述根据所述检测框的检测框信息，确定所述待检测视频帧中的主体框，包括：

针对每个所述检测框，根据该检测框在所述待检测视频帧中的位置信息，计算该检测框的中心像素点与所述待检测视频帧中心像素点的距离；

根据统计得到的该检测框的面积和所有检测框的总面积，计算该检测框的面积占比；

对该检测框的中心像素点与所述待检测视频帧中心像素点的距离、该检测框的面积占比和该检测框中物体的识别概率信息进行加权处理，得到该检测框的加权值；

在所有检测框中，选择加权值最高的检测框为所述主体框。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

将所述待检测视频帧输入预先训练得到的眼动点检测模型中，得到所述待检测视频帧的眼动点检测图像，其中，所述预先训练得到的眼动点检测模型是采用视频帧样本和对应的眼动点图像样本，训练得到的检测模型；

根据所述检测框在所述待检测视频帧中的位置信息和所述检测框的尺寸信息，计算所述眼动点检测图像中与所述检测框对应的眼动显著区域的亮度值；

统计所述眼动点检测图像中，所有眼动显著区域的亮度总值；

针对每个眼动显著区域，计算该眼动显著区域的亮度值在所述亮度总值中的占比；

所述对该检测框的中心像素点与所述待检测视频帧中心像素点的距离、该检测框的面积占比和该检测框中物体的识别概率信息进行加权处理，得到该检测框的加权值，包括：

对该检测框的中心像素点与所述待检测视频帧中心像素点的距离、该检测框的面积占比、该检测框中物体的识别概率信息和该检测框对应的眼动显著区域的亮度值在所述亮度总值中的占比进行加权处理，得到该检测框的加权值。

6.根据权利要求1或2所述的方法，其特征在于，在所述对所述待检测视频帧进行目标检测，得到所述待检测视频帧中的检测框及其检测框信息之后，所述方法还包括：

对所述检测框进行人脸检测，在所述检测框中检测到人脸时，将检测到人脸的检测框确定为待定主体框；

所述根据所述检测框的检测框信息，确定所述待检测视频帧中的主体框，包括：

根据所述待定主体框的检测框信息，确定所述待检测视频帧中的主体框。

7.根据权利要求6所述的方法，其特征在于，在所述对所述检测框进行人脸检测，在所述检测框中检测到人脸时，将检测到人脸的检测框确定为待定主体框之后，所述方法还包括：

获取第一音频信息，其中，所述第一音频信息为预先分段得到的多段音频信息中的音频信息，且所述第一音频信息在所述待处理视频中的时间段，包含所述待检测视频帧在所述待处理视频中的播放时刻，所述多段音频信息是基于音频特征进行分段得到的；

提取所述待定主体框中的唇部特征，对所述第一音频信息和所述唇部特征进行特征匹配，得到所述待定主体框的匹配结果；

所述根据所述待定主体框的检测框信息，确定所述待检测视频帧中的主体框，包括：

根据所述待定主体框的检测框信息和所述待定主体框的匹配结果，确定所述待检测视频帧中的主体框。

8.根据权利要求1或2所述的方法，其特征在于，所述根据所述裁剪框在任意两个相邻的待检测视频帧中的位置信息，确定所述裁剪框在所述任意两个相邻的待检测视频帧之间的视频帧中的移动轨迹，包括：

当所述任意两个相邻的待检测视频帧中所述裁剪框的位置信息之间的差值小于预设距离阈值时，根据所述任意两个相邻的待检测视频帧中所述裁剪框的位置信息之间的差值，和所述任意两个相邻的待检测视频帧之间的视频帧的数量，确定所述裁剪框在所述任意两个相邻的待检测视频帧之间的视频帧中的移动方向和移动速度；

当所述任意两个相邻的待检测视频帧中所述裁剪框的位置信息之间的差值大于或等于预设距离阈值时，将所述任意两个相邻的待检测视频帧中的前一个视频帧中裁剪框的位置信息，作为所述裁剪框在所述任意两个相邻的待检测视频帧之间的视频帧中的位置信息，其中，所述前一个视频帧为按照所述待处理视频的播放顺序，先播放的待检测视频帧。

9.一种视频处理装置，其特征在于，所述装置包括：

目标检测模块，用于从待处理视频中抽取待检测视频帧，并对所述待检测视频帧进行目标检测，得到所述待检测视频帧中的检测框及其检测框信息；

主体框确定模块，用于根据所述检测框的检测框信息，确定所述待检测视频帧中的主体框；

第一裁剪框信息确定模块，用于获取并按照客户端播放窗口的尺寸信息，以所述主体框的中心像素点为裁剪框的中心像素点，根据所述待检测视频帧的高度和宽度，确定与所述客户端播放窗口的尺寸信息相适应的裁剪框在所述待检测视频帧中的位置信息和尺寸信息；

移动轨迹确定模块，用于根据所述裁剪框在任意两个相邻的待检测视频帧中的位置信息，确定所述裁剪框在所述任意两个相邻的待检测视频帧之间的视频帧中的移动轨迹；

第二裁剪框信息确定模块，用于根据所述移动轨迹，确定所述裁剪框在所述任意两个相邻的待检测视频帧之间的视频帧上的位置信息；

视频裁剪模块，用于根据所述裁剪框在各个视频帧中的位置信息和所述裁剪框的尺寸信息，对所述待处理视频中的各个视频帧进行裁剪，并将裁剪后的对应尺寸的视频帧合成为裁剪后的视频。

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

场景检测模块，用于对待处理视频进行场景检测，在检测到所述待处理视频中存在场景切换时，将所述待处理视频中两个相邻场景中的后一个场景的第一个视频帧作为所述待检测视频帧。

11.根据权利要求9或10所述的装置，其特征在于，所述目标检测模块，包括：

目标检测子模块，用于对所述待检测视频帧进行目标检测，得到所述待检测视频帧的检测结果；

显著性检测子模块，用于在所述检测结果中未包含目标时，对所述待检测视频帧进行显著性检测，得到所述待检测视频帧的显著图；

检测框信息确定模块，用于提取所述待检测视频帧的显著图中的显著区域，并基于所述显著区域和所述待检测视频帧，确定所述待检测视频帧中的检测框及其检测框信息。

12.根据权利要求9或10所述的装置，其特征在于，所述主体框确定模块，包括：

距离计算子模块，用于针对每个所述检测框，根据该检测框在所述待检测视频帧中的位置信息，计算该检测框的中心像素点与所述待检测视频帧中心像素点的距离；

加权值计算子模块，用于对该检测框的中心像素点与所述待检测视频帧中心像素点的距离、该检测框的面积占比和该检测框中物体的识别概率信息进行加权处理，得到该检测框的加权值；

主体框确定子模块，用于在所有检测框中，选择加权值最高的检测框为所述主体框。

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

眼动点检测图像获取模块，用于将所述待检测视频帧输入预先训练得到的眼动点检测模型中，得到所述待检测视频帧的眼动点检测图像，其中，所述预先训练得到的眼动点检测模型是采用视频帧样本和对应的眼动点图像样本，训练得到的检测模型；

眼动显著区域亮度值计算模块，用于根据所述检测框在所述待检测视频帧中的位置信息和所述检测框的尺寸信息，计算所述眼动点检测图像中与所述检测框对应的眼动显著区域的亮度值；

亮度总值计算模块，用于统计所述眼动点检测图像中，所有眼动显著区域的亮度总值；

亮度值占比计算模块，用于针对每个眼动显著区域，计算该眼动显著区域的亮度值在所述亮度总值中的占比；

所述加权值计算子模块，还用于：

14.根据权利要求9或10所述的装置，其特征在于，所述装置还包括：

待定主体框确定模块，用于对所述检测框进行人脸检测，在所述检测框中检测到人脸时，将检测到人脸的检测框确定为待定主体框；

所述主体框确定模块，还用于：

15.根据权利要求14所述的装置，其特征在于，所述装置还包括：

音频信息获取模块，用于获取第一音频信息，其中，所述第一音频信息为预先分段得到的多段音频信息中的音频信息，且所述第一音频信息在所述待处理视频中的时间段，包含所述待检测视频帧在所述待处理视频中的播放时刻，所述多段音频信息是基于音频特征进行分段得到的；

特征匹配模块，用于提取所述待定主体框中的唇部特征，对所述第一音频信息和所述唇部特征进行特征匹配，得到所述待定主体框的匹配结果；

所述主体框确定模块，还用于：

16.根据权利要求9或10所述的装置，其特征在于，所述移动轨迹确定模块，具体用于：

17.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-8任一所述的方法步骤。