CN111356016B

CN111356016B - 视频处理方法、视频处理装置及存储介质

Info

Publication number: CN111356016B
Application number: CN202010165769.4A
Authority: CN
Inventors: 胡佳高; 刘昶忻; 王飞; 余鹏飞
Original assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Shanghai Xuanjie Technology Co ltd
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2022-04-22
Anticipated expiration: 2040-03-11
Also published as: EP3879530B1; JP7062036B2; JP2021145322A; EP3879530A1; US20210287009A1; US11488383B2; KR102301447B1; CN111356016A

Abstract

本公开是关于一种视频处理方法、视频处理装置及存储介质。视频处理方法包括：在具有第一宽高比的源视频中提取多个视频帧；对所述多个视频帧中的每一视频帧分别进行多次裁剪，以生成具有第二宽高比的多个候选裁剪框；对所述多个视频帧中每一视频帧的多个候选裁剪框分别确定评分，所述评分表征所述视频帧以每一候选裁剪框为裁剪范围时的播放效果，并基于所述评分在所述多个候选裁剪框中选择出每一视频帧的裁剪框；对每一视频帧使用选择出的所述裁剪框进行裁剪，并生成具有所述第二宽高比的目标视频。通过本公开，能够实现将源视频按照目标宽高比输出，并能保证输出内容的播放效果。

Description

视频处理方法、视频处理装置及存储介质

技术领域

本公开涉及图像视频处理技术领域，尤其涉及一种视频处理方法、视频处理装置及存储介质。

背景技术

源视频的宽高比和视频当前播放设备显示器的宽高比会出现不一致的情形。例如，用户拍摄、网上下载等来源的视频通常有多种宽高比，而用户的播放设备的显示器也有多种宽高比。若源视频的宽高比和目标显示器的宽高比不一致，在目标显示器上播放视频时(如在宽高比为16:9的目标显示器上播放宽高比为4:3的视频)，显示器的两侧将出现大块黑幕。

相关技术中，为使源视频播放的宽高比与播放设备显示器的宽高比相匹配，使视频画面填满显示器以提供更好的用户体验，通常需要对视频画面进行缩放或裁剪。

发明内容

为克服相关技术中存在的问题，本公开提供一种视频处理方法、视频处理装置及存储介质。

根据本公开实施例的第一方面，提供一种视频处理方法，包括：

在具有第一宽高比的源视频中提取多个视频帧；对所述多个视频帧中的每一视频帧分别进行多次裁剪，以生成具有第二宽高比的多个候选裁剪框；对所述多个视频帧中每一视频帧的多个候选裁剪框分别确定评分，所述评分表征所述视频帧以每一候选裁剪框为裁剪范围时的播放效果，并基于所述评分在所述多个候选裁剪框中选择出每一视频帧的裁剪框；对每一视频帧使用选择出的所述裁剪框进行裁剪，并生成具有所述第二宽高比的目标视频。

一种实施方式中，对所述候选裁剪框确定评分，包括：

对所述候选裁剪框内的图像内容进行美学打分，得到所述候选裁剪框的评分。

另一种实施方式中，对所述候选裁剪框确定评分，包括：

针对所述候选裁剪框中的每一像素进行显著性目标检测，并基于显著性目标检测结果确定每一像素的像素评分；根据所述候选裁剪框中各像素的像素评分，确定所述候选裁剪框的评分。

又一种实施方式中，基于所述评分在所述多个候选裁剪框中选择出每一视频帧的裁剪框，包括：

针对所述多个视频帧中的每一视频帧，基于每两个候选裁剪框之间的位置，构建状态转移矩阵，所述状态转移矩阵用于对每一视频帧所选择的候选裁剪框在相邻各帧间的抖动进行平滑控制；基于最大目标函数，利用所述状态转移矩阵以及各候选裁剪框的评分，确定满足最大裁剪框评分的裁剪框序列，所述裁剪框序列中包括每一视频帧中所选择的候选裁剪框。

又一种实施方式中，基于每两个候选裁剪框之间的位置，构建状态转移矩阵，包括：

基于每两个候选裁剪框之间的交并比以及系数乘子，构建状态转移矩阵，所述系数乘子用于控制平滑程度大小。

基于每相邻两个候选裁剪框的中心位置之间的欧式距离、候选裁剪框的面积，以及系数乘子，构建状态转移矩阵，所述系数乘子用于控制平滑程度大小。

又一种实施方式中，选择出每一视频帧的裁剪框之后，所述方法还包括：

将所述源视频划分为相邻各帧间所选择的裁剪框位置与大小不变的多个视频段；基于相邻两个视频段的中间时间点以及相邻两个视频段中裁剪框之间的距离，确定裁剪框在所述相邻两个视频段中将要移动的速度；基于所述速度以及播放时间，调整所述相邻两个视频段中裁剪框的位置。

又一种实施方式中，所述多个视频段的总数为K，其中K为大于1的正整数；

基于所述速度以及播放时间，调整所述相邻两个视频段中裁剪框的位置，包括：

针对第1视频段，若播放时间小于第1视频段中间时间点，则保持第1视频段中裁剪框位置不变；针对第k视频段和第k+1视频段，若播放时间大于等于第k视频段中间时间点且小于第k+1视频段中间时间点，则调整所述第k视频段中的裁剪框移动第一距离，所述第一距离为第一速度与第一时间的乘积，其中，所述第一速度为裁剪框从第k视频段移动到第k+1视频段的速度，所述第一时间为当前时间和第k视频段中间时间点之差，其中，k是满足以下条件的正整数：1＜k＜K-1；针对第K视频段，若播放时间大于第K视频段中间时间点，则保持第K视频段中裁剪框位置不变。

根据本公开实施例的第二方面，提供一种视频处理装置，包括：

提取单元，用于在具有第一宽高比的源视频中提取多个视频帧；裁剪单元，用于对所述多个视频帧中的每一视频帧分别进行多次裁剪，以生成具有第二宽高比的多个候选裁剪框；评分单元，用于对所述多个视频帧中每一视频帧的多个候选裁剪框分别确定评分，所述评分表征所述视频帧以每一候选裁剪框为裁剪范围时的播放效果；选择单元，用于基于所述评分在所述多个候选裁剪框中选择出每一视频帧的裁剪框；生成单元，用于对每一视频帧使用选择出的所述裁剪框进行裁剪，并生成具有所述第二宽高比的目标视频。

一种实施方式中，所述评分单元用于采用如下方式对所述候选裁剪框确定评分：

另一种实施方式中，所述评分单元用于采用如下方式对所述候选裁剪框确定评分：

又一种实施方式中，所述选择单元采用如下方式基于所述评分在所述多个候选裁剪框中选择出每一视频帧的裁剪框：

又一种实施方式中，所述选择单元采用如下方式基于每两个候选裁剪框之间的位置，构建状态转移矩阵：

又一种实施方式中，所述装置还包括调整单元，所述调整单元用于：

在所述选择单元选择出每一视频帧的裁剪框之后，将所述源视频划分为相邻各帧间所选择的裁剪框位置与大小不变的多个视频段；基于相邻两个视频段的中间时间点以及相邻两个视频段中裁剪框之间的距离，确定裁剪框在所述相邻两个视频段中将要移动的速度；基于所述速度以及播放时间，调整所述相邻两个视频段中裁剪框的位置。

所述调整单元采用如下方式基于所述速度以及播放时间，调整所述相邻两个视频段中裁剪框的位置：

根据本公开实施例第三方面，提供一种视频处理装置，包括：

处理器；用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行第一方面或者第一方面任意一种实施方式中所述的视频处理方法。

根据本公开实施例第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行第一方面或者第一方面任意一种实施方式中所述的视频处理方法。

本公开的实施例提供的技术方案可以包括以下有益效果：通过源视频中提取的多个视频帧中的每一视频帧分别进行多次裁剪生成具有第二宽高比的多个候选裁剪框，并基于候选裁剪框播放效果的评分选择出裁剪框，最终利用裁剪框裁剪视频帧生成具有所述第二宽高比的目标视频，能够实现将源视频按照目标宽高比输出，并能保证输出内容的播放效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种视频处理方法的流程图。

图2是根据一示例性实施例示出的一种基于评分在多个候选裁剪框中选择出每一视频帧的裁剪框实现帧间平滑控制的流程示意图。

图3是根据一示例性实施例示出的一种裁剪框位置调整方法流程图。

图4是根据一示例性实施例示出的一种视频处理装置的框图。

图5是根据一示例性实施例示出的一种用于视频处理的装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

相关技术中，为使源视频播放的宽高比与播放设备显示器的宽高比相匹配，使视频画面填满显示器以提供更好的用户体验，通常需要对视频画面进行缩放或裁剪。其中，对视频画面缩放的一种方案中，直接将源视频缩放到目标宽高比，由于源视频宽高比与目标宽高比不一致，这样视频横向与纵向的缩放因子必然不同，这将导致画面一定程度的拉伸或压缩，在两者宽高比差别较大时更为明显，较为影响观感。另一种方案中，尝试进行内容敏感的缩放，先检测并抠出视频中的重要物体/内容，然后将其贴回缩放到目标宽高比的背景上。但是，整个过程中涉及重要物体检测、图像修复、缩放及图像合成等多项操作，计算复杂度较大。对视频画面裁剪的方案中，一种通用的方式是采用保留视频画面中心的中心裁剪方法，并实时地将源视频输出到目标显示器上，实现“满屏播放”。整个实施过程中没有对内容进行纵横方向的不等比缩放，其显示的所有内容包括背景都不会出现拉伸或压缩。但裁掉视频两端多余内容，仅保留视频中央位置的做法难以确保不丢失视频中的关键内容，更无法保持裁剪出画面的美感。

有鉴于此，本公开实施例提供一种视频处理方法，结合固定区域裁剪和内容敏感区域进行视频处理，实现将源视频按照目标宽高比输出，并能保证输出内容的播放效果。

一种方式中，本公开实施例在源视频中提取多个视频帧，并对提取的多个视频帧中的每一视频帧分别进行多次裁剪生成具有目标宽高比的多个候选裁剪框，并基于候选裁剪框播放效果的评分选择出裁剪框，最终利用裁剪框裁剪视频帧生成具有目标宽高比的目标视频，实现将源视频按照目标宽高比输出，并能保证输出内容的播放效果。

图1是根据一示例性实施例示出的一种视频处理方法的流程图，如图1所示，视频处理方法包括以下步骤。

在步骤S11中，在具有第一宽高比的源视频中提取多个视频帧。

本公开实施例中，源视频可以理解为是待进行处理的视频，并具有一定的宽高比。为描述方便，将源视频的宽高比称为第一宽高比。

本公开实施例中，在具有第一宽高比的源视频中提取多个视频帧，以转换为图像进行后续裁剪处理。其中，在源视频中提取多个视频帧时，可以提取源视频中的所有视频帧，也可以等间隔的进行稀疏提取视频帧。

本公开实施例中将提取的多个视频帧的数量记为N，N为正整数。

在步骤S12中，对多个视频帧中的每一视频帧分别进行多次裁剪，以生成具有第二宽高比的多个候选裁剪框。

本公开实施例中，可以在视频完整幅面上，利用滑动窗口的方式以固定的步长生成具有目标宽高比的矩形框，作为候选裁剪框。其中，为描述方便，将目标宽高比称为第二宽高比。

本公开实施例中，将对每一视频帧进行多次裁剪后生成的多个候选裁剪框的数量记为M。其中，M为正整数。

其中，本公开实施例中，候选裁剪框的数量可以根据实际需求进行设定。其中，为了降低候选裁剪框的数量，且避免大量内容被裁剪丢掉，可以限制滑动窗口的大小大于或等于设定的阈值。

在步骤S13中，对多个视频帧中每一视频帧的多个候选裁剪框分别确定评分，评分表征视频帧以每一候选裁剪框为裁剪范围时的播放效果。

本公开实施例中，为实现内容敏感区域的确定，可以对以每一候选裁剪框为裁剪范围时的播放效果进行评分。通过评分的高低表征视频帧以每一候选裁剪框为裁剪范围时的播放效果。

本公开实施例一种实施方式中，可以对每一视频帧中的所有候选裁剪框的评分进行调整，以在每一视频帧中存在出裁剪框。一示例中，本公开实施例可以利用softmax函数，将每一视频帧中的所有候选裁剪框的评分调整为和为1，进而可以通过每一候选裁剪框权重评分高低表征视频帧以每一候选裁剪框为裁剪范围时的播放效果。

本公开实施例中，可以将第n帧的第m个候选裁剪框的评分记为S_n,m。其中，n为大于等于1，且小于等于N的正整数。m为大于等于1，且小于等于M的正整数。

在步骤S14中，基于评分在多个候选裁剪框中选择出每一视频帧的裁剪框。

在步骤S15中，对每一视频帧使用选择出的裁剪框进行裁剪，并生成具有第二宽高比的目标视频。

本公开实施例中，通过在具有第一宽高比的源视频中提取的多个视频帧中的每一视频帧分别进行多次裁剪生成具有第二宽高比的多个候选裁剪框，并基于候选裁剪框播放效果的评分选择出裁剪框，最终利用裁剪框裁剪视频帧生成具有所述第二宽高比的目标视频，能够实现将源视频按照目标宽高比输出，并能保证输出内容的播放效果。

本公开实施例以下将结合实际应用对上述实施例涉及的视频处理过程进行说明。

本公开实施例中，首先对候选裁剪框进行评分的过程进行说明。

本公开实施例中，针对源视频中提取到的N个视频帧，需逐帧进行候选裁剪框评分的确定。

一种实施方式中，对候选裁剪框确定评分时，可以对候选裁剪框内的图像内容进行美学打分，得到候选裁剪框的评分。本公开实施例中，对美学打分的具体实施过程不做限定，可以利用已有的图像美学裁剪方法或图像美学评分方法对每一帧上的所有M个候选裁剪框进行美学打分。然后利用利用softmax函数，将每一视频帧中的所有候选裁剪框的评分调整为和为1，进而可以得到每一帧上的所有M个候选裁剪框的评分。例如，得到第n帧的第m个候选裁剪框的评分S_n,m。

另一种实施方式中，对候选裁剪框确定评分时，也可以基于显著性目标检测方式进行评分。其中，本公开实施例中针对每一帧上的所有M个候选裁剪框中的每一候选裁剪框，分别采用如下方式确定评分：对候选裁剪框中的每一像素进行显著性目标检测，并基于显著性目标检测结果确定每一像素的像素评分。根据候选裁剪框中各像素的像素评分，确定候选裁剪框的评分。

本公开实施例中，基于每一视频帧所选择的候选裁剪框选择出的裁剪框进行视频播放时可能会出现帧间抖动问题。本公开实施例中，基于评分在多个候选裁剪框中选择每一视频帧的裁剪框时对相邻各帧间的抖动进行平滑控制。

本公开实施例一种实施方式中，将在多个候选裁剪框中选择每一视频帧的裁剪框的过程看作分类过程，采用线性链条件随机场(Linear chain Conditional RandomFields，linear-CRF)模型进行处理，以消除相邻各帧间的抖动。

图2是根据一示例性实施例示出的一种基于评分在多个候选裁剪框中选择出每一视频帧的裁剪框实现帧间平滑控制的流程示意图。参阅图2所示，对相邻各帧间的抖动进行平滑控制可包括如下步骤。

在步骤S141中，针对多个视频帧中的每一视频帧，基于每两个候选裁剪框之间的位置，构建状态转移矩阵。

本公开实施例构建的状态转移矩阵用于对每一视频帧所选择的候选裁剪框在相邻各帧间的抖动进行平滑控制。

本公开实施例中，根据候选裁剪框之间位置大小的差异来设置状态转移矩阵，以下将状态转移矩阵表示为：W∈R^M×M。

一种实施方式中，可以基于每两个候选裁剪框之间的交并比(Intersection overUnion,IoU)以及系数乘子，构建状态转移矩阵。

如基于两个裁剪框之间的交并比来计算，则具体计算公式如下：

W_i，j＝α×IoU(R_i,R_j)

其中，W_i，j表示状态转移矩阵W中第i行第j列的值；R_i表示第i个候选裁剪框，IoU(R_i,R_j)表示计算第i个候选裁剪框与第j个候选裁剪框之间的IoU；α为系数乘子并用于控制平滑程度大小，可以通过调整α的大小实现对平滑程度的控制。

另一种实施方式中，本公开实施例中可以基于每相邻两个候选裁剪框的中心位置之间的欧式距离、候选裁剪框的面积，以及系数乘子，构建状态转移矩阵，所述系数乘子用于控制平滑程度大小。

例如，本公开实施例中同时考虑了裁剪框的大小和中心位置后，可以采用如下公式确定状态转移矩阵：

其中，Cen_i表示第i个候选裁剪框的中心坐标；Area_i表示第i个候选裁剪框的面积；Diff(Cen_i,Cen_j)函数用于计算两个裁剪框中心坐标的差异，其中，可以直接用欧氏距离来计算；λ用于平衡中心点位置和面积差异的影响大小，可以通过调整λ来平衡面积变化和中心点位置变化的影响大小；α为系数乘子并用于控制平滑程度大小，可以通过调整α的大小实现对平滑程度的控制。

在步骤S142中，基于最大目标函数，利用状态转移矩阵以及各候选裁剪框的评分，确定满足最大裁剪框评分的裁剪框序列，裁剪框序列中包括每一视频帧中所选择的候选裁剪框。

一种实施方式中，本公开实施例可以利用维特比算法求解如下最大目标函数，以得到没有帧间抖动的裁剪框序列Y＝{y₁,y₂,…,y_N}。

其中，y_i∈[1,M]表示第i帧所选择的候选裁剪框序号。

表示第n帧中所选择的第y个候选裁剪框的评分。

表示第n帧中所选择的第y个候选裁剪框与第n-1帧中所选择的第y个候选裁剪框对应的状态转移矩阵值。

本公开实施例中，经过上述防抖平滑处理后使得各裁剪框在帧间没有抖动。通常，在一段时间内候选裁剪框的位置与大小不变，但会突然跳跃到另一候选裁剪框上并保持一段时间。裁剪框的这种跳跃也会导致最后输出的视频内容的跳跃和不连贯。因此需要对这种裁剪框变化进行平滑处理，包括裁剪框移动和缩放的平滑，进行裁剪框位置的调整。

图3是根据一示例性实施例示出的一种裁剪框位置调整方法流程图。参阅图3所示，裁剪框位置调整方法包括如下步骤。

在步骤S21中，将源视频划分为相邻各帧间所选择的裁剪框位置与大小不变的多个视频段。

本公开实施例中可以确定裁剪框位置与大小不变的各个视频段，假设多个视频段的总数为K，其中K为大于1的正整数。

在步骤S22中，基于相邻两个视频段的中间时间点以及相邻两个视频段中裁剪框之间的距离，确定裁剪框在相邻两个视频段中将要移动的速度。

本公开实施例中，假设第k段视频的时长为T_k，中间时间点为t_k。其中，k∈[1,K]。利用向量Box_k＝[x1_k,y1_k,x2_k,y2_k]表示第k∈[1,K]段视频的裁剪框，其中x1_k,y1_k分别为该裁剪框左上顶点的横纵坐标，x2_k,y2_k分别为该裁剪框右下顶点的横纵坐标。

在确定裁剪框移动速度时，可以利用如下公式计算出裁剪框从第k段移动到第k+1段的速度：

其中，裁剪框的减法为四个坐标分别相减。计算出来的速度v_k＝[v1_k,v2_k,v3_k,v4_k]中每一个数值对应每一个坐标沿特定轴的移动速度，即v1_k,v3_k分别为左上角和右下角顶点沿x轴的移动速度，v2_k,v4_k分别为左上角和右下角顶点沿y轴的移动速度。

在步骤S23中，基于裁剪框在相邻两个视频段中将要移动的速度以及播放时间，调整相邻两个视频段中裁剪框的位置。

本公开实施例中，针对第1视频段，若播放时间小于第1视频段中间时间点，则保持第1视频段中裁剪框位置不变。

针对k∈[1,K-1]时，对于第k视频段和第k+1视频段，若播放时间大于等于第k视频段中间时间点且小于第k+1视频段中间时间点，则调整第k视频段中的裁剪框移动第一距离，第一距离为第一速度与第一时间的乘积，其中，所述第一速度为裁剪框从第k视频段移动到第k+1视频段的速度，第一时间为当前时间和第k视频段中间时间点之差。

针对第K视频段，若播放时间大于第K视频段中间时间点，则保持第K视频段中裁剪框位置不变。

本公开实施例中，对任意时刻t，可利用如下公式计算该时刻的裁剪框位置B_t：

其中，若t<t₁(即第一段视频的前半段)，则B_t＝Box₁。若t>t_K(即最后一段视频的后半段)，则B_t＝Box_K。对于，k∈[1,K-1]，使得t_k≤t<t_k+1，B_t＝Box_k+v_k×(t-t_k)。

本公开实施例中，针对源视频中的每一视频帧采用如上方式裁剪生成裁剪框，其中，裁剪生成的裁剪框具有相同的宽高比。将具有相同宽高比的裁剪框缩放到相同分辨率后重新组合为视频，即可得到目标视频进行输出，实现将源视频按照目标宽高比输出，并能保证输出内容的播放效果。

基于相同的构思，本公开实施例还提供一种视频处理装置。

可以理解的是，本公开实施例提供的视频处理装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。结合本公开实施例中所公开的各示例的单元及算法步骤，本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能，但是这种实现不应认为超出本公开实施例的技术方案的范围。

图4是根据一示例性实施例示出的一种视频处理装置框图。参照图4，视频处理装置100包括提取单元101、裁剪单元102、评分单元103、选择单元104和生成单元105。

提取单元101，用于在具有第一宽高比的源视频中提取多个视频帧。裁剪单元102，用于对多个视频帧中的每一视频帧分别进行多次裁剪，以生成具有第二宽高比的多个候选裁剪框。评分单元103，用于对多个视频帧中每一视频帧的多个候选裁剪框分别确定评分，评分表征视频帧以每一候选裁剪框为裁剪范围时的播放效果。选择单元104，用于基于评分在多个候选裁剪框中选择出每一视频帧的裁剪框。生成单元105，用于对每一视频帧使用选择出的裁剪框进行裁剪，并生成具有第二宽高比的目标视频。

一种实施方式中，评分单元103对候选裁剪框内的图像内容进行美学打分，得到候选裁剪框的评分。

另一种实施方式中，评分单元103针对候选裁剪框中的每一像素进行显著性目标检测，并基于显著性目标检测结果确定每一像素的像素评分。根据候选裁剪框中各像素的像素评分，确定候选裁剪框的评分。

又一种实施方式中，选择单元104采用如下方式基于评分在多个候选裁剪框中选择出每一视频帧的裁剪框：

针对多个视频帧中的每一视频帧，基于每两个候选裁剪框之间的位置，构建状态转移矩阵，状态转移矩阵用于对每一视频帧所选择的候选裁剪框在相邻各帧间的抖动进行平滑控制。基于最大目标函数，利用状态转移矩阵以及各候选裁剪框的评分，确定满足最大裁剪框评分的裁剪框序列，裁剪框序列中包括每一视频帧中所选择的候选裁剪框。

又一种实施方式中，选择单元104基于每两个候选裁剪框之间的交并比以及系数乘子，构建状态转移矩阵，系数乘子用于控制平滑程度大小。

又一种实施方式中，选择单元104基于每相邻两个候选裁剪框的中心位置之间的欧式距离、候选裁剪框的面积，以及系数乘子，构建状态转移矩阵，系数乘子用于控制平滑程度大小。

又一种实施方式中，视频处理装置100还包括调整单元106，调整单元106用于：在选择单元104选择出每一视频帧的裁剪框之后，将源视频划分为相邻各帧间所选择的裁剪框位置与大小不变的多个视频段。基于相邻两个视频段的中间时间点以及相邻两个视频段中裁剪框之间的距离，确定裁剪框在相邻两个视频段中将要移动的速度。基于速度以及播放时间，调整相邻两个视频段中裁剪框的位置。

又一种实施方式中，多个视频段的总数为K，其中K为大于1的正整数。

调整单元106采用如下方式基于速度以及播放时间，调整相邻两个视频段中裁剪框的位置：

针对第1视频段，若播放时间小于第1视频段中间时间点，则保持第1视频段中裁剪框位置不变。针对第k视频段和第k+1视频段，若播放时间大于等于第k视频段中间时间点且小于第k+1视频段中间时间点，则调整第k视频段中的裁剪框移动第一距离，第一距离为第一速度与第一时间的乘积，其中，第一速度为裁剪框从第k视频段移动到第k+1视频段的速度，第一时间为当前时间和第k视频段中间时间点之差，其中，k是满足以下条件的正整数：1＜k＜K-1。针对第K视频段，若播放时间大于第K视频段中间时间点，则保持第K视频段中裁剪框位置不变。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图5是根据一示例性实施例示出的一种用于视频处理的装置200的框图。例如，装置200可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，装置200可以包括以下一个或多个组件：处理组件202，存储器204，电力组件206，多媒体组件208，音频组件210，输入/输出(I/O)的接口212，传感器组件214，以及通信组件216。

处理组件202通常控制装置200的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件202可以包括一个或多个处理器220来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件202可以包括一个或多个模块，便于处理组件202和其他组件之间的交互。例如，处理组件202可以包括多媒体模块，以方便多媒体组件208和处理组件202之间的交互。

存储器204被配置为存储各种类型的数据以支持在设备200的操作。这些数据的示例包括用于在装置200上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件206为装置200的各种组件提供电力。电力组件206可以包括电源管理系统，一个或多个电源，及其他与为装置200生成、管理和分配电力相关联的组件。

多媒体组件208包括在所述装置200和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件208包括一个前置摄像头和/或后置摄像头。当设备200处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件210被配置为输出和/或输入音频信号。例如，音频组件210包括一个麦克风(MIC)，当装置200处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器204或经由通信组件216发送。在一些实施例中，音频组件210还包括一个扬声器，用于输出音频信号。

I/O接口212为处理组件202和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件214包括一个或多个传感器，用于为装置200提供各个方面的状态评估。例如，传感器组件214可以检测到设备200的打开/关闭状态，组件的相对定位，例如所述组件为装置200的显示器和小键盘，传感器组件214还可以检测装置200或装置200一个组件的位置改变，用户与装置200接触的存在或不存在，装置200方位或加速/减速和装置200的温度变化。传感器组件214可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件214还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件214还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件216被配置为便于装置200和其他设备之间有线或无线方式的通信。装置200可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件216还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器204，上述指令可由装置200的处理器220执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

可以理解的是，本公开中“多个”是指两个或两个以上，其它量词与之类似。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

进一步可以理解的是，术语“第一”、“第二”等用于描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开，并不表示特定的顺序或者重要程度。实际上，“第一”、“第二”等表述完全可以互换使用。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。

进一步可以理解的是，本公开实施例中尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频处理方法，其特征在于，包括：

在具有第一宽高比的源视频中提取多个视频帧；

对所述多个视频帧中的每一视频帧分别进行多次裁剪，以生成具有第二宽高比的多个候选裁剪框；

对所述多个视频帧中每一视频帧的多个候选裁剪框分别确定评分，所述评分表征所述视频帧以每一候选裁剪框为裁剪范围时的播放效果，并基于所述评分在所述多个候选裁剪框中选择出每一视频帧的裁剪框；

对每一视频帧使用选择出的所述裁剪框进行裁剪，并生成具有所述第二宽高比的目标视频；

其中，基于所述评分在所述多个候选裁剪框中选择出每一视频帧的裁剪框，包括：

针对所述多个视频帧中的每一视频帧，基于每两个候选裁剪框之间的位置，构建状态转移矩阵，所述状态转移矩阵用于对每一视频帧所选择的候选裁剪框在相邻各帧间的抖动进行平滑控制；

基于最大目标函数，利用所述状态转移矩阵以及各候选裁剪框的评分，确定满足最大裁剪框评分的裁剪框序列，所述裁剪框序列中包括每一视频帧中所选择的候选裁剪框。

2.根据权利要求1所述的视频处理方法，其特征在于，对所述候选裁剪框确定评分，包括：

3.根据权利要求1所述的视频处理方法，其特征在于，对所述候选裁剪框确定评分，包括：

针对所述候选裁剪框中的每一像素进行显著性目标检测，并基于显著性目标检测结果确定每一像素的像素评分；

根据所述候选裁剪框中各像素的像素评分，确定所述候选裁剪框的评分。

4.根据权利要求1所述的视频处理方法，其特征在于，基于每两个候选裁剪框之间的位置，构建状态转移矩阵，包括：

5.根据权利要求1所述的视频处理方法，其特征在于，基于每两个候选裁剪框之间的位置，构建状态转移矩阵，包括：

6.根据权利要求1所述的视频处理方法，其特征在于，选择出每一视频帧的裁剪框之后，所述方法还包括：

将所述源视频划分为相邻各帧间所选择的裁剪框位置与大小不变的多个视频段；

基于相邻两个视频段的中间时间点以及相邻两个视频段中裁剪框之间的距离，确定裁剪框在所述相邻两个视频段中将要移动的速度；

基于所述速度以及播放时间，调整所述相邻两个视频段中裁剪框的位置。

7.根据权利要求6所述的视频处理方法，其特征在于，所述多个视频段的总数为K，其中K为大于1的正整数；

针对第1视频段，若播放时间小于第1视频段中间时间点，则保持第1视频段中裁剪框位置不变；

针对第k视频段和第k+1视频段，若播放时间大于等于第k视频段中间时间点且小于第k+1视频段中间时间点，则调整所述第k视频段中的裁剪框移动第一距离，所述第一距离为第一速度与第一时间的乘积，其中，所述第一速度为裁剪框从第k视频段移动到第k+1视频段的速度，所述第一时间为当前时间和第k视频段中间时间点之差，其中，k是满足以下条件的正整数：1＜k＜K-1；

8.一种视频处理装置，其特征在于，包括：

提取单元，用于在具有第一宽高比的源视频中提取多个视频帧；

裁剪单元，用于对所述多个视频帧中的每一视频帧分别进行多次裁剪，以生成具有第二宽高比的多个候选裁剪框；

评分单元，用于对所述多个视频帧中每一视频帧的多个候选裁剪框分别确定评分，所述评分表征所述视频帧以每一候选裁剪框为裁剪范围时的播放效果；

选择单元，用于基于所述评分在所述多个候选裁剪框中选择出每一视频帧的裁剪框；

生成单元，用于对每一视频帧使用选择出的所述裁剪框进行裁剪，并生成具有所述第二宽高比的目标视频；

所述选择单元采用如下方式基于所述评分在所述多个候选裁剪框中选择出每一视频帧的裁剪框：

9.根据权利要求8所述的视频处理装置，其特征在于，所述评分单元用于采用如下方式对所述候选裁剪框确定评分：

10.根据权利要求8所述的视频处理装置，其特征在于，所述评分单元用于采用如下方式对所述候选裁剪框确定评分：

11.根据权利要求8所述的视频处理装置，其特征在于，所述选择单元采用如下方式基于每两个候选裁剪框之间的位置，构建状态转移矩阵：

12.根据权利要求8所述的视频处理装置，其特征在于，所述选择单元采用如下方式基于每两个候选裁剪框之间的位置，构建状态转移矩阵：

13.根据权利要求8所述的视频处理装置，其特征在于，所述装置还包括调整单元，所述调整单元用于：

在所述选择单元选择出每一视频帧的裁剪框之后，将所述源视频划分为相邻各帧间所选择的裁剪框位置与大小不变的多个视频段；

14.根据权利要求13所述的视频处理装置，其特征在于，所述多个视频段的总数为K，其中K为大于1的正整数；

15.一种视频处理装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行权利要求1至7中任意一项所述的视频处理方法。

16.一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行权利要求1至7中任意一项所述的视频处理方法。