CN114387440A - 一种视频裁剪方法、装置及存储介质 - Google Patents

一种视频裁剪方法、装置及存储介质 Download PDF

Info

Publication number
CN114387440A
CN114387440A CN202210039429.6A CN202210039429A CN114387440A CN 114387440 A CN114387440 A CN 114387440A CN 202210039429 A CN202210039429 A CN 202210039429A CN 114387440 A CN114387440 A CN 114387440A
Authority
CN
China
Prior art keywords
video
image
image frame
frame
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210039429.6A
Other languages
English (en)
Inventor
尚焱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210039429.6A priority Critical patent/CN114387440A/zh
Publication of CN114387440A publication Critical patent/CN114387440A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Processing (AREA)

Abstract

本申请公开一种视频裁剪方法、装置及存储介质,其特征在于,包括:获取第一视频中的N个图像帧,并对所述N个图像帧分别进行显著性区域检测,得到所述N个图像帧中每个图像帧的显著性区域热力图;对每个所述图像帧的显著性区域热力图中每列图像数据中的像素值的求和,得到每个所述图像帧的纵向投影图;根据每个所述图像帧的所述纵向投影图的一个或多个峰的面积的加权求和值,确定每个所述图像帧的待裁剪区域的中心点;根据每个所述图像帧的所述待裁剪区域的中心点和预设的裁剪尺寸确定所述N个图像帧中每个图像帧的裁剪区域。采用本申请,可以降低裁剪所需的计算量的同时,优化视频裁剪后界面中的目标对象的展示效果。

Description

一种视频裁剪方法、装置及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种视频数据处理方法、装置及存储介质。
背景技术
视频智能裁剪技术在产品侧具有广泛的应用,随着第5代蜂窝移动通信技术(5thgeneration mobile networks,5G)的到来以及移动互联网平台的发展,短视频需求日益扩大,利用视频智能裁剪技术生成短视频的方法,一方面增加了视频平台的内容多样性,另一方面增加了平台的分发量,同时还可以改变移动端的交互体验,可以极大提高产品的用户体验,很多专业生成的内容(Professionally-generated Content,PGC)视频平台例如腾讯视频、电视台等移动端的视频播放采用竖屏视频更加符合人体的习惯观看姿势,可以利用视频智能裁剪技术生成竖屏视频,在移动端或者平台数据量比较大的情况下,裁剪的耗时性能加速是十分必要的。
目前,视频智能裁剪技术通常是对视频的空域进行逐帧裁剪,首先根据裁剪的比例确定裁剪滑窗的大小和裁剪方向,基于裁剪滑窗结合显著性区域的热力图计算出在某个裁剪位置中滑窗包含多个最大的显著性区域面积,通过这种方式确定了每一帧的裁剪位置,同时为了避免裁剪镜头的晃动,对最终的裁剪位置做了局部平滑和场景切换检测。
其中,视频智能裁剪技术主要包括时域的抽帧模块、非感兴趣的区域(region ofintrest,ROI)区域检测模块包括黑白边检测和字幕水印检测,显著性区域检测模块、基于显著性热力图的后处理模块、视频重编码模块。经过性能分析,时间损耗主要集中在时域的抽帧模块和基于显著性热力图的后处理模块。
比如,当前方法使用滑窗结合显著性区域热力图计算面积的方法进行空域裁剪是非常耗时的,而且为了达到跟人眼的平衡,将最后的结果进行平滑处理本质上是消除位置准确性的操作,这样逐帧检测的方式就存在很多冗余操作,另外一点在确定ROI区域时候有一定的局限性,在滑窗内的显著性区域面积多个最大并不意味着显著性区域的主体在裁剪画面的中心,导致ROI区域不够准确从而影响视觉效果。
发明内容
本申请实施例提供一种视频裁剪方法、装置及存储介质,可以降低裁剪所需的计算量的同时,优化视频裁剪后界面中的目标对象的展示效果。
本申请实施例一方面提供了一种视频裁剪方法,方法包括:
获取第一视频中的N个图像帧,并对所述N个图像帧分别进行显著性区域检测,得到所述N个图像帧中每个图像帧的显著性区域热力图,N为正整数;其中,每个所述图像帧的显著性区域热力图用于表示对应图像帧中的至少一个显著性区域的显著程度;
对每个所述图像帧的显著性区域热力图中每列图像数据中的像素值的求和,得到每个所述图像帧的纵向投影图;所述纵向投影图的横坐标为所述每列图像数据在对应图像帧中的横向位置,纵坐标为所述每列图像数据中的像素值的求和;
根据每个所述图像帧的所述纵向投影图的一个或多个峰的面积的加权求和值,确定每个所述图像帧的待裁剪区域的中心点;
根据每个所述图像帧的所述待裁剪区域的中心点和预设的裁剪尺寸确定所述N个图像帧中每个图像帧的裁剪区域。
其中,所述方法,还包括:获取第一视频,所述第一视频包括M个图像帧,其中M为正整数;对所述M个图像帧进行稀疏采样得到所述N个图像帧,其中N为小于M的正整数。
其中,所述方法还包括:对所述N个图像帧进行非显著性区域检测得到每个所述图像帧的非显著性区域特征,所述非显著性区域特征包括图像帧中的上下或者左右的黑白边框、字幕和水印中的一种或多种;将每个所述图像帧中的所述非显著性区域特征进行去除,得到每个所述图像帧的纯净图像帧。
其中,所述对所述N个图像帧分别进行显著性区域检测,得到所述N个图像帧中每个图像帧的显著性区域热力图;包括:对每个所述图像帧的所述纯净图像帧分别进行显著性区域检测,得到所述N个图像帧中每个图像帧的显著性区域热力图。
其中,所述方法,还包括:对所述M个图像帧进行视频场景切分检测,得到所述M个图像帧的场景切换帧;根据所述场景切换帧,将所述N个图像帧进行插值处理得到M个还原图像帧。
其中,所述第一视频的音频为第一音频片段;所述方法,还包括:根据所述N个图像帧的中心裁剪区域、所述M个还原图像帧将所述第一视频裁剪得到第二视频;将所述第二视频的视频片段和所述第一音频片段重新编码得到所述第一视频对应的裁剪后的完整视频。
本申请实施例一方面提供了一种视频裁剪装置,装置包括:
检测模块,用于获取第一视频中的N个图像帧,并对所述N个图像帧分别进行显著性区域检测,得到所述N个图像帧中每个图像帧的显著性区域热力图,N为正整数;其中,每个所述图像帧的显著性区域热力图用于表示对应图像帧中的至少一个显著性区域的显著程度;
纵向投影模块,用于对每个所述图像帧的显著性区域热力图中每列图像数据中的像素值的求和,得到每个所述图像帧的纵向投影图;所述纵向投影图的横坐标为所述每列图像数据在对应图像帧中的横向位置,纵坐标为所述每列图像数据中的像素值的求和;
中心点确定模块,用于根据每个所述图像帧的所述纵向投影图的一个或多个峰的面积的加权求和值,确定每个所述图像帧的待裁剪区域的中心点;
裁剪区域确定模块,用于根据每个所述图像帧的所述待裁剪区域的中心点和预设的裁剪尺寸确定所述N个图像帧中每个图像帧的裁剪区域。
其中,所述装置还包括:
获取模块,用于获取第一视频,所述第一视频包括M个图像帧,其中M为正整数;采样模块,用于对所述M个图像帧进行稀疏采样得到所述N个图像帧,其中N为小于M的正整数。本申请实施例,主要是通过稀疏采样来代替密集采样大大的减少了计算量。
其中,所述装置还包括:
非显著性区域检测模块,用于对所述N个图像帧进行非显著性区域检测得到每个所述图像帧的非显著性区域特征,所述非显著性区域特征包括图像帧中的上下或者左右的黑白边框、字幕和水印中的一种或多种;将每个所述图像帧中的所述非显著性区域特征进行去除,得到每个所述图像帧的纯净图像帧。本申请实施例,主要是通过基于OCR的字符识别技术检测到画面中的文字区域并对文本区域进行水印的关键词匹配和位置统计,最后可以将这些因素去除从而达到一个更加好的主观效果。
其中,所述检测模块,还用于:对每个所述图像帧的所述纯净图像帧分别进行显著性区域检测,得到所述N个图像帧中每个图像帧的显著性区域热力图。本申请实施例,在对纯净版图像帧进行检测时,可以使得得到的裁剪区域更加符合人眼的感受。
其中,所述装置还包括:
还原模块,用于对所述M个图像帧进行视频场景切分检测,得到所述M个图像帧的场景切换帧;根据所述场景切换帧,将所述N个图像帧进行插值处理得到M个还原图像帧。本申请实施例,利用人眼的视觉暂留效应结合同场景下ROI区域不会发生位置上的突变这两个特点,设计了稀疏采样的抽帧策略,再结合插值与视频场景切换检测进行剩余帧的ROI位置复原,达到了和密集逐帧检测相同的时域检测结果。
其中,所述装置还包括:
整合模块,用于根据所述N个图像帧的中心裁剪区域、所述M个还原图像帧将所述第一视频裁剪得到第二视频;将所述第二视频的视频片段和所述第一音频片段重新编码得到所述第一视频对应的裁剪后的完整视频。本申请实施例,根据确定好的中心裁剪区域进行裁剪最终得到裁剪好的视频。
本申请实施例一方面提供了一种计算机设备,计算机设备包括:处理器和存储器;
处理器与存储器相连,其中,存储器用于存储计算机程序,处理器用于调用计算机程序,以使得计算机设备执行本申请实施例任一方面中的方法。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序适于由处理器加载并执行,以使得具有处理器的计算机设备执行本申请实施例任一方面中的方法。
本申请实施例一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例任一方面中的方法。
本申请实施例,通过对待裁剪视频中的N个图像帧分别进行显著性区域检测,得到该N个图像帧中每个图像帧的显著性区域热力图,这里的每个图像帧的显著性区域热力图用于表示对应图像帧中的至少一个显著性区域的显著程度,也即是可以将每一帧图像中人眼比较感兴趣的区域识别出来;进一步地,对每个图像帧的显著性区域热力图中每列图像数据中的像素值进行求和,得到每个所述图像帧的纵向投影图,这里的纵向投影图是一个坐标图,且横坐标是表示每个图像帧的显著性区域热力图中每列图像数据在对应图像帧中的横向位置,纵坐标则表示每列图像数据中像素值的和,也即是该纵向投影图是一个具有波峰和波谷的曲线图;再进一步地,根据每个图像帧的纵向投影图的一个或多个峰的面积的加权求和值,确定每个图像帧的待裁剪区域的中心点,其中,每一帧的中心裁剪区域,是根据每一帧的纵向投影图中的波峰的面积加权求和确定的;最终,则可以根据每个图像帧的待裁剪区域的中心点和预设的裁剪尺寸确定所述N个图像帧中每个图像帧的裁剪区域。本申请中的上述方案只需要计算图像帧的显著性区域热力图和其纵向投影图即可得到中心裁剪区域,因此可以减少后续处理的计算量,避免了现有技术中为了获得裁剪区域需要采用滑动窗口在裁剪边框的滑动计算每个位置的面积而导致的计算量大的问题;此外,由于本申请实施例是采用先确定中心点的方式再确认中心裁剪区域,因此可以以显著性区域的中心点进行裁剪,使得显著性区域的主体位于裁剪框的中心而优化最终的展示效果,避免了现有技术中是采用滑动窗口在裁剪边框的滑动计算每个位置的面积而导致的展示效果不准确的问题。可选的,还可以通过对待裁剪视频中M个图像帧进行稀疏采样得到所述N个图像帧,这里采用稀疏采样可以进一步减少后续后处理所耗费的时间。由此可见,通过实施本申请实施例,待裁剪视频中的N个图像帧中每个图像帧的裁剪区域会更加符合人眼的视觉范围,且可以大大的降低视频裁剪所需的计算量。即本申请实施例提供了一种可以降低裁剪所需的计算量的同时,优化视频裁剪后界面中的目标对象的展示效果的方案。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构的结构示意图;
图2a是本申请实施例提供的一种终端设备播放视频且横屏的示意图;
图2b是本申请实施例提供的一种终端设备播放视频且由横屏切换成竖屏的示意图;
图2c是本申请实施例提供的一种终端设备播放的视频中带水印的横屏示意图;
图2d是本申请实施例提供的一种终端设备播放的视频中去除水印的竖屏示意图;
图3是本申请实施例提供的一种视频智能裁剪方法的流程示意图;
图4是本申请实施例提供的一种通过不同方式对图像帧进行裁剪的裁剪位置预测对比图;
图5是本申请实施例提供的一种显著性区域检测示意图;
图6a是本申请实施例提供的一种终端设备播放的视频去除水印前的示意图;
图6b是本申请实施例提供的一种终端设备播放的视频去除水印后的示意图;
图6c是本申请实施例提供的一种终端设备播放的视频且包含黑白边示意图;
图7是本申请实施例提供的一种第一视频中图像帧裁剪前的原始图;
图8是本申请实施例提供的一种第一视频中图像帧裁剪前的原始图像的显著性区域热力图;
图9是本申请实施例提供的一种裁剪前的原始图像的显著性区域热力图的纵向投影图;
图10是本申请实施例提供的一种视频裁剪优化处理前后打分分布对比图;
图11是本申请实施例提供的一种视频裁剪方法的流程图;
图12a是本申请实施例提供的一种一段视频的连续帧图像;
图12b是本申请实施例提供的另一种一段视频的连续帧图像;
图12c是本申请实施例提供的又一种一段视频的连续帧图像;
图13是本申请实施例提供的一种视频裁剪装置的结构示意图;
图14是本申请实施例提供的一种计算机设备的结构示意图;
图15是本申请实施例提供的一种视频裁剪系统的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
进一步的,请参见图1,图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示,网络架构可以应用于视频处理系统。该视频处理系统具体可以包括图1所示的服务器100、终端设备集群以及观众集群。其中,终端设备集群具体可以包括一个或者多个终端,这里将不对终端设备集群中的终端的数量进行限制。如图1所示,多个终端设备具体可以包括终端设备110、终端设备120、终端设备130等;可以分别与服务器100进行网络连接,以便于每个终端可设备以通过该网络连接与服务器100之间进行数据交互。本申请中的任意一种视频裁剪方法可以应用在上述图1架构中的服务器或者是终端设备上,例如,当本申请中的任意一种视频裁剪方法应用在服务器100上时,可通过在服务器100侧执行本申请中的任意一种视频裁剪方法,从而使得视频资源在服务器100上可以预先进行视频裁剪处理,以获得裁剪处理后的视频资源,而用户则可以通过终端设备110、终端设备120、或终端设备130直接获取服务器100侧已经预先裁剪好的视频流,以享受视频播放体验和服务。又例如,当本申请中的任意一种视频裁剪方法应用在终端设备上时,则可以通过在终端设备侧执行本申请中的任意一种视频裁剪方法,从而使得终端设备在获取了服务器100上的原始视频资源后,在本地通过后端(如相关处理器)对视频进行视频裁剪处理,以获得裁剪处理后的视频资源,最终,通过终端设备110、终端设备120、或终端设备130的前端(如显示屏)来呈现裁剪处理后的视频资源,以享受视频播放体验和服务。
具体的,本申请的应用场景可参见图2a和图2b,图2a是本申请实施例提供的一种终端设备播放视频且横屏的示意图,图2b是本申请实施例提供的一种终端设备播放视频且由横屏切换成竖屏的示意图。本申请实施例的主要应用场景可以包括将图2a的横屏画面裁剪成图2b的竖屏画面。因为很多PGC视频平台例如腾讯视频、电视台等移动端的视频播放采用竖屏视频更加符合人体的习惯观看姿势,可以利用视频智能裁剪技术生成竖屏视频,在移动端或者平台数据量比较大的情况下,裁剪的耗时性能加速是十分必要的。所以本申请实施例的主要应用场景就是将类似PGC视频平台例如腾讯视频、电视台等移动端的视频播放裁剪成竖屏视频更符合人体的习惯观看姿势。
可选的,本申请的应用场景还可以应用在原视频带有一些水印和字母的人眼不感兴趣的画面,可参见图2c和图2d,图2c是本申请实施例提供的一种终端设备播放的视频中带水印的横屏示意图。图2d是本申请实施例提供的一种终端设备播放的视频中去除水印的竖屏示意图。同样的,本申请实施例的主要应用场景可以包括将图2c的横屏带水印的画面裁剪成图2d竖屏的无水印画面。因为很多PGC视频平台例如腾讯视频、电视台等移动端的视频播放采用竖屏视频更加符合人体的习惯观看姿势,可以利用视频智能裁剪技术生成竖屏视频,在移动端或者平台数据量比较大的情况下,裁剪的耗时性能加速是十分必要的。所以本申请实施例的主要应用场景是可以将类似PGC视频平台例如腾讯视频、电视台等移动端的视频播放裁剪成竖屏视频更符合人体的习惯观看姿势。
为便于理解,进一步的,请参见图3,图3是本申请实施例提供的一种视频智能裁剪方法流程示意图。如图3所示,该视频智能裁剪方法主要可包括时域的抽帧模块、非ROI区域检测模块包括黑白边检测和字幕水印检测,显著性区域检测模块、基于显著性热力图的后处理模块、视频重编码模块。经过性能分析,时间损耗主要集中在时域的抽帧模块和基于显著性热力图的后处理模块。
其中,本申请实施例主要是针对时域的抽帧模块和基于显著性热力图的后处理模块进行优化。
具体的,如图4所示,图4是本申请实施例提供的一种通过不同方式对图像帧进行裁剪的裁剪位置预测对比图。其中虚线为原始密集采样预测位置,黑点为稀疏采样的检测点,实线为通过稀疏检测点插值的预测位置。由图4可以看出,通过稀疏采样的抽帧策略,再结合插值与视频场景切换检测进行剩余帧的ROI位置复原,达到了和密集逐帧检测相同的时域检测结果。因为对于时域抽帧模块的优化,对于视频智能裁剪技术而言,基于ROI的裁剪难点在于ROI区域是随着帧的变化而变化的,为了更加准确的检测ROI的区域,目前采用密集检测的方法即每一帧都进行显著性区域检测,但是这种密集检测带来了巨大的性能损耗,本申请实施例利用人眼的视觉暂留效应结合同场景下ROI区域不会发生位置上的突变这两个特点,设计了稀疏采样的抽帧策略,再结合插值与视频场景切换检测进行剩余帧的ROI位置复原,达到了和密集逐帧检测相同的时域检测结果。
此外,具体的,如图3中所示的非ROI区域检测模块,在视频的空间检测过程中,存在一些严重影响视频主观效果的因素,某些视频存在上下或者左右的黑白边框,还有某些视频包含字幕甚至水印,对于这些部分用户不希望在裁剪的视频画面中,本申请实施例可通过基于光学字符识别(Optical Character Recognition,OCR)的字符识别技术检测到画面中的文字区域并对文本区域进行水印的关键词匹配和位置统计,最后可以将这些因素去除从而达到一个更加好的主观效果。
具体的,如图5所示,图5是本申请实施例提供的一种显著性区域检测示意图。同时也是图3中的显著性区域监测模块的示例图。在基于显著性区域检测的模块中本申请实施例采用基于时空双流网络的视频显著性区域检测视频的显著性区域,该架构包括时间流网络和空间流网络,在提取视觉特征的方面时间流网络和空间流网络是参数共享的;在空间流网络的建模中,开源软件开发网站(SourceForge.net,SF-Net)是基于视觉几何群网络(Visual Geometry Group Network,VGG-16)模型的骨干网络,并且设计了多层次特征融合的方式提取显著性相关的基础特征,然后本申请实施例设计了服务提供商网络(ServiceProvider Network,SP-Net)用于整合空间特征和不同尺度的高斯先验特征;在时间流网络的建模中,本申请实施例基于三维(three-dimensional,3D)卷积和二维(two-dimensional2D)卷积相结合的网络进行空间建模,首先基于SF-Net在共享参数的条件下从多个时间维度的输入帧进行特征提取形成时域维度的显著性特征,然后送入浅层3D卷积提取特征得到时域显著性特征序列,从而实现了时空域双流模型进行显著性区域检测。
可选的,在进行显著性区域检测前还包括对所述N个图像帧进行非显著性区域检测得到每个所述图像帧的非显著性区域特征,所述非显著性区域特征包括图像帧中的上下或者左右的黑白边框、字幕和水印中的一种或多种;将每个所述图像帧中的所述非显著性区域特征进行去除,得到每个所述图像帧的纯净图像帧。
具体的,如图6a,图6a是本申请实施例提供的一种终端设备播放的视频去除水印前的示意图。画面中可以明显看出带有水印和字母。而经过本申请可以将该图的水印和字母去除。得到如图6b的画面,图6b是本申请实施例提供的一种终端设备播放的视频去除水印后的示意图。同时画面中可能包含一些黑白边框,如图6c,图6c是本申请实施例提供的一种终端设备播放视频且包含黑白边示意图。因为在视频的空间检测过程中,存在一些严重影响视频主观效果的因素,某些视频存在上下或者左右的黑白边框,还有某些视频包含字幕甚至水印,对于这些部分用户不希望在裁剪的视频画面中,本申请实施例可通过基于OCR的字符识别技术检测到画面中的文字区域并对文本区域进行水印的关键词匹配和位置统计,最后可以将这些因素去除从而达到一个更加好的主观效果。
具体的,如图7-图9所示是图3中的基于显著性热力图的后处理模块的优化过程图。其中,图7是本申请实施例提供的一种第一视频中图像帧裁剪前的原始图。图8是本申请实施例提供的一种第一视频中图像帧裁剪前的原始图像的显著性区域热力图。图9是本申请实施例提供的一种第一视频中图像帧裁剪前的原始图像的显著性区域热力图的纵向投影图。具体的,图7中所示是一只在海里的鲸鱼在画面中央,右下角有一串字母,在经过图5的显著性区域画面的检测得到图8的显著性区域热力图,从图8中可以明显看出,有两块明显的白色区域,可以看出分别是鲸鱼的主体和右下角的字母。也就是说经过显著性区域检测得到的显著性区域有两个部分,分别是鲸鱼和字母(也即是人眼通常可能更感兴趣的区域)。然后再将这个显著性区域热力图,也就是图8进行纵向投影得到图9,图9是本申请实施例提供的一种裁剪前的原始图像的显著性区域热力图的纵向投影图,对应上面的热力图的两个显著性区域,图9刚好也是有两个波峰,第一个波峰面积较大对应的是鲸鱼主体,右边较小的波峰是右下角的字母。最后根据这个纵向投影图将两个波峰的面积进行加权求和,即可得到待裁剪区域的中心点。而在原始版本中,先确定裁剪滑窗然后计算在基于显著性区域热力图在裁剪滑窗上每个位置的包含面积,最终得到包含显著性区域的多个最大面积的位置,这个过程的计算量特别大导致耗时非常长,而在本申请实施例中可采用首先确定多个最大显著性区域的方法,对显著性热力图进行纵向投影求和,得到横向的每个位置的显著性统计值形成在横向位置上的热力曲线,然后通过寻找多个最大值的方式确定中心点,在确定中心点的时候,本申请实施例可通过显著性区域的面积进行加权求和,并结合裁剪长度进行后处理,通过基于显著性区域的中心点进行裁剪框的确定,这样避免了滑动窗口在裁剪边框的滑动计算每个位置的面积,这样大大减少了后处理的计算量,除此之外以显著性区域的中心进行裁剪可以使得显著性区域的主体位于裁剪框的中心,使得主观感受更好。
可选的,在确定了所述N个图像帧中每个图像帧的裁剪区域后还包括对所述M个图像帧进行视频场景切分检测,得到所述M个图像帧的场景切换帧;根据所述场景切换帧,将所述N个图像帧进行插值处理得到M个还原图像帧。
具体的,在进行裁剪前需要将进行的稀疏采样得到的N个图像帧还原回M个还原图像帧,这个过程本申请实施例是采用插值函数来进行还原的,为了保证还原的更加精确,所以本申请实施例在进行插值处理前,先检测出所述第一视频的场景切换帧,然后以所述场景切换帧为转折点,所述场景切换帧之前的图像帧以稀疏采样得到的在场景切换帧之前的图像帧为模板进行还原,所述场景切换帧之后的图像帧以稀疏采样得到的在场景切换帧之后的图像帧为模板进行还原。这样处理可以有效的减少还原的图像帧与原始图像帧的差距。
详细的可以见图12a,图12a是本申请实施例提供的一段视频的连续帧图像。其中第6帧和第8帧是一个场景切换帧,当通过本申请中的视频裁剪方法识别出第六帧是场景切换帧时,假设稀疏采样得到的第1帧,第3帧和第10帧时,本申请实施例在做插值处理是就可以将第1帧和第6帧之间的图像帧按照第3帧的裁剪区域进行还原,而第8帧到第12帧之间的图像帧按照第10帧的裁剪区域进行还原。这样就使本申请实施例最终还原的中心裁剪区域更精确一些。
又比如,如图12b,图12b是本申请实施例提供的另一种一段视频的连续帧图像。其中第4帧和第9帧是一个场景切换帧,当通过本申请中的视频裁剪方法识别出第4帧和第9帧是场景切换帧时,假设稀疏采样得到的第1帧,第3帧和第10帧时,本申请实施例在做插值处理是就可以将第1帧和第4帧之间的图像帧按照第3帧的裁剪区域进行还原,而第4帧到第9帧之间的图像帧按照第3帧的裁剪区域进行还原。第9帧到第17帧按照第10帧的裁剪区域进行还原。这样就使本申请实施例最终还原的中心裁剪区域更精确一些。
再比如,如图12c,图12c是本申请实施例提供的另一种一段视频的连续帧图像。其中第10帧、第12帧是一个场景切换帧,当通过本申请中的视频裁剪方法识别出第10帧和第12帧是场景切换帧时,假设稀疏采样得到的第1帧,第11帧和第15帧时,本申请实施例在做插值处理是就可以将第1帧和第10帧之间的图像帧按照第1帧的裁剪区域进行还原,而第10帧到第12帧之间的图像帧按照第11帧的裁剪区域进行还原。第12帧到第24帧按照第15帧的裁剪区域进行还原。这样就使本申请实施例最终还原的中心裁剪区域更精确一些。
具体的,如图3中所示的视频重编码模块是为了适配业务方不同的编码要求,并且将视频片段和音频片段合并为完整的视频,本申请实施例利用一种多媒体视频处理工具(Fast Forward Mpeg,FFmpeg)对视频和音频进行重新编码,业务方可以指定码率、帧率、编码器类型和文件格式等常用的音视频编码参数。
具体的,FFmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。它提供了录制、转换以及流化音视频的完整解决方案。它包含了非常先进的音频/视频编解,为了保证高可移植性和编解码质量,编码解码器里很多密码都是从头开发的。
FFmpeg在Linux平台下开发,但它同样也可以在其它操作系统环境中编译运行。这个项目最早由Fabrice Bellard发起,2004年至2015年间由Michael Niedermayer主要负责维护。许多FFmpeg的开发人员都来自MPlayer项目,而且当前FFmpeg也是放在MPlayer项目组的服务器上。项目的名称来自视频编码标准,前面的"FF"代表"Fast Forward"。
多媒体视频处理工具FFmpeg有非常强大的功能包括视频采集功能、视频格式转换、视频抓图、给视频加水印等。视频采集功能:ffmpeg视频采集功能非常强大,不仅可以采集视频采集卡的图像,还可以进行屏幕录制,支持直播应用。
视频格式转换功能:ffmpeg视频转换功能。视频格式转换,比如可以将多种视频格式转换为其他格式,可不是视频信号转换。ffmpeg还可以轻易地实现多种视频格式之间的相互转换,例如可以将摄录下的视频转成视频网站所采用的格式。视频截图功能对于选定的视频,截取指定时间的缩略图。
以上是本申请实施例的主要流程,下面详细介绍本申请实施例所产生的有益效果。在优化处理前后的性能对比如下表1所示,表1是优化处理前后的性能对比表。第一列是表示视频的分辨率,第二列是视频的帧率,第三列是视频的时长,第四列是现有的方案也就是没有优化处理过的方案裁剪视频的倍速,第五列是本申请实施例优化后处理裁剪视频的倍速,第六列是优化后比优化前提升的倍数。其中处理倍速=处理时间/视频时长,该值越小说明处理速度越快,性能越好:
表1
Figure BDA0003469592880000131
其中,为了验证视频智能裁剪加速对主观效果的影响,本申请实施例在收集了50个视频进行主观测试,并通过30个主观测试人员的逐一评测,相关评测结果如下表2,表2是主观感受测评结果。第一列是表示版本即分别为优化前和优化后,第二列是均值,第三列是方差。
表2
版本 均值 方差
优化前 6.4529 1.1094
优化后 6.5473 1.0618
差值 0.0618 0.0476
具体的,如图10所示,图10是本申请实施例提供的一种视频裁剪优化处理前后打分分布对比图。横坐标代表的是均值,纵坐标代表的是概率。最高点分别为6.4529和6.5473。假设主观评测分数符合正态分布的情况下,分布面积重合度达到93.72%;综上所述,本申请实施例在主观效果相差不到1%的情况下,速度提升了8-10倍。
而本申请实施例针对现有视频智能裁剪方法进行优化,主要解决了以下几个问题:
1.针对现有智能裁剪能力的密集抽帧方式进行优化,提出稀疏采样结合插值的方式进行所有帧的裁剪位置的预测;
2.在显著性区域确定方面,现有的基于滑窗计算面积的方法确定显著性区域的方法,采取纵向投影结合多个寻峰算法确定中心裁剪区域,极大的加速了目前的后处理部分。
综上,本申请实施例通过基于稀疏采样结合插值的时域检测算法和基于寻峰算法结合加权确定中心点的后处理算法对目前的视频裁剪方法进行加速优化,极大的拓展了该项技术的应用前景,基于双流的视频显著性区域检测进行空域的视频裁剪,基于黑白边检测和OCR的字幕水印检测进一步提升视频智能裁剪的主观效果,并通过视频重编码适配业务方对视频的编码要求,具有巨大的实际应用价值。
进一步地,请参见图11,图11是本申请实施例提供的一种视频裁剪方法的流程图。如图11所示,该方法至少可以包括以下步骤S301-步骤S304:
步骤S301,获取第一视频中的N个图像帧,并对所述N个图像帧分别进行显著性区域检测,得到所述N个图像帧中每个图像帧的显著性区域热力图;
具体的,该步骤S301的流程具体可以参见上述图5中所描述的显著性区域检测的相关流程,且该流程可对应图3中的显著性区域监测模块所执行的功能。例如,在显著性区域检测的模块中基于时空双流网络的视频显著性区域检测视频的显著性区域,而该显著性区域检测的模块的架构包括时间流网络和空间流网络,在提取视觉特征的方面时间流网络和空间流网络是参数共享的;在空间流网络的建模中,SF-Net是基于VGG-16模型的骨干网络,并且设计了多层次特征融合的方式提取显著性相关的基础特征,然后本申请实施例设计了SP-Net用于整合空间特征和不同尺度的高斯先验特征;在时间流网络的建模中,本申请实施例基于3D卷积和2D卷积相结合的Te-Net进行空间建模,首先基于SF-Net在共享参数的条件下从多个时间维度的输入帧进行特征提取形成时域维度的显著性特征,然后送入浅层3D卷积提取特征得到时域显著性特征序列,从而实现了时空域双流模型进行显著性区域检测。
其中,可以理解的是,这里的N为正整数;每个所述图像帧的显著性区域热力图用于表示对应图像帧中的至少一个显著性区域的显著程度。
为便于理解,进一步的,请参见图7-图9,其中图7是本申请实施例提供的一种裁剪前的原始图像。图8是本申请实施例提供的一种裁剪前的原始图像的显著性区域热力图,图9是本申请实施例提供的一种裁剪前的原始图像的显著性区域热力图的纵向投影图。图7是一只在海里的鲸鱼在画面中央,右下角有一串字母。在经过图5的显著性区域画面的检测得到图8的显著性区域热力图,从图8中可以明显看出,有两块明显的白色区域,可以看出分别是鲸鱼的主体和右下角的字母。也就是说经过显著性区域检测得到的显著性区域有两个部分,分别是鲸鱼和字母。然后再将这个显著性区域热力图,也就是图8进行纵向投影得到图9。图9是本申请实施例提供的一种裁剪前的原始图像的显著性区域热力图的纵向投影图。对应上面的热力图的两个显著性区域,图9刚好也是有两个波峰。第一个波峰面积较大对应的是鲸鱼主体,右边较小的波峰是右下角的字母。最后根据这个纵向投影图将两个波峰的面积进行加权求和,即可得到待裁剪区域的中心点。而在原始版本中,先确定裁剪滑窗然后计算在基于显著性区域热力图在裁剪滑窗上每个位置的包含面积,最终得到包含显著性区域的多个最大面积的位置,这个过程的计算量特别大导致耗时非常长,而在本申请实施例中采用首先确定多个最大显著性区域的方法,对显著性热力图进行纵向投影求和,得到横向的每个位置的显著性统计值形成在横向位置上的热力曲线,然后通过寻找多个最大值的方式确定中心点,在确定中心点的时候,本申请实施例通过显著性区域的面积进行加权求和,并结合裁剪长度进行后处理,通过基于显著性区域的中心点进行裁剪框的确定,这样避免了滑动窗口在裁剪边框的滑动计算每个位置的面积,这样大大减少了后处理的计算量,除此之外以显著性区域的中心进行裁剪可以使得显著性区域的主体位于裁剪框的中心,使得主观感受更好。
可选的,在进行显著性区域检测前还包括获取第一视频,所述第一视频包括M个图像帧,其中M为正整数;对所述M个图像帧进行稀疏采样得到所述N个图像帧,其中N为小于M的正整数。
具体的,对于视频智能裁剪技术而言,基于ROI的裁剪难点在于ROI区域是随着帧的变化而变化的,为了更加准确的检测ROI的区域,目前采用密集检测的方法即每一帧都进行显著性区域检测,但是这种密集检测带来了巨大的性能损耗,而本申请实施例利用人眼的视觉暂留效应结合同场景下ROI区域不会发生位置上的突变这两个特点,设计了稀疏采样的抽帧策略,再结合插值与视频场景切换检测进行剩余帧的ROI位置复原,达到了和密集逐帧检测相同的时域检测结果。部分预测结果如图4所示,图4是本申请实施例提供的一种裁剪位置预测对比图,其中虚线为原始密集采样预测位置,黑色点为稀疏采样的检测点,实线为通过稀疏检测点插值的预测位置。
可选的,在进行显著性区域检测前还包括对所述N个图像帧进行非显著性区域检测得到每个所述图像帧的非显著性区域特征,所述非显著性区域特征包括图像帧中的上下或者左右的黑白边框、字幕和水印中的一种或多种;将每个所述图像帧中的所述非显著性区域特征进行去除,得到每个所述图像帧的纯净图像帧。
具体的,在进行显著性区域检测前还包括对所述N个图像帧进行非显著性区域检测得到每个所述图像帧的非显著性区域特征,所述非显著性区域特征包括图像帧中的上下或者左右的黑白边框、字幕和水印中的一种或多种;将每个所述图像帧中的所述非显著性区域特征进行去除,得到每个所述图像帧的纯净图像帧。
具体的,如图6a,图6a是本申请实施例提供的一种去除水印前的示意图。画面中可以明显看出带有水印和字母。而经过本申请实施例可以将该图的水印和字母去除。得到如图6b的画面,图6b是本申请实施例提供的一种去除水印后的示意图。同时画面中可能包含一些黑白边框,如图6c,图6c是本申请实施例提供的一种黑白边示意图。因为在视频的空间检测过程中,存在一些严重影响视频主观效果的因素,某些视频存在上下或者左右的黑白边框,还有某些视频包含字幕甚至水印,对于这些部分用户不希望在裁剪的视频画面中,本申请实施例通过基于OCR的字符识别技术检测到画面中的文字区域并对文本区域进行水印的关键词匹配和位置统计,最后可以将这些因素去除从而达到一个更加好的主观效果。
可选的,所述对所述N个图像帧分别进行显著性区域检测,得到所述N个图像帧中每个图像帧的显著性区域热力图;包括:对每个所述图像帧的所述纯净图像帧分别进行显著性区域检测,得到所述N个图像帧中每个图像帧的显著性区域热力图。
具体的,在视频的空间检测过程中,存在一些严重影响视频主观效果的因素,某些视频存在上下或者左右的黑白边框,还有某些视频包含字幕甚至水印,对于这些部分用户不希望在裁剪的视频画面中,本申请实施例通过基于OCR的字符识别技术检测到画面中的文字区域并对文本区域进行水印的关键词匹配和位置统计,最后可以将这些因素去除从而达到一个更加好的主观效果。然后再对去除掉非显著性区域特征的视频进行显著性区域检测,这样最后裁剪得到的视频就会更加的符合人眼的感受。
步骤S302,对每个所述图像帧的显著性区域热力图中每列图像数据中的像素值的求和,得到每个所述图像帧的纵向投影图;
具体的,该步骤S302的流程具体可以参见上述图7中所描述的确定预设裁剪区域的相关流程,且该流程可对应图3中的基于显著性热力图的后处理模块所执行的功能。其中,所述纵向投影图的横坐标为所述每列图像数据在对应图像帧中的横向位置,纵坐标为所述每列图像数据中的像素值的求和。
为便于理解,进一步的,请参见图7-图9,其中图7是本申请实施例提供的一种裁剪前的原始图像。图8是本申请实施例提供的一种裁剪前的原始图像的显著性区域热力图,图9是本申请实施例提供的一种裁剪前的原始图像的显著性区域热力图的纵向投影图。图7是一只在海里的鲸鱼在画面中央,右下角有一串字母。在经过图5的显著性区域画面的检测得到图8的显著性区域热力图,从图8中可以明显看出,有两块明显的白色区域,可以看出分别是鲸鱼的主体和右下角的字母。也就是说经过显著性区域检测得到的显著性区域有两个部分,分别是鲸鱼和字母。其中,图8中黑色区域代表的是像素值为0,白色区域代表有像素值。本申请实施例将每列的像素值求和,就可以得到一个基于显著性区域热力图的纵向投影图。图9是本申请实施例提供的一种裁剪前的原始图像的显著性区域热力图的纵向投影图。对应上面的热力图的两个显著性区域,图9刚好也是有两个波峰。第一个波峰面积较大对应的是鲸鱼主体,右边较小的波峰是右下角的字母。其中图9的横坐标代表的为所述每列图像数据在对应图像帧中的横向位置,纵坐标代表的是显著性区域热力图中每列图像数据中像素值的求和归一化的结果。最后根据这个纵向投影图将两个波峰的面积进行加权求和,即可得到待裁剪区域的中心点。而在原始版本中,先确定裁剪滑窗然后计算在基于显著性区域热力图在裁剪滑窗上每个位置的包含面积,最终得到包含显著性区域的多个最大面积的位置,这个过程的计算量特别大导致耗时非常长,而在本申请实施例中采用首先确定多个最大显著性区域的方法,对显著性热力图进行纵向投影求和,得到横向的每个位置的显著性统计值形成在横向位置上的热力曲线,然后通过寻找多个最大值的方式确定中心点,在确定中心点的时候,本申请实施例通过显著性区域的面积进行加权求和,并结合裁剪长度进行后处理,通过基于显著性区域的中心点进行裁剪框的确定,这样避免了滑动窗口在裁剪边框的滑动计算每个位置的面积,这样大大减少了后处理的计算量,除此之外以显著性区域的中心进行裁剪可以使得显著性区域的主体位于裁剪框的中心,使得主观感受更好。
步骤S303,根据每个所述图像帧的所述纵向投影图的一个或多个峰的面积的加权求和值,确定每个所述图像帧的待裁剪区域的中心点;
具体的,该步骤S303的流程具体可以参见上述图8中所描述的确定预设裁剪区域的相关流程,且该流程可对应图3中的基于显著性热力图的后处理模块所执行的功能。例如,在申请中采用首先确定多个最大显著性区域的方法,对显著性热力图进行纵向投影求和,得到横向的每个位置的显著性统计值形成在横向位置上的热力曲线,然后通过寻找多个最大值的方式确定中心点,在确定中心点的时候,本申请实施例通过显著性区域的面积进行加权求和。
详细的,请参见图7-图9,其中图7是本申请实施例提供的一种裁剪前的原始图像。图8是本申请实施例提供的一种裁剪前的原始图像的显著性区域热力图,图9是本申请实施例提供的一种裁剪前的原始图像的显著性区域热力图的纵向投影图。图7是一只在海里的鲸鱼在画面中央,右下角有一串字母。在经过图5的显著性区域画面的检测得到图8的显著性区域热力图,从图8中可以明显看出,有两块明显的白色区域,可以看出分别是鲸鱼的主体和右下角的字母。也就是说经过显著性区域检测得到的显著性区域有两个部分,分别是鲸鱼和字母。其中,图8中黑色区域代表的是像素值为0,白色区域代表有像素值。本申请实施例将每列的像素值求和,就可以得到一个基于显著性区域热力图的纵向投影图。图9是本申请实施例提供的一种裁剪前的原始图像的显著性区域热力图的纵向投影图。对应上面的热力图的两个显著性区域,图9刚好也是有两个波峰。第一个波峰面积较大对应的是鲸鱼主体,右边较小的波峰是右下角的字母。其中图9的横坐标代表的为所述每列图像数据在对应图像帧中的横向位置,纵坐标代表的是显著性区域热力图中每列图像数据中像素值的求和归一化的结果。最后根据这个纵向投影图将两个波峰的面积进行加权求和,即可得到待裁剪区域的中心点。而在原始版本中,先确定裁剪滑窗然后计算在基于显著性区域热力图在裁剪滑窗上每个位置的包含面积,最终得到包含显著性区域的多个最大面积的位置,这个过程的计算量特别大导致耗时非常长,而在本申请实施例中采用首先确定多个最大显著性区域的方法,对显著性热力图进行纵向投影求和,得到横向的每个位置的显著性统计值形成在横向位置上的热力曲线,然后通过寻找多个最大值的方式确定中心点,在确定中心点的时候,本申请实施例通过显著性区域的面积进行加权求和,并结合裁剪长度进行后处理,通过基于显著性区域的中心点进行裁剪框的确定,这样避免了滑动窗口在裁剪边框的滑动计算每个位置的面积,这样大大减少了后处理的计算量,除此之外以显著性区域的中心进行裁剪可以使得显著性区域的主体位于裁剪框的中心,使得主观感受更好。
步骤S304,根据每个所述图像帧的所述待裁剪区域的中心点和预设的裁剪尺寸确定所述N个图像帧中每个图像帧的裁剪区域;
具体的,该步骤S304的流程具体可以参见上述图9中所描述的确定预设裁剪区域的相关流程,且该流程可对应图3中的基于显著性热力图的后处理模块所执行的功能。例如,在本申请实施例中采用首先确定多个最大显著性区域的方法,对显著性热力图进行纵向投影求和,得到横向的每个位置的显著性统计值形成在横向位置上的热力曲线,然后通过寻找多个最大值的方式确定中心点,在确定中心点的时候,本申请实施例通过显著性区域的面积进行加权求和,并结合裁剪长度进行后处理,通过基于显著性区域的中心点进行裁剪框的确定,这样避免了滑动窗口在裁剪边框的滑动计算每个位置的面积,这样大大减少了后处理的计算量,除此之外以显著性区域的中心进行裁剪可以使得显著性区域的主体位于裁剪框的中心,使得主观感受更好。
可选的,在确定了所述N个图像帧中每个图像帧的裁剪区域后还包括对所述M个图像帧进行视频场景切分检测,得到所述M个图像帧的场景切换帧;根据所述场景切换帧,将所述N个图像帧进行插值处理得到M个还原图像帧。
具体的,在进行裁剪前需要将进行的稀疏采样得到的N个图像帧还原回M个还原图像帧,这个过程本申请实施例是采用插值函数来进行还原的,为了保证还原的更加精确,所以本申请实施例在进行插值处理前,先检测出所述第一视频的场景切换帧,然后以所述场景切换帧为转折点,所述场景切换帧之前的图像帧以稀疏采样得到的在场景切换帧之前的图像帧为模板进行还原,所述场景切换帧之后的图像帧以稀疏采样得到的在场景切换帧之后的图像帧为模板进行还原。这样处理可以有效的减少还原的图像帧与原始图像帧的差距。
详细的可以见图12a,图12a是本申请实施例提供的一段视频的连续帧图像。其中第6帧和第8帧是一个场景切换帧,当本申请中的视频裁剪方法识别出第六帧是场景切换帧时,假设稀疏采样得到的第1帧,第3帧和第10帧时,本申请实施例在做插值处理是就可以将第1帧和第6帧之间的图像帧按照第3帧的裁剪区域进行还原,而第8帧到第12帧之间的图像帧按照第10帧的裁剪区域进行还原。这样就使本申请实施例最终还原的中心裁剪区域更精确一些。
又比如,如图12b,图12b是本申请实施例提供的另一种一段视频的连续帧图像。其中第4帧和第9帧是一个场景切换帧,当本申请中的视频裁剪方法识别出第4帧和第9帧是场景切换帧时,假设稀疏采样得到的第1帧,第3帧和第10帧时,本申请实施例在做插值处理是就可以将第1帧和第4帧之间的图像帧按照第3帧的裁剪区域进行还原,而第4帧到第9帧之间的图像帧按照第3帧的裁剪区域进行还原。第9帧到第17帧按照第10帧的裁剪区域进行还原。这样就使本申请实施例最终还原的中心裁剪区域更精确一些。
再比如,如图12c,图12c是本申请实施例提供的另一种一段视频的连续帧图像。其中第10帧、第12帧是一个场景切换帧,当本申请中的视频裁剪方法识别出第10帧和第12帧是场景切换帧时,假设稀疏采样得到的第1帧,第11帧和第15帧时,本申请实施例在做插值处理是就可以将第1帧和第10帧之间的图像帧按照第1帧的裁剪区域进行还原,而第10帧到第12帧之间的图像帧按照第11帧的裁剪区域进行还原。第12帧到第24帧按照第15帧的裁剪区域进行还原。这样就使本申请实施例最终还原的中心裁剪区域更精确一些。
可选的,在确定了所述N个图像帧中每个图像帧的裁剪区域后还包括:根据所述N个图像帧的中心裁剪区域、所述M个还原图像帧将所述第一视频裁剪得到第二视频;将所述第二视频的视频片段和所述第一音频片段重新编码得到所述第一视频对应的裁剪后的完整视频。其中所述第一视频的音频为第一音频片段。
具体的,为了适配业务方不同的编码要求,并且将视频片段和音频片段合并为完整的视频,本申请实施例可以利用FFmpeg对视频和音频进行重新编码,业务方可以指定码率、帧率、编码器类型和文件格式等常用的音视频编码参数。
具体的,FFmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。它提供了录制、转换以及流化音视频的完整解决方案。例如,FFmpeg可以进行视频采集、视频格式转换、视频抓图、给视频加水印等。
本申请实施例针对现有视频智能裁剪方法进行优化,主要解决了以下几个问题:
1.针对现有智能裁剪能力的密集抽帧方式进行优化,提出稀疏采样结合插值的方式进行所有帧的裁剪位置的预测;
2.在显著性区域确定方面,现有的基于滑窗计算面积的方法确定显著性区域的方法,采取纵向投影结合多个寻峰算法确定中心裁剪区域,极大的加速了目前的后处理部分。
综上,本申请实施例通过基于稀疏采样结合插值的时域检测算法和基于寻峰算法结合加权确定中心点的后处理算法对目前的视频裁剪方法进行加速优化,极大的拓展了该项技术的应用前景,基于双流的视频显著性区域检测进行空域的视频裁剪,基于黑白边检测和OCR的字幕水印检测进一步提升视频智能裁剪的主观效果,并通过视频重编码适配业务方对视频的编码要求,具有巨大的实际应用价值。
综上所述,本申请中的上述方案只需要计算图像帧的显著性区域热力图和其纵向投影图即可得到中心裁剪区域,因此可以减少后续处理的计算量;避免了现有技术中为了获得裁剪区域需要采用滑动窗口在裁剪边框的滑动计算每个位置的面积而导致的计算量大的问题;此外,由于本申请实施例是采用先确定中心点的方式再确认中心裁剪区域,因此可以以显著性区域的中心点进行裁剪,使得显著性区域的主体位于裁剪框的中心而优化最终的展示效果,避免了现有技术中是采用滑动窗口在裁剪边框的滑动计算每个位置的面积而导致的展示效果不准确。可选的,还可以通过对待裁剪视频中M个图像帧进行稀疏采样得到所述N个图像帧,这里采用稀疏采样可以进一步减少后续后处理所耗费的时间。由此可见,通过实施本申请实施例,待裁剪视频中的N个图像帧中每个图像帧的裁剪区域会更加符合人眼的视觉范围,且可以大大的降低视频裁剪所需的计算量。即本申请实施例提供了一种可以降低裁剪所需的计算量的同时,优化视频裁剪后界面中的目标对象的展示效果的方案。
进一步地,请参见图13,图13是本申请实施例提供的一种视频裁剪装置的结构示意图。其中,该视频裁剪装置1可以包括:检测模块10,纵向投影模块20,中心点确定模块30,裁剪确定模块40。
其中,检测模块10,用于获取第一视频中的N个图像帧,并对所述N个图像帧分别进行显著性区域检测,得到所述N个图像帧中每个图像帧的显著性区域热力图,N为正整数;其中,每个所述图像帧的显著性区域热力图用于表示对应图像帧中的至少一个显著性区域的显著程度;
纵向投影模块20,用于对每个所述图像帧的显著性区域热力图中每列图像数据中像素值的求和,得到每个所述图像帧的纵向投影图;所述纵向投影图的横坐标为所述每列图像数据在对应图像帧中的横向位置,纵坐标为所述每列图像数据中像素值的求和;
中心点确定模块30,用于根据每个所述图像帧的所述纵向投影图的一个或多个峰的面积的加权求和值,确定每个所述图像帧的待裁剪区域的中心点;
裁剪区域确定模块40,用于根据每个所述图像帧的所述待裁剪区域的中心点和预设的裁剪尺寸确定所述N个图像帧中每个图像帧的裁剪区域。
具体的,其中,所述装置还包括:
获取模块,用于获取第一视频,所述第一视频包括M个图像帧,其中M为正整数;采样模块,用于对所述M个图像帧进行稀疏采样得到所述N个图像帧,其中N为小于M的正整数。本申请实施例,主要是通过稀疏采样来代替密集采样大大的减少了计算量。
其中,所述装置还包括:
非显著性区域检测模块,用于对所述N个图像帧进行非显著性区域检测得到每个所述图像帧的非显著性区域特征,所述非显著性区域特征包括图像帧中的上下或者左右的黑白边框、字幕和水印中的一种或多种;将每个所述图像帧中的所述非显著性区域特征进行去除,得到每个所述图像帧的纯净图像帧。本申请实施例,主要是通过基于OCR的字符识别技术检测到画面中的文字区域并对文本区域进行水印的关键词匹配和位置统计,最后可以将这些因素去除从而达到一个更加好的主观效果。
其中,所述检测模块,还用于:对每个所述图像帧的所述纯净图像帧分别进行显著性区域检测,得到所述N个图像帧中每个图像帧的显著性区域热力图。本申请实施例,在对纯净版图像帧进行检测时,可以使得得到的裁剪区域更加符合人眼的感受。
其中,所述装置还包括:
还原模块,用于对所述M个图像帧进行视频场景切分检测,得到所述M个图像帧的场景切换帧;根据所述场景切换帧,将所述N个图像帧进行插值处理得到M个还原图像帧。本申请实施例,利用人眼的视觉暂留效应结合同场景下ROI区域不会发生位置上的突变这两个特点,设计了稀疏采样的抽帧策略,再结合插值与视频场景切换检测进行剩余帧的ROI位置复原,达到了和密集逐帧检测相同的时域检测结果。
其中,所述装置还包括:
整合模块,用于根据所述N个图像帧的中心裁剪区域、所述M个还原图像帧将所述第一视频裁剪得到第二视频;将所述第二视频的视频片段和所述第一音频片段重新编码得到所述第一视频对应的裁剪后的完整视频。本申请实施例,根据确定好的中心裁剪区域进行裁剪最终得到裁剪好的视频。
其中,检测模块10,纵向投影模块20,中心点确定模块30,裁剪区域确定模块40的具体实现方式可以参见上述图9所对应实施例中对步骤S301和步骤S304的描述,这里将不再继续进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
进一步地,请参见图14,图14是本申请实施例提供的一种计算机设备的结构示意图。如图14所示,该计算机设备1000可以为终端设备,该终端设备可以为上述图1所对应实施例中的终端设备120,可选的,该计算机设备1000还可以为业务服务器,该业务服务器可以为上述图1所对应实施例中的服务器100。此时。该计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,该计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图11所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
其中,该计算机设备1000中的网络接口1004还可以提供网络通讯功能,且可选用户接口1003还可以包括显示屏(Display)、键盘(Keyboard)。在图14所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现前文图9、图3或者图4所对应实施例中对视频裁剪方法的描述,也可执行前文图10所对应实施例中对视频裁剪装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机存储介质,且计算机存储介质中存储有前文提及的视频数据处理装置1所执行的计算机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图9、图3或图4所对应实施例中对视频裁剪方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
可以理解的是,本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前文图9、图3或图4所对应实施例中对视频裁剪方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
进一步的,请参见图15,图15是本申请实施例提供的一种视频裁剪系统的结构示意图。该视频裁剪系统2可以包含视频裁剪装置1。其中,视频裁剪装置1可以为上述图13所对应实施例中的视频视频裁剪装置1,可以理解的是,该视频裁剪装置1可以集成在上述图1所对应实施例中的终端设备120,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的视频数据处理系统实施例中未披露的技术细节,请参照本申请方法实施例的描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (10)

1.一种视频裁剪方法,其特征在于,包括:
获取第一视频中的N个图像帧,并对所述N个图像帧分别进行显著性区域检测,得到所述N个图像帧中每个图像帧的显著性区域热力图,N为正整数;其中,每个所述图像帧的显著性区域热力图用于表示对应图像帧中的至少一个显著性区域的显著程度;
对每个所述图像帧的显著性区域热力图中每列图像数据中的像素值求和,得到每个所述图像帧的纵向投影图;所述纵向投影图的横坐标为所述每列图像数据在对应图像帧中的横向位置,纵坐标为所述每列图像数据中的像素值的求和;
根据每个所述图像帧的所述纵向投影图的一个或多个峰的面积的加权求和值,确定每个所述图像帧的待裁剪区域的中心点;
根据每个所述图像帧的所述待裁剪区域的中心点和预设的裁剪尺寸,确定所述N个图像帧中每个图像帧的裁剪区域。
2.根据权利要求1所述的方法,其特征在于,所述方法,还包括:
获取第一视频,所述第一视频包括M个图像帧,其中M为正整数;
对所述M个图像帧进行稀疏采样得到所述N个图像帧,其中N为小于M的正整数。
3.根据权利要求1-2中的任意一项所述的方法,其特征在于,所述方法还包括:
对所述N个图像帧进行非显著性区域检测得到每个所述图像帧的非显著性区域特征,所述非显著性区域特征包括图像帧中的上下或者左右的黑白边框、字幕和水印中的一种或多种;
将每个所述图像帧中的所述非显著性区域特征进行去除,得到每个所述图像帧的纯净图像帧。
4.根据权利要求1-3中的任意一项所述的方法,其特征在于,所述对所述N个图像帧分别进行显著性区域检测,得到所述N个图像帧中每个图像帧的显著性区域热力图;包括:
对每个所述图像帧的所述纯净图像帧分别进行显著性区域检测,得到所述N个图像帧中每个图像帧的显著性区域热力图。
5.根据权利要求1-4中的任意一项所述的方法,其特征在于,所述方法,还包括:
对所述M个图像帧进行视频场景切分检测,得到所述M个图像帧的场景切换帧;
根据所述场景切换帧,将所述N个图像帧进行插值处理得到M个还原图像帧。
6.根据权利要求1-5中的任意一项所述的方法,其特征在于,所述第一视频的音频为第一音频片段;所述方法,还包括:
根据所述N个图像帧的中心裁剪区域、所述M个还原图像帧将所述第一视频裁剪得到第二视频;
将所述第二视频的视频片段和所述第一音频片段重新编码得到所述第一视频对应的裁剪后的完整视频。
7.一种视频裁剪装置,其特征在于,包括:
检测模块,用于获取第一视频中的N个图像帧,并对所述N个图像帧分别进行显著性区域检测,得到所述N个图像帧中每个图像帧的显著性区域热力图,N为正整数;其中,每个所述图像帧的显著性区域热力图用于表示对应图像帧中的至少一个显著性区域的显著程度;
纵向投影模块,用于对每个所述图像帧的显著性区域热力图中每列图像数据中的像素值的求和,得到每个所述图像帧的纵向投影图;所述纵向投影图的横坐标为所述每列图像数据在对应图像帧中的横向位置,纵坐标为所述每列图像数据中的像素值的求和;
中心点确定模块,用于根据每个所述图像帧的所述纵向投影图的一个或多个峰的面积的加权求和值,确定每个所述图像帧的待裁剪区域的中心点;
裁剪区域确定模块,用于根据每个所述图像帧的所述待裁剪区域的中心点和预设的裁剪尺寸确定所述N个图像帧中每个图像帧的裁剪区域。
8.一种计算机设备,其特征在于,包括:处理器和存储器;
所述处理器与存储器相连,其中,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以使得所述计算机设备执行权利要求1-6任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序适于由处理器加载并执行,以使得具有所述处理器的计算机设备执行权利要求1-6任一项所述的方法。
10.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中,该计算机指令适于由处理器读取并执行,以使得具有所述处理器的计算机设备执行权利要求1-6任一项所述的方法。
CN202210039429.6A 2022-01-13 2022-01-13 一种视频裁剪方法、装置及存储介质 Pending CN114387440A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210039429.6A CN114387440A (zh) 2022-01-13 2022-01-13 一种视频裁剪方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210039429.6A CN114387440A (zh) 2022-01-13 2022-01-13 一种视频裁剪方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN114387440A true CN114387440A (zh) 2022-04-22

Family

ID=81202118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210039429.6A Pending CN114387440A (zh) 2022-01-13 2022-01-13 一种视频裁剪方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN114387440A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115049968A (zh) * 2022-08-12 2022-09-13 武汉东信同邦信息技术有限公司 动态规划视频自动裁剪方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130050574A1 (en) * 2011-08-29 2013-02-28 Futurewei Technologies Inc. System and Method for Retargeting Video Sequences
CN113516666A (zh) * 2020-12-30 2021-10-19 腾讯科技(深圳)有限公司 图像裁剪方法、装置、计算机设备及存储介质
CN113689440A (zh) * 2021-08-23 2021-11-23 腾讯音乐娱乐科技(深圳)有限公司 一种视频处理方法、装置、计算机设备以及存储介质
CN113824996A (zh) * 2021-09-26 2021-12-21 深圳市商汤科技有限公司 信息处理方法及装置、电子设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130050574A1 (en) * 2011-08-29 2013-02-28 Futurewei Technologies Inc. System and Method for Retargeting Video Sequences
CN113516666A (zh) * 2020-12-30 2021-10-19 腾讯科技(深圳)有限公司 图像裁剪方法、装置、计算机设备及存储介质
CN113689440A (zh) * 2021-08-23 2021-11-23 腾讯音乐娱乐科技(深圳)有限公司 一种视频处理方法、装置、计算机设备以及存储介质
CN113824996A (zh) * 2021-09-26 2021-12-21 深圳市商汤科技有限公司 信息处理方法及装置、电子设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115049968A (zh) * 2022-08-12 2022-09-13 武汉东信同邦信息技术有限公司 动态规划视频自动裁剪方法、装置、设备及存储介质
CN115049968B (zh) * 2022-08-12 2022-11-11 武汉东信同邦信息技术有限公司 动态规划视频自动裁剪方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US10977809B2 (en) Detecting motion dragging artifacts for dynamic adjustment of frame rate conversion settings
CN104618803B (zh) 信息推送方法、装置、终端及服务器
Moorthy et al. Visual quality assessment algorithms: what does the future hold?
US10074015B1 (en) Methods, systems, and media for generating a summarized video with video thumbnails
JP5165743B2 (ja) ビデオデータの同期をとる方法及び装置
CN106303157B (zh) 一种视频降噪处理方法及视频降噪处理装置
US10354394B2 (en) Dynamic adjustment of frame rate conversion settings
CN110751649B (zh) 视频质量评估方法、装置、电子设备及存储介质
CN109948721B (zh) 一种基于视频描述的视频场景分类方法
JP2009501476A (ja) ビデオ時間アップコンバージョンを用いた処理方法及び装置
US20130016180A1 (en) Image processing apparatus, method, and program
CN110944200B (zh) 一种评估沉浸式视频转码方案的方法
CN102572502B (zh) 一种用于视频质量评价的关键帧的选取方法
US20170064279A1 (en) Multi-view 3d video method and system
JP2010503006A5 (zh)
CN111340101B (zh) 稳定性评估方法、装置、电子设备和计算机可读存储介质
CN111985281A (zh) 图像生成模型的生成方法、装置及图像生成方法、装置
US9230173B2 (en) Soft decision making processes for analyzing images
CN113068034A (zh) 视频编码方法及装置、编码器、设备、存储介质
KR101106910B1 (ko) 큰 스틸 사진 처리 방법 및 디바이스와 컴퓨터 판독가능 저장 매체
CN114387440A (zh) 一种视频裁剪方法、装置及存储介质
CN110996173B (zh) 一种图像数据处理方法、装置及存储介质
CN114500879A (zh) 视频数据处理方法、装置、设备及存储介质
JP2006518960A (ja) ショット切れ目検出
KR102575567B1 (ko) 3차원 입체 콘텐츠 서비스 제공 시스템 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination