CN111356016A - 视频处理方法、视频处理装置及存储介质 - Google Patents

视频处理方法、视频处理装置及存储介质 Download PDF

Info

Publication number
CN111356016A
CN111356016A CN202010165769.4A CN202010165769A CN111356016A CN 111356016 A CN111356016 A CN 111356016A CN 202010165769 A CN202010165769 A CN 202010165769A CN 111356016 A CN111356016 A CN 111356016A
Authority
CN
China
Prior art keywords
video
frame
candidate
frames
cutting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010165769.4A
Other languages
English (en)
Other versions
CN111356016B (zh
Inventor
胡佳高
刘昶忻
王飞
余鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xuanjie Technology Co ltd
Original Assignee
Beijing Pinecone Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Pinecone Electronics Co Ltd filed Critical Beijing Pinecone Electronics Co Ltd
Priority to CN202010165769.4A priority Critical patent/CN111356016B/zh
Publication of CN111356016A publication Critical patent/CN111356016A/zh
Priority to JP2020125375A priority patent/JP7062036B2/ja
Priority to KR1020200090665A priority patent/KR102301447B1/ko
Priority to US16/984,527 priority patent/US11488383B2/en
Priority to EP20191826.5A priority patent/EP3879530A1/en
Application granted granted Critical
Publication of CN111356016B publication Critical patent/CN111356016B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440263Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the spatial resolution, e.g. for displaying on a connected PDA
    • H04N21/440272Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the spatial resolution, e.g. for displaying on a connected PDA for performing aspect ratio conversion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/475End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
    • H04N21/4756End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for rating content, e.g. scoring a recommended movie

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Television Signal Processing For Recording (AREA)
  • Databases & Information Systems (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Studio Circuits (AREA)
  • Computer Graphics (AREA)

Abstract

本公开是关于一种视频处理方法、视频处理装置及存储介质。视频处理方法包括:在具有第一宽高比的源视频中提取多个视频帧;对所述多个视频帧中的每一视频帧分别进行多次裁剪,以生成具有第二宽高比的多个候选裁剪框;对所述多个视频帧中每一视频帧的多个候选裁剪框分别确定评分,所述评分表征所述视频帧以每一候选裁剪框为裁剪范围时的播放效果,并基于所述评分在所述多个候选裁剪框中选择出每一视频帧的裁剪框;对每一视频帧使用选择出的所述裁剪框进行裁剪,并生成具有所述第二宽高比的目标视频。通过本公开,能够实现将源视频按照目标宽高比输出,并能保证输出内容的播放效果。

Description

视频处理方法、视频处理装置及存储介质
技术领域
本公开涉及图像视频处理技术领域,尤其涉及一种视频处理方法、视频处理装置及存储介质。
背景技术
源视频的宽高比和视频当前播放设备显示器的宽高比会出现不一致的情形。例如,用户拍摄、网上下载等来源的视频通常有多种宽高比,而用户的播放设备的显示器也有多种宽高比。若源视频的宽高比和目标显示器的宽高比不一致,在目标显示器上播放视频时(如在宽高比为16:9的目标显示器上播放宽高比为4:3的视频),显示器的两侧将出现大块黑幕。
相关技术中,为使源视频播放的宽高比与播放设备显示器的宽高比相匹配,使视频画面填满显示器以提供更好的用户体验,通常需要对视频画面进行缩放或裁剪。
发明内容
为克服相关技术中存在的问题,本公开提供一种视频处理方法、视频处理装置及存储介质。
根据本公开实施例的第一方面,提供一种视频处理方法,包括:
在具有第一宽高比的源视频中提取多个视频帧;对所述多个视频帧中的每一视频帧分别进行多次裁剪,以生成具有第二宽高比的多个候选裁剪框;对所述多个视频帧中每一视频帧的多个候选裁剪框分别确定评分,所述评分表征所述视频帧以每一候选裁剪框为裁剪范围时的播放效果,并基于所述评分在所述多个候选裁剪框中选择出每一视频帧的裁剪框;对每一视频帧使用选择出的所述裁剪框进行裁剪,并生成具有所述第二宽高比的目标视频。
一种实施方式中,对所述候选裁剪框确定评分,包括:
对所述候选裁剪框内的图像内容进行美学打分,得到所述候选裁剪框的评分。
另一种实施方式中,对所述候选裁剪框确定评分,包括:
针对所述候选裁剪框中的每一像素进行显著性目标检测,并基于显著性目标检测结果确定每一像素的像素评分;根据所述候选裁剪框中各像素的像素评分,确定所述候选裁剪框的评分。
又一种实施方式中,基于所述评分在所述多个候选裁剪框中选择出每一视频帧的裁剪框,包括:
针对所述多个视频帧中的每一视频帧,基于每两个候选裁剪框之间的位置,构建状态转移矩阵,所述状态转移矩阵用于对每一视频帧所选择的候选裁剪框在相邻各帧间的抖动进行平滑控制;基于最大目标函数,利用所述状态转移矩阵以及各候选裁剪框的评分,确定满足最大裁剪框评分的裁剪框序列,所述裁剪框序列中包括每一视频帧中所选择的候选裁剪框。
又一种实施方式中,基于每两个候选裁剪框之间的位置,构建状态转移矩阵,包括:
基于每两个候选裁剪框之间的交并比以及系数乘子,构建状态转移矩阵,所述系数乘子用于控制平滑程度大小。
又一种实施方式中,基于每两个候选裁剪框之间的位置,构建状态转移矩阵,包括:
基于每相邻两个候选裁剪框的中心位置之间的欧式距离、候选裁剪框的面积,以及系数乘子,构建状态转移矩阵,所述系数乘子用于控制平滑程度大小。
又一种实施方式中,选择出每一视频帧的裁剪框之后,所述方法还包括:
将所述源视频划分为相邻各帧间所选择的裁剪框位置与大小不变的多个视频段;基于相邻两个视频段的中间时间点以及相邻两个视频段中裁剪框之间的距离,确定裁剪框在所述相邻两个视频段中将要移动的速度;基于所述速度以及播放时间,调整所述相邻两个视频段中裁剪框的位置。
又一种实施方式中,所述多个视频段的总数为K,其中K为大于1的正整数;
基于所述速度以及播放时间,调整所述相邻两个视频段中裁剪框的位置,包括:
针对第1视频段,若播放时间小于第1视频段中间时间点,则保持第1视频段中裁剪框位置不变;针对第k视频段和第k+1视频段,若播放时间大于等于第k视频段中间时间点且小于第k+1视频段中间时间点,则调整所述第k视频段中的裁剪框移动第一距离,所述第一距离为第一速度与第一时间的乘积,其中,所述第一速度为裁剪框从第k视频段移动到第k+1视频段的速度,所述第一时间为当前时间和第k视频段中间时间点之差,其中,k是满足以下条件的正整数:1<k<K-1;针对第K视频段,若播放时间大于第K视频段中间时间点,则保持第K视频段中裁剪框位置不变。
根据本公开实施例的第二方面,提供一种视频处理装置,包括:
提取单元,用于在具有第一宽高比的源视频中提取多个视频帧;裁剪单元,用于对所述多个视频帧中的每一视频帧分别进行多次裁剪,以生成具有第二宽高比的多个候选裁剪框;评分单元,用于对所述多个视频帧中每一视频帧的多个候选裁剪框分别确定评分,所述评分表征所述视频帧以每一候选裁剪框为裁剪范围时的播放效果;选择单元,用于基于所述评分在所述多个候选裁剪框中选择出每一视频帧的裁剪框;生成单元,用于对每一视频帧使用选择出的所述裁剪框进行裁剪,并生成具有所述第二宽高比的目标视频。
一种实施方式中,所述评分单元用于采用如下方式对所述候选裁剪框确定评分:
对所述候选裁剪框内的图像内容进行美学打分,得到所述候选裁剪框的评分。
另一种实施方式中,所述评分单元用于采用如下方式对所述候选裁剪框确定评分:
针对所述候选裁剪框中的每一像素进行显著性目标检测,并基于显著性目标检测结果确定每一像素的像素评分;根据所述候选裁剪框中各像素的像素评分,确定所述候选裁剪框的评分。
又一种实施方式中,所述选择单元采用如下方式基于所述评分在所述多个候选裁剪框中选择出每一视频帧的裁剪框:
针对所述多个视频帧中的每一视频帧,基于每两个候选裁剪框之间的位置,构建状态转移矩阵,所述状态转移矩阵用于对每一视频帧所选择的候选裁剪框在相邻各帧间的抖动进行平滑控制;基于最大目标函数,利用所述状态转移矩阵以及各候选裁剪框的评分,确定满足最大裁剪框评分的裁剪框序列,所述裁剪框序列中包括每一视频帧中所选择的候选裁剪框。
又一种实施方式中,所述选择单元采用如下方式基于每两个候选裁剪框之间的位置,构建状态转移矩阵:
基于每两个候选裁剪框之间的交并比以及系数乘子,构建状态转移矩阵,所述系数乘子用于控制平滑程度大小。
又一种实施方式中,所述选择单元采用如下方式基于每两个候选裁剪框之间的位置,构建状态转移矩阵:
基于每相邻两个候选裁剪框的中心位置之间的欧式距离、候选裁剪框的面积,以及系数乘子,构建状态转移矩阵,所述系数乘子用于控制平滑程度大小。
又一种实施方式中,所述装置还包括调整单元,所述调整单元用于:
在所述选择单元选择出每一视频帧的裁剪框之后,将所述源视频划分为相邻各帧间所选择的裁剪框位置与大小不变的多个视频段;基于相邻两个视频段的中间时间点以及相邻两个视频段中裁剪框之间的距离,确定裁剪框在所述相邻两个视频段中将要移动的速度;基于所述速度以及播放时间,调整所述相邻两个视频段中裁剪框的位置。
又一种实施方式中,所述多个视频段的总数为K,其中K为大于1的正整数;
所述调整单元采用如下方式基于所述速度以及播放时间,调整所述相邻两个视频段中裁剪框的位置:
针对第1视频段,若播放时间小于第1视频段中间时间点,则保持第1视频段中裁剪框位置不变;针对第k视频段和第k+1视频段,若播放时间大于等于第k视频段中间时间点且小于第k+1视频段中间时间点,则调整所述第k视频段中的裁剪框移动第一距离,所述第一距离为第一速度与第一时间的乘积,其中,所述第一速度为裁剪框从第k视频段移动到第k+1视频段的速度,所述第一时间为当前时间和第k视频段中间时间点之差,其中,k是满足以下条件的正整数:1<k<K-1;针对第K视频段,若播放时间大于第K视频段中间时间点,则保持第K视频段中裁剪框位置不变。
根据本公开实施例第三方面,提供一种视频处理装置,包括:
处理器;用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:执行第一方面或者第一方面任意一种实施方式中所述的视频处理方法。
根据本公开实施例第四方面,提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行第一方面或者第一方面任意一种实施方式中所述的视频处理方法。
本公开的实施例提供的技术方案可以包括以下有益效果:通过源视频中提取的多个视频帧中的每一视频帧分别进行多次裁剪生成具有第二宽高比的多个候选裁剪框,并基于候选裁剪框播放效果的评分选择出裁剪框,最终利用裁剪框裁剪视频帧生成具有所述第二宽高比的目标视频,能够实现将源视频按照目标宽高比输出,并能保证输出内容的播放效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种视频处理方法的流程图。
图2是根据一示例性实施例示出的一种基于评分在多个候选裁剪框中选择出每一视频帧的裁剪框实现帧间平滑控制的流程示意图。
图3是根据一示例性实施例示出的一种裁剪框位置调整方法流程图。
图4是根据一示例性实施例示出的一种视频处理装置的框图。
图5是根据一示例性实施例示出的一种用于视频处理的装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
相关技术中,为使源视频播放的宽高比与播放设备显示器的宽高比相匹配,使视频画面填满显示器以提供更好的用户体验,通常需要对视频画面进行缩放或裁剪。其中,对视频画面缩放的一种方案中,直接将源视频缩放到目标宽高比,由于源视频宽高比与目标宽高比不一致,这样视频横向与纵向的缩放因子必然不同,这将导致画面一定程度的拉伸或压缩,在两者宽高比差别较大时更为明显,较为影响观感。另一种方案中,尝试进行内容敏感的缩放,先检测并抠出视频中的重要物体/内容,然后将其贴回缩放到目标宽高比的背景上。但是,整个过程中涉及重要物体检测、图像修复、缩放及图像合成等多项操作,计算复杂度较大。对视频画面裁剪的方案中,一种通用的方式是采用保留视频画面中心的中心裁剪方法,并实时地将源视频输出到目标显示器上,实现“满屏播放”。整个实施过程中没有对内容进行纵横方向的不等比缩放,其显示的所有内容包括背景都不会出现拉伸或压缩。但裁掉视频两端多余内容,仅保留视频中央位置的做法难以确保不丢失视频中的关键内容,更无法保持裁剪出画面的美感。
有鉴于此,本公开实施例提供一种视频处理方法,结合固定区域裁剪和内容敏感区域进行视频处理,实现将源视频按照目标宽高比输出,并能保证输出内容的播放效果。
一种方式中,本公开实施例在源视频中提取多个视频帧,并对提取的多个视频帧中的每一视频帧分别进行多次裁剪生成具有目标宽高比的多个候选裁剪框,并基于候选裁剪框播放效果的评分选择出裁剪框,最终利用裁剪框裁剪视频帧生成具有目标宽高比的目标视频,实现将源视频按照目标宽高比输出,并能保证输出内容的播放效果。
图1是根据一示例性实施例示出的一种视频处理方法的流程图,如图1所示,视频处理方法包括以下步骤。
在步骤S11中,在具有第一宽高比的源视频中提取多个视频帧。
本公开实施例中,源视频可以理解为是待进行处理的视频,并具有一定的宽高比。为描述方便,将源视频的宽高比称为第一宽高比。
本公开实施例中,在具有第一宽高比的源视频中提取多个视频帧,以转换为图像进行后续裁剪处理。其中,在源视频中提取多个视频帧时,可以提取源视频中的所有视频帧,也可以等间隔的进行稀疏提取视频帧。
本公开实施例中将提取的多个视频帧的数量记为N,N为正整数。
在步骤S12中,对多个视频帧中的每一视频帧分别进行多次裁剪,以生成具有第二宽高比的多个候选裁剪框。
本公开实施例中,可以在视频完整幅面上,利用滑动窗口的方式以固定的步长生成具有目标宽高比的矩形框,作为候选裁剪框。其中,为描述方便,将目标宽高比称为第二宽高比。
本公开实施例中,将对每一视频帧进行多次裁剪后生成的多个候选裁剪框的数量记为M。其中,M为正整数。
其中,本公开实施例中,候选裁剪框的数量可以根据实际需求进行设定。其中,为了降低候选裁剪框的数量,且避免大量内容被裁剪丢掉,可以限制滑动窗口的大小大于或等于设定的阈值。
在步骤S13中,对多个视频帧中每一视频帧的多个候选裁剪框分别确定评分,评分表征视频帧以每一候选裁剪框为裁剪范围时的播放效果。
本公开实施例中,为实现内容敏感区域的确定,可以对以每一候选裁剪框为裁剪范围时的播放效果进行评分。通过评分的高低表征视频帧以每一候选裁剪框为裁剪范围时的播放效果。
本公开实施例一种实施方式中,可以对每一视频帧中的所有候选裁剪框的评分进行调整,以在每一视频帧中存在出裁剪框。一示例中,本公开实施例可以利用softmax函数,将每一视频帧中的所有候选裁剪框的评分调整为和为1,进而可以通过每一候选裁剪框权重评分高低表征视频帧以每一候选裁剪框为裁剪范围时的播放效果。
本公开实施例中,可以将第n帧的第m个候选裁剪框的评分记为Sn,m。其中,n为大于等于1,且小于等于N的正整数。m为大于等于1,且小于等于M的正整数。
在步骤S14中,基于评分在多个候选裁剪框中选择出每一视频帧的裁剪框。
在步骤S15中,对每一视频帧使用选择出的裁剪框进行裁剪,并生成具有第二宽高比的目标视频。
本公开实施例中,通过在具有第一宽高比的源视频中提取的多个视频帧中的每一视频帧分别进行多次裁剪生成具有第二宽高比的多个候选裁剪框,并基于候选裁剪框播放效果的评分选择出裁剪框,最终利用裁剪框裁剪视频帧生成具有所述第二宽高比的目标视频,能够实现将源视频按照目标宽高比输出,并能保证输出内容的播放效果。
本公开实施例以下将结合实际应用对上述实施例涉及的视频处理过程进行说明。
本公开实施例中,首先对候选裁剪框进行评分的过程进行说明。
本公开实施例中,针对源视频中提取到的N个视频帧,需逐帧进行候选裁剪框评分的确定。
一种实施方式中,对候选裁剪框确定评分时,可以对候选裁剪框内的图像内容进行美学打分,得到候选裁剪框的评分。本公开实施例中,对美学打分的具体实施过程不做限定,可以利用已有的图像美学裁剪方法或图像美学评分方法对每一帧上的所有M个候选裁剪框进行美学打分。然后利用利用softmax函数,将每一视频帧中的所有候选裁剪框的评分调整为和为1,进而可以得到每一帧上的所有M个候选裁剪框的评分。例如,得到第n帧的第m个候选裁剪框的评分Sn,m
另一种实施方式中,对候选裁剪框确定评分时,也可以基于显著性目标检测方式进行评分。其中,本公开实施例中针对每一帧上的所有M个候选裁剪框中的每一候选裁剪框,分别采用如下方式确定评分:对候选裁剪框中的每一像素进行显著性目标检测,并基于显著性目标检测结果确定每一像素的像素评分。根据候选裁剪框中各像素的像素评分,确定候选裁剪框的评分。
本公开实施例中,基于每一视频帧所选择的候选裁剪框选择出的裁剪框进行视频播放时可能会出现帧间抖动问题。本公开实施例中,基于评分在多个候选裁剪框中选择每一视频帧的裁剪框时对相邻各帧间的抖动进行平滑控制。
本公开实施例一种实施方式中,将在多个候选裁剪框中选择每一视频帧的裁剪框的过程看作分类过程,采用线性链条件随机场(Linear chain Conditional RandomFields,linear-CRF)模型进行处理,以消除相邻各帧间的抖动。
图2是根据一示例性实施例示出的一种基于评分在多个候选裁剪框中选择出每一视频帧的裁剪框实现帧间平滑控制的流程示意图。参阅图2所示,对相邻各帧间的抖动进行平滑控制可包括如下步骤。
在步骤S141中,针对多个视频帧中的每一视频帧,基于每两个候选裁剪框之间的位置,构建状态转移矩阵。
本公开实施例构建的状态转移矩阵用于对每一视频帧所选择的候选裁剪框在相邻各帧间的抖动进行平滑控制。
本公开实施例中,根据候选裁剪框之间位置大小的差异来设置状态转移矩阵,以下将状态转移矩阵表示为:W∈RM×M
一种实施方式中,可以基于每两个候选裁剪框之间的交并比(Intersection overUnion,IoU)以及系数乘子,构建状态转移矩阵。
如基于两个裁剪框之间的交并比来计算,则具体计算公式如下:
Wi,j=α×IoU(Ri,Rj)
其中,Wi,j表示状态转移矩阵W中第i行第j列的值;Ri表示第i个候选裁剪框,IoU(Ri,Rj)表示计算第i个候选裁剪框与第j个候选裁剪框之间的IoU;α为系数乘子并用于控制平滑程度大小,可以通过调整α的大小实现对平滑程度的控制。
另一种实施方式中,本公开实施例中可以基于每相邻两个候选裁剪框的中心位置之间的欧式距离、候选裁剪框的面积,以及系数乘子,构建状态转移矩阵,所述系数乘子用于控制平滑程度大小。
例如,本公开实施例中同时考虑了裁剪框的大小和中心位置后,可以采用如下公式确定状态转移矩阵:
Figure BDA0002407400110000081
其中,Ceni表示第i个候选裁剪框的中心坐标;Areai表示第i个候选裁剪框的面积;Diff(Ceni,Cenj)函数用于计算两个裁剪框中心坐标的差异,其中,可以直接用欧氏距离来计算;λ用于平衡中心点位置和面积差异的影响大小,可以通过调整λ来平衡面积变化和中心点位置变化的影响大小;α为系数乘子并用于控制平滑程度大小,可以通过调整α的大小实现对平滑程度的控制。
在步骤S142中,基于最大目标函数,利用状态转移矩阵以及各候选裁剪框的评分,确定满足最大裁剪框评分的裁剪框序列,裁剪框序列中包括每一视频帧中所选择的候选裁剪框。
一种实施方式中,本公开实施例可以利用维特比算法求解如下最大目标函数,以得到没有帧间抖动的裁剪框序列Y={y1,y2,…,yN}。
Figure BDA0002407400110000091
其中,yi∈[1,M]表示第i帧所选择的候选裁剪框序号。
Figure BDA0002407400110000092
表示第n帧中所选择的第y个候选裁剪框的评分。
Figure BDA0002407400110000093
表示第n帧中所选择的第y个候选裁剪框与第n-1帧中所选择的第y个候选裁剪框对应的状态转移矩阵值。
本公开实施例中,经过上述防抖平滑处理后使得各裁剪框在帧间没有抖动。通常,在一段时间内候选裁剪框的位置与大小不变,但会突然跳跃到另一候选裁剪框上并保持一段时间。裁剪框的这种跳跃也会导致最后输出的视频内容的跳跃和不连贯。因此需要对这种裁剪框变化进行平滑处理,包括裁剪框移动和缩放的平滑,进行裁剪框位置的调整。
图3是根据一示例性实施例示出的一种裁剪框位置调整方法流程图。参阅图3所示,裁剪框位置调整方法包括如下步骤。
在步骤S21中,将源视频划分为相邻各帧间所选择的裁剪框位置与大小不变的多个视频段。
本公开实施例中可以确定裁剪框位置与大小不变的各个视频段,假设多个视频段的总数为K,其中K为大于1的正整数。
在步骤S22中,基于相邻两个视频段的中间时间点以及相邻两个视频段中裁剪框之间的距离,确定裁剪框在相邻两个视频段中将要移动的速度。
本公开实施例中,假设第k段视频的时长为Tk,中间时间点为tk。其中,k∈[1,K]。利用向量Boxk=[x1k,y1k,x2k,y2k]表示第k∈[1,K]段视频的裁剪框,其中x1k,y1k分别为该裁剪框左上顶点的横纵坐标,x2k,y2k分别为该裁剪框右下顶点的横纵坐标。
在确定裁剪框移动速度时,可以利用如下公式计算出裁剪框从第k段移动到第k+1段的速度:
Figure BDA0002407400110000094
其中,裁剪框的减法为四个坐标分别相减。计算出来的速度vk=[v1k,v2k,v3k,v4k]中每一个数值对应每一个坐标沿特定轴的移动速度,即v1k,v3k分别为左上角和右下角顶点沿x轴的移动速度,v2k,v4k分别为左上角和右下角顶点沿y轴的移动速度。
在步骤S23中,基于裁剪框在相邻两个视频段中将要移动的速度以及播放时间,调整相邻两个视频段中裁剪框的位置。
本公开实施例中,针对第1视频段,若播放时间小于第1视频段中间时间点,则保持第1视频段中裁剪框位置不变。
针对k∈[1,K-1]时,对于第k视频段和第k+1视频段,若播放时间大于等于第k视频段中间时间点且小于第k+1视频段中间时间点,则调整第k视频段中的裁剪框移动第一距离,第一距离为第一速度与第一时间的乘积,其中,所述第一速度为裁剪框从第k视频段移动到第k+1视频段的速度,第一时间为当前时间和第k视频段中间时间点之差。
针对第K视频段,若播放时间大于第K视频段中间时间点,则保持第K视频段中裁剪框位置不变。
本公开实施例中,对任意时刻t,可利用如下公式计算该时刻的裁剪框位置Bt
Figure BDA0002407400110000101
其中,若t<t1(即第一段视频的前半段),则Bt=Box1。若t>tK(即最后一段视频的后半段),则Bt=BoxK。对于,k∈[1,K-1],使得tk≤t<tk+1,Bt=Boxk+vk×(t-tk)。
本公开实施例中,针对源视频中的每一视频帧采用如上方式裁剪生成裁剪框,其中,裁剪生成的裁剪框具有相同的宽高比。将具有相同宽高比的裁剪框缩放到相同分辨率后重新组合为视频,即可得到目标视频进行输出,实现将源视频按照目标宽高比输出,并能保证输出内容的播放效果。
基于相同的构思,本公开实施例还提供一种视频处理装置。
可以理解的是,本公开实施例提供的视频处理装置为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。结合本公开实施例中所公开的各示例的单元及算法步骤,本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能,但是这种实现不应认为超出本公开实施例的技术方案的范围。
图4是根据一示例性实施例示出的一种视频处理装置框图。参照图4,视频处理装置100包括提取单元101、裁剪单元102、评分单元103、选择单元104和生成单元105。
提取单元101,用于在具有第一宽高比的源视频中提取多个视频帧。裁剪单元102,用于对多个视频帧中的每一视频帧分别进行多次裁剪,以生成具有第二宽高比的多个候选裁剪框。评分单元103,用于对多个视频帧中每一视频帧的多个候选裁剪框分别确定评分,评分表征视频帧以每一候选裁剪框为裁剪范围时的播放效果。选择单元104,用于基于评分在多个候选裁剪框中选择出每一视频帧的裁剪框。生成单元105,用于对每一视频帧使用选择出的裁剪框进行裁剪,并生成具有第二宽高比的目标视频。
一种实施方式中,评分单元103对候选裁剪框内的图像内容进行美学打分,得到候选裁剪框的评分。
另一种实施方式中,评分单元103针对候选裁剪框中的每一像素进行显著性目标检测,并基于显著性目标检测结果确定每一像素的像素评分。根据候选裁剪框中各像素的像素评分,确定候选裁剪框的评分。
又一种实施方式中,选择单元104采用如下方式基于评分在多个候选裁剪框中选择出每一视频帧的裁剪框:
针对多个视频帧中的每一视频帧,基于每两个候选裁剪框之间的位置,构建状态转移矩阵,状态转移矩阵用于对每一视频帧所选择的候选裁剪框在相邻各帧间的抖动进行平滑控制。基于最大目标函数,利用状态转移矩阵以及各候选裁剪框的评分,确定满足最大裁剪框评分的裁剪框序列,裁剪框序列中包括每一视频帧中所选择的候选裁剪框。
又一种实施方式中,选择单元104基于每两个候选裁剪框之间的交并比以及系数乘子,构建状态转移矩阵,系数乘子用于控制平滑程度大小。
又一种实施方式中,选择单元104基于每相邻两个候选裁剪框的中心位置之间的欧式距离、候选裁剪框的面积,以及系数乘子,构建状态转移矩阵,系数乘子用于控制平滑程度大小。
又一种实施方式中,视频处理装置100还包括调整单元106,调整单元106用于:在选择单元104选择出每一视频帧的裁剪框之后,将源视频划分为相邻各帧间所选择的裁剪框位置与大小不变的多个视频段。基于相邻两个视频段的中间时间点以及相邻两个视频段中裁剪框之间的距离,确定裁剪框在相邻两个视频段中将要移动的速度。基于速度以及播放时间,调整相邻两个视频段中裁剪框的位置。
又一种实施方式中,多个视频段的总数为K,其中K为大于1的正整数。
调整单元106采用如下方式基于速度以及播放时间,调整相邻两个视频段中裁剪框的位置:
针对第1视频段,若播放时间小于第1视频段中间时间点,则保持第1视频段中裁剪框位置不变。针对第k视频段和第k+1视频段,若播放时间大于等于第k视频段中间时间点且小于第k+1视频段中间时间点,则调整第k视频段中的裁剪框移动第一距离,第一距离为第一速度与第一时间的乘积,其中,第一速度为裁剪框从第k视频段移动到第k+1视频段的速度,第一时间为当前时间和第k视频段中间时间点之差,其中,k是满足以下条件的正整数:1<k<K-1。针对第K视频段,若播放时间大于第K视频段中间时间点,则保持第K视频段中裁剪框位置不变。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图5是根据一示例性实施例示出的一种用于视频处理的装置200的框图。例如,装置200可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图5,装置200可以包括以下一个或多个组件:处理组件202,存储器204,电力组件206,多媒体组件208,音频组件210,输入/输出(I/O)的接口212,传感器组件214,以及通信组件216。
处理组件202通常控制装置200的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件202可以包括一个或多个处理器220来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件202可以包括一个或多个模块,便于处理组件202和其他组件之间的交互。例如,处理组件202可以包括多媒体模块,以方便多媒体组件208和处理组件202之间的交互。
存储器204被配置为存储各种类型的数据以支持在设备200的操作。这些数据的示例包括用于在装置200上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件206为装置200的各种组件提供电力。电力组件206可以包括电源管理系统,一个或多个电源,及其他与为装置200生成、管理和分配电力相关联的组件。
多媒体组件208包括在所述装置200和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件208包括一个前置摄像头和/或后置摄像头。当设备200处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件210被配置为输出和/或输入音频信号。例如,音频组件210包括一个麦克风(MIC),当装置200处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器204或经由通信组件216发送。在一些实施例中,音频组件210还包括一个扬声器,用于输出音频信号。
I/O接口212为处理组件202和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件214包括一个或多个传感器,用于为装置200提供各个方面的状态评估。例如,传感器组件214可以检测到设备200的打开/关闭状态,组件的相对定位,例如所述组件为装置200的显示器和小键盘,传感器组件214还可以检测装置200或装置200一个组件的位置改变,用户与装置200接触的存在或不存在,装置200方位或加速/减速和装置200的温度变化。传感器组件214可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件214还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件214还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件216被配置为便于装置200和其他设备之间有线或无线方式的通信。装置200可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件216还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器204,上述指令可由装置200的处理器220执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
可以理解的是,本公开中“多个”是指两个或两个以上,其它量词与之类似。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
进一步可以理解的是,术语“第一”、“第二”等用于描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开,并不表示特定的顺序或者重要程度。实际上,“第一”、“第二”等表述完全可以互换使用。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。
进一步可以理解的是,本公开实施例中尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (18)

1.一种视频处理方法,其特征在于,包括:
在具有第一宽高比的源视频中提取多个视频帧;
对所述多个视频帧中的每一视频帧分别进行多次裁剪,以生成具有第二宽高比的多个候选裁剪框;
对所述多个视频帧中每一视频帧的多个候选裁剪框分别确定评分,所述评分表征所述视频帧以每一候选裁剪框为裁剪范围时的播放效果,并基于所述评分在所述多个候选裁剪框中选择出每一视频帧的裁剪框;
对每一视频帧使用选择出的所述裁剪框进行裁剪,并生成具有所述第二宽高比的目标视频。
2.根据权利要求1所述的视频处理方法,其特征在于,对所述候选裁剪框确定评分,包括:
对所述候选裁剪框内的图像内容进行美学打分,得到所述候选裁剪框的评分。
3.根据权利要求1所述的视频处理方法,其特征在于,对所述候选裁剪框确定评分,包括:
针对所述候选裁剪框中的每一像素进行显著性目标检测,并基于显著性目标检测结果确定每一像素的像素评分;
根据所述候选裁剪框中各像素的像素评分,确定所述候选裁剪框的评分。
4.根据权利要求1至3中任意一项所述的视频处理方法,其特征在于,基于所述评分在所述多个候选裁剪框中选择出每一视频帧的裁剪框,包括:
针对所述多个视频帧中的每一视频帧,基于每两个候选裁剪框之间的位置,构建状态转移矩阵,所述状态转移矩阵用于对每一视频帧所选择的候选裁剪框在相邻各帧间的抖动进行平滑控制;
基于最大目标函数,利用所述状态转移矩阵以及各候选裁剪框的评分,确定满足最大裁剪框评分的裁剪框序列,所述裁剪框序列中包括每一视频帧中所选择的候选裁剪框。
5.根据权利要求4所述的视频处理方法,其特征在于,基于每两个候选裁剪框之间的位置,构建状态转移矩阵,包括:
基于每两个候选裁剪框之间的交并比以及系数乘子,构建状态转移矩阵,所述系数乘子用于控制平滑程度大小。
6.根据权利要求4所述的视频处理方法,其特征在于,基于每两个候选裁剪框之间的位置,构建状态转移矩阵,包括:
基于每相邻两个候选裁剪框的中心位置之间的欧式距离、候选裁剪框的面积,以及系数乘子,构建状态转移矩阵,所述系数乘子用于控制平滑程度大小。
7.根据权利要求4所述的视频处理方法,其特征在于,选择出每一视频帧的裁剪框之后,所述方法还包括:
将所述源视频划分为相邻各帧间所选择的裁剪框位置与大小不变的多个视频段;
基于相邻两个视频段的中间时间点以及相邻两个视频段中裁剪框之间的距离,确定裁剪框在所述相邻两个视频段中将要移动的速度;
基于所述速度以及播放时间,调整所述相邻两个视频段中裁剪框的位置。
8.根据权利要求7所述的视频处理方法,其特征在于,所述多个视频段的总数为K,其中K为大于1的正整数;
基于所述速度以及播放时间,调整所述相邻两个视频段中裁剪框的位置,包括:
针对第1视频段,若播放时间小于第1视频段中间时间点,则保持第1视频段中裁剪框位置不变;
针对第k视频段和第k+1视频段,若播放时间大于等于第k视频段中间时间点且小于第k+1视频段中间时间点,则调整所述第k视频段中的裁剪框移动第一距离,所述第一距离为第一速度与第一时间的乘积,其中,所述第一速度为裁剪框从第k视频段移动到第k+1视频段的速度,所述第一时间为当前时间和第k视频段中间时间点之差,其中,k是满足以下条件的正整数:1<k<K-1;
针对第K视频段,若播放时间大于第K视频段中间时间点,则保持第K视频段中裁剪框位置不变。
9.一种视频处理装置,其特征在于,包括:
提取单元,用于在具有第一宽高比的源视频中提取多个视频帧;
裁剪单元,用于对所述多个视频帧中的每一视频帧分别进行多次裁剪,以生成具有第二宽高比的多个候选裁剪框;
评分单元,用于对所述多个视频帧中每一视频帧的多个候选裁剪框分别确定评分,所述评分表征所述视频帧以每一候选裁剪框为裁剪范围时的播放效果;
选择单元,用于基于所述评分在所述多个候选裁剪框中选择出每一视频帧的裁剪框;
生成单元,用于对每一视频帧使用选择出的所述裁剪框进行裁剪,并生成具有所述第二宽高比的目标视频。
10.根据权利要求9所述的视频处理装置,其特征在于,所述评分单元用于采用如下方式对所述候选裁剪框确定评分:
对所述候选裁剪框内的图像内容进行美学打分,得到所述候选裁剪框的评分。
11.根据权利要求9所述的视频处理装置,其特征在于,所述评分单元用于采用如下方式对所述候选裁剪框确定评分:
针对所述候选裁剪框中的每一像素进行显著性目标检测,并基于显著性目标检测结果确定每一像素的像素评分;
根据所述候选裁剪框中各像素的像素评分,确定所述候选裁剪框的评分。
12.根据权利要求9至11中任意一项所述的视频处理装置,其特征在于,所述选择单元采用如下方式基于所述评分在所述多个候选裁剪框中选择出每一视频帧的裁剪框:
针对所述多个视频帧中的每一视频帧,基于每两个候选裁剪框之间的位置,构建状态转移矩阵,所述状态转移矩阵用于对每一视频帧所选择的候选裁剪框在相邻各帧间的抖动进行平滑控制;
基于最大目标函数,利用所述状态转移矩阵以及各候选裁剪框的评分,确定满足最大裁剪框评分的裁剪框序列,所述裁剪框序列中包括每一视频帧中所选择的候选裁剪框。
13.根据权利要求12所述的视频处理装置,其特征在于,所述选择单元采用如下方式基于每两个候选裁剪框之间的位置,构建状态转移矩阵:
基于每两个候选裁剪框之间的交并比以及系数乘子,构建状态转移矩阵,所述系数乘子用于控制平滑程度大小。
14.根据权利要求12所述的视频处理装置,其特征在于,所述选择单元采用如下方式基于每两个候选裁剪框之间的位置,构建状态转移矩阵:
基于每相邻两个候选裁剪框的中心位置之间的欧式距离、候选裁剪框的面积,以及系数乘子,构建状态转移矩阵,所述系数乘子用于控制平滑程度大小。
15.根据权利要求12所述的视频处理装置,其特征在于,所述装置还包括调整单元,所述调整单元用于:
在所述选择单元选择出每一视频帧的裁剪框之后,将所述源视频划分为相邻各帧间所选择的裁剪框位置与大小不变的多个视频段;
基于相邻两个视频段的中间时间点以及相邻两个视频段中裁剪框之间的距离,确定裁剪框在所述相邻两个视频段中将要移动的速度;
基于所述速度以及播放时间,调整所述相邻两个视频段中裁剪框的位置。
16.根据权利要求15所述的视频处理装置,其特征在于,所述多个视频段的总数为K,其中K为大于1的正整数;
所述调整单元采用如下方式基于所述速度以及播放时间,调整所述相邻两个视频段中裁剪框的位置:
针对第1视频段,若播放时间小于第1视频段中间时间点,则保持第1视频段中裁剪框位置不变;
针对第k视频段和第k+1视频段,若播放时间大于等于第k视频段中间时间点且小于第k+1视频段中间时间点,则调整所述第k视频段中的裁剪框移动第一距离,所述第一距离为第一速度与第一时间的乘积,其中,所述第一速度为裁剪框从第k视频段移动到第k+1视频段的速度,所述第一时间为当前时间和第k视频段中间时间点之差,其中,k是满足以下条件的正整数:1<k<K-1;
针对第K视频段,若播放时间大于第K视频段中间时间点,则保持第K视频段中裁剪框位置不变。
17.一种视频处理装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:执行权利要求1至8中任意一项所述的视频处理方法。
18.一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行权利要求1至8中任意一项所述的视频处理方法。
CN202010165769.4A 2020-03-11 2020-03-11 视频处理方法、视频处理装置及存储介质 Active CN111356016B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202010165769.4A CN111356016B (zh) 2020-03-11 2020-03-11 视频处理方法、视频处理装置及存储介质
JP2020125375A JP7062036B2 (ja) 2020-03-11 2020-07-22 ビデオ処理方法、ビデオ処理装置および記憶媒体
KR1020200090665A KR102301447B1 (ko) 2020-03-11 2020-07-22 비디오 처리 방법, 비디오 처리 장치 및 저장 매체
US16/984,527 US11488383B2 (en) 2020-03-11 2020-08-04 Video processing method, video processing device, and storage medium
EP20191826.5A EP3879530A1 (en) 2020-03-11 2020-08-19 Video processing method, video processing device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010165769.4A CN111356016B (zh) 2020-03-11 2020-03-11 视频处理方法、视频处理装置及存储介质

Publications (2)

Publication Number Publication Date
CN111356016A true CN111356016A (zh) 2020-06-30
CN111356016B CN111356016B (zh) 2022-04-22

Family

ID=71194437

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010165769.4A Active CN111356016B (zh) 2020-03-11 2020-03-11 视频处理方法、视频处理装置及存储介质

Country Status (5)

Country Link
US (1) US11488383B2 (zh)
EP (1) EP3879530A1 (zh)
JP (1) JP7062036B2 (zh)
KR (1) KR102301447B1 (zh)
CN (1) CN111356016B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112565890A (zh) * 2020-12-02 2021-03-26 北京有竹居网络技术有限公司 视频裁剪方法、装置、存储介质及电子设备
CN113840172A (zh) * 2021-09-28 2021-12-24 北京奇艺世纪科技有限公司 视频裁剪方法、装置、终端设备以及可读存储介质
CN114026874A (zh) * 2020-10-27 2022-02-08 深圳市大疆创新科技有限公司 视频处理方法、装置、可移动设备及可读存储介质
WO2022068551A1 (zh) * 2020-09-30 2022-04-07 北京字节跳动网络技术有限公司 裁剪视频的方法、装置、设备以及存储介质
CN114898171A (zh) * 2022-04-07 2022-08-12 中国科学院光电技术研究所 一种适用于嵌入式平台的实时目标检测方法
CN115379246A (zh) * 2021-05-21 2022-11-22 北京字节跳动网络技术有限公司 直播视频流播放方法、装置、电子设备及存储介质

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040202349A1 (en) * 2003-04-11 2004-10-14 Ricoh Company, Ltd. Automated techniques for comparing contents of images
CN102187663A (zh) * 2008-05-21 2011-09-14 松下电器产业株式会社 摄像装置、摄像方法及集成电路
CN105227999A (zh) * 2015-09-29 2016-01-06 北京奇艺世纪科技有限公司 一种视频裁剪的方法和装置
CN107103583A (zh) * 2016-02-19 2017-08-29 联发科技股份有限公司 图像数据处理系统和相关方法以及相关图像融合方法
CN107155065A (zh) * 2017-06-28 2017-09-12 哈尔滨市舍科技有限公司 一种虚拟拍照装置及方法
CN107396018A (zh) * 2017-08-09 2017-11-24 维沃移动通信有限公司 一种录像方法、移动终端及计算机可读存储介质
CN107463912A (zh) * 2017-08-10 2017-12-12 武汉大学深圳研究院 基于运动显著性的视频人体行为识别方法
CN108280808A (zh) * 2017-12-15 2018-07-13 西安电子科技大学 基于结构化输出相关滤波器的目标跟踪方法
CN110062279A (zh) * 2019-04-22 2019-07-26 努比亚技术有限公司 视频裁剪方法、可穿戴设备以及计算机可读存储介质
CN110139107A (zh) * 2013-04-25 2019-08-16 安华高科技股份有限公司 用于处理视频数据的系统和方法
CN110149532A (zh) * 2019-06-24 2019-08-20 北京奇艺世纪科技有限公司 一种封面选取方法及相关设备
CN110189378A (zh) * 2019-05-23 2019-08-30 北京奇艺世纪科技有限公司 一种视频处理方法、装置及电子设备
CN110347877A (zh) * 2019-06-27 2019-10-18 北京奇艺世纪科技有限公司 一种视频处理方法、装置、电子设备及存储介质
CN110414399A (zh) * 2019-07-22 2019-11-05 北京三快在线科技有限公司 信号灯的检测方法、装置及智能驾驶设备
US20200004781A1 (en) * 2007-06-18 2020-01-02 Gracenote, Inc. Method and Apparatus for Multi-Dimensional Content Search and Video Identification
US20200026954A1 (en) * 2019-09-27 2020-01-23 Intel Corporation Video tracking with deep siamese networks and bayesian optimization
US10567764B2 (en) * 2011-08-29 2020-02-18 Beamr Imaging Controlling a video content system by adjusting the compression parameters
CN110868631A (zh) * 2018-08-28 2020-03-06 腾讯科技(深圳)有限公司 视频剪辑方法、装置、终端及存储介质
CN112307925A (zh) * 2020-10-23 2021-02-02 腾讯科技(深圳)有限公司 图像检测方法、图像显示方法、相关设备及存储介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9123380B2 (en) * 1998-12-18 2015-09-01 Gvbb Holdings S.A.R.L. Systems, methods, and computer program products for automated real-time execution of live inserts of repurposed stored content distribution, and multiple aspect ratio automated simulcast production
JP2005229578A (ja) * 2004-01-14 2005-08-25 Matsushita Electric Ind Co Ltd 映像信号表示装置
US9240056B2 (en) * 2008-04-02 2016-01-19 Microsoft Technology Licensing, Llc Video retargeting
US8610790B2 (en) * 2011-08-25 2013-12-17 AltaSens, Inc Programmable data readout for an optical sensor
US8891009B2 (en) * 2011-08-29 2014-11-18 Futurewei Technologies, Inc. System and method for retargeting video sequences
US10319410B1 (en) * 2015-12-21 2019-06-11 Amazon Technologies, Inc. Video story assembly
US10154228B1 (en) * 2015-12-23 2018-12-11 Amazon Technologies, Inc. Smoothing video panning
US10239456B1 (en) * 2016-02-10 2019-03-26 Ambarella, Inc. Apparatus to adjust a field of view displayed on an electronic mirror using an automobile state or a driver action
US11282165B2 (en) * 2016-02-26 2022-03-22 Netflix, Inc. Dynamically cropping digital content for display in any aspect ratio
JP2019149785A (ja) * 2018-02-28 2019-09-05 日本放送協会 映像変換装置及びプログラム
US10986308B2 (en) * 2019-03-20 2021-04-20 Adobe Inc. Intelligent video reframing
CN110611787B (zh) * 2019-06-10 2021-05-28 海信视像科技股份有限公司 一种显示器及图像处理方法
CN110602527B (zh) 2019-09-12 2022-04-08 北京小米移动软件有限公司 视频处理方法、装置及存储介质
US11080549B1 (en) * 2020-01-22 2021-08-03 Gracenote, Inc. Automated cropping of images using a machine learning predictor
US11145065B2 (en) * 2020-01-22 2021-10-12 Gracenote, Inc. Selection of video frames using a machine learning predictor
US11941816B2 (en) * 2020-01-22 2024-03-26 Gracenote, Inc. Automated cropping of images using a machine learning predictor
US11184558B1 (en) * 2020-06-12 2021-11-23 Adobe Inc. System for automatic video reframing

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040202349A1 (en) * 2003-04-11 2004-10-14 Ricoh Company, Ltd. Automated techniques for comparing contents of images
US20200004781A1 (en) * 2007-06-18 2020-01-02 Gracenote, Inc. Method and Apparatus for Multi-Dimensional Content Search and Video Identification
CN102187663A (zh) * 2008-05-21 2011-09-14 松下电器产业株式会社 摄像装置、摄像方法及集成电路
US10567764B2 (en) * 2011-08-29 2020-02-18 Beamr Imaging Controlling a video content system by adjusting the compression parameters
CN110139107A (zh) * 2013-04-25 2019-08-16 安华高科技股份有限公司 用于处理视频数据的系统和方法
CN105227999A (zh) * 2015-09-29 2016-01-06 北京奇艺世纪科技有限公司 一种视频裁剪的方法和装置
CN107103583A (zh) * 2016-02-19 2017-08-29 联发科技股份有限公司 图像数据处理系统和相关方法以及相关图像融合方法
CN107155065A (zh) * 2017-06-28 2017-09-12 哈尔滨市舍科技有限公司 一种虚拟拍照装置及方法
CN107396018A (zh) * 2017-08-09 2017-11-24 维沃移动通信有限公司 一种录像方法、移动终端及计算机可读存储介质
CN107463912A (zh) * 2017-08-10 2017-12-12 武汉大学深圳研究院 基于运动显著性的视频人体行为识别方法
CN108280808A (zh) * 2017-12-15 2018-07-13 西安电子科技大学 基于结构化输出相关滤波器的目标跟踪方法
CN110868631A (zh) * 2018-08-28 2020-03-06 腾讯科技(深圳)有限公司 视频剪辑方法、装置、终端及存储介质
CN110062279A (zh) * 2019-04-22 2019-07-26 努比亚技术有限公司 视频裁剪方法、可穿戴设备以及计算机可读存储介质
CN110189378A (zh) * 2019-05-23 2019-08-30 北京奇艺世纪科技有限公司 一种视频处理方法、装置及电子设备
CN110149532A (zh) * 2019-06-24 2019-08-20 北京奇艺世纪科技有限公司 一种封面选取方法及相关设备
CN110347877A (zh) * 2019-06-27 2019-10-18 北京奇艺世纪科技有限公司 一种视频处理方法、装置、电子设备及存储介质
CN110414399A (zh) * 2019-07-22 2019-11-05 北京三快在线科技有限公司 信号灯的检测方法、装置及智能驾驶设备
US20200026954A1 (en) * 2019-09-27 2020-01-23 Intel Corporation Video tracking with deep siamese networks and bayesian optimization
CN112307925A (zh) * 2020-10-23 2021-02-02 腾讯科技(深圳)有限公司 图像检测方法、图像显示方法、相关设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WENZHONG WANG: "《Selecting attentive frames from visually coherent video chunks for surveillance video summarization》", 《2017 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING》 *
胡晨: "《基于无人机系统的多相机矩阵实时视频融合和智能分析》", 《中国优秀硕士学位论文全文数据库》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022068551A1 (zh) * 2020-09-30 2022-04-07 北京字节跳动网络技术有限公司 裁剪视频的方法、装置、设备以及存储介质
EP4224869A4 (en) * 2020-09-30 2023-12-20 Beijing Bytedance Network Technology Co., Ltd. VIDEO CUTTING METHOD AND APPARATUS AND APPARATUS AND STORAGE MEDIUM
US11881007B2 (en) 2020-09-30 2024-01-23 Beijing Bytedance Network Technology Co., Ltd. Video cropping method and apparatus, device, and storage medium
CN114026874A (zh) * 2020-10-27 2022-02-08 深圳市大疆创新科技有限公司 视频处理方法、装置、可移动设备及可读存储介质
CN112565890A (zh) * 2020-12-02 2021-03-26 北京有竹居网络技术有限公司 视频裁剪方法、装置、存储介质及电子设备
WO2022116990A1 (zh) * 2020-12-02 2022-06-09 北京有竹居网络技术有限公司 视频裁剪方法、装置、存储介质及电子设备
CN112565890B (zh) * 2020-12-02 2022-09-16 北京有竹居网络技术有限公司 视频裁剪方法、装置、存储介质及电子设备
CN115379246A (zh) * 2021-05-21 2022-11-22 北京字节跳动网络技术有限公司 直播视频流播放方法、装置、电子设备及存储介质
CN113840172A (zh) * 2021-09-28 2021-12-24 北京奇艺世纪科技有限公司 视频裁剪方法、装置、终端设备以及可读存储介质
CN113840172B (zh) * 2021-09-28 2023-01-03 北京奇艺世纪科技有限公司 视频裁剪方法、装置、终端设备以及可读存储介质
CN114898171A (zh) * 2022-04-07 2022-08-12 中国科学院光电技术研究所 一种适用于嵌入式平台的实时目标检测方法
CN114898171B (zh) * 2022-04-07 2023-09-22 中国科学院光电技术研究所 一种适用于嵌入式平台的实时目标检测方法

Also Published As

Publication number Publication date
JP7062036B2 (ja) 2022-05-02
US20210287009A1 (en) 2021-09-16
EP3879530A1 (en) 2021-09-15
KR102301447B1 (ko) 2021-09-14
JP2021145322A (ja) 2021-09-24
CN111356016B (zh) 2022-04-22
US11488383B2 (en) 2022-11-01

Similar Documents

Publication Publication Date Title
CN111356016B (zh) 视频处理方法、视频处理装置及存储介质
US10032076B2 (en) Method and device for displaying image
CN107492115B (zh) 目标对象的检测方法及装置
CN109089170A (zh) 弹幕显示方法及装置
US10212386B2 (en) Method, device, terminal device, and storage medium for video effect processing
EP3010226A2 (en) Method and apparatus for obtaining photograph
US9959484B2 (en) Method and apparatus for generating image filter
JP6211715B2 (ja) ビデオのブラウジング方法、その装置、プログラム及び記録媒体
CN107888984B (zh) 短视频播放方法及装置
CN112256169B (zh) 内容展示方法、装置、电子设备及存储介质
US11770497B2 (en) Method and device for processing video, and storage medium
US11310443B2 (en) Video processing method, apparatus and storage medium
JP7110443B2 (ja) 撮影方法及び撮影装置、電子機器、記憶媒体
EP3040912A1 (en) Method and device for classifying pictures
CN112508773B (zh) 图像处理方法及装置、电子设备、存储介质
CN108986117B (zh) 视频图像分割方法及装置
KR102128955B1 (ko) 스핀 이미지 생성 방법 및 그 장치
CN107027041B (zh) 场景展示方法及装置
CN114422692B (zh) 视频录制方法、装置及电子设备
CN113923486B (zh) 一种预生成多流超高清视频播放系统及方法
KR20140089829A (ko) 전자 장치에서 움직이는 사진 제어 장치 및 방법
US9665925B2 (en) Method and terminal device for retargeting images
EP3799415A2 (en) Method and device for processing videos, and medium
CN111383296A (zh) 绘制轨迹的显示方法、装置及存储介质
WO2021189927A1 (zh) 图像处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
CB02 Change of applicant information

Address after: 100085 unit C, building C, lin66, Zhufang Road, Qinghe, Haidian District, Beijing

Applicant after: Beijing Xiaomi pinecone Electronic Co.,Ltd.

Address before: 100085 unit C, building C, lin66, Zhufang Road, Qinghe, Haidian District, Beijing

Applicant before: BEIJING PINECONE ELECTRONICS Co.,Ltd.

CB02 Change of applicant information
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230109

Address after: 201206 2 floor, 13 building, 27 Jinqiao Road, China (Shanghai) free trade pilot area, Pudong New Area, Shanghai.

Patentee after: Shanghai Xuanjie Technology Co.,Ltd.

Address before: 100085 unit C, building C, lin66, Zhufang Road, Qinghe, Haidian District, Beijing

Patentee before: Beijing Xiaomi pinecone Electronic Co.,Ltd.

TR01 Transfer of patent right