CN113014957A - 视频镜头切分方法和装置、介质和计算机设备 - Google Patents

视频镜头切分方法和装置、介质和计算机设备 Download PDF

Info

Publication number
CN113014957A
CN113014957A CN202110224130.3A CN202110224130A CN113014957A CN 113014957 A CN113014957 A CN 113014957A CN 202110224130 A CN202110224130 A CN 202110224130A CN 113014957 A CN113014957 A CN 113014957A
Authority
CN
China
Prior art keywords
video
shot
processed
segmentation
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110224130.3A
Other languages
English (en)
Other versions
CN113014957B (zh
Inventor
赵汉玥
冯俐铜
吴磊
董亚魁
刘超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Priority to CN202110224130.3A priority Critical patent/CN113014957B/zh
Publication of CN113014957A publication Critical patent/CN113014957A/zh
Application granted granted Critical
Publication of CN113014957B publication Critical patent/CN113014957B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/162Detection; Localisation; Normalisation using pixel segmentation or colour matching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23412Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs for generating or manipulating the scene composition of objects, e.g. MPEG-4 objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本公开实施例提供一种视频镜头切分方法和装置、介质和计算机设备,通过预设镜头切分模型采用滑动窗口对所述待处理视频的多个视频帧进行特征提取,并根据特征提取的结果对所述待处理视频进行镜头切分,实现了自动对视频进行镜头切分,从而提高了镜头切分的效率。

Description

视频镜头切分方法和装置、介质和计算机设备
技术领域
本公开涉及计视频处理技术领域,尤其涉及视频镜头切分方法和装置、介质和计算机设备。
背景技术
在实际应用中,为了方便对视频进行剪辑,常常会对视频进行镜头切分处理,即,确定视频中哪些视频帧属于同一个镜头,哪些视频帧属于不同的镜头。然而,传统的视频镜头切分方式往往通过手动方式进行视频镜头切分,视频镜头切分效率较低。
发明内容
本公开提供一种视频镜头切分方法和装置、介质和计算机设备。
根据本公开实施例的第一方面,提供一种视频镜头切分方法,所述方法包括:将待处理视频输入预设镜头切分模型;通过所述预设镜头切分模型采用滑动窗口对所述待处理视频的多个视频帧进行特征提取;根据特征提取的结果对所述待处理视频进行镜头切分。
在一些实施例中,所述方法还包括:响应于所述待处理视频的视频帧中包含有画中画区域,确定待处理视频的连续多个视频帧中的每个视频帧的画中画区域;从所述每个视频帧中裁剪出画中画区域;将裁剪出的画中画区域输入预设镜头切分模型,获取所述预设镜头切分模型输出的多个包含有画中画的视频帧的镜头切分结果。
在一些实施例中,所述待处理视频中包含有渐变镜头生成的视频帧;所述滑动窗口的长度大于或等于所述渐变镜头生成的多个视频帧的帧数。
在一些实施例中,所述待处理视频中包括运动镜头生成的视频帧;所述方法还包括:获取包括运动镜头的视频样本;基于所述视频样本对所述预设镜头切分模型进行训练。
在一些实施例中,在将待处理视频输入预设镜头切分模型之前,还包括:对所述待处理视频进行预处理。
在一些实施例中,所述方法还包括:对所述镜头切分结果进行可视化展示和/或导出。
在一些实施例中,所述对所述镜头切分结果进行可视化展示,包括:对所述镜头切分结果中的以下至少任一信息进行可视化展示:各个镜头的编号;各个镜头下帧视频帧的缩略图;各个镜头的时长。
在一些实施例中,所述方法还包括:接收对所述镜头切分结果的编辑指令;基于所述编辑指令对所述镜头切分结果进行编辑。
根据本公开实施例的第二方面,提供一种视频镜头切分装置,所述装置包括:视频输入模块,用于将待处理视频输入预设镜头切分模型;特征提取模块,用于通过所述预设镜头切分模型采用滑动窗口对所述待处理视频的多个视频帧进行特征提取;切分模块,用于根据特征提取的结果对所述待处理视频进行镜头切分。
在一些实施例中,所述装置还包括:确定模块,用于响应于所述待处理视频的视频帧中包含有画中画区域,确定待处理视频的连续多个视频帧中的每个视频帧的画中画区域;裁剪模块,用于从所述每个视频帧中裁剪出画中画区域;画中画输入模块,用于将裁剪出的画中画区域输入预设镜头切分模型,获取所述预设镜头切分模型输出的多个包含有画中画的视频帧的镜头切分结果。
在一些实施例中,所述待处理视频中包含有渐变镜头生成的视频帧;所述滑动窗口的长度大于或等于所述渐变镜头生成的多个视频帧的帧数。
在一些实施例中,所述待处理视频中包括运动镜头生成的视频帧;所述装置还包括:获取模块,用于获取包括运动镜头的视频样本;训练模块,用于基于所述视频样本对所述预设镜头切分模型进行训练。
在一些实施例中,所述装置还包括:预处理模块,用于在将待处理视频输入预设镜头切分模型之前,对所述待处理视频进行预处理。
在一些实施例中,所述装置还包括:展示模块,用于对所述镜头切分结果进行可视化展示和/或导出模块,用于对所述镜头切分结果进行导出。
在一些实施例中,展示模块用于对所述镜头切分结果中的以下至少任一信息进行可视化展示:各个镜头的编号;各个镜头下帧视频帧的缩略图;各个镜头的时长。
在一些实施例中,所述装置还包括:接收模块,用于接收对所述镜头切分结果的编辑指令;编辑模块,用于基于所述编辑指令对所述镜头切分结果进行编辑。
根据本公开实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一实施例所述的方法。
根据本公开实施例的第四方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一实施例所述的方法。
本公开实施例通过预设镜头切分模型采用滑动窗口对所述待处理视频的多个视频帧进行特征提取,并根据特征提取的结果对所述待处理视频进行镜头切分,实现了自动对视频进行镜头切分,从而提高了镜头切分的效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。
图1是一些实施例的视频镜头的示意图。
图2是本公开实施例的视频镜头切分方法的流程图。
图3是本公开实施例的滑动窗口的示意图。
图4A和图4B分别是一些实施例的画中画的示意图。
图5是本公开另一实施例的视频镜头切分方法的流程图。
图6是本公开实施例的镜头切分模型的示意图。
图7是本公开实施例的视频镜头切分过程中的处理界面的示意图。
图8A至图8D是本公开实施例的视频镜头切分结果的示意图。
图9是本公开实施例的视频镜头切分装置的框图。
图10是本公开实施例的计算机设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
为了使本技术领域的人员更好的理解本公开实施例中的技术方案,并使本公开实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本公开实施例中的技术方案作进一步详细的说明。
视频中往往包括多个视频镜头,视频镜头是指摄像机连续拍摄所形成的视频片段,其内部的图像帧会存在某种相关性,不同镜头之间的帧特性会有较大的差异。例如,电视剧视频中可能包括不同演员的特写镜头和整个场景的远景镜头等。又例如,体育赛事视频中可能包括回放镜头和正常直播镜头等。一个视频镜头可以包括一个或多个视频帧。如图1所示,是一些实施例的视频镜头的示意图。图中的数字表示视频帧的帧编号,其中,第1帧视频帧到第4帧视频帧是运动员投篮过程中连续拍摄的视频帧,这4帧视频帧属于同一个镜头,而第5帧视频帧拍摄的是观众观看比赛过程中为运动员欢呼加油的画面,与前4帧视频帧相关性较小,因此,第5帧视频帧与前4帧视频帧属于不同的视频镜头。
为了便于对视频进行剪辑,常常会对视频进行镜头切分处理,即,确定视频中哪些视频帧属于同一个镜头,哪些视频帧属于不同的镜头。传统的视频镜头切分方式一般是基于视频中的关键帧来进行镜头切分。然而,传统的视频镜头切分方式往往通过手动方式进行视频镜头切分,即,人为地对多个视频帧的切分点进行标注,视频镜头切分效率较低。
基于此,本公开实施例提供一种视频镜头切分方法,如图2所示,所述方法可包括:
步骤201:将待处理视频输入预设镜头切分模型;
步骤202:通过所述预设镜头切分模型采用滑动窗口对所述待处理视频的多个视频帧进行特征提取;
步骤203:根据特征提取的结果对所述待处理视频进行镜头切分。
在步骤201中,预设镜头切分模型例如可以是C3D ConvNet模型,该预设镜头切分模型可以基于视频样本预先训练得到。
在步骤202中,可以将整个视频直接输入所述预设镜头切分模型,或者,也可以根据实际需要将视频中的部分视频帧输入所述预设镜头切分模型,或者对视频进行裁剪、压缩等处理之后,再将处理后的视频输入所述预设镜头切分模型。
预设镜头切分模型可以采用滑动窗口对所述待处理视频的多个视频帧进行特征提取。如图3所示,是一些实施例的滑动窗口的示意图,图中示出的滑动窗口的长度为5,但本领域技术人员可以理解,此处仅为示例性说明,本公开实施例也可以采用其他长度的滑动窗口。预设镜头切分模型可以从视频中的某一视频帧(例如,第1帧视频帧)开始,将该滑动窗口在视频上滑动,滑动窗口每滑动到一个位置,则对滑动窗口内的各个视频帧进行特征提取。例如,在t1时刻,滑动窗口内包括视频帧2到视频帧6,则对视频帧2到视频帧6进行特征提取;在t2时刻,滑动窗口内包括视频帧3到视频帧7,则对视频帧3到视频帧7进行特征提取。
在步骤203中,可以基于步骤202提取出的特征对所述待处理视频进行镜头切分,从而得到切点位置,即,用于切分不同镜头的视频帧的帧号。
本公开实施例通过预设镜头切分模型采用滑动窗口对所述待处理视频的多个视频帧进行特征提取,并根据特征提取的结果对所述待处理视频进行镜头切分,实现了自动对视频进行镜头切分,从而提高了镜头切分的效率。
在一些特殊的情况下,传统的视频镜头切分方式难以准确切分不同镜头场景,切分准确性较低。例如,在视频帧中包括画中画的情况下,镜头切分的准确性可能比较低,其中,画中画是指在播放视频或者展示图像的同时,在视频或者图像的画面中同时播放其他的视频或者展示其他的图像。图4A和图4B示出了画中画的两种示意图。图4A示出了电影宣传片中的一帧视频帧401,其中,中间区域4012为画中画,用于展示电影预告的内容,除了画中画之外,视频帧401还包括位于中间区域4012上方的文字展示区域4011以及位于中间区域4012下方的文字展示区域4013,用于对电影预告进行文字说明。图4B示出了一种购物网页402的示意图,在用户打开该网页402的情况下,可以显示网页图片4021,在网页图片4021中,还可以显示与商品相关的视频内容4022,该视频内容为画中画。
在进行镜头切分时,一般希望以画中画区域的内容为依据进行切分,然而,画中画区域以外的内容可能对切分过程造成干扰,使得镜头切分结果不准确。例如,在图4A和图4B所示的视频或者图片中,可能存在画中画内容改变,而其他区域内容不变,或者画中画内容不变,其他区域内容改变的情况。这样,通过传统的镜头切分方法,往往难以获得准确的镜头切分结果。
基于此,本公开实施例还提供一种视频镜头切分方法,如图5所示,所述方法可包括:
步骤501:响应于所述待处理视频的视频帧中包含有画中画区域,确定待处理视频的连续多个视频帧中的每个视频帧的画中画区域;
步骤502:从所述每个视频帧中裁剪出画中画区域;
步骤503:将裁剪出的画中画区域输入预设镜头切分模型,获取所述预设镜头切分模型输出的多个包含有画中画的视频帧的镜头切分结果。
在步骤501中,在所述待处理视频的视频帧中包含有画中画区域的情况下,可以确定待处理视频的连续多个视频帧中的每个视频帧的画中画区域在视频帧中的位置。可以通过对待处理视频进行画中画检测,从而确定待处理视频的视频帧中是否包括画中画区域。
在执行本步骤之前,还可以对各个视频帧进行预处理。所述预处理可以包括压缩处理,以将各个视频帧转换为相同的尺寸,从而减少视频帧尺寸不同对镜头切分结果的影响,同时减少镜头切分过程中的数据处理量,提高镜头切分效率。除此之外,所述预处理还可以包括对所述待处理视频进行格式转换,以将所述待处理视频转换为预设格式,例如,MP4格式、MOV格式等。
为了便于处理,可以从每个视频帧中确定出包括画中画的矩形区域,作为画中画区域。为了提高处理精度,也可以基于画中画的形状确定所述画中画区域。在一帧视频帧中包括多个画中画区域的情况下,可以分别确定该视频帧中的各个画中画区域。
在步骤502中,可以从所述每个视频帧中裁剪出所述画中画区域,一个视频帧中的区域仅包括该视频帧中的画中画,而不包括该视频帧中的其他内容,例如,背景区域,因此,可以避免其他区域对镜头切分结果的影响,从而提高镜头切分的准确性。
在步骤503中,预设镜头切分模型可以采用滑动窗口对所述多个视频帧中裁剪出的画中画区域进行特征提取,得到所述多个视频帧的特征,基于所述多个视频帧的特征,对所述多个视频帧进行视频镜头切分,得到所述多个视频帧的镜头切分结果。如果所述多个视频帧的特征的相关性低于预设值,则将所述多个视频帧中的其中一帧确定为切点,即镜头切分的分割点。这里说的其中一帧可以是中间帧,例如,图3所示的编号为2到6的视频帧的中间帧为第4帧,可以将第4帧作为切点,当然,也可以将所述多个视频帧中的其他任一帧作为切点。
如果所述多个视频帧的特征相关性不低于预设值,则可以按照预设的滑动步长(例如,1)将滑动窗口继续在视频帧上滑动,并重复上述过程。如图3所示,可以看出,在t2时刻,滑动窗口滑动到了编号为3到7的视频帧上,且基于上述方法确定出切点为第5帧视频帧。可以将切点之前的视频帧和切点之后的视频帧切分为不同的镜头,切点对应的视频帧既可以划分到前一帧对应的镜头,也可以划分到后一帧对应的镜头,或者不划分到任意一个镜头。
在视频中包括画中画的情况下,可以先采用图2对应的实施例对视频进行镜头切分,再采用图5对应的实施例对视频中包括画中画区域的视频帧进行镜头切分,从而修正包括画中画区域的视频帧的镜头切分结果。或者,也可以先采用图5对应的实施例对视频中包括画中画区域的视频帧进行镜头切分,再采用图2对应的实施例对视频中不包括画中画的视频帧进行镜头切分,从而得到整个视频的镜头切分结果。还可以同步地将视频输入预设镜头切分模型的两个不同的实例中,其中一个实例采用图2对应的实施例对视频进行镜头切分,另一个实例采用图5对应的实施例对视频中包括画中画区域的视频帧进行镜头切分,二者可以同步进行。然后,根据两个实例输出的镜头切分结果得到整个视频的镜头切分结果。
在一些实施例中,所述待处理视频中包含有渐变镜头生成的视频帧。渐变镜头是指逐渐切换的镜头,即,镜头的切换过程需要经过一定的时间才能完成,例如,经过5帧视频帧才能实现从一个镜头切换到另一个镜头。长渐变镜头是指镜头切换的持续时间较长的渐变镜头,例如,经过15帧视频帧实现从一个镜头切换到另一个镜头。在视频镜头为长渐变镜头的情况下,为了能从整个镜头切换过程中数量足够多的视频帧中提取特征,所述滑动窗口的长度大于或等于所述渐变镜头生成的多个视频帧的帧数。由于长渐变镜头包括的视频帧的帧数一般大于或等于15帧,因此,可以将所述滑动窗口的长度设置为大于或等于15帧的长度。这样,就可以在镜头切换过程中提取出足够多的特征,从而提高镜头切分的准确性。
在一些实施例中,所述待处理视频中包括运动镜头生成的视频帧,运动镜头包括对运动的拍摄目标进行拍摄得到的视频镜头,还包括摄像头在运动过程中拍摄得到的视频镜头。与一般的镜头不同,运动镜头中相邻两帧视频帧的相关性可能比较小,尤其是在摄像头或者拍摄目标的运动速度比较大的时候,这种特点更加明显。以拍摄目标是运动的为例,当拍摄目标的运动速度比较大时,拍摄第1帧视频帧时拍摄对象的位置与拍摄第2帧视频帧时拍摄对象的位置可能相差较大,使得第1帧视频帧与第2帧视频帧中的背景区域相差较大,从而导致第1帧视频帧与第2帧视频帧的相关性较小,导致错误地将第1帧视频帧与第2帧视频帧切分为不同的镜头。这种现象称为过度切分,即,将原本应划分为同一镜头的多帧视频帧切分到了不同的镜头。
为了解决过度切分问题,可以获取包括运动镜头的视频样本,基于所述视频样本对所述预设镜头切分模型进行训练。例如,在训练C3D ConvNet模型时,可以使用500段人工标注的短视频数据作为训练集,62段人工标注的短视频数据作为测试集。训练过程中,对于运动镜头数据做了OHEM(online hard example mining),即模型迭代过程中选择包括运动镜头的视频作为训练样本,从而改善预设镜头切分模型的训练效果,有效避免对运动镜头的过度切分。在训练过程中,可以直接采用包括运动镜头的视频作为视频样本对预设镜头切分模型进行训练,也可以先采用任意的视频作为视频样本训练预设镜头切分模型,再采用包括运动镜头的视频对训练好的预设镜头切分模型进行参数调整,得到最终的预设镜头切分模型。
在一些实施例中,不同类型的视频可能存在不同的切分逻辑,一些视频可能期望在存在画面变更的情况下就进行镜头切分,而另一些视频可能期望画面中的特定区域(例如,画中画的前景区域、视频帧中包括目标对象的主体区域等)存在画面变更的情况下才进行镜头切分。因此,可以基于不同类型的视频样本以及该视频样本对应的类别标签来对所述预设镜头切分模型进行训练。这样,预设镜头切分模型可以基于待处理视频的类别进行镜头切分,从而提高镜头切分的准确性。
如图6所示,是本公开实施例的视频切分模型的示意图。其中,画中画分支模型用于对视频中包括画中画的视频帧进行镜头切分,原视频模型用于对视频中的其他视频帧进行镜头切分。可以先将待处理视频输入视频预处理模块进行预处理,以对待处理视频进行压缩,统一视频格式和尺寸。预处理后的视频可以分别输出至原视频模型中的预设镜头切分模型(例如C3D ConvNet模型)以及画中画分支模型中的画中画视频检测器,前者用于对预处理后的视频中的其他视频帧(不包括画中画区域的视频帧)进行镜头切分,得到原视频镜头切分结果。后者用于从预处理后的视频中确定包括画中画区域的视频帧,然后对画中画区域进行裁剪后输出至画中画分支模型中的预设镜头切分模型(例如,C3D ConvNet模型),得到画中画视频镜头切分结果。基于原视频镜头切分结果和画中画视频镜头切分结果,可以得到整个待处理视频的镜头切分结果。应当说明的是,原视频模型中的预设镜头切分模型与画中画分支模型中的预设镜头切分模型可以是同一个模型。原视频模型中的预设镜头切分模型和画中画分支模型中的预设镜头切分模型可以是同一模型,也可以是分别采用不同样本进行训练得到的不同模型。
在一些实施例中,还可以对所述镜头切分结果进行可视化展示。具体来说,可以对各个镜头的编号、各个镜头下帧视频帧的缩略图以及各个镜头的时长中的至少任一进行展示。通过可视化展示,可以使用户更加直观地查看镜头切分结果,同时便于用户对镜头切分结果进行编辑。
在一些实施例中,还可以接收对所述镜头切分结果的编辑指令,基于所述编辑指令对所述镜头切分结果进行编辑。所述编辑可以包括更改切点、删除切点、增加切点等操作,通过上述方式,可以对镜头切分结果进行人工修正,以进一步提高镜头切分结果的准确性。
图7示出了一些实施例的视频镜头切分过程中的处理界面的示意图。如图所示,用户可以通过点击上传按钮或者拖动视频等方式,向服务器上传待处理视频,服务器在获取到用户上传的待处理视频之后,可以基于本公开实施例的视频镜头切分方法对待处理视频进行镜头切分,得到镜头切分结果。
图8A至图8D示出了一些实施例的视频镜头切分结果的示意图。如图8A所示,镜头切分结果可以以表格的形式呈现,其中包括切分得到的镜头的镜号,用于指示切分得到的是第几个镜头,镜头的类型(包括全景镜头、中景镜头、近景镜头、特写镜头等),各个镜头中的台词和/或字幕,各个镜头的图示,以及各个镜头的时长。还可以包括切点编辑和删除等控件。
如图8B所示,通过点击视频编辑控件,可以对镜头的类型、时长、画面描述、台词和/或字幕以及镜头的图示中的至少一者进行编辑,还可以为各个镜头添加备注信息。通过勾选图8A第1列中的选择框,可以导出对应的镜头切分结果,如图8C所示,可以将镜头切分结果导出为excel的形式;或者,如图8D所示,可以将镜头切分结果导出为SRT文件的形式。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
如图9所示,本公开还提供一种视频镜头切分装置,所述装置包括:
视频输入模块901,用于将待处理视频输入预设镜头切分模型;
特征提取模块902,用于通过所述预设镜头切分模型采用滑动窗口对所述待处理视频的多个视频帧进行特征提取;
切分模块903,用于根据特征提取的结果对所述待处理视频进行镜头切分。
在一些实施例中,所述装置还包括:确定模块,用于响应于所述待处理视频的视频帧中包含有画中画区域,确定待处理视频的连续多个视频帧中的每个视频帧的画中画区域;裁剪模块,用于从所述每个视频帧中裁剪出画中画区域;画中画输入模块,用于将裁剪出的画中画区域输入预设镜头切分模型,获取所述预设镜头切分模型输出的多个包含有画中画的视频帧的镜头切分结果。
在一些实施例中,所述待处理视频中包含有渐变镜头生成的视频帧;所述滑动窗口的长度大于或等于所述渐变镜头生成的多个视频帧的帧数。
在一些实施例中,所述待处理视频中包括运动镜头生成的视频帧;所述装置还包括:获取模块,用于获取包括运动镜头的视频样本;训练模块,用于基于所述视频样本对所述预设镜头切分模型进行训练。
在一些实施例中,所述装置还包括:预处理模块,用于在将待处理视频输入预设镜头切分模型之前,对所述待处理视频进行预处理。
在一些实施例中,所述装置还包括:展示模块,用于对所述镜头切分结果进行可视化展示和/或导出模块,用于对所述镜头切分结果进行导出。
在一些实施例中,展示模块用于对所述镜头切分结果中的以下至少任一信息进行可视化展示:各个镜头的编号;各个镜头下帧视频帧的缩略图;各个镜头的时长。
在一些实施例中,所述装置还包括:接收模块,用于接收对所述镜头切分结果的编辑指令;编辑模块,用于基于所述编辑指令对所述镜头切分结果进行编辑。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
本说明书实施例还提供一种计算机设备,其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现前述任一实施例所述的方法。
图10示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图,该设备可以包括:处理器1001、存储器1002、输入/输出接口1003、通信接口1004和总线1005。其中处理器1001、存储器1002、输入/输出接口1003和通信接口1004通过总线1005实现彼此之间在设备内部的通信连接。
处理器1001可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。处理器1001还可以包括显卡,所述显卡可以是Nvidia titan X显卡或者1080Ti显卡等。
存储器1002可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1002可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1002中,并由处理器1001来调用执行。
输入/输出接口1003用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1004用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1005包括一通路,在设备的各个组件(例如处理器1001、存储器1002、输入/输出接口1003和通信接口1004)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1001、存储器1002、输入/输出接口1003、通信接口1004以及总线1005,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本公开实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述任一实施例所述的方法。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本说明书实施例的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本说明书实施例原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本说明书实施例的保护范围。

Claims (11)

1.一种视频镜头切分方法,其特征在于,所述方法包括:
将待处理视频输入预设镜头切分模型;
通过所述预设镜头切分模型采用滑动窗口对所述待处理视频的多个视频帧进行特征提取;
根据特征提取的结果对所述待处理视频进行镜头切分。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于所述待处理视频的视频帧中包含有画中画区域,确定待处理视频的连续多个视频帧中的每个视频帧的画中画区域;
从所述每个视频帧中裁剪出画中画区域;
将裁剪出的画中画区域输入预设镜头切分模型,获取所述预设镜头切分模型输出的多个包含有画中画的视频帧的镜头切分结果。
3.根据权利要求1或2所述的方法,其特征在于,所述待处理视频中包含有渐变镜头生成的视频帧;
所述滑动窗口的长度大于或等于所述渐变镜头生成的多个视频帧的帧数。
4.根据权利要求1至3任意一项所述的方法,其特征在于,所述待处理视频中包括运动镜头生成的视频帧;所述方法还包括:
获取包括运动镜头的视频样本;
基于所述视频样本对所述预设镜头切分模型进行训练。
5.根据权利要求1至4任意一项所述的方法,其特征在于,在将待处理视频输入预设镜头切分模型之前,还包括:
对所述待处理视频进行预处理。
6.根据权利要求1至5任意一项所述的方法,其特征在于,所述方法还包括:
对所述镜头切分结果进行可视化展示和/或导出。
7.根据权利要求6所述的方法,其特征在于,所述对所述镜头切分结果进行可视化展示,包括:
对所述镜头切分结果中的以下至少任一信息进行可视化展示:
各个镜头的编号;
各个镜头下帧视频帧的缩略图;
各个镜头的时长。
8.根据权利要求1至7任意一项所述的方法,其特征在于,所述方法还包括:
接收对所述镜头切分结果的编辑指令;
基于所述编辑指令对所述镜头切分结果进行编辑。
9.一种视频镜头切分装置,其特征在于,所述装置包括:
视频输入模块,用于将待处理视频输入预设镜头切分模型;
特征提取模块,用于通过所述预设镜头切分模型采用滑动窗口对所述待处理视频的多个视频帧进行特征提取;
切分模块,用于根据特征提取的结果对所述待处理视频进行镜头切分。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至8任意一项所述的方法。
11.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至8任意一项所述的方法。
CN202110224130.3A 2021-02-25 2021-02-25 视频镜头切分方法和装置、介质和计算机设备 Active CN113014957B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110224130.3A CN113014957B (zh) 2021-02-25 2021-02-25 视频镜头切分方法和装置、介质和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110224130.3A CN113014957B (zh) 2021-02-25 2021-02-25 视频镜头切分方法和装置、介质和计算机设备

Publications (2)

Publication Number Publication Date
CN113014957A true CN113014957A (zh) 2021-06-22
CN113014957B CN113014957B (zh) 2023-01-31

Family

ID=76386995

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110224130.3A Active CN113014957B (zh) 2021-02-25 2021-02-25 视频镜头切分方法和装置、介质和计算机设备

Country Status (1)

Country Link
CN (1) CN113014957B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113546413A (zh) * 2021-07-30 2021-10-26 网易(杭州)网络有限公司 播放开场镜头的方法、装置、计算机可读存储介质及计算机设备
CN114339368A (zh) * 2021-11-24 2022-04-12 腾讯科技(深圳)有限公司 赛事直播的显示方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101872415A (zh) * 2010-05-06 2010-10-27 复旦大学 适用于iptv的视频拷贝检测方法
CN102694966A (zh) * 2012-03-05 2012-09-26 天津理工大学 一种全自动视频编目系统的构建方法
CN104318207A (zh) * 2014-10-08 2015-01-28 合肥工业大学 一种利用快速鲁棒特征和支持向量机来判断切变镜头和渐变镜头的方法
US20190147105A1 (en) * 2017-11-15 2019-05-16 Google Llc Partitioning videos
CN110263729A (zh) * 2019-06-24 2019-09-20 腾讯科技(深圳)有限公司 一种镜头边界检测的方法、模型训练方法以及相关装置
CN110460838A (zh) * 2019-07-11 2019-11-15 平安科技(深圳)有限公司 一种镜头切换的检测方法、装置及计算机设备
CN110913243A (zh) * 2018-09-14 2020-03-24 华为技术有限公司 一种视频审核的方法、装置和设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101872415A (zh) * 2010-05-06 2010-10-27 复旦大学 适用于iptv的视频拷贝检测方法
CN102694966A (zh) * 2012-03-05 2012-09-26 天津理工大学 一种全自动视频编目系统的构建方法
CN104318207A (zh) * 2014-10-08 2015-01-28 合肥工业大学 一种利用快速鲁棒特征和支持向量机来判断切变镜头和渐变镜头的方法
US20190147105A1 (en) * 2017-11-15 2019-05-16 Google Llc Partitioning videos
CN110913243A (zh) * 2018-09-14 2020-03-24 华为技术有限公司 一种视频审核的方法、装置和设备
CN110263729A (zh) * 2019-06-24 2019-09-20 腾讯科技(深圳)有限公司 一种镜头边界检测的方法、模型训练方法以及相关装置
CN110460838A (zh) * 2019-07-11 2019-11-15 平安科技(深圳)有限公司 一种镜头切换的检测方法、装置及计算机设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113546413A (zh) * 2021-07-30 2021-10-26 网易(杭州)网络有限公司 播放开场镜头的方法、装置、计算机可读存储介质及计算机设备
CN113546413B (zh) * 2021-07-30 2024-06-11 网易(杭州)网络有限公司 播放开场镜头的方法、装置、计算机可读存储介质及计算机设备
CN114339368A (zh) * 2021-11-24 2022-04-12 腾讯科技(深圳)有限公司 赛事直播的显示方法、装置、设备及存储介质
CN114339368B (zh) * 2021-11-24 2023-04-14 腾讯科技(深圳)有限公司 赛事直播的显示方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113014957B (zh) 2023-01-31

Similar Documents

Publication Publication Date Title
JP6462919B2 (ja) イメージ分析によるイメージ自動編集装置、方法およびコンピュータ読み取り可能な記録媒体
Wang et al. Movie2comics: Towards a lively video content presentation
US9959903B2 (en) Video playback method
US7606442B2 (en) Image processing method and apparatus
US8726161B2 (en) Visual presentation composition
CN113014957B (zh) 视频镜头切分方法和装置、介质和计算机设备
US20080307309A1 (en) Three dimensional viewer for video
US20130176486A1 (en) Pillarboxing Correction
US20180270445A1 (en) Methods and apparatus for generating video content
US7929028B2 (en) Method and system for facilitating creation of content
US10115431B2 (en) Image processing device and image processing method
US20220174237A1 (en) Video special effect generation method and terminal
KR20160056889A (ko) 스크롤링 동안 이미지에 대한 캡션 시차를 위한 방법 및 장치
CN112017137A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN113255628A (zh) 一种针对新闻场景的景别识别方法
CN114708287A (zh) 一种镜头边界检测方法、设备及存储介质
US10460196B2 (en) Salient video frame establishment
US10922784B2 (en) Image processing apparatus and image processing method that set a switch speed to switch a series of images from one to another in a sequential display with the faster the speed, the larger a region output from the images
EP4283492A1 (en) A method for dynamic creation of collages from mobile video
CN112822394B (zh) 显示控制方法、装置、电子设备及可读存储介质
KR20180017424A (ko) 디스플레이 장치 및 제어 방법
CN107370977B (zh) 一种在检测视频中添加解说的方法、设备以及存储介质
CN113312949B (zh) 视频数据处理方法、视频数据处理装置和电子设备
KR101822443B1 (ko) 샷 경계 및 자막을 이용한 동영상 축약 방법 및 처리 장치
CN113242464A (zh) 视频编辑方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant