CN115119050B - 一种视频剪辑方法和装置、电子设备和存储介质 - Google Patents

一种视频剪辑方法和装置、电子设备和存储介质 Download PDF

Info

Publication number
CN115119050B
CN115119050B CN202210771782.3A CN202210771782A CN115119050B CN 115119050 B CN115119050 B CN 115119050B CN 202210771782 A CN202210771782 A CN 202210771782A CN 115119050 B CN115119050 B CN 115119050B
Authority
CN
China
Prior art keywords
target
video
stop time
time
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210771782.3A
Other languages
English (en)
Other versions
CN115119050A (zh
Inventor
侯佳芸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN202210771782.3A priority Critical patent/CN115119050B/zh
Publication of CN115119050A publication Critical patent/CN115119050A/zh
Application granted granted Critical
Publication of CN115119050B publication Critical patent/CN115119050B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本申请涉及一种视频剪辑方法和装置、电子设备和存储介质,其中,方法包括:获取待处理的至少两个视频素材,并确定目标视频风格;按照与每个目标事件对应的起止时间对至少两个视频素材中的每个视频素材进行分割,得到与每个目标事件对应的候选视频段;按照目标视频风格,在所有候选视频段中确定出与每个目标事件对应的目标视频段;按照时序关系,对所有目标视频段进行拼接,得到目标视频风格的目标视频。本申请实施例提供的该方法,可以实现剪辑得到任意视频风格的视频的目的;并且能够解决相关技术中存在按照不同的个性化需求进行视频剪辑时效率低下的技术问题。

Description

一种视频剪辑方法和装置、电子设备和存储介质
技术领域
本申请涉及视频处理技术领域,尤其涉及一种视频剪辑方法和装置、电子设备和存储介质。
背景技术
随着视频行业的发展,越来越多的用户成为了各种视频的观众,在视频剪辑中,从原始拍摄素材到成片通常经过顺片、整理、粗剪、终剪等多个步骤,需要剪辑人员花费大量时间完成。而从观众角度而言,对于多种剪辑风格(例如,偏好演员、偏好大场面、偏好特写等等)有不同的偏好,为了满足观众的个性化需求,需要剪辑出多个不同风格版本的视频,效率低下,因而进一步增加了剪辑成本。
针对相关技术中存在按照不同的个性化需求进行视频剪辑时效率低下的技术问题,目前尚未提供有效的解决方案。
发明内容
为了解决上述相关技术中存在按照不同的个性化需求进行视频剪辑时效率低下的技术问题,本申请提供了一种视频剪辑方法和装置、电子设备和存储介质。
第一方面,本申请实施例提供了一种视频剪辑方法,包括:
获取待处理的至少两个视频素材,并确定目标视频风格,其中,所述视频素材是对目标事件链进行拍摄得到的视频,每个所述视频素材具有唯一对应的拍摄方式,所述目标事件链包括多个按照预设的时序关系排列的目标事件;
按照与每个所述目标事件对应的起止时间对所述至少两个视频素材中的每个所述视频素材进行分割,得到与每个所述目标事件对应的候选视频段;
按照所述目标视频风格,在所有所述候选视频段中确定出与每个目标事件对应的目标视频段;
按照所述时序关系,对所有所述目标视频段进行拼接,得到所述目标视频风格的目标视频。
可选地,如前述的方法,所述按照与每个所述目标事件对应的起止时间对所述至少两个视频素材中的每个所述视频素材进行分割,得到与每个所述目标事件对应的候选视频段,包括:
确定所述视频素材中与每个所述目标事件对应的起止时间;
按照与每个所述目标事件对应的起止时间,确定出与所述视频素材对应的所有分割起止时间;
按照所述所有分割起止时间中的每个所述分割起止时间对所述视频素材进行分割,得到与每个所述分割起止时间对应的多个所述候选视频段。
可选地,如前述的方法,所述确定所述视频素材中与每个所述目标事件对应的起止时间,包括:
对所述视频素材进行动作检测,确定出所述视频素材的所有所述目标事件中的所有动作;对所述视频素材进行语音识别,确定出所述视频素材的所有所述目标事件中的所有台词;
确定出所述所有动作中每个动作的第一起止时间,其中,所述动作与所述第一起止时间一一对应;确定出所述所有台词中每句所述台词的第二起止时间,其中,所述台词与所述第二起止时间一一对应。
可选地,如前述的方法,对于所有所述目标事件中时序上相邻的目标动作以及目标台词,且在所述目标动作的第一目标起止时间与所述目标台词的第二目标起止时间之间的交集为时间段的情况下,所述按照与每个所述目标事件对应的起止时间,确定出与所述视频素材对应的所有分割起止时间,包括:
在确定所述第一目标起止时间与所述第二目标起止时间满足第一条件的情况下,将所述第一目标起止时间与所述第二目标起止时间的并集的起止时间确定为所述分割起止时间,其中,所述第一条件为最晚停止时间早于或等于指定起始时间,所述最晚停止时间为所述第一目标起止时间和所述第二目标起止时间中最晚的停止时间,所述指定起始时间为时序上与所述目标动作或所述目标台词时序上相邻的指定事件的起始时间,且所述指定事件的起始时间晚于所述第一目标起止时间中的起始时间以及所述第二目标起止时间中的起始时间;
在所述指定事件为台词,且确定所述第一目标起止时间、所述第二目标起止时间以及指定起止时间满足第二条件的情况下,按照第一图像和所述第一目标起止时间对应的动作视频之间的第一相似度以及第二图像和所述动作视频之间的第二相似度之间的大小关系,对所述第一目标起止时间划分得到第一子起止时间以及第二子起止时间,将所述第一子起止时间与所述第二目标起止时间的并集的起止时间确定为第一分割起止时间,将所述第二子起止时间以及所述指定起止时间的并集的起止时间确定为第二分割起止时间,其中,所述第一图像为所述动作视频与所述第二目标起止时间的停止时间对应的图像,所述第二图像为所述动作视频与所述指定起止时间的起始时间对应的图像,所述第二条件为所述第一目标起止时间的停止时间晚于所述指定起止时间的起始时间,且所述第一目标起止时间的起始时间晚于所述指定起止时间的起始时间。
可选地,如前述的方法,所述按照所述所有分割起止时间中的每个所述分割起止时间对所述视频素材进行分割,得到与每个所述分割起止时间对应的多个所述候选视频段,包括:
确定出第一空白时间以及第二空白时间;
确定出所述分割起止时间中的分割起始时间以及分割停止时间;
通过将所述分割起始时间提前所述第一空白时间得到目标分割起始时间,且将所述分割停止时间延迟所述第二空白时间得到目标分割停止时间;
根据所述目标分割起始时间以及目标分割停止时间在所述视频素材中分割得到位于所述目标分割起始时间以及所述目标分割停止时间之间的所述候选视频段。
可选地,如前述的方法,所述按照所述目标视频风格,在所有所述候选视频段中确定出与每个目标事件对应的目标视频段,包括:
确定出所述目标视频风格中包括的目标单镜拍摄方式以及目标镜头切换方式,其中,所述目标单镜拍摄方式用于指示视频段的拍摄方式,所述目标镜头切换方式用于指示每两个视频段之间切换时,所述每两个视频段中的前一个视频段的单镜拍摄方式变换为后一个视频段的单镜拍摄方式所对应的变化情况;
按照所述目标单镜拍摄方式以及目标镜头切换方式,并基于所有所述候选视频段中每个所述候选视频段所对应的候选单镜拍摄方式,确定出目标视频拼接策略,其中,每个所述候选视频段对应一个或多个候选单镜拍摄方式,所述目标视频拼接策略指示与每个所述目标事件所对应的目标视频段;
按照所述目标视频拼接策略在所有所述候选视频段中确定出与每个目标事件对应的所述目标视频段。
可选地,如前述的方法,所述按照所述目标单镜拍摄方式以及目标镜头切换策略,并基于所有所述候选视频段中每个所述候选视频段所对应的候选单镜拍摄方式,确定出目标视频拼接策略,包括:
确定出与每个所述单镜拍摄方式对应的第一权重,以及与每个所述目标镜头切换方式对应的第二权重;
按照所述目标单镜拍摄方式以及所述目标镜头切换方式,确定出多个候选视频拼接策略,其中,所述候选视频拼接策略中与任一个目标事件所对应的第一待定视频段至少满足以下一个条件:所述第一待定视频段的所述候选单镜拍摄方式包括所有所述目标单镜拍摄方式中的至少一种,所述第一待定视频段的所述候选单镜拍摄方式与第二待定视频段的所述候选单镜拍摄方式之间的变化情况满足所有所述目标镜头切换方式中的至少一种,在所述候选视频拼接策略中所述第二待定视频段时序上与所述第一待定视频段相邻;
按照所述第一权重以及所述第二权重计算得到与每个所述候选视频拼接策略对应的候选权重;
将所有所述候选权重中最大的目标权重所对应的所述候选视频拼接策略确定为所述目标视频拼接策略。
第二方面,本申请实施例提供了一种视频剪辑装置,包括:
获取模块,用于获取待处理的至少两个视频素材,并确定目标视频风格,其中,所述视频素材是对目标事件链进行拍摄得到的视频,每个所述视频素材具有唯一对应的拍摄方式,所述目标事件链包括多个按照预设的时序关系排列的目标事件;
分割模块,用于按照与每个所述目标事件对应的起止时间对所述至少两个视频素材中的每个所述视频素材进行分割,得到与每个所述目标事件对应的候选视频段;
确定模块,用于按照所述目标视频风格,在所有所述候选视频段中确定出与每个目标事件对应的目标视频段;
拼接模块,用于按照所述时序关系,对所有所述目标视频段进行拼接,得到所述目标视频风格的目标视频。
第三方面,本申请实施例提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,所述处理器、通信接口和存储器通过通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述计算机程序时,实现如前述任一项所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述存储介质包括存储的程序,其中,所述程序运行时执行如前任一项所述的方法。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本申请实施例提供的该方法,可以通过对每个视频素材进行分割得到多个候选视频段,并基于目标视频风格在各个候选视频段中确定出与每个目标事件对应的目标视频段,从而最终拼接得到目标视频风格的目标视频;进而实现了剪辑得到任意视频风格的视频的目的。通过本实施例中的方法能够解决相关技术中存在按照不同的个性化需求进行视频剪辑时效率低下的技术问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种视频剪辑方法的流程示意图;
图2为本申请另一实施例提供的一种视频剪辑方法的流程示意图;
图3为本申请又一实施例提供的一种视频剪辑方法的流程示意图;
图4为本申请一应用例提供的一种视频剪辑方法的流程示意图;
图5为本申请实施例提供的一种视频剪辑装置的框图;
图6为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
根据本申请实施例的一个方面,提供了一种视频剪辑方法。可选地,在本实施例中,上述视频剪辑方法可以应用于由终端和服务器所构成的硬件环境中。服务器通过网络与终端进行连接,可用于为终端或终端上安装的客户端提供服务(如广告推送服务、应用服务等),可在服务器上或独立于服务器设置数据库,用于为服务器提供数据存储服务。
上述网络可以包括但不限于以下至少之一:有线网络,无线网络。上述有线网络可以包括但不限于以下至少之一:广域网,城域网,局域网,上述无线网络可以包括但不限于以下至少之一:WIFI(Wireless Fidelity,无线保真),蓝牙。终端可以并不限定于为PC、手机、平板电脑等。
本申请实施例的视频剪辑方法可以由服务器来执行,也可以由终端来执行,还可以是由服务器和终端共同执行。其中,终端执行本申请实施例的视频剪辑方法也可以是由安装在其上的客户端来执行。
以由服务器来执行本实施例中的视频剪辑方法为例,图1为本申请实施例提供的一种视频剪辑方法,包括如下所述步骤:
步骤S101,获取待处理的至少两个视频素材,并确定目标视频风格,其中,视频素材是对目标事件链进行拍摄得到的视频,每个视频素材具有唯一对应的拍摄方式,目标事件链包括多个按照预设的时序关系排列的目标事件;
本实施例中的视频剪辑方法可以应用于需要基于多个视频素材剪辑得到满足目标视频风格的视频的场景。因此,需要预先进行视频素材的获取,可以通过摄像机对某一目标事件链进行拍摄,以得到不同的视频素材,例如:同时采用多个摄像机并分别采用不同的机位在同一时间对某一演戏片段(目标事件链)进行拍摄,以使每个摄像机都能拍摄得到一个视频素材,进而得到多个视频素材;还可以是让演员重复多次饰演该演戏片段,并拍摄得到多个视频素材;由于每个视频素材都是对相同的目标事件链拍摄得到的,因此,每个视频素材都包括目标事件链中的所有目标事件。
为了可以剪辑得到不同视频风格的视频,因此,每个视频素材具有唯一对应的拍摄方式,拍摄方式可以根据对目标事件链进行拍摄的角度、镜头远近、拍摄人物等方面进行区分。
目标事件链可以包括多个事件,例如:1.小明走在街上。2.小明碰到同事,打招呼。3.同事对小明说:“今天把本月工资发下来了。”4. 小明查询自己的工资并未下发,暴跳如雷。则该目标事件链可以包括上述4个事件。并且上述4个事件是按照1-2-3-4的时序排列的。
目标视频风格可以是由进行视频观看的用户,通过在客户端上的所有可选视频风格中选择得到,也可以是用户通过在所有可选单镜拍摄方式以及镜头切换方式中选择的一个或多个后得到(即,视频风格包括单镜拍摄方式以及镜头切换方式)。再通过客户端将目标视频风格发送至实现本实施例方法的服务器中。
步骤S102,按照与每个目标事件对应的起止时间对至少两个视频素材中的每个视频素材进行分割,得到与每个目标事件对应的候选视频段。
在得到视频素材之后,即可确定在视频素材中,与每个目标事件对应的起止时间。
目标事件对应的起止时间可以是在视频素材中用于指示目标事件发生与结束的时间点。例如,当视频素材A为1分钟长的视频时,且确定出目标事件a的起始时间为第15秒,结束时间为第23秒,则目标事件的起止时间可以通过(15s,23s)进行指示。
对于每个视频素材,可以按照该方法确定出视频素材中的每个目标事件对应的起止时间。
在确定出与每个目标事件对应的起止时间之后,即可按照起止时间对每个视频素材进行分割,进而可以得到与每个目标事件对应的候选视频段。
一般情况下,目标事件会在多个视频素材中被记录,因此,每个目标事件可以对应有多个候选视频段。
步骤S103,按照目标视频风格,在所有候选视频段中确定出与每个目标事件对应的目标视频段。
在确定出目标视频风格以及与每个目标事件对应的候选视频段之后,即可在所有候选视频段中确定出满足目标视频风格的目标视频段,并且,每个目标事件具有唯一对应的目标视频段。
可选的,可以确定出每个目标视频段是否满足目标视频风格,或者每个目标视频段与目标视频风格的匹配程度,进而确定出所有目标视频段。还可以确定出多个候选拼接视频(对于其中任一个候选拼接视频,候选拼接视频中的每个目标事件具有对应的候选视频段),并确定出该候选拼接视频整体与目标视频风格的匹配程度,进而确定出匹配度最高的目标拼接视频,然后将目标拼接视频包括的所有候选视频段作为目标视频段。
步骤S104,按照时序关系,对所有目标视频段进行拼接,得到目标视频风格的目标视频。
在确定出所有目标视频段之后,由于目标视频段是与每个目标事件相对应的,且各个目标事件之间具有时序关系,因此,可以按照该时序关系,对所有目标视频段进行拼接,进而得到目标视频风格的目标视频。
在得到目标视频之后,服务器可以将目标视频推送至前述的客户端,以使用户可以观看其选择的目标视频风格的目标视频。
通过本实施例中的方法,可以通过对每个视频素材进行分割得到多个候选视频段,并基于目标视频风格在各个候选视频段中确定出与每个目标事件对应的目标视频段,从而最终拼接得到目标视频风格的目标视频;进而实现了剪辑得到任意视频风格的视频的目的。通过本实施例中的方法能够解决相关技术中存在按照不同的个性化需求进行视频剪辑时效率低下的技术问题。
如图2所示,作为一种可选的实施方式,如前述的方法,所述步骤S102按照与每个目标事件对应的起止时间对至少两个视频素材中的每个视频素材进行分割,得到与每个目标事件对应的候选视频段,包括如下所述步骤:
步骤S201,确定视频素材中与每个目标事件对应的起止时间。
作为一种可选的实施方式,如前述的方法,所述步骤S201确定视频素材中与每个目标事件对应的起止时间,包括如下所述步骤:
步骤S301,对视频素材进行动作检测,确定出视频素材的所有目标事件中的所有动作;对视频素材进行语音识别,确定出视频素材的所有目标事件中的所有台词;
步骤S302,确定出所有动作中每个动作的第一起止时间,其中,动作与第一起止时间一一对应;确定出所有台词中每句台词的第二起止时间,其中,台词与第二起止时间一一对应。
为了确定视频素材中的各个目标时间对应的起止时间,因此,需先在视频素材中识别得到各个目标事件;可选地,视频素材中的事件可以包括:动作和台词。
对于动作,可以通过对视频素材进行动作检测,以确定出视频素材中的所有动作,并确定出所有动作中每个动作的第一起止时间。例如,当通过动作检测确定出存在动作A时,则可以通过确定出动作A 的起始时间以及结束时间,进而将动作A的起始时间以及结束时间之间的时间段作为动作A对应的第一起止时间。当视频素材A为1分钟长的视频时,且确定出动作A的起始时间为第15秒,结束时间为第 23秒,则动作A的第一起止时间可以通过(15s,23s)进行指示。
对于台词,可以通过对视频素材进行语音识别,确定出视频素材中的所有台词,并确定出所有台词中每句台词的第二起止时间。例如,当通过动作检测确定出存在台词B时,则可以通过确定出台词B的起始时间以及结束时间,进而将台词B的起始时间以及结束时间之间的时间段作为台词B对应的第二起止时间。当视频素材A为1分钟长的视频时,且确定出台词B的起始时间为第25秒,结束时间为第30秒,则台词B的第一起止时间可以通过(25s,30s)进行指示。
步骤S202,按照与每个目标事件对应的起止时间,确定出与视频素材对应的所有分割起止时间。
在确定出与每个目标事件对应的起止时间之后,即可按照各个起止时间,确定出与视频素材对应的分割起止时间,分割起止时间可以是用于将视频素材分割为多个候选视频段的起止时间。
例如,每个目标事件对应的起止时间与分割起止时间相同时,则可以直接依据各个起止时间得到分割起止时间。
步骤S203,按照所有分割起止时间中的每个分割起止时间对视频素材进行分割,得到与每个分割起止时间对应的多个候选视频段。
在确定出与所有分割起止时间之后,即可按照分割起止时间对每个视频素材进行分割,进而可以将视频素材分割为多个候选视频段。
通过本实施例中的方法通过对动作以及台词进行识别,并得到第一起止时间以及第二起止时间,同时还基于第一起止时间以及第二起止时间得到分割起止时间,进而可以按照动作和台词对视频素材进行分割,使得分割得到的每个候选视频段可以与各个动作或台词相对应。
作为一种可选的实施方式,如前述的方法,对于所有目标事件中时序上相邻的目标动作以及目标台词,且在目标动作的第一目标起止时间与目标台词的第二目标起止时间之间的交集为时间段的情况下。
即当两个时序上相邻的目标事件分别为目标动作以及目标台词时,且目标动作的第一目标起止时间与目标台词的第二目标起止时间存在重叠时。
例如:对于目标视频素材中的时序上位于第i位的事件(即,台词或动作),该事件对应的起止时间为[t_start(i),t_end(i)](其中,起始时间为t_start(i),结束时间为t_end(i)),i=1,2,…,K,K为目标事件链中目标事件的总个数,并将text(i)记为目标视频素材中的时序上位于第i位的事件。由于在实际视频中动作与台词可能同时进行,因此出现t_end(i-1)>t_start(i)的情况,即t_end(i-1)为text(i-1)事件对应的结束时间,t_start(i)为text(i)时间对应的起始时间,并且text(i-1)事件与text(i) 时间为分别为类型(台词、动作)不同的事件。
在上述情况下,所述步骤S202按照与每个目标事件对应的起止时间,确定出与视频素材对应的所有分割起止时间,包括如下所述步骤:
步骤S401,在确定第一目标起止时间与第二目标起止时间满足第一条件的情况下,将第一目标起止时间与第二目标起止时间的并集的起止时间确定为分割起止时间,其中,第一条件为最晚停止时间早于或等于指定起始时间,最晚停止时间为第一目标起止时间和第二目标起止时间中最晚的停止时间,指定起始时间为时序上与目标动作或目标台词时序上相邻的指定事件的起始时间,且指定事件的起始时间晚于第一目标起止时间中的起始时间以及第二目标起止时间中的起始时间。
例如,在Text(i)是一段动作,Text(i-1)是一句台词,且t_end(i)<= t_start(i+1),此时将该句台词与动作合并,取[t_start(i-1),t_end(i)]为起止时间;或者Text(i-1)是一段动作,Text(i)是一句台词,且t_end(i)<= t_start(i+1),此时将该句台词与动作合并,取[t_start(i-1),t_end(i)]为起止时间。t_start(i+1)即为指定事件的起始时间。
步骤S402,在指定事件为台词,且确定第一目标起止时间、第二目标起止时间以及指定起止时间满足第二条件的情况下,按照第一图像和第一目标起止时间对应的动作视频之间的第一相似度以及第二图像和动作视频之间的第二相似度之间的大小关系,对第一目标起止时间划分得到第一子起止时间以及第二子起止时间,将第一子起止时间与第二目标起止时间的并集的起止时间确定为第一分割起止时间,将第二子起止时间以及指定起止时间的并集的起止时间确定为第二分割起止时间,其中,第一图像为动作视频与第二目标起止时间的停止时间对应的图像,第二图像为动作视频与指定起止时间的起始时间对应的图像,第二条件为第一目标起止时间的停止时间晚于指定起止时间的起始时间,且第一目标起止时间的起始时间晚于指定起止时间的起始时间。
例如,Text(i)为目标动作,Text(i-1)为目标台词,且t_end(i)> t_start(i+1),则将该目标动作对应的动作视频拆开分别与2段台词(即,目标台词与指定事件)合并。方法为分别计算i-1段台词(即,目标台词)最后一帧图像以及i+1段台词(即,指定事件)第一帧图像和i段目标动作的图像(即,动作视频)的相似度,由于即使Text(i-1)与Text(i+1) 都与Text(i)存在交集,Text(i-1)与Text(i+1)之间仍然有可能是不连续的,因此当从前往后(即,从t_end(i-1)往后)逐帧遍历时,发现某一帧z1 的similarity(i-1,i)<similarity(i+1,i)时,这一帧z1对应的时刻记为新的 t_end(i-1)(即,第一子起止时间的停止时间);当从后往前(即,从 t_start(i+1)往前)逐帧遍历时,发现某一帧z2的similarity(i-1,i)>similarity(i+1,i)时,这一帧z2对应的时刻记为新的t_start(i+1)(即,第二子起止时间的起始时间)。其中,similarity(i-1,i)为第一相似度, similarity(i+1,i)为第二相似度。可选地,相似度可以用直方图或者SSIM (Structural Similarity,结构相似性,是一种衡量两幅图像相似度的指标)方法,一般不会出现存在某一帧z3的similarity(i-1,i)=similarity(i+1,i) 的情况,若相等可以不对该目标动作进行切分。
通过本实施例中的方法,可以在视频中动作与台词视同进行的情况下,确定出用于对视频进行分割的分割起止时间,进而便于后期能够更加准确的对视频素材进行分割。
作为一种可选的实施方式,如前述的方法,所述步骤S203按照所有分割起止时间中的每个分割起止时间对视频素材进行分割,得到与每个分割起止时间对应的多个候选视频段,包括如下所述步骤:
步骤S501,确定出第一空白时间以及第二空白时间。
为了使最终分割得到的候选视频段直接拼接之后,可以达到更自然的不同事件之间的过渡效果,可以预先设置第一空白时间以及第二空白时间,即,不同事件之间往往不是时间上紧密相连的,一般情况下都会有一定的空白时间。例如,当两个人(人物I和人物II)在交谈时,人物I说完话之后,人物II并不是紧接着马上进行交谈,往往两段台词之间会存在一定时长的空白时间。
第一空白时间可以是位于事件发生之前的空白时间,第二空白时间可以是时间发生之后的空白时间。
第一空白时间的时长以及第二空白时间的时长可以根据具体的应用场景进行设定,只需满足事件之间的过渡效果自然即可。
步骤S502,确定出分割起止时间中的分割起始时间以及分割停止时间。
在确定出分割起止时间之后,即可在分割起止时间中确定出分割起始时间以及分割停止时间。
步骤S503,通过将分割起始时间提前第一空白时间得到目标分割起始时间,且将分割停止时间延迟第二空白时间得到目标分割停止时间。
在确定出分割起始时间以及第一空白时间之后,即可通过将分割起始时间提前第一空白时间得到目标分割起始时间;在得到分割停止时间以及第二空白时间之后,即可通过将分割停止时间延迟第二空白时间得到目标分割停止时间。第一空白时间和第二空白时间为具有一定时长的时间段。
当事件i的分割起始时间为[t_start(i),t_end(i)];在此事件i的分割起始时间基础上分割视频。为了控制片段长度和节奏,在该事件i的分割起始时间的前后保留一定的空白时间Δstart(即,第一空白时间)和Δend(即,第二空白时间),因此,该事件i的目标分割起始时间为 t_start(i)-Δstart,目标分割停止时间为t_end(i)+Δend。
进一步的,若2个时序上相邻的事件(例如,事件i-1和事件i) 之间的空白时间Δt小于Δstart+Δend,则可选的,可以按照事件的时长比例分割空白段,即,当事件i-1的时长为ti-1,事件i的时长为ti,则事件i-1的第二空白时间(Δt×ti-1)/(ti-1+ti),事件i-1的目标分割停止时间为t_end(i-1)+(Δt×ti-1)/(ti-1+ti),则事件i的第一空白时间为 (Δt×ti)/(ti-1+ti),事件i的目标分割起始时间为t_start(i)-(Δt×ti) /(ti-1+ti);还可以直接将空白时间进行等分处理,以使事件i-1的第二空白时间Δt/2,则事件i的第一空白时间为Δt/2。
步骤S504,根据目标分割起始时间以及目标分割停止时间在视频素材中分割得到位于目标分割起始时间以及目标分割停止时间之间的候选视频段。
在得到目标分割起始时间以及目标分割停止时间之后,即可根据目标分割起始时间以及目标分割停止时间在视频素材中分割,并分割得到位于目标分割起始时间以及目标分割停止时间之间的候选视频段。
例如,在事件i的目标分割起始时间为t_start(i)-Δstart,目标分割停止时间为t_end(i)+Δend的情况下;基于该事件i的目标分割起始时间以及目标分割停止时间可以从原视频中切分出时间段为[t_start(i)-Δ start,t_end(i)+Δend]的候选视频段。
通过本实施例中的方法,通过设置第一空白时间以及第二空白时间可以使最终分割得到的每个候选视频段之间即使直接连接也可达到过渡自然的效果,进而提升最终得到的目标视频的流畅性。
如图3所示,作为一种可选的实施方式,如前述的方法,所述步骤S103按照目标视频风格,在所有候选视频段中确定出与每个目标事件对应的目标视频段,包括如下所述步骤:
步骤S601,确定出目标视频风格中包括的目标单镜拍摄方式以及目标镜头切换方式,其中,目标单镜拍摄方式用于指示视频段的拍摄方式,目标镜头切换方式用于指示每两个视频段之间切换时,每两个视频段中的前一个视频段的单镜拍摄方式变换为后一个视频段的单镜拍摄方式所对应的变化情况。
在目标视频风格是基于用户选择的单镜拍摄方式以及镜头切换方式确定出的情况下,可以直接基于目标视频风格中包括的信息确定出目标单镜拍摄方式以及目标镜头切换方式。
在目标视频风格是用户直接选择的到的情况下,可以基于目标视频风格所预设对应的单镜拍摄方式以及镜头切换方式确定出目标单镜拍摄方式以及目标镜头切换方式。
单镜拍摄方式可以包括单个镜头的属性,例如说话人是否可见、画面是否清晰等。
镜头切换方式可以包括切换镜头之间的关系,例如:避免跳切、角色强调等等。
对于剪辑手法中单个镜头的属性,结合剧本对齐后的K’个段落,以及视频脚本分析的结果,符合剪辑手法要求的备选片段概率应高于其他片段,因此可以设计概率如下:
1)要求每个镜头中当前段落正在说话的角色出现在画面上:
2)要求尽量选择清晰的画面:(计算当前视频段首尾2帧的平均方差,清晰聚焦的图像一般有更大的方差,因此方差越大概率越高)
P(xi=j)=meanVar(i,j)·C
3)偏好使用某种运镜类型(运动/推/拉/静止)的镜头:
4)偏好使用更加饱和度亮度更高的镜头:
P(xi=j)=Brightness(i,j)·C1+Saturation(i,j)·C2
5)偏好使用近景:(scale越大,镜头离拍摄对象越近)
P(xi=j)=Scale(i,j)·C
6)偏好使用远景:(scale越小,镜头离拍摄对象越远)
P(xi=j)=C/Scale(i,j)
7)偏好情绪强烈时使用近景,情绪平缓时使用远景:
8)偏好画面动作与剧本相匹配:
9)偏好某个演员,在不影响剧情时尽量看该演员画面的近景或特写:
10)开场和结尾时尽量使用较大的景别,展示人物关系和周围环境:
对于剪辑手法中多个镜头切换的关系,可以通过条件概率表达如下:
1)切换时避免跳帧导致演员或物体错位,画面衔接不上:
2)景别逐渐变化,避免镜头切换时距离感变换太快:
P(xi=j|xi-1=k)=1/(‖Scale(i,j)-Scale(i-1,k)‖)
3)偏好镜头切换后推进,景别放大:
4)偏好镜头切换后拉远,景别缩小:
5)偏好出现推拉镜头时,景别相应出现变化:
6)偏好镜头切换时景别不变:
7)偏好镜头切换后连续画面饱和度和色彩差异不大:
8)保证相邻镜头的相对运动合理,避免相反运动:(计算i段落第一帧和i-1段落最后一帧物体的位置)
P(xi=j|xi-1=k)=1/‖BBox_first(i,j)-BBox_final(i-1,k)‖
9)偏好长镜头,减少镜头切换:
10)偏好相邻镜头的演员位置相反,体现对话或者对立关系:
P(xi=j|xi-1=k)=C‖BBox(i,j)-BBox(i-1,k)‖
11)偏好相邻镜头的演员位置相同,体现相同的立场或关系:
P(xi=j|xi-1=k)=C/‖BBox(i,j)-BBox(i-1,k)‖
以上公式中,ε为用户预设的一个小概率。多种剪辑手法的组合可以通过符合概率计算得出。
用户可以选择上述一种或多种镜头切换方式,并且,当用户通过选择多种目标镜头切换方式得到目标视频风格时,用户可以给每种目标镜头切换方式赋第二权重;或者用户选择的目标视频风格包括多种目标镜头切换方式时,可以确定出目标视频风格对各种目标镜头切换方式预设的第二权重;以便于后期按照第二权重在所有候选视频段中选择出目标视频段。
例如,当包括三种目标镜头切换方式(b1、b2、b3)时,b1的被选择的概率为0.3(即,b1的第一权重为0.3),b2的被选择的概率为 0.3(即,b2的第一权重为0.3),b3的被选择的概率为0.4(即,b2 的第一权重为0.4)。
步骤S602,按照目标单镜拍摄方式以及目标镜头切换方式,并基于所有候选视频段中每个候选视频段所对应的候选单镜拍摄方式,确定出目标视频拼接策略,其中,每个候选视频段对应一个或多个候选单镜拍摄方式,目标视频拼接策略指示与每个目标事件所对应的目标视频段;
在确定出目标单镜拍摄方式以及目标镜头切换方式之后,即可基于目标单镜拍摄方式、目标镜头切换方式以及每个候选视频段所对应的候选单镜拍摄方式,在所有候选视频段中,确定出目标视频拼接策略。
可选的,可以在获取每个候选视频段之后,对每个候选视频段分别进行人脸检测、物体检测、镜头分析、动作检测、视觉语义嵌入提取视频中的人物、景别、运镜、动作、场景及语义信息;以对每个候选视频段进行分析,并得到与每个候选视频段对应的候选单镜拍摄方式。还可以是在获取视频素材的时候,即视频素材进行人脸检测、物体检测、镜头分析、动作检测、视觉语义嵌入提取视频中的人物、景别、运镜、动作、场景及语义信息;以对每个视频素材进行分析,并得到视频素材中各个时间段的视频对应的单镜拍摄方式,并在确定出各个候选视频段之后,按照候选视频段对应的时间区间以及时间段与单镜拍摄方式之间的对应关系,得到与每个候选视频段对应的候选单镜拍摄方式。
由于镜头切换方式是通过前后两个时序上相邻的视频段分别对应的单镜拍摄方式决定,因此,基于目标镜头切换方式,以及目标视频拼接策略前一个视频段的单镜拍摄方式,可以确定出后一视频段的单镜拍摄方式;同时,基于目标单镜拍摄方式也可以确定出后一视频段的单镜拍摄方式。
基于目标单镜拍摄方式以及目标镜头切换方式都可以确定出各个目标事件对应的视频段,因此按照目标单镜拍摄方式以及目标镜头切换方式可以得到多个候选视频拼接策略,在得到多个候选视频拼接策略之后,可以依据每个候选视频拼接策略中包括的候选视频段,以及每个候选视频段的(第一权重和/或第二权重)确定出每个候选视频拼接策略对应的策略权重,最后再选择出策略权重最高的候选视频拼接策略作为目标视频拼接策略。
步骤S603,按照目标视频拼接策略在所有候选视频段中确定出与每个目标事件对应的目标视频段。
在确定出候选视频拼接策略之后,即可将目标视频拼接策略中每个目标事件对应的候选视频段作为目标视频段。
通过本实施例中的方法,提供了一种可以基于目标视频风格中包括的目标单镜拍摄方式、目标镜头切换方式以及每个候选视频段所对应的候选单镜拍摄方式,确定出与每个目标事件对应的目标视频段的实现方式;进而便于最终可以通过目标视频段得到满足目标视频风格的目标视频。
作为一种可选的实施方式,如前述的方法,所述步骤S602按照目标单镜拍摄方式以及目标镜头切换策略,并基于所有候选视频段中每个候选视频段所对应的候选单镜拍摄方式,确定出目标视频拼接策略,包括如下所述步骤:
步骤S701,确定出与每个目标单镜拍摄方式对应的第一权重,以及与每个目标镜头切换方式对应的第二权重。
步骤S702,按照与每个目标单镜拍摄方式对应的第一权重确定出初始向量以及发射矩阵,按照与每个目标镜头切换方式对应的第二权重确定出转移矩阵。
可选地,可以通过建立初始概率向量以及发射矩阵,得到与每个目标单镜拍摄方式对应的第一权重:
初始向量:B=[P(x1=1),…,P(x1=N)]T;初始向量即为在目标事件链中时序上位于第一位的目标事件的权重的配比;
例如,当N为5,且五个候选视频段中的x1、x2、x3分别满足目标单镜拍摄方式a1、a2、a3;且a1、a2、a3对应的概率(即,第一权重) 分别为:0.3、0.3、0.4;因此可以得到B=[0.3,0.3,0.4,0,0]T
发射矩阵:E(i)=[P(xi=1),…,P(xi=N)]T,发射矩阵可以是用于指示在第一位的目标事件之后的每一目标事件i可能为某一单镜拍摄方式的概率。
可选地,可以通过建立转移矩阵,得到与每个目标镜头切换方式对应的第二权重:
转移矩阵:
转移矩阵中的每个P用于指示各个单镜拍摄方式之间的转换概率 (即,第二权重)。
步骤S703,基于初始向量、发射矩阵以及转移矩阵,并通过维特比算法确定出多个候选视频拼接策略。
在确定出初始向量、发射矩阵以及转移矩阵之后,即可通过维特比算法(一种用于寻找观察结果最有可能解释相关的动态规划算法) 确定出多个候选视频拼接策略。
在确定出目标单镜拍摄以及目标镜头切换方式之后,可以综合考虑目标单镜拍摄方式、目标镜头切换方式以及与每个候选视频段对应的候选单镜拍摄方式,确定出候选拼接策略中与任一个目标事件对应的待定视频段。
例如,对于时序上相邻的两个目标事件,该两个目标事件对应的所有候选视频段中,至少有一个候选视频段的候选单镜拍摄方式包括所有目标单镜拍摄方式中的至少一种的情况下,该两个目标事件中的其中一个目标事件第一待定视频段至少满足以下一个条件:
1、第一待定视频段的候选单镜拍摄方式包括所有目标单镜拍摄方式中的至少一种,即,第一待定视频段所对应的候选单镜拍摄方式包括所有目标单镜拍摄方式中的一种或多种;
2、作为在候选视频拼接策略中时序上与第一待定视频段相邻的第二待定视频段;第一待定视频段的候选单镜拍摄方式与第二待定视频段的候选单镜拍摄方式之间的变化情况满足所有目标镜头切换方式中的至少一种;即,当第二待定视频段时序上位于第一待定视频段之前时,第二待定视频段的候选单镜拍摄方式与第一待定视频段的候选单镜拍摄方式之间构成的变化情况满足所有目标镜头切换方式中的至少一种;或者,当第二待定视频段时序上位于第一待定视频段之后时,第一待定视频段的候选单镜拍摄方式与第二待定视频段的候选单镜拍摄方式之间构成的变化情况满足所有目标镜头切换方式中的至少一种。
步骤S703,按照第一权重以及第二权重计算得到与每个候选视频拼接策略对应的候选权重。
由于在每个候选视频拼接策略中,已确定出与每个目标事件对应的视频段,并且,在已确定每个候选视频段对应的候选单镜拍摄方式、与每个目标单镜拍摄方式对应的第一权重,以及与每个目标镜头切换方式对应的第二权重之后,即可计算得到与每个候选视频拼接策略对应的候选权重;例如,可以使候选视频拼接策略中每存在一个目标单镜拍摄方式则增加第一权重,每存在一个目标镜头切换方式,则增加第二权重。
步骤S704,将所有候选权重中最大的目标权重所对应的候选视频拼接策略确定为目标视频拼接策略。
在得到与每个候选视频拼接策略对应的候选权重之后,即可将所有候选权重中确定出最大的候选权重,并作为目标权重,最后将目标权重所对应的候选视频拼接策略确定为目标视频拼接策略。通过本实施例中的方法,提供了一种基于目标单镜拍摄方式以及目标镜头切换方式,确定出目标视频拼接策略的实现方法,以便于后期基于该目标视频拼接策略得到各个目标视频段,并拼接得到目标视频。
如下图4所示,提供一种应用前述任一实施例的应用例:
首先,预先进行多机位/多次拍摄素材得到多个视频素材,实现本实施例方法的模块可以主要分为视频分析、脚本分析、视频分割及同步以及视频片段剪辑4个主要模块,具体为:
1)视频分析:对视频进行人脸检测、物体检测、镜头分析、动作检测、视觉语义嵌入提取视频中的人物、景别、运镜、动作、场景及语义信息;对音频进行ASR语音识别转换为文本;
2)脚本分析:对脚本台词进行情绪分析,判断情绪激动或平静;
3)视频分割及同步:根据音频识别以及动作检测结果匹配脚本,并根据检测到的时间戳同步多个视频时间;
4)视频片段剪辑:根据剪辑风格和提取到的文本、语音、视频特征剪切视频素材得到片段并构造概率转移模型,通过动态优化算法计算拼接结果,最后按顺序拼接剪切后的片段。
其中,视频分割及同步可以执行如下步骤:
该方法重点介绍视频分割及同步,以及视频片段剪辑部分的实现算法。
一)视频分割及同步
视频分割及同步需要对每一个视频根据脚本对齐时序,并根据要求分割视频:
1)时序对齐:
根据脚本,整个视频可以分为K个段落(即,视频段),每个段落为一句台词或者某个动作。其中,根据视频分析模块中的ASR识别出的文字和起始时间,通过phoneme-mapping算法将语音与台词对齐,从而确定每一句台词的起始时间;根据动作检测结果确定脚本中的动作起始时间。完成检测匹配后,脚本中的每句台词/动作对应的起止时间为[t_start(i),t_end(i)],i=1,2,…,K,text(i)是脚本中的一句台词或一段动作。
实际视频中由于动作与台词可能同时进行,因此出现 t_end(i-1)>t_start(i)时,按下述方式处理:
①Text(i)是一段动作,Text(i-1)是一句台词,且t_end(i)<=t_start(i+1),此时将该句台词与动作合并,取[t_start(i-1),t_end(i)]为起止时间;
②Text(i-1)是一段动作,Text(i)是一句台词,且t_end(i)<=t_start(i+1),此时将该句台词与动作合并,取[t_start(i-1),t_end(i)]为起止时间;
③Text(i)是一段动作,Text(i-1)是一句台词,且t_end(i)>t_start(i+1),则将该动作段拆开分别与2段台词合并。方法为分别计算i-1段台词最后一帧图像以及i+1段台词第一帧图像和i段动作图像的相似度,当从前往后遍历时某一帧的similarity(i-1,i)<similarity(i+1,i)时,这一时刻记为新的t_end(i-1);当从后往前遍历时某一帧的similarity(i-1,i)>similarity(i+1,i)时,这一时刻记为新的t_start(i+1)。
2)分割视频:
对齐视频后,已知所有片段的起止时间 [t_start(i),t_end(i)],i=1,2,…,K’,K’<=K.在此基础上分割视频。为了控制片段长度和节奏,每个片段分割时在前后保留一定的空白时间Δstart和Δend。若2个片段之间的空白时间小于Δstartend,则按比例分割空白段,最终从原视频中切分[t_start(i)-Δstart,t_end(i)+Δend]获取视频段,共得到 K’段视频。
二)视频片段剪辑可以执行如下操作:
常用剪辑手法,包括单个镜头的属性,例如说话人可见、画面是否清晰等;以及切换镜头之间的关系,例如:避免跳切、角色强调等等。这些多种手法的组合决定剪辑视频后成片每一段选择的视频片段。
记输入的视频拍摄素材共计N个(多个机位或者多次拍摄),在分割对齐后划分出了K’个段落,则每个段落都有N个备选片段。记 xi=j为第i个段落选择片段j,i=1,2,…,K’,j=1,2,…,N.
对于剪辑手法中单个镜头的属性,结合剧本对齐后的K’个段落,以及视频脚本分析的结果,符合剪辑手法要求的备选片段概率应高于其他片段,因此可以设计概率如下:
1)要求每个镜头中当前段落正在说话的角色出现在画面上:
2)要求尽量选择清晰的画面:(计算当前视频段首尾2帧的平均方差,清晰聚焦的图像一般有更大的方差,因此方差越大概率越高)
P(xi=j)=meanVar(i,j)·C
3)偏好使用某种运镜类型(运动/推/拉/静止)的镜头:
/>
4)偏好使用更加饱和度亮度更高的镜头:
P(xi=j)=Brightness(i,j)·C1+Saturation(i,j)·C2
5)偏好使用近景:(scale越大,镜头离拍摄对象越近)
P(xi=j)=Scale(i,j)·C
6)偏好使用远景:(scale越小,镜头离拍摄对象越远)
P(xi=j)=C/Scale(i,j)
7)偏好情绪强烈时使用近景,情绪平缓时使用远景:
8)偏好画面动作与剧本相匹配:
9)偏好某个演员,在不影响剧情时尽量看该演员画面的近景或特写:
10)开场和结尾时尽量使用较大的景别,展示人物关系和周围环境:
对于剪辑手法中多个镜头切换的关系,可以通过条件概率表达如下:
1)切换时避免跳帧导致演员或物体错位,画面衔接不上:
2)景别逐渐变化,避免镜头切换时距离感变换太快:
P(xi=j|xi-1=k)=1/(‖Scale(i,j)-Scale(i-1,k)‖)
3)偏好镜头切换后推进,景别放大:
4)偏好镜头切换后拉远,景别缩小:
5)偏好出现推拉镜头时,景别相应出现变化:
6)偏好镜头切换时景别不变:
7)偏好镜头切换后连续画面饱和度和色彩差异不大:
8)保证相邻镜头的相对运动合理,避免相反运动:(计算i段落第一帧和i-1段落最后一帧物体的位置)
P(xi=j|xi-1=k)=1/‖BBox_first(i,j)-BBox_final(i-1,k)‖
9)偏好长镜头,减少镜头切换:
10)偏好相邻镜头的演员位置相反,体现对话或者对立关系:
P(xi=j|xi-1=k)=C‖BBox(i,j)-BBox(i-1,k)‖
11)偏好相邻镜头的演员位置相同,体现相同的立场或关系:
P(xi=j|xi-1=k)=C/‖BBox(i,j)-BBox(i-1,k)‖
以上公式中,ε为用户预设的一个小概率。多种剪辑手法的组合可以通过符合概率计算得出,并得到多种候选视频拼接策略。
在根据剪辑规则完成概率的设计后,可以发现实际上这就是一个发射矩阵和转移矩阵随时间变化的隐马尔可夫过程,xi即为最终观测结果的隐状态。
初始向量:B=[P(x1=1),…,P(x1=N)]T
发射矩阵:E(i)=[P(xi=1),…,P(xi=N)]T
转移矩阵:
在得到初始向量、发射矩阵以及转移矩阵之后,即可通过维特比算法可以求解该过程,得到候选视频拼接策略的候选权重,并按照候选权重在得到多种候选视频拼接策略中确定出目标视频拼接策略;进而得到最终每个段落选择的视频片段,拼合后即可输出完成智能剪辑后的视频。
如图5所示,根据本申请另一方面的一个实施例,还提供了一种视频剪辑装置,包括:
获取模块1,用于获取待处理的至少两个视频素材,并确定目标视频风格,其中,所述视频素材是对目标事件链进行拍摄得到的视频,所述至少两个视频素材中的任两个所述视频素材对所述目标事件链的拍摄方式不同,所述目标事件链包括多个按照预设的时序关系排列的目标事件;
分割模块2,用于按照与每个所述目标事件对应的起止时间对所述至少两个视频素材中的每个所述视频素材进行分割,得到与每个所述目标事件对应的候选视频段;
确定模块3,用于按照所述目标视频风格,在所有所述候选视频段中确定出与每个目标事件对应的目标视频段;
拼接模块4,用于按照所述时序关系,对所有所述目标视频段进行拼接,得到所述目标视频风格的目标视频。
具体的,本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
根据本申请的另一个实施例,还提供一种电子设备,包括:如图6 所示,电子设备可以包括:处理器1501、通信接口1502、存储器1503 和通信总线1504,其中,处理器1501,通信接口1502,存储器1503 通过通信总线1504完成相互间的通信。
存储器1503,用于存放计算机程序;
处理器1501,用于执行存储器1503上所存放的程序时,实现上述方法实施例的步骤。
上述电子设备提到的总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路 (Application Specific Integrated Circuit,ASIC)、现场可编程门阵列 (Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本申请实施例还提供一种计算机可读存储介质,存储介质包括存储的程序,其中,程序运行时执行上述方法实施例的方法步骤。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种视频剪辑方法,其特征在于,包括:
获取待处理的至少两个视频素材,并确定目标视频风格,其中,所述视频素材是对目标事件链进行拍摄得到的视频,每个所述视频素材具有唯一对应的拍摄方式,所述目标事件链包括多个按照预设的时序关系排列的目标事件;
按照与每个所述目标事件对应的起止时间对所述至少两个视频素材中的每个所述视频素材进行分割,得到与每个所述目标事件对应的候选视频段;
确定出所述目标视频风格中包括的目标单镜拍摄方式以及目标镜头切换方式,其中,所述目标单镜拍摄方式用于指示视频段的拍摄方式,所述目标镜头切换方式用于指示每两个视频段之间切换时,所述每两个视频段中的前一个视频段的单镜拍摄方式变换为后一个视频段的单镜拍摄方式所对应的变化情况;
确定出与每个所述目标单镜拍摄方式对应的第一权重,以及与每个所述目标镜头切换方式对应的第二权重,其中,每个所述候选视频段对应一个或多个候选单镜拍摄方式,所述目标视频拼接策略指示与每个所述目标事件所对应的目标视频段;
按照与每个所述目标单镜拍摄方式对应的第一权重确定出初始向量以及发射矩阵,按照与每个所述目标镜头切换方式对应的第二权重确定出转移矩阵;
基于所述初始向量、所述发射矩阵以及所述转移矩阵,并通过维特比算法确定出多个候选视频拼接策略;
按照所述第一权重以及所述第二权重计算得到与每个所述候选视频拼接策略对应的候选权重;
将所有所述候选权重中最大的目标权重所对应的所述候选视频拼接策略确定为所述目标视频拼接策略;
按照所述目标视频拼接策略在所有所述候选视频段中确定出与每个目标事件对应的所述目标视频段;
按照所述时序关系,对所有所述目标视频段进行拼接,得到所述目标视频风格的目标视频。
2.根据权利要求1所述的方法,其特征在于,所述按照与每个所述目标事件对应的起止时间对所述至少两个视频素材中的每个所述视频素材进行分割,得到与每个所述目标事件对应的候选视频段,包括:
确定所述视频素材中与每个所述目标事件对应的起止时间;
按照与每个所述目标事件对应的起止时间,确定出与所述视频素材对应的所有分割起止时间;
按照所述所有分割起止时间中的每个所述分割起止时间对所述视频素材进行分割,得到与每个所述分割起止时间对应的多个所述候选视频段。
3.根据权利要求2所述的方法,其特征在于,所述确定所述视频素材中与每个所述目标事件对应的起止时间,包括:
对所述视频素材进行动作检测,确定出所述视频素材的所有所述目标事件中的所有动作;对所述视频素材进行语音识别,确定出所述视频素材的所有所述目标事件中的所有台词;
确定出所述所有动作中每个动作的第一起止时间,其中,所述动作与所述第一起止时间一一对应;确定出所述所有台词中每句所述台词的第二起止时间,其中,所述台词与所述第二起止时间一一对应。
4.根据权利要求3所述的方法,其特征在于,对于所有所述目标事件中时序上相邻的目标动作以及目标台词,且在所述目标动作的第一目标起止时间与所述目标台词的第二目标起止时间之间的交集为时间段的情况下,所述按照与每个所述目标事件对应的起止时间,确定出与所述视频素材对应的所有分割起止时间,包括:
在确定所述第一目标起止时间与所述第二目标起止时间满足第一条件的情况下,将所述第一目标起止时间与所述第二目标起止时间的并集的起止时间确定为所述分割起止时间,其中,所述第一条件为最晚停止时间早于或等于指定起始时间,所述最晚停止时间为所述第一目标起止时间和所述第二目标起止时间中最晚的停止时间,所述指定起始时间为时序上与所述目标动作或所述目标台词时序上相邻的指定事件的起始时间,且所述指定事件的起始时间晚于所述第一目标起止时间中的起始时间以及所述第二目标起止时间中的起始时间;
在所述指定事件为台词,且确定所述第一目标起止时间、所述第二目标起止时间以及指定起止时间满足第二条件的情况下,按照第一图像和所述第一目标起止时间对应的动作视频之间的第一相似度以及第二图像和所述动作视频之间的第二相似度之间的大小关系,对所述第一目标起止时间划分得到第一子起止时间以及第二子起止时间,将所述第一子起止时间与所述第二目标起止时间的并集的起止时间确定为第一分割起止时间,将所述第二子起止时间以及所述指定起止时间的并集的起止时间确定为第二分割起止时间,其中,所述第一图像为所述动作视频与所述第二目标起止时间的停止时间对应的图像,所述第二图像为所述动作视频与所述指定起止时间的起始时间对应的图像,所述第二条件为所述第一目标起止时间的停止时间晚于所述指定起止时间的起始时间,且所述第一目标起止时间的起始时间晚于所述指定起止时间的起始时间。
5.根据权利要求2所述的方法,其特征在于,所述按照所述所有分割起止时间中的每个所述分割起止时间对所述视频素材进行分割,得到与每个所述分割起止时间对应的多个所述候选视频段,包括:
确定出第一空白时间以及第二空白时间;
确定出所述分割起止时间中的分割起始时间以及分割停止时间;
通过将所述分割起始时间提前所述第一空白时间得到目标分割起始时间,且将所述分割停止时间延迟所述第二空白时间得到目标分割停止时间;
根据所述目标分割起始时间以及目标分割停止时间在所述视频素材中分割得到位于所述目标分割起始时间以及所述目标分割停止时间之间的所述候选视频段。
6.一种视频剪辑装置,其特征在于,包括:
获取模块,用于获取待处理的至少两个视频素材,并确定目标视频风格,其中,所述视频素材是对目标事件链进行拍摄得到的视频,每个所述视频素材具有唯一对应的拍摄方式,所述目标事件链包括多个按照预设的时序关系排列的目标事件;
分割模块,用于按照与每个所述目标事件对应的起止时间对所述至少两个视频素材中的每个所述视频素材进行分割,得到与每个所述目标事件对应的候选视频段;
确定模块,用于确定出所述目标视频风格中包括的目标单镜拍摄方式以及目标镜头切换方式,其中,所述目标单镜拍摄方式用于指示视频段的拍摄方式,所述目标镜头切换方式用于指示每两个视频段之间切换时,所述每两个视频段中的前一个视频段的单镜拍摄方式变换为后一个视频段的单镜拍摄方式所对应的变化情况;确定出与每个所述目标单镜拍摄方式对应的第一权重,以及与每个所述目标镜头切换方式对应的第二权重,其中,每个所述候选视频段对应一个或多个候选单镜拍摄方式,所述目标视频拼接策略指示与每个所述目标事件所对应的目标视频段;按照与每个所述目标单镜拍摄方式对应的第一权重确定出初始向量以及发射矩阵,按照与每个所述目标镜头切换方式对应的第二权重确定出转移矩阵;基于所述初始向量、所述发射矩阵以及所述转移矩阵,并通过维特比算法确定出多个候选视频拼接策略;按照所述第一权重以及所述第二权重计算得到与每个所述候选视频拼接策略对应的候选权重;将所有所述候选权重中最大的目标权重所对应的所述候选视频拼接策略确定为所述目标视频拼接策略;按照所述目标视频拼接策略在所有所述候选视频段中确定出与每个目标事件对应的所述目标视频段;
拼接模块,用于按照所述时序关系,对所有所述目标视频段进行拼接,得到所述目标视频风格的目标视频。
7.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,所述处理器、通信接口和存储器通过通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述计算机程序时,实现权利要求1至5任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至5中任一项所述的方法。
CN202210771782.3A 2022-06-30 2022-06-30 一种视频剪辑方法和装置、电子设备和存储介质 Active CN115119050B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210771782.3A CN115119050B (zh) 2022-06-30 2022-06-30 一种视频剪辑方法和装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210771782.3A CN115119050B (zh) 2022-06-30 2022-06-30 一种视频剪辑方法和装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN115119050A CN115119050A (zh) 2022-09-27
CN115119050B true CN115119050B (zh) 2023-12-15

Family

ID=83330298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210771782.3A Active CN115119050B (zh) 2022-06-30 2022-06-30 一种视频剪辑方法和装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN115119050B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010127418A1 (en) * 2009-05-07 2010-11-11 Universite Catholique De Louvain Systems and methods for the autonomous production of videos from multi-sensored data
CN102427507A (zh) * 2011-09-30 2012-04-25 北京航空航天大学 一种基于事件模型的足球视频集锦自动合成方法
CN108650558A (zh) * 2018-05-30 2018-10-12 互影科技(北京)有限公司 基于交互视频的视频前情提要的生成方法及装置
CN108933970A (zh) * 2017-05-27 2018-12-04 北京搜狗科技发展有限公司 视频的生成方法和装置
CN110008875A (zh) * 2019-03-26 2019-07-12 武汉大学 一种基于关键帧回溯的人脸识别视频片段筛选方法及系统
CN110381371A (zh) * 2019-07-30 2019-10-25 维沃移动通信有限公司 一种视频剪辑方法及电子设备
WO2019242328A1 (zh) * 2018-06-20 2019-12-26 百度在线网络技术(北京)有限公司 信息检索方法、装置、设备及计算机可读介质
WO2021003825A1 (zh) * 2019-07-11 2021-01-14 平安科技(深圳)有限公司 视频镜头剪切的方法、装置及计算机设备
CN112565825A (zh) * 2020-12-02 2021-03-26 腾讯科技(深圳)有限公司 一种视频数据处理方法、装置、设备以及介质
CN113453040A (zh) * 2020-03-26 2021-09-28 华为技术有限公司 短视频的生成方法、装置、相关设备及介质
WO2022061806A1 (zh) * 2020-09-27 2022-03-31 深圳市大疆创新科技有限公司 影片生成方法、终端设备、拍摄设备及影片生成系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509465B (zh) * 2017-02-28 2022-03-15 阿里巴巴集团控股有限公司 一种视频数据的推荐方法、装置和服务器

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010127418A1 (en) * 2009-05-07 2010-11-11 Universite Catholique De Louvain Systems and methods for the autonomous production of videos from multi-sensored data
CN102427507A (zh) * 2011-09-30 2012-04-25 北京航空航天大学 一种基于事件模型的足球视频集锦自动合成方法
CN108933970A (zh) * 2017-05-27 2018-12-04 北京搜狗科技发展有限公司 视频的生成方法和装置
CN108650558A (zh) * 2018-05-30 2018-10-12 互影科技(北京)有限公司 基于交互视频的视频前情提要的生成方法及装置
WO2019242328A1 (zh) * 2018-06-20 2019-12-26 百度在线网络技术(北京)有限公司 信息检索方法、装置、设备及计算机可读介质
CN110008875A (zh) * 2019-03-26 2019-07-12 武汉大学 一种基于关键帧回溯的人脸识别视频片段筛选方法及系统
WO2021003825A1 (zh) * 2019-07-11 2021-01-14 平安科技(深圳)有限公司 视频镜头剪切的方法、装置及计算机设备
CN110381371A (zh) * 2019-07-30 2019-10-25 维沃移动通信有限公司 一种视频剪辑方法及电子设备
CN113453040A (zh) * 2020-03-26 2021-09-28 华为技术有限公司 短视频的生成方法、装置、相关设备及介质
WO2021190078A1 (zh) * 2020-03-26 2021-09-30 华为技术有限公司 短视频的生成方法、装置、相关设备及介质
WO2022061806A1 (zh) * 2020-09-27 2022-03-31 深圳市大疆创新科技有限公司 影片生成方法、终端设备、拍摄设备及影片生成系统
CN112565825A (zh) * 2020-12-02 2021-03-26 腾讯科技(深圳)有限公司 一种视频数据处理方法、装置、设备以及介质

Also Published As

Publication number Publication date
CN115119050A (zh) 2022-09-27

Similar Documents

Publication Publication Date Title
US10706892B2 (en) Method and apparatus for finding and using video portions that are relevant to adjacent still images
CN108933970B (zh) 视频的生成方法和装置
US20160034786A1 (en) Computerized machine learning of interesting video sections
JP2022523606A (ja) 動画解析のためのゲーティングモデル
US8947442B2 (en) Image display apparatus, display control method, and display control program
CN113099297B (zh) 卡点视频的生成方法、装置、电子设备及存储介质
WO2021248835A1 (zh) 视频处理方法及装置、电子设备、存储介质和计算机程序
US10297285B2 (en) Video data processing method and electronic apparatus
CN108632536A (zh) 一种相机控制方法及装置、终端、存储介质
CN109167934B (zh) 一种视频处理方法、装置及计算机可读存储介质
CN112291614A (zh) 一种视频生成方法及装置
CN113766268B (zh) 视频处理方法、装置、电子设备和可读介质
CN108958592B (zh) 视频处理方法及相关产品
CN110868542A (zh) 拍照方法、装置及设备
CN114339076A (zh) 视频拍摄方法、装置、电子设备以及存储介质
CN113923378A (zh) 视频处理方法、装置、设备及存储介质
CN115119050B (zh) 一种视频剪辑方法和装置、电子设备和存储介质
CN115665508A (zh) 视频摘要生成的方法、装置、电子设备及存储介质
US20230006851A1 (en) Method and device for viewing conference
CN114299415A (zh) 一种视频切分方法、装置、电子设备以及存储介质
CN109327713B (zh) 一种媒体信息的生成方法和装置
CN113691838A (zh) 音频弹幕处理方法及装置、电子设备及存储介质
CN110175293B (zh) 一种确定新闻脉络的方法、装置及电子设备
CN109151568B (zh) 视频处理方法及相关产品
CN112004033B (zh) 视频封面确定方法及装置、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant