CN117156079B

CN117156079B - 视频处理方法、装置、电子设备和可读存储介质

Info

Publication number: CN117156079B
Application number: CN202311441689.7A
Authority: CN
Inventors: 尚盼龙
Original assignee: Beijing Meishe Network Technology Co ltd
Current assignee: Beijing Meishe Network Technology Co ltd
Priority date: 2023-11-01
Filing date: 2023-11-01
Publication date: 2024-01-23
Anticipated expiration: 2043-11-01
Also published as: CN117156079A

Abstract

本发明实施例提供了一种视频处理方法、装置、电子设备和可读存储介质，涉及图像处理技术领域。所述方法包括：创建至少一个镜头组；确定各个镜头组中的至少一个视频资源和音频资源；对各个镜头组中的至少一个视频资源进行排列组合，得到与各个镜头组对应的至少一个视频资源组；从视频资源组中随机确定各个镜头组对应的目标视频资源组，并基于各个目标视频资源组和音频资源，构建时间线；基于至少一个时间线，生成并输出至少一个目标视频文件。本发明实施例在某个时间线对应的视频文件不理想的情况下，无需重新调整输出，可以实现多个目标视频文件的批量输出，提高了视频处理效率。

Description

视频处理方法、装置、电子设备和可读存储介质

技术领域

本发明属于图像处理技术领域，特别是涉及一种视频处理方法、一种视频处理装置、一种电子设备和一种可读存储介质。

背景技术

视频剪辑是使用软件对视频源进行非线性编辑，加入的图片、背景音乐、特效、场景等素材与视频进行重混合，对视频源进行切割、合并，通过二次编码，生成具有不同表现力的新视频。

目前，视频剪辑流程通常包括素材收集、粗剪、配音、字幕添加、特效添加、渲染出片等步骤。

但是，目前的视频剪辑流程在渲染出片的效果不理想的情况下，还需要重新调整渲染输出，效率低下。

发明内容

本发明提供一种视频处理方法、一种视频处理装置、一种电子设备和一种可读存储介质，以解决目前视频处理过程中存在效率低下的技术问题。

为了解决上述技术问题，本发明实施例提供了一种视频处理方法，所述方法包括：

创建至少一个镜头组；

确定各个所述镜头组中的至少一个视频资源和音频资源；各个所述镜头组中的资源互相隔离；

对各个所述镜头组中的所述至少一个视频资源进行排列组合，得到与各个所述镜头组对应的至少一个视频资源组；

从所述至少一个视频资源组中随机确定各个所述镜头组对应的目标视频资源组，并基于各个所述目标视频资源组和所述音频资源，构建时间线；

基于至少一个所述时间线，生成并输出至少一个目标视频文件。

可选地，所述基于各个所述目标视频资源组和所述音频资源，构建时间线，包括：

对各个所述镜头组对应的所述目标视频资源组和所述音频资源进行对齐处理；

基于各个所述镜头组之间的排列顺序和对齐处理后的目标视频资源组，构建时间线。

可选地，所述对各个所述镜头组对应的所述目标视频资源组和所述音频资源进行对齐处理，包括：

确定所述音频资源的音频时长和所述镜头组对应的资源总时长；所述资源总时长为所述目标视频资源组中各个视频资源的视频时长之和；

基于所述资源总时长和/或所述音频时长，确定所述镜头组对应的镜头组时长；

基于所述镜头组时长，对所述目标视频资源组和所述音频资源进行对齐处理。

可选地，所述基于所述资源总时长和/或所述音频时长，确定所述镜头组对应的镜头组时长，包括：

将所述资源总时长和所述音频时长之间的最大值，确定为所述镜头组对应的镜头组时长；或者，

将所述音频时长确定为所述镜头组对应的镜头组时长。

可选地，在所述镜头组时长为所述资源总时长和所述音频时长之间的最大值的情况下，所述基于所述镜头组时长，对所述目标视频资源组和所述音频资源进行对齐处理，包括：

若所述镜头组时长大于所述资源总时长，则将所述镜头组对应的目标视频资源组中最后一个视频资源的出点作为静帧直到所述资源总时长达到镜头组时长；

若所述镜头组时长大于所述音频时长，则在所述音频资源播放完成后，按照所述目标视频资源组对应的正常倍速播放所述目标视频资源组中的视频资源至结束。

可选地，在所述镜头组时长为音频时长的情况下，所述基于所述镜头组时长，对所述目标视频资源组和所述音频资源进行对齐处理，包括：

若所述镜头组时长小于所述资源总时长，则按照视频时长由大到小的顺序对所述目标视频资源组中的视频资源依次进行裁剪，直至所述资源总时长等于所述镜头组时长。

若所述镜头组时长大于所述资源总时长，则按照视频时长由大到小的顺序将所述目标视频资源组中的视频资源的播放倍速依次设置为第一预设倍速，直至所述资源总时长等于所述镜头组时长；所述第一预设倍速小于所述视频资源对应的正常倍速；

若所述镜头组时长小于所述资源总时长，则按照视频时长由大到小的顺序将所述目标视频资源组中的视频资源的播放倍速依次设置为第二预设倍速，直至所述资源总时长等于所述镜头组时长；所述第二预设倍速大于所述视频资源对应的正常倍速。

为了解决上述技术问题，本发明实施例提供了一种视频处理装置，所述装置包括：

创建模块，用于创建至少一个镜头组；

确定模块，用于确定各个所述镜头组中的至少一个视频资源和音频资源；各个所述镜头组中的资源互相隔离；

排列组合模块，用于对各个所述镜头组中的所述至少一个视频资源进行排列组合，得到与各个所述镜头组对应的至少一个视频资源组；

时间线构建模块，用于从所述至少一个视频资源组中随机确定各个所述镜头组对应的目标视频资源组，并基于各个所述目标视频资源组和所述音频资源，构建时间线；

生成模块，用于基于至少一个所述时间线，生成并输出至少一个目标视频文件。

为了解决上述技术问题，本发明实施例提供了一种电子设备，包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的视频处理方法。

为了解决上述技术问题，本发明实施例提供了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述的视频处理方法。

本发明实施例包括以下优点：

在本发明实施例中，通过对各个镜头组中的视频资源进行排列组合，并从排列组合后得到的至少一个视频资源组中随机确定各个镜头组对应的目标视频资源组，然后基于各个镜头组对应的各个目标视频资源组以及各个镜头组中的音频资源，确定与各个目标视频资源组对应的时间线。基于镜头组的数量，以及镜头组中的视频资源数量，可以得到多个不同的视频资源组，从资源组中确定的目标视频资源组的种类也随之增多，基于不同的目标视频资源组以及音频资源可以构建至少一个时间线，用户可以从该至少一个时间线中确定至少一个可以输出的目标视频文件，实现了目标视频文件的批量输出，在某个时间线对应的视频文件不理想的情况下，用户还可以选择该时间线以外的其他时间线对应的视频文件进行输出，在某个时间线对应的视频文件不理想的情况下，无需重新调整时间线进行输出，并且可以实现多个目标视频文件的批量输出，提高了视频处理效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种视频处理方法的步骤流程图；

图2是示出了本发明实施例提供的一种视频处理方法逻辑示意图；

图3是本发明实施例提供的另一种视频处理方法的步骤流程图；

图4是本发明实施例提供的一种视频处理装置的逻辑框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

方法实施例

参照图1，示出了本发明实施例提供的一种视频处理方法的步骤流程图。该方法可以包括步骤S110至步骤S150：

本发明实施例提供的视频处理方法可以应用于视频处理系统，该视频处理系统可以包括但不限于web（World Wide Web，全球广域网）端和服务端。其中，web端可以基于用户在web端的操作界面中的操作信息，通过步骤S110进行至少一个镜头组的创建，并通过步骤S120确定镜头组中的至少一个视频资源和音频资源；之后，基于web端的镜头组创建，以及视频资源、音频资源的确定操作，服务端可以通过步骤S130对各个镜头组中的至少一个视频资源进行排列组合，得到与各个镜头组对应的至少一个视频资源组，并通过步骤S140从至少一个视频资源组中随机确定各个镜头组对应的目标视频资源组；然后服务端再基于各个目标视频资源组和音频资源，构建时间线；最后，服务端可以通过web端向用户显示服务端通过步骤S140中构建的至少一个时间线，并基于用户对至少一个时间线的选择操作，生成并输出该至少一个时间线对应的至少一个目标视频文件。

其中，服务端可以是与web端建立通信连接的服务器，由服务端和web端构成的视频处理系统可以被设置于同一设备中，也可以分别被设置于不同的设备中，本发明实施例对此不作具体限定。

步骤S110、创建至少一个镜头组。

具体地，首先，web端可以向用户显示与视频处理相关的操作界面；之后，用户基于操作界面中显示的内容，在操作界面中进行草稿创建的操作，web端响应于用户进行草稿创建的操作，在操作界面中新建草稿，草稿可以是空白草稿，也可以是预设格式的模板；然后，用户可以在草稿中点击创建至少一个镜头组，web端响应于用户创建镜头组的操作，在新建的草稿中创建至少一个镜头组。

需要说明的是，镜头组可以是片头、片尾、片中中的至少一种。

步骤S120、确定各个所述镜头组中的至少一个视频资源和音频资源；各个所述镜头组中的资源互相隔离。

在本发明实施例中，web端在通过步骤S110创建至少一个镜头组之后，可以通过操作界面向用户显示各个镜头组对应的资源配置控件；之后，web端基于用户针对各个镜头组对应的资源配置控件的交互事件，确定各个镜头组中的至少一个初始视频资源；然后，web端基于各个镜头组中的初始视频资源，对各个初始视频资源进行标签检测、粗剪、出入点设置等操作，得到各个镜头组中的至少一个视频资源；最后，web端可以确定各个镜头组中的音频资源。

具体地，用户针对各个镜头组对应的资源配置控件的交互事件具体可以是用户针对各个镜头组对应的资源配置控件，从预设资源库中选择各个镜头组中的至少一个初始视频资源；在预设资源库中的初始视频资源不满足用户要求的情况下，用户可以从本地上传初始视频资源至预设资源库，然后再从预设资源库中选择各个镜头组中的至少一个初始视频资源。其中，预设资源库中的初始视频资源包括标签，标签用于标记初始视频资源的内容信息。预设资源库中的初始视频资源和标签一一对应，用户在从本地上传初始视频资源至预设资源库的过程中，可以设置初始视频资源对应的标签。

在web端确定各个镜头组中的至少一个初始视频资源之后，可以对各个初始视频资源对应的标签进行检测，以便在步骤S150生成目标视频文件的过程中，服务端可以基于标签为目标视频资源组中的视频资源添加相关特效。此外，web还可以基于各个初始视频资源的按照景别信息或者转场信息对初始视频资源进行自动粗剪，并设置初始视频资源的出入点，得到各个镜头组对应的视频资源。其中，web端可以基于预设出入点设置算法自动进行初始视频资源的出入点设置，当然web也可以基于用户针对出入点的设置操作，对初始视频资源的出入点进行设置。此外，web在确定镜头组中的视频资源的过程中，可以根据视频处理需要，设置视频资源是否保留原声。

web端在确定镜头组中的视频资源之后，可以进一步确定镜头组中的音频资源。在视频资源包括原声的情况下，web端可以将视频资源中的原声音频确定为镜头组的音频资源。当然，web端也可以将用户上传的音频资源或者用户上传的镜头组中视频资源之外的其他保留原声的视频资源作为镜头组的音频资源，并基于音频资源自动识别生成音频资源对应的字幕；web端还可以首先获取用户手动添加的针对视频资源的字幕，然后基于字幕通过人工智能（Artificial Intelligence，AI）技术生成音频资源。字幕的样式和音频资源的音色可以根据预览效果进行设置，本发明实施例对此不作赘述。

需要说明的是，各个镜头组中的资源相互隔离，可以理解的是，相互隔离的资源包括但不限于视频资源和音频资源。在步骤S130对应的操作中，服务端是以各个镜头组为单位进行的视频资源进行排列组合操作；在步骤S140基于各个目标视频资源组和音频资源，构建时间线的过程中，也是首先以镜头组为单位进行各个目标视频资源组和音频资源的处理操作，然后构建的时间线。

步骤S130、对各个所述镜头组中的所述至少一个视频资源进行排列组合，得到与各个所述镜头组对应的至少一个视频资源组。

在本发明实施例中，服务端对各个镜头组中的至少一个视频资源进行的排列组合指的是以镜头组为单位，对镜头组中视频资源进行排列组合，得到的视频资源组也是分别与各个镜头组对应的视频资源组。其中，排列组合得到的视频资源组的数量与镜头组中视频资源的数量相关。

视频资源组是将镜头组中的各个视频资源进行排列组合后得到的，视频资源组中的各个视频资源按序排列，同一镜头组对应的不同视频资源组中的视频资源数量相同，但是各个视频资源之间的排列组合顺序不同。

示例性地，在镜头组中视频资源的数量为1的情况下，对1个视频资源进行排列组合，，只能得到一个视频资源组，其中，/>表示1的阶乘。在镜头组中视频资源的数量为3的情况下，对3个视频资源进行排列组合，/>，可以得到6个视频资源组，其中，/>表示3的阶乘。

步骤S140、从所述至少一个视频资源组中随机确定各个所述镜头组对应的目标视频资源组，并基于各个所述目标视频资源组和所述音频资源，构建时间线。

在本发明实施例中，服务端在通过步骤S130得到与各个镜头组对应的至少一个视频资源组之后，可以通过步骤S140从至少一个视频资源组中随机确定分别与各个镜头组对应的目标视频资源组，并基于各个目标视频资源组和音频资源，构建时间线。

具体地，服务端可以从镜头组对应的各个视频资源组中随机选择一个视频资源组作为该镜头组对应的目标视频资源组，在镜头组的数量为多个的情况下，目标视频资源组的数量也为多个。可以理解的是，目标视频资源组的数量与镜头组的数量相同。镜头组对应的目标视频资源组可以是该镜头组对应的至少一个视频资源组中的任意一个视频资源组。

在视频资源组的数量为多个的情况下，服务端每次通过步骤S140确定各个镜头组对应的目标视频资源组也会存在不同，使得服务端每次基于各个目标视频资源组和音频资源，构建的时间线也会不同。可以理解的是，在各个镜头组对应的各个目标视频资源组存在变化的情况下，由此构建的时间线也不相同。在本发明实施例中，服务端通过步骤S140构建的时间线的数量为至少一个。

示例性地，镜头组的数量为3，在各个镜头组中的视频资源数量均1的情况下，服务端基于各个镜头组对应的各个目标视频资源和音频资源构建的时间线的数量为1，。在各个镜头组中的视频资源数量均2的情况下，服务端基于各个镜头组对应的各个目标视频资源和音频资源构建的时间线的数量为8，/>，其中，/>表示2的阶乘。在各个镜头组中的视频资源数量分别为3、4、5的情况下，服务端基于各个镜头组对应的各个目标视频资源和音频资源构建的时间线的数量为17280，，其中，/>表示3的阶乘，/>表示4的阶乘，/>表示5的阶乘。在实际应用场景下，向用户显示17280个时间线，会增加内存开销以及用户预览负担，在实际视频处理过程中，并没有必要输出17280个视频文件。在本发明实施例中，可以设置服务端构建时间线的上限值，在各个镜头组对应的目标视频资源组进行排列组合的数量大于上限值的情况下，可以从各个排列组合中随机选择上限值对应数量的排列组合的目标视频资源组和音频资源，构建时间线。

需要说明的是，各个镜头组对应的目标视频资源组进行排列组合指的是，按照各个镜头组在草稿中的排列顺序，对各个镜头组对应的视频资源组进行排列组合。示例性地，镜头组的数量为3，并且按照第一镜头组在最前，第三镜头组在最后，第二镜头组在第一镜头组和第二镜头组之间的顺序，对各个镜头组对应的视频资源组进行排列组合的表达式可以表示为。其中，N表示第一镜头组对应的视频资源组的数量，/>表示N的阶乘；P表示第二镜头组对应的视频资源组的数量，/>表示P的阶乘；Q表示第三镜头组对应的视频资源组的数量，/>表示Q的阶乘；R表示对各个镜头组对应的视频资源组进行排列组合得到的组合的数量，R为N的阶乘、P的阶乘和Q的阶乘三者之间的乘积；N、P、Q、R均为大于或等于1的整数。

需要说明的是，镜头组在草稿中的排列顺序是固定不变的。

在本发明实施例中，时间线包括各个镜头组对应的各个目标视频资源组以及各个镜头组中的音频资源，目标视频资源组中包括该镜头组中的至少一个视频资源。

其中，服务端通过步骤S140构建的时间线可以是可扩展标记语言（ExtensibleMarkup Language，xml）格式的文件。

在本发明实施例中，在构建时间线之前，镜头组对应的目标视频资源组中包括该镜头组中的各个视频资源，在基于各个目标视频资源组和音频资源，构建时间线的过程中，可以基于各个目标视频资源组的总时长和音频资源的音频时长，对目标视频资源组中的视频资源进行删减、裁剪等操作，使得构建的时间线中，各个目标视频资源组的总时长和音频资源的音频时长相同或者相近。可以理解的是，在构建时间线之后，时间线中的目标视频资源组中包括各个镜头组中的部分或者全部视频资源。

步骤S150、基于至少一个所述时间线，生成并输出至少一个目标视频文件。

在本发明实施例中，在通过步骤S140构建至少一个时间线之后，服务端可以通过web端向用户显示各个时间线，以供用户通过web端对各个时间线进行预览，并由用户根据对时间线的预览情况确定符合输出条件的至少一个时间线；web端基于用户对时间线的选择操作，从各个时间线中将用户选择的至少一个时间线确定为目标时间线；之后，服务端对至少一个目标时间线进行渲染处理，生成至少一个目标视频文件并输出。

具体地，服务端在对至少一个目标时间线进行渲染处理之前，还可以根据目标时间线中各个视频资源的标签，智能匹配特效算法并在目标时间线中添加转场、滤镜、特效等，在此过程中，用户还可以手动在目标时间线中指定转场、滤镜、特效等，本发明实施例对此不作具体限定。

需要说明的是，在本发明实施例中步骤S130和步骤S140可以同一时钟周期内进行，也可以在两个不同的时钟周期内进行，本发明实施例对此不作具体限定。

在本发明实施例中，服务端在通过web端向用户显示各个时间线，以供用户通过web端对各个时间线进行预览，并且基于用户对时间线的选择操作，从各个时间线中将用户选择的至少一个时间线确定为目标时间线之后，用户还可以通过web端对目标时间线进行二次精编，服务端基于二次精编后的目标时间线，进行渲染处理，生成至少一个目标视频文件。其中，用户通过web端对目标时间线进行二次精编具体可以包括：首先，web端从存储服务端下载携带有直译式脚本语言（JavaScript，JS）接口的WebAssembly（能够在浏览器运行的非 JavaScript语言编写代码，wasm）相关文件，并对wasm相关文件进行编译，得到wasm处理模块；之后，在目标时间线中，web端通过JavaScript接口，创建视音频编辑界面；然后，wasm处理模块获取待编辑视音频中的m3u8（一种视频播放标准）文件切片，并将m3u8文件切片添加到视音频编辑界面；之后，web端下载特效包；最后，wasm处理模块根据特效包，对m3u8文件切片进行渲染处理，以实现通过web对二次精编后的目标时间线进行预览的目的。

作为一种示例，参照图2，示出了本发明实施例提供的一种视频处理方法逻辑示意图：

步骤S210、web端创建3个镜头组并确定各个镜头组中的至少一个视频资源和各个镜头组对应的音频资源。

其中，第一镜头组包括3个视频资源，分别为v1（索引为0）、v2（索引为1）和v3（索引为2）；第二镜头组包括4个视频资源，分别为v4（索引为0）、v5（索引为1）、v6（索引为2）和v7（索引为3）；第三镜头组包括5个视频资源，分别为v8（索引为0）、v9（索引为1）、v10（索引为2）、v11（索引为3）和v12（索引为4）。

步骤S220、对各个镜头组中的视频资源进行排列组合，得到与各个镜头组对应的视频资源组。

其中，对第一镜头组中的3个视频资源进行排列组合，可以得到6个视频资源组；对第二镜头组中的4个视频资源进行排列组合，可以得到24个视频资源组；对第三镜头组中的5个视频资源进行排列组合，可以得到120个视频资源组，并从120个视频资源组随机选择100个视频组作为第三镜头组对应的视频资源组。

步骤S230、从视频资源组中随机确定各个镜头组对应的目标视频资源组，并基于各个目标视频资源组和音频资源，构建时间线。

具体地，分别从每个镜头组对应的各个视频资源组中随机确定一个视频资源组作为目标视频资源组。对于时间线序号“1”，从第一镜头组对应的视频资源组中确定视频资源组的索引为“0”的视频资源组为目标视频资源组，从第二镜头组对应的视频资源组中确定视频资源组的索引为“3”的视频资源组为目标视频资源组，从第三镜头组对应的视频资源组中确定视频资源组的索引为“99”的视频资源组为目标视频资源组。

之后，按照第一镜头组、第二镜头组和第三镜头组的排列顺序，基于音频资源将各个目标视频资源组进行组合，构建时间线。

步骤S240、将目标视频资源组的索引替换为相应的目标视频资源组。

具体地，将步骤S230得到的各个时间线对应的目标视频资源组的索引替换为相应的目标视频资源组。

在步骤S240之后，服务端可以通过步骤S150基于至少一个时间线，生成并输出至少一个目标视频文件，此处不再赘述。

可选地，步骤S140所述基于各个所述目标视频资源组和所述音频资源，构建时间线，包括步骤S141至步骤S142：

步骤S141、对各个所述镜头组对应的所述目标视频资源组和所述音频资源进行对齐处理。

步骤S142、基于各个所述镜头组之间的排列顺序和对齐处理后的目标视频资源组，构建时间线。

在本发明实施例中，服务端可以通过步骤S141分别对每个镜头组对应的目标视频资源组和音频资源进行对齐处理，使得各个镜头组对应的目标视频资源组的总时长和音频资源的音频时长相同或者相近。

当然，对各个镜头组对应的目标视频资源组和音频资源进行对齐处理，可以按照镜头组依次进行，也可以多个镜头组同时进行，本发明实施例对此不作具体限定。

在通过步骤S141对各个镜头组对应的目标视频资源组和音频资源进行对齐处理之后，服务端可以通过步骤S142基于各个镜头组之间的排列顺序和对齐处理后的目标视频资源组，构建时间线。

其中，镜头组之间的排列顺序为各个镜头组在草稿中的排列顺序，该排列顺序固定不变。

在本发明实施例中，服务端可以将对齐处理后的各个目标视频资源组，按照各个镜头组之间的排列顺序进行组合，得到各个镜头组对应的一个时间线。

本发明实施例提供的视频处理方法，在构建时间线的过程中，首先对目标视频资源组和音频资源进行对齐处理，然后基于对齐处理后的目标视频资源组构建时间线，提高了时间线中视频资源和音频资源的同步性，进而提高了基于时间线生成的视频文件中视频和音频之间的同步性。

可选地，步骤S141所述对各个所述镜头组对应的所述目标视频资源组和所述音频资源进行对齐处理，包括步骤S1411至步骤S1413：

步骤S1411、确定所述音频资源的音频时长和所述镜头组对应的资源总时长。

其中，所述资源总时长为所述目标视频资源组中各个视频资源的视频时长之和。

步骤S1412、基于所述资源总时长和/或所述音频时长，确定所述镜头组对应的镜头组时长。

步骤S1413、基于所述镜头组时长，对所述目标视频资源组和所述音频资源进行对齐处理。

在本发明实施例中，对目标视频资源组和音频资源进行对齐处理主要是基于目标视频资源的总时长和音频资源的音频时长进行的对齐处理。其中，目标视频资源的总时长为镜头组对应的资源总时长，也即目标视频资源组中各个视频资源的视频时长之和。

服务端在对各个镜头组对应的目标视频资源组和音频资源进行对齐处理的过程中，可以先确定音频资源的音频时长以及通过计算目标视频资源组中各个视频资源的视频时长之和确定镜头组对应的资源总时长。然后，服务端再基于资源总时长和/或音频时长，确定镜头组对应的镜头组时长；其中，镜头组时长为镜头组在时间线中的时长。最后，服务端可以基于镜头组时长与资源总时长或者音频时长之间的大小关系，对目标视频资源组和音频资源进行对齐处理。

可选地，步骤S1412所述基于所述资源总时长和/或所述音频时长，确定所述镜头组对应的镜头组时长，包括步骤A11或者步骤A12：

步骤A11、将所述资源总时长和所述音频时长之间的最大值，确定为所述镜头组对应的镜头组时长。或者，

步骤A12、将所述音频时长确定为所述镜头组对应的镜头组时长。

在本发明实施例中，镜头组时长可以基于目标视频资源组和音频资源的对齐策略进行确定。目标视频资源组和音频资源的对齐策略可以包括但不限于以视频为主的对齐策略、以音频为主的对齐策略和智能对齐策略。

其中，以视频为主的对齐策略是为了保存完整的视频资源和音频资源设置的对齐策略，可以适用于视频资源和音频资源之间相关性较强的场景下。在对齐策略为以视频为主的对齐策略的情况下，服务端可以通过步骤A11将资源总时长和音频时长之间的最大值，确定为镜头组对应的镜头组时长，以保证视频资源和音频资源的完整性。

以音频为主的对齐策略是为了保存完整的音频资源设置的对齐策略，可以适用于视频资源和音频资源之间相关性不强的场景中，在保证音频资源完整性的情况下，对视频资源做裁剪处理。在对齐策略为以音频为主的对齐策略的情况下，服务端可以通过步骤A12将音频时长确定为镜头组对应的镜头组时长，以保证音频资源的完整性。

智能对齐策略也是为了保存完整的音频资源设置的对齐策略，可以适用于视频资源和音频资源之间相关性不强的场景中，在保证音频资源完整性的情况下，可以先对镜头组中的部分或者全部视频资源做变速处理，在变速处理后仍然无法将目标视频资源组与音频资源对齐的情况下，可以再对变速处理后的目标视频资源组做裁剪处理。在对齐策略为以音频为主的对齐策略的情况下，服务端同样可以通过步骤A12将音频时长确定为镜头组对应的镜头组时长，以保证音频资源的完整性。

在实际应用场景下，可以基于视频处理需要，选择相应的对齐策略，然后基于选定的对齐策略，通过步骤A11或者步骤A12确定镜头组对应的镜头组时长。

本发明实施例提供的视频处理方法，基于不同的应用场景和对齐需要，提供了不同的镜头组时长确定方法，在提高视频处理效率的同时，还提高了视频处理方法的可实现性。

可选地，在所述镜头组时长为所述资源总时长和所述音频时长之间的最大值的情况下，步骤S1413所述基于所述镜头组时长，对所述目标视频资源组和所述音频资源进行对齐处理，包括步骤B11和步骤B12：

步骤B11、若所述镜头组时长大于所述资源总时长，则将所述镜头组对应的目标视频资源组中最后一个视频资源的出点作为静帧直到所述资源总时长达到镜头组时长。

步骤B12、若所述镜头组时长大于所述音频时长，则在所述音频资源播放完成后，按照所述目标视频资源组对应的正常倍速播放所述目标视频资源组中的视频资源至结束。

在本发明实施例中，在镜头组时长为资源总时长和音频时长之间的最大值的情况下，表明该场景下需要保存完整的视频资源和音频资源。服务端在基于镜头组时长，对目标视频资源组和音频资源进行对齐处理的过程中，可以首先确定镜头组时长为资源总时长还是音频时长，在镜头组时长为音频时长的情况下，表明音频时长大于资源总时长，服务端可以通过步骤B11对目标视频资源组和音频资源进行对齐；在镜头组时长为资源总时长的情况下，表明资源总时长大于音频时长，服务端可以通过步骤B12对目标视频资源组和音频资源进行对齐。

具体地，在镜头组时长大于资源总时长的情况下，表明音频时长大于资源总时长，为保证音频资源的完整性，服务端可以将目标视频资源组中最后一个视频资源的出点作为静帧直到该镜头组对应的资源总时长达到镜头组时长，在不对音频资源进行裁剪的情况下，实现了音频资源和目标视频资源组的对齐。

在镜头组时长大于音频时长的情况下，表明音频时长小于资源总时长，为保证视频资源的完整性，服务端可以在音频资源播放完成后，按照目标视频资源组对应的正常倍速播放目标视频资源组中的视频资源至结束，换言之，在音频时长小于资源总时长的情况下，可以按照正常倍速播放音频资源和视频资源，在不对视频资源进行裁剪的情况下，实现了音频资源和目标视频资源组的对齐。

本发明实施例提供的视频处理方法，在镜头组时长为资源总时长和音频时长之间的最大值的情况下，服务端可以基于镜头组时长与资源总时长或者音频时长之间的大小关系，采用不同的对齐方式对目标视频资源组和音频资源进行对齐处理，全程服务端可以基于预设算法自动进行，无需人工参数，在保存完整的视频资源和音频资源的同时，还降低了人工成本。

可选地，在所述镜头组时长为音频时长的情况下，步骤S1413所述基于所述镜头组时长，对所述目标视频资源组和所述音频资源进行对齐处理，包括步骤B21和步骤B22：

步骤B21、若所述镜头组时长大于所述资源总时长，则将所述镜头组对应的目标视频资源组中最后一个视频资源的出点作为静帧直到所述资源总时长达到镜头组时长。

步骤B22、若所述镜头组时长小于所述资源总时长，则按照视频时长由大到小的顺序对所述目标视频资源组中的视频资源依次进行裁剪，直至所述资源总时长等于所述镜头组时长。

在本发明实施例中，在镜头组时长为音频时长的情况下，表明该场景下需要保存完整的音频资源。在对齐策略为以配音为主的对齐策略的情况下，服务端在基于镜头组时长，对目标视频资源组和音频资源进行对齐处理的过程中，可以首先确定镜头组时长与资源总时长之间的大小关系，在镜头组时长大于资源总时长的情况下，表明音频时长大于资源总时长，服务端可以通过步骤B21对目标视频资源组和音频资源进行对齐；在镜头组时长小于资源总时长的情况下，表明资源总时长大于音频时长，服务端可以通过步骤B22对目标视频资源组和音频资源进行对齐。

其中，步骤B21可参考步骤B11的详细描述，此处不再赘述。

在镜头组时长小于资源总时长的情况下，表明音频时长小于资源总时长，为保证音频资源的完整性，服务端可以首先对目标视频资源中的各个视频资源按照视频时长从大到小的关系进行排序，然后按照视频时长由大到小的顺序对目标视频资源组中的视频资源依次进行裁剪，并在裁剪后的目标视频资源组中各个视频资源的视频时长之和等于镜头组时长的情况下，停止对目标视频资源组中的视频资源的裁剪操作。

在本发明实施例中，服务端可以根据镜头组时长与资源总时长之间的第一差值对目标视频资源组中的视频资源进行裁剪。具体地，服务端按照目标视频资源组中各个视频资源的视频时长之间的比例关系，将第一差值划分为分别与各个视频资源对应的数值，然后基于分别与各个视频资源对应的数值对各个视频资源进行裁剪。

当然，服务端还可以：首先，确定镜头组时长和资源总时长之间的第一差值以及目标视频资源组中视频资源的视频时长最大值和视频时长第二大值之间的第二差值；然后，在第二差值大于或等于第一差值的情况下，基于第一差值，对视频时长最大值对应的视频资源进行裁剪，得到裁剪后的目标视频资源组；其中，裁剪后的目标视频资源组对应的资源总时长等于所述镜头组时长；在第二差值小于第一差值的情况下，基于第二差值，对视频时长最大值对应的视频资源进行裁剪，并基于第二差值与第一差值之间的第三差值对视频时长第二大值对应的视频资源进行裁剪，得到裁剪后的目标视频资源组；在裁剪后的目标视频资源组对应的资源总时长等于镜头组时长的情况下，停止目标视频资源组中视频资源的裁剪操作，实现将目标视频资源组和音频资源的对齐；在裁剪后的目标视频资源组对应的资源总时长仍然大于镜头组时长的情况下，可以重复上述步骤，直至裁剪后的目标视频资源组对应的资源总时长等于镜头组时长。该对齐方法可以通过对目标视频资源中较少的视频资源进行裁剪实现目标视频资源组和音频资源的对齐。

需要说明的是，在目标视频资源组中的所有视频资源的时长均被裁剪至预设最短时长，并且资源总时长仍然大于镜头组时长的情况下，可以基于资源总时长和镜头组时长之间差值，将目标视频资源组中时长大于镜头组时长部分对应的视频资源裁剪掉，使得目标视频资源组对应的资源总时长等于或者接近镜头组时长。示例性地，目标视频资源组中的所有视频资源的时长均被裁剪至预设最短时长，并且裁剪后的目标视频资源组对应的资源总时长为10秒，镜头组时长为5秒的情况下，服务端可以将目标视频资源组中时长在前5秒之后的视频资源裁剪掉。

其中，预设最短时长可以根据实际视频处理场景进行设定，例如，预设最短时长可以为3秒、5秒等。

本发明实施例提供的视频处理方法，在镜头组时长为音频时长的情况下，服务端可以基于镜头组时长与资源总时长之间的大小关系，采用不同的对齐方式对目标视频资源组和音频资源进行对齐处理，全程服务端可以基于预设算法自动进行，无需人工参数，在保存完整的视频资源和音频资源的同时，还降低了不必要的人工开销。

可选地，在所述镜头组时长为音频时长的情况下，步骤S1413所述基于所述镜头组时长，对所述目标视频资源组和所述音频资源进行对齐处理，包括步骤B31和步骤B32：

步骤B31、若所述镜头组时长大于所述资源总时长，则按照视频时长由大到小的顺序将所述目标视频资源组中的视频资源的播放倍速依次设置为第一预设倍速，直至所述资源总时长等于所述镜头组时长。

其中，所述第一预设倍速小于所述视频资源对应的正常倍速。

步骤B32、若所述镜头组时长小于所述资源总时长，则按照视频时长由大到小的顺序将所述目标视频资源组中的视频资源的播放倍速依次设置为第二预设倍速，直至所述资源总时长等于所述镜头组时长。

其中，所述第二预设倍速大于所述视频资源对应的正常倍速。

在本发明实施例中，在镜头组时长为音频时长的情况下，表明该场景下需要保存完整的音频资源。在对齐策略为以智能对齐策略的情况下，服务端在基于镜头组时长，对目标视频资源组和音频资源进行对齐处理的过程中，可以首先确定镜头组时长与资源总时长之间的大小关系，在镜头组时长大于资源总时长的情况下，表明音频时长大于资源总时长，服务端可以通过步骤B31对目标视频资源组和音频资源进行对齐；在镜头组时长小于资源总时长的情况下，表明资源总时长大于音频时长，服务端可以通过步骤B32对目标视频资源组和音频资源进行对齐。

具体地，在镜头组时长大于资源总时长的情况下，表明音频时长大于资源总时长，为保证音频资源的完整性，服务端可以首先对目标视频资源中的各个视频资源按照视频时长从大到小的关系进行排序，然后按照视频时长由大到小的顺序将目标视频资源组中的视频资源的播放速度依次设置为第一预设倍速，并在播放倍速调整后的目标视频资源组中各个视频资源的视频时长之和等于镜头组时长的情况下，停止对目标视频资源组中的视频资源的裁剪操作，实现目标视频资源和音频资源的对齐。

其中，第一预设倍速可以根据需要视频资源慢放的程度确定，第一预设倍速可以是0.8、0.9等。

需要说明的是，在将目标视频资源组中所有视频资源的播放倍速均设置为第一预设倍速，并且镜头组时长仍然大于资源总是时长的情况下，服务端可以继续按照步骤B21所述的将镜头组对应的目标视频资源组中最后一个视频资源的出点作为静帧直到资源总时长达到镜头组时长。

在镜头组时长小于资源总时长的情况下，表明音频时长小于资源总时长，为保证音频资源的完整性，服务端可以首先对目标视频资源中的各个视频资源按照视频时长从大到小的关系进行排序，然后按照视频时长由大到小的顺序将目标视频资源组中的视频资源的播放速度依次设置为第二预设倍速，并在播放倍速调整后的目标视频资源组中各个视频资源的视频时长之和等于镜头组时长的情况下，停止对目标视频资源组中的视频资源的裁剪操作，实现目标视频资源和音频资源的对齐。

其中，第二预设倍速可以根据需要视频资源快放的程度确定，第二预设倍速可以是1.2、1.4等。

需要说明的是，在将目标视频资源组中所有视频资源的播放倍速均设置为第二预设倍速，并且资源总时长仍然大于镜头组时长的情况下，可以提高第二倍速的数值，重复执行步骤S32对应的操作。在第二倍速达到预设倍速值上限，并且目标视频资源组中所有视频资源的播放倍速均设置为第二预设倍速的情况下，资源总时长仍然大于镜头组时长，此时，服务端可以继续按照步骤B22所述的裁剪方法对视频资源进行裁剪，直至资源总时长等于镜头组时长。

其中，预设倍速值上限可以是在保证视频资源播放效果的前提下设置的视频资源快放倍速上限值，预设倍速值上限可以是1.5、1.8等。

本发明实施例提供的视频处理方法，在镜头组时长为音频时长的情况下，服务端可以基于镜头组时长与资源总时长之间的大小关系，首先对视频资源的播放倍速进行调整，在通过播放倍速调整的方式无法实现目标视频资源组和音频资源对应情况下，再对目标视频资源组中的视频资源进行裁剪，在保证音频资源完整性的同时，提高视频资源的完整性。

参照图3，示出了本发明实施例提供的另一种视频处理方法的步骤流程图。该方法包括步骤S301至步骤S308：

步骤S301、新建草稿。

具体地，web端向用户显示与视频处理相关的操作界面；之后，用户基于操作界面中显示的内容，在操作界面中进行草稿创建的操作；web端响应于用户进行草稿创建的操作，在操作界面中新建草稿。

步骤S302、创建至少一个镜头组。

该步骤可参考步骤S110的详细描述，此处不再赘述。

步骤S303、确定各个镜头组中的至少一个视频资源。

具体地，web端在创建至少一个镜头组之后，首先，通过操作界面向用户显示各个镜头组对应的资源配置控件。然后，用户针对各个镜头组对应的资源配置控件，从预设资源库中选择各个镜头组中的至少一个初始视频资源；或者，用户可以从本地上传初始视频资源至预设资源库，再从预设资源库中选择各个镜头组中的至少一个初始视频资源。之后，web端基于各个初始视频资源的按照景别信息或者转场信息对初始视频资源进行自动粗剪。最后，web端基于预设出入点设置算法自动调整视频资源的出入点，或者，web也可以基于用户针对出入点的设置操作，对视频资源的出入点进行调整。

步骤S304、确定各个所述镜头组中的字幕和音频资源。

具体地，在视频资源包括原声的情况下，web端可以将视频资源中的原声音频确定为镜头组的音频资源，并基于音频资源自动识别生成音频资源对应的字幕。当然，web端也可以将用户上传的音频资源或者用户上传的镜头组中视频资源之外的其他保留原声的视频资源作为镜头组的音频资源；web端还可以首先获取用户手动添加的针对视频资源的字幕，然后基于字幕通过人工智能技术生成音频资源。本发明实施例对确定音频资源的方式不作具体限定。

步骤S305、对各个镜头组中的至少一个视频资源进行排列组合，得到与各个镜头组对应的至少一个视频资源组。

该步骤可参考步骤S130的详细描述，此处不再赘述。

步骤S306、从至少一个视频资源组中随机确定各个镜头组对应的目标视频资源组，并对各个镜头组对应的目标视频资源组和音频资源进行对齐处理。

具体地，服务端可以首先对各个镜头组对应的目标视频资源组和音频资源进行对齐处理；然后再基于各个镜头组之间的排列顺序和对齐处理后的目标视频资源组，构建时间线。

其中，服务端在对各个所述镜头组对应的目标视频资源组和音频资源进行对齐处理的过程中，首先，确定音频资源的音频时长和镜头组对应的资源总时长；然后，基于资源总时长和/或音频时长，确定镜头组对应的镜头组时长；最后，基于镜头组时长，对目标视频资源组和音频资源进行对齐处理。

服务端在确定镜头组时长的过程中，可以基于目标视频资源组和音频资源的对齐策略进行确定。其中，对齐策略包括以视频为主的对齐策略、以音频为主的对齐策略和智能对齐策略。

在对齐策略为以视频为主的对齐策略的情况下，服务端可以将资源总时长和音频时长之间的最大值，确定为镜头组时长；在对齐策略为以音频为主或者智能对齐策略的情况下，服务端可以将音频时长确定为镜头组对应的镜头组时长。

步骤S307、基于各个所述镜头组之间的排列顺序和对齐处理后的目标视频资源组，构建时间线。

该步骤可参考步骤S140的详细描述，此处不再赘述。

步骤S308、多时间线预览。

具体地，在通过步骤S307构建至少一个时间线之后，服务端可以通过web端向用户显示各个时间线，以供用户通过web端对各个时间线进行预览。

步骤S309、确定目标时间线，并根据需要二次精编目标时间线。

具体地，用户根据对时间线的预览情况确定符合输出条件的至少一个时间线；web端基于用户对时间线的选择操作，从各个时间线中将用户选择的至少一个时间线确定为目标时间线；之后，用户可以通过web端对目标时间线进行二次精编。

步骤S310、特效算法选择。

具体地，服务端可以服务端在对至少一个目标时间线进行渲染处理，生成至少一个目标视频文件的过程中，可以根据目标时间线中各个视频资源的标签，智能匹配特效算法并在目标时间线中添加转场、滤镜、特效等，在此过程中，用户还可以手动在目标时间线中指定转场、滤镜、特效等。

步骤S311、对目标时间线进行渲染，生成并输出至少一个目标视频文件。

该步骤可参考步骤S150的详细描述，此处不再赘述。

装置实施例

图4是本发明实施例提供的一种视频处理装置的逻辑框图，如图4所示，该装置可以包括：

创建模块410，用于创建至少一个镜头组；

确定模块420，用于确定各个所述镜头组中的至少一个视频资源和音频资源；各个所述镜头组中的资源互相隔离；

排列组合模块430，用于对各个所述镜头组中的所述至少一个视频资源进行排列组合，得到与各个所述镜头组对应的至少一个视频资源组；

时间线构建模块440，用于从所述至少一个视频资源组中随机确定各个所述镜头组对应的目标视频资源组，并基于各个所述目标视频资源组和所述音频资源，构建时间线；

生成模块450，用于基于至少一个所述时间线，生成并输出至少一个目标视频文件。

可选地，所述时间线构建模块，包括：

对齐子模块，用于对各个所述镜头组对应的所述目标视频资源组和所述音频资源进行对齐处理；

时间线构建子模块，用于基于各个所述镜头组之间的排列顺序和对齐处理后的目标视频资源组，构建时间线。

可选地，所述对齐子模块，包括：

第一确定单元，用于确定所述音频资源的音频时长和所述镜头组对应的资源总时长；所述资源总时长为所述目标视频资源组中各个视频资源的视频时长之和；

第二确定单元，用于基于所述资源总时长和/或所述音频时长，确定所述镜头组对应的镜头组时长；

对齐单元，用于基于所述镜头组时长，对所述目标视频资源组和所述音频资源进行对齐处理。

可选地，所述第二确定单元，包括：

第一确定子单元，用于将所述资源总时长和所述音频时长之间的最大值，确定为所述镜头组对应的镜头组时长；或者，

第二确定子单元，用于将所述音频时长确定为所述镜头组对应的镜头组时长。

可选地，在所述镜头组时长为所述资源总时长和所述音频时长之间的最大值的情况下，所述对齐单元，包括：

第一对齐子单元，用于若所述镜头组时长大于所述资源总时长，则将所述镜头组对应的目标视频资源组中最后一个视频资源的出点作为静帧直到所述资源总时长达到镜头组时长；

第二对齐子单元，用于若所述镜头组时长大于所述音频时长，则在所述音频资源播放完成后，按照所述目标视频资源组对应的正常倍速播放所述目标视频资源组中的视频资源至结束。

可选地，在所述镜头组时长为音频时长的情况下，所述对齐单元，包括：

第三对齐子单元，用于若所述镜头组时长大于所述资源总时长，则将所述镜头组对应的目标视频资源组中最后一个视频资源的出点作为静帧直到所述资源总时长达到镜头组时长；

第四对齐子单元，用于若所述镜头组时长小于所述资源总时长，则按照视频时长由大到小的顺序对所述目标视频资源组中的视频资源依次进行裁剪，直至所述资源总时长等于所述镜头组时长。

第五对齐子单元，用于若所述镜头组时长大于所述资源总时长，则按照视频时长由大到小的顺序将所述目标视频资源组中的视频资源的播放倍速依次设置为第一预设倍速，直至所述资源总时长等于所述镜头组时长；所述第一预设倍速小于所述视频资源对应的正常倍速；

第六对齐子单元，用于若所述镜头组时长小于所述资源总时长，则按照视频时长由大到小的顺序将所述目标视频资源组中的视频资源的播放倍速依次设置为第二预设倍速，直至所述资源总时长等于所述镜头组时长；所述第二预设倍速大于所述视频资源对应的正常倍速。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

综上所述，在本发明实施例中，通过对各个镜头组中的视频资源进行排列组合，并从排列组合后得到的至少一个视频资源组中随机确定各个镜头组对应的目标视频资源组，然后基于各个镜头组对应的各个目标视频资源组以及各个镜头组中的音频资源，确定与各个目标视频资源组对应的时间线。基于镜头组的数量，以及镜头组中的视频资源数量，可以得到多个不同的视频资源组，从资源组中确定的目标视频资源组的种类也随之增多，基于不同的目标视频资源组以及音频资源可以构建至少一个时间线，用户可以从该至少一个时间线中确定至少一个可以输出的目标视频文件，实现了目标视频文件的批量输出，在某个时间线对应的视频文件不理想的情况下，用户还可以选择该时间线以外的其他时间线对应的视频文件进行输出，在某个时间线对应的视频文件不理想的情况下，无需重新调整时间线进行输出，并且可以实现多个目标视频文件的批量输出，提高了视频处理效率。

本发明还提供了一种电子设备，包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现前述实施例的视频处理方法。

本发明还提供了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行前述实施例的视频处理方法。

需要说明的是，本发明实施例中获取的各种信息、数据，均是在得到信息/数据持有方授权的情况下获取的。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的组件进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的组件或单元或组件组合成一个组件或单元或组件，以及此外可以把它们分成多个子组件或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书（包括伴随的权利要求、摘要和附图）中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书（包括伴随的权利要求、摘要和附图）中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件组件实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器（DSP）来实现根据本发明的排序设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明所涉及的用户信息（包括但不限于用户的设备信息、用户个人信息等）、相关数据等均为经用户授权或经各方授权后的信息。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

创建至少一个镜头组；

基于至少一个所述时间线，生成并输出至少一个目标视频文件；

所述基于各个所述目标视频资源组和所述音频资源，构建时间线，包括：

基于各个所述镜头组之间的排列顺序和对齐处理后的目标视频资源组，构建时间线；

所述对各个所述镜头组对应的所述目标视频资源组和所述音频资源进行对齐处理，包括：

基于所述镜头组时长，对所述目标视频资源组和所述音频资源进行对齐处理；

所述基于所述资源总时长和/或所述音频时长，确定所述镜头组对应的镜头组时长，包括：

将所述资源总时长和所述音频时长之间的最大值，确定为所述镜头组对应的镜头组时长；或者，将所述音频时长确定为所述镜头组对应的镜头组时长。

2.根据权利要求1所述的方法，其特征在于，在所述镜头组时长为所述资源总时长和所述音频时长之间的最大值的情况下，所述基于所述镜头组时长，对所述目标视频资源组和所述音频资源进行对齐处理，包括：

3.根据权利要求1所述的方法，其特征在于，在所述镜头组时长为音频时长的情况下，所述基于所述镜头组时长，对所述目标视频资源组和所述音频资源进行对齐处理，包括：

4.根据权利要求1所述的方法，其特征在于，在所述镜头组时长为音频时长的情况下，所述基于所述镜头组时长，对所述目标视频资源组和所述音频资源进行对齐处理，包括：

5.一种视频处理装置，其特征在于，所述装置包括：

创建模块，用于创建至少一个镜头组；

生成模块，用于基于至少一个所述时间线，生成并输出至少一个目标视频文件；

所述时间线构建模块，包括：

时间线构建子模块，用于基于各个所述镜头组之间的排列顺序和对齐处理后的目标视频资源组，构建时间线，

所述对齐子模块，包括：

对齐单元，用于基于所述镜头组时长，对所述目标视频资源组和所述音频资源进行对齐处理，

所述第二确定单元，包括：

第一确定子单元，用于将所述资源总时长和所述音频时长之间的最大值，确定为所述镜头组对应的镜头组时长；或者，第二确定子单元，用于将所述音频时长确定为所述镜头组对应的镜头组时长。

6.一种电子设备，其特征在于，包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1至4中任一项所述的视频处理方法。

7.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行权利要求1至4中任一项所述的视频处理方法。