CN110996017B

CN110996017B - 一种生成剪辑视频的方法及装置

Info

Publication number: CN110996017B
Application number: CN201910950805.5A
Authority: CN
Inventors: 胡事民; 汪淼; 杨国炜
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-10-08
Filing date: 2019-10-08
Publication date: 2020-12-15
Anticipated expiration: 2039-10-08
Also published as: CN110996017A

Abstract

本发明实施例提供一种生成剪辑视频的方法及装置，所述方法包括：确定与特定主题相关的文本和视频素材库，所述文本包含至少一个文本片段，所述文本片段包含用户自定义的视频效果属性和至少一个关键词；在所述视频素材库中确定与所述文本片段的语义相对应的候选视频素材；根据所述候选视频素材、所述视频效果属性和预设视频能量优化模型，获取所有候选视频素材对应的优化视频剪辑序列，并根据所述优化视频剪辑序列生成剪辑视频。所述装置执行上述方法。本发明实施例提供的生成剪辑视频的方法及装置，方便进行视频剪辑，且保证剪辑视频具有较好的播放效果。

Description

一种生成剪辑视频的方法及装置

技术领域

本发明涉及视频处理技术领域，尤其涉及一种生成剪辑视频的方法及装置。

背景技术

帮助无经验的用户进行例如图像编辑、绘画或是三维模型设计等的各种创作工具已经越来越丰富。但是，帮助无视频编辑经验的用户进行视频的创作和编辑仍充满挑战。即使有了拍摄好的视频素材库，用户还需要以流畅且有意义的方式组合这些视频镜头片段。专业的视频编辑通常使用AdobePremiere等商用软件对原始片段进行裁剪，并根据故事脚本剪辑出连贯的视频。然而，没有受过专业培训的用户可能难以学习和使用此类软件，而且他们也没有足够的计算摄影学知识以进行视频编辑。

在视频素材编辑方面，Hitchcock系统通过分析输入视频，并给出合适度评分，提供家庭视频编辑的半自动方法。用户可以通过将推荐的视频镜头拖动到时间轴中，并通过手动调整镜头的长度来创建视频。QuickCut工具输入一段文字脚本以及通过用户录音描述的视频镜头集合，结合脚本及用户描述，帮助用户更方便地完成视频剪辑。但是，上述现有技术都需要用户进行与视频编辑相关的操作才能完成视频剪辑，需要较强的专业知识和技能，不够方便，且无法保证剪辑视频具有较好的播放效果。

发明内容

针对现有技术存在的问题，本发明实施例提供一种生成剪辑视频的方法及装置。

本发明实施例提供一种生成剪辑视频的方法，包括：

确定与特定主题相关的文本和视频素材库，所述文本包含至少一个文本片段，所述文本片段包含用户自定义的视频效果属性和至少一个关键词；

在所述视频素材库中确定与所述文本片段的语义相对应的候选视频素材；

根据所述候选视频素材、所述视频效果属性和预设视频能量优化模型，获取所有候选视频素材对应的优化视频剪辑序列，并根据所述优化视频剪辑序列生成剪辑视频；其中，所述预设视频能量优化模型包括单一视频镜头能量运算因子、相邻视频镜头间能量运算因子和所述文本片段对应的所有视频镜头能量运算因子。

其中，所述预设视频能量优化模型根据如下公式表示：

其中，L为所述文本包含的文本片段的文本片段数、l为L个文本片段中的第l个文本片段、

A＝<A₁,A₂,…A_L>、

为

中的第l个，为生成剪辑视频中第l个文本片段对应的视频镜头片段序列、A_l为A中的第l个，为第l个文本片段对应的视频效果属性、

为所述预设视频能量优化模型、

为所述单一视频镜头能量运算因子、

为所述相邻视频镜头间能量运算因子、

为所述文本片段对应的所有视频镜头能量运算因子；所述视频镜头片段序列是根据所述候选视频素材得到的。

其中，所述根据所述候选视频素材、所述视频效果属性和预设视频能量优化模型，获取所有候选视频素材对应的优化视频剪辑序列，包括：

利用动态规划算法求解所述预设视频能量优化模型，以获取

的最优解

根据所述最优解

并利用回溯算法获取所述优化视频剪辑序列

其中，所述单一视频镜头能量运算因子根据如下公式确定：

其中，

表示所述单一视频镜头能量运算因子、F_vsm(s)表示候选视频素材与语义匹配的准确程度、F_stab(s)表示视频内容运动的稳定程度、F_tone(s)表示视频色调的鲜艳程度、s为作为自变量的视频镜头片段序列、α₁～α₃为与F_vsm(s)、F_stab(s)和F_tone(s)分别对应权重系数。

其中，所述相邻视频镜头间能量运算因子根据如下公式确定：

其中，

表示所述相邻视频镜头间能量运算因子、F_OM(s,s')表示镜头是否反向移动、F_JC(s,s')表示镜头是否跳切、F_TC(s,s′)表示视频色调变化的平滑程度、s为作为自变量的视频镜头片段序列、s′为与s相邻的作为自变量的视频镜头片段序列、β₁～β₃为与F_OM(s,s′)、F_JC(s,s′)和F_TC(s,s′)分别对应权重系数、|C|为镜头跳切的次数。

其中，所述文本片段对应的所有视频镜头能量运算因子根据如下公式确定：

其中，

表示所述文本片段对应的所有视频镜头能量运算因子、

表示第l个文本片段内视频镜头片段序列与视频配音序列间的一致性、

表示第l个文本片段内视频内容运动的剧烈程度的一致性、

表示第l个文本片段内视频衔接数量的一致性、λ₁～λ₃为与

和

分别对应权重系数、其中，所述视频配音序列是根据与第l个视频镜头片段序列相对应的第l个文本片段获得的。

其中，所述在所述视频素材库中确定与所述文本片段的语义相对应的候选视频素材，包括：

根据相似度算法在所述视频素材库中确定与所述文本片段的语义相对应的候选视频素材。

本发明实施例提供一种生成剪辑视频的装置，包括：

第一确定单元，用于确定与特定主题相关的文本和视频素材库，所述文本包含至少一个文本片段，所述文本片段包含用户自定义的视频效果属性和至少一个关键词；

第二确定单元，用于在所述视频素材库中确定与所述文本片段的语义相对应的候选视频素材；

生成单元，用于根据所述候选视频素材、所述视频效果属性和预设视频能量优化模型，获取所有候选视频素材对应的优化视频剪辑序列，并根据所述优化视频剪辑序列生成剪辑视频；其中，所述预设视频能量优化模型包括单一视频镜头能量运算因子、相邻视频镜头间能量运算因子和所述文本片段对应的所有视频镜头能量运算因子。

本发明实施例提供一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，

所述处理器执行所述计算机程序时实现如下方法步骤：

本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如下方法步骤：

本发明实施例提供的生成剪辑视频的方法及装置，通过用户自定义的至少一个关键词确定候选视频素材，并根据候选视频素材、用户自定义的视频效果属性和预设视频能量优化模型，获取所有候选视频素材对应的优化视频剪辑序列，以自动生成剪辑视频，方便进行视频剪辑，且保证剪辑视频具有较好的播放效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明生成剪辑视频的方法实施例流程图；

图2为本发明生成剪辑视频的装置实施例结构示意图；

图3为本发明实施例提供的电子设备实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明生成剪辑视频的方法实施例流程图，如图1所示，本发明实施例提供的一种生成剪辑视频的方法，包括以下步骤：

S101：确定与特定主题相关的文本和视频素材库，所述文本包含至少一个文本片段，所述文本片段包含用户自定义的视频效果属性和至少一个关键词。

具体的，确定与特定主题相关的文本和视频素材库，所述文本包含至少一个文本片段，所述文本片段包含用户自定义的视频效果属性和至少一个关键词。执行该方法步骤的可以是计算机设备，具体可以是视频编辑服务器。特定主题可以根据用户需要自主选定，例如可以为动物世界，相应的，文本和视频素材库都是与动物相关的文本和视频素材库。该文本可以由用户输入，可以被自动划分为至少一个文本片段，用户可交互重新划分文本片段，并为每个文本片段标注用于索引的至少一个关键词，还可以标注视频效果属性，视频效果属性可以包括是否鼓励镜头运动及增加或减少每个镜头的时长。可以理解的是，上述至少一个关键词和视频效果属性都是用户自定义的，因此，可以反映出该用户的个性化喜好。

S102：在所述视频素材库中确定与所述文本片段的语义相对应的候选视频素材。

具体的，在所述视频素材库中确定与所述文本片段的语义相对应的候选视频素材。进一步地，可以根据相似度算法在所述视频素材库中确定与所述文本片段的语义相对应的候选视频素材。具体说明如下：可以首先使用用户提供的关键词集合标注文本片段，一个文本片段可能被标注有一个或多个关键词。根据文本片段标注的关键词，从视频素材库中检索出所有与上述关键词的语义相同或相近的视频镜头片段。可以再将每个检索到的上述视频镜头片段与文本片段嵌入到同一特征空间，即使用一个特征向量表示他们的特征，并将他们的特征向量的余弦距离作为匹配度量，选择距离最小的若干个上述视频镜头片段作为视频候选素材。例如，关键词为斑马，从视频素材库中确定与斑马相对应的A、B和C三个候选视频素材。

S103：根据所述候选视频素材、所述视频效果属性和预设视频能量优化模型，获取所有候选视频素材对应的优化视频剪辑序列，并根据所述优化视频剪辑序列生成剪辑视频；其中，所述预设视频能量优化模型包括单一视频镜头能量运算因子、相邻视频镜头间能量运算因子和所述文本片段对应的所有视频镜头能量运算因子。

具体的，根据所述候选视频素材、所述视频效果属性和预设视频能量优化模型，获取所有候选视频素材对应的优化视频剪辑序列，并根据所述优化视频剪辑序列生成剪辑视频；其中，所述预设视频能量优化模型包括单一视频镜头能量运算因子、相邻视频镜头间能量运算因子和所述文本片段对应的所有视频镜头能量运算因子。视频能量泛指视频中的特效等播放元素，不作具体限定，可以理解的是，预设视频能量优化模型是用于优化播放元素的预设模型。优化视频剪辑序列即是优化过的视频剪辑序列，即使得上述播放元素更具有视觉感染力。根据所述优化视频剪辑序列生成剪辑视频为本领域成熟技术，不再赘述。单一视频镜头即对应同一个拍摄镜头、且每个视频镜头之间相互独立、且无关，可以理解的是，单一视频镜头能量运算因子即是上述视频镜头对应的视频能量运算因子。相邻视频镜头即对应相邻的两个拍摄镜头、且这两个视频镜头之间在时序上相邻，可以理解的是，相邻视频镜头间能量运算因子即是上述视频镜头对应的视频能量运算因子，因此，可以衡量剪辑视频中两个相邻视频镜头之间衔接的兼容性。所述文本片段对应的所有视频镜头即是所有文本片段内对应的所有视频镜头，其中，每个文本片段内可以对应的至少一个视频镜头。可以理解的是，所述文本片段对应的所有视频镜头能量运算因子可以衡量文本片段内视频镜头是否满足用户自定义的视频效果属性。

该预设视频能量优化模型可以根据如下公式表示：

A＝<A₁,A₂,…A_L>、

为

为所述预设视频能量优化模型、

为所述单一视频镜头能量运算因子、

为所述相邻视频镜头间能量运算因子、

为所述文本片段对应的所有视频镜头能量运算因子；所述视频镜头片段序列是根据所述候选视频素材得到的。即该视频镜头片段序列取自上述候选视频素材，这样就可以保证文本片段对应视频镜头都是符合文本语义的。

和A分别表示所有视频镜头片段序列和所有文本片段。

进一步地，所述根据所述候选视频素材、所述视频效果属性和预设视频能量优化模型，获取所有候选视频素材对应的优化视频剪辑序列，可以包括：

利用动态规划算法求解所述预设视频能量优化模型，以获取

的最优解

根据所述最优解

并利用回溯算法获取所述优化视频剪辑序列

该步骤方法的具体实现为本领域成熟技术，不再赘述。

本发明实施例提供的生成剪辑视频的方法，通过用户自定义的至少一个关键词确定候选视频素材，并根据候选视频素材、用户自定义的视频效果属性和预设视频能量优化模型，获取所有候选视频素材对应的优化视频剪辑序列，以自动生成剪辑视频，方便进行视频剪辑，且保证剪辑视频具有较好的播放效果。

在上述实施例的基础上，具体的，所述预设视频能量优化模型根据如下公式表示：

A＝<A₁,A₂,…A_L>、

为

为所述预设视频能量优化模型、

为所述单一视频镜头能量运算因子、

为所述相邻视频镜头间能量运算因子、

为所述文本片段对应的所有视频镜头能量运算因子；所述视频镜头片段序列是根据所述候选视频素材得到的。可参照上述说明，不再赘述。

本发明实施例提供的生成剪辑视频的方法，通过具体公式表示预设视频能量优化模型，进一步保证剪辑视频具有较好的播放效果。

在上述实施例的基础上，所述根据所述候选视频素材、所述视频效果属性和预设视频能量优化模型，获取所有候选视频素材对应的优化视频剪辑序列，包括：

具体的，利用动态规划算法求解所述预设视频能量优化模型，以获取

的最优解

根据所述最优解

并利用回溯算法获取所述优化视频剪辑序列

可参照上述说明，不再赘述。

本发明实施例提供的生成剪辑视频的方法，通过动态规划算法和回溯算法获取优化视频剪辑序列，进一步保证剪辑视频具有较好的播放效果。

在上述实施例的基础上，具体的，所述单一视频镜头能量运算因子根据如下公式确定：

其中，

表示所述单一视频镜头能量运算因子、F_vsm(s)表示候选视频素材与语义匹配的准确程度、F_stab(s)表示视频内容运动的稳定程度、F_tone(s)表示视频色调的鲜艳程度、s为作为自变量的视频镜头片段序列、α₁～α₃为与F_vsm(s)、F_stab(s)和F_tone(s)分别对应权重系数。F_vsm(s)、F_stab(s)和F_tone(s)这几项都可以由现有方法计算得到，它们的值越大表示程度越强。α₁～α₃可以根据实际情况自主设置，可分别选为1.0、0.3和0.3。

本发明实施例提供的生成剪辑视频的方法，通过具体公式确定单一视频镜头能量运算因子，基于候选视频素材与语义匹配的准确程度、视频内容运动的稳定程度和视频色调的鲜艳程度三个维度，进一步保证剪辑视频具有较好的播放效果。

在上述实施例的基础上，具体的，所述相邻视频镜头间能量运算因子根据如下公式确定：

其中，

表示所述相邻视频镜头间能量运算因子、F_OM(s,s′)表示镜头是否反向移动，可以用1表示是，0表示否、F_JC(s,s′)表示镜头是否跳切，可以用1表示是，0表示否、F_TC(s,s′)表示视频色调变化的平滑程度，越大则越平滑、s为作为自变量的视频镜头片段序列、s′为与s相邻的作为自变量的视频镜头片段序列、β₁～β₃为与F_OM(s,s′)、F_JC(s,s′)和F_TC(s,s′)分别对应权重系数、|C|为镜头跳切的次数。F_OM(s,s′)、F_JC(s,s′)和F_TC(s,s′)这几项都可以由现有方法计算得到，β₁～β₃可以根据实际情况自主设置，可全部选为－1.0。

本发明实施例提供的生成剪辑视频的方法，通过具体公式确定相邻视频镜头间能量运算因子，基于镜头是否反向移动、镜头是否跳切和视频色调变化的平滑程度三个维度，进一步保证剪辑视频具有较好的播放效果。

在上述实施例的基础上，具体的，所述文本片段对应的所有视频镜头能量运算因子根据如下公式确定：

其中，

表示所述文本片段对应的所有视频镜头能量运算因子、

表示第l个文本片段内视频内容运动的剧烈程度的一致性、

和

和

这几项都可以由现有方法计算得到，越一致则其值越大，λ₁～λ₃可以根据实际情况自主设置，可分别选为－1.0、－3.0和－3.0。需要说明的是，可使用现有TTS(即从文本到语音)方法生成文本对应的音频，并作为背景声音，以将背景声音作为上述视频配音序列。

本发明实施例提供的生成剪辑视频的方法，通过具体公式确定所述文本片段对应的所有视频镜头能量运算因子，基于视频镜头片段序列与视频配音序列间的一致性、视频内容运动的剧烈程度的一致性和视频衔接数量的一致性三个维度，进一步保证剪辑视频具有较好的播放效果。

在上述实施例的基础上，所述在所述视频素材库中确定与所述文本片段的语义相对应的候选视频素材，包括：

具体的，根据相似度算法在所述视频素材库中确定与所述文本片段的语义相对应的候选视频素材。可参照上述说明，不再赘述。

本发明实施例提供的生成剪辑视频的方法，进一步保证候选视频素材确定的准确性，进而保证剪辑视频与文本的语义相关性，使得剪辑视频更符合用户的喜好。

图2为本发明生成剪辑视频的装置实施例结构示意图，如图2所示，本发明实施例提供了一种生成剪辑视频的装置，包括第一确定单元201、第二确定单元202和生成单元203，其中：

第一确定单元201，用于确定与特定主题相关的文本和视频素材库，所述文本包含至少一个文本片段，所述文本片段包含用户自定义的视频效果属性和至少一个关键词；第二确定单元202，用于在所述视频素材库中确定与所述文本片段的语义相对应的候选视频素材；生成单元203，用于根据所述候选视频素材、所述视频效果属性和预设视频能量优化模型，获取所有候选视频素材对应的优化视频剪辑序列，并根据所述优化视频剪辑序列生成剪辑视频；其中，所述预设视频能量优化模型包括单一视频镜头能量运算因子、相邻视频镜头间能量运算因子和所述文本片段对应的所有视频镜头能量运算因子。

具体的，第一确定单元201，用于确定与特定主题相关的文本和视频素材库，所述文本包含至少一个文本片段，所述文本片段包含用户自定义的视频效果属性和至少一个关键词；第二确定单元202，用于在所述视频素材库中确定与所述文本片段的语义相对应的候选视频素材；生成单元203，用于根据所述候选视频素材、所述视频效果属性和预设视频能量优化模型，获取所有候选视频素材对应的优化视频剪辑序列，并根据所述优化视频剪辑序列生成剪辑视频；其中，所述预设视频能量优化模型包括单一视频镜头能量运算因子、相邻视频镜头间能量运算因子和所述文本片段对应的所有视频镜头能量运算因子。

本发明实施例提供的生成剪辑视频的装置，通过用户自定义的至少一个关键词确定候选视频素材，并根据候选视频素材、用户自定义的视频效果属性和预设视频能量优化模型，获取所有候选视频素材对应的优化视频剪辑序列，以自动生成剪辑视频，方便进行视频剪辑，且保证剪辑视频具有较好的播放效果。

本发明实施例提供的生成剪辑视频的装置具体可以用于执行上述各方法实施例的处理流程，其功能在此不再赘述，可以参照上述方法实施例的详细描述。

图3为本发明实施例提供的电子设备实体结构示意图，如图3所示，所述电子设备包括：处理器(processor)301、存储器(memory)302和总线303；

其中，所述处理器301、存储器302通过总线303完成相互间的通信；

所述处理器301用于调用所述存储器302中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：确定与特定主题相关的文本和视频素材库，所述文本包含至少一个文本片段，所述文本片段包含用户自定义的视频效果属性和至少一个关键词；在所述视频素材库中确定与所述文本片段的语义相对应的候选视频素材；根据所述候选视频素材、所述视频效果属性和预设视频能量优化模型，获取所有候选视频素材对应的优化视频剪辑序列，并根据所述优化视频剪辑序列生成剪辑视频；其中，所述预设视频能量优化模型包括单一视频镜头能量运算因子、相邻视频镜头间能量运算因子和所述文本片段对应的所有视频镜头能量运算因子。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：确定与特定主题相关的文本和视频素材库，所述文本包含至少一个文本片段，所述文本片段包含用户自定义的视频效果属性和至少一个关键词；在所述视频素材库中确定与所述文本片段的语义相对应的候选视频素材；根据所述候选视频素材、所述视频效果属性和预设视频能量优化模型，获取所有候选视频素材对应的优化视频剪辑序列，并根据所述优化视频剪辑序列生成剪辑视频；其中，所述预设视频能量优化模型包括单一视频镜头能量运算因子、相邻视频镜头间能量运算因子和所述文本片段对应的所有视频镜头能量运算因子。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：确定与特定主题相关的文本和视频素材库，所述文本包含至少一个文本片段，所述文本片段包含用户自定义的视频效果属性和至少一个关键词；在所述视频素材库中确定与所述文本片段的语义相对应的候选视频素材；根据所述候选视频素材、所述视频效果属性和预设视频能量优化模型，获取所有候选视频素材对应的优化视频剪辑序列，并根据所述优化视频剪辑序列生成剪辑视频；其中，所述预设视频能量优化模型包括单一视频镜头能量运算因子、相邻视频镜头间能量运算因子和所述文本片段对应的所有视频镜头能量运算因子。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种生成剪辑视频的方法，其特征在于，包括：

根据所述候选视频素材、所述视频效果属性和预设视频能量优化模型，获取所有候选视频素材对应的优化视频剪辑序列，并根据所述优化视频剪辑序列生成剪辑视频；其中，所述预设视频能量优化模型包括单一视频镜头能量运算因子、相邻视频镜头间能量运算因子和所述文本片段对应的所有视频镜头能量运算因子；

其中，所述预设视频能量优化模型根据如下公式表示：

A＝<A₁,A₂,…A_L>、

为

为所述预设视频能量优化模型、

为所述单一视频镜头能量运算因子、

为所述相邻视频镜头间能量运算因子、

为所述文本片段对应的所有视频镜头能量运算因子；所述视频镜头片段序列是根据所述候选视频素材得到的；

其中，所述单一视频镜头能量运算因子根据如下公式确定：

其中，

表示所述单一视频镜头能量运算因子、F_vsm(s)表示候选视频素材与语义匹配的准确程度、F_stab(s)表示视频内容运动的稳定程度、F_tone(s)表示视频色调的鲜艳程度、s为作为自变量的视频镜头片段序列、α₁～α₃为与F_vsm(s)、F_stab(s)和F_tone(s)分别对应权重系数；

其中，

表示所述相邻视频镜头间能量运算因子、F_OM(s,s′)表示镜头是否反向移动、F_JC(s,s′)表示镜头是否跳切、F_TC(s,s′)表示视频色调变化的平滑程度、s为作为自变量的视频镜头片段序列、s′为与s相邻的作为自变量的视频镜头片段序列、β₁～β₃为与F_OM(s,s′)、F_JC(s,s′)和F_TC(s,s′)分别对应权重系数、|C|为镜头跳切的次数；