CN114205677B

CN114205677B - 一种基于原型视频的短视频自动编辑方法

Info

Publication number: CN114205677B
Application number: CN202111442144.9A
Authority: CN
Inventors: 孙凌云; 胡子衿; 尤伟涛; 杨昌源; 季俊涛; 余米
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-10-14
Anticipated expiration: 2041-11-30
Also published as: CN114205677A

Abstract

本发明公开了一种基于原型视频的短视频自动编辑方法，包括：对输入视频进行帧采样得到多个基体特征，将多个基本特征输入至随机森林或决策树模型得到带有标签的高级特征输入视频；从原型数据库中选择与高级特征输入视频的视频相似度分数最高的原型视频；计算原型视频与原型数据库中其他原型视频的兼容性距离度量得到动态兼容因子，基于动态兼容因子将满足视频相似度分数阈值的原型视频作为最终原型视频；基于视频结构相似性度量，在每个高级特征目标子视频中选择与每个目标镜头的视频相似度分数最高的高级特征镜头作为候选镜头，采用维特比算法选择最终候选镜头，从而得到最终短视频。该方法能够帮助用户灵活、简单的制作所需风格的短视频。

Description

一种基于原型视频的短视频自动编辑方法

技术领域

本发明属于人机交互技术领域，具体涉及一种基于原型视频的短视频自动编辑方法。

背景技术

随着电商平台的日益普及，网购需求大幅增加，电商行业短视频的需求急剧增加，目前商品平台都支持在商品详情页中插入产品展示视频。视频需求增加的同时也为视频制作带来了一些问题，可以看到电子商务领域的商品特别是服装类商品迭代速度很快，通常一个季度就需要全部更新一遍，一个商家通常拥有几千件商品。如此快的迭代速度和如此庞大的商品数量，让传统的视频制作方式难以满足。

市场上虽然也有一些对视频进行自动剪辑的系统，但基本都是根据视频长度等简单特征拼接视频片段，并没有理解分析视频内容，也没有考虑片段之间的连贯性和整体性。近年来，计算机展现了理解和生成多媒体内容的能力，研究人员试图将视频编辑过程自动化，如在3D环境中控制摄像机以及为课堂讲座或某些社交聚会场景自动编辑视频，总是与剪辑规则、电影的视听语言等知识相结合，以确保合成视频的连续性。这些方法将通用的电影编辑规则与特定场景相关的指南相结合，以产生合成结果。然而，这些规则和指导方针只能帮助在固定的时间段内选择合适的镜头。在这种情况下，每个视频片段都有它应该出现的指定时间点。但是，编辑电商服装视频更加灵活，如果没有限制，镜头可以放在任何地方，而且可以是任意长度，在这种情况下，每个镜头的搜索空间要大得多。

数字产品展示会影响消费者在购买时的决策，尤其是在服装电子零售环境中。与常用的基于文本的格式相比，视频格式呈现出相对更逼真的视觉提示和动态运动，用于传达对消费者感知产生强大影响的产品体验。根据思科年度视觉网络指数报告，视频预计占消费者互联网流量的82％以上。然而，手动视频编辑是一个极其耗时且费力的过程，需要大量专业知识。它需要将输入视频片段分割成镜头，并在时间轴上排列这些镜头以构建强大的叙事。剪辑师会做出一系列谨慎的决定，以考虑每个镜头的内容、相机运动和视觉质量，这对于在线零售商等新手剪辑师来说很难。

因此亟需研发一种视频处理方法，能够解决视频剪辑专业性较强，无法实时获得符合客户所需风格的视频。

发明内容

本发明提供一种基于原型视频的短视频自动编辑方法，该方法能够帮助用户灵活、简单的制作所需风格的短视频。

一种基于原型视频的短视频自动编辑方法，包括：

S1：对输入视频进行帧采样得到多个输入视频帧，分别利用YOLOv3 和Alphapose方法对多个输入视频帧进行处理得到多个基体特征，将多个基本特征输入至随机森林或决策树模型得到带有标签的高级特征输入视频；

S2：从原型数据库中选择第一原型视频集，基于视频结构相似性度量从第一原型视频集中选择与高级特征输入视频的视频相似度分数最高的原型视频作为第一原型视频；

S3：如果第一原型视频与高级特征输入视频的视频相似度分数低于视频相似度分数阈值，则基于第一原型视频与原型数据库中其他原型视频的兼容性距离度量得到第一原型视频与其他原型视频的动态兼容因子，将高于动态兼容因子阈值的原型视频作为第二原型视频集，并将第二原型视频集中与高级特征输入视频相似度分数最高的原型视频作为第二原型视频；

S4：迭代步骤S2，S3，将满足视频相似度分数阈值的多个第一最终原型视频作为第一最终原型视频集；

S5：将高级特征输入视频划分为高级特征目标子视频序列，将每个高级特征目标子视频划分为多个高级特征镜头，将第一最终原型视频分为多个目标镜头，基于视频结构相似性度量，在每个高级特征目标子视频中选择与每个目标镜头的视频相似度分数最高的高级特征镜头作为候选镜头，删除各个高级特征目标子视频中的重复候选镜头，然后采用维特比算法选择各个高级特征目标子视频中的最终候选镜头，使得高级特征目标子视频序列与最终原型视频的平均视频相似度分数最高，从而得到最终短视频。

分别利用YOLOv3和Alphapose方法对多个输入视频帧进行处理得到多个基体特征，包括：

利用YOLOv3方法提取多个输入视频帧的人物基本特征，利用Alphapose方法提取多个输入视频帧的感兴趣区域特征，人物基本特征和感兴趣区域特征构建了多个基本特征。

将多个基本特征输入至随机森林或决策树模型得到带有标签的高级特征输入视频，包括：

所述的高级特征包括方向、运动强度、姿态和框架中景别，将基本特征输入至随机森林或决策树模型中得到了被标签标记的高级特征输入视频。

第一原型视频与高级特征输入视频的视频相似度分数 VSSIM(S_s-S_t)为：

其中，S_s为第一原型视频，S_t为高级特征输入视频，a为高级特征， FSIM^a(S_s,S_t)为基于高级特征a的第一原型视频与高级特征输入视频的特征相似度，len(s)为是视频长度，第一原型视频与高级特征输入视频的长度相同，

为第一原型视频在视频长度为i下高级特征a的每对标签之间的距离，

为高级特征输入视频在视频长度为i下高级特征a的每对标签之间的距离，w^a为高级特征a的权重。

第一原型视频与其他原型视频的动态兼容因子DC(S_c,S_t)为：

其中，S_c为其他原型视频，CDIS^a(S_s,S_c)为基于高级特征a的第一原型视频与原型数据库中其他原型视频的兼容性距离度量分数。

基于高级特征a的第一原型视频与原型数据库中其他原型视频的兼容性距离度量分数CDIS^a(S_s,S_c)为：

其中，

为高级特征a的第一原型视频的各个标签的频率分布，

为高级特征a的其他原型视频的各个标签的频率分布，

为高级特征a的第一原型视频的第i个标签的频率，

为高级特征a的其他原型视频的第i个标签的频率，n为标签数量。

采用维特比算法选择各个高级特征目标子视频中的最终候选镜头是基于高级特征目标子视频序列与最终原型视频的最大平均视频相似度分数确定的，最大平均视频相似度分数

为：

其中，ω_i,j为第i个高级特征目标子视频的第j个候选镜头与高级特征输入视频相似度分数，k为候选镜头数量。

一种基于原型视频的短视频自动编辑方法，包括：

S2：获得第二最终原型视频集，所述第二最终原型视频集为用户从原型数据库中选择的第二原型视频；将高级特征输入视频划分为高级特征目标子视频序列，将每个高级特征目标子视频划分为多个高级特征镜头，将第二最终原型视频分为多个目标镜头，基于视频结构相似性度量，在每个高级特征目标子视频中选择与每个目标镜头的视频相似度分数最高的高级特征镜头作为候选镜头，删除各个高级特征目标子视频中的重复候选镜头，然后采用维特比算法选择各个高级特征目标子视频中的最终候选镜头，使得高级特征目标子视频序列与最终原型视频的平均视频相似度分数最高，从而得到最终短视频。

与现有技术相比，本发明的有益效果为：

(1)本发明利用动态兼容因子获得与第一原型视频中每个高级特征的各个标签相近的多个原型视频，并利用视频结构相似性度量计算该多个原型视频与高级特征输入视频的相似度分数，多次迭代后得到视频相似度分数较高的原型视频，并以该原型视频为目标视频对高级特征输入视频进行分割、提取得到多个候选视频，利用维特比算法从每个高级特征目标子视频中的多个候选视频选择最终候选视频，使得高级特征目标子视频序列与最终原型视频的平均视频相似度分数最高，从而能够自动得到满足输入视频风格的最终短视频。

(2)本发明通过将用户选择的原视频作为目标视频，将高级特征输入视频以该目标视频的镜头长短为依据进行切分，并基于视频结构相似性度量获得与目标视频的各个镜头结构相似的多个候选镜头，利用维特比算法从每个高级特征输入子视频的多个候选镜头中最优候选镜头，使得高级特征输入视频平均视频相似度分数最高，从而能够自动得到满足用户风格的最终短视频。

附图说明

图1为具体实施方式提供的一种基于原型视频的短视频自动编辑方法流程图；

图2为具体实施方式提供的一种基于原型视频的短视频自动编辑方法整个系统的概述图；

图3为具体实施方式提供的各个高级特征及标签的定义图；

图4为具体实施方式提供的高级特征提取示意图；

图5为具体实施方式提供的从高级特征输入视频中提取最终候选镜头流程图；

图6为具体实施方式提供的采用一种基于原型视频的短视频自动编辑方法系统界面，其中，(A)显示原型和编辑结果。(B)显示结果中的每个镜头以及相应的原型镜头。对于每个镜头，用户可以在(C)中手动选择替代候选镜头。所选候选镜头的详细信息在(D)中呈现，最终合成视频将在(E)中演示；

图7为具体实施方式提供的采用一种基于原型视频的短视频自动编辑方法系统运作耗费时间图；

图8为具体实施方式提供的不同VSSIM分数段的合成视频的质量评估结果图；

图9为具体实施方式提供的不同VSSIM分数段中合成视频的感知相似度评估结图；

图10为具体实施方式提供的采用一种基于原型视频的短视频自动编辑方法在不同搜索迭代轮数(L)和高级特征目标子视频数量(m)下与相应参数下的随机算法比较结果图；

图11为具体实施方式提供的一种基于原型视频的短视频自动编辑方法和随机算法在不同输入数量下的VSSIM分数比较图；

图12真人和本发明的方法编辑时间对比图；

图13为具体实施方式提供的一种基于原型视频的短视频自动编辑方法和真人制作的视频的质量评估结果图。

具体实施方式

本发明提供了一种基于原型视频的短视频自动编辑方法，如图1，2 所示，具体步骤为：

(1)通过编码模块提取带有标签的高级特征，具体步骤为：对输入视频进行帧采样得到多个输入视频帧，利用YOLOv3方法提取多个输入视频帧的人物基本特征，利用Alphapose方法提取多个输入视频帧的感兴趣区域特征，人物基本特征和感兴趣区域特征构建了多个基本特征，如图4 所示，将多个基本特征输入至决策树模型中得到了带有标签标记的高级特征输入视频，高级特征为F＝{F^dir,F^mot,F^pos,F^view}，F^dir为方向高级特征、F^mot为运动强度高级特征、F^pos为姿态高级特征和F^view为框架中景别高级特征，如图3所示，景别的标签为：远景/全景/膝上/上身/下身/ 面部/腰部细节/空；姿态的标签为：站立/坐下/步行/旋转；方向即朝向的标签为：左/半面朝左/脸/半面朝右/右/后；运动强度的标签为：静止/弱/ 强。

(2.1)通过自适应兼容性搜索算法从原型数据库中得到第一最终原型视频集，具体步骤为：从原型数据库中选择第一原型视频集，基于视频结构相似性度量从第一原型视频集中选择与高级特征输入视频的视频相似度分数最高的原型视频作为第一原型视频；

自适应兼容性搜索算法为：如果第一原型视频与高级特征输入视频的视频相似度分数低于视频相似度分数阈值，则基于第一原型视频与原型数据库中其他原型视频的兼容性距离度量得到第一原型视频与其他原型视频的动态兼容因子，将高于动态兼容因子阈值的原型视频作为第二原型视频集，并将第二原型视频集中与高级特征输入视频相似度分数最高的原型视频作为第二原型视频；当输入视频与第一原型视频的视频相似度分数(VSSIM)偏低时候，搜索与第一原型视频更高的兼容性距离度量分数 (CDIS)较高的原型视频，从而得到与输入视频更高的VSSIM值，基于上述原理得出了动态兼容因子DC，与第一原型视频DC值较高的原型视频说明与输入视频的VSSIM值更高；

迭代上述步骤(2.1)，将满足视频相似度分数阈值的多个第一最终原型视频作为第一最终原型视频集，通过自适应兼容性搜索算法得到了多个第一最终原型视频，即为优化原型；通过自适应兼容搜索算法能够得到与输入视频风格相似的优化原型，使得用户能够简单、灵活的编辑短视频。

(2.2)用户从原型数据库中选择第二原始视频，具体步骤为：首先从原始数据库中选择初始原型视频，对初始原始视频进行高级特征提取得到第二原始视频，即优化原型。

其中，如图5所示，第一原型视频与高级特征输入视频的视频相似度分数VSSIM(S_s-S_t)为：

为第一原型视频在视频长度为i高级特征a下的每对标签之间的距离，

为高级特征输入视频在视频长度为i高级特征a下的每对标签之间的距离，w^a为高级特征a的权重。

第一原型视频与其他原型视频的动态兼容因子DC(S_c,S_t)为：

其中，S_c为其他原型视频，CDIS^a(S_s,S_c)为基于高级特征a的第一原型视频与原型数据库中其他原型视频的兼容性距离度量分数；

其中，

为高级特征a的第一原型视频的各个标签的频率分布，

为高级特征a的其他原型视频的各个标签的频率分布，

为高级特征a的第一原型视频的第i个标签的频率，

为高级特征a的其他原型视频的第i 个标签的频率，n为标签数量。

(3)将优化原型与高级特征输入视频进行相似度计算得到高级特征输入视频的最终候选镜头，最终候选镜头组合得到最终的输出视频，具体步骤为：

如图5所示，将高级特征输入视频划C分为高级特征目标子视频序列 {C₀,C₁,...,C_m}，其中，m为高级特征目标子视频数量，将每个高级特征目标子视频划分为多个高级特征镜头，将第一最终原型视频分为多个目标镜头，基于视频结构相似性度量，在每个高级特征目标子视频中选择与每个目标镜头的视频相似度分数最高的高级特征镜头作为候选镜头S_i,j，每个高级特征目标子视频包括多个候选镜头，C_i＝{S_i,1,S_i,2,...,S_i,k}，其中,C_i为第i个高级特征目标子视频，删除各个高级特征目标子视频中的重复候选镜头，然后采用维特比算法选择各个高级特征目标子视频中的最终候选镜头，使得高级特征目标子视频序列与最终原型视频的平均视频相似度分数最高，从而得到最终短视频。

其中，采用维特比算法选择各个高级特征目标子视频中的最终候选镜头是基于高级特征目标子视频序列与最终原型视频的最大平均视频相似度分数确定的，最大平均视频相似度分数

为：

正如用户感知实验所验证的那样，本发明方法的输出有较高质量。此外，本发明的方法足够灵活，可以通过更改数据库中的原型来增强其生成其他类型视频或其他编辑风格的能力。使用本发明提出的系统，零售商等创作者可以更轻松地制作用于产品展示的拍摄视频。本发明基于原型的自动视频编辑系统显著简化了编辑过程，允许编辑人员通过选择不同的原型来调整他们的编辑风格。本发明相信这样的系统可以在提高商业短视频制作效率方面发挥极其重要的作用。

本发明收集了数千个服装产品展示视频，并根据总时长、单次拍摄时长、拍摄次数等进行过滤。最后选择了767个时长在12到60秒之间的原型视频。这些原型视频大多来自中国最大的电子商务平台。通过将每个原型分为镜头并根据高级特征对每个镜头进行编码来预处理所有原型。

图6显示了本发明的系统界面，用户上传视频同时系统对视频进行编码，用户选择心仪的原型，系统根据所选择原型自动生成视频，用户若不满意，可手动调整镜头序列，最终生成合成视频。并使用系统自动输出 VSSIM前10名的结果。本发明在具有10.81GB VRAM的3.5GHz服务器上评估了系统，如图7所示。以每秒24帧的速度以720*960p的分辨率记录原始素材，系统在整个流程中保持该分辨率。对于一组总持续时间为 2分钟、每秒24帧的输入视频，编辑持续时间主要由ROI和KP检测决定。说明利用本发明提供的方法生成短视频分辨率保持稳定，用时较短，具有较好的可用性。

视频质量，即用户评价较高的视频，与VSSIM分数的一致性比较：为了解VSSIM分数与合成视频质量的关系，招募了22名具有在线购物经验的用户来评估本发明系统的输出质量。准备了4组视频，每组包含4个具有不同VSSIM分数的合成视频。为了排除视频内容的影响，根据相同的原型使用相同的输入视频片段生成同一组中的视频，而使用不同的输入视频片段和原型生成不同组中的视频。对于每个视频组的评估，参与者被要求选择至少一个高质量视频和至少一个令人反感的视频。结果(见图8) 显示，VSSIM得分较高(高于80)的编辑结果收到的正面评价较多(分数接近5)，而负面评价较少(分数接近1)。相比之下，具有极低VSSIM 分数(约60分)的视频的结果是高度两极分化的。

此外进行了方差分析(ANOVA)。合成视频的质量与VSSIM显著相关(F＝13.358，p<0.001)，但与视频内容没有显著关系(F＝1.011，p＝ 0.395)。当视频内容和VSSIM一起考虑时，也没有显著关系(F＝1.133， p＝0.342)。这些结果表明，合成视频的质量与其VSSIM分数密切相关，与输入视频的内容或原型没有显著关系。

视频相似度与VSSIM的一致性比较：由于本发明使用VSSIM分数来衡量视频之间的相似度，因此需要确认它是否与人类观众感知的相似度一致。设计了四组实验。邀请参与者观看原型资料，然后对合成视频与原型资料之间的相似度进行评分。从实验结果(图9)可以看出，具有较高 VSSIM分数的合成视频在感知维度上也获得了较高的分数，这表明参与者认为具有较高VSSIM分数的视频与原型更相似，高级特征来描述风格，而相似度是用高级特征来计算的。所以视频相似度越高风格越接近。

自适应兼容性搜索算法的效果：为了验证本发明的自适应兼容性搜索算法的效果，在相同的输入视频条件下，将本发明的算法和随机选择原型做比较。在实验中使用258个未包含在原型数据库中的输入视频，所有这些输入视频都从同一电子商务网站收集，且都用于产品展示。从258个输入视频中随机选择了15个输入，并在不同的搜索迭代轮数L和高级特征目标子视频数m上搜索原型，与相应参数下的随机算法进行比较。在对输入进行100次选择后，计算编辑结果的平均VSSIM分数(见图10)。本发明算法的平均VSSIM得分范围(83.91～86.07)大于随机策略 (76.27～79.49)。增加参数可以提高结果的VSSIM分数，但也会耗费计算时间。然后固定参数(L＝4，m＝8)并更改输入数量以探索搜索模块的性能，图11中的结果表明，大量输入视频拍摄提高了编辑结果的VSSIM 分数，当输入数量增加时，两种算法之间的距离逐渐减小。这是因为输入足以匹配数据库中的大多数引用，随机算法获得高VSSIM分数的原型的概率因此升高。

利用基于原型视频的短视频自动编辑方法编辑的视频与手动编辑视频的比较：本发明比较了本系统制作视频和真人使用商业编辑软件制作视频的视频编辑效率和质量。对于编辑任务，本发明为每个原型选择了4个不同的原型和4组视频，然后请4位编辑尝试使用指定的输入视频片段来编辑与原型相似的视频，选择Adobe Premiere作为基于帧的编辑工具，所有编辑都使用该工具的相同版本。为了确保公平比较，只计算了编辑期间花费的人工时间，并删除了渲染时间。本发明的系统和人工编辑所需时间的比较如图12所示。

为了进一步评估生成的视频，邀请了20名非专家学生观看本发明的结果和人工编辑的结果。考虑到视觉质量和视觉一致性，他们被要求以5 分制(1＝差，5＝优秀)对每个视频进行评分。图13显示了分数分布的可视化。从评估结果来看，很难看出这两组数据的分布有任何明显差异。只能看到手动编辑的视频获得了更多的正面评价(>4分)。t检验结果表明使用自动编辑系统获得的结果与手动编辑结果之间的感知分数没有显著差异(t＝1.267，df＝478，p＝0.206)。

Claims

1.一种基于原型视频的短视频自动编辑方法，其特征在于，包括：

S1：对输入视频进行帧采样得到多个输入视频帧，分别利用YOLOv3和Alphapose方法对多个输入视频帧进行处理得到多个基体特征，将多个基本特征输入至随机森林或决策树模型得到带有标签的高级特征输入视频；

第一原型视频与高级特征输入视频的视频相似度分数VSSIM(S_s-S_t)为：

其中，S_s为第一原型视频，S_t为高级特征输入视频，a为高级特征，FSIM^a(S_s,S_t)为基于高级特征a的第一原型视频与高级特征输入视频的特征相似度，len(s)为是视频长度，第一原型视频与高级特征输入视频的长度相同，

为高级特征输入视频在视频长度为i高级特征a下的每对标签之间的距离，w^a为高级特征a的权重；

第一原型视频与其他原型视频的动态兼容因子DC(S_c,S_t)为：

其中，

为高级特征a的第一原型视频的各个标签的频率分布，

为高级特征a的其他原型视频的各个标签的频率分布，

为高级特征a的第一原型视频的第i个标签的频率，

为高级特征a的其他原型视频的第i个标签的频率，n为标签数量；

为：

其中，ω_i,j为第i个高级特征目标子视频的第j个候选镜头与高级特征输入视频相似度分数，k为候选镜头数量；

S5：将高级特征输入视频划分为高级特征目标子视频序列，将每个高级特征目标子视频划分为多个高级特征镜头，将第一最终原型视频分为多个目标镜头，基于视频结构相似性度量，在每个高级特征目标子视频中选择与每个目标镜头的视频相似度分数最高的高级特征镜头作为候选镜头，删除各个高级特征目标子视频中的重复候选镜头，然后采用维特比算法选择各个高级特征目标子视频中的最终候选镜头，从而得到最终短视频。

2.根据权利要求1所述的基于原型视频的短视频自动编辑方法，其特征在于，分别利用YOLOv3和Alphapose方法对多个输入视频帧进行处理得到多个基体特征，包括：

3.根据权利要求1所述的基于原型视频的短视频自动编辑方法，其特征在于，将多个基本特征输入至随机森林或决策树模型得到带有标签的高级特征输入视频，包括：

4.一种基于原型视频的短视频自动编辑方法，其特征在于，包括：

S2：获得第二最终原型视频集，所述第二最终原型视频集为用户从原型数据库中选择的第二原型视频；

从原型数据库中选择第一原型视频集，基于视频结构相似性度量从第一原型视频集中选择与高级特征输入视频的视频相似度分数最高的原型视频作为第一原型视频；

如果第一原型视频与高级特征输入视频的视频相似度分数低于视频相似度分数阈值，则基于第一原型视频与原型数据库中其他原型视频的兼容性距离度量得到第一原型视频与其他原型视频的动态兼容因子，将高于动态兼容因子阈值的原型视频作为第二原型视频集，并将第二原型视频集中与高级特征输入视频相似度分数最高的原型视频作为第二原型视频；

将高级特征输入视频划分为高级特征目标子视频序列，将每个高级特征目标子视频划分为多个高级特征镜头，将第二最终原型视频分为多个目标镜头，基于视频结构相似性度量，在每个高级特征目标子视频中选择与每个目标镜头的视频相似度分数最高的高级特征镜头作为候选镜头，删除各个高级特征目标子视频中的重复候选镜头，然后采用维特比算法选择各个高级特征目标子视频中的最终候选镜头，从而得到最终短视频。