CN114205677B - 一种基于原型视频的短视频自动编辑方法 - Google Patents

一种基于原型视频的短视频自动编辑方法 Download PDF

Info

Publication number
CN114205677B
CN114205677B CN202111442144.9A CN202111442144A CN114205677B CN 114205677 B CN114205677 B CN 114205677B CN 202111442144 A CN202111442144 A CN 202111442144A CN 114205677 B CN114205677 B CN 114205677B
Authority
CN
China
Prior art keywords
video
prototype
feature
level
final
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111442144.9A
Other languages
English (en)
Other versions
CN114205677A (zh
Inventor
孙凌云
胡子衿
尤伟涛
杨昌源
季俊涛
余米
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202111442144.9A priority Critical patent/CN114205677B/zh
Publication of CN114205677A publication Critical patent/CN114205677A/zh
Application granted granted Critical
Publication of CN114205677B publication Critical patent/CN114205677B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/441Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • H04N21/4665Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms involving classification methods, e.g. Decision trees
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4668Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/835Generation of protective data, e.g. certificates
    • H04N21/8352Generation of protective data, e.g. certificates involving content or source identification data, e.g. Unique Material Identifier [UMID]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Security & Cryptography (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于原型视频的短视频自动编辑方法,包括:对输入视频进行帧采样得到多个基体特征,将多个基本特征输入至随机森林或决策树模型得到带有标签的高级特征输入视频;从原型数据库中选择与高级特征输入视频的视频相似度分数最高的原型视频;计算原型视频与原型数据库中其他原型视频的兼容性距离度量得到动态兼容因子,基于动态兼容因子将满足视频相似度分数阈值的原型视频作为最终原型视频;基于视频结构相似性度量,在每个高级特征目标子视频中选择与每个目标镜头的视频相似度分数最高的高级特征镜头作为候选镜头,采用维特比算法选择最终候选镜头,从而得到最终短视频。该方法能够帮助用户灵活、简单的制作所需风格的短视频。

Description

一种基于原型视频的短视频自动编辑方法
技术领域
本发明属于人机交互技术领域,具体涉及一种基于原型视频的短视频自动编辑方法。
背景技术
随着电商平台的日益普及,网购需求大幅增加,电商行业短视频的需求急剧增加,目前商品平台都支持在商品详情页中插入产品展示视频。视频需求增加的同时也为视频制作带来了一些问题,可以看到电子商务领域的商品特别是服装类商品迭代速度很快,通常一个季度就需要全部更新一遍,一个商家通常拥有几千件商品。如此快的迭代速度和如此庞大的商品数量,让传统的视频制作方式难以满足。
市场上虽然也有一些对视频进行自动剪辑的系统,但基本都是根据视频长度等简单特征拼接视频片段,并没有理解分析视频内容,也没有考虑片段之间的连贯性和整体性。近年来,计算机展现了理解和生成多媒体内容的能力,研究人员试图将视频编辑过程自动化,如在3D环境中控制摄像机以及为课堂讲座或某些社交聚会场景自动编辑视频,总是与剪辑规则、电影的视听语言等知识相结合,以确保合成视频的连续性。这些方法将通用的电影编辑规则与特定场景相关的指南相结合,以产生合成结果。然而,这些规则和指导方针只能帮助在固定的时间段内选择合适的镜头。在这种情况下,每个视频片段都有它应该出现的指定时间点。但是,编辑电商服装视频更加灵活,如果没有限制,镜头可以放在任何地方,而且可以是任意长度,在这种情况下,每个镜头的搜索空间要大得多。
数字产品展示会影响消费者在购买时的决策,尤其是在服装电子零售环境中。与常用的基于文本的格式相比,视频格式呈现出相对更逼真的视觉提示和动态运动,用于传达对消费者感知产生强大影响的产品体验。根据思科年度视觉网络指数报告,视频预计占消费者互联网流量的82%以上。然而,手动视频编辑是一个极其耗时且费力的过程,需要大量专业知识。它需要将输入视频片段分割成镜头,并在时间轴上排列这些镜头以构建强大的叙事。剪辑师会做出一系列谨慎的决定,以考虑每个镜头的内容、相机运动和视觉质量,这对于在线零售商等新手剪辑师来说很难。
因此亟需研发一种视频处理方法,能够解决视频剪辑专业性较强,无法实时获得符合客户所需风格的视频。
发明内容
本发明提供一种基于原型视频的短视频自动编辑方法,该方法能够帮助用户灵活、简单的制作所需风格的短视频。
一种基于原型视频的短视频自动编辑方法,包括:
S1:对输入视频进行帧采样得到多个输入视频帧,分别利用YOLOv3 和Alphapose方法对多个输入视频帧进行处理得到多个基体特征,将多个基本特征输入至随机森林或决策树模型得到带有标签的高级特征输入视频;
S2:从原型数据库中选择第一原型视频集,基于视频结构相似性度量从第一原型视频集中选择与高级特征输入视频的视频相似度分数最高的原型视频作为第一原型视频;
S3:如果第一原型视频与高级特征输入视频的视频相似度分数低于视频相似度分数阈值,则基于第一原型视频与原型数据库中其他原型视频的兼容性距离度量得到第一原型视频与其他原型视频的动态兼容因子,将高于动态兼容因子阈值的原型视频作为第二原型视频集,并将第二原型视频集中与高级特征输入视频相似度分数最高的原型视频作为第二原型视频;
S4:迭代步骤S2,S3,将满足视频相似度分数阈值的多个第一最终原型视频作为第一最终原型视频集;
S5:将高级特征输入视频划分为高级特征目标子视频序列,将每个高级特征目标子视频划分为多个高级特征镜头,将第一最终原型视频分为多个目标镜头,基于视频结构相似性度量,在每个高级特征目标子视频中选择与每个目标镜头的视频相似度分数最高的高级特征镜头作为候选镜头,删除各个高级特征目标子视频中的重复候选镜头,然后采用维特比算法选择各个高级特征目标子视频中的最终候选镜头,使得高级特征目标子视频序列与最终原型视频的平均视频相似度分数最高,从而得到最终短视频。
分别利用YOLOv3和Alphapose方法对多个输入视频帧进行处理得到多个基体特征,包括:
利用YOLOv3方法提取多个输入视频帧的人物基本特征,利用Alphapose方法提取多个输入视频帧的感兴趣区域特征,人物基本特征和感兴趣区域特征构建了多个基本特征。
将多个基本特征输入至随机森林或决策树模型得到带有标签的高级特征输入视频,包括:
所述的高级特征包括方向、运动强度、姿态和框架中景别,将基本特征输入至随机森林或决策树模型中得到了被标签标记的高级特征输入视频。
第一原型视频与高级特征输入视频的视频相似度分数 VSSIM(Ss-St)为:
Figure BDA0003383834640000031
其中,Ss为第一原型视频,St为高级特征输入视频,a为高级特征, FSIMa(Ss,St)为基于高级特征a的第一原型视频与高级特征输入视频的特征相似度,len(s)为是视频长度,第一原型视频与高级特征输入视频的长度相同,
Figure BDA0003383834640000032
为第一原型视频在视频长度为i下高级特征a的每对标签之间的距离,
Figure BDA0003383834640000033
为高级特征输入视频在视频长度为i下高级特征a的每对标签之间的距离,wa为高级特征a的权重。
第一原型视频与其他原型视频的动态兼容因子DC(Sc,St)为:
Figure BDA0003383834640000034
其中,Sc为其他原型视频,CDISa(Ss,Sc)为基于高级特征a的第一原型视频与原型数据库中其他原型视频的兼容性距离度量分数。
基于高级特征a的第一原型视频与原型数据库中其他原型视频的兼容性距离度量分数CDISa(Ss,Sc)为:
Figure BDA0003383834640000041
其中,
Figure BDA0003383834640000042
为高级特征a的第一原型视频的各个标签的频率分布,
Figure BDA0003383834640000043
为高级特征a的其他原型视频的各个标签的频率分布,
Figure BDA0003383834640000044
为高级特征a的第一原型视频的第i个标签的频率,
Figure BDA0003383834640000045
为高级特征a的其他原型视频的第i个标签的频率,n为标签数量。
采用维特比算法选择各个高级特征目标子视频中的最终候选镜头是基于高级特征目标子视频序列与最终原型视频的最大平均视频相似度分数确定的,最大平均视频相似度分数
Figure BDA0003383834640000046
为:
Figure BDA0003383834640000047
其中,ωi,j为第i个高级特征目标子视频的第j个候选镜头与高级特征输入视频相似度分数,k为候选镜头数量。
一种基于原型视频的短视频自动编辑方法,包括:
S1:对输入视频进行帧采样得到多个输入视频帧,分别利用YOLOv3 和Alphapose方法对多个输入视频帧进行处理得到多个基体特征,将多个基本特征输入至随机森林或决策树模型得到带有标签的高级特征输入视频;
S2:获得第二最终原型视频集,所述第二最终原型视频集为用户从原型数据库中选择的第二原型视频;将高级特征输入视频划分为高级特征目标子视频序列,将每个高级特征目标子视频划分为多个高级特征镜头,将第二最终原型视频分为多个目标镜头,基于视频结构相似性度量,在每个高级特征目标子视频中选择与每个目标镜头的视频相似度分数最高的高级特征镜头作为候选镜头,删除各个高级特征目标子视频中的重复候选镜头,然后采用维特比算法选择各个高级特征目标子视频中的最终候选镜头,使得高级特征目标子视频序列与最终原型视频的平均视频相似度分数最高,从而得到最终短视频。
与现有技术相比,本发明的有益效果为:
(1)本发明利用动态兼容因子获得与第一原型视频中每个高级特征的各个标签相近的多个原型视频,并利用视频结构相似性度量计算该多个原型视频与高级特征输入视频的相似度分数,多次迭代后得到视频相似度分数较高的原型视频,并以该原型视频为目标视频对高级特征输入视频进行分割、提取得到多个候选视频,利用维特比算法从每个高级特征目标子视频中的多个候选视频选择最终候选视频,使得高级特征目标子视频序列与最终原型视频的平均视频相似度分数最高,从而能够自动得到满足输入视频风格的最终短视频。
(2)本发明通过将用户选择的原视频作为目标视频,将高级特征输入视频以该目标视频的镜头长短为依据进行切分,并基于视频结构相似性度量获得与目标视频的各个镜头结构相似的多个候选镜头,利用维特比算法从每个高级特征输入子视频的多个候选镜头中最优候选镜头,使得高级特征输入视频平均视频相似度分数最高,从而能够自动得到满足用户风格的最终短视频。
附图说明
图1为具体实施方式提供的一种基于原型视频的短视频自动编辑方法流程图;
图2为具体实施方式提供的一种基于原型视频的短视频自动编辑方法整个系统的概述图;
图3为具体实施方式提供的各个高级特征及标签的定义图;
图4为具体实施方式提供的高级特征提取示意图;
图5为具体实施方式提供的从高级特征输入视频中提取最终候选镜头流程图;
图6为具体实施方式提供的采用一种基于原型视频的短视频自动编辑方法系统界面,其中,(A)显示原型和编辑结果。(B)显示结果中的每个镜头以及相应的原型镜头。对于每个镜头,用户可以在(C)中手动选择替代候选镜头。所选候选镜头的详细信息在(D)中呈现,最终合成视频将在(E)中演示;
图7为具体实施方式提供的采用一种基于原型视频的短视频自动编辑方法系统运作耗费时间图;
图8为具体实施方式提供的不同VSSIM分数段的合成视频的质量评估结果图;
图9为具体实施方式提供的不同VSSIM分数段中合成视频的感知相似度评估结图;
图10为具体实施方式提供的采用一种基于原型视频的短视频自动编辑方法在不同搜索迭代轮数(L)和高级特征目标子视频数量(m)下与相应参数下的随机算法比较结果图;
图11为具体实施方式提供的一种基于原型视频的短视频自动编辑方法和随机算法在不同输入数量下的VSSIM分数比较图;
图12真人和本发明的方法编辑时间对比图;
图13为具体实施方式提供的一种基于原型视频的短视频自动编辑方法和真人制作的视频的质量评估结果图。
具体实施方式
本发明提供了一种基于原型视频的短视频自动编辑方法,如图1,2 所示,具体步骤为:
(1)通过编码模块提取带有标签的高级特征,具体步骤为:对输入视频进行帧采样得到多个输入视频帧,利用YOLOv3方法提取多个输入视频帧的人物基本特征,利用Alphapose方法提取多个输入视频帧的感兴趣区域特征,人物基本特征和感兴趣区域特征构建了多个基本特征,如图4 所示,将多个基本特征输入至决策树模型中得到了带有标签标记的高级特征输入视频,高级特征为F={Fdir,Fmot,Fpos,Fview},Fdir为方向高级特征、Fmot为运动强度高级特征、Fpos为姿态高级特征和Fview为框架中景别高级特征,如图3所示,景别的标签为:远景/全景/膝上/上身/下身/ 面部/腰部细节/空;姿态的标签为:站立/坐下/步行/旋转;方向即朝向的标签为:左/半面朝左/脸/半面朝右/右/后;运动强度的标签为:静止/弱/ 强。
(2.1)通过自适应兼容性搜索算法从原型数据库中得到第一最终原型视频集,具体步骤为:从原型数据库中选择第一原型视频集,基于视频结构相似性度量从第一原型视频集中选择与高级特征输入视频的视频相似度分数最高的原型视频作为第一原型视频;
自适应兼容性搜索算法为:如果第一原型视频与高级特征输入视频的视频相似度分数低于视频相似度分数阈值,则基于第一原型视频与原型数据库中其他原型视频的兼容性距离度量得到第一原型视频与其他原型视频的动态兼容因子,将高于动态兼容因子阈值的原型视频作为第二原型视频集,并将第二原型视频集中与高级特征输入视频相似度分数最高的原型视频作为第二原型视频;当输入视频与第一原型视频的视频相似度分数(VSSIM)偏低时候,搜索与第一原型视频更高的兼容性距离度量分数 (CDIS)较高的原型视频,从而得到与输入视频更高的VSSIM值,基于上述原理得出了动态兼容因子DC,与第一原型视频DC值较高的原型视频说明与输入视频的VSSIM值更高;
迭代上述步骤(2.1),将满足视频相似度分数阈值的多个第一最终原型视频作为第一最终原型视频集,通过自适应兼容性搜索算法得到了多个第一最终原型视频,即为优化原型;通过自适应兼容搜索算法能够得到与输入视频风格相似的优化原型,使得用户能够简单、灵活的编辑短视频。
(2.2)用户从原型数据库中选择第二原始视频,具体步骤为:首先从原始数据库中选择初始原型视频,对初始原始视频进行高级特征提取得到第二原始视频,即优化原型。
其中,如图5所示,第一原型视频与高级特征输入视频的视频相似度分数VSSIM(Ss-St)为:
Figure BDA0003383834640000081
其中,Ss为第一原型视频,St为高级特征输入视频,a为高级特征, FSIMa(Ss,St)为基于高级特征a的第一原型视频与高级特征输入视频的特征相似度,len(s)为是视频长度,第一原型视频与高级特征输入视频的长度相同,
Figure BDA0003383834640000082
为第一原型视频在视频长度为i高级特征a下的每对标签之间的距离,
Figure BDA0003383834640000083
为高级特征输入视频在视频长度为i高级特征a下的每对标签之间的距离,wa为高级特征a的权重。
第一原型视频与其他原型视频的动态兼容因子DC(Sc,St)为:
Figure BDA0003383834640000084
其中,Sc为其他原型视频,CDISa(Ss,Sc)为基于高级特征a的第一原型视频与原型数据库中其他原型视频的兼容性距离度量分数;
基于高级特征a的第一原型视频与原型数据库中其他原型视频的兼容性距离度量分数CDISa(Ss,Sc)为:
Figure BDA0003383834640000091
其中,
Figure BDA0003383834640000092
为高级特征a的第一原型视频的各个标签的频率分布,
Figure BDA0003383834640000093
为高级特征a的其他原型视频的各个标签的频率分布,
Figure BDA0003383834640000094
为高级特征a的第一原型视频的第i个标签的频率,
Figure BDA0003383834640000095
为高级特征a的其他原型视频的第i 个标签的频率,n为标签数量。
(3)将优化原型与高级特征输入视频进行相似度计算得到高级特征输入视频的最终候选镜头,最终候选镜头组合得到最终的输出视频,具体步骤为:
如图5所示,将高级特征输入视频划C分为高级特征目标子视频序列 {C0,C1,...,Cm},其中,m为高级特征目标子视频数量,将每个高级特征目标子视频划分为多个高级特征镜头,将第一最终原型视频分为多个目标镜头,基于视频结构相似性度量,在每个高级特征目标子视频中选择与每个目标镜头的视频相似度分数最高的高级特征镜头作为候选镜头Si,j,每个高级特征目标子视频包括多个候选镜头,Ci={Si,1,Si,2,...,Si,k},其中,Ci为第i个高级特征目标子视频,删除各个高级特征目标子视频中的重复候选镜头,然后采用维特比算法选择各个高级特征目标子视频中的最终候选镜头,使得高级特征目标子视频序列与最终原型视频的平均视频相似度分数最高,从而得到最终短视频。
其中,采用维特比算法选择各个高级特征目标子视频中的最终候选镜头是基于高级特征目标子视频序列与最终原型视频的最大平均视频相似度分数确定的,最大平均视频相似度分数
Figure BDA0003383834640000096
为:
Figure BDA0003383834640000101
其中,ωi,j为第i个高级特征目标子视频的第j个候选镜头与高级特征输入视频相似度分数,k为候选镜头数量。
正如用户感知实验所验证的那样,本发明方法的输出有较高质量。此外,本发明的方法足够灵活,可以通过更改数据库中的原型来增强其生成其他类型视频或其他编辑风格的能力。使用本发明提出的系统,零售商等创作者可以更轻松地制作用于产品展示的拍摄视频。本发明基于原型的自动视频编辑系统显著简化了编辑过程,允许编辑人员通过选择不同的原型来调整他们的编辑风格。本发明相信这样的系统可以在提高商业短视频制作效率方面发挥极其重要的作用。
本发明收集了数千个服装产品展示视频,并根据总时长、单次拍摄时长、拍摄次数等进行过滤。最后选择了767个时长在12到60秒之间的原型视频。这些原型视频大多来自中国最大的电子商务平台。通过将每个原型分为镜头并根据高级特征对每个镜头进行编码来预处理所有原型。
图6显示了本发明的系统界面,用户上传视频同时系统对视频进行编码,用户选择心仪的原型,系统根据所选择原型自动生成视频,用户若不满意,可手动调整镜头序列,最终生成合成视频。并使用系统自动输出 VSSIM前10名的结果。本发明在具有10.81GB VRAM的3.5GHz服务器上评估了系统,如图7所示。以每秒24帧的速度以720*960p的分辨率记录原始素材,系统在整个流程中保持该分辨率。对于一组总持续时间为 2分钟、每秒24帧的输入视频,编辑持续时间主要由ROI和KP检测决定。说明利用本发明提供的方法生成短视频分辨率保持稳定,用时较短,具有较好的可用性。
视频质量,即用户评价较高的视频,与VSSIM分数的一致性比较:为了解VSSIM分数与合成视频质量的关系,招募了22名具有在线购物经验的用户来评估本发明系统的输出质量。准备了4组视频,每组包含4个具有不同VSSIM分数的合成视频。为了排除视频内容的影响,根据相同的原型使用相同的输入视频片段生成同一组中的视频,而使用不同的输入视频片段和原型生成不同组中的视频。对于每个视频组的评估,参与者被要求选择至少一个高质量视频和至少一个令人反感的视频。结果(见图8) 显示,VSSIM得分较高(高于80)的编辑结果收到的正面评价较多(分数接近5),而负面评价较少(分数接近1)。相比之下,具有极低VSSIM 分数(约60分)的视频的结果是高度两极分化的。
此外进行了方差分析(ANOVA)。合成视频的质量与VSSIM显著相关(F=13.358,p<0.001),但与视频内容没有显著关系(F=1.011,p= 0.395)。当视频内容和VSSIM一起考虑时,也没有显著关系(F=1.133, p=0.342)。这些结果表明,合成视频的质量与其VSSIM分数密切相关,与输入视频的内容或原型没有显著关系。
视频相似度与VSSIM的一致性比较:由于本发明使用VSSIM分数来衡量视频之间的相似度,因此需要确认它是否与人类观众感知的相似度一致。设计了四组实验。邀请参与者观看原型资料,然后对合成视频与原型资料之间的相似度进行评分。从实验结果(图9)可以看出,具有较高 VSSIM分数的合成视频在感知维度上也获得了较高的分数,这表明参与者认为具有较高VSSIM分数的视频与原型更相似,高级特征来描述风格,而相似度是用高级特征来计算的。所以视频相似度越高风格越接近。
自适应兼容性搜索算法的效果:为了验证本发明的自适应兼容性搜索算法的效果,在相同的输入视频条件下,将本发明的算法和随机选择原型做比较。在实验中使用258个未包含在原型数据库中的输入视频,所有这些输入视频都从同一电子商务网站收集,且都用于产品展示。从258个输入视频中随机选择了15个输入,并在不同的搜索迭代轮数L和高级特征目标子视频数m上搜索原型,与相应参数下的随机算法进行比较。在对输入进行100次选择后,计算编辑结果的平均VSSIM分数(见图10)。本发明算法的平均VSSIM得分范围(83.91~86.07)大于随机策略 (76.27~79.49)。增加参数可以提高结果的VSSIM分数,但也会耗费计算时间。然后固定参数(L=4,m=8)并更改输入数量以探索搜索模块的性能,图11中的结果表明,大量输入视频拍摄提高了编辑结果的VSSIM 分数,当输入数量增加时,两种算法之间的距离逐渐减小。这是因为输入足以匹配数据库中的大多数引用,随机算法获得高VSSIM分数的原型的概率因此升高。
利用基于原型视频的短视频自动编辑方法编辑的视频与手动编辑视频的比较:本发明比较了本系统制作视频和真人使用商业编辑软件制作视频的视频编辑效率和质量。对于编辑任务,本发明为每个原型选择了4个不同的原型和4组视频,然后请4位编辑尝试使用指定的输入视频片段来编辑与原型相似的视频,选择Adobe Premiere作为基于帧的编辑工具,所有编辑都使用该工具的相同版本。为了确保公平比较,只计算了编辑期间花费的人工时间,并删除了渲染时间。本发明的系统和人工编辑所需时间的比较如图12所示。
为了进一步评估生成的视频,邀请了20名非专家学生观看本发明的结果和人工编辑的结果。考虑到视觉质量和视觉一致性,他们被要求以5 分制(1=差,5=优秀)对每个视频进行评分。图13显示了分数分布的可视化。从评估结果来看,很难看出这两组数据的分布有任何明显差异。只能看到手动编辑的视频获得了更多的正面评价(>4分)。t检验结果表明使用自动编辑系统获得的结果与手动编辑结果之间的感知分数没有显著差异(t=1.267,df=478,p=0.206)。

Claims (4)

1.一种基于原型视频的短视频自动编辑方法,其特征在于,包括:
S1:对输入视频进行帧采样得到多个输入视频帧,分别利用YOLOv3和Alphapose方法对多个输入视频帧进行处理得到多个基体特征,将多个基本特征输入至随机森林或决策树模型得到带有标签的高级特征输入视频;
S2:从原型数据库中选择第一原型视频集,基于视频结构相似性度量从第一原型视频集中选择与高级特征输入视频的视频相似度分数最高的原型视频作为第一原型视频;
S3:如果第一原型视频与高级特征输入视频的视频相似度分数低于视频相似度分数阈值,则基于第一原型视频与原型数据库中其他原型视频的兼容性距离度量得到第一原型视频与其他原型视频的动态兼容因子,将高于动态兼容因子阈值的原型视频作为第二原型视频集,并将第二原型视频集中与高级特征输入视频相似度分数最高的原型视频作为第二原型视频;
第一原型视频与高级特征输入视频的视频相似度分数VSSIM(Ss-St)为:
Figure FDA0003788100960000011
其中,Ss为第一原型视频,St为高级特征输入视频,a为高级特征,FSIMa(Ss,St)为基于高级特征a的第一原型视频与高级特征输入视频的特征相似度,len(s)为是视频长度,第一原型视频与高级特征输入视频的长度相同,
Figure FDA0003788100960000012
为第一原型视频在视频长度为i高级特征a下的每对标签之间的距离,
Figure FDA0003788100960000021
为高级特征输入视频在视频长度为i高级特征a下的每对标签之间的距离,wa为高级特征a的权重;
第一原型视频与其他原型视频的动态兼容因子DC(Sc,St)为:
Figure FDA0003788100960000022
其中,Sc为其他原型视频,CDISa(Ss,Sc)为基于高级特征a的第一原型视频与原型数据库中其他原型视频的兼容性距离度量分数;
基于高级特征a的第一原型视频与原型数据库中其他原型视频的兼容性距离度量分数CDISa(Ss,Sc)为:
Figure FDA0003788100960000023
其中,
Figure FDA0003788100960000024
为高级特征a的第一原型视频的各个标签的频率分布,
Figure FDA0003788100960000025
为高级特征a的其他原型视频的各个标签的频率分布,
Figure FDA0003788100960000026
为高级特征a的第一原型视频的第i个标签的频率,
Figure FDA0003788100960000027
为高级特征a的其他原型视频的第i个标签的频率,n为标签数量;
采用维特比算法选择各个高级特征目标子视频中的最终候选镜头是基于高级特征目标子视频序列与最终原型视频的最大平均视频相似度分数确定的,最大平均视频相似度分数
Figure FDA0003788100960000028
为:
Figure FDA0003788100960000031
其中,ωi,j为第i个高级特征目标子视频的第j个候选镜头与高级特征输入视频相似度分数,k为候选镜头数量;
S4:迭代步骤S2,S3,将满足视频相似度分数阈值的多个第一最终原型视频作为第一最终原型视频集;
S5:将高级特征输入视频划分为高级特征目标子视频序列,将每个高级特征目标子视频划分为多个高级特征镜头,将第一最终原型视频分为多个目标镜头,基于视频结构相似性度量,在每个高级特征目标子视频中选择与每个目标镜头的视频相似度分数最高的高级特征镜头作为候选镜头,删除各个高级特征目标子视频中的重复候选镜头,然后采用维特比算法选择各个高级特征目标子视频中的最终候选镜头,从而得到最终短视频。
2.根据权利要求1所述的基于原型视频的短视频自动编辑方法,其特征在于,分别利用YOLOv3和Alphapose方法对多个输入视频帧进行处理得到多个基体特征,包括:
利用YOLOv3方法提取多个输入视频帧的人物基本特征,利用Alphapose方法提取多个输入视频帧的感兴趣区域特征,人物基本特征和感兴趣区域特征构建了多个基本特征。
3.根据权利要求1所述的基于原型视频的短视频自动编辑方法,其特征在于,将多个基本特征输入至随机森林或决策树模型得到带有标签的高级特征输入视频,包括:
所述的高级特征包括方向、运动强度、姿态和框架中景别,将基本特征输入至随机森林或决策树模型中得到了被标签标记的高级特征输入视频。
4.一种基于原型视频的短视频自动编辑方法,其特征在于,包括:
S1:对输入视频进行帧采样得到多个输入视频帧,分别利用YOLOv3和Alphapose方法对多个输入视频帧进行处理得到多个基体特征,将多个基本特征输入至随机森林或决策树模型得到带有标签的高级特征输入视频;
S2:获得第二最终原型视频集,所述第二最终原型视频集为用户从原型数据库中选择的第二原型视频;
从原型数据库中选择第一原型视频集,基于视频结构相似性度量从第一原型视频集中选择与高级特征输入视频的视频相似度分数最高的原型视频作为第一原型视频;
如果第一原型视频与高级特征输入视频的视频相似度分数低于视频相似度分数阈值,则基于第一原型视频与原型数据库中其他原型视频的兼容性距离度量得到第一原型视频与其他原型视频的动态兼容因子,将高于动态兼容因子阈值的原型视频作为第二原型视频集,并将第二原型视频集中与高级特征输入视频相似度分数最高的原型视频作为第二原型视频;
将高级特征输入视频划分为高级特征目标子视频序列,将每个高级特征目标子视频划分为多个高级特征镜头,将第二最终原型视频分为多个目标镜头,基于视频结构相似性度量,在每个高级特征目标子视频中选择与每个目标镜头的视频相似度分数最高的高级特征镜头作为候选镜头,删除各个高级特征目标子视频中的重复候选镜头,然后采用维特比算法选择各个高级特征目标子视频中的最终候选镜头,从而得到最终短视频。
CN202111442144.9A 2021-11-30 2021-11-30 一种基于原型视频的短视频自动编辑方法 Active CN114205677B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111442144.9A CN114205677B (zh) 2021-11-30 2021-11-30 一种基于原型视频的短视频自动编辑方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111442144.9A CN114205677B (zh) 2021-11-30 2021-11-30 一种基于原型视频的短视频自动编辑方法

Publications (2)

Publication Number Publication Date
CN114205677A CN114205677A (zh) 2022-03-18
CN114205677B true CN114205677B (zh) 2022-10-14

Family

ID=80649689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111442144.9A Active CN114205677B (zh) 2021-11-30 2021-11-30 一种基于原型视频的短视频自动编辑方法

Country Status (1)

Country Link
CN (1) CN114205677B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2559030A1 (en) * 2010-03-19 2013-02-20 Digimarc Corporation Intuitive computing methods and systems
EP3404658A1 (en) * 2017-05-17 2018-11-21 LG Electronics Inc. Terminal using intelligent analysis for decreasing playback time of video

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040125877A1 (en) * 2000-07-17 2004-07-01 Shin-Fu Chang Method and system for indexing and content-based adaptive streaming of digital video content
US8190420B2 (en) * 2009-08-04 2012-05-29 Autonomy Corporation Ltd. Automatic spoken language identification based on phoneme sequence patterns
US8175617B2 (en) * 2009-10-28 2012-05-08 Digimarc Corporation Sensor-based mobile search, related methods and systems
US8873813B2 (en) * 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
US9143742B1 (en) * 2012-01-30 2015-09-22 Google Inc. Automated aggregation of related media content
GB2523973B (en) * 2012-12-19 2017-08-02 Magas Michela Audio analysis system and method using audio segment characterisation
WO2014142758A1 (en) * 2013-03-14 2014-09-18 Rocks International Group Pte Ltd An interactive system for video customization and delivery
US9183466B2 (en) * 2013-06-15 2015-11-10 Purdue Research Foundation Correlating videos and sentences
US20170083520A1 (en) * 2015-09-22 2017-03-23 Riffsy, Inc. Selectively procuring and organizing expressive media content
KR20170135069A (ko) * 2016-05-30 2017-12-08 삼성에스디에스 주식회사 QoE 분석 기반 비디오 프레임 관리 방법 및 그 장치
US10242282B2 (en) * 2017-03-20 2019-03-26 Conduent Business Services, Llc Video redaction method and system
US10911837B1 (en) * 2018-12-28 2021-02-02 Verizon Media Inc. Systems and methods for dynamically augmenting videos via in-video insertion on mobile devices
US20220189174A1 (en) * 2019-03-28 2022-06-16 Piksel, Inc. A method and system for matching clips with videos via media analysis
US11849196B2 (en) * 2019-09-11 2023-12-19 Educational Vision Technologies, Inc. Automatic data extraction and conversion of video/images/sound information from a slide presentation into an editable notetaking resource with optional overlay of the presenter
WO2021207016A1 (en) * 2020-04-05 2021-10-14 Theator inc. Systems and methods for automating video data management during surgical procedures using artificial intelligence

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2559030A1 (en) * 2010-03-19 2013-02-20 Digimarc Corporation Intuitive computing methods and systems
EP3404658A1 (en) * 2017-05-17 2018-11-21 LG Electronics Inc. Terminal using intelligent analysis for decreasing playback time of video

Also Published As

Publication number Publication date
CN114205677A (zh) 2022-03-18

Similar Documents

Publication Publication Date Title
CN111683209B (zh) 混剪视频的生成方法、装置、电子设备及计算机可读存储介质
US9830515B2 (en) Intelligent video thumbnail selection and generation
JP7147078B2 (ja) ビデオフレームの情報ラベリング方法、装置、機器及びコンピュータプログラム
JP4370387B2 (ja) ビデオシーケンスのラベルオブジェクト映像生成装置及びその方法
TWI510064B (zh) 視訊推薦系統及其方法
WO2022184117A1 (zh) 基于深度学习的视频剪辑方法、相关设备及存储介质
US8928672B2 (en) Real-time automatic concatenation of 3D animation sequences
WO2012071696A1 (zh) 基于用户兴趣学习的个性化广告推送方法与系统
CN108600865A (zh) 一种基于超像素分割的视频摘要生成方法
Mademlis et al. Multimodal stereoscopic movie summarization conforming to narrative characteristics
CN113010701A (zh) 以视频为中心的融媒体内容推荐方法及装置
US11948360B2 (en) Identifying representative frames in video content
CN114005077B (zh) 观众评价数据驱动的无声产品视频创作辅助方法及装置
Wang et al. Learning how to smile: Expression video generation with conditional adversarial recurrent nets
Zhang et al. Ddh-qa: A dynamic digital humans quality assessment database
Yao et al. Dance with you: The diversity controllable dancer generation via diffusion models
JP6917788B2 (ja) 要約映像生成装置及びプログラム
CN114205677B (zh) 一种基于原型视频的短视频自动编辑方法
Boukadida et al. Automatically creating adaptive video summaries using constraint satisfaction programming: Application to sport content
EP4195133B1 (en) Image guided video thumbnail generation for e-commerce applications
CN117251622A (zh) 对象推荐的方法、装置、计算机设备和存储介质
CN114501105B (zh) 视频内容的生成方法、装置、设备及存储介质
Chen et al. Videopuzzle: Descriptive one-shot video composition
US20230260183A1 (en) Character animations in a virtual environment based on reconstructed three-dimensional motion data
Ramos et al. Personalizing fast-forward videos based on visual and textual features from social network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant