CN110996017B - 一种生成剪辑视频的方法及装置 - Google Patents

一种生成剪辑视频的方法及装置 Download PDF

Info

Publication number
CN110996017B
CN110996017B CN201910950805.5A CN201910950805A CN110996017B CN 110996017 B CN110996017 B CN 110996017B CN 201910950805 A CN201910950805 A CN 201910950805A CN 110996017 B CN110996017 B CN 110996017B
Authority
CN
China
Prior art keywords
video
text
shot
sequence
clip
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910950805.5A
Other languages
English (en)
Other versions
CN110996017A (zh
Inventor
胡事民
汪淼
杨国炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201910950805.5A priority Critical patent/CN110996017B/zh
Publication of CN110996017A publication Critical patent/CN110996017A/zh
Application granted granted Critical
Publication of CN110996017B publication Critical patent/CN110996017B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本发明实施例提供一种生成剪辑视频的方法及装置,所述方法包括:确定与特定主题相关的文本和视频素材库,所述文本包含至少一个文本片段,所述文本片段包含用户自定义的视频效果属性和至少一个关键词;在所述视频素材库中确定与所述文本片段的语义相对应的候选视频素材;根据所述候选视频素材、所述视频效果属性和预设视频能量优化模型,获取所有候选视频素材对应的优化视频剪辑序列,并根据所述优化视频剪辑序列生成剪辑视频。所述装置执行上述方法。本发明实施例提供的生成剪辑视频的方法及装置,方便进行视频剪辑,且保证剪辑视频具有较好的播放效果。

Description

一种生成剪辑视频的方法及装置
技术领域
本发明涉及视频处理技术领域,尤其涉及一种生成剪辑视频的方法及装置。
背景技术
帮助无经验的用户进行例如图像编辑、绘画或是三维模型设计等的各种创作工具已经越来越丰富。但是,帮助无视频编辑经验的用户进行视频的创作和编辑仍充满挑战。即使有了拍摄好的视频素材库,用户还需要以流畅且有意义的方式组合这些视频镜头片段。专业的视频编辑通常使用AdobePremiere等商用软件对原始片段进行裁剪,并根据故事脚本剪辑出连贯的视频。然而,没有受过专业培训的用户可能难以学习和使用此类软件,而且他们也没有足够的计算摄影学知识以进行视频编辑。
在视频素材编辑方面,Hitchcock系统通过分析输入视频,并给出合适度评分,提供家庭视频编辑的半自动方法。用户可以通过将推荐的视频镜头拖动到时间轴中,并通过手动调整镜头的长度来创建视频。QuickCut工具输入一段文字脚本以及通过用户录音描述的视频镜头集合,结合脚本及用户描述,帮助用户更方便地完成视频剪辑。但是,上述现有技术都需要用户进行与视频编辑相关的操作才能完成视频剪辑,需要较强的专业知识和技能,不够方便,且无法保证剪辑视频具有较好的播放效果。
发明内容
针对现有技术存在的问题,本发明实施例提供一种生成剪辑视频的方法及装置。
本发明实施例提供一种生成剪辑视频的方法,包括:
确定与特定主题相关的文本和视频素材库,所述文本包含至少一个文本片段,所述文本片段包含用户自定义的视频效果属性和至少一个关键词;
在所述视频素材库中确定与所述文本片段的语义相对应的候选视频素材;
根据所述候选视频素材、所述视频效果属性和预设视频能量优化模型,获取所有候选视频素材对应的优化视频剪辑序列,并根据所述优化视频剪辑序列生成剪辑视频;其中,所述预设视频能量优化模型包括单一视频镜头能量运算因子、相邻视频镜头间能量运算因子和所述文本片段对应的所有视频镜头能量运算因子。
其中,所述预设视频能量优化模型根据如下公式表示:
Figure BDA0002225597530000021
其中,L为所述文本包含的文本片段的文本片段数、l为L个文本片段中的第l个文本片段、
Figure BDA0002225597530000022
A=<A1,A2,…AL>、
Figure BDA0002225597530000023
Figure BDA0002225597530000024
中的第l个,为生成剪辑视频中第l个文本片段对应的视频镜头片段序列、Al为A中的第l个,为第l个文本片段对应的视频效果属性、
Figure BDA0002225597530000025
为所述预设视频能量优化模型、
Figure BDA0002225597530000026
为所述单一视频镜头能量运算因子、
Figure BDA0002225597530000027
为所述相邻视频镜头间能量运算因子、
Figure BDA0002225597530000028
为所述文本片段对应的所有视频镜头能量运算因子;所述视频镜头片段序列是根据所述候选视频素材得到的。
其中,所述根据所述候选视频素材、所述视频效果属性和预设视频能量优化模型,获取所有候选视频素材对应的优化视频剪辑序列,包括:
利用动态规划算法求解所述预设视频能量优化模型,以获取
Figure BDA0002225597530000029
的最优解
Figure BDA00022255975300000210
根据所述最优解
Figure BDA00022255975300000211
并利用回溯算法获取所述优化视频剪辑序列
Figure BDA00022255975300000212
其中,所述单一视频镜头能量运算因子根据如下公式确定:
Figure BDA00022255975300000213
其中,
Figure BDA00022255975300000214
表示所述单一视频镜头能量运算因子、Fvsm(s)表示候选视频素材与语义匹配的准确程度、Fstab(s)表示视频内容运动的稳定程度、Ftone(s)表示视频色调的鲜艳程度、s为作为自变量的视频镜头片段序列、α1~α3为与Fvsm(s)、Fstab(s)和Ftone(s)分别对应权重系数。
其中,所述相邻视频镜头间能量运算因子根据如下公式确定:
Figure BDA0002225597530000031
其中,
Figure BDA0002225597530000032
表示所述相邻视频镜头间能量运算因子、FOM(s,s')表示镜头是否反向移动、FJC(s,s')表示镜头是否跳切、FTC(s,s′)表示视频色调变化的平滑程度、s为作为自变量的视频镜头片段序列、s′为与s相邻的作为自变量的视频镜头片段序列、β1~β3为与FOM(s,s′)、FJC(s,s′)和FTC(s,s′)分别对应权重系数、|C|为镜头跳切的次数。
其中,所述文本片段对应的所有视频镜头能量运算因子根据如下公式确定:
Figure BDA0002225597530000033
其中,
Figure BDA0002225597530000034
表示所述文本片段对应的所有视频镜头能量运算因子、
Figure BDA0002225597530000035
表示第l个文本片段内视频镜头片段序列与视频配音序列间的一致性、
Figure BDA0002225597530000036
表示第l个文本片段内视频内容运动的剧烈程度的一致性、
Figure BDA0002225597530000037
表示第l个文本片段内视频衔接数量的一致性、λ1~λ3为与
Figure BDA0002225597530000038
Figure BDA0002225597530000039
Figure BDA00022255975300000310
分别对应权重系数、其中,所述视频配音序列是根据与第l个视频镜头片段序列相对应的第l个文本片段获得的。
其中,所述在所述视频素材库中确定与所述文本片段的语义相对应的候选视频素材,包括:
根据相似度算法在所述视频素材库中确定与所述文本片段的语义相对应的候选视频素材。
本发明实施例提供一种生成剪辑视频的装置,包括:
第一确定单元,用于确定与特定主题相关的文本和视频素材库,所述文本包含至少一个文本片段,所述文本片段包含用户自定义的视频效果属性和至少一个关键词;
第二确定单元,用于在所述视频素材库中确定与所述文本片段的语义相对应的候选视频素材;
生成单元,用于根据所述候选视频素材、所述视频效果属性和预设视频能量优化模型,获取所有候选视频素材对应的优化视频剪辑序列,并根据所述优化视频剪辑序列生成剪辑视频;其中,所述预设视频能量优化模型包括单一视频镜头能量运算因子、相邻视频镜头间能量运算因子和所述文本片段对应的所有视频镜头能量运算因子。
本发明实施例提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,
所述处理器执行所述计算机程序时实现如下方法步骤:
确定与特定主题相关的文本和视频素材库,所述文本包含至少一个文本片段,所述文本片段包含用户自定义的视频效果属性和至少一个关键词;
在所述视频素材库中确定与所述文本片段的语义相对应的候选视频素材;
根据所述候选视频素材、所述视频效果属性和预设视频能量优化模型,获取所有候选视频素材对应的优化视频剪辑序列,并根据所述优化视频剪辑序列生成剪辑视频;其中,所述预设视频能量优化模型包括单一视频镜头能量运算因子、相邻视频镜头间能量运算因子和所述文本片段对应的所有视频镜头能量运算因子。
本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如下方法步骤:
确定与特定主题相关的文本和视频素材库,所述文本包含至少一个文本片段,所述文本片段包含用户自定义的视频效果属性和至少一个关键词;
在所述视频素材库中确定与所述文本片段的语义相对应的候选视频素材;
根据所述候选视频素材、所述视频效果属性和预设视频能量优化模型,获取所有候选视频素材对应的优化视频剪辑序列,并根据所述优化视频剪辑序列生成剪辑视频;其中,所述预设视频能量优化模型包括单一视频镜头能量运算因子、相邻视频镜头间能量运算因子和所述文本片段对应的所有视频镜头能量运算因子。
本发明实施例提供的生成剪辑视频的方法及装置,通过用户自定义的至少一个关键词确定候选视频素材,并根据候选视频素材、用户自定义的视频效果属性和预设视频能量优化模型,获取所有候选视频素材对应的优化视频剪辑序列,以自动生成剪辑视频,方便进行视频剪辑,且保证剪辑视频具有较好的播放效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明生成剪辑视频的方法实施例流程图;
图2为本发明生成剪辑视频的装置实施例结构示意图;
图3为本发明实施例提供的电子设备实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明生成剪辑视频的方法实施例流程图,如图1所示,本发明实施例提供的一种生成剪辑视频的方法,包括以下步骤:
S101:确定与特定主题相关的文本和视频素材库,所述文本包含至少一个文本片段,所述文本片段包含用户自定义的视频效果属性和至少一个关键词。
具体的,确定与特定主题相关的文本和视频素材库,所述文本包含至少一个文本片段,所述文本片段包含用户自定义的视频效果属性和至少一个关键词。执行该方法步骤的可以是计算机设备,具体可以是视频编辑服务器。特定主题可以根据用户需要自主选定,例如可以为动物世界,相应的,文本和视频素材库都是与动物相关的文本和视频素材库。该文本可以由用户输入,可以被自动划分为至少一个文本片段,用户可交互重新划分文本片段,并为每个文本片段标注用于索引的至少一个关键词,还可以标注视频效果属性,视频效果属性可以包括是否鼓励镜头运动及增加或减少每个镜头的时长。可以理解的是,上述至少一个关键词和视频效果属性都是用户自定义的,因此,可以反映出该用户的个性化喜好。
S102:在所述视频素材库中确定与所述文本片段的语义相对应的候选视频素材。
具体的,在所述视频素材库中确定与所述文本片段的语义相对应的候选视频素材。进一步地,可以根据相似度算法在所述视频素材库中确定与所述文本片段的语义相对应的候选视频素材。具体说明如下:可以首先使用用户提供的关键词集合标注文本片段,一个文本片段可能被标注有一个或多个关键词。根据文本片段标注的关键词,从视频素材库中检索出所有与上述关键词的语义相同或相近的视频镜头片段。可以再将每个检索到的上述视频镜头片段与文本片段嵌入到同一特征空间,即使用一个特征向量表示他们的特征,并将他们的特征向量的余弦距离作为匹配度量,选择距离最小的若干个上述视频镜头片段作为视频候选素材。例如,关键词为斑马,从视频素材库中确定与斑马相对应的A、B和C三个候选视频素材。
S103:根据所述候选视频素材、所述视频效果属性和预设视频能量优化模型,获取所有候选视频素材对应的优化视频剪辑序列,并根据所述优化视频剪辑序列生成剪辑视频;其中,所述预设视频能量优化模型包括单一视频镜头能量运算因子、相邻视频镜头间能量运算因子和所述文本片段对应的所有视频镜头能量运算因子。
具体的,根据所述候选视频素材、所述视频效果属性和预设视频能量优化模型,获取所有候选视频素材对应的优化视频剪辑序列,并根据所述优化视频剪辑序列生成剪辑视频;其中,所述预设视频能量优化模型包括单一视频镜头能量运算因子、相邻视频镜头间能量运算因子和所述文本片段对应的所有视频镜头能量运算因子。视频能量泛指视频中的特效等播放元素,不作具体限定,可以理解的是,预设视频能量优化模型是用于优化播放元素的预设模型。优化视频剪辑序列即是优化过的视频剪辑序列,即使得上述播放元素更具有视觉感染力。根据所述优化视频剪辑序列生成剪辑视频为本领域成熟技术,不再赘述。单一视频镜头即对应同一个拍摄镜头、且每个视频镜头之间相互独立、且无关,可以理解的是,单一视频镜头能量运算因子即是上述视频镜头对应的视频能量运算因子。相邻视频镜头即对应相邻的两个拍摄镜头、且这两个视频镜头之间在时序上相邻,可以理解的是,相邻视频镜头间能量运算因子即是上述视频镜头对应的视频能量运算因子,因此,可以衡量剪辑视频中两个相邻视频镜头之间衔接的兼容性。所述文本片段对应的所有视频镜头即是所有文本片段内对应的所有视频镜头,其中,每个文本片段内可以对应的至少一个视频镜头。可以理解的是,所述文本片段对应的所有视频镜头能量运算因子可以衡量文本片段内视频镜头是否满足用户自定义的视频效果属性。
该预设视频能量优化模型可以根据如下公式表示:
Figure BDA0002225597530000071
其中,L为所述文本包含的文本片段的文本片段数、l为L个文本片段中的第l个文本片段、
Figure BDA0002225597530000072
A=<A1,A2,…AL>、
Figure BDA0002225597530000073
Figure BDA0002225597530000074
中的第l个,为生成剪辑视频中第l个文本片段对应的视频镜头片段序列、Al为A中的第l个,为第l个文本片段对应的视频效果属性、
Figure BDA0002225597530000075
为所述预设视频能量优化模型、
Figure BDA0002225597530000076
为所述单一视频镜头能量运算因子、
Figure BDA0002225597530000077
为所述相邻视频镜头间能量运算因子、
Figure BDA0002225597530000078
为所述文本片段对应的所有视频镜头能量运算因子;所述视频镜头片段序列是根据所述候选视频素材得到的。即该视频镜头片段序列取自上述候选视频素材,这样就可以保证文本片段对应视频镜头都是符合文本语义的。
Figure BDA0002225597530000079
和A分别表示所有视频镜头片段序列和所有文本片段。
进一步地,所述根据所述候选视频素材、所述视频效果属性和预设视频能量优化模型,获取所有候选视频素材对应的优化视频剪辑序列,可以包括:
利用动态规划算法求解所述预设视频能量优化模型,以获取
Figure BDA0002225597530000081
的最优解
Figure BDA0002225597530000082
根据所述最优解
Figure BDA0002225597530000083
并利用回溯算法获取所述优化视频剪辑序列
Figure BDA0002225597530000084
该步骤方法的具体实现为本领域成熟技术,不再赘述。
本发明实施例提供的生成剪辑视频的方法,通过用户自定义的至少一个关键词确定候选视频素材,并根据候选视频素材、用户自定义的视频效果属性和预设视频能量优化模型,获取所有候选视频素材对应的优化视频剪辑序列,以自动生成剪辑视频,方便进行视频剪辑,且保证剪辑视频具有较好的播放效果。
在上述实施例的基础上,具体的,所述预设视频能量优化模型根据如下公式表示:
Figure BDA0002225597530000085
其中,L为所述文本包含的文本片段的文本片段数、l为L个文本片段中的第l个文本片段、
Figure BDA0002225597530000086
A=<A1,A2,…AL>、
Figure BDA0002225597530000087
Figure BDA0002225597530000088
中的第l个,为生成剪辑视频中第l个文本片段对应的视频镜头片段序列、Al为A中的第l个,为第l个文本片段对应的视频效果属性、
Figure BDA0002225597530000089
为所述预设视频能量优化模型、
Figure BDA00022255975300000810
为所述单一视频镜头能量运算因子、
Figure BDA00022255975300000811
为所述相邻视频镜头间能量运算因子、
Figure BDA00022255975300000812
为所述文本片段对应的所有视频镜头能量运算因子;所述视频镜头片段序列是根据所述候选视频素材得到的。可参照上述说明,不再赘述。
本发明实施例提供的生成剪辑视频的方法,通过具体公式表示预设视频能量优化模型,进一步保证剪辑视频具有较好的播放效果。
在上述实施例的基础上,所述根据所述候选视频素材、所述视频效果属性和预设视频能量优化模型,获取所有候选视频素材对应的优化视频剪辑序列,包括:
具体的,利用动态规划算法求解所述预设视频能量优化模型,以获取
Figure BDA00022255975300000813
的最优解
Figure BDA00022255975300000814
根据所述最优解
Figure BDA00022255975300000815
并利用回溯算法获取所述优化视频剪辑序列
Figure BDA00022255975300000816
可参照上述说明,不再赘述。
本发明实施例提供的生成剪辑视频的方法,通过动态规划算法和回溯算法获取优化视频剪辑序列,进一步保证剪辑视频具有较好的播放效果。
在上述实施例的基础上,具体的,所述单一视频镜头能量运算因子根据如下公式确定:
Figure BDA0002225597530000091
其中,
Figure BDA0002225597530000092
表示所述单一视频镜头能量运算因子、Fvsm(s)表示候选视频素材与语义匹配的准确程度、Fstab(s)表示视频内容运动的稳定程度、Ftone(s)表示视频色调的鲜艳程度、s为作为自变量的视频镜头片段序列、α1~α3为与Fvsm(s)、Fstab(s)和Ftone(s)分别对应权重系数。Fvsm(s)、Fstab(s)和Ftone(s)这几项都可以由现有方法计算得到,它们的值越大表示程度越强。α1~α3可以根据实际情况自主设置,可分别选为1.0、0.3和0.3。
本发明实施例提供的生成剪辑视频的方法,通过具体公式确定单一视频镜头能量运算因子,基于候选视频素材与语义匹配的准确程度、视频内容运动的稳定程度和视频色调的鲜艳程度三个维度,进一步保证剪辑视频具有较好的播放效果。
在上述实施例的基础上,具体的,所述相邻视频镜头间能量运算因子根据如下公式确定:
Figure BDA0002225597530000093
其中,
Figure BDA0002225597530000094
表示所述相邻视频镜头间能量运算因子、FOM(s,s′)表示镜头是否反向移动,可以用1表示是,0表示否、FJC(s,s′)表示镜头是否跳切,可以用1表示是,0表示否、FTC(s,s′)表示视频色调变化的平滑程度,越大则越平滑、s为作为自变量的视频镜头片段序列、s′为与s相邻的作为自变量的视频镜头片段序列、β1~β3为与FOM(s,s′)、FJC(s,s′)和FTC(s,s′)分别对应权重系数、|C|为镜头跳切的次数。FOM(s,s′)、FJC(s,s′)和FTC(s,s′)这几项都可以由现有方法计算得到,β1~β3可以根据实际情况自主设置,可全部选为-1.0。
本发明实施例提供的生成剪辑视频的方法,通过具体公式确定相邻视频镜头间能量运算因子,基于镜头是否反向移动、镜头是否跳切和视频色调变化的平滑程度三个维度,进一步保证剪辑视频具有较好的播放效果。
在上述实施例的基础上,具体的,所述文本片段对应的所有视频镜头能量运算因子根据如下公式确定:
Figure BDA0002225597530000101
其中,
Figure BDA0002225597530000102
表示所述文本片段对应的所有视频镜头能量运算因子、
Figure BDA0002225597530000103
表示第l个文本片段内视频镜头片段序列与视频配音序列间的一致性、
Figure BDA0002225597530000104
表示第l个文本片段内视频内容运动的剧烈程度的一致性、
Figure BDA0002225597530000105
表示第l个文本片段内视频衔接数量的一致性、λ1~λ3为与
Figure BDA0002225597530000106
Figure BDA0002225597530000107
Figure BDA0002225597530000108
分别对应权重系数、其中,所述视频配音序列是根据与第l个视频镜头片段序列相对应的第l个文本片段获得的。
Figure BDA0002225597530000109
Figure BDA00022255975300001010
Figure BDA00022255975300001011
这几项都可以由现有方法计算得到,越一致则其值越大,λ1~λ3可以根据实际情况自主设置,可分别选为-1.0、-3.0和-3.0。需要说明的是,可使用现有TTS(即从文本到语音)方法生成文本对应的音频,并作为背景声音,以将背景声音作为上述视频配音序列。
本发明实施例提供的生成剪辑视频的方法,通过具体公式确定所述文本片段对应的所有视频镜头能量运算因子,基于视频镜头片段序列与视频配音序列间的一致性、视频内容运动的剧烈程度的一致性和视频衔接数量的一致性三个维度,进一步保证剪辑视频具有较好的播放效果。
在上述实施例的基础上,所述在所述视频素材库中确定与所述文本片段的语义相对应的候选视频素材,包括:
具体的,根据相似度算法在所述视频素材库中确定与所述文本片段的语义相对应的候选视频素材。可参照上述说明,不再赘述。
本发明实施例提供的生成剪辑视频的方法,进一步保证候选视频素材确定的准确性,进而保证剪辑视频与文本的语义相关性,使得剪辑视频更符合用户的喜好。
图2为本发明生成剪辑视频的装置实施例结构示意图,如图2所示,本发明实施例提供了一种生成剪辑视频的装置,包括第一确定单元201、第二确定单元202和生成单元203,其中:
第一确定单元201,用于确定与特定主题相关的文本和视频素材库,所述文本包含至少一个文本片段,所述文本片段包含用户自定义的视频效果属性和至少一个关键词;第二确定单元202,用于在所述视频素材库中确定与所述文本片段的语义相对应的候选视频素材;生成单元203,用于根据所述候选视频素材、所述视频效果属性和预设视频能量优化模型,获取所有候选视频素材对应的优化视频剪辑序列,并根据所述优化视频剪辑序列生成剪辑视频;其中,所述预设视频能量优化模型包括单一视频镜头能量运算因子、相邻视频镜头间能量运算因子和所述文本片段对应的所有视频镜头能量运算因子。
具体的,第一确定单元201,用于确定与特定主题相关的文本和视频素材库,所述文本包含至少一个文本片段,所述文本片段包含用户自定义的视频效果属性和至少一个关键词;第二确定单元202,用于在所述视频素材库中确定与所述文本片段的语义相对应的候选视频素材;生成单元203,用于根据所述候选视频素材、所述视频效果属性和预设视频能量优化模型,获取所有候选视频素材对应的优化视频剪辑序列,并根据所述优化视频剪辑序列生成剪辑视频;其中,所述预设视频能量优化模型包括单一视频镜头能量运算因子、相邻视频镜头间能量运算因子和所述文本片段对应的所有视频镜头能量运算因子。
本发明实施例提供的生成剪辑视频的装置,通过用户自定义的至少一个关键词确定候选视频素材,并根据候选视频素材、用户自定义的视频效果属性和预设视频能量优化模型,获取所有候选视频素材对应的优化视频剪辑序列,以自动生成剪辑视频,方便进行视频剪辑,且保证剪辑视频具有较好的播放效果。
本发明实施例提供的生成剪辑视频的装置具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
图3为本发明实施例提供的电子设备实体结构示意图,如图3所示,所述电子设备包括:处理器(processor)301、存储器(memory)302和总线303;
其中,所述处理器301、存储器302通过总线303完成相互间的通信;
所述处理器301用于调用所述存储器302中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:确定与特定主题相关的文本和视频素材库,所述文本包含至少一个文本片段,所述文本片段包含用户自定义的视频效果属性和至少一个关键词;在所述视频素材库中确定与所述文本片段的语义相对应的候选视频素材;根据所述候选视频素材、所述视频效果属性和预设视频能量优化模型,获取所有候选视频素材对应的优化视频剪辑序列,并根据所述优化视频剪辑序列生成剪辑视频;其中,所述预设视频能量优化模型包括单一视频镜头能量运算因子、相邻视频镜头间能量运算因子和所述文本片段对应的所有视频镜头能量运算因子。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:确定与特定主题相关的文本和视频素材库,所述文本包含至少一个文本片段,所述文本片段包含用户自定义的视频效果属性和至少一个关键词;在所述视频素材库中确定与所述文本片段的语义相对应的候选视频素材;根据所述候选视频素材、所述视频效果属性和预设视频能量优化模型,获取所有候选视频素材对应的优化视频剪辑序列,并根据所述优化视频剪辑序列生成剪辑视频;其中,所述预设视频能量优化模型包括单一视频镜头能量运算因子、相邻视频镜头间能量运算因子和所述文本片段对应的所有视频镜头能量运算因子。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:确定与特定主题相关的文本和视频素材库,所述文本包含至少一个文本片段,所述文本片段包含用户自定义的视频效果属性和至少一个关键词;在所述视频素材库中确定与所述文本片段的语义相对应的候选视频素材;根据所述候选视频素材、所述视频效果属性和预设视频能量优化模型,获取所有候选视频素材对应的优化视频剪辑序列,并根据所述优化视频剪辑序列生成剪辑视频;其中,所述预设视频能量优化模型包括单一视频镜头能量运算因子、相邻视频镜头间能量运算因子和所述文本片段对应的所有视频镜头能量运算因子。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种生成剪辑视频的方法,其特征在于,包括:
确定与特定主题相关的文本和视频素材库,所述文本包含至少一个文本片段,所述文本片段包含用户自定义的视频效果属性和至少一个关键词;
在所述视频素材库中确定与所述文本片段的语义相对应的候选视频素材;
根据所述候选视频素材、所述视频效果属性和预设视频能量优化模型,获取所有候选视频素材对应的优化视频剪辑序列,并根据所述优化视频剪辑序列生成剪辑视频;其中,所述预设视频能量优化模型包括单一视频镜头能量运算因子、相邻视频镜头间能量运算因子和所述文本片段对应的所有视频镜头能量运算因子;
其中,所述预设视频能量优化模型根据如下公式表示:
Figure FDA0002747327720000011
其中,L为所述文本包含的文本片段的文本片段数、l为L个文本片段中的第l个文本片段、
Figure FDA0002747327720000012
A=<A1,A2,…AL>、
Figure FDA0002747327720000013
Figure FDA0002747327720000014
中的第l个,为生成剪辑视频中第l个文本片段对应的视频镜头片段序列、Al为A中的第l个,为第l个文本片段对应的视频效果属性、
Figure FDA0002747327720000015
为所述预设视频能量优化模型、
Figure FDA0002747327720000016
为所述单一视频镜头能量运算因子、
Figure FDA0002747327720000017
为所述相邻视频镜头间能量运算因子、
Figure FDA0002747327720000018
为所述文本片段对应的所有视频镜头能量运算因子;所述视频镜头片段序列是根据所述候选视频素材得到的;
其中,所述单一视频镜头能量运算因子根据如下公式确定:
Figure FDA0002747327720000019
其中,
Figure FDA00027473277200000110
表示所述单一视频镜头能量运算因子、Fvsm(s)表示候选视频素材与语义匹配的准确程度、Fstab(s)表示视频内容运动的稳定程度、Ftone(s)表示视频色调的鲜艳程度、s为作为自变量的视频镜头片段序列、α1~α3为与Fvsm(s)、Fstab(s)和Ftone(s)分别对应权重系数;
其中,所述相邻视频镜头间能量运算因子根据如下公式确定:
Figure FDA0002747327720000021
其中,
Figure FDA0002747327720000022
表示所述相邻视频镜头间能量运算因子、FOM(s,s′)表示镜头是否反向移动、FJC(s,s′)表示镜头是否跳切、FTC(s,s′)表示视频色调变化的平滑程度、s为作为自变量的视频镜头片段序列、s′为与s相邻的作为自变量的视频镜头片段序列、β1~β3为与FOM(s,s′)、FJC(s,s′)和FTC(s,s′)分别对应权重系数、|C|为镜头跳切的次数;
其中,所述文本片段对应的所有视频镜头能量运算因子根据如下公式确定:
Figure FDA0002747327720000023
其中,
Figure FDA0002747327720000024
表示所述文本片段对应的所有视频镜头能量运算因子、
Figure FDA0002747327720000025
表示第l个文本片段内视频镜头片段序列与视频配音序列间的一致性、
Figure FDA0002747327720000026
表示第l个文本片段内视频内容运动的剧烈程度的一致性、
Figure FDA0002747327720000027
表示第l个文本片段内视频衔接数量的一致性、λ1~λ3为与
Figure FDA0002747327720000028
Figure FDA0002747327720000029
Figure FDA00027473277200000210
分别对应权重系数、其中,所述视频配音序列是根据与第l个视频镜头片段序列相对应的第l个文本片段获得的。
2.根据权利要求1所述的生成剪辑视频的方法,其特征在于,所述根据所述候选视频素材、所述视频效果属性和预设视频能量优化模型,获取所有候选视频素材对应的优化视频剪辑序列,包括:
利用动态规划算法求解所述预设视频能量优化模型,以获取
Figure FDA00027473277200000211
的最优解
Figure FDA00027473277200000212
根据所述最优解
Figure FDA00027473277200000213
并利用回溯算法获取所述优化视频剪辑序列
Figure FDA00027473277200000214
3.根据权利要求1或2所述的生成剪辑视频的方法,其特征在于,所述在所述视频素材库中确定与所述文本片段的语义相对应的候选视频素材,包括:
根据相似度算法在所述视频素材库中确定与所述文本片段的语义相对应的候选视频素材。
4.一种生成剪辑视频的装置,其特征在于,包括:
第一确定单元,用于确定与特定主题相关的文本和视频素材库,所述文本包含至少一个文本片段,所述文本片段包含用户自定义的视频效果属性和至少一个关键词;
第二确定单元,用于在所述视频素材库中确定与所述文本片段的语义相对应的候选视频素材;
生成单元,用于根据所述候选视频素材、所述视频效果属性和预设视频能量优化模型,获取所有候选视频素材对应的优化视频剪辑序列,并根据所述优化视频剪辑序列生成剪辑视频;其中,所述预设视频能量优化模型包括单一视频镜头能量运算因子、相邻视频镜头间能量运算因子和所述文本片段对应的所有视频镜头能量运算因子;
其中,所述预设视频能量优化模型根据如下公式表示:
Figure FDA0002747327720000031
其中,L为所述文本包含的文本片段的文本片段数、l为L个文本片段中的第l个文本片段、
Figure FDA0002747327720000032
A=<A1,A2,…AL>、
Figure FDA0002747327720000033
Figure FDA0002747327720000034
中的第l个,为生成剪辑视频中第l个文本片段对应的视频镜头片段序列、Al为A中的第l个,为第l个文本片段对应的视频效果属性、
Figure FDA0002747327720000035
为所述预设视频能量优化模型、
Figure FDA0002747327720000036
为所述单一视频镜头能量运算因子、
Figure FDA0002747327720000037
为所述相邻视频镜头间能量运算因子、
Figure FDA0002747327720000038
为所述文本片段对应的所有视频镜头能量运算因子;所述视频镜头片段序列是根据所述候选视频素材得到的;
其中,所述单一视频镜头能量运算因子根据如下公式确定:
Figure FDA0002747327720000039
其中,
Figure FDA00027473277200000310
表示所述单一视频镜头能量运算因子、Fvsm(s)表示候选视频素材与语义匹配的准确程度、Fstab(s)表示视频内容运动的稳定程度、Ftone(s)表示视频色调的鲜艳程度、s为作为自变量的视频镜头片段序列、α1~α3为与Fvsm(s)、Fstab(s)和Ftone(s)分别对应权重系数;
其中,所述相邻视频镜头间能量运算因子根据如下公式确定:
Figure FDA0002747327720000041
其中,
Figure FDA0002747327720000042
表示所述相邻视频镜头间能量运算因子、FOM(s,s′)表示镜头是否反向移动、FJC(s,s′)表示镜头是否跳切、FTC(s,s′)表示视频色调变化的平滑程度、s为作为自变量的视频镜头片段序列、s′为与s相邻的作为自变量的视频镜头片段序列、β1~β3为与FOM(s,s′)、FJC(s,s′)和FTC(s,s′)分别对应权重系数、|C|为镜头跳切的次数;
其中,所述文本片段对应的所有视频镜头能量运算因子根据如下公式确定:
Figure FDA0002747327720000043
其中,
Figure FDA0002747327720000044
表示所述文本片段对应的所有视频镜头能量运算因子、
Figure FDA0002747327720000045
表示第l个文本片段内视频镜头片段序列与视频配音序列间的一致性、
Figure FDA0002747327720000046
表示第l个文本片段内视频内容运动的剧烈程度的一致性、
Figure FDA0002747327720000047
表示第l个文本片段内视频衔接数量的一致性、λ1~λ3为与
Figure FDA0002747327720000048
Figure FDA0002747327720000049
Figure FDA00027473277200000410
分别对应权重系数、其中,所述视频配音序列是根据与第l个视频镜头片段序列相对应的第l个文本片段获得的。
5.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述方法的步骤。
6.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述方法的步骤。
CN201910950805.5A 2019-10-08 2019-10-08 一种生成剪辑视频的方法及装置 Active CN110996017B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910950805.5A CN110996017B (zh) 2019-10-08 2019-10-08 一种生成剪辑视频的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910950805.5A CN110996017B (zh) 2019-10-08 2019-10-08 一种生成剪辑视频的方法及装置

Publications (2)

Publication Number Publication Date
CN110996017A CN110996017A (zh) 2020-04-10
CN110996017B true CN110996017B (zh) 2020-12-15

Family

ID=70081893

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910950805.5A Active CN110996017B (zh) 2019-10-08 2019-10-08 一种生成剪辑视频的方法及装置

Country Status (1)

Country Link
CN (1) CN110996017B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111541946A (zh) * 2020-07-10 2020-08-14 成都品果科技有限公司 一种基于素材进行资源匹配的视频自动生成方法及系统
CN112004163A (zh) * 2020-08-31 2020-11-27 北京市商汤科技开发有限公司 视频生成方法及装置、电子设备和存储介质
CN112423023A (zh) * 2020-12-09 2021-02-26 珠海九松科技有限公司 一种智能化视频自动混剪的方法
CN113190712B (zh) * 2021-04-02 2024-05-03 深圳市福田区吨吨文化工作室 一种基于大数据和机器学习算法创作短视频的系统和方法
CN115442539B (zh) * 2021-06-04 2023-11-07 北京字跳网络技术有限公司 一种视频编辑方法、装置、设备及存储介质
CN113923475B (zh) * 2021-09-30 2023-04-14 宿迁硅基智能科技有限公司 一种视频合成方法及视频合成器

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6404978B1 (en) * 1998-04-03 2002-06-11 Sony Corporation Apparatus for creating a visual edit decision list wherein audio and video displays are synchronized with corresponding textual data
CN108924626A (zh) * 2018-08-17 2018-11-30 腾讯科技(深圳)有限公司 图片生成方法、装置、设备及存储介质
CN109145152A (zh) * 2018-06-28 2019-01-04 中山大学 一种基于查询词的自适应智能生成图文视频缩略图方法
CN109756751A (zh) * 2017-11-07 2019-05-14 腾讯科技(深圳)有限公司 多媒体数据处理方法及装置、电子设备、存储介质
CN209089103U (zh) * 2018-09-11 2019-07-09 科大讯飞股份有限公司 一种编辑系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10595098B2 (en) * 2018-01-09 2020-03-17 Nbcuniversal Media, Llc Derivative media content systems and methods

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6404978B1 (en) * 1998-04-03 2002-06-11 Sony Corporation Apparatus for creating a visual edit decision list wherein audio and video displays are synchronized with corresponding textual data
CN109756751A (zh) * 2017-11-07 2019-05-14 腾讯科技(深圳)有限公司 多媒体数据处理方法及装置、电子设备、存储介质
CN109145152A (zh) * 2018-06-28 2019-01-04 中山大学 一种基于查询词的自适应智能生成图文视频缩略图方法
CN108924626A (zh) * 2018-08-17 2018-11-30 腾讯科技(深圳)有限公司 图片生成方法、装置、设备及存储介质
CN209089103U (zh) * 2018-09-11 2019-07-09 科大讯飞股份有限公司 一种编辑系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《Example-Guided Style-Consistent Image Synthesis from Semantic Labeling》;Miao Wang et al.;《CVPR 2019 Code and data Computer Vision and Pattern Recognition》;20190628;1-15 *

Also Published As

Publication number Publication date
CN110996017A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
CN110996017B (zh) 一种生成剪辑视频的方法及装置
Wang et al. Write-a-video: computational video montage from themed text.
KR102444712B1 (ko) 다중-모달리티 특징 융합을 통한 퍼스널 미디어 자동 재창작 시스템 및 그 동작 방법
US11886494B2 (en) Utilizing natural language processing automatically select objects in images
JP7150778B2 (ja) 音声スキルゲームの編集方法、装置、機器及び読み取り可能な記憶媒体
US9454838B2 (en) Multi-character authoring interface for large scale animations
KR20210110620A (ko) 상호작용 방법, 장치, 전자 장치 및 저장 매체
JP7047087B2 (ja) ビデオコンテンツを特徴付けるための深層強化学習フレームワーク
US20200251089A1 (en) Contextually generated computer speech
US20140328570A1 (en) Identifying, describing, and sharing salient events in images and videos
CN112511854B (zh) 一种直播视频精彩片段生成方法、装置、介质和设备
US10818058B1 (en) Analyzing digital image modifications to generate, publish, and present digital image-editing tutorials
US12027155B2 (en) Automatically adding sound effects into audio files
CN105427865A (zh) 基于人工智能的智能机器人的语音控制系统以及方法
US20220408131A1 (en) Image analysis system
CN111125384B (zh) 一种多媒体答案生成方法、装置、终端设备以及存储介质
JP6492849B2 (ja) ユーザプロファイル作成装置、動画像分析装置、動画像再生装置、及びユーザプロファイル作成プログラム
Liu et al. Controlllm: Augment language models with tools by searching on graphs
Wang et al. LAVE: LLM-Powered Agent Assistance and Language Augmentation for Video Editing
US20100066862A1 (en) Apparatus and method of controlling camera work based on direction rule
CN117633190A (zh) 问答对的生成方法、计算机设备及存储介质
CN117494814A (zh) 提示词全生命周期管理方法、系统、电子设备、存储介质
CN117177024A (zh) 视频配音方法和相关装置、电子设备及存储介质
CN115442540B (zh) 音乐视频生成方法、装置、计算机设备及存储介质
CN116127003A (zh) 文本处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant