CN115361594A

CN115361594A - 卡点视频生成方法、装置、电子设备及存储介质

Info

Publication number: CN115361594A
Application number: CN202210835909.3A
Authority: CN
Inventors: 王鹏
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2022-11-18
Also published as: US20240022685A1

Abstract

本公开关于一种卡点视频生成方法、装置、电子设备及存储介质，该方法包括获取待处理视频和预设音乐；确定预设音乐中的至少一个目标节奏点；对待处理视频进行关键动作识别，得到待处理视频中的至少一个关键动作图像；基于对待处理视频的变速调整，将至少一个关键动作图像与至少一个目标节奏点对应的时间对齐，得到待处理视频对应的变速视频；基于变速视频和预设音乐，生成目标卡点视频。利用本公开实施例可以在大大提升视频制作的便利性和效率的基础上，有效提升卡点节奏点与卡点视频图像间的适配性和卡点效果。

Description

卡点视频生成方法、装置、电子设备及存储介质

技术领域

本公开涉及互联网技术领域，尤其涉及一种卡点视频生成方法、装置、电子设备及存储介质。

背景技术

随着移动互联网的迅速发展，卡点视频的出现受到了越来越多人的喜爱。卡点视频生成技术是指生成画面与音乐的节奏相匹配的视频，从而使得画面在音乐的节奏点进行顺滑切换的视频技术。

相关技术中，在进行卡点视频制作时，常常需要用户对音乐的节奏点进行打点标记，然后，再对视频中需要卡点的视频图像进行标记，最后，通过手动调整视频的速率的方式将音乐节奏点和视频中相应视频图像进行卡点对齐。但上述相关技术中，卡点的节奏点和视频图像的选择均是用户手动设置的，不仅存在视频制作繁琐、效率较低的问题，还存在因不同用户的视频制作能力参差不齐，带来的卡点节奏点与视频图像不适配、卡点效果较差等问题。

发明内容

本公开提供一种卡点视频生成方法、装置、电子设备及存储介质，以至少解决相关技术中视频制作繁琐、效率较低，以及卡点节奏点与视频图像不适配、卡点效果较差等问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种卡点视频生成方法，包括：

获取待处理视频和预设音乐；

确定所述预设音乐中的至少一个目标节奏点；

对所述待处理视频进行关键动作识别，得到所述待处理视频中的至少一个关键动作图像；

基于对所述待处理视频的变速调整，将所述至少一个关键动作图像与所述至少一个目标节奏点对应的时间对齐，得到所述待处理视频对应的变速视频；

基于所述变速视频和所述预设音乐，生成目标卡点视频。

在一个可选的实施例中，所述变速视频包括所述待处理视频中多个视频片段各自对应的变速视频片段；所述基于对所述待处理视频的变速调整，将所述至少一个关键动作图像与所述至少一个目标节奏点对应的时间对齐，得到所述待处理视频对应的变速视频包括：

确定所述至少一个关键动作图像在所述待处理视频中的第一时序顺序和所述至少一个目标节奏点在所述预设音乐中的第二时序顺序；

基于所述第一时序顺序和所述第二时序顺序，从所述至少一个关键动作图像和所述至少一个目标节奏点中，确定至少一个节奏点图像组，任一节奏点图像组包括一一对应的目标节奏点和关键动作图像；

确定至少一个节奏点图像组中关键动作图像在所述待处理视频中的时间信息；

基于所述时间信息，对所述待处理视频进行分割处理，得到所述多个视频片段；每个视频片段包括一个关键动作图像；

基于对所述多个视频片段的变速调整，将所述至少一个节奏点图像组中目标节奏点和关键动作图对应的时间对齐，得到所述多个视频片段各自对应的变速视频片段。

在一个可选的实施例中，所述基于对所述多个视频片段的变速调整，将所述至少一个节奏点图像组中目标节奏点和关键动作图对应的时间对齐，得到所述多个视频片段各自对应的变速视频片段包括：

确定所述至少一个节奏点图像组中目标节奏点对应的音乐时长和至少一个节奏点图像组中关键动作图像所在视频片段的视频时长；

基于所述音乐时长和所述视频时长，确定所述多个视频片段各自对应的变速速率；

基于所述变速速率，对所述多个视频片段进行变速调整，得到所述多个视频片段各自对应的变速视频片段。

在一个可选的实施例中，所述基于所述变速速率，对所述多个视频片段进行变速调整，得到所述多个视频片段各自对应的变速视频片段包括：

基于所述变速速率，生成所述多个视频片段对应的初始变速曲线；

对所述初始变速曲线进行平滑处理，得到所述多个视频片段对应的目标变速曲线；

基于所述目标变速曲线，对所述多个视频片段进行变速调整，得到所述多个视频片段各自对应的变速视频片段。

在一个可选的实施例中，在所述至少一个目标节奏点的第一数量小于所述至少一个关键动作图像的第二数量的情况下，所述至少一个节奏点图像组为所述第一数量个节奏点图像组；所述方法还包括：

根据所述第一时序顺序，从所述至少一个关键动作图像中，筛选出时序靠前的所述第一数量个关键动作图像；

所述基于所述第一时序顺序和所述第二时序顺序，从所述至少一个关键动作图像和所述至少一个目标节奏点中，确定至少一个节奏点图像组包括：

根据所述第一时序顺序和所述第二时序顺序，对所述第一数量个关键动作图像和所述第一数量个目标节奏点进行分组处理，得到所述第一数量个节奏点图像组。

对所述第二数量个关键动作图像进行动作分析，得到动作分析结果，所述动作分析结果表征所述第二数量个关键动作图像对应的动作精彩程度；

基于所述动作分析结果，对所述第二数量个关键动作图像进行过滤，得到所述第一数量个关键动作图像；

在一个可选的实施例中，在所述至少一个目标节奏点的第一数量大于所述至少一个关键动作图像的第二数量的情况下，所述至少一个节奏点图像组为所述第二数量个节奏点图像组；所述方法还包括：

根据所述第二时序顺序，从所述至少一个目标节奏点中，筛选出时序靠前的所述第二数量个目标节奏点；

根据所述第一时序顺序和所述第二时序顺序，对所述第二数量个关键动作图像和所述第二数量个目标节奏点进行分组处理，得到所述第二数量个节奏点图像组。

在一个可选的实施例中，所述预设音乐为包括预设节奏标记的模板音乐，所述确定所述预设音乐中的至少一个目标节奏点包括：

基于所述预设节奏标记，确定所述至少一个目标节奏点。

在一个可选的实施例中，所述确定所述预设音乐中的至少一个目标节奏点包括：

获取所述预设音乐对应的能量波形，所述能量波形表征所述预设音乐的响度信息；

基于所述能量波形，确定所述至少一个目标节奏点。

在一个可选的实施例中，所述方法还包括：

展示所述能量波形，所述能量波形包括所述至少一个目标节奏点对应的标记信息；

响应于针对任一目标节奏点对应的标记信息的更新指令，更新所述至少一个目标节奏点中所述更新指令对应的目标节奏点。

在一个可选的实施例中，所述对所述待处理视频进行关键动作识别，得到所述待处理视频中的至少一个关键动作图像包括：

获取所述待处理视频中的多帧视频图像；

提取所述多帧视频图像中运动对象对应的对象区域图像；

对所述对象区域图像进行动作特征提取，得到所述多帧视频图像对应的多个动作特征信息；

基于所述多个动作特征信息，从所述多帧视频图像中，确定所述至少一个关键动作图像。

根据本公开实施例的第二方面，提供一种卡点视频生成装置，包括：

数据获取模块，被配置为执行获取待处理视频和预设音乐；

目标节奏点确定模块，被配置为执行确定所述预设音乐中的至少一个目标节奏点；

关键动作识别模块，被配置为执行对所述待处理视频进行关键动作识别，得到所述待处理视频中的至少一个关键动作图像；

变速调整模块，被配置为执行基于对所述待处理视频的变速调整，将所述至少一个关键动作图像与所述至少一个目标节奏点对应的时间对齐，得到所述待处理视频对应的变速视频；

目标卡点视频生成模块，被配置为执行基于所述变速视频和所述预设音乐，生成目标卡点视频。

在一个可选的实施例中，所述变速视频包括所述待处理视频中多个视频片段各自对应的变速视频片段；所述变速调整模块包括：

时序顺序确定单元，被配置为执行确定所述至少一个关键动作图像在所述待处理视频中的第一时序顺序和所述至少一个目标节奏点在所述预设音乐中的第二时序顺序；

节奏点图像组确定单元，被配置为执行基于所述第一时序顺序和所述第二时序顺序，从所述至少一个关键动作图像和所述至少一个目标节奏点中，确定至少一个节奏点图像组，任一节奏点图像组包括一一对应的目标节奏点和关键动作图像；

时间信息确定单元，被配置为执行确定至少一个节奏点图像组中关键动作图像在所述待处理视频中的时间信息；

视频分割处理单元，被配置为执行基于所述时间信息，对所述待处理视频进行分割处理，得到所述多个视频片段；每个视频片段包括一个关键动作图像；

变速调整单元，被配置为执行基于对所述多个视频片段的变速调整，将所述至少一个节奏点图像组中目标节奏点和关键动作图对应的时间对齐，得到所述多个视频片段各自对应的变速视频片段。

在一个可选的实施例中，所述变速调整单元包括：

时长确定单元，被配置为执行确定所述至少一个节奏点图像组中目标节奏点对应的音乐时长和至少一个节奏点图像组中关键动作图像所在视频片段的视频时长；

变速速率确定单元，被配置为执行基于所述音乐时长和所述视频时长，确定所述多个视频片段各自对应的变速速率；

第一变速调整子单元，被配置为执行基于所述变速速率，对所述多个视频片段进行变速调整，得到所述多个视频片段各自对应的变速视频片段。

在一个可选的实施例中，所述第一变速调整子单元包括：

初始变速曲线生成单元，被配置为执行基于所述变速速率，生成所述多个视频片段对应的初始变速曲线；

平滑处理单元，被配置为执行对所述初始变速曲线进行平滑处理，得到所述多个视频片段对应的目标变速曲线；

第二变速调整子单元单元，被配置为执行基于所述目标变速曲线，对所述多个视频片段进行变速调整，得到所述多个视频片段各自对应的变速视频片段。

在一个可选的实施例中，在所述至少一个目标节奏点的第一数量小于所述至少一个关键动作图像的第二数量的情况下，所述至少一个节奏点图像组为所述第一数量个节奏点图像组；所述装置还包括：

关键动作图像筛选模块，被配置为执行根据所述第一时序顺序，从所述至少一个关键动作图像中，筛选出时序靠前的所述第一数量个关键动作图像；

所述节奏点图像组确定单元具体被配置为执行根据所述第一时序顺序和所述第二时序顺序，对所述第一数量个关键动作图像和所述第一数量个目标节奏点进行分组处理，得到所述第一数量个节奏点图像组。

动作分析模块，被配置为执行对所述第二数量个关键动作图像进行动作分析，得到动作分析结果，所述动作分析结果表征所述第二数量个关键动作图像对应的动作精彩程度；

关键动作图像过滤模块，被配置为执行基于所述动作分析结果，对所述第二数量个关键动作图像进行过滤，得到所述第一数量个关键动作图像；

在一个可选的实施例中，在所述至少一个目标节奏点的第一数量大于所述至少一个关键动作图像的第二数量的情况下，所述至少一个节奏点图像组为所述第二数量个节奏点图像组；所述装置还包括：

目标节奏点筛选模块，被配置为执行根据所述第二时序顺序，从所述至少一个目标节奏点中，筛选出时序靠前的所述第二数量个目标节奏点；

所述节奏点图像组确定单元具体被配置为执行根据所述第一时序顺序和所述第二时序顺序，对所述第二数量个关键动作图像和所述第二数量个目标节奏点进行分组处理，得到所述第二数量个节奏点图像组。

在一个可选的实施例中，所述预设音乐为包括预设节奏标记的模板音乐，所述目标节奏点确定模块包括：

第一目标节奏点确定单元，被配置为执行基于所述预设节奏标记，确定所述至少一个目标节奏点。

在一个可选的实施例中，所述目标节奏点确定模块包括：

能量波形获取单元，被配置为执行获取所述预设音乐对应的能量波形，所述能量波形表征所述预设音乐的响度信息；

第二目标节奏点确定单元，被配置为执行基于所述能量波形，确定所述至少一个目标节奏点。

在一个可选的实施例中，所述装置还包括：

能量波形展示单元，被配置为执行展示所述能量波形，所述能量波形包括所述至少一个目标节奏点对应的标记信息；

目标节奏点更新单元，被配置为执行响应于针对任一目标节奏点对应的标记信息的更新指令，更新所述至少一个目标节奏点中所述更新指令对应的目标节奏点。

在一个可选的实施例中，所述关键动作识别模块包括：

多帧视频图像获取单元，被配置为执行获取所述待处理视频中的多帧视频图像；

对象区域图像提取单元，被配置为执行提取所述多帧视频图像中运动对象对应的对象区域图像；

动作特征提取单元，被配置为执行对所述对象区域图像进行动作特征提取，得到所述多帧视频图像对应的多个动作特征信息；

关键动作图像确定单元，被配置为执行基于所述多个动作特征信息，从所述多帧视频图像中，确定所述至少一个关键动作图像。

根据本公开实施例的第三方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如上述第一方面中任一项所述的方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行本公开实施例的第一方面中任一项所述方法。

根据本公开实施例的第五方面，提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本公开实施例的第一方面中任一项所述方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

在卡点视频生成过程中，通过自动确定预设音乐中的目标节奏点；以及通过对待处理视频的关键动作识别，将自动识别出的待处理视频中的至少一个关键动作图像，作为用于卡点的视频图像，大大提升了视频制作的便利性，且有效提升卡点节奏点与卡点视频图像间的适配性；接着，基于对待处理视频的变速调整，将至少一个关键动作图像与至少一个目标节奏点对应的时间对齐，并基于变速视频和预设音乐，生成目标卡点视频，可以在提升卡点视频制作效率的基础上，有效提升卡点效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种应用环境的示意图；

图2是根据一示例性实施例示出的一种卡点视频生成方法的流程图；

图3是根据一示例性实施例示出的一种对待处理视频进行关键动作识别，得到待处理视频中的至少一个关键动作图像的流程图；

图4是根据一示例性实施例示出的一种基于对待处理视频的变速调整，将至少一个关键动作图像与至少一个目标节奏点对应的时间对齐，得到待处理视频对应的变速视频的流程意图；

图5是根据一示例性实施例示出的一种基于对多个视频片段的变速调整，将至少一个节奏点图像组中目标节奏点和关键动作图对应的时间对齐，得到多个视频片段各自对应的变速视频片段的流程图；

图6是根据一示例性实施例示出的一种卡点视频生成装置框图；

图7是根据一示例性实施例示出的一种用于卡点视频生成的电子设备的框图；

图8是根据一示例性实施例示出的一种用于卡点视频生成的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

需要说明的是，本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

请参阅图1，图1是根据一示例性实施例示出的一种应用环境的示意图，该应用环境可以包括终端100和服务器200。

在一个可选的实施例中，终端100可以用于面向任一用户提供编辑创建视频的服务。具体的，终端100可以包括但不限于智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、增强现实(augmentedreality，AR)/虚拟现实(virtual reality，VR)设备、智能可穿戴设备等类型的电子设备，也可以为运行于上述电子设备的软体，例如应用程序等。可选的，电子设备上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。

在一个可选的实施例中，服务器200可以为终端100提供后台服务。具体的，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。

此外，需要说明的是，图1所示的仅仅是本公开提供的一种应用环境，在实际应用中，还可以包括其他应用环境。

本说明书实施例中，上述终端100以及服务器200可以通过有线或无线通信方式进行直接或间接地连接，本公开在此不做限制。

图2是根据一示例性实施例示出的一种卡点视频生成方法的流程图，如图2所示，该卡点视频生成方法可以用于终端或服务器等电子设备中，包括以下步骤。

在步骤S201中，获取待处理视频和预设音乐。

在一个具体的实施例中，待处理视频可以为包括运动对象的视频。可选的，该运动对象可以为人、动物等。具体的，预设音乐可以为需要与待处理视频合成的音乐。

在实际应用中，终端可以提供视频编辑页面，相应的，用户可以基于该视频编辑页面导入预先采集的待处理视频。可选的，预设音乐可以为用户导入的预先采集的音乐，相应的，用户可以通过视频编辑页面导入预设音乐；可选的，预设音乐可以为用户从视频编辑平台提供的大量模板音乐中选定的某一模板音乐；相应的，用户可以在展示有大量模板音乐的页面中选定某一模板音乐，以便将该选定的模板音乐导入到视频编辑页面。具体的，模板音乐可以包括预设节奏标记。该预设节奏标记可以为预先设置的。

在步骤S203中，确定预设音乐中的至少一个目标节奏点。

在一个可选的实施例中，在用户导入待处理视频和预设音乐之后，可以自动触发卡点视频生成流程的执行，也可以在用户导入待处理视频和预设音乐的情况下，由用户触发卡点视频生成指令，进而进行卡点视频生成流程的执行。

在一个可选的实施例中，上述确定预设音乐中的至少一个目标节奏点可以包括：

获取预设音乐对应的能量波形；

基于能量波形，确定至少一个目标节奏点。

在一个具体的实施例中，上述能量波形可以表征预设音乐的响度信息；具体的，可以将能量波形中波峰对应的点作为至少一个目标节奏点。相应的，至少一个目标节奏点可以为预设音乐对应能量波形中波峰对应的点。

上述实施例中，通过获取表征预设音乐的响度信息的能量波形，可以快速自动识别出预设音乐中的至少一个目标节奏点，大大提升用于卡点的目标节奏点的识别效率和精准性。

在一个可选的实施例中，上述方法还可以包括：

展示能量波形，能量波形包括至少一个目标节奏点对应的标记信息；

响应于针对任一目标节奏点对应的标记信息的更新指令，更新至少一个目标节奏点中更新指令对应的目标节奏点。

在一个可选的实施例中，能量波形可以为以预设音乐对应的播放时间进度为横坐标，以预设音乐对应的响度信息为纵坐标的波形，可选的，用户可以通过移动标记信息等方式，触发上述更新指令，进而可以将移动后标识信息对应的点更新为目标节奏点。

上述实施例中，展示包括至少一个目标节奏点对应标记信息的能量波形，可以便于相关用户结合实际需求进行目标节奏点的更新，更好的提升目标节奏点选取的有效性。

在一个可选的实施例中，在上述预设音乐为包括预设节奏标记的模板音乐的情况下，上述确定预设音乐中的至少一个目标节奏点可以包括：

基于预设节奏标记，确定至少一个目标节奏点。

在一个可选的实施例中，预设节奏标记可以为模板音乐中至少一个目标节奏点对应的标记。模板音乐可以为预先由相关制作人员制作得到的，可选的，在模板音乐制作过程中，可以先自动识别节奏点并进行打标，并由相关制作人员结合实际需求调整后生成；可选的，若自动识别出的节奏点准确，相关制作人员也可以直接跳过调整的步骤，直接触发确认生成模板音乐的操作。

上述实施例中，在上述预设音乐为包括预设节奏标记的模板音乐的情况下，可以结合预设节奏标记，快速自动识别出预设音乐中的至少一个目标节奏点，大大提升用于卡点的目标节奏点的识别效率和精准性。

在步骤S205中，对待处理视频进行关键动作识别，得到待处理视频中的至少一个关键动作图像。

在一个具体的实施例中，至少一个关键动作图像可以为待处理视频中关键动作所在的视频图像。具体的，关键动作可以为运动对象运动过程中关键的动作，具体的，不同的运动场景下，关键动作可以不同，例如拳击运动场景中，关键动作可以为出拳的结束动作。

在一个可选的实施例中，如图3所示，上述对待处理视频进行关键动作识别，得到待处理视频中的至少一个关键动作图像可以包括以下步骤：

在步骤S2051中，获取待处理视频中的多帧视频图像；

在步骤S2053中，提取多帧视频图像中运动对象对应的对象区域图像；

在步骤S2055中，对对象区域图像进行动作特征提取，得到多帧视频图像对应的多个动作特征信息；

在步骤S2057中，基于多个动作特征信息，从多帧视频图像中，确定至少一个关键动作图像。

在一个具体的实施例中，可以通过目标检测技术等方式，从多帧视频图像中提取运动对象对应的对象区域图像。可选的，可以结合神经网络等从对象区域图像中提取每一帧视频图像对应的动作特征信息。

在一个可选的实施例中，可以按照多帧视频图像对应的时序顺序依次分析相应的运动特征信息间的变化情况，并结合变化情况，将某一动作的结束动作对应的视频图像，作为关键动作图像。

在另一个可选的实施例中，在一些预先设置视频对应运动类型的场景中，可以预先获取该运动类型对应的标准的关键动作特征信息；相应的，可以计算多个动作特征信息与标准的关键动作特征信息间的相似度；将相似度大于等于预设阈值，或相似度较大的前预设数量个动作特征信息对应的视频图像作为至少一个关键动作图像。

上述实施例中，通过从待处理视频的多帧视频图像中提取运动对象的对象区域图像，进行动作特征信息的提取，可以在有效提取运动特征的同时，避免背景特征的干扰，进而可以保证结合动作特征信息，确定的用于卡点的至少一个关键动作图像的有效性。

在步骤S207中，基于对待处理视频的变速调整，将至少一个关键动作图像与至少一个目标节奏点对应的时间对齐，得到待处理视频对应的变速视频。

在一个具体的实施例中，待处理视频对应的变速视频可以为待处理视频进行变速调整后的视频。具体的，将至少一个关键动作图像与至少一个目标节奏点对应的时间对齐可以为：通过对待处理视频的变速调整，使得变速视频的播放时长与预设音乐的播放时长一致，且至少一个关键动作图像在变速视频中的播放进度时间与至少一个目标节奏点在预设音乐中的播放进度时间一致。

在一个可选的实施例中，上述变速视频包括待处理视频中多个视频片段各自对应的变速视频片段；如图4所示，上述基于对待处理视频的变速调整，将至少一个关键动作图像与至少一个目标节奏点对应的时间对齐，得到待处理视频对应的变速视频可以包括以下步骤：

在步骤S2071中，确定至少一个关键动作图像在待处理视频中的第一时序顺序和至少一个目标节奏点在预设音乐中的第二时序顺序；

在步骤S2073中，基于第一时序顺序和第二时序顺序，从至少一个关键动作图像和至少一个目标节奏点中，确定至少一个节奏点图像组，任一节奏点图像组包括一一对应的目标节奏点和关键动作图像；

在步骤S2075中，确定至少一个节奏点图像组中关键动作图像在待处理视频中的时间信息；

在步骤S2077中，基于时间信息，对待处理视频进行分割处理，得到多个视频片段；每个视频片段包括一个关键动作图像；

在步骤S2079中，基于对多个视频片段的变速调整，将至少一个节奏点图像组中目标节奏点和关键动作图对应的时间对齐，得到多个视频片段各自对应的变速视频片段。

在一个具体的实施例中，上述第一时序顺序可以为基于至少一个关键动作图像在待处理视频中的播放进度时间生成的排序，第二时序顺序可以为基于至少一个目标节奏点在预设音乐中的播放进度时间生成的排序；可选的，上述第一时序顺序和第二时序顺序生成过程中，可以均按照播放进度时间由早到晚排序，也可以均按照播放进度时间由晚到早排序。

在一个可选的实施例中，至少一个目标节奏点的第一数量可以等于至少一个关键动作图像的第二数量，相应的，基于第一时序顺序和第二时序顺序，从至少一个关键动作图像和至少一个目标节奏点中，确定至少一个节奏点图像组可以包括：按照第一时序顺序和第二时序顺序，将相同顺序的关键动作图像和目标节奏点划分到同一节奏点图像组中。

在一个可选的实施例中，在至少一个目标节奏点的第一数量小于至少一个关键动作图像的第二数量的情况下，至少一个节奏点图像组可以为第一数量个节奏点图像组；上述方法还可以包括：

根据第一时序顺序，从至少一个关键动作图像中，筛选出时序靠前的第一数量个关键动作图像；

相应的，上述基于第一时序顺序和第二时序顺序，从至少一个关键动作图像和至少一个目标节奏点中，确定至少一个节奏点图像组包括：

根据第一时序顺序和第二时序顺序，对第一数量个关键动作图像和第一数量个目标节奏点进行分组处理，得到第一数量个节奏点图像组。

在一个可选的实施例中，可以将按照第一时序顺序，由前到后依次从第一数量个关键动作图像中选出的一个关键动作图像和结合第二时序顺序由前到后依次从第一数量个目标节奏点中选出的一个目标节奏点，划分到同一节奏点图像组中。

上述实施例中，在至少一个目标节奏点的第一数量小于至少一个关键动作图像的第二数量的情况下，按照时序从第二数量个关键动作图像筛选出时序靠前的第一数量个关键动作图像，可以保证用于卡点的目标节奏点和关键动作图像的数量一致，进而可以保证后续生成卡点视频的成功率。

在一个可选的实施例中，在至少一个目标节奏点的第一数量小于至少一个关键动作图像的第二数量的情况下，至少一个节奏点图像组为第一数量个节奏点图像组；上述方法还包括：

对第二数量个关键动作图像进行动作分析，得到动作分析结果，动作分析结果表征第二数量个关键动作图像对应的动作精彩程度；

基于动作分析结果，对第二数量个关键动作图像进行过滤，得到第一数量个关键动作图像；

在一个可选的实施例中，动作分析结果可以为第二数量个关键动作图像对应的动作精彩程度的指标数据；相应的，可以结合该指标数据，从第二数量个关键动作图像中过滤到指标数据较大的第一数量关键动作图像。可选的，可以结合预先训练好的动作分析模型来进行动作分析，可选的，该动作分析模型可以为预先基于样本动作图像和样本动作图像对应的预设动作分析结果(预先设置的表征样本动作图像对应的动作精彩程度的指标数据)对预设深度学习模型进行动作分析训练得到的。

上述实施例中，在至少一个目标节奏点的第一数量小于至少一个关键动作图像的第二数量的情况下，通过对第二数量个关键动作图像进行动作分析，得到可以表征述第二数量个关键动作图像对应动作精彩程度的动作分析结果，并结合该动作分析结果从第二数量个关键动作图像筛选出第一数量个关键动作图像，可以有效保证用于卡点的目标节奏点和关键动作图像的数量一致，且可以更好的提升用于卡点的关键动作图像的精彩程度，进而可以保证后续生成卡点视频的成功率和卡点效果。

在一个可选的实施例中，在至少一个目标节奏点的第一数量大于至少一个关键动作图像的第二数量的情况下，至少一个节奏点图像组为第二数量个节奏点图像组；上述方法还可以包括：

根据第二时序顺序，从至少一个目标节奏点中，筛选出时序靠前的第二数量个目标节奏点；

相应的，上述基于第一时序顺序和第二时序顺序，从至少一个关键动作图像和至少一个目标节奏点中，确定至少一个节奏点图像组可以包括：

根据第一时序顺序和第二时序顺序，对第二数量个关键动作图像和第二数量个目标节奏点进行分组处理，得到第二数量个节奏点图像组。

在一个可选的实施例中，可以将按照第二时序顺序，由前到后依次从第二数量个目标节奏点中选出的一个目标节奏点和结合第一时序顺序由前到后依次从第二数量个关键动作图像中选出的一个关键动作图像，划分到同一节奏点图像组中。

上述实施例中，在至少一个目标节奏点的第一数量大于至少一个关键动作图像的第二数量的情况下，按照时序从第一数量个目标节奏点中筛选出时序靠前的第二数量个目标节奏点，可以保证用于卡点的目标节奏点和关键动作图像的数量一致，进而可以保证后续生成卡点视频的成功率。

在一个可选的实施例中，在至少一个目标节奏点的第一数量大于至少一个关键动作图像的第二数量的情况下，可以向用户反馈因关键动作图像太少，需要重新上传视频的提示信息。

在一个具体的实施例中，在确定至少一个节奏点图像组之后，可以确定至少一个节奏点图像组中关键动作图像在待处理视频中的时间信息。具体的，关键动作图像在待处理视频中的时间信息可以为关键动作图像在待处理视频中的播放进度时间。

在一个可选的实施例中，在结合至少一个节奏点图像组中关键动作图像对应的时间信息对待处理视频进行分割处理过程中，可以将关键动作图像分割到前一个视频片段中，例如排序在第一个的节奏点图像组中关键动作图像对应的时间信息为待处理视频中的第5秒，可选的，可以将0-5s(包括5秒)作为第一个视频片段，相应的，下一个视频片段从第6秒开始。

在一个可选的实施例中，如图5所示，上述基于对多个视频片段的变速调整，将至少一个节奏点图像组中目标节奏点和关键动作图对应的时间对齐，得到多个视频片段各自对应的变速视频片段可以包括以下步骤：

在步骤S501中，确定至少一个节奏点图像组中目标节奏点对应的音乐时长和至少一个节奏点图像组中关键动作图像所在视频片段的视频时长；

在步骤S503中，基于音乐时长和视频时长，确定多个视频片段各自对应的变速速率；

在步骤S505中，基于变速速率，对多个视频片段进行变速调整，得到多个视频片段各自对应的变速视频片段。

在一个具体的实施例中，任一目标节奏点对应的音乐时长可以为该目标节奏点当上一目标节奏点之间的音乐时长，可选的，若某一目标节奏点为预设音乐中的第一个目标节奏点，相应的，该第一个目标节奏点对应的音乐时长可以为预设音乐的起始时间至该第一个目标节奏对应的播放进度时间间的时长。

在一个具体的实施例中，可以将任意一个视频片段的视频时长与对应的音乐时长的比值作为视频片段对应的变速速率。

在一个可选的实施例中，可以基于每个视频片段对应的变速速率，对该视频片段进行变速调整，得到该视频片段对应的变速视频片段。

在一个可选的实施例中，上述基于变速速率，对多个视频片段进行变速调整，得到多个视频片段各自对应的变速视频片段可以包括：

基于变速速率，生成多个视频片段对应的初始变速曲线；

对初始变速曲线进行平滑处理，得到多个视频片段对应的目标变速曲线；

基于目标变速曲线，对多个视频片段进行变速调整，得到多个视频片段各自对应的变速视频片段。

在一个可选的实施例中，上述任一视频片段对应的初始变速曲线可以为平均变速速率等于该视频片段的变速速率的贝塞尔曲线；可选的，可以通过在终端展示相应多个视频片段对应的初始变速曲线，并由用户通过移动曲线的方式，实现对初始变速曲线进行平滑处理。可选的，也可以通过计算多个初始变速曲线相邻处的曲线斜率，通过调整曲线斜率，对初始变速曲线进行平滑处理。

上述实施例中，结合至少一个节奏点图像组中目标节奏点对应的音乐时长和至少一个节奏点图像组中关键动作图像所在视频片段的视频时长，确定出多个视频片段各自对应的变速速率，进而可以基于该变速速率，对多个视频片段进行变速调整，使得用于卡点的至少一个节奏点图像组中目标节奏点和关键动作图像对应的时间对齐，提升卡点的精准性。且通过对变速速率对应的初始变速曲线的平滑处理，可以有效提升多个视频片段对应的变速曲线间的平滑性，进而可以提升后续基于多个视频片段生成的目标卡点视频播放过程中的平缓性。

上述实施例中，结合至少一个关键动作图像对应的第一时序顺序和至少一个目标节奏点对应的第二时序顺序，从至少一个关键动作图像和至少一个目标节奏点中，确定用于卡点的至少一个节奏点图像组，并结合至少一个节奏点图像组中关键动作图像对应的时间信息，对待处理视频进行分割处理，可以便于进行分段变速调整，进而可以更好的对同一节奏点图像组中目标节奏点和关键动作图对应的时间对齐，提升卡点的精准性。

在步骤S209中，基于变速视频和预设音乐，生成目标卡点视频。

在一个具体的实施例中，可以对变速视频和预设音乐进行合成，得到上述目标卡点视频。具体的，在变速视频包括待处理视频中多个视频片段对应的变速视频片段的情况下，可以将多个变速视频片段拼接后，与预设音乐进行合成，得到目标卡点视频。

由以上本说明书实施例提供的技术方案可见，本说明书中在卡点视频生成过程中，通过自动确定预设音乐中的目标节奏点；以及通过对待处理视频的关键动作识别，将自动识别出的待处理视频中的至少一个关键动作图像，作为用于卡点的视频图像，大大提升了视频制作的便利性，且有效提升卡点节奏点与卡点视频图像间的适配性；接着，基于对待处理视频的变速调整，将至少一个关键动作图像与至少一个目标节奏点对应的时间对齐，并基于变速视频和预设音乐，生成目标卡点视频，可以在提升卡点视频制作效率的基础上，有效提升卡点效果。

图6是根据一示例性实施例示出的一种卡点视频生成装置框图。参照图6，该装置包括：

数据获取模块610，被配置为执行获取待处理视频和预设音乐；

目标节奏点确定模块620，被配置为执行确定预设音乐中的至少一个目标节奏点；

关键动作识别模块630，被配置为执行对待处理视频进行关键动作识别，得到待处理视频中的至少一个关键动作图像；

变速调整模块640，被配置为执行基于对待处理视频的变速调整，将至少一个关键动作图像与至少一个目标节奏点对应的时间对齐，得到待处理视频对应的变速视频；

目标卡点视频生成模块650，被配置为执行基于变速视频和预设音乐，生成目标卡点视频。

在一个可选的实施例中，变速视频包括待处理视频中多个视频片段各自对应的变速视频片段；变速调整模块640包括：

时序顺序确定单元，被配置为执行确定至少一个关键动作图像在待处理视频中的第一时序顺序和至少一个目标节奏点在预设音乐中的第二时序顺序；

节奏点图像组确定单元，被配置为执行基于第一时序顺序和第二时序顺序，从至少一个关键动作图像和至少一个目标节奏点中，确定至少一个节奏点图像组，任一节奏点图像组包括一一对应的目标节奏点和关键动作图像；

时间信息确定单元，被配置为执行确定至少一个节奏点图像组中关键动作图像在待处理视频中的时间信息；

视频分割处理单元，被配置为执行基于时间信息，对待处理视频进行分割处理，得到多个视频片段；每个视频片段包括一个关键动作图像；

变速调整单元，被配置为执行基于对多个视频片段的变速调整，将至少一个节奏点图像组中目标节奏点和关键动作图对应的时间对齐，得到多个视频片段各自对应的变速视频片段。

在一个可选的实施例中，变速调整单元包括：

时长确定单元，被配置为执行确定至少一个节奏点图像组中目标节奏点对应的音乐时长和至少一个节奏点图像组中关键动作图像所在视频片段的视频时长；

变速速率确定单元，被配置为执行基于音乐时长和视频时长，确定多个视频片段各自对应的变速速率；

第一变速调整子单元，被配置为执行基于变速速率，对多个视频片段进行变速调整，得到多个视频片段各自对应的变速视频片段。

在一个可选的实施例中，第一变速调整子单元包括：

初始变速曲线生成单元，被配置为执行基于变速速率，生成多个视频片段对应的初始变速曲线；

平滑处理单元，被配置为执行对初始变速曲线进行平滑处理，得到多个视频片段对应的目标变速曲线；

第二变速调整子单元单元，被配置为执行基于目标变速曲线，对多个视频片段进行变速调整，得到多个视频片段各自对应的变速视频片段。

在一个可选的实施例中，在至少一个目标节奏点的第一数量小于至少一个关键动作图像的第二数量的情况下，至少一个节奏点图像组为第一数量个节奏点图像组；上述装置还包括：

关键动作图像筛选模块，被配置为执行根据第一时序顺序，从至少一个关键动作图像中，筛选出时序靠前的第一数量个关键动作图像；

节奏点图像组确定单元具体被配置为执行根据第一时序顺序和第二时序顺序，对第一数量个关键动作图像和第一数量个目标节奏点进行分组处理，得到第一数量个节奏点图像组。

动作分析模块，被配置为执行对第二数量个关键动作图像进行动作分析，得到动作分析结果，动作分析结果表征第二数量个关键动作图像对应的动作精彩程度；

关键动作图像过滤模块，被配置为执行基于动作分析结果，对第二数量个关键动作图像进行过滤，得到第一数量个关键动作图像；

在一个可选的实施例中，在至少一个目标节奏点的第一数量大于至少一个关键动作图像的第二数量的情况下，至少一个节奏点图像组为第二数量个节奏点图像组；上述装置还包括：

目标节奏点筛选模块，被配置为执行根据第二时序顺序，从至少一个目标节奏点中，筛选出时序靠前的第二数量个目标节奏点；

节奏点图像组确定单元具体被配置为执行根据第一时序顺序和第二时序顺序，对第二数量个关键动作图像和第二数量个目标节奏点进行分组处理，得到第二数量个节奏点图像组。

在一个可选的实施例中，预设音乐为包括预设节奏标记的模板音乐，目标节奏点确定模块620包括：

第一目标节奏点确定单元，被配置为执行基于预设节奏标记，确定至少一个目标节奏点。

在一个可选的实施例中，目标节奏点确定模块620包括：

能量波形获取单元，被配置为执行获取预设音乐对应的能量波形，能量波形表征预设音乐的响度信息；

第二目标节奏点确定单元，被配置为执行基于能量波形，确定至少一个目标节奏点。

在一个可选的实施例中，上述装置还包括：

能量波形展示单元，被配置为执行展示能量波形，能量波形包括至少一个目标节奏点对应的标记信息；

目标节奏点更新单元，被配置为执行响应于针对任一目标节奏点对应的标记信息的更新指令，更新至少一个目标节奏点中更新指令对应的目标节奏点。

在一个可选的实施例中，关键动作识别模块630包括：

多帧视频图像获取单元，被配置为执行获取待处理视频中的多帧视频图像；

对象区域图像提取单元，被配置为执行提取多帧视频图像中运动对象对应的对象区域图像；

动作特征提取单元，被配置为执行对对象区域图像进行动作特征提取，得到多帧视频图像对应的多个动作特征信息；

关键动作图像确定单元，被配置为执行基于多个动作特征信息，从多帧视频图像中，确定至少一个关键动作图像。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种用于卡点视频生成的电子设备的框图，该电子设备可以是终端，其内部结构图可以如图7所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种卡点视频生成方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

图8是根据一示例性实施例示出的一种用于卡点视频生成的电子设备的框图，该电子设备可以是服务器，其内部结构图可以如图8所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种卡点视频生成方法。

本领域技术人员可以理解，图7或图8中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在示例性实施例中，还提供了一种电子设备，包括：处理器；用于存储该处理器可执行指令的存储器；其中，该处理器被配置为执行该指令，以实现如本公开实施例中的卡点视频生成方法。

在示例性实施例中，还提供了一种计算机可读存储介质，当该存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本公开实施例中的卡点视频生成方法。

在示例性实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本公开实施例中的卡点视频生成方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种卡点视频生成方法，其特征在于，包括：

获取待处理视频和预设音乐；

确定所述预设音乐中的至少一个目标节奏点；

基于所述变速视频和所述预设音乐，生成目标卡点视频。

2.根据权利要求1所述的卡点视频生成方法，其特征在于，所述变速视频包括所述待处理视频中多个视频片段各自对应的变速视频片段；所述基于对所述待处理视频的变速调整，将所述至少一个关键动作图像与所述至少一个目标节奏点对应的时间对齐，得到所述待处理视频对应的变速视频包括：

3.根据权利要求2所述的卡点视频生成方法，其特征在于，所述基于对所述多个视频片段的变速调整，将所述至少一个节奏点图像组中目标节奏点和关键动作图对应的时间对齐，得到所述多个视频片段各自对应的变速视频片段包括：

4.根据权利要求3所述的卡点视频生成方法，其特征在于，所述基于所述变速速率，对所述多个视频片段进行变速调整，得到所述多个视频片段各自对应的变速视频片段包括：

5.根据权利要求2所述的卡点视频生成方法，其特征在于，在所述至少一个目标节奏点的第一数量小于所述至少一个关键动作图像的第二数量的情况下，所述至少一个节奏点图像组为所述第一数量个节奏点图像组；所述方法还包括：

6.根据权利要求2所述的卡点视频生成方法，其特征在于，在所述至少一个目标节奏点的第一数量小于所述至少一个关键动作图像的第二数量的情况下，所述至少一个节奏点图像组为所述第一数量个节奏点图像组；所述方法还包括：

7.根据权利要求2所述的卡点视频生成方法，其特征在于，在所述至少一个目标节奏点的第一数量大于所述至少一个关键动作图像的第二数量的情况下，所述至少一个节奏点图像组为所述第二数量个节奏点图像组；所述方法还包括：

8.根据权利要求1所述的卡点视频生成方法，其特征在于，所述预设音乐为包括预设节奏标记的模板音乐，所述确定所述预设音乐中的至少一个目标节奏点包括：

基于所述预设节奏标记，确定所述至少一个目标节奏点。

9.根据权利要求1所述的卡点视频生成方法，其特征在于，所述确定所述预设音乐中的至少一个目标节奏点包括：

基于所述能量波形，确定所述至少一个目标节奏点。

10.根据权利要求9所述的卡点视频生成方法，其特征在于，所述方法还包括：

11.根据权利要求1至10任一所述的卡点视频生成方法，其特征在于，所述对所述待处理视频进行关键动作识别，得到所述待处理视频中的至少一个关键动作图像包括：

获取所述待处理视频中的多帧视频图像；

提取所述多帧视频图像中运动对象对应的对象区域图像；

12.一种卡点视频生成装置，其特征在于，包括：

数据获取模块，被配置为执行获取待处理视频和预设音乐；

13.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至11中任一项所述的卡点视频生成方法。

14.一种计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至11中任一项所述的卡点视频生成方法。

15.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被处理器执行时实现权利要求1至11中任一项所述的卡点视频生成方法。