CN110933487B

CN110933487B - 卡点视频的生成方法、装置、设备及存储介质

Info

Publication number: CN110933487B
Application number: CN201911312425.5A
Authority: CN
Inventors: 李晨曦; 李莲莲; 王艺鹏; 贠挺; 郭湘琰; 刘霏暄
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2022-05-03
Anticipated expiration: 2039-12-18
Also published as: CN110933487A

Abstract

本申请公开了卡点视频的生成方法、装置、设备及存储介质，涉及人工智能领域。具体实现方案为：该方法应用于电子设备，该方法包括：获取用户确定的目标音乐和多个目标多媒体数据；提取目标音乐的能量数据；根据目标音乐的能量数据和目标多媒体数据的个数确定目标音乐中的目标节奏点；按照预设的视频生成策略将目标多媒体数据转换成与目标节奏点相匹配的目标视频；根据目标视频和目标音乐生成目标卡点视频。通过目标音乐的能量能够准确确定出目标节奏点。并且能够根据目标音乐和多个目标多媒体数据自动生成卡点视频，用户能够对音乐和多媒体数据进行个性化定制，无需人工参与制作，提高了卡点视频的生成效率。

Description

卡点视频的生成方法、装置、设备及存储介质

技术领域

本申请涉及到图像处理技术领域，尤其涉及人工智能技术。

背景技术

随着移动互联网地迅速发展，短视频进入蓬勃发展的阶段。适应移动社交媒体碎片化传播的特点，小视频的内容也在不断地创新，卡点视频的出现更是受到了越来越多人的喜爱。卡点视频生成技术是指生成画面和音乐的节奏相匹配，画面在音乐的节奏点处进行顺滑切换的视频技术。

现有技术中卡点视频生成方法主要有两种。第一种方法是使用已有的音乐模板与上传的视频或照片进行匹配，一键生成卡点视频。第二种方法是人工使用视频编辑软件制作卡点视频。

第一种方法虽然快捷方便，但是不能任意选择音乐，视频的段数或照片的张数是固定的，无法实现卡点视频的个性化定制。第二种方法由于人工制作，使卡点视频的生成效率极低，而且音乐节奏点的位置完全人工确定，使确定的音乐节奏点位置的准确性较差。

发明内容

本申请实施例提供一种卡点视频的生成方法、装置、设备及存储介质，解决了现有技术中卡点视频生成方法中无法实现卡点视频的个性化定制，卡点视频的生成效率极低，及确定的音乐节奏点位置的准确性较差的技术问题。

本申请实施例第一方面提供一种卡点视频的生成方法，所述方法应用于电子设备，所述方法包括：

获取用户确定的目标音乐和多个目标多媒体数据；提取所述目标音乐的能量数据；根据所述目标音乐的能量数据和目标多媒体数据的个数确定所述目标音乐中的目标节奏点；按照预设的视频生成策略将所述目标多媒体数据转换成与所述目标节奏点相匹配的目标视频；根据所述目标视频和所述目标音乐生成目标卡点视频。

本申请实施例中，由于在生成目标卡点视频时，通过目标音乐的能量来确定目标节奏点的，而目标音乐的节奏点通常出现在能量较大的时间点上，所以通过目标音乐的能量能够准确确定出目标节奏点。并且本申请能够根据目标音乐和多个目标多媒体数据自动生成卡点视频，用户能够对音乐和多媒体数据进行个性化定制，无需人工参与制作，提高了卡点视频的生成效率。

进一步地，如上所述的方法，所述提取所述目标音乐的能量数据，包括：

确定提取所述目标音乐能量数据的采样频率；采用音频处理工具中的能量提取函数按照所述采样频率提取所述目标音乐在每个采样时间点的能量数据。

本申请实施例中，按照采样频率提取目标音乐在每个采样时间点的能量数据，为后续根据每个采样时间点的能量数据确定出目标节奏点做准备。

进一步地，如上所述的方法，所述根据所述目标音乐的能量数据和目标多媒体数据的个数确定所述目标音乐中的目标节奏点，包括：

根据所述目标音乐的能量数据确定所述目标音乐中的第一候选节奏点；根据所述目标多媒体数据的个数从所述第一候选节奏点中筛选出所述目标节奏点。

进一步地，如上所述的方法，所述根据所述目标音乐的能量数据确定所述目标音乐中的第一候选节奏点，包括：

对所述目标音乐的能量数据由大到小进行排序；获取排列在前第一预设个数的能量数据对应的采样时间点为第一候选节奏点。

本申请实施例中，选取能量值较高的第一候选节奏点，再从第一候选节奏点中确定与目标多媒体数据的个数相匹配的候选节奏点作为目标节奏点，能够使目标节奏点的个数与目标多媒体数据的个数相匹配。

进一步地，如上所述的方法，所述根据所述目标多媒体数据的个数从所述第一候选节奏点中筛选出所述目标节奏点，包括：

根据所述目标多媒体数据的个数从所述第一候选节奏点中筛选出第二预设个数的第二候选节奏点；对所述第二候选节奏点按照对应的能量数据由大到小排序；将排列在前目标节奏点个数的第二候选节奏点确定为目标节奏点。

进一步地，如上所述的方法，所述根据所述目标多媒体数据的个数从所述第一候选节奏点中筛选出第二预设个数的第二候选节奏点，包括：

根据所述目标多媒体数据的个数确定所述目标节奏点个数；根据预设能量阈值从所述第一候选节奏点中筛选出第二预设个数的第二候选节奏点。

本申请实施例中，根据预设能量阈值从第一候选节奏点中筛选出第二候选节奏点，使第二候选节奏点满足节奏点对应的能量特征。并且从第二候选节奏点中选取出能量值较大的候选节奏点作为目标节奏点，使目标节奏点为节奏都较强的节奏点，使确定出的目标节奏点更加准确。

进一步地，如上所述的方法，所述按照预设的视频生成策略将所述目标多媒体数据转换成与所述目标节奏点相匹配的目标视频，包括：

获取各相邻目标节奏点间的时间间隔；根据各相邻目标节奏点间的时间间隔确定各目标节奏点处的转场时间；根据各相邻目标节奏点间的时间间隔和对应的目标节奏点处的转场时间计算各待拼接视频片段持续时间；根据各待拼接视频片段持续时间和对应的目标多媒体数据生成各待拼接视频片段；根据各待拼接视频片段、各目标节奏点处的转场时间及转场动画类型生成与所述目标节奏点相匹配的目标视频。

本申请实施例中，由于需要将多媒体数据转换为目标视频片段，在转换为目标视频片段的过程中，需要加入转场动画，转场动画中进行相邻目标视频片段的渐变播放，导致缩短了拼接前的视频的播放时长，所以计算各待拼接视频片段持续时间后，将各目标多媒体数据生成待拼接视频片段，根据各待拼接视频片段、各目标节奏点处的转场时间及转场动画类型生成目标视频，使目标视频能够与目标音乐的时间对齐，并且能够与目标节奏点准确匹配。

进一步地，如上所述的方法，所述根据各相邻目标节奏点间的时间间隔确定各目标节奏点处的转场时间，包括：

确定各相邻目标节奏点间的时间间隔中的最小时间间隔；

将各目标节奏点处的转场时间设置为小于所述最小时间间隔的时间。

本申请实施例中，将各目标节奏点处的转场时间设置为小于各相邻目标节奏点间的最小时间间隔的时间，能够使目标视频与目标音乐的时间对齐，满足各相邻目标节奏点间均有一个目标视频片段的要求。

进一步地，如上所述的方法，所述根据各相邻目标节奏点间的时间间隔和对应的目标节奏点处的转场时间计算各待拼接视频片段持续时间，包括：

获取各相邻目标节奏点中前目标节奏点对应的前半转场时间和后目标节奏点对应的后半转场时间；将各相邻目标节奏点的时间间隔与对应的前半转场时间及对应的后半转场时间之和确定为各待拼接视频片段持续时间。

本申请实施例中，将各相邻目标节奏点的时间间隔与对应的前半转场时间及对应的后半转场时间之和确定为各待拼接视频片段持续时间，能够在将各待拼接视频片段进行拼接时，使目标视频片段与目标节奏点匹配，使每个目标节奏点正好处于转场动画的播放时时间的中间位置。

进一步地，如上所述的方法，所述目标多媒体数据为目标图片，所述根据各待拼接视频片段持续时间和对应的目标多媒体数据生成各待拼接视频片段之前，还包括：

对所述目标图片进行填充处理和缩放处理，使所述目标图片的尺寸等于所述目标卡点视频显示画面的尺寸。

本申请实施例中，在目标图片生成待拼接视频片段之前，对目标图片内进行填充处理和缩放处理，能够使目标图片的尺寸与目标卡点视频显示画面的尺寸一致，提高后续卡点视频的制作效果。使整个卡点视频能够符合显示画面的尺寸要求。

进一步地，如上所述的方法，所述对所述目标图片进行填充处理，包括：

获取所述目标图片的高宽比和所述目标卡点视频显示画面的高宽比；

若所述目标图片的高宽比大于所述目标卡点视频显示画面的高宽比，则对所述目标图片沿宽度进行填充；

若所述目标图片的高宽比小于所述目标卡点视频显示画面的高宽比，则对所述目标图片沿高度进行填充；

其中，填充后的目标图片的高宽比等于所述目标卡点视频显示画面的高宽比。

本申请实施例中，在对目标图片进行填充时，根据目标图片的高宽比与标卡点视频显示画面的高宽比的大小确定填充方向，并沿对应填充方向进行填充，能够使填充后的目标图片不发生形变，并保证目标图片的完整性及最大清晰度。

进一步地，如上所述的方法，所述根据各待拼接视频片段持续时间和对应的目标多媒体数据生成各待拼接视频片段，包括：

若所述待拼接视频片段持续时间小于预设持续时间阈值，则将对应的目标图片生成静态的待拼接视频片段；

若所述待拼接视频片段持续时间大于或等于预设持续时间阈值，则将对应的目标图片生成动态的待拼接视频片段。

本申请实施例中，根据待拼接视频片段持续时间，确定目标图片生成待拼接视频片段的形式。将持续时间较短的生成静态待拼接视频片段，将持续时间较长的生成动态待拼接视频片段，能够满足用户对视频的观看要求，不会出现待拼接视频长时间处于静止画面或视频画面转变太快的情况。

进一步地，如上所述的方法，所述根据各待拼接视频片段、各目标节奏点处的转场时间及转场动画类型生成与所述目标节奏点相匹配的目标视频，包括：

将所述各待拼接视频片段、各目标节奏点处的转场时间及转场动画类型输入到视频片段拼接工具ffmpeg-concat中；

由所述ffmpeg-concat生成与所述目标节奏点相匹配的目标视频。

本申请实施例中，采用视频片段拼接工具ffmpeg-concat根据各待拼接视频片段、各目标节奏点处的转场时间及转场动画类型生成目标视频，能够使生成的目标视频与目标音乐的目标节奏点相匹配，并且快速生成目标视频。

进一步地，如上所述的方法，所述根据所述目标视频和所述目标音乐生成目标卡点视频，包括：

采用音视频处理工具ffmpeg对所述目标视频和所述目标音乐进行合并，以生成所述目标卡点视频。

本申请实施例中，采用音视频处理工具ffmpeg对所述目标视频和所述目标音乐进行合并，生成所述目标卡点视频，能够在输入目标视频和目标音乐后，自动并快速地生成目标卡点视频。

进一步地，如上所述的方法，所述根据所述目标视频和所述目标音乐生成目标卡点视频之后，还包括：

将所述目标卡点视频发布到视频播放平台，以使所述视频播放平台对所述目标卡点视频进行播放。

本申请实施例中，生成目标卡点视频后，将目标卡点视频发布到视频播放平台，能够对目标卡点视频进行播放，并且满足其他用户观看、评论及其他对卡点视频的需求。

本申请实施例第二方面提供一种卡点视频的生成装置，所述装置位于电子设备中，所述装置包括：

目标获取模块，用于获取用户确定的目标音乐和多个目标多媒体数据；能量提取模块，用于提取所述目标音乐的能量数据；节奏点确定模块，用于根据所述目标音乐的能量数据和目标多媒体数据的个数确定所述目标音乐中的目标节奏点；目标视频生成模块，用于按照预设的视频生成策略将所述目标多媒体数据转换成与所述目标节奏点相匹配的目标视频；卡点视频生成模块，用于根据所述目标视频和所述目标音乐生成目标卡点视频。

进一步地，如上所述的装置，所述能量提取模块，具体用于：

进一步地，如上所述的装置，所述节奏点确定模块，具体用于：

进一步地，如上所述的装置，所述节奏点确定模块,在根据所述目标音乐的能量数据确定所述目标音乐中的第一候选节奏点时,具体用于：

进一步地，如上所述的装置，所述节奏点确定模块，在所述根据所述多媒体数据的个数从所述第一候选节奏点中筛选出所述目标节奏点时，具体用于：

进一步地，如上所述的装置，所述节奏点确定模块，在根据所述目标多媒体数据的个数从所述第一候选节奏点中筛选出第二预设个数的第二候选节奏点时，具体用于：

进一步地，如上所述的装置，所述目标视频生成模块，具体用于：

进一步地，如上所述的装置，目标视频生成模块，在所述根据各相邻目标节奏点间的时间间隔确定各目标节奏点处的转场时间时，具体用于：

确定各相邻目标节奏点间的时间间隔中的最小时间间隔；将各目标节奏点处的转场时间设置为小于所述最小时间间隔的时间。

进一步地，如上所述的装置，目标视频生成模块，在所述根据各相邻目标节奏点间的时间间隔和对应的目标节奏点处的转场时间计算各待拼接视频片段持续时间时，具体用于：

进一步地，如上所述的装置，所述目标多媒体数据为目标图片，所述目标视频生成模块，在所述根据各待拼接视频片段持续时间和对应的目标多媒体数据生成各待拼接视频片段之前，还用于：

进一步地，如上所述的装置，所述目标视频生成模块，在所述对所述目标图片进行填充处理时，具体用于：

获取所述目标图片的高宽比和所述目标卡点视频显示画面的高宽比；若所述目标图片的高宽比大于所述目标卡点视频显示画面的高宽比，则对所述目标图片沿宽度进行填充；若所述目标图片的高宽比小于所述目标卡点视频显示画面的高宽比，则对所述目标图片沿高度进行填充；其中，填充后的目标图片的高宽比等于所述目标卡点视频显示画面的高宽比。

进一步地，如上所述的装置，所述目标视频生成模块，在所述根据各待拼接视频片段持续时间和对应的目标多媒体数据生成各待拼接视频片段时，具体用于：

若所述待拼接视频片段持续时间小于预设持续时间阈值，则将对应的目标图片生成静态的待拼接视频片段；若所述待拼接视频片段持续时间大于或等于预设持续时间阈值，则将对应的目标图片生成动态的待拼接视频片段。

进一步地，如上所述的装置，所述目标视频生成模块，在所述根据各待拼接视频片段、各目标节奏点处的转场时间及转场动画类型生成与所述目标节奏点相匹配的目标视频时，具体用于：

将所述各待拼接视频片段、各目标节奏点处的转场时间及转场动画类型输入到视频片段拼接工具ffmpeg-concat中；由所述ffmpeg-concat生成与所述目标节奏点相匹配的目标视频。

进一步地，如上所述的装置，所述卡点视频生成模块，具体用于：

进一步地，如上所述的装置，还包括：

卡点视频播放模块，用于将所述目标卡点视频发布到视频播放平台，以使所述视频播放平台对所述目标卡点视频进行播放。

本申请实施例第三方面提供一种电子设备,包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够第一方面中任一项所述的方法。

本申请实施例第四方面提供一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行第一方面任一项所述的方法。

本申请实施例第五方面提供一种计算机程序，包括程序代码，当计算机运行所述计算机程序时，所述程序代码执行如第一方面所述的方法。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是可以实现本申请实施例的卡点视频的生成方法的应用场景图；

图2是根据本申请第一实施例提供的卡点视频的生成方法的流程示意图；

图3是根据本申请第一实施例提供的卡点视频的生成方法的客户端操作界面的示意图；

图4是根据本申请第二实施例提供的卡点视频的生成方法的流程示意图；

图5是根据本申请第二实施例提供的卡点视频的生成方法中步骤202的流程示意图；

图6是根据本申请第二实施例提供的卡点视频的生成方法中步骤203的流程示意图；

图7是根据本申请第二实施例提供的卡点视频的生成方法中步骤2033的流程示意图；

图8是根据本申请第二实施例提供的卡点视频的生成方法中目标音乐的能量数据的示意图；

图9是根据本申请第二实施例提供的卡点视频的生成方法中步骤204的流程示意图；

图10为根据本申请第二实施例提供的卡点视频的生成方法中目标节奏点、转场动画及待拼接视频片段的示意图；

图11是根据本申请第二实施例提供的卡点视频的生成方法中步骤2042的流程示意图；

图12是根据本申请第二实施例提供的卡点视频的生成方法中步骤2043的流程示意图；

图13是根据本申请第二实施例提供的卡点视频的生成方法中步骤2044的流程示意图；

图14是根据本申请第二实施例提供的卡点视频的生成方法中步骤2046的流程示意图；

图15为根据本申请第三实施例提供的卡点视频的生成装置的结构示意图；

图16为根据本申请第四实施例提供的卡点视频的生成装置的结构示意图；

图17是用来实现本申请实施例的卡点视频的生成方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

首先对本申请实施例提供的卡点视频的生成方法的应用场景进行介绍。如图1所示，本申请实施例提供的卡点视频的生成方法对应的应用场景中，用户有生成卡点视频的需求时，通过电子设备中的卡点视频的生成方法的客户端的操作界面可选择目标音乐和多个目标多媒体数据。目标音乐或目标多媒体数据可存储在电子设备本地或云端数据库中。根据用户选择的目标音乐和多个目标多媒体数据从电子设备本地或云端数据库中获取目标音乐和目标多媒体数据。其中，目标多媒体数据可以为视频或图片。然后电子设备提取目标音乐的能量数据，根据目标音乐的能量数据和目标多媒体数据的个数确定目标音乐中的目标节奏点。其中，目标节奏点的个数与目标多媒体数据的个数相差为1。在确定出目标音乐的目标节奏点后，按照预设的视频生成策略将目标多媒体数据转换成与目标节奏点相匹配的目标视频，最后根据目标视频和目标音乐生成目标卡点视频。电子设备输出目标卡点视频，可由用户采用视频播放软件进行播放。或者可将目标卡点视频发布到视频播放平台，由视频播放平台对目标卡点视频进行播放。由于在生成目标卡点视频时，通过目标音乐的能量来确定目标节奏点的，而目标音乐的节奏点通常出现在能量较大的时间点上，所以通过目标音乐的能量能够准确确定出目标节奏点。并且本申请能够根据目标音乐和多个目标多媒体数据自动生成卡点视频，用户能够对音乐和多媒体数据进行个性化定制，无需人工参与制作，提高了卡点视频的生成效率。

以下将参照附图来具体描述本申请的实施例。

实施例一

图2是根据本申请第一实施例提供的卡点视频的生成方法的流程示意图，如图2所示，本申请实施例的执行主体为卡点视频的生成装置，该卡点视频的生成装置可以集成在电子设备中。则本实施例提供的卡点视频的生成方法包括以下几个步骤。

步骤101，获取用户确定的目标音乐和多个目标多媒体数据。

本实施例中，可通过电子设备向用户提供卡点视频的生成方法的客户端，在客户端上包括操作界面，如图3所示，用户在有生成卡点视频的需求时，打开该客户端，并在操作界面上可点击“目标音乐”和“目标多媒体数据”的选项卡。在点击“目标音乐”的选项卡后，弹出“目标音乐”选项卡的窗口，可选择本地磁盘中的音乐作为目标音乐，或者选择云端数据库中存储的音乐作为目标音乐，并可通过点击“打开”按键，获取并加载目标音乐。同理，在点击“目标多媒体数据”的选项卡后，弹出“目标多媒体数据”的选项卡的窗口，可选择本地磁盘或云端数据库中的多个多媒体数据作为目标多媒体数据。

其中，本实施例中，对目标音乐的格式和播放时长不作限定。

本实施例中，目标多媒体数据可以为视频或图片。对视频的播放时长不作限定，对图片的大小不作限定。

步骤102，提取目标音乐的能量数据。

本实施例中，目标音乐的能量与目标音乐的音调有很强的关联性，所以可通过提取目标音乐的音调后，根据目标音乐的音调提取目标音乐的能量。或者本实施例中，采用音频处理工具提取目标音乐的能量数据，本实施例中对此不作限定。

值的说明的是，目标音乐的能量数据是目标音乐在每个采样时间点的能量数据。

步骤103，根据目标音乐的能量数据和目标多媒体数据的个数确定目标音乐中的目标节奏点。

由于卡点视频需要生成的视频与目标音乐的节奏相匹配，在目标音乐的节奏点处进行视频片段间的转场，每个视频片段是由对应的目标多媒体数据生成的，所以目标节奏点的个数与目标多媒体的个数息息相关。本实施例中，可首先根据目标音乐的能量数据确定出能量值较大的候选节奏点，然后从候选节奏点中选取目标节奏点，使目标节奏点的个数与多媒体数据的个数对应。

可以理解的是，根据目标音乐的能量数据和目标多媒体数据的个数确定目标音乐中的目标节奏点的方式还可以为其他方式，本实施例中对此不作限定。

步骤104，按照预设的视频生成策略将目标多媒体数据转换成与目标节奏点相匹配的目标视频。

本实施例中，按照预设的视频生成策略将目标多媒体数据转换成与目标节奏点相匹配的目标视频，可以为：首先根据多媒体数据生成对应的待拼接视频片段，相邻两个待拼接视频间通过对应的转场动画拼接并将播放时长压缩后，形成目标视频。并将每个转场动画播放时的最中间时间确定为对应的目标节奏点，进而使目标视频与目标节奏点相匹配。生成的目标视频的播放时长与目标音乐的播放时长相同。

可以理解的是，按照预设的视频生成策略将目标多媒体数据转换成与目标节奏点相匹配的目标视频的方式还可以为其他方式，本实施例中对此不作限定。

步骤105，根据目标视频和目标音乐生成目标卡点视频。

本实施例中，若目标视频有音频信息，则可去除目标视频的音频信息后，将目标视频与目标音乐进行合并，生成目标卡点视频。若目标视频没有音频信息，则直接可将目标视频与目标音乐进行合并，生成目标卡点视频。

本实施例提供的卡点视频的生成方法，通过获取用户确定的目标音乐和多个目标多媒体数据；提取目标音乐的能量数据；根据目标音乐的能量数据和目标多媒体数据的个数确定目标音乐中的目标节奏点；按照预设的视频生成策略将目标多媒体数据转换成与目标节奏点相匹配的目标视频；根据目标视频和目标音乐生成目标卡点视频。由于在生成目标卡点视频时，通过目标音乐的能量来确定目标节奏点的，而目标音乐的节奏点通常出现在能量较大的时间点上，所以通过目标音乐的能量能够准确确定出目标节奏点。并且本申请能够根据目标音乐和多个目标多媒体数据自动生成卡点视频，用户能够对音乐和多媒体数据进行个性化定制，无需人工参与制作，提高了卡点视频的生成效率。

实施例二

图4是根据本申请第二实施例提供的卡点视频的生成方法的流程示意图，如图4所示，本实施例提供的卡点视频的生成方法，是在本申请实施例一提供的卡点视频的生成方法的基础上，对步骤102-步骤104的进一步细化。并且还包括了将目标卡点视频发布到视频播放平台，以使视频播放平台对目标卡点视频进行播放的步骤。则本实施例提供的卡点视频的生成方法包括以下步骤。

步骤201，获取用户确定的目标音乐和多个目标多媒体数据。

本实施例中，步骤201的实现方式与本申请第一实施例中的步骤101的实现方式类似，在此不再一一赘述。

步骤202，提取目标音乐的能量数据。

本实施例中，由于目标音乐的声波为一种纵波，根据目标音乐的时间序列和能量数据画出目标音乐的波形图发现能量值越大的点对应的音调越高。而音调越高的点节奏越强。所以本实施例中，根据目标音乐的能量数据确定目标音乐的目标节奏点。

作为一种可选实施方式，本实施例中，如图5所示，步骤202包括以下步骤：

步骤2021，确定提取目标音乐能量数据的采样频率。

具体地，本实施例中，可根据目标音乐的播放时长确定采样频率，若目标音乐的播放时长较长，可确定提取目标音乐能量数据的采样频率较小。反之，若目标音乐的播放时长较短，则确定提取目标音乐能量数据的采样频率较大。或者确定提取目标音乐能量数据的采样频率为预设采样频率，本实施例中对此不作限定。

步骤2022，采用音频处理工具中的能量提取函数按照采样频率提取目标音乐在每个采样时间点的能量数据。

本实施例中，音频处理工具可以为librosa库。在librosa库中包括能量提取函数。可将目标音乐和采样频率输入到librosa库中的能量提取函数中，由能量提取函数提取目标音乐在每个采样时间点的能量数据。

其中，目标音乐在每个采样时间点的能量数据为目标音乐在每个采样时间点的能量值。

步骤203，根据目标音乐的能量数据和目标多媒体数据的个数确定目标音乐中的目标节奏点。

作为一种可选实施方式，本实施例中，如图6所示，步骤203包括以下步骤：

步骤2031，根据目标音乐的能量数据确定目标音乐中的第一候选节奏点。

作为一种可选实施方式，本实施例中，步骤2031包括以下步骤：

步骤2031a，对目标音乐的能量数据由大到小进行排序。

本实施例中，对每个采样时间点的能量值由大到小进行排序。

步骤2031b，获取排列在前第一预设个数的能量数据对应的采样时间点为第一候选节奏点。

本实施例中，为了使第一候选节奏点的个数足够多，并远大于目标节奏点的个数，第一预设个数可根据目标音乐的播放时长及卡点视频中相邻节奏点的最小时间间隔计算确定。如目标音乐的播放时长为t1，卡点视频相邻节奏点的最小时间间隔为t2，则第一预设个数为n1＝t1/t2。

其中，可根据卡点视频中节奏点的特征来确定卡点视频中相邻节奏点的最小时间间隔，如可以为0.2秒，0.3秒等，本实施例中对此不作限定。

步骤2032，根据目标多媒体数据的个数从第一候选节奏点中筛选出目标节奏点。

可选地，本实施例中，如图7所示，步骤2032包括以下步骤：

步骤2032a，根据目标多媒体数据的个数从第一候选节奏点中筛选出第二预设个数的第二候选节奏点。

作为一种可选实施方式，步骤2032a包括以下两个步骤：

步骤2032a1，根据多媒体数据的个数确定目标节奏点个数。

本实施例中，目标多媒体数据的个数与从第一候选节奏点中筛选出的目标节奏点的个数的差值为1，即在每个节奏点左右均存在一个多媒体数据转换的目标视频片段。

步骤2032a2，根据预设能量阈值从第一候选节奏点中筛选出第二预设个数的第二候选节奏点。

本实施例中，第二预设个数为第二候选节奏点的个数。第二预设个数小于第一预设个数，并大于目标节奏点个数。该第二预设个数可根据第一预设个数和目标节奏点的个数进行设定。例如，第一预设个数为50个，目标节奏点的个数为5个，可将第二预设个数设置为10个，或15个等。

本实施例中，预设能量阈值为判断第一候选节奏点是否满足节奏点对应的能量特征的阈值。若第一候选节奏点的能量值大于预设能量阈值，则确定第一候选节奏点满足节奏点对应的能量特征，将满足节奏点对应的能能量特征的第一候选节奏点按照能量数据由大到小排序后，将排在前第二预设个数的满足节奏点对应的能能量特征的第一候选节奏点确定为第二候选节奏点。

步骤2032b，对第二候选节奏点按照对应的能量数据由大到小排序。

步骤2032c，将排列在前目标节奏点个数的第二候选节奏点确定为目标节奏点。

本实施中，第二候选节奏点均为满足节奏点对应的能量特征的节奏点，为了使目标节奏点为更强节奏的节奏点，对第二候选节奏点按照对应的能量数据由大到小排序，提取排列在前n2的第二候选节奏点作为目标节奏点。

其中，n2为目标节奏点的个数。

如图8所示，图8中的横轴为目标音乐的时间轴，纵轴为目标音乐的能量轴。黑点所示的点为目标节奏点，从图8中可看出，目标节奏点的能量值都较大，说明这些目标节奏点对应的音调都较高，节奏都较强。

本实施例中，根据预设能量阈值从第一候选节奏点中筛选出第二候选节奏点，使第二候选节奏点满足节奏点对应的能量特征。并且从第二候选节奏点中选取出能量值较大的候选节奏点作为目标节奏点，使目标节奏点为节奏都较强的节奏点，使确定出的目标节奏点更加准确。

步骤204，按照预设的视频生成策略将目标多媒体数据转换成与目标节奏点相匹配的目标视频。

作为一种可选实施方式，本实施例中，如图9所示，步骤204包括以下步骤：

步骤2041，获取各相邻目标节奏点间的时间间隔。

如图10所示，在确定出每个目标节奏点后，可分别确定出每对相邻的两个目标节奏点，对于每对相邻的目标节奏点，获取后目标节奏点所在的时间点及前目标节奏点所在的时间点，计算后目标节奏点与前目标节奏点对应的时间点之间的时间差，即可计算出各相邻目标节奏点间的时间间隔。

如图10所示，示意出两对相邻的目标节奏点，第一对相邻的目标节奏点为第一目标节奏点和第二目标节奏点，第一目标节奏点所在的时间点为0.8秒，第二目标节奏点所在的时间点为1.5秒，则该第一对相邻的两个目标节奏点间的时间间隔为0.7秒。第二对相邻的目标节奏点为第二目标节奏点和第三目标节奏点。第三目标节奏点所在的时间点为3秒。则第二对相邻的两个目标节奏点间的时间间隔为1.5秒。

步骤2042，根据各相邻目标节奏点间的时间间隔确定各目标节奏点处的转场时间。

可选地，如图11所示，步骤2042包括以下步骤：

步骤2042a，确定各相邻目标节奏点间的时间间隔中的最小时间间隔。

本实施例中，获取每对相邻目标节奏点间的时间间隔，确定最小的时间间隔。如图10中，确定出最小的时间间隔为0.7秒。

步骤2042b，将各目标节奏点处的转场时间设置为小于最小时间间隔的时间。

其中，转场时间为相邻目标视频片段间进行画面转换的时间。

本实施例中，由于在相邻两个目标节奏点间用于播放对应的目标视频片段，所以进行相邻目标视频片段间画面转换的时间一定要小于对应的目标节奏点间的时间间隔。所以将各目标节奏点处的转场时间设置为小于最小时间间隔的时间。

为了使每个目标节奏点与目标视频片段进行匹配，如图10所示，每个目标节奏点位于对应的转场时间的最中间位置。

值得说明的是，转场时间除了要小于最小时间间隔的时间外，还可根据各相邻目标节奏点间的时间间隔设置为不同的值。若相邻目标节奏点间的时间间隔较大，则可将转场时间设置为较大的值。相反，若相邻目标节奏点间的时间间隔较小，则可将转场时间设置为较小的值，能够使目标视频片段在目标节奏点处切换的更加顺滑。

步骤2043，根据各相邻目标节奏点间的时间间隔和对应的目标节奏点处的转场时间计算各待拼接视频片段持续时间。

本实施例中，由于需要将多媒体数据转换为目标视频片段，在转换为目标视频片段的过程中，需要加入转场动画，转场动画是在转场时间播放的动画。转场动画中进行相邻目标视频片段的渐变播放，导致缩短了拼接前的视频的播放时长。所以需要首先计算待拼接视频片段的持续时间。

可选地，如图12所示，步骤2043包括以下步骤：

步骤2043a，获取各相邻目标节奏点中前目标节奏点对应的前半转场时间和后目标节奏点对应的后半转场时间。

本实施例中，计算各相邻目标节奏点中前目标节奏点对应的转场时间的1/2，并将其确定为前目标节奏点的前半转场时间，计算各相邻目标节奏点中后目标节奏点对应的转场时间的1/2，将其确定为后半转场时间。

如将各目标节奏点处的转场时间均设置为0.2秒。则第一对目标节奏点中前目标节奏点对应的前半转场时间和后目标节奏点对应的后半转场时间均为0.1秒。第一对目标节奏点中前目标节奏点对应的前半转场时间和后目标节奏点对应的后半转场时间也均为0.1秒。

步骤2043b，将各相邻目标节奏点的时间间隔与对应的前半转场时间及对应的后半转场时间之和确定为各待拼接视频片段持续时间。

本实施例中，如图10所示，在第一目标节奏处进行第一目标视频片段和第二目标视频片段的转场，在第二目标节奏点处进行第二目标视频片段和第三目标视频片段的转场。所以第一目标节奏点和第二目标节奏点间对应的目标视频片段为第二目标视频片段，第二目标视频片段对应的待拼接视频为第二待拼接视频片段。第二待拼接视频片段由第二个目标多媒体数据生成的。

由于从待拼接视频频段生成目标视频片段的过程中，转场动画的存在，待拼接视频片段的持续时间要比对应的目标视频片段的持续时间要大，以将待拼接视频片段与对应的转场动画拼接后，目标视频片段与目标节奏点匹配。本实施例中，将各相邻目标节奏点的时间间隔与对应的前半转场时间及对应的后半转场时间之和确定为各待拼接视频片段持续时间。

如在图10中，第一目标节奏点和第二目标节奏点间的时间间隔为0.7秒，第一目标节奏点处的前半转场时间0.1秒，第二目标节奏点处的后半转场时间为0.1秒，所以对应的第二待拼接视频片段的持续时间为0.9秒。

本实施例中，将各相邻目标节奏点的时间间隔与对应的前半转场时间及对应的后半转场时间之和确定为各待拼接视频片段持续时间，能够使待拼接视频片段与转场动画拼接后，目标节奏点正好落在对应转场时间的中间位置，使目标视频的画面与目标音乐的节奏点进行准确地匹配。

步骤2044，若目标多媒体数据为目标图片，则对目标图片进行填充处理和缩放处理，使目标图片的尺寸等于目标卡点视频显示画面的尺寸。

进一步地，本实施例中，目标多媒体数据可以为视频或图片，若目标多媒体数据为图片，该图片为目标图片，则还需要对目标图片进行填充处理和缩放处理，使目标图片的尺寸等于目标卡点视频显示画面的尺寸。

可选地，如图13所示，步骤2044包括以下步骤：

步骤2044a，获取目标图片的高宽比和目标卡点视频显示画面的高宽比。

其中，目标卡点视频显示画面可预先定义，或者可将卡点视频播放设备的屏幕尺寸确定为目标卡点视频显示画面的尺寸。

本实施例中，在获取到目标卡点视频显示画面的尺寸后，计算目标卡点视频显示画面的高宽比。可表示为H/W。

本实施例中，在获取到目标图片后，检测每幅目标图片的尺寸是否一致，若一致，则统一计算目标图片的高宽比。若不是所有的目标图片的尺寸均一致，则分别计算每个不同尺寸的目标图片的高宽比。目标图片的高宽比可表示为h/w。

步骤2044b，若目标图片的高宽比大于目标卡点视频显示画面的高宽比，则对目标图片沿宽度进行填充。

进一步地，本实施例中，若目标图片的高宽比大于目标卡点视频显示画面的高宽比，则计算目标图片沿宽度进行填充的尺寸，为了保证目标图片的原始清晰度，保持目标图片的高度不变，则计算目标图片沿宽度进行填充的尺寸为bord_w＝(h/H*W-w)。在对目标图片沿宽度进行填充时，在目标图片的左右两边分别填充的尺寸为bord_w/2。具体进行填充时，可分别以黑框的形式进行填充。或者优选的，截取目标图片的左右两边图片块，进行放大处理，以进行对应位置的填充。再对填充的部分进行高斯模糊，进而使填充的图片形成类似毛玻璃的效果。

步骤2044c，若目标图片的高宽比小于目标卡点视频显示画面的高宽比，则对目标图片沿高度进行填充。

进一步地，本实施例中，若目标图片的高宽比小于目标卡点视频显示画面的高宽比，则计算目标图片沿高度进行填充的尺寸，为了保证目标图片的原始清晰度，保持目标图片的宽度不变，则计算目标图片沿高度进行填充的尺寸为bord_h＝(w/W*H-h)。在对目标图片沿高度进行填充时，在目标图片的上下两边分别填充的尺寸为bord_h/2。具体进行填充时，填充方式与步骤2044b类似，在此不再一一赘述。

其中，填充后的目标图片的高宽比等于目标卡点视频显示画面的高宽比。

步骤2045，根据各待拼接视频片段持续时间和对应的目标多媒体数据生成各待拼接视频片段。

可选地，本实施例中，若目标多媒体数据为视频，则对根据各待拼接视频片段持续时间和对应的视频生成各待拼接视频片段。在根据各待拼接视频片段持续时间和对应的视频生成各待拼接视频片段时，需要对各视频进行上采样或下采样处理，以使视频与对应的待拼接视频片段的持续时间一致。

可选地，若目标多媒体数据为目标图片，则根据各待拼接视频片段持续时间和对应的目标多媒体数据生成各待拼接视频片段，包括：

若待拼接视频片段持续时间小于预设持续时间阈值，则将对应的目标图片生成静态的待拼接视频片段；若待拼接视频片段持续时间大于或等于预设持续时间阈值，则将对应的目标图片生成动态的待拼接视频片段。

具体地，本实施例中，预先定义一个持续时间阈值，若待拼接视频片段持续时间小于预设持续时间阈值，则说明待拼接视频片段的持续时间较短，则确定由目标图片生成待拼接视频片段的帧频，根据待拼接视频片段持续时间确定由目标图片生成对应的待拼接视频片段所需要的目标图片的帧数。将每帧目标图片合成，由于每帧目标图片是相同的，所以生成静态的待拼接视频片段。若待拼接视频片段持续时间大于或等于预设持续时间阈值，则说明待拼接视频片段的持续时间较长，在对应的目标图片中可随机加入动画，使对应的目标图片生成动态的待拼接视频片段。

本实施例中，根据待拼接视频片段持续时间，确定目标图片生成待拼接视频片段的形式。将持续时间较短的生成静态待拼接视频片段，将持续时间较长的生成动态待拼接视频片段，能够满足用户对视频的观看要求，不会出现待拼接视频长时间处于静止画面或视频画面转变太快的情况。

步骤2046，根据各待拼接视频片段、各目标节奏点处的转场时间及转场动画类型生成与目标节奏点相匹配的目标视频。

作为一种可选实施方式，本实施例中，如图14所示，步骤2046包括以下步骤：

步骤2046a，将各待拼接视频片段、各目标节奏点处的转场时间及转场动画类型输入到视频片段拼接工具ffmpeg-concat中。

可以理解的是，本实施例中，在根据各待拼接视频片段、各目标节奏点处的转场时间及转场动画类型生成与目标节奏点相匹配的目标视频之前，用户可通过客户端的操作界面对转场动画的类型进行设置。其中，转场动画为在转场时间内播放的动画。转场动画中进行相邻目标视频片段的渐变播放。其中，转场动画类型可包括：叠化转场动画、划像转场动画、淡入淡出转场动画等。

步骤2046b，由ffmpeg-concat生成与目标节奏点相匹配的目标视频。

本实施例中，ffmpeg-concat为视频片段拼接工具，其能够对视频片段进行拼接。具体地，将各待拼接视频片段、各目标节奏点处的转场时间及转场动画类型输入到视频片段拼接工具ffmpeg-concat中，ffmpeg-concat根据各待拼接视频片段的顺序，在相邻待拼接视频片段中间加入对应的转场动画，转场动画的时间为对应的转场时间，转场动画的类型为输入的类型。在将待拼接视频片段中间加入对应的转场动画时，在转场动画中加入了对应的相邻两个待拼接视频的部分片段，所以缩短了待拼接视频片段的持续时间，使拼接后的目标视频的转场动画播放的时间的中间位置为目标音乐的节奏点的位置。进而使生成的目标视频与目标音乐的目标节奏点相匹配，目标视频的播放时长与目标音乐相等。

步骤205，采用音视频处理工具ffmpeg对目标视频和目标音乐进行合并，以生成目标卡点视频。

本实施例中，ffmpeg为音视频处理工具。将目标视频和目标音乐输入到ffmpeg中，ffmpeg对目标视频和目标音乐进行合并，生成目标卡点视频。

步骤206，将目标卡点视频发布到视频播放平台，以使视频播放平台对目标卡点视频进行播放。

可以理解的是，生成目标卡点音乐后，电子设备通过客户端可输出目标卡点视频，在电子设备上进行播放。若得到满意的目标卡点视频，可将目标卡点视频发布到视频播放平台，以使视频播放平台对目标卡点视频进行播放。其他用户播放目标卡点视频后，可在视频播放平台对目标卡点视频进行评论，点赞，关注等操作。

本实施例中，生成目标卡点视频后，将目标卡点视频发布到视频播放平台，能够对目标卡点视频进行播放，并且满足其他用户观看、评论及其他对卡点视频的需求。

实施例三

图15为根据本申请第三实施例提供的卡点视频的生成装置的结构示意图，如图15所示，本实施例提供的卡点视频的生成装置位于电子设备中。该卡点视频的生成装置1500包括：目标获取模块1501，能量提取模块1502，节奏点确定模块1503，目标视频生成模块1504及卡点视频生成模块1505。

其中，目标获取模块1501，用于获取用户确定的目标音乐和多个目标多媒体数据。能量提取模块1502，用于提取目标音乐的能量数据。节奏点确定模块1503，用于根据目标音乐的能量数据和目标多媒体数据的个数确定目标音乐中的目标节奏点。目标视频生成模块1504，用于按照预设的视频生成策略将目标多媒体数据转换成与目标节奏点相匹配的目标视频。卡点视频生成模块1505，用于根据目标视频和目标音乐生成目标卡点视频。

本实施例提供的卡点视频的生成装置可以执行图2所示方法实施例的技术方案，其实现原理和技术效果与图2所示方法实施例类似，在此不再一一赘述。

实施例四

图16为根据本申请第四实施例提供的卡点视频的生成装置的结构示意图，如图16所示，本实施例提供的卡点视频的生成装置1600在第三实施例提供的卡点视频的生成装置的基础上，还包括：卡点视频播放模块1601。

进一步地，能量提取模块1502，具体用于：

确定提取目标音乐能量数据的采样频率；采用音频处理工具中的能量提取函数按照采样频率提取目标音乐在每个采样时间点的能量数据。

进一步地，节奏点确定模块1503，具体用于：

根据目标音乐的能量数据确定目标音乐中的第一候选节奏点；根据目标多媒体数据的个数从第一候选节奏点中筛选出目标节奏点。

进一步地，节奏点确定模块1503,在根据目标音乐的能量数据确定目标音乐中的第一候选节奏点时,具体用于：

对目标音乐的能量数据由大到小进行排序；获取排列在前第一预设个数的能量数据对应的采样时间点为第一候选节奏点。

进一步地，节奏点确定模块1503，在根据多媒体数据的个数从第一候选节奏点中筛选出目标节奏点时，具体用于：

根据目标多媒体数据的个数从第一候选节奏点中筛选出第二预设个数的第二候选节奏点；对第二候选节奏点按照对应的能量数据由大到小排序；将排列在前目标节奏点个数的第二候选节奏点确定为目标节奏点。

进一步地，节奏点确定模块1503，在根据目标多媒体数据的个数从第一候选节奏点中筛选出第二预设个数的第二候选节奏点时，具体用于：

根据目标多媒体数据的个数确定目标节奏点个数；根据预设能量阈值从第一候选节奏点中筛选出第二预设个数的第二候选节奏点。

进一步地，目标视频生成模块1504，具体用于：

获取各相邻目标节奏点间的时间间隔；根据各相邻目标节奏点间的时间间隔确定各目标节奏点处的转场时间；根据各相邻目标节奏点间的时间间隔和对应的目标节奏点处的转场时间计算各待拼接视频片段持续时间；根据各待拼接视频片段持续时间和对应的目标多媒体数据生成各待拼接视频片段；根据各待拼接视频片段、各目标节奏点处的转场时间及转场动画类型生成与目标节奏点相匹配的目标视频。

进一步地，目标视频生成模块1504，在根据各相邻目标节奏点间的时间间隔确定各目标节奏点处的转场时间时，具体用于：

确定各相邻目标节奏点间的时间间隔中的最小时间间隔；将各目标节奏点处的转场时间设置为小于最小时间间隔的时间。

进一步地，目标视频生成模块1504，在根据各相邻目标节奏点间的时间间隔和对应的目标节奏点处的转场时间计算各待拼接视频片段持续时间时，具体用于：

进一步地，目标多媒体数据为目标图片，目标视频生成模块1504，在根据各待拼接视频片段持续时间和对应的目标多媒体数据生成各待拼接视频片段之前，还用于：

对目标图片进行填充处理和缩放处理，使目标图片的尺寸等于目标卡点视频显示画面的尺寸。

进一步地，目标视频生成模块1504，在对目标图片进行填充处理时，具体用于：

获取目标图片的高宽比和目标卡点视频显示画面的高宽比；若目标图片的高宽比大于目标卡点视频显示画面的高宽比，则对目标图片沿宽度进行填充；若目标图片的高宽比小于目标卡点视频显示画面的高宽比，则对目标图片沿高度进行填充；其中，填充后的目标图片的高宽比等于目标卡点视频显示画面的高宽比。

进一步地，目标视频生成模块1504，在根据各待拼接视频片段持续时间和对应的目标多媒体数据生成各待拼接视频片段时，具体用于：

进一步地，目标视频生成模块1504，在根据各待拼接视频片段、各目标节奏点处的转场时间及转场动画类型生成与目标节奏点相匹配的目标视频时，具体用于：

将各待拼接视频片段、各目标节奏点处的转场时间及转场动画类型输入到视频片段拼接工具ffmpeg-concat中；由ffmpeg-concat生成与目标节奏点相匹配的目标视频。

进一步地，卡点视频生成模块1505，具体用于：

采用音视频处理工具ffmpeg对目标视频和目标音乐进行合并，以生成目标卡点视频。

进一步地，卡点视频播放模块1601，用于将目标卡点视频发布到视频播放平台，以使视频播放平台对目标卡点视频进行播放。

本实施例提供的卡点视频的生成装置可以执行图4-图7、图9、图11-图14所示方法实施例的技术方案，其实现原理和技术效果与图4-图7、图9、图11-图14所示方法实施例类似，在此不再一一赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图17所示，是根据本申请实施例的卡点视频的生成方法的电子设备的框图。电子设备旨在各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图17所示，该电子设备包括：一个或多个处理器1701、存储器1702，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图17中以一个处理器1701为例。

存储器1702即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的卡点视频的生成方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的卡点视频的生成方法。

存储器1702作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的卡点视频的生成方法对应的程序指令/模块(例如，附图15所示的目标获取模块1501，能量提取模块1502，节奏点确定模块1503，目标视频生成模块1504及卡点视频生成模块1505)。处理器1701通过运行存储在存储器1702中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的卡点视频的生成方法。

存储器1702可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据图17的电子设备的使用所创建的数据等。此外，存储器1702可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1702可选包括相对于处理器1701远程设置的存储器，这些远程存储器可以通过网络连接至图17的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

图17的电子设备还可以包括：输入装置1703和输出装置1704。处理器1701、存储器1702、输入装置1703和输出装置1704可以通过总线或者其他方式连接，图17中以通过总线连接为例。

输入装置1703可接收输入的语音、数字或字符信息，以及产生与图17的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1704可以包括语音播放设备、显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，由于在生成目标卡点视频时，通过目标音乐的能量来确定目标节奏点的，而目标音乐的节奏点通常出现在能量较大的时间点上，所以通过目标音乐的能量能够准确确定出目标节奏点。并且本申请能够根据目标音乐和多个目标多媒体数据自动生成卡点视频，用户能够对音乐和多媒体数据进行个性化定制，无需人工参与制作，提高了卡点视频的生成效率。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种卡点视频的生成方法，其特征在于，所述方法应用于电子设备，所述方法包括：

获取用户确定的目标音乐和多个目标多媒体数据；

确定提取所述目标音乐能量数据的采样频率；采用音频处理工具中的能量提取函数按照所述采样频率提取所述目标音乐在每个采样时间点的能量数据；

根据所述目标音乐的能量数据确定所述目标音乐中的第一候选节奏点；

根据所述目标多媒体数据的个数从所述第一候选节奏点中筛选出目标节奏点，所述目标节奏点满足节奏点对应的能量特征的阈值；

按照预设的视频生成策略将所述目标多媒体数据转换成与所述目标节奏点相匹配的目标视频；

根据所述目标视频和所述目标音乐生成目标卡点视频。

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标音乐的能量数据确定所述目标音乐中的第一候选节奏点，包括：

对所述目标音乐的能量数据由大到小进行排序；

获取排列在前第一预设个数的能量数据对应的采样时间点为第一候选节奏点。

3.根据权利要求1所述的方法，其特征在于，所述根据所述目标多媒体数据的个数从所述第一候选节奏点中筛选出所述目标节奏点，包括：

根据所述目标多媒体数据的个数从所述第一候选节奏点中筛选出第二预设个数的第二候选节奏点；

对所述第二候选节奏点按照对应的能量数据由大到小排序；

将排列在前目标节奏点个数的第二候选节奏点确定为目标节奏点。

4.根据权利要求3所述的方法，其特征在于，所述根据所述目标多媒体数据的个数从所述第一候选节奏点中筛选出第二预设个数的第二候选节奏点，包括：

根据所述目标多媒体数据的个数确定所述目标节奏点个数；

根据预设能量阈值从所述第一候选节奏点中筛选出第二预设个数的第二候选节奏点。

5.根据权利要求1所述的方法，其特征在于，所述按照预设的视频生成策略将所述目标多媒体数据转换成与所述目标节奏点相匹配的目标视频，包括：

获取各相邻目标节奏点间的时间间隔；

根据各相邻目标节奏点间的时间间隔确定各目标节奏点处的转场时间；

根据各相邻目标节奏点间的时间间隔和对应的目标节奏点处的转场时间计算各待拼接视频片段持续时间；

根据各待拼接视频片段持续时间和对应的目标多媒体数据生成各待拼接视频片段；

根据各待拼接视频片段、各目标节奏点处的转场时间及转场动画类型生成与所述目标节奏点相匹配的目标视频。

6.根据权利要求5所述的方法，其特征在于，所述根据各相邻目标节奏点间的时间间隔确定各目标节奏点处的转场时间，包括：

确定各相邻目标节奏点间的时间间隔中的最小时间间隔；

7.根据权利要求5所述的方法，其特征在于，所述根据各相邻目标节奏点间的时间间隔和对应的目标节奏点处的转场时间计算各待拼接视频片段持续时间，包括：

获取各相邻目标节奏点中前目标节奏点对应的前半转场时间和后目标节奏点对应的后半转场时间；

将各相邻目标节奏点的时间间隔与对应的前半转场时间及对应的后半转场时间之和确定为各待拼接视频片段持续时间。

8.根据权利要求5所述的方法，其特征在于，所述目标多媒体数据为目标图片，所述根据各待拼接视频片段持续时间和对应的目标多媒体数据生成各待拼接视频片段之前，还包括：

9.根据权利要求8所述的方法，其特征在于，所述对所述目标图片进行填充处理，包括：

10.根据权利要求8所述的方法，其特征在于，所述根据各待拼接视频片段持续时间和对应的目标多媒体数据生成各待拼接视频片段，包括：

11.根据权利要求5所述的方法，其特征在于，所述根据各待拼接视频片段、各目标节奏点处的转场时间及转场动画类型生成与所述目标节奏点相匹配的目标视频，包括：

由所述ffmpeg-concat生成与所述目标节奏点相匹配的目标视频。

12.根据权利要求1所述的方法，其特征在于，所述根据所述目标视频和所述目标音乐生成目标卡点视频，包括：

13.根据权利要求1所述的方法，其特征在于，所述根据所述目标视频和所述目标音乐生成目标卡点视频之后，还包括：

14.一种卡点视频的生成装置，其特征在于，所述装置位于电子设备中，所述装置包括：

目标获取模块，用于获取用户确定的目标音乐和多个目标多媒体数据；

能量提取模块，用于提取所述目标音乐的能量数据；

节奏点确定模块，用于根据所述目标音乐的能量数据和目标多媒体数据的个数确定所述目标音乐中的目标节奏点；

目标视频生成模块，用于按照预设的视频生成策略将所述目标多媒体数据转换成与所述目标节奏点相匹配的目标视频；

卡点视频生成模块，用于根据所述目标视频和所述目标音乐生成目标卡点视频；

所述能量提取模块，具体用于：

所述节奏点确定模块，具体用于：

根据所述目标音乐的能量数据确定所述目标音乐中的第一候选节奏点；根据所述目标多媒体数据的个数从所述第一候选节奏点中筛选出所述目标节奏点，所述目标节奏点满足节奏点对应的能量特征的阈值。

15.根据权利要求14所述的装置，其特征在于，所述节奏点确定模块,在根据所述目标音乐的能量数据确定所述目标音乐中的第一候选节奏点时,具体用于：

16.根据权利要求14所述的装置，其特征在于，所述节奏点确定模块，在所述根据所述多媒体数据的个数从所述第一候选节奏点中筛选出所述目标节奏点时，具体用于：

17.根据权利要求16所述的装置，其特征在于，所述节奏点确定模块，在根据所述目标多媒体数据的个数从所述第一候选节奏点中筛选出第二预设个数的第二候选节奏点时，具体用于：

18.根据权利要求14所述的装置，其特征在于，所述目标视频生成模块，具体用于：

19.根据权利要求18所述的装置，其特征在于，目标视频生成模块，在所述根据各相邻目标节奏点间的时间间隔确定各目标节奏点处的转场时间时，具体用于：

20.根据权利要求18所述的装置，其特征在于，目标视频生成模块，在所述根据各相邻目标节奏点间的时间间隔和对应的目标节奏点处的转场时间计算各待拼接视频片段持续时间时，具体用于：

21.根据权利要求18所述的装置，其特征在于，所述目标多媒体数据为目标图片，所述目标视频生成模块，在所述根据各待拼接视频片段持续时间和对应的目标多媒体数据生成各待拼接视频片段之前，还用于：

22.根据权利要求21所述的装置，其特征在于，所述目标视频生成模块，在所述对所述目标图片进行填充处理时，具体用于：

23.根据权利要求21所述的装置，其特征在于，所述目标视频生成模块，在所述根据各待拼接视频片段持续时间和对应的目标多媒体数据生成各待拼接视频片段时，具体用于：

24.根据权利要求18所述的装置，其特征在于，所述目标视频生成模块，在所述根据各待拼接视频片段、各目标节奏点处的转场时间及转场动画类型生成与所述目标节奏点相匹配的目标视频时，具体用于：

25.根据权利要求14所述的装置，其特征在于，所述卡点视频生成模块，具体用于：

26.根据权利要求14所述的装置，其特征在于，还包括：

27.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-13中任一项所述的方法。

28.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-13中任一项所述的方法。