CN113099297B

CN113099297B - 卡点视频的生成方法、装置、电子设备及存储介质

Info

Publication number: CN113099297B
Application number: CN202110314586.9A
Authority: CN
Inventors: 汪谷
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2022-09-30
Anticipated expiration: 2041-03-24
Also published as: CN113099297A; WO2022198934A1

Abstract

本公开关于一种卡点视频的生成方法、装置、电子设备及存储无介质，其中方法通过获取多媒体资源中的候选帧画面以及对应的位置信息，基于候选帧画面以及对应的位置信息确定匹配的目标音乐以及目标帧画面，并对目标帧画面进行图像处理，得到目标帧画面中的卡点图像，进而根据多媒体资源、目标音乐以及卡点图像生成目标卡点视频。由于本公开是基于候选帧画面以及对应的位置信息自动匹配目标音乐以及目标帧画面，从而极大的提高了卡点视频的生成效率及匹配准确度。

Description

卡点视频的生成方法、装置、电子设备及存储介质

技术领域

本公开涉及视频处理技术，尤其涉及一种卡点视频的生成方法、装置、电子设备及存储无介质。

背景技术

随着互联网技术的快速发展，短视频的应用越来越广泛。而卡点视频的出现更是受到了越来越多人的喜爱，卡点视频是指在特定的时间点添加有特效画面的视频，具有良好的播放效果。

相关技术中，在制作卡点视频时，一般通过较为高级的剪辑软件打开原视频，然后手动查找目标帧，并对目标帧进行抠图，进一步基于音乐模板将抠图制作成动画。

然而，目前通过手动查找目标帧生成卡点视频的方式导致卡点视频的生成效率较低，且无法保证目标帧的位置与音乐模板中音乐节奏点的位置的匹配准确度。

发明内容

本公开提供一种卡点视频的生成方法、装置、电子设备及存储无介质，以至少解决相关技术中卡点视频生成效率低的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种卡点视频的生成方法，包括：

获取多媒体资源中的候选帧画面以及所述候选帧画面对应的位置信息；

基于所述候选帧画面以及所述候选帧画面对应的位置信息确定匹配的目标音乐以及目标帧画面；

对所述目标帧画面进行图像处理，得到所述目标帧画面中的卡点图像；

根据所述多媒体资源、目标音乐以及卡点图像生成目标卡点视频。

在其中一个实施例中，所述多媒体资源包括若干帧画面；所述获取多媒体资源中的候选帧画面以及所述候选帧画面对应的位置信息，包括：获取所述多媒体资源中的若干帧画面以及每一个帧画面位于所述多媒体资源中的位置信息；从所述若干帧画面中选取满足预设条件的帧画面，作为候选帧画面。

在其中一个实施例中，所述预设条件为基于图像质量预设的质量分值；所述从所述若干帧画面中选取满足预设条件的帧画面，作为候选帧画面，包括：基于每一个帧画面的图像质量，获取每一个帧画面对应的质量分值；获取所述质量分值满足预设的质量分值的帧画面作为候选帧画面。

在其中一个实施例中，所述基于所述候选帧画面以及所述候选帧画面对应的位置信息确定匹配的目标音乐以及目标帧画面，包括：获取所述多媒体资源的总时长，在卡点音乐库中筛选出与所述多媒体资源的总时长匹配的候选音乐，所述候选音乐中具有若干个卡点，所述卡点具有卡点时间点；基于所述卡点时间点确定匹配的目标音乐以及目标帧画面。

在其中一个实施例中，所述多媒体资源为包括若干帧画面的视频，所述候选帧画面对应的位置信息为所述候选帧画面位于所述视频中的时间点；所述基于所述卡点时间点确定匹配的目标音乐以及目标帧画面，包括：基于所述候选音乐的卡点时间点与每个所述候选帧画面位于所述视频中的时间点的匹配，确定每个候选音乐的卡点个数；获取匹配的卡点个数最多的候选音乐作为目标音乐，获取与所述目标音乐中的卡点时间点匹配的候选帧画面作为目标帧画面。

在其中一个实施例中，所述多媒体资源为包括若干帧画面的图像集；所述获取所述多媒体资源的总时长，包括：获取所述图像集中帧画面的个数；基于预设的每一个所述帧画面的展示时长以及所述图像集中帧画面的个数，计算得到所述图像集的展示总时长，将所述图像集的展示总时长确定为所述多媒体资源的总时长。

在其中一个实施例中，所述候选帧画面对应的位置信息为所述候选帧画面位于所述图像集中的展示时间点；所述基于所述卡点时间点确定匹配的目标音乐以及目标帧画面，包括：基于所述候选音乐的卡点时间点与每个所述候选帧画面位于所述图像集中的展示时间点的匹配，确定每个候选音乐的卡点个数；获取匹配的卡点个数最多的候选音乐作为目标音乐，获取与所述目标音乐中的卡点时间点匹配的候选帧画面作为目标帧画面。

在其中一个实施例中，所述获取与所述目标音乐中的卡点时间点匹配的候选帧画面作为目标帧画面之后，所述方法还包括：获取所述目标帧画面的个数；若所述目标帧画面的个数小于目标值，则从所述候选帧画面中筛选所述候选帧画面作为目标帧画面，直到所述目标帧画面的个数达到目标值。

在其中一个实施例中，所述对所述目标帧画面进行图像处理，得到所述目标帧画面中的卡点图像，包括：识别所述目标帧画面中的主体对象；提取所述主体对象作为所述目标帧画面中的卡点图像。

在其中一个实施例中，所述提取所述主体对象作为所述目标帧画面中的卡点图像，包括：若所述目标帧画面中存在多个主体对象，则获取每个所述主体对象在所述目标帧画面中的占比；提取占比最多的所述主体对象作为所述目标帧画面中的卡点图像。

在其中一个实施例中，所述根据所述多媒体资源、目标音乐以及卡点图像生成目标卡点视频，包括：将所述多媒体资源和所述目标音乐进行合并，得到合并后的视频；根据所述卡点图像以及所述卡点图像对应的目标帧画面的位置信息确定所述卡点图像在所述视频中的显示时间段；基于所述卡点图像在所述视频中的显示时间段，在所述视频中插入对应的卡点图像，生成所述目标卡点视频。

在其中一个实施例中，所述卡点图像在所述视频中的显示时间段包括所述卡点图像在所述视频中的显示开始时间点和显示结束时间点；所述根据所述卡点图像以及所述卡点图像对应的目标帧画面的位置信息确定所述卡点图像在所述视频中的显示时间段，包括：基于所述卡点图像对应的目标帧画面的位置信息，确定所述目标帧画面在所述视频中的时间点；将所述卡点图像对应的目标帧画面在所述视频中的时间点确定为所述卡点图像在所述视频中的显示结束时间点；基于预设的卡点时间配置将所述视频的开始时间点或当前所述卡点图像的上一帧卡点图像对应的目标帧画面在所述视频中的时间点，确定为所述卡点图像在所述视频中的显示开始时间点。

在其中一个实施例中，在所述生成目标卡点视频之后，所述方法还包括：响应于对所述目标卡点视频的播放指令，播放所述目标卡点视频；当所述卡点图像在所述视频中的显示开始时间点到达时，在播放画面的任意位置处以特效模式展示所述卡点图像；直到所述卡点图像与所述卡点图像对应的目标帧画面中相应位置重合，结束对所述卡点图像的展示。

根据本公开实施例的第二方面，提供一种卡点视频的生成装置，包括：

候选帧画面获取模块，被配置为获取多媒体资源中的候选帧画面以及所述候选帧画面对应的位置信息；

匹配模块，被配置为执行基于所述候选帧画面以及所述候选帧画面对应的位置信息确定匹配的目标音乐以及目标帧画面；

图像处理模块，被配置为执行对所述目标帧画面进行图像处理，得到所述目标帧画面中的卡点图像；

卡点视频生成模块，被配置为执行根据所述多媒体资源、目标音乐以及卡点图像生成目标卡点视频。

在其中一个实施例中，所述多媒体资源包括若干帧画面；所述候选帧画面获取模块被配置为执行：获取所述多媒体资源中的若干帧画面以及每一个帧画面位于所述多媒体资源中的位置信息；从所述若干帧画面中选取满足预设条件的帧画面，作为候选帧画面。

在其中一个实施例中，所述预设条件为基于图像质量预设的质量分值；所述候选帧画面获取模块还被配置为执行：基于每一个帧画面的图像质量，获取每一个帧画面对应的质量分值；获取所述质量分值满足预设的质量分值的帧画面作为候选帧画面。

在其中一个实施例中，所述匹配模块包括：总时长获取单元，被配置为执行获取所述多媒体资源的总时长，筛选单元，被配置为执行在卡点音乐库中筛选出与所述多媒体资源的总时长匹配的候选音乐，所述候选音乐中具有若干个卡点，所述卡点具有卡点时间点；确定单元，被配置为执行基于所述卡点时间点确定匹配的目标音乐以及目标帧画面。

在其中一个实施例中，所述多媒体资源为包括若干帧画面的视频，所述候选帧画面对应的位置信息为所述候选帧画面位于所述视频中的时间点；所述确定单元被配置为执行：基于所述候选音乐的卡点时间点与每个所述候选帧画面位于所述视频中的时间点的匹配，确定每个候选音乐的卡点个数；获取匹配的卡点个数最多的候选音乐作为目标音乐，获取与所述目标音乐中的卡点时间点匹配的候选帧画面作为目标帧画面。

在其中一个实施例中，所述多媒体资源为包括若干帧画面的图像集；所述总时长获取单元被配置为执行：获取所述图像集中帧画面的个数；基于预设的每一个所述帧画面的展示时长以及所述图像集中帧画面的个数，计算得到所述图像集的展示总时长，将所述图像集的展示总时长确定为所述多媒体资源的总时长。

在其中一个实施例中，所述候选帧画面对应的位置信息为所述候选帧画面位于所述图像集中的展示时间点；所述确定单元被配置为执行：基于所述候选音乐的卡点时间点与每个所述候选帧画面位于所述图像集中的展示时间点的匹配，确定每个候选音乐的卡点个数；获取匹配的卡点个数最多的候选音乐作为目标音乐，获取与所述目标音乐中的卡点时间点匹配的候选帧画面作为目标帧画面。

在其中一个实施例中，所述匹配模块被配置为执行：获取所述目标帧画面的个数；若所述目标帧画面的个数小于目标值，则从所述候选帧画面中筛选所述候选帧画面作为目标帧画面，直到所述目标帧画面的个数达到目标值。

在其中一个实施例中，所述图像处理模块被配置为执行：识别所述目标帧画面中的主体对象；提取所述主体对象作为所述目标帧画面中的卡点图像。

在其中一个实施例中，所述图像处理模块被配置为执行：若所述目标帧画面中存在多个主体对象，则获取每个所述主体对象在所述目标帧画面中的占比；提取占比最多的所述主体对象作为所述目标帧画面中的卡点图像。

在其中一个实施例中，所述卡点视频生成模块包括：合并单元，被配置为执行将所述多媒体资源和所述目标音乐进行合并，得到合并后的视频；显示时间段确定单元，被配置为执行根据所述卡点图像以及所述卡点图像对应的目标帧画面的位置信息确定所述卡点图像在所述视频中的显示时间段；目标卡点视频生成单元，被配置为执行基于所述卡点图像在所述视频中的显示时间段，在所述视频中插入对应的卡点图像，生成所述目标卡点视频。

在其中一个实施例中，所述卡点图像在所述视频中的显示时间段包括所述卡点图像在所述视频中的显示开始时间点和显示结束时间点；所述显示时间段确定单元被配置为执行：基于所述卡点图像对应的目标帧画面的位置信息，确定所述目标帧画面在所述视频中的时间点；将所述卡点图像对应的目标帧画面在所述视频中的时间点确定为所述卡点图像在所述视频中的显示结束时间点；基于预设的卡点时间配置将所述视频的开始时间点或当前所述卡点图像的上一帧卡点图像对应的目标帧画面在所述视频中的时间点，确定为所述卡点图像在所述视频中的显示开始时间点。

在其中一个实施例中，所述装置还包括展示模块，被配置为执行：响应于对所述目标卡点视频的播放指令，播放所述目标卡点视频；当所述卡点图像在所述视频中的显示开始时间点到达时，在播放画面的任意位置处以特效模式展示所述卡点图像；直到所述卡点图像与所述卡点图像对应的目标帧画面中相应位置重合，结束对所述卡点图像的展示。

根据本公开实施例的第三方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，使得电子设备执行第一方面的任一项实施例中所述的卡点视频的生成方法。

根据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行第一方面的任一项实施例中所述的卡点视频的生成方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行第一方面的任一项实施例中所述的卡点视频的生成方法。

本公开的实施例提供的技术方案至少带来以下有益效果：上述卡点视频的生成方法，通过获取多媒体资源中的候选帧画面以及候选帧画面对应的位置信息，基于候选帧画面以及对应的位置信息确定匹配的目标音乐以及目标帧画面，并对目标帧画面进行图像处理，得到目标帧画面中的卡点图像，进而根据多媒体资源、目标音乐以及卡点图像生成目标卡点视频。由于本公开是基于候选帧画面以及对应的位置信息自动匹配目标音乐以及目标帧画面，从而极大的提高了卡点视频的生成效率及匹配准确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种卡点视频的生成方法的应用环境图。

图2是根据一示例性实施例示出的一种卡点视频的生成方法的流程图。

图3是根据一示例性实施例示出的获取候选帧画面步骤的流程示意图。

图4是根据一示例性实施例示出的确定目标音乐及目标帧画面步骤的流程示意图。

图5是根据一示例性实施例示出的生成卡点视频步骤的流程示意图。

图6是根据一示例性实施例示出的一种卡点视频的生成装置的框图。

图7是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所提供的卡点视频的生成方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行交互。具体地，终端102中安装有服务器104提供服务的目标应用程序，使用终端102能够通过该目标应用程序与服务器104进行数据交互，以实现例如数据传输及消息交互等功能。其中，目标应用程序可以是视频播放应用程序、短视频播放应用程序、具有视频播放功能的社交应用程序或信息浏览应用程序等。相应的，终端102通过该目标应用程序可以基于多媒体资源生成并展示卡点视频。

其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在本实施例中，卡点视频的生成方法可以应用于终端102。具体地，当用户需要制作卡点视频时，可以通过终端102向目标应用程序发起对应的编辑指令，目标应用程序则通过终端102响应于该编辑指令，并从用于制作卡点视频的素材即多媒体资源中获取候选帧画面以及对应的位置信息，基于候选帧画面以及对应的位置信息确定匹配的目标音乐以及目标帧画面，并对目标帧画面进行图像处理，得到目标帧画面中的卡点图像，进而根据多媒体资源、目标音乐以及卡点图像生成目标卡点视频。由于本公开是基于候选帧画面以及对应的位置信息自动匹配目标音乐以及目标帧画面，从而极大的提高了卡点视频的生成效率及匹配准确度。

图2是根据一示例性实施例示出的一种卡点视频的生成方法的流程图，如图2所示，以该方法应用于图1中的终端102为例进行说明，包括以下步骤。

在步骤S210中，获取多媒体资源中的候选帧画面以及候选帧画面对应的位置信息。

其中，多媒体资源是指用于制作卡点视频的素材，包括但不限于文字、图片、照片、声音、动画和影片等。而卡点视频是指在特定的时间点添加有特效画面的视频。候选帧画面则是从多媒体资源中提取的用于生成特效画面的帧画面，即最终生成特效画面的帧画面是从候选帧画面中选取，位置信息则是指相应的候选帧画面位于多媒体资源中的时间分布信息。例如，当多媒体资源为动画时，候选帧画面则是基于一定规则从该动画的若干帧中提取的一帧或多帧用于生成特效画面的帧画面，若该动画的总时长为2分钟，位置信息则是指提取的一帧或多帧画面位于动画中的显示时间点。当多媒体资源为静态图像集时，候选帧画面则是基于一定规则从该图像集的若干帧中提取的一帧或多帧用于生成特效画面的帧画面，若该图像集中有N帧画面，位置信息则可以是指提取的一帧或多帧画面位于图像集中的位置顺序，位置信息还可以是基于一帧或多帧画面位于图像集中的位置顺序以及预设的每一帧画面的展示时间而确定的该一帧或多帧画面位于图像集中的展示时间点。在本实施例中，当用户需要制作卡点视频时，可以通过终端向目标应用程序发起对用于制作卡点视频的素材即多媒体资源的编辑指令，目标应用程序则通过终端响应于该编辑指令，并从多媒体资源中获取候选帧画面以及与候选帧画面对应的位置信息。

在步骤S220中，基于候选帧画面以及候选帧画面对应的位置信息确定匹配的目标音乐以及目标帧画面。

其中，目标音乐是指从卡点音乐库中筛选的与多媒体资源匹配的具有卡点信息的卡点音乐，而卡点信息则包括卡点以及卡点出现的时间点，卡点又俗称为节奏点或鼓点。目标帧画面则是从候选帧画面中选取的且与目标音乐匹配的最终用于生成特效画面的帧画面。在本实施例中，由于卡点音乐中具有卡点以及卡点出现的时间点等卡点信息，而候选帧画面也具有对应的位置信息，即上述确定的时间分布信息，因此，基于多媒体资源的总时长，并通过将卡点音乐中卡点出现的时间点与候选帧画面对应的时间分布信息进行匹配，从而得到匹配的目标音乐以及目标帧画面。

在步骤S230中，对目标帧画面进行图像处理，得到目标帧画面中的卡点图像。

其中，图像处理包括图像识别、对识别的图像进行抠图以及对所抠图像进行风格化处理(包括动漫化、提取描边等)等。卡点图像是指卡点视频中的特效画面。具体地，卡点图像可以通过对目标帧画面进行图像处理得到，例如，基于对目标帧画面中的主体对象进行识别以及抠图，并对所抠图像进行风格化处理后得到对应的卡点图像。

在步骤S240中，根据多媒体资源、目标音乐以及卡点图像生成目标卡点视频。

在本实施例中，基于卡点图像对应的时间分布信息，将多媒体资源、目标音乐以及卡点图像在时间上进行对齐并合并，从而得到合成后的目标卡点视频。在播放目标卡点视频的过程中，当目标音乐中卡点出现的时候，对应时间点的卡点图像通过特效画面的形式展示。

上述卡点视频的生成方法，通过获取多媒体资源中的候选帧画面以及候选帧画面对应的位置信息，基于候选帧画面以及候选帧画面对应的位置信息确定匹配的目标音乐以及目标帧画面，并对目标帧画面进行图像处理，得到目标帧画面中的卡点图像，进而根据多媒体资源、目标音乐以及卡点图像生成目标卡点视频。由于本公开是基于候选帧画面以及对应的位置信息自动匹配目标音乐以及目标帧画面，从而极大的提高了卡点视频的生成效率及匹配准确度。

在一示例性实施例中，多媒体资源包括若干帧画面，则如图3所示，在步骤S210中，获取多媒体资源中的候选帧画面以及候选帧画面对应的位置信息，具体可以通过以下步骤实现：

在步骤S212中，获取多媒体资源中的若干帧画面以及每一个帧画面位于多媒体资源中的位置信息。

其中，位置信息可以是指相应的帧画面位于多媒体资源中的时间分布信息。在本实施例中，以多媒体资源为视频为例来说，则将对应视频的所有帧进行分帧处理，从而得到视频中的每一个帧画面以及对应的位置信息，其中，位置信息可以是指对应帧画面位于视频中的时间点。举例来说，若对长度为5秒的视频进行分帧后，则得到对应的若干帧画面，且每一个帧画面在视频中具有对应的时间点，例如，若某一个帧画面对应视频中的时间点为3.86秒，则得到该帧画面对应的时间点信息为3.86秒。基于此，通过对视频进行分帧处理，从而得到视频的若干帧画面以及每一帧画面对应的时间点信息。以多媒体资源为静态图像集为例来说，则基于一定的排序规则获取该图像集中的每一帧画面，以及每一帧画面位于图像集中的位置顺序，也可以基于该位置顺序以及预设的每一帧画面的展示时间而获取每一帧画面位于图像集中的展示时间点，基于此，得到图像集的若干帧画面以及每一帧画面对应的展示时间点。

在步骤S214中，从若干帧画面中选取满足预设条件的帧画面，作为候选帧画面。

其中，预设条件可以是基于图像质量预设的质量分值。在本实施例中，可以基于每一个帧画面的图像质量，而得到每一个帧画面对应的质量分值，从而获取质量分值满足预设的质量分值的帧画面作为候选帧画面。具体地，可以基于预设的图像质量赋值规则为每一个帧画面的图像质量进行赋值处理，从而得到每一个帧画面对应的质量分值。举例来说，预设的赋值规则可以是基于帧画面中的具体图像质量以及占比确定，例如，若帧画面中包含对象正脸，则可以赋予该帧画面对应的质量分值或权重，若帧画面中包含对象全身，也可以赋予该帧画面对应的质量分值或权重，若帧画面中的主体对象达到整个画面的一定比例，则还可以赋予该帧画面对应的质量分值或权重。其中，具体赋予的质量分值或权重可以基于实际场景设置。

举例来说，以上述预设条件为例来说，若帧画面中的对象为人物，则通过对帧画面进行图像识别，确定该帧画面中是否包含人物正脸、是否包含人物全身以及该帧画面中的主体人物是否达到整个画面的一定比例，从而确定该帧画面的质量分值。

进一步地，为了提高候选帧画面的图像质量，还可以对上述满足预设的质量分值的帧画面进行进一步地筛选。具体地，可以基于图像质量，将达到预设质量分值的帧画面中不清楚的帧画面以及曝光异常的帧画面排除，从而将剩下的达到预设质量分值的且图像质量较好的帧画面作为候选帧画面。

上述实施例中，通过获取多媒体资源中的若干帧画面以及每一个帧画面位于多媒体资源中的位置信息，并从若干帧画面中选取满足预设条件的帧画面，作为候选帧画面，从而为后续生成卡点视频所需要的特效画面提供依据，以提高视频生成效率以及视频质量。

在一示例性实施例中，如图4所示，在步骤S220中，基于候选帧画面以及候选帧画面对应的位置信息确定匹配的目标音乐以及目标帧画面，具体可以通过以下步骤实现：

在步骤S222中，获取多媒体资源的总时长，在卡点音乐库中筛选出与多媒体资源的总时长匹配的候选音乐。

其中，卡点音乐库中存储有若干个卡点音乐，而每个卡点音乐具有对应的音乐播放时长，且每个卡点音乐中具有若干个卡点信息，卡点信息则包括卡点和卡点出现的时间点。由于在生成卡点视频后，卡点音乐通常作为多媒体资源的背景音乐进行播放，因此，两者的播放时长应该相当。基于此，在本实施例中，通过获取多媒体资源的总时长，从而在卡点音乐库中筛选出与多媒体资源的总时长匹配的候选音乐。也即，候选音乐是从卡点音乐库中筛选的与多媒体资源的总时长匹配的卡点音乐。多媒体资源的总时长则是指该多媒体资源中若干帧画面的展示总时长。举例来说，假设多媒体资源的总时长为X秒，则可以在卡点音乐库中筛选音乐播放时长为X秒-1.5倍的X秒的卡点音乐作为候选音乐，进而通过后续步骤确定目标音乐以及目标帧画面。

在步骤S224中，基于卡点时间点确定匹配的目标音乐以及目标帧画面。

在本实施例中，在通过上述步骤确定匹配的候选音乐后，还可以进一步基于候选音乐中的卡点时间点以及候选帧画面的时间分布信息，而确定匹配的目标音乐以及目标帧画面。

具体地，以多媒体资源为包括若干帧画面的视频为例来说，则候选帧画面对应的位置信息为该候选帧画面位于视频中的时间点。则基于候选音乐的卡点时间点与每个候选帧画面位于视频中的时间点的匹配，确定每个候选音乐的卡点个数，获取匹配的卡点个数最多的候选音乐作为目标音乐，获取与目标音乐中的卡点时间点匹配的候选帧画面作为目标帧画面。由于卡点视频是在特定的时间点添加有特效画面的视频。而卡点音乐中具有卡点，通常卡点出现的时间点即为卡点视频中的特定时间点，而特效画面则是与特定时间点匹配的候选帧画面。目标音乐是指从候选音乐中确定的最终用于生成卡点视频的卡点音乐。目标帧画面则是从候选帧画面中选取的与目标音乐匹配的最终用于生成特效画面的帧画面。举例来说，对于某个候选音乐，可以获取该候选音乐中的每一个卡点以及卡点出现的时间点，进而与候选帧画面对应的时间点进行匹配，若存在某一个卡点出现的时间点与某一个候选帧画面的时间点相同，则表示该候选音乐存在一个卡点成功的卡点信息。基于此，获取每一个候选音乐中与候选帧画面的时间点匹配的卡点信息的个数，即获取每一个候选点音乐中卡点成功的卡点个数。

进而基于每一个候选音乐中卡点成功的卡点个数，将卡点成功的卡点个数最多的候选音乐作为目标音乐。将与目标音乐中的卡点信息匹配的候选帧画面作为目标帧画面，若目标音乐中某一个卡点出现的时间点正好与某一个候选帧画面的时间点相同，则该候选帧画面则为目标帧画面。可以理解的是，由于卡点音乐是持续的，且存在多个卡点，因此，目标帧画面也可以存在多个。

示例性地，以多媒体资源为包括若干帧画面的图像集为例来说，则首先获取多媒体资源的总时长，具体地，通过获取图像集中帧画面的个数，并基于预设的每一个帧画面的展示时长以及图像集中帧画面的个数，计算得到图像集的展示总时长，从而将图像集的展示总时长确定为多媒体资源的总时长。因此，每一帧画面对应的位置信息为该帧画面位于图像集中的展示时间点，具体可以基于一定的排序规则确定每一帧画面位于图像集中的位置顺序，并基于该位置顺序以及预设的每一帧画面的展示时间而确定每一帧画面位于图像集中的展示时间点。同理，基于卡点时间点与每个候选帧画面位于图像集中的展示时间点的匹配，确定每个候选音乐的卡点的个数，进而获取匹配的卡点个数最多的候选音乐作为目标音乐，获取与目标音乐中的卡点时间点匹配的候选帧画面作为目标帧画面。

上述实施例中，通过获取多媒体资源的总时长，在卡点音乐库中筛选出与多媒体资源的总时长匹配的候选音乐，进而基于候选音乐中的卡点时间点确定匹配的目标音乐以及目标帧画面。。由于其通过多媒体资源的总时长自动匹配候选音乐，进而基于候选音乐中卡点出现的时间点与候选帧画面对应的时间点而自动匹配以确定目标音乐以及目标帧画面，相较于传统技术中手动查找目标帧画面的方式，极大地提高了卡点视频的生成效率。

在一示例性实施例中，为了进一步提高卡点视频的质量，在获取与目标音乐中的卡点信息匹配的候选帧画面作为目标帧画面之后，上述方法还包括：获取与目标音乐中的卡点信息匹配的目标帧画面的个数，若匹配的目标帧画面的个数小于目标值时，则从候选帧画面中随机筛选其他候选帧画面共同作为目标帧画面，直到目标帧画面的个数达到目标值。其中，目标值可以基于多媒体资源的总时长来确定，通常来说，卡点视频播放时每间隔两秒出现一帧特效画面其效果较好。当然，该目标值也可以是预先设定的固定值，例如5帧、7帧等，即卡点视频中至少应具有目标值个数的特效帧画面(也即目标帧画面)。从而避免了因目标帧画面的个数较少时，导致卡点视频的质量较差的问题。

在一示例性实施例中，对于某些极端情况，例如，若每个候选音乐中与候选帧画面以及对应的时间点信息匹配的卡点信息的个数都为零时，则表示没有与候选帧画面以及对应的时间点信息匹配的卡点音乐，此时，则可以通过线上的推荐模型获取评分最高的卡点音乐作为目标音乐。从而避免因匹配不上时没有卡点音乐的情况。

在一示例性实施例中，在步骤S230中，对目标帧画面进行图像处理，得到目标帧画面中的卡点图像，具体包括：识别目标帧画面中的主体对象，提取主体对象作为目标帧画面中的卡点图像。其中，主体对象可以基于多媒体资源的具体素材确定，若多媒体资源是涉及人物对象的素材，则主体对象可以是具体的人物对象；若多媒体资源是涉及其他动物对象的素材，则主体对象可以是具体的动物对象。在本实施例中，以多媒体资源是涉及人物对象的素材为例来说，则通过识别目标帧画面中的人物对象，进而对识别的人物对象进行抠图处理，从而将抠图得到的人物对象作为目标帧画面中的卡点图像。

在一示例性实施例中，当目标帧画面中存在多个主体对象时，则可以获取每个主体对象在目标帧画面中的占比，进而提取占比最多的主体对象作为目标帧画面中的卡点图像。

进一步地，为了提高卡点视频中特效画面的特效效果，还可以对抠图得到的人物对象进行风格化处理，例如，对抠图得到的人物对象进行动漫化处理或提取描边处理等，从而使得处理后的卡点图像具有更好的特效效果。

在一示例性实施例中，如图5所示，在步骤S240中，根据多媒体资源、目标音乐以及卡点图像生成目标卡点视频，具体可以通过以下步骤实现：

在步骤S242中，将多媒体资源和目标音乐进行合并，得到合并后的视频。

由于多媒体资源的总时长和目标音乐的音乐时长在时间长短上相当，因此，可以将多媒体资源和目标音乐基于其时长进行对齐合并，从而得到合并后的视频。

在步骤S244中，根据卡点图像以及卡点图像对应的目标帧画面的位置信息确定卡点图像在视频中的显示时间段。

由于卡点图像是基于对目标帧画面进行图像处理后得到，又由于每一个目标帧画面具有对应的位置信息，因此，通过对目标帧画面进行图像处理后得到的卡点图像也具有对应的位置信息。而卡点图像又是在特定的时间点添加到视频中的特效画面，基于此，根据卡点图像以及对应的位置信息可以确定卡点图像在视频中的显示时间段。

其中，卡点图像在视频中的显示时间段包括卡点图像在视频中的显示开始时间点和显示结束时间点。而显示结束时间点通常为该卡点图像在多媒体资源中的对应时间点，显示开始时间点则可以基于预设的卡点时间配置进行确定。举例来说，若多媒体资源的第一个卡点图像从03:10:24秒取出，第二个卡点图像从05:10:23秒取出，…，第n个卡点图像从45:10:23秒取出。若预设的卡点时间配置是将这n个卡点图像均向前覆盖显示，则其对应的显示时间段分别为【0，03:10:24】，【0，05:10:23】，…，【0，45:10:23】。即每个卡点图像的显示开始时间点均为多媒体资源的开始时间点，而每个卡点图像的显示结束时间点则为该卡点图像在多媒体资源中的对应时间点。且在每个卡点图像的覆盖时间里，卡点图像在画面中的显示起点可以是画面里的任意位置，显示终点则为该图像在多媒体资源中的原始位置，在显示时间段内，卡点图像是以特效模式展示，直到卡点图像与卡点图像对应的目标帧画面中相应位置重合，则结束对卡点图像的展示。需要说明的是，由于此种显示方式是在卡点视频的播放开始时就将所有的卡点图像显示出来，又由于受到显示画面大小的限制，因此，此种方式下对于卡点图像的个数具有一定的要求，通常以显示画面中能够显示的最多卡点图像的个数为准，且能够保证画面美观。

在一示例性实施例中，还是以上述多媒体资源的第一个卡点图像从03:10:24秒取出，第二个卡点图像从05:10:23秒取出，…，第n个卡点图像从45:10:23秒取出为例来说。若预设的卡点时间配置是在同一时间段只允许一个卡点图像向前覆盖显示，则第一个卡点图像对应的显示时间段为【0，03:10:24】，第二个卡点图像对应的显示时间段为【03:10:24，05:10:23】，…，第n个卡点图像对应的显示时间段为【t_{n-1}，45:10:23】。即每个卡点图像的显示结束时间点均为该卡点图像在多媒体资源中的对应时间点，而每个卡点图像的显示开始时间点则为该卡点图像的上一帧卡点图像对应的时间点。且在每个卡点图像的覆盖时间里，卡点图像在画面中的显示起点可以是画面里的任意位置，显示终点则为该图像在多媒体资源中的原始位置，即卡点图像与卡点图像对应的目标帧画面中相应位置重合，则结束对卡点图像的展示。在每个卡点图像的显示时间段内，对应的卡点图像可以在画面内运动，从而达到较好的特效效果。

在步骤S246中，基于卡点图像在视频中的显示时间段，在视频中插入对应的卡点图像，生成目标卡点视频。

具体地，基于上述确定的卡点图像在视频中的显示时间段，在视频的对应时间段插入相应的卡点图像，从而生成目标卡点视频，以实现在无需手动操作的情况下基于多媒体资源自动生成卡点视频，极大地提高了卡点视频的生成效率。

应该理解的是，虽然图1-图5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-图5中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

图6是根据一示例性实施例示出的一种卡点视频的生成装置框图。参照图6，该装置包括候选帧画面获取模块602，匹配模块604，图像处理模块606和卡点视频生成模块608。

候选帧画面获取模块602，被配置获取多媒体资源中的候选帧画面以及候选帧画面对应的位置信息；

匹配模块604，被配置为执行基于所述候选帧画面以及候选帧画面对应的位置信息确定匹配的目标音乐以及目标帧画面；

图像处理模块606，被配置为执行对所述目标帧画面进行图像处理，得到所述目标帧画面中的卡点图像；

卡点视频生成模块608，被配置为执行根据所述多媒体资源、目标音乐以及卡点图像生成目标卡点视频。

在一示例性实施例中，所述多媒体资源包括若干帧画面；所述候选帧画面获取模块被配置为执行：获取所述多媒体资源中的若干帧画面以及每一个帧画面位于所述多媒体资源中的位置信息；从所述若干帧画面中选取满足预设条件的帧画面，作为候选帧画面。

在一示例性实施例中，所述预设条件为基于图像质量预设的质量分值；所述候选帧画面获取模块还被配置为执行：基于每一个帧画面的图像质量，获取每一个帧画面对应的质量分值；获取所述质量分值满足预设的质量分值的帧画面作为候选帧画面。

在一示例性实施例中，所述匹配模块包括：总时长获取单元，被配置为执行获取所述多媒体资源的总时长，筛选单元，被配置为执行在卡点音乐库中筛选出与所述多媒体资源的总时长匹配的候选音乐，所述候选音乐中具有若干个卡点，所述卡点具有卡点时间点；确定单元，被配置为执行基于所述卡点时间点确定匹配的目标音乐以及目标帧画面。

在一示例性实施例中，所述多媒体资源为包括若干帧画面的视频，所述候选帧画面对应的位置信息为所述候选帧画面位于所述视频中的时间点；所述确定单元被配置为执行：基于所述候选音乐的卡点时间点与每个所述候选帧画面位于所述视频中的时间点的匹配，确定每个候选音乐的卡点个数；获取匹配的卡点个数最多的候选音乐作为目标音乐，获取与所述目标音乐中的卡点时间点匹配的候选帧画面作为目标帧画面。

在一示例性实施例中，所述多媒体资源为包括若干帧画面的图像集；所述总时长获取单元被配置为执行：获取所述图像集中帧画面的个数；基于预设的每一个所述帧画面的展示时长以及所述图像集中帧画面的个数，计算得到所述图像集的展示总时长，将所述图像集的展示总时长确定为所述多媒体资源的总时长。

在一示例性实施例中，所述候选帧画面对应的位置信息为所述候选帧画面位于所述图像集中的展示时间点；所述确定单元被配置为执行：基于所述候选音乐的卡点时间点与每个所述候选帧画面位于所述图像集中的展示时间点的匹配，确定每个候选音乐的卡点个数；获取匹配的卡点个数最多的候选音乐作为目标音乐，获取与所述目标音乐中的卡点时间点匹配的候选帧画面作为目标帧画面。

在一示例性实施例中，所述匹配模块被配置为执行：获取所述目标帧画面的个数；若所述目标帧画面的个数小于目标值，则从所述候选帧画面中筛选所述候选帧画面作为目标帧画面，直到所述目标帧画面的个数达到目标值。

在一示例性实施例中，所述图像处理模块被配置为执行：识别所述目标帧画面中的主体对象；提取所述主体对象作为所述目标帧画面中的卡点图像。

在一示例性实施例中，所述图像处理模块被配置为执行：若所述目标帧画面中存在多个主体对象，则获取每个所述主体对象在所述目标帧画面中的占比；提取占比最多的所述主体对象作为所述目标帧画面中的卡点图像。

在一示例性实施例中，所述卡点视频生成模块包括：合并单元，被配置为执行将所述多媒体资源和所述目标音乐进行合并，得到合并后的视频；显示时间段确定单元，被配置为执行根据所述卡点图像以及所述卡点图像对应的目标帧画面的位置信息确定所述卡点图像在所述视频中的显示时间段；目标卡点视频生成单元，被配置为执行基于所述卡点图像在所述视频中的显示时间段，在所述视频中插入对应的卡点图像，生成所述目标卡点视频。

在一示例性实施例中，所述卡点图像在所述视频中的显示时间段包括所述卡点图像在所述视频中的显示开始时间点和显示结束时间点；所述显示时间段确定单元被配置为执行：基于所述卡点图像对应的目标帧画面的位置信息，确定所述目标帧画面在所述视频中的时间点；将所述卡点图像对应的目标帧画面在所述视频中的时间点确定为所述卡点图像在所述视频中的显示结束时间点；基于预设的卡点时间配置将所述视频的开始时间点或当前所述卡点图像的上一帧卡点图像对应的目标帧画面在所述视频中的时间点，确定为所述卡点图像在所述视频中的显示开始时间点。

在一示例性实施例中，所述装置还包括展示模块，被配置为执行：响应于对所述目标卡点视频的播放指令，播放所述目标卡点视频；当所述卡点图像在所述视频中的显示开始时间点到达时，在播放画面的任意位置处以特效模式展示所述卡点图像；直到所述卡点图像与所述卡点图像对应的目标帧画面中相应位置重合，结束对所述卡点图像的展示。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种用于卡点视频的生成方法的设备Z00的框图。例如，设备Z00可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。

参照图7，设备Z00可以包括以下一个或多个组件：处理组件Z02、存储器Z04、电源组件Z06、多媒体组件Z08、音频组件Z10、输入/输出(I/O)的接口Z12、传感器组件Z14以及通信组件Z16。

处理组件Z02通常控制设备Z00的整体操作，诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件Z02可以包括一个或多个处理器Z20来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件Z02可以包括一个或多个模块，便于处理组件Z02和其他组件之间的交互。例如，处理组件Z02可以包括多媒体模块，以方便多媒体组件Z08和处理组件Z02之间的交互。

存储器Z04被配置为存储各种类型的数据以支持在设备Z00的操作。这些数据的示例包括用于在设备Z00上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器Z04可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘或光盘。

电源组件Z06为设备Z00的各种组件提供电力。电源组件Z06可以包括电源管理系统，一个或多个电源，及其他与为设备Z00生成、管理和分配电力相关联的组件。

多媒体组件Z08包括在所述设备Z00和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件Z08包括一个前置摄像头和/或后置摄像头。当设备Z00处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件Z10被配置为输出和/或输入音频信号。例如，音频组件Z10包括一个麦克风(MIC)，当设备Z00处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器Z04或经由通信组件Z16发送。在一些实施例中，音频组件Z10还包括一个扬声器，用于输出音频信号。

I/O接口Z12为处理组件Z02和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件Z14包括一个或多个传感器，用于为设备Z00提供各个方面的状态评估。例如，传感器组件Z14可以检测到设备Z00的打开/关闭状态，组件的相对定位，例如所述组件为设备Z00的显示器和小键盘，传感器组件Z14还可以检测设备Z00或设备Z00一个组件的位置改变，用户与设备Z00接触的存在或不存在，设备Z00方位或加速/减速和设备Z00的温度变化。传感器组件Z14可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件Z14还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件Z14还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。

通信组件Z16被配置为便于设备Z00和其他设备之间有线或无线方式的通信。设备Z00可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件Z16经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件Z16还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，设备Z00可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器Z04，上述指令可由设备Z00的处理器Z20执行以完成上述方法。例如，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行上述实施例中所述的卡点视频的生成方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种卡点视频的生成方法，其特征在于，所述方法包括：

获取多媒体资源中的候选帧画面以及所述候选帧画面对应的位置信息，所述候选帧画面是从所述多媒体资源中提取的图像质量满足预设条件的帧画面，所述位置信息是指所述候选帧画面位于所述多媒体资源中的时间分布信息；

对所述目标帧画面进行图像处理，得到所述目标帧画面中的卡点图像，所述卡点图像是从所述目标帧画面中提取的主体对象；

根据所述多媒体资源、目标音乐以及卡点图像生成目标卡点视频；

所述根据所述多媒体资源、目标音乐以及卡点图像生成目标卡点视频，包括：将所述多媒体资源和所述目标音乐进行合并，得到合并后的视频；根据所述卡点图像以及所述卡点图像对应的目标帧画面的位置信息确定所述卡点图像在所述视频中的显示时间段；基于所述卡点图像在所述视频中的显示时间段，在所述视频中插入对应的卡点图像，生成所述目标卡点视频。

2.根据权利要求1所述的方法，其特征在于，所述多媒体资源包括若干帧画面；所述获取多媒体资源中的候选帧画面以及所述候选帧画面对应的位置信息，包括：

获取所述多媒体资源中的若干帧画面以及每一个帧画面位于所述多媒体资源中的位置信息；

从所述若干帧画面中选取满足预设条件的帧画面，作为候选帧画面。

3.根据权利要求2所述的方法，其特征在于，所述预设条件为基于图像质量预设的质量分值；所述从所述若干帧画面中选取满足预设条件的帧画面，作为候选帧画面，包括：

基于每一个帧画面的图像质量，获取每一个帧画面对应的质量分值；

获取所述质量分值满足预设的质量分值的帧画面作为候选帧画面。

4.根据权利要求1所述的方法，其特征在于，所述基于所述候选帧画面以及所述候选帧画面对应的位置信息确定匹配的目标音乐以及目标帧画面，包括：

获取所述多媒体资源的总时长，在卡点音乐库中筛选出与所述多媒体资源的总时长匹配的候选音乐，所述候选音乐中具有若干个卡点，所述卡点具有卡点时间点；

基于所述卡点时间点确定匹配的目标音乐以及目标帧画面。

5.根据权利要求4所述的方法，其特征在于，所述多媒体资源为包括若干帧画面的视频，所述候选帧画面对应的位置信息为所述候选帧画面位于所述视频中的时间点；所述基于所述卡点时间点确定匹配的目标音乐以及目标帧画面，包括：

基于所述候选音乐的卡点时间点与每个所述候选帧画面位于所述视频中的时间点的匹配，确定每个候选音乐的卡点个数；

获取匹配的卡点个数最多的候选音乐作为目标音乐，获取与所述目标音乐中的卡点时间点匹配的候选帧画面作为目标帧画面。

6.根据权利要求4所述的方法，其特征在于，所述多媒体资源为包括若干帧画面的图像集；所述获取所述多媒体资源的总时长，包括：

获取所述图像集中帧画面的个数；

基于预设的每一个所述帧画面的展示时长以及所述图像集中帧画面的个数，计算得到所述图像集的展示总时长，将所述图像集的展示总时长确定为所述多媒体资源的总时长。

7.根据权利要求6所述的方法，其特征在于，所述候选帧画面对应的位置信息为所述候选帧画面位于所述图像集中的展示时间点；所述基于所述卡点时间点确定匹配的目标音乐以及目标帧画面，包括：

基于所述候选音乐的卡点时间点与每个所述候选帧画面位于所述图像集中的展示时间点的匹配，确定每个候选音乐的卡点个数；

8.根据权利要求5或7所述的方法，其特征在于，所述获取与所述目标音乐中的卡点时间点匹配的候选帧画面作为目标帧画面之后，所述方法还包括：

获取所述目标帧画面的个数；

若所述目标帧画面的个数小于目标值，则从所述候选帧画面中筛选所述候选帧画面作为目标帧画面，直到所述目标帧画面的个数达到目标值。

9.根据权利要求1至7任一项所述的方法，其特征在于，所述对所述目标帧画面进行图像处理，得到所述目标帧画面中的卡点图像，包括：

识别所述目标帧画面中的主体对象；

提取所述主体对象作为所述目标帧画面中的卡点图像。

10.根据权利要求9所述的方法，其特征在于，所述提取所述主体对象作为所述目标帧画面中的卡点图像，包括：

若所述目标帧画面中存在多个主体对象，则获取每个所述主体对象在所述目标帧画面中的占比；

提取占比最多的所述主体对象作为所述目标帧画面中的卡点图像。

11.根据权利要求1所述的方法，其特征在于，所述卡点图像在所述视频中的显示时间段包括所述卡点图像在所述视频中的显示开始时间点和显示结束时间点；所述根据所述卡点图像以及所述卡点图像对应的目标帧画面的位置信息确定所述卡点图像在所述视频中的显示时间段，包括：

基于所述卡点图像对应的目标帧画面的位置信息，确定所述目标帧画面在所述视频中的时间点；

将所述卡点图像对应的目标帧画面在所述视频中的时间点确定为所述卡点图像在所述视频中的显示结束时间点；

基于预设的卡点时间配置将所述视频的开始时间点或当前所述卡点图像的上一帧卡点图像对应的目标帧画面在所述视频中的时间点，确定为所述卡点图像在所述视频中的显示开始时间点。

12.根据权利要求11所述的方法，其特征在于，在所述生成目标卡点视频之后，所述方法还包括：

响应于对所述目标卡点视频的播放指令，播放所述目标卡点视频；

当所述卡点图像在所述视频中的显示开始时间点到达时，在播放画面的任意位置处以特效模式展示所述卡点图像；

直到所述卡点图像与所述卡点图像对应的目标帧画面中相应位置重合，结束对所述卡点图像的展示。

13.一种卡点视频的生成装置，其特征在于，包括：

候选帧画面获取模块，被配置为获取多媒体资源中的候选帧画面以及所述候选帧画面对应的位置信息，所述候选帧画面是从所述多媒体资源中提取的图像质量满足预设条件的帧画面，所述位置信息是指所述候选帧画面位于所述多媒体资源中的时间分布信息；

图像处理模块，被配置为执行对所述目标帧画面进行图像处理，得到所述目标帧画面中的卡点图像，所述卡点图像是从所述目标帧画面中提取的主体对象；

卡点视频生成模块，被配置为执行根据所述多媒体资源、目标音乐以及卡点图像生成目标卡点视频；

所述卡点视频生成模块包括：合并单元，被配置为执行将所述多媒体资源和所述目标音乐进行合并，得到合并后的视频；显示时间段确定单元，被配置为执行根据所述卡点图像以及所述卡点图像对应的目标帧画面的位置信息确定所述卡点图像在所述视频中的显示时间段；目标卡点视频生成单元，被配置为执行基于所述卡点图像在所述视频中的显示时间段，在所述视频中插入对应的卡点图像，生成所述目标卡点视频。

14.根据权利要求13所述的装置，其特征在于，所述多媒体资源包括若干帧画面；所述候选帧画面获取模块被配置为执行：

15.根据权利要求14所述的装置，其特征在于，所述预设条件为基于图像质量预设的质量分值；所述候选帧画面获取模块还被配置为执行：

16.根据权利要求13所述的装置，其特征在于，所述匹配模块包括：

总时长获取单元，被配置为执行获取所述多媒体资源的总时长；

筛选单元，被配置为执行在卡点音乐库中筛选出与所述多媒体资源的总时长匹配的候选音乐，所述候选音乐中具有若干个卡点，所述卡点具有卡点时间点；

确定单元，被配置为执行基于所述卡点时间点确定匹配的目标音乐以及目标帧画面。

17.根据权利要求16所述的装置，其特征在于，所述多媒体资源为包括若干帧画面的视频，所述候选帧画面对应的位置信息为所述候选帧画面位于所述视频中的时间点；所述确定单元被配置为执行：

18.根据权利要求16所述的装置，其特征在于，所述多媒体资源为包括若干帧画面的图像集；所述总时长获取单元被配置为执行：

获取所述图像集中帧画面的个数；

19.根据权利要求18所述的装置，其特征在于，所述候选帧画面对应的位置信息为所述候选帧画面位于所述图像集中的展示时间点；所述确定单元被配置为执行：

20.根据权利要求17或19所述的装置，其特征在于，所述匹配模块被配置为执行：

获取所述目标帧画面的个数；

21.根据权利要求13至19任一项所述的装置，其特征在于，所述图像处理模块被配置为执行：

识别所述目标帧画面中的主体对象；

提取所述主体对象作为所述目标帧画面中的卡点图像。

22.根据权利要求21所述的装置，其特征在于，所述图像处理模块被配置为执行：

23.根据权利要求13所述的装置，其特征在于，所述卡点图像在所述视频中的显示时间段包括所述卡点图像在所述视频中的显示开始时间点和显示结束时间点；所述显示时间段确定单元被配置为执行：

24.根据权利要求23所述的装置，其特征在于，所述装置还包括展示模块，被配置为执行：

25.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至12中任一项所述的卡点视频的生成方法。

26.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至12中任一项所述的卡点视频的生成方法。