CN111683209B

CN111683209B - 混剪视频的生成方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN111683209B
Application number: CN202010525272.9A
Authority: CN
Inventors: 蒋剑斌; 路香菊; 聂鹏飞; 方童童
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-06-10
Filing date: 2020-06-10
Publication date: 2023-04-18
Anticipated expiration: 2040-06-10
Also published as: CN111683209A

Abstract

本发明实施例提供了一种混剪视频的生成方法、装置、电子设备及计算机可读存储介质，该方法包括：获取用于描述待生成混剪视频的目标关键词；从预先建立的音乐素材库中，选择与目标关键词相匹配的目标音乐素材；从预先建立的视频素材库中，选择多个与目标关键词相匹配的视频素材，并确定为候选视频素材；根据预先确定的目标音乐素材的参数信息，从候选视频素材中，为目标音乐素材包括的每一个音乐片段选择相匹配的目标视频素材；将目标视频素材和目标音乐素材，合成为混剪视频。因此，本发明的方案，一定程度上缩短了合成混剪视频所耗费的时间，且降低了合成混剪视频对专业知识的要求。

Description

混剪视频的生成方法、装置、电子设备及计算机可读存储介质

技术领域

本发明涉及计算机技术领域，特别是涉及一种混剪视频的生成方法、装置、电子设备及计算机可读存储介质。

背景技术

明星粉丝向混剪视频是一种在粉丝圈中很受欢迎的视频创作形式，且多为明星个人向混剪视频。该类型视频多以明星在影视及杂志广告中的视频片段与图片作为视频素材，选取一首合适的音乐作为音乐素材，个人创作者会对音乐的节奏点进行卡点来进行转场，生成最终的明星混剪视频。

通常，个人创作者需要花费大量的时间收集视频素材、对音乐进行卡点以及应用软件进行视频合成。其中，对音乐进行卡点以及利用应用软件进行视频合成，往往还需要创作者具备一定的专业知识。因而，目前一个专业的剪辑师剪辑一个混剪视频也需要两天甚至一周的时间。而对于剪辑爱好者或者不会剪辑的人来说，制作这样一个视频则需要花费更多的时间。

由此可知，现有技术中存在人工剪辑混剪视频耗费时间长且需要专业知识高的问题。

发明内容

本发明实施例的目的在于提供一种混剪视频的生成方法、装置、电子设备及计算机可读存储介质，以在一定程度上缩短合成混剪视频所耗费的时间，且降低合成混剪视频对专业知识的要求。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种混剪视频的生成方法，包括：

获取用于描述待生成混剪视频的目标关键词；

从预先建立的音乐素材库中，选择与所述目标关键词相匹配的目标音乐素材；

从预先建立的视频素材库中，选择多个与所述目标关键词相匹配的视频素材，并确定为候选视频素材；

根据预先确定的所述目标音乐素材的参数信息，从所述候选视频素材中，为所述目标音乐素材包括的每一个音乐片段选择相匹配的目标视频素材，所述参数信息包括所述音乐片段的时长及所属的音乐类型；

将所述目标视频素材和所述目标音乐素材，合成为混剪视频。

在本发明实施的第二方面，还提供了一种混剪视频的生成装置，包括：

关键词获取模块，用于获取用于描述待生成混剪视频的目标关键词；

第一选择模块，用于从预先建立的音乐素材库中，选择与所述目标关键词相匹配的目标音乐素材；

第二选择模块，用于从预先建立的视频素材库中，选择多个与所述目标关键词相匹配的视频素材，并确定为候选视频素材；

匹配模块，用于根据预先确定的所述目标音乐素材的参数信息，从所述候选视频素材中，为所述目标音乐素材包括的每一个音乐片段选择相匹配的目标视频素材，所述参数信息包括所述音乐片段的时长及所属的音乐类型；

合成模块，用于将所述目标视频素材和所述目标音乐素材，合成为混剪视频。

在本发明实施的第三方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述的混剪视频的生成方法。

在本发明实施的第四方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的混剪视频的生成方法。

在本发明实施的第五方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的数据处理方法。

本发明实施例提供的混剪视频的生成方法，能够在获取到用于描述待生成混剪视频的目标关键词时，自动到预先建立的音乐素材库和视频素材库中，选择与目标关键词相匹配的一个目标音乐素材以及多个候选视频素材，然后从候选视频素材中，根据预先确定的该目标音乐素材包括的音乐片段的时长及所属音乐类型，为该目标音乐素材的每一个音乐片段选择相匹配的目标视频素材，进而将目标音乐素材和目标视频素材合成为一个混剪视频。

由此可知，本发明的实施例，在需要合成混剪视频时，只需要获取用于描述待生成混剪视频的关键词，就可以自动选择与该关键词匹配的音乐素材和视频素材，且自动将选出的视频素材与音乐素材的相应音乐片段进行匹配，进而合成混剪视频。其中，整个混剪视频的生成过程中，都是自动完成，并不涉及人工的干预，因此，本发明实施例的混剪视频的生成方法，不需要创作者花费大量的时间收集相应的素材，也不需要创作者人工对音乐进行卡点以及利用应用软件进行视频合成，因而采用本发明实施例的混剪视频的生成方法，在一定程度上缩短了合成混剪视频所耗费的时间，且降低了合成混剪视频对专业知识的要求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的一种混剪视频的生成方法的步骤流程图；

图2为本发明实施例提供的另一种混剪视频的生成方法的步骤流程图；

图3为本发明实施例中音乐素材库的创建过程的流程示意图；

图4为本发明实施例中视频素材库的创建过程的流程示意图；

图5为本发明实施例提供的一种混剪视频的生成装置的结构框图；

图6为本发明实施例提供的另一种混剪视频的生成装置的结构框图；

图7为本发明实施例提供的电子设备的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

图1是本发明实施例提供的一种混剪视频的生成方法。如图1所示，该混剪视频的生成方法可以包括以下步骤：

步骤101：获取用于描述待生成混剪视频的目标关键词。

其中，目标关键词用于描述待生成混剪视频，即目标关键词表示的是待生成混剪视频的特征信息。

本发明的实施例中，在需要生成一个混剪视频时，只需要获取所要生成的混剪视频的相关特征信息，作为目标关键词，从而可以根据该目标关键词执行后续的步骤102～104。

步骤102：从预先建立的音乐素材库中，选择与所述目标关键词相匹配的目标音乐素材。

其中，目标音乐素材为待生成混剪视频的背景音乐。

本发明的实施例中，音乐素材库中保存有多个音乐素材，其中，一首完整的音乐，或者从一首完整的音乐中截取的部分音乐，都可以作为一个音乐素材存储在音乐素材库中。

在通过步骤101中获取到目标关键词之后，可以根据该目标关键词，在音乐素材库中选择与该目标关键词匹配的音乐素材。其中，若在音乐素材库中查找到多个与目标关键词匹配的音乐素材，则可以随机选择其中一个作为目标音乐素材。

步骤103：从预先建立的视频素材库中，选择多个与所述目标关键词相匹配的视频素材，并确定为候选视频素材。

本发明的实施例中，视频素材库中包括多个视频素材，其中一个视频片段即可作为一个视频素材。

在获取到步骤101中获取到目标关键词之后，可以根据该目标关键词，在该视频素材库中选择与该目标关键词匹配的视频素材。其中，可以将与目标关键词相匹配的所有视频素材都作为候选视频素材，也可以随机选择其中的一部分视频素材作为候选视频素材。

步骤104：根据预先确定的所述目标音乐素材的参数信息，从所述候选视频素材中，为所述目标音乐素材包括的每一个音乐片段选择相匹配的目标视频素材。

其中，所述参数信息包括所述音乐片段的时长及所属的音乐类型，其中，预先确定的所述目标音乐素材的两个相邻转场时间点之间的音乐为一个音乐片段。

即本发明的实施例中，预先确定音乐素材库中的每一个音乐素材的转场时间点，然后确定每相邻两个转场时间点之间的音乐片段的时长及音乐片段所属的音乐类型，并将每相邻两个转场时间点之间的音乐片段的时长及音乐片段所属的音乐类型作为参数信息，存储在音乐素材库中，以便在步骤102中选出目标音乐素材后，可以直接从音乐素材库中读取目标音乐素材的参数信息，进而根据该目标音乐素材的参数信息，执行步骤104。

由上述可知，本发明的实施例，根据音乐片段的时长及所属的音乐类型，从候选视频素材中，为每一个音乐片段匹配视频素材。例如，目标视频素材包括音乐片段A、B、C，则首先根据音乐片段A的时长及所属的音乐类型，在候选视频素材中，选择一个与音乐片段A匹配的视频素材；然后，根据音乐片段B的时长及所属的音乐类型，在候选视频素材中，选择一个与音乐片段B匹配的视频素材；其次，根据音乐片段C的时长及所属的音乐类型，在候选视频素材中，选择一个与音乐片段C匹配的视频素材。

步骤105：将所述目标视频素材和所述目标音乐素材，合成为混剪视频。

其中，通过步骤104，为目视频素材包括的每一个音乐片段选择了相匹配的视频素材，则在步骤105中，合成混剪视频时，将步骤104中选出的视频素材，按照与视频素材对应的音乐片段的顺序，进行排序，然后将排序后的视频素材，与目标音乐素材进行合成，从而生成混剪视频。

由上述可知，本发明的实施例，在需要合成混剪视频时，只需要获取用于描述待生成混剪视频的关键词，就可以自动选择与该关键词匹配的音乐素材和视频素材，且自动将选出的视频素材与音乐素材的相应音乐片段进行匹配，进而合成混剪视频。其中，整个混剪视频的生成过程中，都是自动完成，并不涉及人工的干预，因此，本发明实施例的混剪视频的生成方法，不需要创作者花费大量的时间收集相应的素材，也不需要创作者人工对音乐进行卡点以及利用应用软件进行视频合成，因而采用本发明实施例的混剪视频的生成方法，在一定程度上缩短了合成混剪视频所耗费的时间，且降低了合成混剪视频对专业知识的要求。

图2是本发明实施例提供的一种混剪视频的生成方法。如图2所示，该内混剪视频的生成方法可以包括以下步骤：

步骤201：获取用于描述待生成混剪视频的目标关键词；

步骤202：从预先建立的音乐素材库中，选择与所述目标关键词相匹配的目标音乐素材；

步骤203：从预先建立的视频素材库中，选择多个与所述目标关键词相匹配的视频素材，并确定为候选视频素材，所述候选视频素材中包括第一类候选视频素材和第二类候选视频素材。

其中，所述第一类候选视频素材是不存在人脸的视频素材，所述第二类候选视频素材是存在人脸的视频素材。可选的，所述第一类候选视频素材为风景类视频素材。

因此，本发明的实施例中，通过步骤203从视频素材库中选出的，与目标关键词匹配的候选视频素材，包括不存在人脸的视频素材，以及存在人脸的视频素材。

步骤204：在第一音乐片段属于前奏或间奏的情况下，从所述第一类候选视频素材中，选择时长与第一时长之差的绝对值小于第一预设阈值的视频素材。

步骤205：在第二音乐片段属于主歌或副歌的情况下，从所述第二类候选视频素材中，选择时长与第二时长之差的绝对值小于所述第一预设阈值的视频素材。

其中，所述第一时长为所述第一音乐片段的时长，所述第二时长为所述第二音乐片段的时长，所述第一音乐片段、所述第二音乐片段，分别为所述目标音乐素材的其中一个音乐片段。目标音乐素材的两个相邻转场时间点之间的音乐组成一个音乐片段，其中一个音乐片段可能属于前奏、间奏、主歌和副歌中的其中一种。

由步骤204和步骤205可知，本发明的实施例，目标音乐素材的其中一个音乐片段为前奏或间奏时，在第一类候选视频素材库中选择与该音乐片段匹配的视频素材，而若该音乐片段为主歌或副歌，则在第二类候选视频素材中选择与该音乐片段匹配的视频素材。

即本发明的实施例中，为属于前奏和间奏的音乐片段匹配的是不存在人脸的视频素材，为属于主歌和副歌的音乐片段匹配的是存在人脸的视频素材，则采用本发明实施例的混剪视频的生成方法得到的混剪视频，在进行播放时，背景音乐的前奏和间奏显示的是不存在人脸的画面，在主歌和副歌显示的是存在人脸的画面，使得视频画面的显示随背景音乐的节奏产生更加鲜明的变化，这种视频画面和音乐的叠加变化，使混剪视频整体更具有冲击感，让人印象更加深刻。

另外，本发明的实施例中，为目标音乐素材包括的每一个音乐片段匹配视频素材时，选择的是时长与音乐片段的时长之差的绝对值小于第一预设阈值的视频素材(即选择的是与音乐片段的时长接近的视频素材)，从而使得最终合成的混剪视频的视频画面的切换与音乐的节奏变化相匹配，进而提升观看者的观看体验。

其中，若与目标音乐素材的一个音乐片段的时长之差小于第一预设阈值的视频素材包括多个，则可以进一步选择与该音乐片段的时长之差的绝对值最小的一个视频素材，作为与该音乐片段匹配的视频素材。

步骤206：将所述目标视频素材和所述目标音乐素材，合成为混剪视频。

可选的，从预先建立的视频素材库中，选择多个与所述目标关键词相匹配的视频素材，并确定为候选视频素材之后，还包括：

根据预先确定的所述第二类候选视频素材的精彩度评分，将所述第二类候选视频素材按照精彩度评分从小到大的顺序进行排序，获得目标排序；

从所述目标排序中，选出排位第i位至第j位的视频素材，并保存至第一集合中，i和j分别为正整数，j大于i；

从所述目标排序中，选出排位第m位至第n为的视频素材，并保存至第二集合中，n和m分别为正整数，n大于m，m大于j；

在第二音乐片段属于主歌的情况下，从所述第二类候选视频素材中，选择时长与第二时长之差的绝对值小于所述第一预设阈值的视频素材，包括：

在所述第二音乐片段属于主歌的情况下，从所述第一集合中，选择时长与所述第二时长之差的绝对值小于所述第一预设阈值的视频素材；

在第二音乐片段属于副歌的情况下，从所述第二类候选视频素材中，选择时长与第二时长之差的绝对值小于所述第一预设阈值的视频素材，包括：

在所述第二音乐片段属于副歌的情况下，从所述第二集合中，选择时长与所述第二时长之差的绝对值小于所述第一预设阈值的视频素材。

其中，精彩度评分是预先根据相应视频素材的播放频次、用户针对视频素材的评论信息等综合确定的。即在视频素材库中存储有存在人脸的视频素材的精彩度评分。

由上述可知，第一集合中存储的视频素材的精彩度评分，相较于第二集合中存储的视频素材的精彩度评分较低，且一个音乐片段属于主歌时，在第一集合中选择与该音乐片段匹配的视频素材，为副歌时，在第二集合中选择与该音乐片段匹配的视频素材，则本发明的实施例中，与属于主歌的音乐片段匹配的视频素材的精彩度评分，相较于与属于副歌的音乐片段匹配的视频素材的精彩度评分较低。其中，精彩度评分代表了一个视频素材的受欢迎程度，则在目标音乐素材的主歌部分(即平淡部分)显示一个精彩度评分较低的视频画面，在目标音乐素材的副歌部分(即高潮部分)显示一个精彩度评分较高的视频画面，使得最终得到的混剪视频的画面变化与音乐的节奏变化层次更鲜明。

可选的，确定出目标视频素材之后，将所述目标视频素材和所述目标音乐素材，合成为混剪视频之前，所述方法还包括：

在第四音乐片段的时长，小于与所述第四音乐片段匹配的目标视频素材的时长的情况下，将与所述第四音乐片段匹配的目标视频素材裁剪为第四时长，所述第四时长为所述第四音乐片段的时长；

在第五音乐片段的时长，大于与所述第五音乐片段匹配的目标视频素材的时长的情况下，将与所述第五音乐片段匹配的目标视频素材慢放处理，调整与所述第五音乐片段匹配的目标视频素材的时长为第五时长，所述第五时长为所述第五音乐片段的时长；

其中，所述第四音乐片段、所述第五音乐片段分别为所述目标音乐素材的其中一个音乐片段。

由上述可知，本发明的实施例中，目标音乐素材的其中一个音乐片段的时长若小于与该音乐片段匹配的视频素材的时长，则将与该音乐片段匹配的视频素材裁剪为与该音乐片段相等的时长；若该音乐片段的时长大于与该音乐片段匹配的视频素材的时长，则将与该音乐片段匹配的视频素材慢放处理，使得与该音乐片段匹配的视频素材的时长调整为与该音乐片段相等的时长。

其中，通过对与音乐片段匹配的视频素材的慢放处理以及裁剪处理，使得每一个音乐片段的时长与自身对应的视频素材的时长相等，从而使得目标音乐素材的转场时间点与视频画面的切换时间点更加匹配，进一步使得最终合成的混剪视频的视频画面的转场与音乐的节奏变化更加匹配，进而进一步提升观看者的观看体验。

可选的，所述音乐素材库的建立过程包括：

将预先获取的多个音乐素材保存至预先建立的音乐素材库中；

建立预先确定的所述音乐素材的转场时间点、相邻两个转场时间点之间的音乐构成的音乐片段所属的音乐类型、所述音乐素材所适用的视频内容类型和人物特征，与所述音乐素材的第一对应关系，并将所述第一对应关系保存至所述音乐素材库中。

其中，可以通过专业的剪辑人员人工标注音乐素材的转场时间点，然后确定每相邻两个转场时间点之间的音乐所属的音乐类型，即判断属于前奏、间奏、主歌、副歌中的哪一种，进而标注出音乐素材所适用的视频内容类型和人物特征。

视频内容类型即为视频画面所表达的主题的类型，例如视频内容类型可以包括：电影解说、街头采访、技能型视频、搞笑视频、以及影视剧集所属的剧类型(例如古装、警匪等)。

人物特征包括表情、动作、服饰类别、性别中的至少一项，其中表情可以为微笑、笑、大笑、哭、惊讶、恐惧、无表情中的其中一种，动作可以为打斗、跳舞、奔跑、飞行、开车中的其中一种，服饰类别可以为能够通过以深度残差网络(Deep residual network，Resnet50)作为基础网络进行图片分类的方法识别出的四十种服饰类别(例如旗袍、校服、军装等)中的其中一种。

由此可知，本发明的实施例中，音乐素材库中存储的是预先选出的多个音乐素材，以及每一个音乐素材的转场时间点、相邻两个转场时间点之间的音乐所属的音乐类型、所适用的视频内容类型和人物特征。

可选的，所述目标关键词包括第一关键词和第二关键词，所述第一关键词为所述待生成混剪视频的视频内容类型，所述第二关键词为所述待生成混剪视频中包括的第一目标人物的人物特征；

所述从预先建立的音乐素材库中，选择与所述目标关键词相匹配的目标音乐素材，包括：

根据所述音乐素材库中存储的音乐素材所适用的视频内容类型和所适用的人物特征，从所述音乐素材库中，选择与所述第一关键词和所述第二关键词均匹配的目标音乐素材。

其中，由于音乐素材库中存储有每一个音乐素材可以适用的视频内容类型和人物特征，则在需要生成混剪视频时，则可以通过待生成混剪视频的视频内容类型以及包括的第一目标人物的人物特征，在音乐素材库中，选择一首合适的音乐素材。例如，上述目标关键词包括古装(即视频内容类型)、笑(即人物表情)、跳舞(即人物动作)，则可以根据音乐素材库中存储的每一个音乐素材可以适用的视频内容类型和人物特征，选择适用于古装剧，人物表情为笑，人物动作为跳舞的音乐素材，作为待生成混剪视频的背景音乐。

可选的，将所述第一对应关系保存至所述音乐素材库中之前，所述音乐素材库的建立过程还包括：

采用鼓点检测算法，检测所述音乐素材的节奏点；

将所述音乐素材的转场时间点调整至与所述转场时间点间隔时间最短的节奏点上。

其中，由于人工标注的转场时间点难免会有误差，因而，本发明的实施例中，在将每一个音乐素材的转场时间点、相邻两个转场时间点之间的音乐构成的音乐片段所属的音乐类型、所适用的视频内容类型和人物特征保存至音乐素材库之前，还可采用鼓点(Beat)检测算法检测出音乐的节奏点，对于人工标注的转场时间点进行微调，使得人工标注的转场时间点落在节奏点上，进而使得后续利用音乐素材库中的音乐素材制作混剪视频时，视频画面的转换与音乐的节奏变化更加匹配。

由上述可知，本发明的实施例，对于音乐素材库的创建过程的具体实施方式可以如图3所示。即首先专业的剪辑人员对音乐素材进行标注，标注分为三个方面：第一方面，音乐在什么时间点进行转场；第二方面，每相邻的两个转场时间点之间的音乐的音乐类型，即属于主歌、副歌、前奏、间奏中的哪一种；第三方面，标注音乐适合的视频内容类型和人物特征；然后，利用鼓点检测算法，检测出音乐的节奏点，调整人工标注的转场时间点至与该转场时间点最近的节奏点上；最后，将调整之后的转场时间点、每相邻的两个转场时间点之间的音乐类型、视频内容类型和人物特征，与相对应的音乐素材一一对应，并保存至音乐素材库中。

可选的，所述视频素材库的建立过程包括：

将预先获取的多个视频样本拆分为多个视频素材，其中，一个视频样本的一个镜头为一个视频素材；

从拆分获得的多个视频素材中，选出包括第二目标人物的视频素材，确定为第一视频素材，并将所述第一视频素材保存至所述视频素材库中；

从所述多个视频素材中，选出不存在人脸的视频素材，确定为第二视频素材，将所述第二视频素材保存至所述视频素材库中，并在所述视频素材库中为所述第二视频素材添加预设标记，所述预设标记用于指示所述第二视频素材中不存在人脸；

获取所述第一视频素材的视频内容类型、所述第一视频素材的中的主角人物的名称及人物特征，建立与所述第一视频素材的第二对应关系，并将所述第二对应关系保存至所述视频素材库中；

获取所述第二视频素材的视频内容类型，建立与所述第二视频素材的第三对应关系，并将所述第三对应关系保存至所述视频素材库中。

由上述可知，本发明的实施例中，一个镜头的视频片段构成一个视频素材，视频素材库中包括存在人脸的视频素材以及不存在人脸的视频素材，并且视频素材中是否存在人脸通过预设标记进行区分，即一个视频素材若标记有预设标记，则表示该视频素材中不存在人脸；若未标记预设标记，则表示该视频素材中存在人脸。

其中，对于存在人脸的视频素材，还可识别该视频素材中主角人物的人物特征及人物名称，并存入视频素材库，以便于需要生成混剪视频时，可以作为选择视频素材的依据。其中，人物特征可以包括表情、动作、服饰类别、性别中的至少一项。表情与服饰类别，均可以采用以深度残差网络作为基础网络进行图片分类的方法进行识别，目前表情能够识别微笑、笑、大笑、哭、惊讶、恐惧，无表情共七种表情；服饰能够识别旗袍，校服，军装等四十种服饰类型。动作识别采用的是时态分段网络(Temporal Segment Networks，TSN)算法，目前能够识别打斗、跳舞、奔跑、飞行、开车共五种动作。

另外，在获取视频样本时即可记录该视频样本所属的视频内容类型，则将视频样本拆分为多个视频素材时，无论是否存在人脸，都可以将视频素材所属的视频内容类型记录下来，并保存至视频素材库中，以便于需要生成混剪视频时，可以作为选择视频素材的依据。

可选的，所述目标关键词包括第一关键词、第二关键词和第一目标人物的名称，所述第一关键词为所述待生成混剪视频的视频内容类型，所述第二关键词为所述待生成混剪视频中的包括的所述第一目标人物的人物特征；

所述从预先建立的视频素材库中，选择多个与所述目标关键词相匹配的视频素材，并确定为候选视频素材，包括：

根据所述视频素材库中存储的视频素材的内容类型以及所述预设标记，从视频素材库中选择与所述第一关键词相匹配，且标有所述预设标记的视频素材，并确定为第一类候选视频素材；

根据所述视频素材库中存储的视频素材的视频内容类型、视频素材的中的主角人物的名称和人物特征，从所述视频素材库中选择与所述第一关键词和所述第二关键词均匹配，且主角名称为所述第一目标人物的名称的视频素材，并确定为第二类候选视频素材。

其中，上述第一类候选视频素材可以用于与属于前奏或间奏的音乐片段相匹配，第二类候选视频素材可以用于与属于主歌或副歌的音乐片段相匹配。

由上述可知，视频素材库中存储有存在人脸的视频素材，以及存在人脸的视频素材的视频内容类型和主角人物的名称及人物特征，还存储有不存在人脸的视频素材以及不存在人脸的视频素材的视频内容类型，则可以通过待生成混剪视频的视频内容类型以及待生成混剪视频包括的第一目标人物的人物特征和人物名称，在视频素材库中，选择合适的视频素材。

例如，上述目标关键词包括古装(即视频内容类型)、笑(即人物表情)、跳舞(即人物动作)，以及第一目标人物的名称，则可以根据视频素材库中存储的不存在人脸的视频素材的视频内容类型，选择用于古装剧且不存在人脸的视频素材，作为待生成混剪视频的第一类候选视频素材；然后，根据视频素材库中存储的存在人脸的视频素材的视频内容类型和主角人物的名称及人物特征，选择适用于古装剧，且人物表情为笑，人物动作为跳舞，且主角人物名称为第一目标人物的名称的视频素材，作为待生成混剪视频的第二类候选视频素材。

可选的，从拆分获得的多个视频素材中，选出包括第二目标人物的视频素材，确定为第一视频素材之后，所述视频素材库的建立过程还包括：

获取所述第一视频素材的精彩度评分，建立与所述第一视频素材的第四对应关系，并将所述第四对应关系保存至所述视频素材库中。

即本发明的实施例中，视频素材库中还可存储有存在人脸的视频素材的精彩度评分，以便于在生成混剪视频的过程中，为作为混剪视频的背景音乐的音乐素材的每一个音乐片段选择相匹配的视频素材的依据。

可选的，所述将预先获取的多个视频样本拆分为多个视频素材，包括：

将所述视频样本进行解帧处理；

采用镜头检测算法，对解帧处理之后的所述视频样本进行检测，获得所述视频样本中发生镜头切换的图像帧，并确定为镜头边界；

将一个所述视频样本中，相邻两个镜头边界之间的图像帧组成的视频片段，确定为一个视频素材。

其中，解帧处理，即为将视频样本的每一个图像帧都分解开，从而便于进行镜头检测。

另外，本发明的实施例中，将一个镜头作为一个视频素材，从而使得依据此视频素材合成的混剪视频的视频画面的切换，与镜头的切换相匹配，进而使得最终合成的混剪视频的画面切换更自然。

可选的，所述从拆分获得的多个视频素材中，选出包括第二目标人物的视频素材，包括：

采用人脸检测算法和人脸识别算法，从拆分获得的多个视频素材中，选出包括第二目标人物的视频素材。

即采用人脸检测算法和人脸识别算法，对视频素材的每一个图像帧进行检测，判断每一帧图像是否包括第二目标人物。具体地，可以首先采用人脸检测算法检测出图像帧中人脸所在位置，再利用虹软离线人脸识别(ArcFace arcFace)算法对每张人脸提取512维特征，最后利用层次分析法对人脸特征进行聚类，对类中心与人脸识别库中存储的明星图像的类中心特征，进行比对从而得到一个视频素材的每一个图像帧的人脸识别结果。

可选的，将所述第一视频素材保存至所述视频素材库中之前，所述视频素材库的建立过程还包括：

获取每一个所述第一视频素材的所有图像帧中出现的所述第二目标人物的人脸的第一数量，以及每一个所述第一视频素材的所有图像帧中出现的人脸的总数量；

计算每一个所述第一视频素材的所述第一数量与所述总数量的比值，并将所述比值确定为第一目标参数；

将小于第二预设阈值的所述第一目标参数对应的第一视频素材剔除。

本发明的实施例中，从拆分获得的多个视频素材中，选出包括第二目标人物的第一视频素材后，可以进一步根据第二目标人物的人脸在第一视频素材中的数量，对选出的第一视频素材进行筛选，从而剔除第二目标人物的人脸出现数量较少的第一视频素材，在一定程度上避免了将主角不是第二目标人物的视频素材也保存至视频素材库中，而使得后续生成混剪视频的过程中却选择了包括第二目标人物但不是主角的视频素材，导致最终合成的混剪视频不理想。

具体的，例如一个第一视频素材包括250个图像帧，则经过统计，这250个图像帧中，第二目标人物出现X次，而所有人脸(其中包括第二目标人物的人脸)出现Y次，则在X/Y小于第二预设阈值时，则表示第二目标人物的人脸在该第一视频素材中出现的次数较少，即需要将该第一视频素材剔除。

获取每一个所述第一视频素材的每一个图像帧中出现的各人物的人脸尺寸；

计算每一个所述第一视频素材中出现的各人物的平均人脸尺寸；

获取每一个所述第一视频素材的第二目标参数，其中，一个第一视频素材的第二目标参数包括该第一视频素材中出现的所述第二目标人物的平均人脸尺寸，分别与该第一视频素材中出现的除所述第二目标人物之外的其他人物的平均人脸尺寸的比值；

在所述第二目标参数中包括的每一个比值都小于第三预设阈值的情况下，将该第二目标参数对应的第一视频素材剔除。

本发明的实施例中，从拆分获得的多个视频素材中，选出包括第二目标人物的第一视频素材后，可以进一步根据第二目标人物的人脸在第一视频素材中尺寸，对选出的第一视频素材进行筛选，从而剔除第二目标人物的人脸尺寸较小的第一视频素材，也可以在一定程度上避免将主角不是第二目标人物的视频素材也保存至视频素材库中，而使得后续生成混剪视频的过程中却选择了包括第二目标人物但不是主角的视频素材，导致最终合成的混剪视频不理想。

具体的，例如一个第一视频素材包括250个图像帧，第1帧包括人物A、B、C，第2帧包括人物A、B、C，第3帧包括人物A、B、C、D……第250帧包括人物A，(其中人物A表示第二目标人物)，则可以分别检测出每一个图像帧中出现的人脸尺寸，然后依次分别计算这250帧中出现的每一个人物的平均人脸尺寸，假设这250个图像帧中出现的所有人物分别为上述人物A、B、C、D，且每个人物的平均人脸尺寸分别为a、b、c、d，则还需计算人物A的平均人脸尺寸分别与人物B、C、D的平均人脸尺寸的比值，即计算a/b、a/c、a/d，则a/b、a/c、a/d组成了这个第一视频素材的第二目标参数。其中，在a/b、a/c、a/d分别均小于第三预设值时，表示人物A(即第二目标人物)的人脸尺寸较小，即该第一视频素材需要剔除。

由上述可知，本发明的实施例，对于视频素材库的创建过程的具体实施方式可以如图4所示。具体如下所述：

首先，下载属于多个不同视频内容类型的视频样本，对视频样本进行解帧处理，利用镜头检测算法对视频镜头进行检测，从而将一个视频样本按照镜头拆分为多个视频素材；

其次，利用人脸检测与识别算法对视频素材进行识别，找出所有属于第二目标人物的视频素材，并确定为第一视频素材；

再次，对第一视频素材进行筛选，其中筛选规则为：(一)第一视频素材中的第二目标人脸的数量与该第一视频素材中所有人脸的数量之比大于或等于第二预设阈值；(二)第一视频素材中的第二目标人脸的平均尺寸与该第一视频素材中其他人脸的平均尺寸之比均大于或等于第三预设阈值，对通过前述两个规则的第一视频素材存入视频素材库；

再次，对入库的第一视频素材进行标签打点，主要包含表情(笑、哭、生气等)、动作(打斗、跳舞、吃饭等)、服饰类别(服饰颜色、款式等)；

再次，获取入库的第一视频素材的精彩度评分，并存入视频素材库中；

再次，从拆分获得的视频素材中，找出不存在人脸的视频素材，确定为第二视频素材并存入视频素材库中；

最后，记录入库的视频素材所属的视频内容类型。

此外，基于按照图3所示的过程创建的音乐素材库，以及图4所示的过程创建的视频素材库，生成一个混剪视频具体实施过程可如下所述：

首先，获取第一关键词、第二关键词和第一目标人物的名称，其中，第一关键词为待生成混剪视频的视频内容类型，第二关键词为待生成混剪视频中的包括的第一目标人物的人物特征；

其次，从音乐素材库中，选择一个与第一关键词和第二关键词均匹配的目标音乐素材；

再次，从视频素材库中，选出与第一关键词相匹配，且不存在人脸的视频素材，并作为第一类候选视频素材；

再次，从视频素材库中，选择与第一关键词、第二关键词均匹配，且主角名称为第一目标人物的名称的视频素材，并作为第二类候选视频素材；

再次，依次为目标音乐素材的每一个音乐片段，选择相匹配的目标视频素材，具体的：

将第二类候选视频素材，按照精彩度评分由小到大的顺序进行排序，然后选取排位第i位至第j位的视频素材，并保存至第一集合中，选取排位第m位至第n为的视频素材，并保存至第二集合中；

当一个音乐片段为主歌时，从第一集合中，选择时长与该音乐片段的时长之差的绝对值小于第一预设阈值的视频素材；

当一个音乐片段为副歌时，从第二集合中，选择时长与该音乐片段的时长之差的绝对值小于第一预设阈值的视频素材；

当一个音乐片段为前奏或间奏时，从第一类候选视频素材中，选择时长与该音乐片段的时长之差的绝对值小于第一预设阈值的视频素材；

再次，将与每一个音乐片段相匹配的目标视频素材进行慢放或者裁剪，使得目标视频素材的时长与对应的音乐片段相等；

最后，将目标音乐素材，与调整时长之后的目标视频素材进行合成，从而获得一个混剪视频。

综上所述，本发明的实施例，预先建立音乐素材库和视频素材库，从而在需要合成混剪视频时，只需要获取用于描述待生成混剪视频的关键词，就可以自动选择与该关键词匹配的音乐素材和视频素材，且自动将选出的视频素材与音乐素材的相应音乐片段进行匹配，进而合成混剪视频。其中，整个混剪视频的生成过程中，都是自动完成，并不涉及人工的干预，因此，本发明实施例的混剪视频的生成方法，不需要创作者花费大量的时间收集相应的素材，也不需要创作者人工对音乐进行卡点以及利用应用软件进行视频合成，因而采用本发明实施例的混剪视频的生成方法，在一定程度上缩短了合成混剪视频所耗费的时间，且降低了合成混剪视频对专业知识的要求。

图5是本发明实施例提供的一种混剪视频的生成装置的结构框图。如图5所示，该混剪视频的生成装置50可以包括：

关键词获取模块501，用于获取用于描述待生成混剪视频的目标关键词；

第一选择模块502，用于从预先建立的音乐素材库中，选择与所述目标关键词相匹配的目标音乐素材；

第二选择模块503，用于从预先建立的视频素材库中，选择多个与所述目标关键词相匹配的视频素材，并确定为候选视频素材；

匹配模块504，用于根据预先确定的所述目标音乐素材的参数信息，从所述候选视频素材中，为所述目标音乐素材包括的每一个音乐片段选择相匹配的目标视频素材，所述参数信息包括所述音乐片段的时长及所属的音乐类型；

合成模块505，用于将所述目标视频素材和所述目标音乐素材，合成为混剪视频。

图6是本发明实施例提供的一种混剪视频的生成装置的结构框图。如图6所示，该混剪视频的生成装置60可以包括：

关键词获取模块601，用于获取用于描述待生成混剪视频的目标关键词；

第一选择模块602，用于从预先建立的音乐素材库中，选择与所述目标关键词相匹配的目标音乐素材；

第二选择模块603，用于从预先建立的视频素材库中，选择多个与所述目标关键词相匹配的视频素材，并确定为候选视频素材；

匹配模块604，用于根据预先确定的所述目标音乐素材的参数信息，从所述候选视频素材中，为所述目标音乐素材包括的每一个音乐片段选择相匹配的目标视频素材，所述参数信息包括所述音乐片段的时长及所属的音乐类型；

合成模块605，用于将所述目标视频素材和所述目标音乐素材，合成为混剪视频。

可选的，所述音乐类型包括前奏、间奏、主歌和副歌；所述候选视频素材中包括第一类候选视频素材和第二类候选视频素材，所述第一类候选视频素材是不存在人脸的视频素材，所述第二类候选视频素材是存在人脸的视频素材；

所述匹配模块604包括：

第一匹配子模块6041，用于在第一音乐片段属于前奏或间奏的情况下，从所述第一类候选视频素材中，选择时长与第一时长之差的绝对值小于第一预设阈值的视频素材，所述第一时长为所述第一音乐片段的时长；

第二匹配子模块6042，用于在第二音乐片段属于主歌或副歌的情况下，从所述第二类候选视频素材中，选择时长与第二时长之差的绝对值小于所述第一预设阈值的视频素材，所述第二时长为所述第二音乐片段的时长；

其中，所述第一音乐片段、所述第二音乐片段，分别为所述目标音乐素材的其中一个音乐片段。

可选的，所述装置还包括：

排序模块606，用于根据预先确定的所述第二类候选视频素材的精彩度评分，将所述第二类候选视频素材按照精彩度评分从小到大的顺序进行排序，获得目标排序；

第一存储模块607，用于从所述目标排序中，选出排位第i位至第j位的视频素材，并保存至第一集合中，i和j分别为正整数,j大于i；

第二存储模块608，用于从所述目标排序中，选出排位第m位至第n为的视频素材，并保存至第二集合中，n和m分别为正整数,n大于m，m大于j；

所述第二匹配子模块6042包括：

主歌匹配单元60421，用于在所述第二音乐片段属于主歌的情况下，从所述第一集合中，选择时长与所述第二时长之差的绝对值小于所述第一预设阈值的视频素材；

副歌匹配单元60422，用于在所述第二音乐片段属于副歌的情况下，从所述第二集合中，选择时长与所述第二时长之差的绝对值小于所述第一预设阈值的视频素材。

可选的，所述装置还包括：

慢放处理模块609，用于在第四音乐片段的时长，小于与所述第四音乐片段匹配的目标视频素材的时长的情况下，将与所述第四音乐片段匹配的目标视频素材裁剪为第四时长，所述第四时长为所述第四音乐片段的时长；

截取模块610，用于在第五音乐片段的时长，大于与所述第五音乐片段匹配的目标视频素材的时长的情况下，将与所述第五音乐片段匹配的目标视频素材慢放处理，调整与所述第五音乐片段匹配的目标视频素材的时长为第五时长，所述第五时长为所述第五音乐片段的时长；

可选的，所述装置还包括音乐素材库创建模块611，用于创建所述音乐素材库；

所述音乐素材库创建模块611包括：

第一存储子模块6111，用于将预先获取的多个音乐素材保存至预先建立的音乐素材库中；

第二存储子模块6112，用于建立预先确定的所述音乐素材的转场时间点、相邻两个转场时间点之间的音乐构成的音乐片段所属的音乐类型、所述音乐素材所适用的视频内容类型和人物特征，与所述音乐素材的第一对应关系，并将所述第一对应关系保存至所述音乐素材库中。

可选的，所述音乐素材库创建模块611还包括：

节奏点检测子模块6113，用于采用鼓点检测算法，检测所述音乐素材的节奏点；

调整子模块6114，用于将所述音乐素材的转场时间点调整至与所述转场时间点间隔时间最短的节奏点上。

所述第一选择模块602包括：

音乐选择子模块6021，用于根据所述音乐素材库中存储的音乐素材所适用的视频内容类型和所适用的人物特征，从所述音乐素材库中，选择与所述第一关键词和所述第二关键词均匹配的目标音乐素材。

可选的，所述装置还包括视频素材库创建模块612，用于创建所述视频素材库；

所述视频素材库创建模块612包括：

拆分子模块6121，用于将预先获取的多个视频样本拆分为多个视频素材，其中，一个视频样本的一个镜头为一个视频素材；

第一选择子模块6122，用于从拆分获得的多个视频素材中，选出包括第二目标人物的视频素材，确定为第一视频素材，并将所述第一视频素材保存至所述视频素材库中；

第二选择子模块6123，用于从所述多个视频素材中，选出不存在人脸的视频素材，确定为第二视频素材，将所述第二视频素材保存至所述视频素材库中，并在所述视频素材库中为所述第二视频素材添加预设标记，所述预设标记用于指示所述第二视频素材中不存在人脸；

第三存储子模块6124，用于获取所述第一视频素材的视频内容类型、所述第一视频素材的中的主角人物的名称及人物特征，建立与所述第一视频素材的第二对应关系，并将所述第二对应关系保存至所述视频素材库中；

第四存储子模块6125，用于获取所述第二视频素材的视频内容类型，建立与所述第二视频素材的第三对应关系，并将所述第三对应关系保存至所述视频素材库中。

可选的，所述视频素材库创建模块612还包括：

精彩度评分获取子模块61216，获取所述第一视频素材的精彩度评分，建立与所述第一视频素材的第四对应关系，并将所述第四对应关系保存至所述视频素材库中。

可选的，所述拆分子模块6121包括：

解帧单元61211，用于将所述视频样本进行解帧处理；

镜头检测单元61212，用于采用镜头检测算法，对解帧处理之后的所述视频样本进行检测，获得所述视频样本中发生镜头切换的图像帧，并确定为镜头边界；

素材确定单元61213，用于将一个所述视频样本中，相邻两个镜头边界之间的图像帧组成的视频片段，确定为一个视频素材。

可选的，所述第一选择子模块6122包括：

检测及识别单元61221，用于采用人脸检测算法和人脸识别算法，从拆分获得的多个视频素材中，选出包括第二目标人物的视频素材。

可选的，所述视频素材库创建模块612还包括：

第一统计子模块6126，用于获取每一个所述第一视频素材的所有图像帧中出现的所述第二目标人物的人脸的第一数量，以及每一个所述第一视频素材的所有图像帧中出现的人脸的总数量；

第一计算子模块6127，用于计算每一个所述第一视频素材的所述第一数量与所述总数量的比值，并将所述比值确定为第一目标参数；

第一剔除子模块6128，用于将小于第二预设阈值的所述第一目标参数对应的第一视频素材剔除。

可选的，所述视频素材库创建模块612还包括：

第二统计子模块6129，用于获取每一个所述第一视频素材的每一个图像帧中出现的各人物的人脸尺寸；

第二计算子模块61210，用于计算每一个所述第一视频素材中出现的各人物的平均人脸尺寸；

第三计算子模块61214，用于获取每一个所述第一视频素材的第二目标参数，其中，一个第一视频素材的第二目标参数包括该第一视频素材中出现的所述第二目标人物的平均人脸尺寸，分别与该第一视频素材中出现的除所述第二目标人物之外的其他人物的平均人脸尺寸的比值；

第二剔除子模块61215，用于在所述第二目标参数中包括的每一个比值都小于第三预设阈值的情况下，将该第二目标参数对应的第一视频素材剔除。

所述第二选择模块603包括：

第一视频选择子模块6031，用于根据所述视频素材库中存储的视频素材的内容类型以及所述预设标记，从视频素材库中选择与所述第一关键词相匹配，且标有所述预设标记的视频素材，并确定为第一类候选视频素材；

第二视频选择子模块6032，用于根据所述视频素材库中存储的视频素材的视频内容类型、视频素材的中的主角人物的名称和人物特征，从所述视频素材库中选择与所述第一关键词和所述第二关键词均匹配，且主角名称为所述第一目标人物的名称的视频素材，并确定为第二类候选视频素材。

可选的，所述人物特征包括表情、动作、服饰类别、性别中的至少一项。

本发明实施例还提供了一种电子设备，如图7所示，包括处理器71、通信接口72、存储器73和通信总线74，其中，处理器71，通信接口72，存储器73通过通信总线74完成相互间的通信。

其中，存储器73，用于存放计算机程序；

处理器71，用于执行存储器73上所存放的程序时，实现如下步骤：

获取用于描述待生成混剪视频的目标关键词；

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的混剪视频的生成方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的混剪视频的生成方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种混剪视频的生成方法，其特征在于，包括：

获取用于描述待生成混剪视频的目标关键词；

将所述目标视频素材和所述目标音乐素材，合成为混剪视频；

所述音乐类型包括前奏、间奏、主歌和副歌；所述候选视频素材中包括第一类候选视频素材和第二类候选视频素材，所述第一类候选视频素材是不存在人脸的视频素材，所述第二类候选视频素材是存在人脸的视频素材；所述第二类候选视频素材包括：第一集合、第二集合；

所述根据预先确定的所述目标音乐素材的参数信息，从所述候选视频素材中，为所述目标音乐素材包括的每一个音乐片段选择相匹配的目标视频素材，包括：

在第一音乐片段属于前奏或间奏的情况下，从所述第一类候选视频素材中，选择时长与第一时长之差的绝对值小于第一预设阈值的视频素材，所述第一时长为所述第一音乐片段的时长；

在第二音乐片段属于主歌的情况下，从所述第一集合中，选择时长与第二时长之差的绝对值小于所述第一预设阈值的视频素材；

在所述第二音乐片段属于副歌的情况下，从所述第二集合中，选择时长与所述第二时长之差的绝对值小于所述第一预设阈值的视频素材；

其中，所述第一音乐片段、所述第二音乐片段，分别为所述目标音乐素材的其中一个音乐片段；所述第一集合中存储的视频素材的精彩度评分低于所述第二集合中存储的视频素材的精彩度评分；所述精彩度评分是预先根据相应视频素材的播放频次、用户针对视频素材的评论信息确定的。

2.根据权利要求1所述的混剪视频的生成方法，其特征在于，从预先建立的视频素材库中，选择多个与所述目标关键词相匹配的视频素材，并确定为候选视频素材之后，还包括：

从所述目标排序中，选出排位第i位至第j位的视频素材，并保存至所述第一集合中，i和j分别为正整数，j大于i；

从所述目标排序中，选出排位第m位至第n为的视频素材，并保存至所述第二集合中，n和m分别为正整数，n大于m，m大于j。

3.根据权利要求1所述的混剪视频的生成方法，其特征在于，确定出目标视频素材之后，将所述目标视频素材和所述目标音乐素材，合成为混剪视频之前，所述方法还包括：

4.根据权利要求1所述的混剪视频的生成方法，其特征在于，所述音乐素材库的建立过程包括：

5.根据权利要求4所述的混剪视频的生成方法，其特征在于，将所述第一对应关系保存至所述音乐素材库中之前，所述音乐素材库的建立过程还包括：

采用鼓点检测算法，检测所述音乐素材的节奏点；

6.根据权利要求4所述的混剪视频的生成方法，其特征在于，所述目标关键词包括第一关键词和第二关键词，所述第一关键词为所述待生成混剪视频的视频内容类型，所述第二关键词为所述待生成混剪视频中包括的第一目标人物的人物特征；

7.根据权利要求1所述的混剪视频的生成方法，其特征在于，所述视频素材库的建立过程包括：

8.根据权利要求7所述的混剪视频的生成方法，其特征在于，从拆分获得的多个视频素材中，选出包括第二目标人物的视频素材，确定为第一视频素材之后，所述视频素材库的建立过程还包括：

9.根据权利要求7所述的混剪视频的生成方法，其特征在于，所述将预先获取的多个视频样本拆分为多个视频素材，包括：

将所述视频样本进行解帧处理；

10.根据权利要求7所述的混剪视频的生成方法，其特征在于，所述从拆分获得的多个视频素材中，选出包括第二目标人物的视频素材，包括：

11.根据权利要求7所述的混剪视频的生成方法，其特征在于，将所述第一视频素材保存至所述视频素材库中之前，所述视频素材库的建立过程还包括：

12.根据权利要求7所述的混剪视频的生成方法，其特征在于，将所述第一视频素材保存至所述视频素材库中之前，所述视频素材库的建立过程还包括：

13.根据权利要求7所述的混剪视频的生成方法，其特征在于，所述目标关键词包括第一关键词、第二关键词和第一目标人物的名称，所述第一关键词为所述待生成混剪视频的视频内容类型，所述第二关键词为所述待生成混剪视频中的包括的所述第一目标人物的人物特征；

14.根据权利要求4至13中任一项所述的混剪视频的生成方法，其特征在于，所述人物特征包括表情、动作、服饰类别、性别中的至少一项。

15.一种混剪视频的生成装置，其特征在于，包括：

合成模块，用于将所述目标视频素材和所述目标音乐素材，合成为混剪视频；

所述匹配模块，包括：

第一匹配子模块，用于在第一音乐片段属于前奏或间奏的情况下，从所述第一类候选视频素材中，选择时长与第一时长之差的绝对值小于第一预设阈值的视频素材，所述第一时长为所述第一音乐片段的时长；

主歌匹配单元，用于在第二音乐片段属于主歌的情况下，从所述第一集合中，选择时长与第二时长之差的绝对值小于所述第一预设阈值的视频素材；

副歌匹配单元，用于在所述第二音乐片段属于副歌的情况下，从所述第二集合中，选择时长与所述第二时长之差的绝对值小于所述第一预设阈值的视频素材；

16.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-14任一所述的混剪视频的生成方法。

17.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-14中任一所述的混剪视频的生成方法。