CN114242070B

CN114242070B - 一种视频生成方法、装置、设备及存储介质

Info

Publication number: CN114242070B
Application number: CN202111561735.8A
Authority: CN
Inventors: 丁飞; 梁军; 王崇晓
Original assignee: Alibaba China Co Ltd
Current assignee: Youku Culture Technology Beijing Co ltd
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2023-03-24
Anticipated expiration: 2041-12-20
Also published as: CN114242070A

Abstract

本申请实施例提供了一种视频生成方法、装置、设备及存储介质。视频生成方法包括：获取目标歌曲片段对应的歌词文本数据和音频数据；对歌词文本数据进行语义分析，得到目标歌曲片段的语义属性信息；并基于音频数据，得到目标歌曲片段对应的音乐情绪信息；基于语义属性信息和音乐情绪信息，从预设视频素材库中确定与目标歌曲片段匹配的目标视频素材；基于目标视频素材生成目标歌曲片段对应的目标视频。本申请实施例，视频制作效率较高，并且，成本较低。另外，由于在确定目标视频素材时，同时考虑了歌曲片段的语义以及音乐情绪，因此，确定出的目标视频素材与目标歌曲片段的匹配度更高，进而，基于该目标视频素材生成的目标视频也更优质。

Description

一种视频生成方法、装置、设备及存储介质

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种视频生成方法、装置、设备及存储介质。

背景技术

随着多媒体技术的不断发展，短视频的消费需求也在不断增长。在众多类型的多视频中，围绕目标音乐歌曲进行关联视频内容展示的音乐类短视频受到了消费者的广泛喜爱。

传统的音乐类短视频，其剪辑创作过程完全依赖人工完成，具体地：主要依赖人工进行关联视频素材的查找，以及，后续的剪辑合成等后处理操作。制作周期通常需要一周，甚至更久，因此，视频制作效率较低，且成本较高。

发明内容

有鉴于此，本申请实施例提供一种视频生成方法、装置、设备及存储介质，以至少部分解决上述问题。

根据本申请实施例的第一方面，提供了一种视频生成方法，包括：

获取目标歌曲片段对应的歌词文本数据和音频数据；

对所述歌词文本数据进行语义分析，得到所述目标歌曲片段的语义属性信息；并基于所述音频数据，得到所述目标歌曲片段对应的音乐情绪信息；

基于所述语义属性信息和所述音乐情绪信息，从预设视频素材库中确定与所述目标歌曲片段匹配的目标视频素材；

基于所述目标视频素材生成所述目标歌曲片段对应的目标视频。

根据本申请实施例的第二方面，提供了一种视频生成装置，包括：

数据获取模块，用于获取目标歌曲片段对应的歌词文本数据和音频数据；

信息得到模块，用于对所述歌词文本数据进行语义分析，得到所述目标歌曲片段的语义属性信息；并基于所述音频数据，得到所述目标歌曲片段对应的音乐情绪信息；

匹配模块，用于基于所述语义属性信息和所述音乐情绪信息，从预设视频素材库中确定与所述目标歌曲片段匹配的目标视频素材；

目标视频生成模块，用于基于所述目标视频素材生成所述目标歌曲片段对应的目标视频。

根据本申请实施例的第三方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面所述的视频生成方法对应的操作。

根据本申请实施例的第四方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的视频生成方法。

根据本申请实施例提供的视频生成方法，基于目标歌曲片段对应的歌词文本数据和音频数据，分别获取了目标歌曲片段中包含的语义属性信息和目标歌曲片段所要传达的音乐情绪信息，之后，综合考虑歌曲片段语义和歌曲片段音乐情绪这两方面因素，从而确定出与目标歌曲片段在上述两方面均匹配的目标视频素材，最终生成目标歌曲对应的目标视频。本申请实施例，可以自动生成歌曲片段对应的视频，与依赖人工的传统视频生成方式相比，视频制作效率较高，并且，成本较低。另外，由于在确定目标视频素材时，同时考虑了歌曲片段的语义以及音乐情绪，因此，确定出的目标视频素材与目标歌曲片段的匹配度更高，进而，基于该目标视频素材生成的目标视频也更优质。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为根据本申请实施例一的一种视频生成方法的步骤流程图；

图2为图1所示实施例中的一种场景示例的示意图；

图3为根据本申请实施例二的一种视频生成方法的步骤流程图；

图4为根据本申请实施例三的一种视频生成装置的结构框图；

图5为根据本申请实施例四的一种电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

下面结合本申请实施例附图进一步说明本申请实施例具体实现。

实施例一、

参照图1，图1为根据本申请实施例一的一种视频生成方法的步骤流程图。具体地，本实施例提供的视频生成方法包括以下步骤：

步骤102，获取目标歌曲片段对应的歌词文本数据和音频数据。

本申请实施例中的目标歌曲片段可以为任意的待生成与其对应的视频的歌曲片段，该歌曲片段可以为一首完整的歌曲，也可以为完整歌曲中的部分片段，如：按照歌词的完整性对歌曲进行拆分，得到多个歌曲片段，每个歌曲片段分别对应一句完整的歌词，等等。本申请实施例中，对于目标歌曲片段的具体内容不做限定，可以根据实际需要进行选择。

步骤104，对歌词文本数据进行语义分析，得到目标歌曲片段的语义属性信息；并基于音频数据，得到目标歌曲片段对应的音乐情绪信息。

本步骤中，可以采用任意的自然语言处理算法进行语义分析，以得到对应的语义属性信息，例如：传统的语义分析算法，或者机器学习模型，等等。语义属性信息可以是单个维度的，例如：目标歌曲片段的主题信息(如：爱情、武侠、悬疑、搞笑等等)、场景信息(如：自然、古代、现代等等)、人物信息(如：男主角、女主角等)、动作信息、事件信息等中的任一项；也可以是多维度的，例如：可以为上述主题信息、场景信息、人物信息、动作信息、事件信息等中的任意两项或者两项以上。此处，对于语义分析所采用的具体分析方式，以及，语义属性信息的具体内容不做限定，可以根据实际情况选择和设定。

本步骤中，还可以对音频数据进行特征提取，进而基于提取到的特征进行音乐情绪预测，得到目标歌曲片段对应的音乐情绪信息。其中，音乐情绪信息用于表征目标歌曲所表达的情绪状态，具体地，例如：平静、放松、憧憬、振奋、愤怒、恐惧等等。

步骤106，基于语义属性信息和音乐情绪信息，从预设视频素材库中确定与目标歌曲片段匹配的目标视频素材。

具体地，可以对应于步骤104得到的语义属性信息和音乐情绪信息的具体类别，预先对视频素材库中的各视频素材进行标注，也就是说，可以按照语义属性信息和音乐情绪信息的具体类别，对应地生成每个视频素材的标签，如，每个视频素材可以包括两类标签：语义属性标签和音乐情绪标签。之后，基于语义属性信息和语义属性标签的匹配程度，以及，音乐情绪信息和音乐情绪标签的匹配程度，得到各视频素材的匹配度，进而得到从视频素材库中确定与目标歌曲片段匹配的目标视频素材。

还可以对各视频素材进行特征提取，得到对应的素材特征向量；同时，对语义属性信息和音乐情绪信息进行信息融合，生成视频脚本信息，并对视频脚本信息进行特征提取，得到对应的脚本特征向量；基于素材特征向量和脚本特征向量之间的相似度，进而得到从视频素材库中确定与目标歌曲片段匹配的目标视频素材。

本申请实施例中，对于从预设视频素材库中确定与目标歌曲片段匹配的目标视频素材时所采用的具体匹配方法不做限定，可以根据实际需要设定。

步骤108，基于目标视频素材生成目标歌曲片段对应的目标视频。

具体地：为简便起见，可以直接将目标视频素材作为目标歌曲片段对应的目标视频。但是，通常情况下，目标视频素材的时长与目标歌曲片段时长不同，因此，可以基于目标歌曲片段的时长，对目标视频素材进行倍速、慢速或者裁剪等剪辑操作，从而得到目标歌曲片段对应的目标视频。

参见图2，图2为本申请实施例一对应的场景示意图，以下，将参考图2所示的示意图，以一个具体场景示例，对本申请实施例进行说明：

在获取到目标歌曲片段对应的歌词文件和音频数据之后，可以基于歌词文本进行语义分析，从而得到目标歌曲片段的语义属性信息，同时，基于音频数据，得到目标歌曲片段所表达的音乐情绪信息；之后，以语义属性信息和音乐情绪信息作为匹配依据，从预设的视频素材库中确定与目标歌曲片段匹配的目标视频素材；进而基于目标视频素材生成与目标歌曲片段对应的目标视频。

本申请实施例中，基于目标歌曲片段对应的歌词文本数据和音频数据，分别获取了目标歌曲片段中包含的语义属性信息和目标歌曲片段所要传达的音乐情绪信息，之后，综合考虑歌曲片段语义和歌曲片段音乐情绪这两方面因素，从而确定出与目标歌曲片段在上述两方面均匹配的目标视频素材，最终生成目标歌曲对应的目标视频。本申请实施例，可以自动生成歌曲片段对应的视频，与依赖人工的传统视频生成方式相比，视频制作效率较高，并且，成本较低。另外，由于在确定目标视频素材时，同时考虑了歌曲片段的语义以及音乐情绪，因此，确定出的目标视频素材与目标歌曲片段的匹配度更高，进而，基于该目标视频素材生成的目标视频也更优质。

本实施例的视频生成方法可以由任意适当的具有数据处理能力的电子设备执行，包括但不限于：服务器、PC机等。

实施例二、

参照图3，图3为根据本申请实施例二的一种频生成方法的步骤流程图。具体地，本实施例提供的频生成方法包括以下步骤：

步骤302，获取目标歌曲，并对目标歌曲进行分段处理，得到多个目标歌曲片段。

其中，每个目标歌曲片段对应一句歌词。

具体地，本申请实施例中的目标歌曲可以为一首完整的歌曲。由于各句歌词的语义属性信息之间可能存在一定的差异和跨度，另外，各句歌词的音乐情绪信息之间也可能存在差异和跨度，为了使得最终生成的视频能够更好地与目标歌曲匹配，因此，可以先将完整的目标歌曲切分成多个目标歌曲片段，之后，分别针对每个目标歌曲片段生成对应的目标视频，再将各目标视频拼接进而得到整个目标歌曲对应的视频。

步骤304，针对每个目标歌曲片段，获取对应的歌词文本数据和音频数据。

步骤306，对歌词文本数据进行语义分析，得到目标歌曲片段的语义属性信息；并基于音频数据，得到目标歌曲片段对应的音乐情绪信息。

可以采用任意的自然语言处理算法进行语义分析，以得到对应的语义属性信息，例如：传统的语义分析算法，或者机器学习模型，等等。语义属性信息可以是单个维度的，例如：目标歌曲片段的主题信息(如：爱情、武侠、悬疑、搞笑等等)、场景信息(如：自然、古代、现代等等)、人物信息(如：男主角、女主角等)、动作信息、事件信息等中的任一项；也可以是多维度的，例如：可以为上述主题信息、场景信息、人物信息、动作信息、事件信息等中的任意两项或者两项以上。此处，对于语义分析所采用的具体分析方式，以及，语义属性信息的具体内容不做限定，可以根据实际情况选择和设定。

还可以对音频数据进行特征提取，进而基于提取到的特征进行音乐情绪预测，得到目标歌曲片段对应的音乐情绪信息。其中，音乐情绪信息用于表征目标歌曲所表达的情绪状态，具体地，例如：平静、放松、憧憬、振奋、愤怒、恐惧等等。

步骤308，基于语义属性信息和音乐情绪信息，从预设视频素材库中确定与目标歌曲片段匹配的目标视频素材。

可选地，在其中一些实施例中，可以通过如下方式确定目标视频素材：

获取预设视频素材库中各视频素材的语义属性标签和音乐情绪标签；

基于语义属性信息与音乐情绪标签匹配，并且，音乐情绪信息与音乐情绪标签匹配，从视频素材库中确定与目标歌曲片段匹配的目标视频素材。

具体地，可以将音乐情绪标签和上述音乐情绪信息完全一致的视频素材，确定为候选视频素材，若候选视频素材的数量为1，则可以直接将其确定为目标视频素材；若候选视频素材的数量为多个，则可以按照一定的选取规则从中选择一个作为目标视频素材，上述选取规则可以为：随机选取、将时长与音频数据的时长最接近的候选视频素材确定为目标视频素材，等等。此处，对于选取规则的具体内容不做限定。

上述目标视频素材确定方式，是直接基于标签与语义属性信息以及音乐情绪信息是否一致进行的，因此，过程简单，效率较高。

可选地，在其中一些实施例中，还可以通过如下方式确定目标视频素材：

对语义属性信息和音乐情绪信息进行信息融合，得到视频脚本信息；

获取预设视频素材库中各视频素材的语义属性标签和音乐情绪标签，并对语义属性标签和音乐情绪标签进行信息融合，得到各视频素材的属性信息；

基于视频脚本信息与各视频素材的属性信息间的相似度，从预设视频素材库中确定与目标歌曲片段匹配的目标视频素材。

具体地，可以对语义属性信息和音乐情绪信息进行组合，作为视频脚本信息；也可以对语义属性信息和音乐情绪信息中的存在的重复内容进行合并处理，得到视频脚本信息，等等。对应地，可以对语义属性标签和音乐情绪标签进行组合，作为各视频素材的属性信息；也可以对语义属性标签和音乐情绪标签中的存在的重复内容进行合并处理，各视频素材的属性信息，等等。

上述目标视频素材确定方式，是先计算视频脚本信息和各视频素材的属性信息之间的相似度，再基于上述相似度进行的。因此，即使视频素材的标签与语义属性信息以及音乐情绪信息的文字并不完全一致，但只要其文本含义相似度较高，则可以将该视频素材确定为目标视频素材，也就是说，上述方式，是从标签与语义属性信息以及音乐情绪信息的语义相似度的角度进行匹配的，因此，与直接对比标签与语义属性信息以及音乐情绪信息是否一致的方式相比，匹配结果的准确度更高。

可选地，在其中一些实施例中，也可以通过如下方式确定目标视频素材：

对语义属性信息和音乐情绪信息进行信息融合，得到视频脚本信息；并对视频脚本信息进行文本特征提取，得到视频脚本信息对应的第一特征向量；

对预设视频素材库中的各视频素材分别进行特征提取，得到各视频素材对应的第二特征向量；

基于第一特征向量和第二特征向量间的相似度，从预设视频素材库中确定与目标歌曲片段匹配的目标视频素材。

该目标视频素材确定方式，是基于视频脚本信息特征向量和针对各视频素材提取到的特征向量之间的相似度进行的，因此，与基于标签和视频脚本信息得到的相似度相比，基于视频素材本身和视频脚本信息的特征向量得到的相似度，更能准确表征出视频素材与视频脚本信息之间的相似程度，进而，最终的匹配结果也更准确。

基于语义属性信息与音乐情绪标签是否匹配，以及，音乐情绪信息与音乐情绪标签是否匹配，得到各视频素材的第一匹配度信息；

对语义属性信息和音乐情绪信息进行信息融合，得到视频脚本信息；对语义属性标签和音乐情绪标签进行信息融合，得到各视频素材的属性信息；基于视频脚本信息与各视频素材的属性信息间的相似度，得到各视频素材的第二匹配度信息；

对视频脚本信息进行文本特征提取，得到视频脚本信息对应的第一特征向量；对各视频素材分别进行特征提取，得到各视频素材对应的第二特征向量；基于第一特征向量和第二特征向量间的相似度，得到各视频素材的第三匹配度信息；

基于各视频素材的第一匹配度信息、第二匹配度信息以及第三匹配度信息，得到各视频素材的综合匹配度信息；并基于各视频素材的综合匹配度信息确定与目标歌曲片段匹配的目标视频素材。

其中，在得到第一匹配度信息时，可以于语义属性信息与音乐情绪标签是否完全一致，以及，音乐情绪信息与音乐情绪标签是否完全一致，得到各视频素材的第一匹配度信息，例如：若某个视频素材的音乐情绪标签与语义属性信息完全一致，并且，音乐情绪标签与音乐情绪信息也完全一致，则赋予该视频素材一个较高的第一匹配度值；若某个视频素材的音乐情绪标签与语义属性信息完全一致，但是音乐情绪标签与音乐情绪信息不同，或者，若某个视频素材的音乐情绪标签与语义属性信息不一致，但是音乐情绪标签与音乐情绪信息完全一致，则赋予该视频素材一个处于中间级别的第一匹配度值；若某个视频素材的音乐情绪标签与语义属性信息不一致，并且，音乐情绪标签与音乐情绪信息也不一致，则赋予该视频素材一个较低的第一匹配度值，等等。

该目标视频素材确定方式，从三种不同的角度计算得到了三种不同的匹配度信息，然后，再对得到的上述不同的匹配度信息进行融合(如：分别为各匹配度信息设定不同的权重值，之后进行加权融合)，进而得到各视频素材的综合匹配度信息，最后基于综合匹配度信息确定出目标视频素材。与上述任一种仅通过计算一种匹配度信息确定目标视频素材的方式相比，最终的匹配结果更加准确。

步骤310，对音频数据进行节奏特征提取，并基于节奏特征得到音乐节奏信息；其中，音乐节奏信息包括：重音点在音频数据中的第一位置信息。

具体地，音乐节奏信息还可以包括：音频数据中各句歌词的句子切换点的位置信息等等。

步骤312，获取镜头切换点在目标视频素材中的第二位置信息；并基于第一位置信息和第二位置信息，确定重音点与镜头切换点的对应关系。

例如：可以按照各镜头切换点在目标视频素材中出现的顺序，以及各重音点在音频数据中出现的顺序，确定重音点与镜头切换点的对应关系，例如：将第一个重音点与第一个镜头切换点对应，第二个重音点与第二个镜头切换点对应，依次类推，直至重音点或者镜头切换点被匹配完毕；也可以针对每个镜头切换点，将第一位置信息与其第二位置信息最为接近的重音点确定为该镜头切换点对应的重音点，或者，针对每个重音点，将第二位置信息与其第一位置信息最为接近的重音点确定为该重音点对应的镜头切换点；等等。此处，对于确定对应关系时所采用的具体方式不做限定。

步骤314，基于第一位置信息、第二位置信息、对应关系以及目标歌曲片段的时长，对目标视频素材进行剪辑处理，得到目标歌曲片段对应的目标视频。

其中，目标视频的时长与目标歌曲片段的时长相等，并且，镜头切换点在目标视频中的位置与对应的重音点在音频数据中的位置匹配。

具体地：镜头切换点在目标视频中的位置与对应的重音点在音频数据中的位置匹配，可以为：镜头切换点出现在目标视频中的时刻与对应的重音点出现在音频数据中的时刻相同，或者，镜头切换点出现在目标视频中的时刻与对应的重音点出现在音频数据中的时刻之间的时间差在一定的时差阈值范围内，其中，时差阈值范围可以根据实际情况设定，例如：1ms等等。

可以通过对目标视频素材进行倍速、慢速或者裁剪等剪辑操作，从而得到目标歌曲片段对应的目标视频。

另本申请另外一种实施例中，步骤310-步骤314也可以由下述步骤替代：

根据目标歌曲片段的时长，对目标视频素材进行剪辑处理，得到目标歌曲对应的目标视频；其中，目标视频的时长与目标歌曲片段的时长相等。

与上述仅得到时长与目标歌曲片段的时长相等的目标视频相比，步骤310-步骤314中，在保证目标视频的时长与目标歌曲片段的时长相等的同时，还保证了镜头切换点在目标视频中的位置与对应的重音点在音频数据中的位置匹配，因此，最终得到的目标视频与目标歌曲片段的匹配性更好。

步骤316，对目标视频进行拼接，得到与目标歌曲对应的视频。

步骤318，对与目标歌曲对应的视频进行预设后处理操作，得到处理后视频。

其中，预设后处理操作包括如下至少一项：添加滤镜、添加字幕、添加特效。

具体地，例如：可以在重音点或者镜头切换点添加一些特效；或者，在视频的开始位置或者结束位置添加一些预设特效；或者，由于各目标视频可能在内容及画面风格等方面存在较大差异，为了提升最终拼接而成的视频在视觉上的一致性和连贯性，可以对各目标视频执行相同的滤镜操作；或者，在视频中添加歌词、歌名等字幕；再或者，添加片头以及片尾的文案或者特效等。此处，对于处理操作的具体内容不做限定。

本步骤中，通过对与目标歌曲对应的视频进行一定的后处理操作，可以提升最终得到的视频的观赏性，使得视频更加优质。

实施例三、

参见图4，图4为根据本申请实施例三的一种视频生成装置的结构框图。本申请实施例提供的视频生成装置包括：

数据获取模块402，用于获取目标歌曲片段对应的歌词文本数据和音频数据；

信息得到模块404，用于对歌词文本数据进行语义分析，得到目标歌曲片段的语义属性信息；并基于音频数据，得到目标歌曲片段对应的音乐情绪信息；

匹配模块406，用于基于语义属性信息和音乐情绪信息，从预设视频素材库中确定与目标歌曲片段匹配的目标视频素材；

目标视频生成模块408，用于基于目标视频素材生成目标歌曲片段对应的目标视频。

可选地，在其中一些实施例中，匹配模块406具体用于：

可选地，在其中一些实施例中，目标视频生成模块408具体用于：

对音频数据进行节奏特征提取，并基于节奏特征得到音乐节奏信息；其中，音乐节奏信息包括：重音点在音频数据中的第一位置信息；

获取镜头切换点在目标视频素材中的第二位置信息；并基于第一位置信息和第二位置信息，确定重音点与镜头切换点的对应关系；

基于第一位置信息、第二位置信息、对应关系以及目标歌曲片段的时长，对目标视频素材进行剪辑处理，得到目标歌曲片段对应的目标视频；其中，目标视频的时长与目标歌曲片段的时长相等，并且，镜头切换点在目标视频中的位置与对应的重音点在音频数据中的位置匹配。

可选地，在其中一些实施例中，数据获取模块402具体用于：

获取目标歌曲，并对目标歌曲进行分段处理，得到多个目标歌曲片段，其中，每个目标歌曲片段对应一句歌词；

针对每个目标歌曲片段，获取对应的歌词文本数据和音频数据；

装置还包括：

拼接模块，用于对目标视频进行拼接，得到与目标歌曲对应的视频。

可选地，在其中一些实施例中，装置还包括：

后处理模块，用于对与目标歌曲对应的视频进行预设后处理操作，得到处理后视频；其中，预设后处理操作包括如下至少一项：添加滤镜、添加字幕、添加特效。

可选地，在其中一些实施例中，语义属性信息，包括如下至少一项：

场景信息、人物信息、动作信息、事件信息、主题信息。

本实施例的视频生成装置用于实现前述多个方法实施例中相应的视频生成方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的视频生成装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。

实施例四、

参照图5，示出了根据本申请实施例五的一种电子设备的结构示意图，本申请具体实施例并不对电子设备的具体实现做限定。

如图5所示，该电子设备可以包括：处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。

其中：

处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。

通信接口504，用于与其它电子设备或服务器进行通信。

处理器502，用于执行程序510，具体可以执行上述视频生成方法实施例中的相关步骤。

具体地，程序510可以包括程序代码，该程序代码包括计算机操作指令。

处理器502可能是CPU，或者是特定集成电路ASIC(Application SpecificIntegrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器506，用于存放程序510。存储器706可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序510具体可以用于使得处理器502执行以下操作：获取目标歌曲片段对应的歌词文本数据和音频数据；对歌词文本数据进行语义分析，得到目标歌曲片段的语义属性信息；并基于音频数据，得到目标歌曲片段对应的音乐情绪信息；基于语义属性信息和音乐情绪信息，从预设视频素材库中确定与目标歌曲片段匹配的目标视频素材；基于目标视频素材生成目标歌曲片段对应的目标视频。

程序510中各步骤的具体实现可以参见上述视频生成方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

通过本实施例的电子设备，基于目标歌曲片段对应的歌词文本数据和音频数据，分别获取了目标歌曲片段中包含的语义属性信息和目标歌曲片段所要传达的音乐情绪信息，之后，综合考虑歌曲片段语义和歌曲片段音乐情绪这两方面因素，从而确定出与目标歌曲片段在上述两方面均匹配的目标视频素材，最终生成目标歌曲对应的目标视频。本申请实施例，可以自动生成歌曲片段对应的视频，与依赖人工的传统视频生成方式相比，视频制作效率较高，并且，成本较低。另外，由于在确定目标视频素材时，同时考虑了歌曲片段的语义以及音乐情绪，因此，确定出的目标视频素材与目标歌曲片段的匹配度更高，进而，基于该目标视频素材生成的目标视频也更优质。

本申请实施例还提供了一种计算机程序产品，包括计算机指令，该计算机指令指示计算设备执行上述多个方法实施例中的任一视频生成方法对应的操作。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的视频生成方法。此外，当通用计算机访问用于实现在此示出的视频生成方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的视频生成方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

1.一种视频生成方法，包括：

获取目标歌曲片段对应的歌词文本数据和音频数据；

对所述歌词文本数据进行语义分析，得到所述目标歌曲片段的语义属性信息；并对所述音频数据进行特征提取，基于提取到的特征进行音乐情绪预测，得到所述目标歌曲片段对应的音乐情绪信息；

基于所述目标视频素材生成所述目标歌曲片段对应的目标视频；

其中，所述基于所述语义属性信息和所述音乐情绪信息，从预设视频素材库中确定与所述目标歌曲片段匹配的目标视频素材，包括：

对所述语义属性信息和所述音乐情绪信息进行信息融合，得到视频脚本信息；并对所述视频脚本信息进行文本特征提取，得到所述视频脚本信息对应的第一特征向量；

基于所述第一特征向量和所述第二特征向量间的相似度，从预设视频素材库中确定与所述目标歌曲片段匹配的目标视频素材。

2.根据权利要求1所述的方法，其中，所述基于所述语义属性信息和所述音乐情绪信息，从预设视频素材库中确定与所述目标歌曲片段匹配的目标视频素材，还包括：

基于所述语义属性信息与所述音乐情绪标签匹配，并且，所述音乐情绪信息与所述音乐情绪标签匹配，从所述视频素材库中确定与所述目标歌曲片段匹配的目标视频素材。

3.根据权利要求1所述的方法，其中，所述基于所述语义属性信息和所述音乐情绪信息，从预设视频素材库中确定与所述目标歌曲片段匹配的目标视频素材，还包括：

对所述语义属性信息和所述音乐情绪信息进行信息融合，得到视频脚本信息；

获取预设视频素材库中各视频素材的语义属性标签和音乐情绪标签，并对所述语义属性标签和所述音乐情绪标签进行信息融合，得到各视频素材的属性信息；

基于所述视频脚本信息与各视频素材的属性信息间的相似度，从预设视频素材库中确定与所述目标歌曲片段匹配的目标视频素材。

4.根据权利要求1所述的方法，其中，所述基于所述语义属性信息和所述音乐情绪信息，从预设视频素材库中确定与所述目标歌曲片段匹配的目标视频素材，还包括：

基于所述语义属性信息与所述音乐情绪标签是否匹配，以及，所述音乐情绪信息与所述音乐情绪标签是否匹配，得到各视频素材的第一匹配度信息；

对所述语义属性信息和所述音乐情绪信息进行信息融合，得到视频脚本信息；对所述语义属性标签和所述音乐情绪标签进行信息融合，得到各视频素材的属性信息；基于所述视频脚本信息与各视频素材的属性信息间的相似度，得到各视频素材的第二匹配度信息；

对所述视频脚本信息进行文本特征提取，得到所述视频脚本信息对应的第一特征向量；对各视频素材分别进行特征提取，得到各视频素材对应的第二特征向量；基于所述第一特征向量和所述第二特征向量间的相似度，得到各视频素材的第三匹配度信息；

基于各视频素材的第一匹配度信息、第二匹配度信息以及第三匹配度信息，得到各视频素材的综合匹配度信息；并基于各视频素材的综合匹配度信息确定与所述目标歌曲片段匹配的目标视频素材。

5.根据权利要求1所述的方法，其中，所述基于所述目标视频素材生成所述目标歌曲片段对应的目标视频，包括：

根据所述目标歌曲片段的时长，对所述目标视频素材进行剪辑处理，得到所述目标歌曲对应的目标视频；其中，所述目标视频的时长与所述目标歌曲片段的时长相等。

6.根据权利要求1所述的方法，其中，在所述基于所述目标视频素材生成所述目标歌曲片段对应的目标视频之前，所述方法还包括：

对所述音频数据进行节奏特征提取，并基于所述节奏特征得到音乐节奏信息；其中，所述音乐节奏信息包括：重音点在所述音频数据中的第一位置信息；

获取镜头切换点在所述目标视频素材中的第二位置信息；并基于所述第一位置信息和所述第二位置信息，确定所述重音点与所述镜头切换点的对应关系；

基于所述第一位置信息、所述第二位置信息、所述对应关系以及所述目标歌曲片段的时长，对所述目标视频素材进行剪辑处理，得到所述目标歌曲片段对应的目标视频；其中，所述目标视频的时长与所述目标歌曲片段的时长相等，并且，所述镜头切换点在所述目标视频中的位置与对应的重音点在所述音频数据中的位置匹配。

7.根据权利要求1所述的方法，其中，所述获取目标歌曲片段对应的歌词文本数据和音频数据，包括：

获取目标歌曲，并对所述目标歌曲进行分段处理，得到多个目标歌曲片段，其中，每个目标歌曲片段对应一句歌词；

在所述基于所述目标视频素材生成所述目标歌曲片段对应的目标视频之后，所述方法还包括：

对所述目标视频进行拼接，得到与所述目标歌曲对应的视频。

8.根据权利要求7所述的方法，其中，在得到与所述目标歌曲对应的视频之后，所述方法还包括：

对与所述目标歌曲对应的视频进行预设后处理操作，得到处理后视频；

其中，所述预设后处理操作包括如下至少一项：添加滤镜、添加字幕、添加特效。

9.根据权利要求1所述的方法，其中，所述语义属性信息，包括如下至少一项：

场景信息、人物信息、动作信息、事件信息、主题信息。

10.一种视频生成装置，包括：

信息得到模块，用于对所述歌词文本数据进行语义分析，得到所述目标歌曲片段的语义属性信息；并基对所述音频数据进行特征提取，基于提取到的特征进行音乐情绪预测，得到所述目标歌曲片段对应的音乐情绪信息；

目标视频生成模块，用于基于所述目标视频素材生成所述目标歌曲片段对应的目标视频；

所述匹配模块具体用于：对语义属性信息和音乐情绪信息进行信息融合，得到视频脚本信息；并对视频脚本信息进行文本特征提取，得到视频脚本信息对应的第一特征向量；对预设视频素材库中的各视频素材分别进行特征提取，得到各视频素材对应的第二特征向量；基于第一特征向量和第二特征向量间的相似度，从预设视频素材库中确定与目标歌曲片段匹配的目标视频素材。

11.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-9中任一项所述的视频生成方法对应的操作。

12.一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-9中任一所述的视频生成方法。