CN115442540B

CN115442540B - 音乐视频生成方法、装置、计算机设备及存储介质

Info

Publication number: CN115442540B
Application number: CN202211058076.0A
Authority: CN
Inventors: 赵世琦; 陈佳琦; 王巍; 马瑞涛
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2024-05-03
Anticipated expiration: 2042-08-31
Also published as: CN115442540A

Abstract

本发明提供一种音乐视频生成方法、装置、计算机设备及存储介质，涉及计算机技术领域，其中所述方法包括：获取片段图像集合，其中每幅片段图像对应一个视频片段，所述视频片段来源于原始视频；获取待生成音乐视频的歌曲音频及与之相匹配的歌词文件；基于预设相似度算法，从所述片段图像集合中提取与所述歌词文件中歌词的特征相似度满足预设要求的多幅片段图像；以及，将所述多幅片段图像所对应的多个视频片段与待生成音乐视频的歌曲音频相结合，生成最终的音乐视频。本发明提供的技术方案实现了音乐视频的自动化、批量化制作，极大缩短了制作时间，节省了人工成本，还提高了歌词与音乐视频中每个视频片段语义匹配的准确度。

Description

音乐视频生成方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机技术领域，具体涉及视频处理领域，尤其涉及一种音乐视频生成方法、一种音乐视频生成装置、一种计算机设备以及一种计算机可读存储介质。

背景技术

当前短视频行业快速发展，各类短视频极大占据了民众的碎片时间，尤其是音乐类短视频有着广泛的受众群体。出于个性化需求和不同情绪化表达的需要，通常需要对音乐、歌曲等添加或更换对应的视频以生成音乐视频，但各类音乐视频的制作过程却相对繁琐，制作结果也不尽如人意。

目前，音乐视频主要有以下两种制作方式，第一种是从现有的影视素材等视频素材库中，通过人工手段选取、编辑、剪辑素材片段，制作与音乐的歌词、节奏、情绪相匹配的音乐视频，此种方法耗时较长，且极其依赖制作人员的个人经验，制作效率低，人力成本和时间成本都相对较高，难以批量化生成；第二种是基于计算机程序，对歌曲的每句歌词在互联网中检索与之匹配的图片，通过对图片添加各种特效及转场效果，结合音频分量，生成由图片组成的幻灯片式的音乐视频，此种方法虽然实现了音乐视频的自动化生成，但这类音乐视频的呈现效果较差，而且由于是通过简单的歌词搜索来选定图片，也会出现因歌词理解歧义而导致的歌词和图像语义不匹配的情况。

发明内容

为了至少部分解决现有技术中存在的人工手段制作的音乐视频效率低，基于计算机程序制作的幻灯片式音乐视频效果较差、歌词与图像语义不匹配等技术问题而完成了本发明。

根据本发明的一方面，提供一种音乐视频生成方法，包括：

获取片段图像集合，其中每幅片段图像对应一个视频片段，所述视频片段来源于原始视频；

获取待生成音乐视频的歌曲音频及与之相匹配的歌词文件；

基于预设相似度算法，从所述片段图像集合中提取与所述歌词文件中歌词的特征相似度满足预设要求的多幅片段图像；以及，

将所述多幅片段图像所对应的多个视频片段与待生成音乐视频的歌曲音频相结合，生成最终的音乐视频。

可选地，所述获取片段图像集合，包括：

获取原始视频集合，其中包括多个原始视频；

对所述原始视频集合中的每个原始视频进行分割处理，得到视频片段集合；以及，

将所述视频片段集合中的每个视频片段的第一帧图像作为该视频片段的片段图像，得到片段图像集合。

可选地，所述对所述原始视频集合中的每个原始视频进行分割处理，具体为：

基于预设的镜头边界检测模型对所述原始视频集合中的每个原始视频进行镜头分割。

可选地，所述基于预设相似度算法，从所述片段图像集合中提取与所述歌词文件中歌词的特征相似度满足预设要求的多幅片段图像，包括：

对所述片段图像集合中的每幅片段图像和所述歌词文件中的每句歌词进行特征提取，得到片段图像特征集合和歌词文本特征集合；

基于预设相似度算法对所述歌词文本特征集合中每句歌词的文本特征与所述片段图像特征集合中每幅片段图像的图像特征两两计算相似度，得出与每句歌词的文本特征的相似度较高的若干片段图像的图像特征；以及，

从所述片段图像集合中提取与每句歌词的文本特征的相似度较高的若干片段图像的图像特征所对应的片段图像，得到多幅片段图像。

可选地，所述对所述片段图像集合中的每幅片段图像和所述歌词文件中的每句歌词进行特征提取，得到片段图像特征集合和歌词文本特征集合，包括：

获取多模态预训练模型；以及，

基于所述多模态预训练模型，分别提取所述片段图像集合中每幅片段图像的图像特征和所述歌词文件中每句歌词的文本特征，得到片段图像特征集合和歌词文本特征集合。

可选地，所述获取多模态预训练模型，包括：

获取多对图像文本对数据，其中每对图像文本对数据包括一幅图像信息和与该图像的画面相匹配的文字描述信息；

将每对图像文本对数据中的图像信息和文字描述信息分别输入到预设的多模态模型的图像特征提取器和文本特征提取器中，得到该对图像文本对数据的图像特征和文本特征；

将每对图像文本对数据的图像特征和文本特征共同输入到所述多模态模型的模态融合模块中进行不同模态特征的融合，再通过预训练任务对所述多模态模型进行训练；

响应于经过预训练的多模态模型的损失函数已收敛，得到多模态预训练模型。

可选地，所述将所述多幅片段图像所对应的多个视频片段与待生成音乐视频的歌曲音频相结合，生成最终的音乐视频，包括：

将所述多幅片段图像所对应的多个视频片段按预设规则进行拼接处理，得到拼接视频；以及，

将所述拼接视频与待生成音乐视频的歌曲音频进行叠加处理以生成最终的音乐视频。

可选地，所述将所述多幅片段图像所对应的多个视频片段按预设规则进行拼接处理，得到拼接视频，包括：

获取与所述多幅片段图像分别对应的多个视频片段；

对于与每句歌词的特征相似度较高的若干片段图像所对应的若干视频片段，基于该句歌词在待生成音乐视频的歌曲中对应的时长与该句歌词对应的若干视频片段的时长对该句歌词对应的若干视频片段进行处理，得到时长相同且与该句歌词对应的短视频；以及，

将所述歌词文件包括的全部歌词所对应的短视频按照歌词顺序进行拼接，得到拼接视频。

可选地，所述基于该句歌词在待生成音乐视频的歌曲中对应的时长与该句歌词对应的若干视频片段的时长对该句歌词对应的若干视频片段进行处理，得到时长相同且与该句歌词对应的短视频，包括：

获取该句歌词在待生成音乐视频的歌曲中对应的时长，以及该句歌词对应的若干视频片段的时长；

比较该句歌词对应的若干视频片段中与该句歌词的特征相似度最高的那幅片段图像所对应的视频片段的时长T1和该句歌词在待生成音乐视频的歌曲中对应的时长T；

响应于T1>T，则将与该句歌词的特征相似度最高的那幅片段图像所对应的视频片段中超过时长T之后的部分截掉，并将剩余的视频片段作为与该句歌词对应的短视频。

可选地，所述方法还包括：

响应于T1＝T，则将与该句歌词的特征相似度最高的那幅片段图像所对应的视频片段直接作为与该句歌词对应的短视频。

可选地，所述方法还包括：

响应于T1<T，则判断T1与T的比值是否小于预设的阈值；

若T1与T的比值大于或等于预设的阈值，则将与该句歌词的特征相似度最高的那幅片段图像所对应的视频片段作为短视频的第一段，以及从与该句歌词的特征相似度最高的那幅片段图像所对应的视频片段中再截取时长为T-T1的部分作为短视频的第二段，将第一段和第二段短视频按顺序拼接形成与该句歌词对应的短视频。

可选地，所述方法还包括：

若T1与T的比值小于预设的阈值，则比较该句歌词对应的若干视频片段中与该句歌词的特征相似度次高的那幅片段图像所对应的视频片段的时长T2和T-T1；

响应于T2>(T-T1)，则将与该句歌词的特征相似度最高的那幅片段图像所对应的视频片段作为短视频的第一段，再从与该句歌词的特征相似度次高的那幅片段图像所对应的视频片段中截取时长为T-T1的部分作为短视频的第二段，将第一段和第二段短视频按顺序拼接形成与该句歌词对应的短视频；

响应于T2＝(T-T1)，则将与该句歌词的特征相似度最高的那幅片段图像所对应的视频片段作为短视频的第一段，将与该句歌词的特征相似度次高的那幅片段图像所对应的视频片段作为短视频的第二段，将第一段和第二段短视频按顺序拼接形成与该句歌词对应的短视频；

响应于T2<(T-T1)，则将与该句歌词的特征相似度最高和次高的两幅片段图像所对应的两个视频片段分别作为短视频的第一段和第二段，并在其后继续拼接与该句歌词的特征相似度第三高的那幅片段图像所对应的视频片段，直至得到与该句歌词对应的短视频。

根据本发明的另一方面，提供一种音乐视频生成装置，包括：

片段图像获取模块，其设置为获取片段图像集合，其中每幅片段图像对应一个视频片段，所述视频片段来源于原始视频；

歌曲文件获取模块，其设置为获取待生成音乐视频的歌曲音频及与之相匹配的歌词文件；

片段图像提取模块，其设置为基于预设相似度算法，从所述片段图像集合中提取与所述歌词文件中歌词的特征相似度满足预设要求的多幅片段图像；以及，

音视频处理模块，其设置为将所述多幅片段图像所对应的多个视频片段与待生成音乐视频的歌曲音频相结合，生成最终的音乐视频。

根据本发明的又一方面，提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时，所述处理器执行前述音乐视频生成方法。

根据本发明的再一方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，所述处理器执行前述音乐视频生成方法。

本发明提供的技术方案可以包括以下有益效果：

本发明提供的音乐视频生成方法，先获取片段图像集合，其中每幅片段图像对应一个视频片段，所述视频片段来源于原始视频，以及获取待生成音乐视频的歌曲音频及与之相匹配的歌词文件，再基于预设相似度算法，从所述片段图像集合中提取与所述歌词文件中歌词的特征相似度满足预设要求的多幅片段图像，然后将所述多幅片段图像所对应的多个视频片段与待生成音乐视频的歌曲音频相结合，生成最终的音乐视频，完全实现了音乐视频的自动化、批量化制作，极大缩短了制作时间，节省了人工成本，而且生成的音乐视频完全由指定视频素材中的动态视频片段拼接而成，呈现效果远好于基于静态图像的幻灯片式音乐视频，还提高了歌词与每个视频片段语义匹配的准确度，解决了歌词和视频语义不匹配、歌词理解歧义等问题。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本发明实施例提供的一种音乐视频生成方法的流程示意图；

图2为本发明实施例提供的获得片段首帧图像集合的方法示意图；

图3为本发明实施例提供的歌词文件的格式示意图；

图4为本发明实施例提供的多模态预训练模型的训练方法示意图；

图5为本发明实施例提供的视频片段的拼接方法示意图；

图6为本发明实施例提供的另一种音乐视频生成方法的流程示意图；

图7为本发明实施例提供的音乐视频生成装置的结构示意图；

图8为本发明实施例提供的音乐视频生成装置的原理示意图；

图9为本发明实施例提供的计算机设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序；并且，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互任意组合。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

图1为本发明实施例提供的一种音乐视频生成方法的流程示意图。如图1所示，所述方法包括如下步骤S101至S104。

S101.获取片段图像集合，其中每幅片段图像对应一个视频片段，所述视频片段来源于原始视频。

本步骤中，原始视频可以根据用户需求从影视作品、综艺作品、动漫作品、MV(Music Video，音乐短片)、用户原创视频、新闻视频、视频广告中选取。当然，如果用户预先指定了想要得到的音乐视频的风格、题材或主题，在获取原始视频时就可以有倾向性地进行选择，以使得最终生成的音乐视频符合用户的预期。

在根据用户需求得到用户需要的所有原始视频后，从中选取视频片段，再提取视频片段的片段图像，就可以得到片段图像集合。

S102.获取待生成音乐视频的歌曲音频及与之相匹配的歌词文件。

本步骤中，歌曲为包含歌词和曲谱的音乐作品，是由歌词和曲谱相结合的一种艺术形式，其中词曲一一对应。一般情况下，歌曲文件中包含歌词文件和歌曲音频，可以从歌曲文件中直接获得歌曲音频及与之相匹配的歌词文件；个别情况下，歌曲文件中仅包含歌曲音频而不包含歌词文件，此时可根据歌曲文件的属性信息，如歌曲名、歌手名、专辑名称等，在互联网中搜索得到对应的歌词文件。

S103.基于预设相似度算法，从所述片段图像集合中提取与所述歌词文件中歌词的特征相似度满足预设要求的多幅片段图像。

本步骤中，按照预设的特征相似度要求，从片段图像集合中提取出与歌词相匹配的多幅片段图像。

S104.将所述多幅片段图像所对应的多个视频片段与待生成音乐视频的歌曲音频相结合，生成最终的音乐视频。

本步骤中，基于预设的音视频处理策略，由多个视频片段与待生成音乐视频的歌曲音频共同生成最终的音乐视频。还可根据用户需求在音乐视频的画面上显示歌词，以及调节歌词在画面上的具体位置和字体等，当然也可以不显示歌词。

在一种具体实施方式中，步骤S101包括如下步骤S101a至S101c。

S101a.获取原始视频集合，其中包括多个原始视频；

S101b.对所述原始视频集合中的每个原始视频进行分割处理，得到视频片段集合；

S101c.将所述视频片段集合中的每个视频片段的第一帧图像作为该视频片段的片段图像，得到片段图像集合。

本实施例中，原始视频集合来自于原始视频数据库(也可称为原始视频素材库)，为最终生成的音乐视频中全部视频画面的内容来源，通过指定原始视频集合的范围，可以确定最终生成音乐视频的风格、题材、主题等。例如，将原始视频集合限定为各类动漫视频素材的集合，最终生成的音乐视频就为动漫风格；将原始视频集合限定为各类中国影视作品素材的集合，最终生成的音乐视频就为国产影视剧题材。原始视频集合的视频来源较为广泛，可包含各类影视作品、综艺作品、动漫作品、MV、用户原创视频、新闻视频、视频广告等，如此可确保最终生成音乐视频的语义准确性。

在获得原始视频集合后，就可以对其中的所有原始视频分别进行分割处理，优选基于直方图等图像特征或基于视频语义等方法对原始视频进行分割，每个原始视频都可以分割为若干视频片段，将分割得到的所有视频片段集成后，得到视频片段集合。然后，再提取视频片段集合中每个视频片段的片段图像，本实施例中，优选提取视频片段集合中的每个视频片段的第一帧图像作为该视频片段的片段图像，并将所有视频片段的第一帧图像集成以得到片段图像集合，由于所得到的片段图像集合中的所有片段图像均为视频片段的第一帧图像，此种情况下，片段图像集合可称为片段首帧图像集合。

图2提供了一种获得片段首帧图像集合的方法示意图，如图2所示，先将原始视频集合中的每个原始视频进行分割处理，获得视频片段集合，再选取各视频片段的第一帧图像分别作为各视频片段的片段图像，集成后就可获得片段首帧图像集合。从图2中可以看出，经过分割处理后，所得到的不同视频片段间的语义有较大区别，而同一视频片段中的视频语义或画面是连贯的，且由此提取的第一帧图像，可以代表整个视频片段的视频语义。

当然，还可以视需求提取视频片段的其他帧图像作为该视频片段的片段图像，本发明对此不做限制。

前已述及，视频片段是基于直方图等图像特征或基于视频语义等方法对原始视频进行分割后获得的，因此视频片段中的语义或画面是连贯的，所以通常第一帧图像就基本包含了视频片段的全部语义信息。

在一种具体实施方式中，步骤S101b具体为：基于预设的镜头边界检测模型对所述原始视频集合中的每个原始视频进行镜头分割，得到视频片段集合。

本实施例中，利用预设的镜头边界检测模型对原始视频集合进行镜头分割，可以获得视频片段集合。具体地，将原始视频集合中的每个原始视频均输入到预设的镜头边界检测模型中进行镜头分割，就可以得到每个原始视频分割而成的数段视频片段，再将所有视频片段集成，就可得到视频片段集合。

其中，镜头分割是指基于直方图等图像特征或基于视频语义等方法，将一个完整的长视频，分割为数段长度为数秒至数十秒的视频片段，每个视频片段中的语义或画面是连贯的，相邻两个不同视频片段间存在显著的图像特征差异或视频语义差异。

在一种可选方案中，使用基于3D-CNN(3D Convolutional Neural Networks，三维卷积神经网络)的TransNet模型来实现镜头分割。TransNet模型在通过使用有监督数据进行预训练后，可实现端到端的镜头边界检测能力。此外，通过基于传统图像处理的图像直方图方法或其他基于深度学习的镜头边界检测模型，也可达到相似的效果，此处不再赘述。

在一种具体实施方式中，步骤S103包括如下步骤S103a至S103c。

S103a.对所述片段图像集合中的每幅片段图像和所述歌词文件中的每句歌词进行特征提取，得到片段图像特征集合和歌词文本特征集合。

其中，分别对片段图像集合中的每幅片段图像进行图像特征提取，并将提取到的所有图像特征集成，就可以得到片段图像特征集合。

在一种可选方案中，歌词文件为LRC格式。图3提供了一种歌词文件的格式示意图，具体为LRC文件格式，如图3所示，根据不同的时间节点，将完整的歌词分割为“歌词1”、“歌词2”、……等单句歌词，分别对这些单句歌词进行文本特征提取并将提取到的所有文本特征集成，就可以得到歌词文本特征集合。

需要说明的是，单幅片段图像的图像特征与单句歌词的文本特征具有相同向量维度。

S103b.基于预设相似度算法对所述歌词文本特征集合中每句歌词的文本特征与所述片段图像特征集合中每幅片段图像的图像特征两两计算相似度，得出与每句歌词的文本特征的相似度较高的若干片段图像的图像特征。

在一种可选方案中，使用余弦相似度算法来计算两个不同特征向量的相似度，其计算公式为：

其中，x与y分别为歌词的文本特征向量和片段图像的图像特征向量，n为向量长度。

在计算得出每句歌词的文本特征与每幅片段图像的图像特征两两之间的相似度之后，就可针对每句歌词的文本特征所得出的，与之进行相似度计算的所有片段图像的图像特征的全部相似度按照从高到低的顺序进行排序，优选使用Softmax函数将全部相似度映射到[0,1]区间内之后再按数值大小进行排序。

S103c.从所述片段图像集合中提取与每句歌词的文本特征的相似度较高的若干片段图像的图像特征所对应的片段图像，得到多幅片段图像。其中，可视需求提取与每句歌词的文本特征的相似度从高到低排名前2～5的片段图像的图像特征所对应的片段图像。

本实施例中，利用相似度算法，将全部单句歌词的文本特征与全部单幅片段图像的图像特征两两计算相似度，对于每句歌词的文本特征，将与其进行相似度计算的全部单幅片段图像的图像特征按照相似度从高到低排序，获得与每句歌词的文本特征相似度排名靠前的数个片段图像的图像特征，然后根据排名靠前的数个片段图像的图像特征确定对应的数个片段图像，再从片段图像集合中提取出这些片段图像得到与歌词相匹配的多幅片段图像，进而确定与歌词相匹配的多个视频片段。

在一种具体实施方式中，步骤S103a包括如下步骤A31和A32。

A31.获取多模态预训练模型；

A32.基于所述多模态预训练模型，分别提取所述片段图像集合中每幅片段图像的图像特征和所述歌词文件中每句歌词的文本特征，得到片段图像特征集合和歌词文本特征集合。

本实施例中，由于片段首帧图像可以代表整个视频片段的视频语义，那么使用视频片段集合中每个视频片段的片段首帧图像作为多模态预训练模型的输入，能够极大减少计算量，提高图文检索效率。

在一种具体实施方式中，步骤A31具体包括如下步骤A311至A314。

A311.获取多对图像文本对数据，其中每对图像文本对数据包括一幅图像信息和与该图像的画面相匹配的文字描述信息；

A312.将每对图像文本对数据中的图像信息和文字描述信息分别输入到预设的多模态模型的图像特征提取器和文本特征提取器中，得到该对图像文本对数据的图像特征和文本特征；

A313.将每对图像文本对数据的图像特征和文本特征共同输入到所述多模态模型的模态融合模块中进行不同模态特征的融合，再通过预训练任务对所述多模态模型进行训练；

A314.响应于经过预训练的多模态模型的损失函数已收敛，得到多模态预训练模型。

在一种可选方案中，可使用CLIP、UNITER、Pixel-BERT等模型结构作为预设的多模态模型，在经过大量数据进行预训练后，就可获得多模态预训练模型。其中，

图4提供了一种多模态预训练模型的训练方法示意图，如图4所示，多模态预训练模型通常需要海量的图像文本对数据来进行训练，一对图像文本对数据包括一幅图像信息和与该图像的画面相匹配的文字描述信息，即为一幅图像与其画面描述文字的配对；将匹配的图像信息与文字描述信息分别输入到多模态模型的图像特征提取器和文本特征提取器中，获得图像文本对数据的图像特征与文本特征，之后将图像特征与文本特征共同输入到多模态模型的模态融合模块中进行不同模态特征的融合，此外，通过掩码语言建模、掩码图像建模、对比学习、图文匹配等预训练任务对多模态模型进行训练，当多模态模型的损失函数收敛后即可得到多模态预训练模型。将多模态预训练模型微调便可用于图文检索、视觉问答、视觉推理等下游任务。

本实施例中，使用已经过预训练且损失函数已收敛的多模态预训练模型，分别提取片段图像集合中每幅片段图像和歌词文件中的每句歌词的图像特征和文本特征，经过集成后，获得片段图像特征集合和歌词文本特征集合。

在一种具体实施方式中，步骤S104包括如下步骤S104a和S104b。

S104a.将所述多幅片段图像所对应的多个视频片段按预设规则进行拼接处理，得到拼接视频；

S104b.将所述拼接视频与待生成音乐视频的歌曲音频进行叠加处理以生成最终的音乐视频。

本实施例中，在获得与歌词相匹配的多个视频片段后，需要按一定规则对这些视频片段进行拼接处理，生成总时长与待生成音乐视频的歌曲时长相同的拼接视频，再将拼接视频与待生成音乐视频的歌曲音频叠加，就可以生成完整的音乐视频。

在一种具体实施方式中，步骤S104a包括如下步骤A41至A43。

A41.获取与所述多幅片段图像分别对应的多个视频片段；

A42.对于与每句歌词的特征相似度较高的若干片段图像所对应的若干视频片段，基于该句歌词在待生成音乐视频的歌曲中对应的时长与该句歌词对应的若干视频片段的时长对该句歌词对应的若干视频片段进行处理，得到时长相同且与该句歌词对应的短视频；

A43.将所述歌词文件包括的全部歌词所对应的短视频按照歌词顺序进行拼接，得到拼接视频。

本实施例中，考虑到一个视频片段的时长可能与一句歌词在待生成音乐视频的歌曲中对应的时长不同，且不同视频片段的时长也不同，因此需要基于歌词在待生成音乐视频的歌曲中对应的时长与该句歌词对应的若干视频片段的时长来处理该句歌词对应的若干视频片段，以得到时长相同且与该句歌词对应的短视频，再将所有歌词对应的短视频按照歌词顺序进行拼接，就可以得到后续与待生成音乐视频的歌曲音频进行叠加的拼接视频。处理视频片段的具体方式将在下文中予以详细描述。

在一种具体实施方式中，步骤A42具体包括如下步骤A4201至A4203。

A4201.获取该句歌词在待生成音乐视频的歌曲中对应的时长，以及该句歌词对应的若干视频片段的时长；

A4202.比较该句歌词对应的若干视频片段中与该句歌词的特征相似度最高的那幅片段图像所对应的视频片段的时长T1和该句歌词在待生成音乐视频的歌曲中对应的时长T；

A4203.响应于T1>T，则将与该句歌词的特征相似度最高的那幅片段图像所对应的视频片段中超过时长T之后的部分截掉，并将剩余的视频片段作为与该句歌词对应的短视频。

本实施例中，若与歌词的特征相似度最高的那幅片段图像所对应的视频片段的时长T1大于该句歌词在待生成音乐视频的歌曲中对应的时长T，说明对于该句歌词而言，与其特征相似度最高的那幅片段图像所对应的视频片段就足够了，并且由于该视频片段的时长超过了歌词本身时长，还需要将该视频片段超长的部分截掉，具体为将该视频片段从前至后截取时长为T的部分作为与该句歌词对应的短视频，而超过时长T的部分则直接截掉。

在一种具体实施方式中，在步骤A4202之后还包括如下步骤A4204。

A4204.响应于T1＝T，则将与该句歌词的特征相似度最高的那幅片段图像所对应的视频片段直接作为与该句歌词对应的短视频。

本实施例中，若与歌词的特征相似度最高的那幅片段图像所对应的视频片段的时长T1恰好等于该句歌词在待生成音乐视频的歌曲中对应的时长T，则直接将该视频片段作为与该句歌词对应的短视频。

在一种具体实施方式中，在步骤A4202之后还包括如下步骤A4205和A4206。

A4205.响应于T1<T，则判断T1与T的比值是否小于预设的阈值，若大于或等于预设的阈值，则执行步骤A4206；其中，所述阈值可由本领域技术人员根据实际需求进行设定与调整，例如设置为50％～80％，优选为60％；

A4206.将与该句歌词的特征相似度最高的那幅片段图像所对应的视频片段作为短视频的第一段，以及从与该句歌词的特征相似度最高的那幅片段图像所对应的视频片段中再截取时长为T-T1的部分作为短视频的第二段，将第一段和第二段短视频按顺序拼接形成与该句歌词对应的短视频。

本实施例中，若与歌词的特征相似度最高的那幅片段图像所对应的视频片段的时长T1小于该句歌词在待生成音乐视频的歌曲中对应的时长T，说明对于该句歌词而言，与其特征相似度最高的那幅片段图像所对应的视频片段不够长，此时需要进一步判断T1与T的比值是否小于预设的阈值，若不小于预设的阈值，说明虽然与该句歌词特征相似度最高的那幅片段图像所对应的视频片段不够长，但是相差不多，此时可在该视频片段末尾重复拼接同一视频片段直至满足该句歌词在待生成音乐视频的歌曲中对应的时长。

在一种具体实施方式中，在步骤A4205中若判断T1与T的比值小于预设的阈值，所述方法还包括如下步骤A4207至A4210。

A4207.比较该句歌词对应的若干视频片段中与该句歌词的特征相似度次高的那幅片段图像所对应的视频片段的时长T2和T-T1。

本实施例中，若T1<T，并且T1与T的比值小于预设的阈值，说明与该句歌词特征相似度最高的那幅片段图像所对应的视频片段不够长且相差较多，此时需要考虑在该视频片段末尾拼接与该句歌词的特征相似度次高的那幅片段图像所对应的视频片段。

A4208.响应于T2>(T-T1)，则将与该句歌词的特征相似度最高的那幅片段图像所对应的视频片段作为短视频的第一段，再从与该句歌词的特征相似度次高的那幅片段图像所对应的视频片段中截取时长为T-T1的部分作为短视频的第二段，将第一段和第二段短视频按顺序拼接形成与该句歌词对应的短视频。

本实施例中，若T2>(T-T1)，说明在与该句歌词特征相似度最高的那幅片段图像所对应的视频片段的末尾拼接与该句歌词的特征相似度次高的那幅片段图像所对应的视频片段后的总时长超过了歌词本身时长，需要将后一视频片段超长的部分截掉，具体为将与该句歌词的特征相似度次高的那幅片段图像所对应的视频片段从前至后截取时长为T-T1的部分(超过时长T-T1的部分直接截掉)，拼接在与该句歌词特征相似度最高的那幅片段图像所对应的视频片段的末尾，得到与该句歌词对应的短视频。

A4209.响应于T2＝(T-T1)，则将与该句歌词的特征相似度最高的那幅片段图像所对应的视频片段作为短视频的第一段，将与该句歌词的特征相似度次高的那幅片段图像所对应的视频片段作为短视频的第二段，将第一段和第二段短视频按顺序拼接形成与该句歌词对应的短视频。

本实施例中，若T2＝(T-T1)，说明在与该句歌词特征相似度最高的那幅片段图像所对应的视频片段的末尾拼接与该句歌词的特征相似度次高的那幅片段图像所对应的视频片段后的总时长恰好等于该句歌词在待生成音乐视频的歌曲中对应的时长T，则直接将与该句歌词的特征相似度次高的那幅片段图像所对应的视频片段拼接在与该句歌词特征相似度最高的那幅片段图像所对应的视频片段的末尾，得到与该句歌词对应的短视频。

A4210.响应于T2<(T-T1)，则将与该句歌词的特征相似度最高和次高的两幅片段图像所对应的两个视频片段分别作为短视频的第一段和第二段，并在其后继续拼接与该句歌词的特征相似度第三高的那幅片段图像所对应的视频片段，直至得到与该句歌词对应的短视频。

本实施例中，若T2<(T-T1)，说明与歌词的特征相似度最高和次高的两幅片段图像所对应的两个视频片段拼接后的总时长仍不够长，此时需要继续拼接与该句歌词的特征相似度第三高的那幅片段图像所对应的视频片段，并根据拼接后的总时长与该句歌词在待生成音乐视频的歌曲中对应的时长的关系，决定是否需要截断与该句歌词的特征相似度第三高的那幅片段图像所对应的视频片段，以及是否需要在与该句歌词的特征相似度第三高的那幅片段图像所对应的视频片段之后继续拼接下一视频片段，直至得到与该句歌词对应的短视频。

图5提供了视频片段的拼接方法示意图。如图5所示，对于歌词1，对应的时间节点为t0至t1时刻，若与歌词1的特征相似度最高的片段图像所对应的视频片段1的时长大于t1-t0，那么将视频片段1中时长超过t1-t0的部分截断，作为歌词1的音乐视频内容(对应于前述步骤A4203)；对于歌词2，对应的时间节点为t1至t3时刻，与歌词2的特征相似度最高的片段图像所对应的视频片段2的时长为t2-t1，若视频片段2的时长除以该句歌词对应时长小于指定阈值时，例如60％，即(t2-t1)/(t3-t1)<60％，则将该视频片段2作为该句歌词的第一段音乐视频内容，同时选取与该句歌词相似度第二高的视频片段3，作为该句歌词的第二段音乐视频内容，而视频片段3的处理策略与视频片段1相同(对应于前述步骤A4207和A4208)；对于歌词3，对应的时间节点为t3至t4时刻，若与歌词3的特征相似度最高的片段图像所对应的视频片段4时长恰好也为t4-t3，则视频片段4作为歌词3的音乐视频内容(对应于前述步骤A4204)；对于歌词4，对应的时间节点为t4至t6时刻，与歌词4的特征相似度最高的片段图像所对应的视频片段5的时长为t5-t4，若该视频片段5的时长除以该句歌词对应时长大于等于指定阈值时，例如60％，即(t5-t4)/(t6-t4)≥60％，则将该视频片段5作为该句歌词的第一段音乐视频内容，同时继续重复拼接此视频片段5，直至总时长等于t6-t4(对应于前述步骤A4206)。通过此方法，可以得到将不同视频片段拼接而成的拼接视频。

需要说明的是，上述步骤的顺序只是为了说明本发明实施例而提出的一个具体实例，本发明对上述步骤的顺序不做限定，本领域技术人员在实际应用中可按需对其进行调整；而且上述步骤的序号大小也不限制其执行顺序。

图6为本发明实施例提供的另一种音乐视频生成方法的流程示意图。如图6所示，所述方法包括如下步骤S601至S607。

S601.获得原始视频集合；

S602.利用镜头边界检测模型对原始视频集合进行镜头分割，获得视频片段集合；

S603.将每个视频片段的第一帧图像作为该视频片段的片段图像，获得片段首帧图像集合；

S604.获得待生成音乐视频的歌曲音频及与之匹配的歌词文件；

S605.将片段首帧图像集合中每幅片段图像和歌词文件中的每句歌词共同输入到多模态预训练模型中，获得片段首帧图像特征集合和歌词文本特征集合；

S606.利用预设相似度算法，将歌词文本特征集合中每句歌词的文本特征与片段首帧图像特征集合中每幅片段首帧图像的图像特征两两计算相似度，获得与每句歌词的文本特征相似度排名靠前的数个片段首帧图像的图像特征，再基于这些图像特征对应的片段首帧图像得到对应的多个视频片段；

S607.基于预设的音视频处理策略，将前一步骤得到的多个视频片段与待生成音乐视频的歌曲音频共同生成最终的音乐视频。

本发明实施例提供的音乐视频生成方法，利用人工智能技术，基于深度卷积神经网络和多模态预训练模型，能够根据歌词语义，自动计算并从原始视频集合中截取与之匹配视频片段，并且通过音视频处理策略，叠加歌曲音频，最终生成完整的音乐视频。相对于现有方法，首先完全实现了音乐视频的自动化、批量化制作，极大缩短了制作时间，节省了人工成本；此外，生成的音乐视频完全由指定视频素材集合中的动态视频片段拼接而成，呈现效果远好于基于静态图像的幻灯片式音乐视频；最后，此方法提高了歌词与每个视频片段语义匹配的准确度，解决了歌词和视频语义不匹配、歌词理解歧义等问题。

图7为本发明实施例提供的音乐视频生成装置的结构示意图，如图7所示，所述装置包括：片段图像获取模块701、歌曲文件获取模块702、片段图像提取模块703和音视频处理模块704。

片段图像获取模块701设置为获取片段图像集合，其中每幅片段图像对应一个视频片段，所述视频片段来源于原始视频；歌曲文件获取模块702设置为获取待生成音乐视频的歌曲音频及与之相匹配的歌词文件；片段图像提取模块703设置为基于预设相似度算法，从所述片段图像集合中提取与所述歌词文件中歌词的特征相似度满足预设要求的多幅片段图像；音视频处理模块704设置为将所述多幅片段图像所对应的多个视频片段与待生成音乐视频的歌曲音频相结合，生成最终的音乐视频。

在一种具体实施方式中，片段图像获取模块701包括：获取单元、视频分割单元和第一图像提取单元。

其中，获取单元设置为获取原始视频集合，其中包括多个原始视频；视频分割单元设置为对所述原始视频集合中的每个原始视频进行分割处理，得到视频片段集合；第一图像提取单元设置为将所述视频片段集合中的每个视频片段的第一帧图像作为该视频片段的片段图像，得到片段图像集合。

在一种具体实施方式中，视频分割单元具体设置为，基于预设的镜头边界检测模型对所述原始视频集合中的每个原始视频进行镜头分割。

在一种具体实施方式中，片段图像提取模块703包括：特征提取单元、相似度计算单元和第二图像提取单元。

其中，特征提取单元设置为对所述片段图像集合中的每幅片段图像和所述歌词文件中的每句歌词进行特征提取，得到片段图像特征集合和歌词文本特征集合；相似度计算单元设置为基于预设相似度算法对所述歌词文本特征集合中每句歌词的文本特征与所述片段图像特征集合中每幅片段图像的图像特征两两计算相似度，得出与每句歌词的文本特征的相似度较高的若干片段图像的图像特征；第二图像提取单元设置为从所述片段图像集合中提取与每句歌词的文本特征的相似度较高的若干片段图像的图像特征所对应的片段图像，得到多幅片段图像。

在一种具体实施方式中，特征提取单元包括：第一获取子单元和特征提取子单元。

其中，第一获取子单元设置为获取多模态预训练模型；特征提取子单元设置为基于所述多模态预训练模型，分别提取所述片段图像集合中每幅片段图像的图像特征和所述歌词文件中每句歌词的文本特征，得到片段图像特征集合和歌词文本特征集合。

在一种具体实施方式中，第一获取子单元具体设置为：

在一种具体实施方式中，音视频处理模块704包括：视频拼接单元和叠加单元。

其中，视频拼接单元设置为将所述多幅片段图像所对应的多个视频片段按预设规则进行拼接处理，得到拼接视频；叠加单元设置为将所述拼接视频与待生成音乐视频的歌曲音频进行叠加处理以生成最终的音乐视频。

在一种具体实施方式中，视频拼接单元包括：第二获取子单元、视频处理子单元和拼接子单元。

其中，第二获取子单元设置为获取与所述多幅片段图像分别对应的多个视频片段；视频处理子单元设置为对于与每句歌词的特征相似度较高的若干片段图像所对应的若干视频片段，基于该句歌词在待生成音乐视频的歌曲中对应的时长与该句歌词对应的若干视频片段的时长对该句歌词对应的若干视频片段进行处理，得到时长相同且与该句歌词对应的短视频；拼接子单元设置为将所述歌词文件包括的全部歌词所对应的短视频按照歌词顺序进行拼接，得到拼接视频。

在一种具体实施方式中，视频处理子单元具体设置为：

在一种具体实施方式中，视频处理子单元还设置为：

响应于T1<T，则判断T1与T的比值是否小于预设的阈值；

在一种具体实施方式中，视频处理子单元还设置为：

图8为本发明实施例提供的音乐视频生成装置的原理示意图。如图8所示，从原始视频数据库中获得原始视频集合，输入到视频分割单元中，基于视频分割单元中的镜头边界检测模型，获得视频片段集合，存储于视频片段数据库；取视频片段集合中每个视频片段的第一帧图像，输入到多模态预训练模型中，同时将待生成音乐视频的歌曲的歌词文件输入到多模态预训练模型中，在多模态预训练模型中，获得歌词文本特征集合与片段首帧图像特征集合，并输入到相似度计算单元中；在相似度计算单元中，利用相似度算法，将歌词文本特征集合中每个歌词文本的文本特征与片段首帧图像特征集合中每个片段首帧图像的图像特征两两计算相似度，获得与每个歌词文本特征相似度排名靠前数个的片段首帧图像特征，再基于这些图像特征对应的片段首帧图像得到对应的多个视频片段，并与待生成音乐视频的歌曲共同输入到音视频处理模块中；基于预设的音视频处理策略，音视频处理模块将得到的多个视频片段与待生成音乐视频的歌曲音频共同生成最终的音乐视频。

本发明实施例提供的音乐视频生成装置，利用人工智能技术，基于深度卷积神经网络和多模态预训练模型，能够根据歌词语义，自动计算并从原始视频集合中截取与之匹配视频片段，并且通过音视频处理策略，叠加歌曲音频，最终生成完整的音乐视频。相对于现有方法，首先完全实现了音乐视频的自动化、批量化制作，极大缩短了制作时间，减少了大量人工成本；此外，生成的音乐视频完全由指定视频素材集合中的动态视频片段拼接而成，呈现效果远好于基于静态图像的幻灯片式音乐视频；最后，此方法提高了歌词与每个视频片段语义匹配的准确度，解决了歌词和视频语义不匹配、歌词理解歧义等问题。

基于相同的技术构思，本发明实施例相应还提供一种计算机设备，如图9所示，所述计算机设备包括存储器91和处理器92，所述存储器91中存储有计算机程序，当所述处理器92运行所述存储器91存储的计算机程序时，所述处理器92执行前述音乐视频生成方法。

基于相同的技术构思，本发明实施例相应还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，所述处理器执行前述音乐视频生成方法。

综上所述，本发明实施例提供的音乐视频生成方法、装置、计算机设备及存储介质，通过原始视频数据库得到视频片段集合，再得到片段首帧图像集合，由片段首帧图像代表视频片段，作为后续多模态预训练模型的输入，将能极大减少计算量，提高图文检索效率；基于多模态预训练模型，对每句歌词的文本特征与片段首帧图像特征集合计算相似度，可以得到与每句歌词最匹配的数个视频片段，进而可拼接生成最终音乐视频，提高了歌词与每个视频片段语义匹配的准确度，且实现了音乐视频的自动化、批量化制作，极大缩短了制作时间，节省了人工成本，此外，生成的音乐视频完全由指定视频库中的动态视频片段拼接而成，呈现效果远好于基于静态图像的幻灯片式音乐视频。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种音乐视频生成方法，其特征在于，包括：

获取待生成音乐视频的歌曲音频及与之相匹配的歌词文件；

将所述多幅片段图像所对应的多个视频片段与待生成音乐视频的歌曲音频相结合，生成最终的音乐视频；

所述基于预设相似度算法，从所述片段图像集合中提取与所述歌词文件中歌词的特征相似度满足预设要求的多幅片段图像，包括：

从所述片段图像集合中提取与每句歌词的文本特征的相似度较高的若干片段图像的图像特征所对应的片段图像，得到多幅片段图像；

所述将所述多幅片段图像所对应的多个视频片段与待生成音乐视频的歌曲音频相结合，生成最终的音乐视频，包括：

获取与所述多幅片段图像分别对应的多个视频片段；

对于与每句歌词的特征相似度较高的若干片段图像所对应的若干视频片段，基于该句歌词在待生成音乐视频的歌曲中对应的时长与该句歌词对应的若干视频片段的时长对该句歌词对应的若干视频片段进行处理，得到时长相同且与该句歌词对应的短视频；

将所述歌词文件包括的全部歌词所对应的短视频按照歌词顺序进行拼接，得到拼接视频；以及，

2.根据权利要求1所述的方法，其特征在于，所述获取片段图像集合，包括：

获取原始视频集合，其中包括多个原始视频；

3.根据权利要求2所述的方法，其特征在于，所述对所述原始视频集合中的每个原始视频进行分割处理，具体为：

4.根据权利要求1所述的方法，其特征在于，所述对所述片段图像集合中的每幅片段图像和所述歌词文件中的每句歌词进行特征提取，得到片段图像特征集合和歌词文本特征集合，包括：

获取多模态预训练模型；以及，

5.根据权利要求4所述的方法，其特征在于，所述获取多模态预训练模型，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于该句歌词在待生成音乐视频的歌曲中对应的时长与该句歌词对应的若干视频片段的时长对该句歌词对应的若干视频片段进行处理，得到时长相同且与该句歌词对应的短视频，包括：

7.根据权利要求6所述的方法，其特征在于，还包括：

8.根据权利要求6所述的方法，其特征在于，还包括：

响应于T1<T，则判断T1与T的比值是否小于预设的阈值；

9.根据权利要求8所述的方法，其特征在于，还包括：

10.一种音乐视频生成装置，其特征在于，包括：

音视频处理模块，其设置为将所述多幅片段图像所对应的多个视频片段与待生成音乐视频的歌曲音频相结合，生成最终的音乐视频；

所述片段图像提取模块包括特征提取单元、相似度计算单元和图像提取单元；其中所述特征提取单元设置为对所述片段图像集合中的每幅片段图像和所述歌词文件中的每句歌词进行特征提取，得到片段图像特征集合和歌词文本特征集合；所述相似度计算单元设置为基于预设相似度算法对所述歌词文本特征集合中每句歌词的文本特征与所述片段图像特征集合中每幅片段图像的图像特征两两计算相似度，得出与每句歌词的文本特征的相似度较高的若干片段图像的图像特征；所述图像提取单元设置为从所述片段图像集合中提取与每句歌词的文本特征的相似度较高的若干片段图像的图像特征所对应的片段图像，得到多幅片段图像；

所述音视频处理模块包括视频拼接单元和叠加单元，所述视频拼接单元包括获取子单元、视频处理子单元和拼接子单元；其中所述获取子单元设置为获取与所述多幅片段图像分别对应的多个视频片段；所述视频处理子单元设置为对于与每句歌词的特征相似度较高的若干片段图像所对应的若干视频片段，基于该句歌词在待生成音乐视频的歌曲中对应的时长与该句歌词对应的若干视频片段的时长对该句歌词对应的若干视频片段进行处理，得到时长相同且与该句歌词对应的短视频；所述拼接子单元设置为将所述歌词文件包括的全部歌词所对应的短视频按照歌词顺序进行拼接，得到拼接视频；所述叠加单元设置为将所述拼接视频与待生成音乐视频的歌曲音频进行叠加处理以生成最终的音乐视频。

11.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时，所述处理器执行根据权利要求1至9中任一项所述的音乐视频生成方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，所述处理器执行根据权利要求1至9中任一项所述的音乐视频生成方法。