CN114067840A

CN114067840A - 生成音乐视频的方法、存储介质和电子设备

Info

Publication number: CN114067840A
Application number: CN202111348161.6A
Authority: CN
Inventors: 梅立锋; 杨跃; 董治; 雷兆恒
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2021-11-15
Filing date: 2021-11-15
Publication date: 2022-02-18

Abstract

本申请公开一种生成音乐视频的方法，包括：利用第一网络模型对所述目标音频进行分类，获取所述目标音频对应的音频类别；利用第二网络模型对所述目标音频进行音轨分离处理，获取多个分离音轨；生成各个所述分离音轨的谐波和冲击波，基于各个所述分离音轨的谐波和冲击波生成每一音频帧的音频特征向量；基于每一音频帧的音频特征向量生成每一音频帧的音频特征向量增量；利用与所述音频类别对应的第三网络模型处理每一音频帧的音频特征向量增量，获取每一音频帧对应的视频帧；对每一音频帧对应的视频帧进行合成处理，生成目标动态视频。本申请还提供一种计算机可读存储介质、电子设备。本申请的方案能高效生成与目标音频类型关联的音乐视频，生成的音乐视频能够与音频特征匹配。

Description

生成音乐视频的方法、存储介质和电子设备

技术领域

本申请涉及多媒体内容处理技术领域，具体地，涉及一种生成音乐视频的方法。另外，本申请还涉及相关的计算机可读存储介质和电子设备。

背景技术

目前许多没有官方MV的歌曲通常采用视频剪辑的方式制作音乐视频，即人工从影视剧或动画中取样，根据视觉效果将取样视频与正在播放的音乐情绪或节奏相匹配。此种生成音乐视频的方式，人力成本较高，且视频制作效率较低，很难大规模运用。

发明内容

因此，本发明实施例意图提供一种生成音乐视频的方法以及计算机可读存储介质和电子设备。这些方案能够根据音频数据自动进行音频风格分类，基于音频风格分类自动和音频特征自动生成音乐视频，从而降低了人力成本且提高了音乐视频生产的效率。

在本发明实施例中，提供一种生成音乐视频的方法，包括如下步骤：

利用第一网络模型对所述目标音频进行分类，获取所述目标音频对应的音频类别；

利用第二网络模型对所述目标音频进行音轨分离处理，获取多个分离音轨；

生成各个所述分离音轨的谐波和冲击波；

基于各个所述分离音轨的谐波和冲击波生成所述目标音频的每一音频帧的音频特征向量；

基于所述每一音频帧的音频特征向量生成所述每一音频帧的音频特征向量增量；

利用与所述音频类别对应的第三网络模型处理每一音频帧的音频特征向量增量，获取每一音频帧对应的视频帧；

对每一音频帧对应的视频帧进行合成处理，生成目标动态视频。

在本发明一些实施例中，所述第一网络模型包括编码神经网络和与所述编码神经网络的输出层连接的投影神经网络，所述第一网络模型通过如下步骤训练生成：

获取不同音乐类别的N个训练音频片段，分别从每个所述训练音频片段中选取两段部分重叠或不重叠的样本xi和样本xj；

选取任意一个训练音频片段的样本xi和样本xj做数据增强处理，获取增强样本xI和增强样本xJ，将所述增强样本xI和增强样本xJ作为正样本，并将剩下N-1个训练音频片段的样本xi和样本xj作为负样本；

利用对比损失函数自监督训练所述正样本及所述负样本，得到所述编码神经网络和所述投影神经网络。

在本发明一些实施例中，所述第二网络模型为具有语义分割(U-Net)网络与双向长短期记忆(LSTM)网络的波形到波形模型。

在本发明一些实施例中，所述生成各个所述分离音轨的谐波和冲击波，包括：

将各个分离音轨的时间序列转化为短时傅里叶转换矩阵；

利用中值滤波器处理与各个分离音轨对应的所述短时傅里叶转换矩阵，以得到与各个分离音轨对应的初始谐波和初始冲击波；

将各个分离音轨对应的初始谐波和初始冲击波进行逆短时傅里叶转换，并调整各个逆短时傅里叶变换后的初始谐波和初始冲击波的时间序列长度与各个分离音轨的时间序列长度匹配，生成各个分离音轨的谐波和冲击波。

在本发明一些实施例中，所述基于各个所述分离音轨的谐波和冲击波生成所述目标音频的每一音频帧的音频特征向量，包括；

若分离音轨包括伴奏音轨，利用伴奏音轨的冲击波生成脉冲特征向量，以及利用伴奏音轨的谐波生成动作特征向量；

若分离音轨包括人声音轨，利用人声音轨的谐波生成人声音高特征向量；

将所述脉冲特征向量、所述动作特征向量及所述人声音高特征向量作为所述每一音频帧的音频特征向量。

在本发明一些实施例中，所述利用伴奏音轨的冲击波生成脉冲特征向量，包括：

将伴奏音轨的冲击波转换为声谱图；

将声谱图与若干个梅尔滤波器点乘得到梅尔频谱特征矩阵；

基于梅尔频谱特征矩阵中的最大梅尔频率，对所述梅尔频谱特征矩阵进行归一化处理；

将归一化后的梅尔频谱特征矩阵降维到各个音频帧下的向量作为所述脉冲特征向量。

在本发明一些实施例中，所述利用伴奏音轨的谐波生成动作特征向量，包括：

将伴奏音轨的谐波转换为声谱图；

将声谱图与若干个梅尔滤波器点乘得到谐波梅尔频谱特征矩阵；

对所述谐波梅尔频谱特征矩阵做倒谱分析得到梅尔频率倒普系数特征矩阵，并求取每一音频帧的梅尔频率倒普系数特征的均值；

利用每一音频帧的梅尔频率倒普系数特征的均值，对所述梅尔频率倒普系数特征进行归一化处理；

将归一化后的梅尔频率倒普系数特征矩阵降维到各个音频帧下的向量作为所述动作特征向量。

在本发明一些实施例中，所述利用人声音轨的谐波生成人声音高特征向量，包括：

对人声音轨的谐波进行CQT变换后取绝对值，获取各个时间点的CQT变换绝对值；

将所述CQT变换绝对值映射到色谱图，生成初始色谱CQT变换特征矩阵；

对初始色谱CQT变换特征矩阵进行归一化处理，生成色谱CQT变换特征矩阵；

根据每个音频帧对应的色谱值，计算加权平均色谱值，其中，每个音频帧对应T个音阶的色谱值；

利用每个音频帧对应的加权平均色谱值，对所述色谱CQT变换特征矩阵归一化处理；

将归一化后的色谱CQT变换特征矩阵降维到各个音频帧下的向量作为所述人声音高特征向量。

在本发明一些实施例中，将所述脉冲特征向量、所述动作特征向量及所述人声音高特征向量作为音频帧的音频特征向量，包括：

运用滤波器对所述脉冲特征向量、动作特征向量和人声音高特征向量沿时间轴做平滑处理，将平滑处理后的所述脉冲特征向量、动作特征向量和人声音高特征向量作为音频帧的音频特征向量。

在本发明一些实施例中，所述音频特征向量的增量包括：脉冲特征向量增量、动作特征向量增量、人声音高特征向量增量和复合音频特征向量增量latent z中的一个或多个。

在本发明一些实施例中，所述基于所述每一音频帧的音频特征向量生成每一音频帧的复合特征向量增量，包括：

生成每一音频帧的基础噪声向量；

将所述目标音频的首个音频帧到当前音频帧之间的每一音频帧的动作特征向量增量进行求和，获取当前音频帧的动作特征向量增量累积；

将当前音频帧的基础噪声向量、当前音频帧的脉冲特征向量增量、当前音频帧人声音高特征向量增量和所述当前音频帧的动作特征向量增量累积进行求和，生成当前音频帧的复合音频特征向量增量；

循环执行上述步骤，获取每一音频帧的合音频特征向量增量，其中所述复合音频特征向量增量作为音频特征向量增量。

进一步地，音频帧的脉冲特征向量增量、动作特征向量增量及人声音高特征向量增量通过以下方式生成：

构建脉冲特征向量的基向量、动作特征向量的基向量和人声音高特征向量的基向量；

间隔预定时间生成动作随机因子；

将所述脉冲特征向量的基向量和每一音频帧的所述脉冲特征向量做乘积生成每一音频帧的所述脉冲特征向量增量；

将所述动作特征向量的基向量、每一音频帧的动作特征向量、每一音频帧的动作随机因子和每一音频帧的动作方向因子做乘积生成每一音频帧的所述动作特征向量增量；

将人声音高特征向量的基向量和每一音频帧的人声音高特征向量做乘积生成每一音频帧的所述人声音高特征向量增量。

在本发明一些实施例中，所述生成每一音频帧的基础噪声向量，包括：

基于标准正态分布生成按照音频帧顺序的正态分布向量，根据阈值范围截断所述按照音频帧顺序的正态分布向量作为所述基础噪声向量。

基于标准正态分布生成[512,音频帧数]上下限为[-2,2]的截断正态分布向量作为所述基础噪声向量。

在本发明一些实施例中，所述音频特征向量增量包括复合音频特征向量增量latent z；其中，所述利用与所述音频类别对应的第三网络模型处理所述音频特征向量增量，获取每一音频帧对应的视频帧，包括：

基于所述每一音频帧的复合音频特征向量增量latent z，生成复合音频特征向量增量矩阵latent Z；

从所述复合音频特征向量增量矩阵中选择对应每一音频帧的复合音频特征向量增量输入到与所述音频类别对应的第三网络模型中，获取每一音频帧对应的视频帧。

在本发明一些实施例中，所述第三网络模型包括映射网络部分和综合网络部分；从所述音频特征向量增量矩阵中选中对应每一音频帧的复合音频特征向量增量输入到与所述音频类别对应的第三网络模型中，获取每一音频帧对应的视频帧，包括：

将音频帧的复合音频特征向量增量输入到所述映射网络部分，映射得到复合音频特征向量增量映射向量；

将所述复合音频特征向量增量映射向量输入到所述综合网络部分的每一层，生成与音频帧对应的视频帧。

在本发明一些实施例中，所述的方法还包括：

根据每一音频帧对应的脉冲特征向量的强度，对所述视频帧添加对应的同步特效；

对所述视频帧进行超分辨率优化。

在本发明一些实施例中，所述基于每一音频帧的音频特征向量生成每一音频帧的音频特征向量增量，包括：

间隔预定时间生成动作随机因子；

将所述脉冲特征向量的基向量和每一音频帧的所述脉冲特征向量做乘积生成每一音频帧的脉冲特征向量增量；

将所述动作特征向量的基向量、每一音频帧的动作特征向量、每一音频帧的动作随机因子和每一音频帧的动作方向因子做乘积生成每一音频帧的动作特征向量增量；

将人声音高特征向量的基向量和每一音频帧的人声音高特征向量做乘积生成每一音频帧的人声音高特征向量增量；

其中，所述脉冲特征向量增量、动作特征向量增量及人声音高特征向量增量作为所述音频特征向量增量。

在本发明一些实施例中，所述将所述脉冲特征向量的基向量和每一音频帧的所述脉冲特征向量做乘积生成每一音频帧的所述脉冲特征向量增量，包括：

在首个音频帧，将脉冲特征向量的基向量与首个音频帧的脉冲特征向量做乘积生成首个音频帧的脉冲特征向量增量；在第m音频帧，其中，m大于等于2，将脉冲特征向量的基向量与第m音频帧的脉冲特征向量做乘积生成第m音频帧的脉冲特征向量初始增量；

在本发明一些实施例中，所述将所述动作特征向量的基向量、每一音频帧的动作特征向量、每一音频帧的动作随机因子和每一音频帧的动作方向因子做乘积生成每一音频帧的动作特征向量增量，包括：

在首个音频帧，将动作特征向量的基向量、首个音频帧的动作特征向量、首个音频帧的动作随机因子和首个音频帧的动作方向因子做乘积生成首个音频帧的动作特征向量增量；在第m音频帧，基于第m音频帧的脉冲特征向量初始增量和第m-1音频帧脉冲特征向量增量做加权平均处理，生成第m音频帧的脉冲特征向量增量；将动作特征向量的基向量、第m音频帧的动作特征向量、第m音频帧的动作随机因子和第m音频帧的动作方向因子做乘积生成第m音频帧的动作特征向量初始增量；基于第m音频帧的动作特征向量初始增量和第m-1音频帧动作特征向量增量做加权平均处理，生成第m音频帧的动作特征向量增量；

在本发明一些实施例中，所述将人声音高特征向量的基向量和每一音频帧的人声音高特征向量做乘积生成每一音频帧的人声音高特征向量增量，包括：

在首个音频帧，将人声音高特征向量的基向量和首个音频帧的人声音高特征向量做乘积生成首个音频帧的人声音高特征向量增量；在第m音频帧，将人声音高特征向量的基向量和第m音频帧的人声音高特征向量做乘积生成第m音频帧的人声音高特征向量初始增量；基于第m音频帧的人声音高特征向量初始增量和第m-1音频帧的人声音高特征向量增量做加权平均处理，生成第m音频帧的人声音高特征向量增量。

在本发明一些实施例中，进行加权平均处理时，第m-1音频帧增量权重为0.75，第m音频帧初始增量的权重为0.25。

在本发明一些实施例中，所述方法还包括：若当前音频帧的音频特征向量增量的绝对值加上或者减去动作特征向量反应系数生成的值大于两倍预设的截断值，改变所述动作方向因子的正负。

在本发明一些实施例中，间隔四秒生成所述动作随机因子，所述随机因子在(0.5,1)之间取值。

在本发明一些实施例中，与所述音频类别对应的第三网络模型通过如下步骤生成：

获取不同音频类别对应的视频素材，对视频素材进行抽帧处理，将抽帧后的视频素材缩放到预定大小并输入到对抗网络模型中进行训练，生成对应不同音频类别的第三网络模型。

在本发明一些实施例中，还包括：根据每一音频帧对应的脉冲特征向量的强度，对所述视频帧添加对应的同步特效。

在本发明一些实施例中，还包括：对所述视频帧进行超分辨率优化的步骤。

在本发明一些实施例中，所述第三网络模型包括映射网络部分和综合网络部分；所述利用与所述音频类别对应的第三网络模型处理所述音频特征向量增量，获取每一音频帧对应的视频帧，包括：

将所述脉冲特征向量增量、所述动作特征向量增量和所述人声音高特征向量增量分别输入到所述映射网络部分，映射得到多个音频特征向量增量映射向量；

将所述多个音频特征向量增量映射向量中，与所述动作特征向量增量和所述人声音高特征向量增量对应的音频特征向量增量映射向量，输入到综合网络部分的前部网络层，并将所述多个音频特征向量增量映射向量中，将与所述脉冲特征向量增量对应的音频特征向量增量映射向量输入到综合网络部分的后部网络层，生成与每一音频帧对应的视频帧。

在本发明一些实施例中，所述对每一音频帧对应的视频帧进行合成处理，生成目标动态视频，包括：

使用ffmpeg对每一音频帧对应的视频帧进行拼接，生成所述目标动态视频。

在本发明一些实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现任一本发明实施例的生成音乐视频的方法。

在本发明一些实施例中，提供一种电子设备，包括：处理器和存储有计算机程序的存储器，所述处理器被配置为在运行计算机程序时执行任一本发明实施例的生成音乐视频的方法。

本发明实施例提出了一种基于音频特征增量生成音乐视频的方法，首先将音频数据输入到第一网络模型中，进行音频数据分类，确定所述音频数据的类型；然后对所述音频数据进行分轨处理，针对分离出来的目标音轨进行处理，减少了背景噪声带来的影响，对分离后的音轨提取谐波和冲击波，基于谐波和冲击波生成音频特征向量，并基于音频特征向量生成音频特征向量增量，将音频特征向量增量输入到第三网络模型中进行计算，生成视频帧，将各个视频帧进行拼接，组成动态视频。通过本发明实施例中生成音乐视频的方法，能够高效生成与音频数据类别匹配，并体现音频内容的视频，生产视频的成本低，效率高，与内容匹配度好。

本发明实施例的其他可选特征和技术效果一部分在下文描述，一部分可通过阅读本文而明白。

附图说明

以下，结合附图来详细说明本发明的实施例，所示出的元件不受附图所显示的比例限制，附图中相同或相似的附图标记表示相同或类似的元件，其中：

图1示出了本发明实施例生成音乐视频方法的流程示意图；

图2示出了本发明实施例生成音乐视频方法中的训练第一网络模型的一流程示意图；

图3示出了本发明实施例生成音乐视频方法中的训练第一网络模型的另一流程示意图；

图4示出了本发明实施例生成音乐视频方法中的音轨分离的流程示意图；

图5a示出了本发明实施例生成音乐视频方法中的生成复合音频特征向量增量的流程示意图；

图5b示出了本发明实施例生成音乐视频方法中的生成复合音频特征向量增量的流程示意图；

图6示出了本发明实施例的生成音乐视频方法中的生成视频帧的流程示意图；

图7示出了本发明实施例生成音乐视频装置的结构示意图；

图8示出了本发明实施例电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合具体实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

在本发明实施例中，“网络”具有机器学习领域中的常规含义，例如神经网络(NN)、深度神经网络(DNN)、卷积神经网络(CNN)、循环神经网络(RNN)、其他的机器学习或深度学习网络或它们的组合或修改。

在本发明实施例中，“模型”具有机器学习领域中的常规含义，例如模型可以是机器学习或深度学习模型，例如为包括上述网络或者由上述网络构成的机器学习或深度学习模型。

在本发明实施例中，“损失函数”和“损失值”具有机器学习领域中的常规含义。

本发明实施例提供一种生成音乐视频的方法和系统或装置或模型、电子设备和存储介质。所述方法、系统、装置、模型可以借助于一个或多个计算机实施。在一些实施例中，所述系统、装置、模型可以由软件、硬件或软硬件结合实现。在一些实施例中，该电子设备或计算机可以由本文所记载的计算机或其他可实现相应功能的电子设备实现。

在本发明实施例中，音乐视频内容包括图像、视频和/或音频，这包括图像、视频和/或音频的部分和/或组合。本发明实施例中视频内容和音频数据相匹配，例如视频内容丰富度随音频节奏丰富度变化而变化，再例如，当音频平缓时，视频内容变化相对平稳。

如图1所示，本发明实施例的一种生成音乐视频的方法包括步骤S110-S170。

S110：利用第一网络模型对所述目标音频进行分类，获取所述目标音频对应的音频类别。

在本发明的一些实施例中，通过预先训练的第一网络模型对目标音频进行处理分类，获取目标音频数据的类别。目标音频可以是音乐音频数据，具体，可以是一首歌曲、歌曲片段或歌曲组合。

在本发明的一些实施例中，所述音频类别可以根据需要预先设定，例如可包括民谣、儿歌、流行等。

在本发明的一些实施例中，针对音乐曲库庞大的无标签数据，将图像对比学习的SimCLR作为框架应用于音频领域，对比学习未经处理的音乐波形，通过对潜在空间中的对比损失来最大化同一数据的不同增强数据之间的一致性，从而学习训练第一网络模型。第一网络模型包括编码神经网络(g_enc())和与编码神经网络(g_proj())的输出层连接的投影神经网络，如图2所示，第一网络模型通过如下步骤训练生成：

S111、获取不同音乐类别的N个训练音频片段，分别从每个所述训练音频片段中选取两段部分重叠或不重叠的样本xi和样本xj。

S112、选取任意一个训练音频片段的样本xi和样本xj做数据增强处理，获取增强样本xI和增强样本xJ，将所述增强样本xI和增强样本xJ作为正样本，并将剩下N-1个训练音频片段的样本xi和样本xj作为负样本。

其中，可以按照概率进行一系列数据增强，每种增强方式都有独立的一个概率。如图3所示，从其中一个完整的音频片段选择大小为2N的随机片段x，即所述2N个训练音频片段，随机选择两段部分重叠或不重叠的样本(如图3所示的x_i，0、x_j，0或X_i,2N、X_j,2N等),让模型可以进行局部和全局推断。随后按照概率进行一系列数据增强，每种增强方式都有独立的一个概率，x_i,0，x_j,0经过上述数据增强后作为正样本对。另外对随机片段x随机抽样2(N-1)个样本作为负样本。在所示的实施例中，在训练的每次迭代中，可从该大小为2N的随机片段x继续选取两段部分重叠或不重叠的样本。

S113、利用对比损失函数自监督训练所述正样本及所述负样本，得到所述编码神经网络和所述投影神经网络。

示例性地，编码神经网络(如图3示意性示出的genc(﹒))使用卷积神经网络(CNN)、如SampleCNN作为编码器，音频输入为59049个样本，采样率为22050Hz。该卷积神经网络(CNN)、如SampleCNN由9个一维卷积块组成，每个卷积块由3层的1维卷积层、批处理规范化(batch normalization)层、ReLU层和3层的最大池化层组成。在该实施例中，该卷积神经网络(CNN)、如SampleCNN去掉了全连接层和dropout(随机放弃)层。由此，为每个音频输入(如图3所示的x_i，0、x_j，0或x_i,2N、x_j,2N等)编码生成512维的特征向量。

编码后的512维的特征向量可通过投影神经网络(如图3所示的g_proj(﹒))映射到形成对比损失的潜在空间，以基于所述对比损失进行迭代更新，以完成训练。

在一种具体实现方式中，使用非线性层z_i＝W⁽²⁾ReLU(W⁽¹⁾h_i)作为所述投影神经网络。另外，对比损失函数可以选用规范化温标交叉熵损失函数(Normalised Temperature-scaled Cross-entropy Loss)，通常称作NT-Xent loss。

由于人工标注成本较高，因此可采用对比学习的方法对音乐音频进行自监督训练以减少人工标注成本。训练过程中从音乐曲库批量下载不同类别音乐构建音频数据集，且针对不同类别的音乐，需要确保样本类别分布的均衡才能得到较好的训练结果。

S120：利用第二网络模型对所述目标音频进行音轨分离处理，获取多个分离音轨。

可以理解的是，很多音乐歌曲中存在多种音轨，如果从单独的人声、乐器或伴奏中计算音频特征，可以减少背景噪声带来的影响，有助于捕捉到音乐的变化特点。

第二网络模型用于音轨分离，因此可以称为音轨分离模型。在一些实施例中，第二网络模型为具有语义分割(U-Net)网络结构与双向长短期记忆(LSTM)模块的波形到波形(Wave to Wave)模型。如图4示出了应用所述波形到波形模型的示例性实施例，音轨分离模型进行音轨分离的过程如下：所述目标音频(如图4左上角所示的目标音频波形)通过编码器Encoder输入到层数8，步长为4的一维卷积层并经过Relu层激活后，输出到层数和步长均为1的一维卷积层使之通道数乘2，并通过LSTM模块的门控线性单元GLU激活；然后经解码器(Decoder)输入到层数为3，步长为1的一维卷积层经过GLU激活后，输出到层数为8，步长为4的一维转置卷积层，且最后Relu激活，以输出所述分离音轨(如图4右上角所示的4个分离音轨波形)。

示例性地，分离音轨的类型可以包括伴奏音轨和人声音轨。

S130：生成各个所述分离音轨的谐波和冲击波；

分离音轨后，需要将每个分离音轨进行谐波和冲击波分离，然后再针对每个分离音轨的谐波或冲击波进行分析处理生成音频特征向量，如下文步骤S140所述。

本发明的一些实施例中，可以基于中值滤波分离音轨为谐波和冲击波，所述生成各个所述分离音轨的谐波和冲击波具体包括如下步骤：

将各个分离音轨的时间序列转化为短时傅里叶转换(STFT)矩阵；利用中值滤波器处理与各个分离音轨对应的所述短时傅里叶转换矩阵，以得到与各个分离音轨对应的初始谐波和初始冲击波；将各个分离音轨对应的初始谐波和初始冲击波进行逆短时傅里叶(iSTFT)转换，并调整各个逆短时傅里叶变换后的初始谐波和初始冲击波的时间序列长度与各个分离音轨的时间序列长度匹配，生成各个分离音轨的谐波和冲击波。

S140：基于各个所述分离音轨的谐波和冲击波生成所述目标音频的每一音频帧的音频特征向量。

在本发明实施例中，可以通过按照预定的时间长度将所述目标音频分为多个片段，每个片段即为一个音频帧。在本发明的一个实施例中，可以根据要生成的视频的帧率fps(如视频帧帧率的倒数)来确定所述预定的时间长度，即音频帧的长度，由此使得要生成的视频(视频帧)与目标音频能完全对应。

不同类型的分离音轨，具有不同的音频特征，因此可以根据分离音轨的类型提取有效的音频特征。例如：针对伴奏音轨可以提取其冲击波的梅尔频谱特征来体现音频的强弱，或者还可以提取其谐波的MFCC特征来体现音色的变化；针对人声音轨可以提取其谐波的色谱恒Q变换来体现音高的变化。

在本发明一实施例中，音频特征向量包括：脉冲特征向量、动作特征向量和人声音高特征向量。

在一个具体实施例中，基于各个分离音轨的谐波和冲击波生成每一音频帧的音频特征向量，包括；

利用伴奏音轨的冲击波生成脉冲特征向量；利用伴奏音轨的谐波生成动作特征向量；利用人声音轨的谐波生成人声音高特征向量。

具体地，所述基于各个所述分离音轨的谐波和冲击波生成所述目标音频的每一音频帧的音频特征向量，包括；

在本发明的一些实施例中，利用伴奏音轨的冲击波生成脉冲特征向量的步骤包括：将伴奏音轨的冲击波转换为声谱图；将声谱图与若干个梅尔(Mel)滤波器点乘得到梅尔频谱特征矩阵；基于梅尔频谱特征矩阵中的最大梅尔频率，对所述梅尔频谱特征矩阵进行归一化处理；将归一化后的梅尔频谱特征矩阵降维到各个音频帧下的向量作为所述脉冲特征向量。

在此实施例中，梅尔滤波器的Mel频率与声谱图的声谱频率之间的转换关系为：

在本发明的一些实施例中，利用伴奏音轨的谐波生成动作特征向量，包括：将伴奏音轨的谐波转换为声谱图；将声谱图与若干个梅尔滤波器点乘得到谐波梅尔频谱特征矩阵；对所述谐波梅尔频谱特征矩阵做倒谱分析得到梅尔频率倒普系数(MFCC)特征矩阵，并求取每一音频帧的梅尔频率倒普系数特征的均值；利用每一音频帧的梅尔频率倒普系数特征的均值，对所述梅尔频率倒普系数特征进行归一化处理；将归一化后的梅尔频率倒普系数特征矩阵降维到各个音频帧下的向量作为所述动作特征向量。

具体来讲，可以将伴奏音轨中的谐波提取出来，然后进行预加重、分帧、加窗、FFT、Mel滤波器组、对数运算、DCT变换得到伴奏谐波的MFCC特征矩阵。

在本发明的一些实施例中，所述利用人声音轨的谐波生成人声音高特征向量，包括：对人声音轨的谐波进行CQT变换后取绝对值，获取各个时间点的CQT变换绝对值；将所述CQT变换绝对值映射到色谱图，生成初始色谱CQT变换特征矩阵；对初始色谱CQT变换特征矩阵进行归一化处理，生成色谱CQT变换特征矩阵；根据每个音频帧对应的色谱值，计算加权平均色谱值，其中，每个音频帧对应T个音阶的色谱值；利用每个音频帧对应的加权平均色谱值，对所述色谱CQT变换特征矩阵归一化处理；将归一化后的色谱CQT变换特征矩阵降维到各个音频帧下的向量作为所述人声音高特征向量。

在一个具体实施例中，将CQT变换绝对值映射到色谱图时，每个时间点可对应N个音阶的色谱值，例如色谱图中每个时间点对应12个音阶的色谱值，并可将每个时间点的色谱值加权求和并归一化处理得到色谱恒Q变换特征矩阵。然后，可将色谱恒Q变换特征矩阵降维为人声音高特征向量，可见人声音高特征向量由各个时间点对应的色谱平均值组成。

在本发明实施例中，恒Q变换(CQT)指中心频率按指数规律分布，滤波带宽不同、但中心频率与带宽比为常量Q的滤波器组。

在本发明的一些实施例中，为了避免信号抖动，可以对信号进行滤波处理，例如运用滤波器对脉冲特征向量、动作特征向量和人声音高特征向量沿时间轴做平滑处理，以更新脉冲特征向量、动作特征向量和人声音高特征向量。通常情况下，从音频计算出的信号如起始信号或色谱图，会有噪声且不稳定，这可能会导致最终生成的音乐视频的视觉抖动，甚至导致视觉变化比对应的音频更剧烈。因此，可以对提取出来的脉冲特征向量、动作特征向量和人声音高特征向量，用一维高斯滤波器沿时间轴做平滑处理，以提升所生成的音乐视频的平稳性。

S150：基于所述每一音频帧的所述音频特征向量生成所述每一音频帧的音频特征向量增量。

音频特征向量增量包括：脉冲特征向量增量、动作特征向量增量、人声音高特征向量增量中的一个或多个。

在本发明的一些实施例中，可基于每一音频帧的音频特征向量增量生成每一音频帧的复合音频特征向量增量。

在本发明的一些实施例中，复合音频特征向量增量可以记为latent z。在本发明的一些实施例中，如图5a所示，步骤S150可包括：

S151：生成每一音频帧的基础噪声向量；

S152：将所述目标音频的首个音频帧到当前音频帧之间的每一音频帧的动作特征向量增量进行求和，获取当前音频帧的动作特征向量增量累积；

S153：将当前音频帧的基础噪声向量、当前音频帧的脉冲特征向量增量、当前音频帧人声音高特征向量增量和所述当前音频帧的动作特征向量增量累积进行求和，生成当前音频帧的复合音频特征向量增量；

S154：循环执行上述步骤，获取每一音频帧的复合音频特征向量增量，其中所述复合音频特征向量增量作为音频特征向量增量。

在一个实施例中，所述步骤S151生成每一音频帧的基础噪声向量，包括：基于标准正态分布生成按照音频帧顺序的正态分布向量，根据阈值范围截断所述按照音频帧顺序的正态分布向量作为所述基础噪声向量。

在该实施例中，音频帧的脉冲特征向量增量、动作特征向量增量及人声音高特征向量增量通过以下方式生成：构建脉冲特征向量的基向量、动作特征向量的基向量和人声音高特征向量的基向量；间隔预定时间生成动作随机因子；将所述脉冲特征向量的基向量和每一音频帧的所述脉冲特征向量做乘积生成每一音频帧的所述脉冲特征向量增量；将所述动作特征向量的基向量、每一音频帧的动作特征向量、每一音频帧的动作随机因子和每一音频帧的动作方向因子做乘积生成每一音频帧的所述动作特征向量增量；将人声音高特征向量的基向量和每一音频帧的人声音高特征向量做乘积生成每一音频帧的所述人声音高特征向量增量。

在本发明的一些实施例中，如图5b所示，所述步骤S150可包括：

S151’：构建脉冲特征向量的基向量、动作特征向量的基向量和人声音高特征向量的基向量；

S152’：间隔预定时间生成动作随机因子；

S153’：将所述脉冲特征向量的基向量和每一音频帧所述脉冲特征向量做乘积生成每一音频帧的脉冲特征向量增量；

S154’：将所述动作特征向量的基向量、每一音频帧的动作特征向量、每一音频帧的动作随机因子和每一音频帧的动作方向因子做乘积生成每一音频帧的动作特征向量增量；

S155’：将人声音高特征向量的基向量和每一音频帧的人声音高特征向量做乘积生成每一音频帧的人声音高特征向量增量。

在一些实施例中，所述步骤S151’至S154’中获得的所述脉冲特征向量增量、动作特征向量增量及人声音高特征向量增量可以用于确定所述复合音频特征向量增量，如步骤S153所述的。此时，该复合音频特征向量增量可作为如步骤S150中所述的音频特征向量增量。

在另一些实施例中，所述脉冲特征向量增量、动作特征向量增量及人声音高特征向量增量可直接作为如步骤S150中所述的音频特征向量增量。

在本发明的一些具体实施例中，图5a的实施例或特征可以与图5b的实施例或特征进一步结合，而得到新的实施例或示例。

例如在一个示例性的实施例中，音频特征向量增量为复合音频特征向量增量。例如可以基于步骤S151至S154和步骤S151’至S154’的结合得到该示例性实施例。在该示例性实施例中，前述步骤S150可包括步骤A1至A4。

A1、构建基础噪声与基向量。在此，可以基于标准正态分布生成维度为[512,音频帧数]、上下限为[-2,2]的截断正态分布向量作为基础噪声。根据音频帧序列的顺序生成正太分布向量序列，根据阈值范围[-2,2]对所述正态分布向量进行截断，截断后的正态分布向量具有512个维度，将截断后的正态分布向量序列作为所述基础噪声。由脉冲、旋律、人声反应系数生成512的维度的脉冲特征向量、动作特征向量、人声音高特征向量的基向量。在一些实施例中，所述脉冲、旋律、人声反应系数可以是预先设定的经验系数，例如可以根据已有的音频片段的频谱特征统计确定。

A2、初始化动作特征向量的随机因子sign。为实现音乐视频画面变化的多样性，为Motion增量设置512维度，各维度大小在(1-motion_randomness,1)之间的随机因子(例如选择motion_randomness为0.5)，并每4秒重新初始化一次，或者每4个音频帧重新初始化一次。

A3、基于音频特征向量生成增量。在一些实施例中，在第一个音频帧使用脉冲特征向量、动作特征向量和人声音高特征向量对脉冲特征向量、人声应该特征向量等的基向量做乘积，得到与当前音频帧对应的音频特征向量增量vector_add＝vector_base×feature_vector，其中，vector_base为基向量，feature_vector为音频特征向量(可为脉冲特征向量、动作特征向量或人声音高特征向量)。在一些实施例中，动作特征向量的基向量在与动作特征向量乘积的同时再乘动作特征向量的随机因子和动作方向因子，得到与当前音频帧对应的增量vector_add＝vector_base×feature_vector×sign×rand_factor，其中，sign为动作方向因子，rand_factor为随机因子。在首帧音频帧之后的音频帧中，除了上述计算外，当前增量会与前一个增量做加权平均值的平滑处理，权值可以根据需要进行设定，例如，可以设置当前增量对应的权值为0.25，前一个增量对应的权值为0.75。

A4、合成当前音频帧i的复合音频特征向量增量latent z。将基础噪声与A3步骤得到的脉冲特征向量、动作特征向量和人声音高特征向量的增量相加得到复合音频特征向量增量。脉冲特征向量增量、人声音高特征向量增量体现了视觉效果，而动作特征向量增量体现视觉效果变形的速度，会将增量累加到基础噪声中。具体过程可以通过公示表达为：latent z(i)＝noise_base(i)+motion_sum[1:i+1]+pulse_add+vocal_add，i代表第i音频帧，noise_base(i)表示第i音频帧的噪声向量，motion_sum[1:i+1]表示从首个音频帧到第i+1音频帧的动作特征向量增量的累积和，pulse_add表示脉冲特征向量增量，vocal_add表示人声音高特征向量增量。换言之，在该实施例中，复合音频特征向量增量latent z包括当前音频帧的脉冲特征向量增量、动作特征向量增量和人声音高特征向量增量，以及从首个音频帧到当前音频帧的动作特征向量增量的累积和。

在本发明的一些实施例中，将基础噪声向量、每一音频帧脉冲特征向量增量、每一音频帧人声音高特征向量增量和每一音频帧的动作特征向量增量的累积进行求和，生成每一音频帧的复合音频特征向量增量。

可选地，可以根据预定条件更新动作方向因子。针对每一个音频帧的复合音频特征向量增量，如果(复合)音频特征向量增量的绝对值加上或者减去动作特征向量反应系数大于2倍的截断值(如截断值为1)，则改变动作方向因子的正负。在本发明实施例中，所述动作特征向量反应系数可以是预先设定的经验系数，例如可以根据已有的音频片段的频谱特征统计确定。

在本发明的一些实施例中，所述基于每一音频帧的音频特征向量生成每一音频帧的音频特征向量增量可结合下述的特征：

具体地，将所述脉冲特征向量的基向量和每一音频帧所述脉冲特征向量做乘积生成每一音频帧的脉冲特征向量增量，包括：在首个音频帧，将脉冲特征向量的基向量与首个音频帧的脉冲特征向量做乘积生成首个音频帧的脉冲特征向量增量。将所述动作特征向量的基向量、每一音频帧的动作特征向量、每一音频帧的动作随机因子和每一音频帧的动作方向因子做乘积生成每一音频帧的动作特征向量增量，包括：在首个音频帧，将动作特征向量的基向量、首个音频帧的动作特征向量、首个音频帧的动作随机因子和首个音频帧的动作方向因子做乘积生成首个音频帧的动作特征向量增量。将人声音高特征向量的基向量和每一音频帧的人声音高特征向量做乘积生成每一音频帧的人声音高特征向量增量，包括：在首个音频帧，将人声音高特征向量的基向量和首个音频帧的人声音高特征向量做乘积生成首个音频帧的人声音高特征向量增量；

具体地，将所述脉冲特征向量的基向量和每一音频帧所述脉冲特征向量做乘积生成每一音频帧的脉冲特征向量增量，包括：在第m音频帧，其中，m大于等于2，将脉冲特征向量的基向量与第m音频帧的脉冲特征向量做乘积生成第m音频帧的脉冲特征向量初始增量；基于第m音频帧的脉冲特征向量初始增量和第m-1音频帧脉冲特征向量增量做加权平均处理，生成第m音频帧的脉冲特征向量增量。将所述动作特征向量的基向量、每一音频帧的动作特征向量、每一音频帧的动作随机因子和每一音频帧的动作方向因子做乘积生成每一音频帧的动作特征向量增量，可包括：在第m音频帧，将动作特征向量的基向量、第m音频帧的动作特征向量、第m音频帧的动作随机因子和第m音频帧的动作方向因子做乘积生成第m音频帧的动作特征向量初始增量；基于第m音频帧的动作特征向量初始增量和第m-1音频帧动作特征向量增量做加权平均处理，生成第m音频帧的动作特征向量增量。将人声音高特征向量的基向量和每一音频帧的人声音高特征向量做乘积生成每一音频帧的人声音高特征向量增量，可包括在第m音频帧，将人声音高特征向量的基向量和第m音频帧的人声音高特征向量做乘积生成第m音频帧的人声音高特征向量初始增量；基于第m音频帧的人声音高特征向量初始增量和第m-1音频帧的人声音高特征向量增量做加权平均处理，生成第m音频帧的人声音高特征向量增量。

示例性地，进行加权平均处理时，第m-1音频帧增量权重为0.75，第m音频帧初始增量的权重为0.25。

S160：利用与所述音频类别对应的第三网络模型处理每一音频帧的音频特征向量增量，获取每一音频帧对应的视频帧。在本发明实施例中，将每一音频帧的复合音频特征向量增量latent z合成后得到复合音频特征增量矩阵latent Z。

基于自定义素材训练生成与音频类别对应的第三网络模型，不同的音乐类别对应不同的第三网络模型，第三网络模型用于处理音频特征向量增量以得到视频帧。具体地，第三网络模型的训练过程可以为，获取不同音频类别对应的视频素材，对视频素材进行抽帧处理，将抽帧后的视频素材缩放到预定大小并输入到对抗网络模型中进行训练，生成对应不同音频类别的第三网络模型。示例性地，第三网络模型可以选用对抗网络styleGAN2，使用ffmpeg对视频素材进行抽帧处理，使用openCV对视频素材进行缩放例如缩放到1024*1024大小，使用styleGAN2-ada进行训练生成多个类型的styleGAN2模型。

结合图6对本发明的一些实施例中的生成视频帧的方法进行介绍。针对计算得到的复合音频特征向量增量矩阵latent Z，从复合音频特征向量增量矩阵latent Z中获取当前帧的复合音频特征向量latent z，将复合音频特征向量输入到特定类型styleGAN2网络中，通过styleGAN2的映射网络Mapping Network映射得到复合音频特征向量增量映射向量latent w后，将复合音频特征向量增量映射向量直接输入到styleGAN2的综合网络Synthesis Network的每一层，最终生成与当前帧音乐特征相匹配的视频帧。

在本发明的一些实施例中，可以利用复合音频特征向量增量生成视频帧，具体包括：基于每一时刻的复合音频特征向量增量，生成复合音频特征增量矩阵；从复合音频特征增量矩阵选中对应每一音频帧的复合音频特征向量增量输入到与音频类别对应的第三网络模型中，获取对应每一音频帧的视频帧。在本发明的一些实施例中，可以针对预定的多种音频类别、如前述的民谣、儿歌、流行等，分别提供对应的多个第三网络模型，由此可以根据步骤S110确定的音频类别使用对应的第三网络模型。

在一种具体实现方式中，第三网络模型包括映射网络Mapping Network部分和综合网络Synthesis Network部分，基于此，从音频特征增量矩阵选中对应每一音频帧的复合音频特征向量增量输入到与音频类别对应的第三网络模型中，获取对应每一音频帧的视频帧，包括：将每一音频帧的复合音频特征向量增量输入到映射网络Mapping Network部分，映射得到复合音频特征增量映射向量；将复合音频特征增量映射向量输入到SynthesisNetwork部分的每一层，最后生成与音频帧对应的视频帧。其中，复合音频特征增量映射向量可以记为latent w。在该实施例中，步骤S160所述的音频特征向量增量可以包括如步骤S153所述的复合音频特征向量增量，作为第三网络模型的输入。

在本发明的另一些实施例中，可以利用脉冲特征向量增量、动作特征向量增量和人声应该特征向量生成视频帧，具体地，将脉冲特征向量增量、动作特征向量增量和人声音高特征向量增量分别输入到映射网络Mapping Network部分，映射得到多个音频特征增量映射向量；将与动作特征向量增量和人声音高特征向量增量对应的音频特征增量映射向量，输入到Synthesis Network部分的前部网络层；将与脉冲特征向量增量对应的音频特征增量映射向量输入到Synthesis Network部分的后部网络层，最后生成与音频帧对应的视频帧。其中，音频特征增量映射向量可以记为latent w1。在该实施例中，步骤S160所述的音频特征向量可以包括前述的脉冲特征向量增量、动作特征向量增量及人声音高特征向量增量，直接作为第三网络模型的输入。

在本发明的一些实施例中，得到视频帧后还可以进一步局部优化视频帧，例如根据每一音频帧对应的脉冲特征向量的强度对视频帧添加对应的同步特效，另外还可以对视频帧进行超分辨率优化。

另一种方法是针对提取出来的音乐特征向量增量分别通过styleGAN2的映射网络Mapping Network映射得到多个音频特征向量增量映射向量，用将与所述动作特征向量增量和所述人声音高特征向量增量对应的音频特征向量增量映射向量输入到styleGAN2的综合网络Synthesis Network前部的网络层，去影响生成图像的粗结构，将与所述脉冲特征向量增量对应的音频特征向量增量映射向量输入到styleGAN2的综合网络SynthesisNetwork后部的网络层，去影响生成图像的细结构。同理，也可以基于随机生成的随机音频特征向量增量映射向量，用提取出的音乐特征向量分别与随机音频特征向量增量映射向量生成加权平均和，作为对应综合网络的网络的不同层的输入，生成视频帧。

为了提升局部视频帧的热烈度，可以基于脉冲(Pulse)特征进行视频特效制作。例如，基于PIL、skimage、openCV等图像处理库定义图像对比度、闪光、波浪和旋流特效函数，根据每一视频帧对应的脉冲特征强度对视频帧添加同步特效，根据不同的需求，可自行定义图像特效的函数应用到视频帧中。

为了提升视频分辨率，基于超分辨率算法对视频分辨率进行优化。例如，使用LAPAR图像超分辨模型对视频帧进行超分辨率优化。

S170：对每一音频帧对应的视频帧进行合成处理，生成目标动态视频。例如，使用ffmpeg对各个视频帧进行拼接，生成目标动态视频。

本发明实施例中的生成音乐视频的方法使用生成对抗网络生成音乐视频，且所生成音乐视频的视觉效果与音乐律动相匹配。首先，使用数据集构建不同音乐类别的生成对抗网络模型，基于音乐对比学习的CLMR模型对输入音频进行分类后选择与音乐类别的生成对抗网络模型，生成对抗网络模型可以提取输入音频的特征并将其映射到视觉效果，进而输出与音频特征相匹配的视频帧，视频帧的视觉效果与输入音频的音乐类型相匹配，符合听众对于音乐的听觉感受，更能够对音乐传达的感情产生共鸣。

在本发明的另一些实施例中，参考图7，提供了一种生成音乐视频装置100包括如下模块：

音频分类模块110，用于利用第一网络模型对所述目标音频进行分类，获取所述目标音频对应的音频类别；

音轨分离模块120，用于利用第二网络模型对所述目标音频进行音轨分离处理，获取多个分离音轨；

波形生成模块130，用于生成各个所述分离音轨的谐波和冲击波；

音频特征向量生成模块140，用于基于各个所述分离音轨的谐波和冲击波生成所述目标音频的每一音频帧的音频特征向量；

音频特征向量增量生成模块150，用于基于所述每一音频帧的所述音频特征向量生成所述每一音频帧的音频特征向量增量；

视频帧生成模块160，用于利用与所述音频类别对应的第三网络模型处理每一音频帧的音频特征向量增量，获取每一音频帧对应的视频帧；

视频生成模块170，用于对每一音频帧对应的视频帧进行合成处理，生成目标动态视频。

在一些实施例中，音乐视频生成装置可以结合任一实施例的生成音乐视频的方法的特征，反之亦然，在此不赘述。

在本发明实施例中，提供一种电子设备，包括：处理器和存储有计算机程序的存储器，处理器被配置为在运行计算机程序时执行任一本发明实施例的生成音乐视频的方法。

图8示出了一种可以实施本发明实施例的方法或实现本发明实施例的电子设备800的示意图，在一些实施例中可以包括比图示更多或更少的电子设备。在一些实施例中，可以利用单个或多个电子设备实施。在一些实施例中，可以利用云端或分布式的电子设备实施。

如图8所示，电子设备800包括中央处理器(CPU)801，其可以根据存储在只读存储器(ROM)802中的程序和/或数据或者从存储部分808加载到随机访问存储器(RAM)803中的程序和/或数据而执行各种适当的操作和处理。CPU 801可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，CPU 801可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、神经网络处理器(NPU)、数字信号处理器(DSP)等等。在RAM 803中，还存储有电子设备800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

上述处理器与存储器共同用于执行存储在存储器中的程序，程序被计算机执行时能够实现上述各实施例描述的生成音乐视频的方法的步骤或功能。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。图8中仅示意性示出部分组件，并不意味着计算机系统800只包括图8所示组件。

上述实施例阐明的系统、装置、模块或单元，可以由计算机或其关联部件实现。计算机例如可以为移动终端、智能电话、个人计算机、膝上型计算机、车载人机交互设备、个人数字助理、媒体播放器、导航设备、游戏控制台、平板电脑、可穿戴设备、智能电视、物联网系统、智能家居、工业计算机、服务器或者其组合。

在优选的实施例中，训练系统和方法可以至少部分或全部在云端的机器学习平台或者部分或全部地在自搭建的机器学习系统、如GPU阵列中实施或实现。

在优选的实施例中，所述评估装置和方法可以在服务器、例如云端或分布式服务器中实施或实现。在优选实施例中，还可以借助服务器，基于评估结果向中断推送或发送数据或内容。

尽管未示出，在本发明实施例中，提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序配置成被运行时执行任一本发明实施例的生成音乐视频的方法。

在本发明的实施例的存储介质包括永久性和非永久性、可移动和非可移动的可以由任何方法或技术来实现信息存储的物品。存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

在本发明的实施例的方法、程序、系统、装置等，可以在单个或多个连网的计算机中执行或实现，也可以在分布式计算环境中实践。在本说明书实施例中，在这些分布式计算环境中，可以由通过通信网络而被连接的远程处理设备来执行任务。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本领域技术人员可想到，上述实施例阐明的功能模块/单元或控制器以及相关方法步骤的实现，可以用软件、硬件和软/硬件结合的方式实现。

除非明确指出，根据本发明实施例记载的方法、程序的动作或步骤并不必须按照特定的顺序来执行并且仍然可以实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在本文中，针对本发明的多个实施例进行了描述，但为简明起见，各实施例的描述并不是详尽的，各个实施例之间相同或相似的特征或部分可能会被省略。在本文中，“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”意指适用于根据本发明的至少一个实施例或示例中，而非所有实施例。上述术语并不必然意味着指代相同的实施例或示例。在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

已参考上述实施例具体示出并描述了本发明的示例性系统及方法，其仅为实施本系统及方法的最佳模式的示例。本领域的技术人员可以理解的是可以在实施本系统及/或方法时对这里描述的系统及方法的实施例做各种改变而不脱离界定在所附权利要求中的本发明的精神及范围。

Claims

1.一种生成音乐视频的方法，其特征在于，包括如下步骤：

生成各个所述分离音轨的谐波和冲击波；

2.根据权利要求1所述的方法，其特征在于，所述第一网络模型包括编码神经网络和与所述编码神经网络的输出层连接的投影神经网络，所述第一网络模型通过如下步骤训练生成：

获取N个训练音频片段，分别从每个所述训练音频片段中选取两段部分重叠或不重叠的样本xi和样本xj；

3.根据权利要求1所述的方法，其特征在于，所述第二网络模型为具有语义分割网络与双向长短期记忆网络的波形到波形模型。

4.根据权利要求1所述的方法，其特征在于，所述生成各个所述分离音轨的谐波和冲击波，包括：

将各个分离音轨的时间序列转化为短时傅里叶转换矩阵；

5.根据权利要求1所述的方法，其特征在于，所述基于各个所述分离音轨的谐波和冲击波生成所述目标音频的每一音频帧的音频特征向量，包括；

6.根据权利要求5所述的方法，其特征在于，所述利用伴奏音轨的冲击波生成脉冲特征向量，包括：

将伴奏音轨的冲击波转换为声谱图；

将声谱图与若干个梅尔滤波器点乘得到梅尔频谱特征矩阵；

7.根据权利要求5所述的方法，其特征在于，所述利用伴奏音轨的谐波生成动作特征向量，包括：

将伴奏音轨的谐波转换为声谱图；

8.根据权利要求5所述的方法，其特征在于，所述利用人声音轨的谐波生成人声音高特征向量，包括：

根据每个音频帧对应的色谱值，计算加权平均色谱值，其中每个音频帧对应T个音阶的色谱值；

9.根据权利要求5所述的生成音乐视频的方法，其特征在于，将所述脉冲特征向量、所述动作特征向量及所述人声音高特征向量作为音频帧的音频特征向量，包括：

10.根据权利要求5所述的方法，其特征在于，所述基于每一音频帧的音频特征向量生成所述每一音频帧的音频特征向量增量，包括：

生成每一音频帧的基础噪声向量；

循环执行上述步骤，获取每一音频帧的复合音频特征向量增量，其中所述复合音频特征向量增量作为所述音频特征向量增量。

11.根据权利要求10所述的方法，其特征在于，所述生成每一音频帧的基础噪声向量，包括：

12.根据权利要求10所述的方法，其特征在于，音频帧的脉冲特征向量增量、动作特征向量增量及人声音高特征向量增量通过以下方式生成：

间隔预定时间生成动作随机因子；

13.根据权利要求10所述的方法，其特征在于，所述利用与所述音频类别对应的第三网络模型处理每一音频帧的音频特征向量增量，获取每一音频帧对应的视频帧，包括：

基于所述每一音频帧的复合音频特征向量增量，生成复合音频特征向量增量矩阵；

14.根据权利要求13所述的方法，其特征在于，所述第三网络模型包括映射网络部分和综合网络部分；从所述音频特征向量增量矩阵中选中对应每一音频帧的复合音频特征向量增量输入到与所述音频类别对应的第三网络模型中，获取每一音频帧对应的视频帧，包括：

15.根据权利要求1所述的方法，其特征在于，还包括：

对所述视频帧进行超分辨率优化。

16.根据权利要求5所述的方法，其特征在于，所述基于每一音频帧的音频特征向量生成每一音频帧的音频特征向量增量，包括：

间隔预定时间生成动作随机因子；

17.根据权利要求12或16所述的方法，其特征在于，

所述将所述脉冲特征向量的基向量和每一音频帧的所述脉冲特征向量做乘积生成每一音频帧的所述脉冲特征向量增量，包括：

所述将所述动作特征向量的基向量、每一音频帧的动作特征向量、每一音频帧的动作随机因子和每一音频帧的动作方向因子做乘积生成每一音频帧的动作特征向量增量，包括：

所述将人声音高特征向量的基向量和每一音频帧的人声音高特征向量做乘积生成每一音频帧的人声音高特征向量增量，包括：

18.根据权利要求12或16所述的方法，其特征在于，还包括：若当前音频帧的音频特征向量增量的绝对值加上或者减去动作特征向量反应系数生成的值大于两倍预设的截断值，改变所述动作方向因子的正负。

19.根据权利要求1所述的方法，其特征在于，与所述音频类别对应的第三网络模型通过如下步骤生成：

20.根据权利要求1所述的方法，其特征在于，所述第三网络模型包括映射网络部分和综合网络部分；所述利用与所述音频类别对应的第三网络模型处理所述音频特征向量增量，获取每一音频帧对应的视频帧，包括：

将所述多个音频特征向量增量映射向量中，与所述动作特征向量增量和所述人声音高特征向量增量对应的音频特征向量增量映射向量，输入到综合网络部分的前部网络层，并将所述多个音频特征向量增量映射向量中，与所述脉冲特征向量增量对应的音频特征向量增量映射向量输入到综合网络部分的后部网络层，生成与每一音频帧对应的视频帧。

21.一种计算机可读存储介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-20中任一所述的方法。

22.一种电子设备，其特征在于，包括：处理器和存储有计算机程序的存储器，所述处理器被配置为在运行计算机程序时执行权利要求1-20任一所述的方法。