CN117412094A

CN117412094A - 一种基于音乐的视频生成方法及系统

Info

Publication number: CN117412094A
Application number: CN202311339549.9A
Authority: CN
Inventors: 江圣宇; 胡颢译
Original assignee: Shanghai Daquan Culture Communication Co ltd
Current assignee: Shanghai Daquan Culture Communication Co ltd
Priority date: 2023-10-16
Filing date: 2023-10-16
Publication date: 2024-01-16

Abstract

本发明公开了一种基于音乐的视频生成方法及系统，属于音视频数据处理技术领域。方法包括：步骤S1，计算机设备获取外部输入的音频文件，确定音频文件的节奏信息；步骤S2，计算机设备根据节奏信息，于视频数据库中匹配得到多个视频片段；步骤S3，计算机设备根据匹配得到的多个视频片段剪辑生成相应的视频内容，随后将音频文件与视频内容发送至内容输出装置，以供内容输出装置同步输出音频文件和视频内容。上述技术方案的有益效果是：实现视频内容和音频节奏的强关联性，提供内容输出装置以供用户能够“看见”音频的节奏变化和歌曲特效，提升用户的视听体验。

Description

一种基于音乐的视频生成方法及系统

技术领域

本发明涉及音视频数据处理技术领域，尤其涉及一种基于音乐的视频生成方法及系统。

背景技术

传统的视频编辑过程中，主要依赖于人工进行剪辑和配乐，这种方式既耗时又耗力，且往往需要具有专业知识和丰富经验的编辑人员才能完成。此外，人工编辑的视频内容与音乐节奏的匹配度往往无法做到最优，因为这需要在听觉和视觉之间进行精确的协调，这对于人工来说是一项巨大的挑战。

现有的一些自动化视频编辑技术，虽然可以实现视频内容的自动剪辑，但这些技术往往忽略了音乐节奏与视频内容之间的关联性。因此，这些技术生成的视频内容往往缺乏良好的观赏体验，不能满足用户的需求。

发明内容

根据现有技术中存在的上述问题，现提供一种基于音乐的视频生成方法及系统的技术方案，旨在实现视频内容和音频节奏的强关联性，提升用户的视听体验。

上述技术方案具体包括：

一种基于音乐的视频生成方法，其中，设置内容输出装置以及计算机设备，所述内容输出装置连接所述计算机设备，所述计算机设备中预先构建包含有多个视频片段的视频数据库；

所述视频生成方法包括：

步骤S1，所述计算机设备获取外部输入的音频文件，确定所述音频文件的节奏信息；

步骤S2，所述计算机设备根据所述节奏信息，于所述视频数据库中匹配得到多个所述视频片段；

步骤S3，所述计算机设备根据匹配得到的多个所述视频片段剪辑生成相应的视频内容，随后将所述音频文件与所述视频内容发送至所述内容输出装置，以供所述内容输出装置同步输出所述音频文件和所述视频内容。

优选的，该基于音乐的视频生成方法，其中，所述步骤S1包括：

步骤S11，将所述音频文件转换为以频谱形式表示的频谱文件；

步骤S12，将所述频谱文件划分为多个频段；

步骤S13，根据预设的能量阈值，于各个所述频段中分别筛选出具有潜在节奏卡点的频谱段；

步骤S14，处理得到各相邻的两个所述频谱段之间的时间间隔，作为各相邻的两个所述节奏频谱段之间的节奏间隔；

步骤S15，根据所述音频文件包含的所述频谱段以及所述节奏间隔，处理得到所述音频文件的所述节奏信息，所述节奏信息中包含所述音频文件中的各个节奏卡点。

优选的，该基于音乐的视频生成方法，其中，所述步骤S12中，基于所述音频文件中的主要乐器，将所述频谱文件划分为多个所述频段，每个所述频段对应于一个所述主要乐器。

优选的，该基于音乐的视频生成方法，其中，所述视频数据库中的各个所述视频片段具有对应的视频属性；

所述节奏信息中包含所述音频文件中的各个节奏卡点；

根据所述节奏卡点将所述音频文件切分成多个音频片段，每两个相邻的所述节奏卡点之间为一段所述音频片段，每段所述音频片段分别具有对应的音频标签；

则所述步骤S2包括：

步骤S21a，针对每个所述音频片段的所述音频标签，匹配得到至少一个对应的所述视频属性的所述视频片段；

步骤S22a，对匹配得到的所有所述视频片段进行剪辑拼接；

所述步骤S22a中，剪辑拼接的剪辑切点包括：

于单个所述音频片段所在的时间段内，单个所述视频片段自然结束的时刻；以及

所述音频文件的节奏卡点所在的时刻。

所述节奏信息中包含所述音频文件中的各个节奏卡点；

则所述步骤S2包括：

步骤S21b，将多个相邻的且所述情感特征相同的所述音频片段整合成一个所述音频片段；

步骤S22b，针对每个所述音频片段的所述音频标签，匹配得到至少一个对应的所述视频属性的所述视频片段；

步骤S23b，对匹配得到的所有所述视频片段进行剪辑拼接；

所述步骤S22b中，剪辑拼接的剪辑切点包括：

所述音频文件的节奏卡点所在的时刻。

优选的，该基于音乐的视频生成方法，其中，于两个相邻的所述视频片段之间，在所述剪辑切点所在的时刻添加对应的转场效果。

优选的，该基于音乐的视频生成方法，其中，通过对所述音频文件进行乐器识别，得到每个所述音频片段中包含的乐器类型；

则在匹配于所述音频片段的所述视频片段中，加入对应所述乐器类型的乐器特效。

优选的，该基于音乐的视频生成方法，其中，所述步骤S1中，获取所述音频文件后先对所述音频文件进行预加载，通过语音识别获得所述音频文件对应的字幕信息；

则所述步骤S3中，将多个所述视频片段所对应的时刻内的所述字幕信息添加至所述视频片段中，以制作生成所述视频内容。

优选的，该基于音乐的视频生成方法，其中，所述内容输出装置为带有音频输出装置的显示屏。

一种基于音乐的视频生成系统，其中，应用上述的基于音乐的视频生成方法，并包括内容输出装置和计算机设备，所述内容输出装置连接所述计算机设备；

所述计算机设备包括：

第一处理单元，用于根据外部输入的音频文件确定所述音频文件的节奏信息；

视频数据库，用于保存多个视频片段；

第二处理单元，分别连接所述第一处理单元和所述视频数据库，用于根据所述音频文件的所述节奏信息，于所述视频数据库中匹配得到多个所述视频片段；

自动剪辑单元，连接所述第二处理单元，用于根据匹配得到的多个所述视频片段剪辑生成相应的视频内容并输出至所述内容输出装置，以供所述内容输出装置同步播放所述音频文件和所述视频内容。

上述技术方案的有益效果为：实现视频内容和音频节奏的强关联性，提供内容输出装置以供用户能够“看见”音频的节奏变化和歌曲特效，提升用户的视听体验。

附图说明

图1是本发明的较佳的实施例中，基于音乐的视频生成方法的总体流程示意图；

图2是本发明的较佳的实施例中，构建视频数据库的流程示意图；

图3是本发明的较佳的实施例中，确定音频文件的节奏信息的流程示意图；

图4是本发明的其中一个实施例中，对视频片段进行剪辑拼接的流程示意图；

图5是本发明的另一个实施例中，对视频片段进行剪辑拼接的流程示意图；

图6是本发明的较佳的实施例中，构建字幕数据库的流程示意图；

图7是本发明的较佳的实施例中，基于音乐的视频生成系统的整体结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

本发明的较佳的实施例中，基于上文中提出的技术问题，现提供一种基于音乐的视频生成方法，该基于音乐的视频生成方法所应用的场景中，至少设置一个内容输出装置以及与该内容输出装置连接的计算机设备。该内容输出装置中至少包括音频输出装置和视频输出装置，优选的可以为带有音频输出装置(例如功放单元)的显示屏。进一步地，上述计算机设备可以集成于该显示屏内部，也可以与显示屏远程连接，并独立于显示屏设置。本实施例中的显示屏可以呈现各种类型/形状，例如液晶显示屏、触控屏、曲面屏等，甚至可以为电影幕布，在此不再赘述。当然，为了实现不同的视听感受，上述音频输出装置可以设置在显示屏的内部，也可以独立于显示屏设置，例如设置在显示屏的周围，甚至可以设置在显示屏所在场景的周围，以为用户提供立体环境音的视听体验。

本实施例中，在上述计算机设备中预先构建包含有多个视频片段的视频数据库，下文中会详述该视频数据库的构建方式。

则本实施例中，上述视频生成方法具体如图1中所示，包括：

步骤S1，计算机设备获取外部输入的音频文件，确定音频文件的节奏信息；

步骤S2，计算机设备根据节奏信息，于视频数据库中匹配得到多个视频片段；

步骤S3，计算机设备根据匹配得到的多个视频片段剪辑生成相应的视频内容，随后将音频文件与视频内容发送至内容输出装置，以供内容输出装置同步输出音频文件和视频内容。

本实施例中，上述步骤S1中，首先根据输入的音频文件确定该音频文件的节奏信息。所谓的节奏信息，其中可以包括音频文件的节拍类型、速度、节奏卡点以及情感特征等信息。进一步地：

音频文件的节拍类型指的是音频文件的一小节中出现几个节拍，典型的节拍类型例如1/4拍、2/4拍、3/4拍或者4/4拍等。

音频文件的速度是指音频进行的快慢，其与单位节拍下的音符时值有关系。单位节拍下音符时值越短，音乐进行就越快；单位节拍下音符时值越长，音乐进行就越慢。

音频文件的节奏卡点是指一些相对比较明显的节拍，这些节拍所对应的时刻可以被选为两个视频片段之间进行剪辑拼接的切点时刻。

音频文件的情感特征实际是指音频文件的音乐类型或者音乐表达的情感，例如音乐是抒情类型、摇滚类型、舞曲类型，又例如欢快类型、悲伤类型等。

则本实施例中，上述节拍类型、速度和情感特征可以根据音频文件上预先设置的标签得到，更优选地可以根据识别得到的音频文件的节奏卡点进一步分析得到，其在下文中会详述。

进一步地，本实施例中，由于不同音乐段落存在变调、变速等情况，因此对于不同的音乐段落而言，上述节拍类型、速度以及情感特征都有可能发生变化。换言之，一个音频文件中，可能存在不同段落下的不同的节奏信息，即一个音频文件的节奏信息可以为该音频文件下不同段落的节奏信息之和。

本实施例中，在获取音频文件的节奏信息后，可以根据该节奏信息，从视频数据库中筛选得到多个不同的视频片段，根据音频文件中节奏信息的排布对视频片段进行相应排列，再剪辑拼接在一起形成视频内容。形成的视频内容与音频文件应当在时间轴上是同步的，如果不同步的话还可以进行时间轴的自动校准，最终形成同步的音频文件和视频内容并发送至内容输出装置进行输出，以供用户欣赏。

本发明的较佳的实施例中，预先构建视频数据库的方式如图2中所示，包括：

步骤A1，收集视频素材，并对视频素材分别打上对应的标签，以形成视频训练数据；

步骤A2，基于视频训练数据对视频生成模型进行训练，得到训练完成的视频生成模型；

步骤A3，采用视频生成模型，通过随机噪声生成新的视频片段；

步骤A4，根据所生成的视频片段的视频质量对视频片段进行筛选，随后对被保留的视频片段进行视频效果的改进；

不断迭代上述步骤A1-A4，持续生成并优化新的视频片段，并对视频片段进行视觉特征的提取，从而构建得到视频数据库。该视频数据库中，每个视频片段的保存方式为：视频素材、对应的视频标签以及视觉特征。使用关系型数据库或者NoSQL数据库构建视频数据库的数据库系统或者文件系统来存储和管理视频数据。

具体地，本实施例中，视频数据库中的所有视频片段都可以通过AI人工智能生成，但是需要事先对人工智能模型进行真实素材的训练。则上述步骤A1中，可以通过网络爬虫或者API接口调用的方式从网上收集大量的视频和图像素材。需要注意的是，在获取视频和图像素材时，需要保证素材的多样性，即包括单一颜色的素材、多种颜色混合的素材、不同场景下的素材、表现各种自然元素的素材、表现不同材料材质的素材、包含各种几何元素、生物元素、形状的素材、包含不同的运镜方式以及艺术表现形式的素材等。最重要的是，由于构建的视频数据库是需要紧密关联于音乐节奏的，因此需要获取的是分别对应于不同的音乐节拍类型、速度、节奏卡点以及情感特征等的视频和图像素材。

在获取视频和图像素材后，通过人工标注的方式编辑不同素材的标签，随后将素材和相应的标签作为训练数据，对视频生成器进行训练。本实施例中，对视频生成模型的训练过程进行描述：

首先，使用已有的素材和对应的标签作为训练数据对视频生成模型进行训练，该视频生成模型的输入数据为随机噪声，输出数据为已有的视频素材以及该视频素材所对应的标签。经过训练之后，该视频生成模型就能够从随机噪声中随机生成大量的AI视频片段，并能够根据生成的视频片段预测得到对应的标签。

进一步地，本实施例中，还可以预先训练得到视觉特征的识别模型，例如通过已有的素材和对应的标签对神经网络模型进行训练，以训练该模型能够识别并提取视频素材中的颜色、场景、元素类型等视觉特征。又或者直接根据图像处理库(例如OpenCV)对视频素材的视觉特征进行识别和提取。则在通过视频生成模型生成大量的AI视频片段后，对AI视频片段进行视觉特征的提取，以最终实现每个AI视频片段均对应于视频素材数据(视频片段本身)、视频标签以及视觉特征的关联关系。

需要注意的是，上述视觉特征可以包括颜色直方图、纹理特征、运动特征以及帧间差异等，视觉特征提取的目的是将视频片段转换为可数值化的标识方式，以便后续的匹配和训练使用。

本实施例中，在生成AI视频片段后，需要对生成的视频片段进行视频质量的评估，例如评估所适用的标签是否准确、是否具有多样性、是否具有创意度等，通过综合多个评估指标的方式来衡量视频片段的视频质量，并通过视频质量的筛选，保留质量较高的视频片段，舍弃质量较低的视频片段。

更进一步地，本实施例中，为了使得视频片段中的视频元素能够更贴近于不同的音频文件的音乐律动节奏，还需要对视频片段进行效果改进，其主要是表现形式和运动改进，具体为：

结合计算机图形学和计算机视觉技术，对生成的视频片段进行表现和运动改进，例如可以使用运动模型、关键帧抽取、插值和光流等技术来改善视频片段中元素的运动和表现效果。又或者，可以通过训练好的生成对抗网络进行视频的帧间插值和帧修复，来改善运动和表现效果。

上述视频生成模型、视觉特征识别模型、视频质量评估模型以及视频效果改善模型可以整合形成一个完整的视频数据库的构建模型，对该构建模型进行反复迭代和自学习，以不断提升所生成的AI视频片段的多样性和创意度，提升预测标签的准确性和提取的视觉特征的准确性，并提升所生成的视频片段的视频质量和视频表现效果，最终形成包含有大量AI视频片段的视频数据库。

本发明的较佳的实施例中，上述步骤S1具体如图3中所示，包括：

步骤S11，将音频文件转换为以频谱形式表示的频谱文件；

步骤S12，将频谱文件划分为多个频段；

步骤S13，根据预设的能量阈值，于各个频段中分别筛选出具有潜在节奏卡点的频谱段；

步骤S14，处理得到各相邻的两个频谱段之间的时间间隔，作为各相邻的两个节奏频谱段之间的节奏间隔；

步骤S15，根据音频文件包含的频谱段以及节奏间隔，处理得到音频文件的节奏信息，节奏信息中包含音频文件中的各个节奏卡点。

本实施例中，上述步骤S11中，可以采用快速傅里叶变换(FFT)等现有技术，将输入的音频文件转换为以频谱形式标识的频谱文件，在此不再赘述。则经过转换后，不同的乐器/人声可以分别对应于不同的频段。

则上述步骤S12中，基于音频文件中的主要乐器，将频谱文件划分为多个频段，每个频段对应于一个主要乐器。当然，划分频段时也需要考虑音频文件中的主要人声。

进一步地，所谓主要乐器，可以包括该段音频中起主要作用的乐器，例如主音吉他、主音钢琴、主音小提琴等，同时也需要包括该段音频中起主要节奏作用的乐器，通常为鼓或者低音贝斯等节奏乐器。所谓主要人声，通常指一段歌曲中的主唱人声，将其与背景音乐中的和声人声进行区别。

在实际处理过程中，对于一个音频文件来说，可以在将其转换成频谱文件之前，先对其中的乐器进行识别。例如：

对于钢琴来说，钢琴通常具有独特的音色和频谱特征，例如附有共鸣的长尾音和宽广的频率范围，则可以通过基于谱分析的方法，例如短时傅里叶变换或者梅尔频率倒谱系数等，结合机器学习模型，例如支持向量机或者深度学习模型，来识别钢琴音。

对于吉他来说，其通常具有独特的拨弦音和音色，具有丰富的频率和谐波，则可以使用音频特征提取方法，例如提取短时能量或者过零率，结合机器学习模型或者音频模式识别方法，例如隐马尔可夫模型或者卷积神经网络来识别吉他音。

对于小提琴来说，其具有独特的弓弦音和音色，具有高频的谐波和表达力，则可以通过时域+频域特征，例如时域包络和频谱形状，结合机器学习模型或者模式匹配方法来识别小提琴音。

对于鼓或者主流的其他打击乐器，可以通过频谱特征分析，结合及其学习模型或模式匹配方法进行识别。当然，打击乐器作为主要的节奏乐器，还可以结合后续的节奏分析结果来进行识别。

对于管乐器，可以通过频率特征和音色分析，采用识别模型进行识别，例如识别得到萨克斯管或者长笛等。

对于其他主流类型的乐器，同样可以采用类似于上文中描述的方式，在对乐器的音色、频率等特征进行分析的基础上，采用训练形成的识别模型对其进行识别。

则本实施例中，对音频文件进行乐器识别后，可以得到音频文件中所包含的乐器类型，进一步可以得到不同乐器在音频文件中进行演奏的相应时间段，以及演奏频率等属性，则可以根据演奏频率、演奏乐器所对应的音频信号的变化情况等判断出该音频文件所对应的主要乐器。例如，演奏频率较高/演奏时间段较长的，可以将其认为是主要乐器；或者，在同一时间段内有多个乐器在演奏的情况下，将音频信号较高(波峰较高)或者音频信号变化较频繁的乐器认为是主要乐器。另外，将演奏频率较高/演奏时间段较长的打击乐器也视为主要乐器。

对于人声的识别可以参照现有技术进行，即根据现有技术中的识别模型可以对主要人声和背景中的和声进行识别和剥离。

则在将音频文件转换为频谱文件之前，已经对主要乐器和主要人声进行了识别，也就确定了主要乐器和主要人声所对应的频段。因此，上述步骤S12中，可以根据主要乐器/主要人声的频段对频谱文件进行划分，只关注这些频段内的频谱信号的变化即可。

本实施例中，预先针对每个频段分别设置不同的能量阈值，则上述步骤S13中，针对每个频段，分别筛选出能量值高于能量阈值的频谱段，将单个频谱段作为一个节奏卡点。

获取到所有的节奏卡点后，针对每个频段，分别获取相邻的节奏卡点之间的时间间隔，作为节奏间隔，则采用节奏卡点和节奏间隔就可以表示一个音频文件的节奏。

进一步地，为了避免节奏卡点的频繁切换以及无效节奏，本实施例中，在识别得到节奏卡点和节奏间隔后，对节奏间隔进行进一步处理，例如：

将节奏间隔的时长和预设的间隔时长进行比较，删除小于预设间隔时长的节奏间隔，即将需要被删除的节奏间隔以及该节奏间隔两端的节奏卡点合并为一个频谱段，以作为新的节奏卡点。

训练得到异常节奏间隔的识别模型，以对异常的节奏间隔进行识别并删除，同样将需要被删除的节奏间隔以及该节奏间隔两端的节奏卡点合并为一个频谱段，以作为新的节奏卡点。

需要说明的是，所谓异常节奏间隔，是指基于整个音频文件或者整段音乐段落而言的。由于输入的音频文件通常是符合乐理的音乐/歌曲，则其必定会保持一定的风格统一性，或者至少在一段音乐呈现中保持一定的风格统一性，该风格统一性落实到节奏上就是例如节拍类型的统一或者节奏速度的统一等。则本实施例中，在识别得到节奏卡点和节奏间隔后，能够进一步识别得到节拍类型和节奏速度，并判断某个或者某几个节奏间隔前后的节奏卡点是否符合该段音乐的风格统一性，将风格不统一的节奏间隔删除。

本实施例中，最终经过处理后保留下来的节奏卡点和相应的节奏间隔可以作为该音频文件的节奏信息。

可选择地，本实施例中，在保留下来的节奏卡点中，再选择关键卡点进行保留，则最终保留的为关键卡点以及各关键卡点之间的节奏间隔。所谓关键卡点，是指整个音频文件中起到最明显的视听体验的节奏卡点。对于关键卡点的识别，可以通过预先训练得到相应的识别模型来实现，例如预先准备多段不同类型的音频文件，确定其标签，同时标注每段音频文件中的关键卡点，并将其作为训练数据。预先准备大量的训练数据来对识别模型进行识别，则最终训练得到的识别模型可以用来对不同类型的音频文件进行关键卡点的识别。

进一步地，采用上述识别模型对音频文件进行关键卡点的识别，若识别结果表示某个关键卡点与保留下来的某个节奏卡点完全或者部分重合，则将重合的部分保留为节奏卡点。若识别结果表示某个关键卡点不与保留下来的任何一个节奏卡点重合，则舍弃该关键卡点的识别结果。最终识别得到该频段下的所有关键卡点，并将每两个相邻的关键卡点之间的节奏间隔作为被保留下来的节奏间隔。

本实施例中，如上文中所述，可以基于最终被保留下来的节奏卡点和节奏间隔识别得到整个音频文件/某段音频文件的情感特征、节拍类型以及节奏速度，可以分别预先训练得到相应的识别模型并对上述属性分别进行识别。

本实施例中，还可以根据最终被保留下来的节奏卡点和节奏间隔来识别整个音频文件中是否存在重复节奏的音频段落，这种识别结果可以用于后续视频片段的匹配中，即重复节奏的音频段落可以选用相同或相似的视频片段/视频片段的组合进行匹配，从而降低匹配算法的计算复杂度。

本发明的较佳的实施例中，上述音频文件的节奏卡点和节奏间隔的分析可以并行进行，例如当音频文件较大时，可以将其切分为多段音频文件，并行进行节奏卡点和节奏间隔的处理，随后再整合起来进行节奏信息中各类属性的识别，从而节省处理时间，提升处理效率。

本发明的一个较佳的实施例中，视频数据库中的各个视频片段具有对应的视频属性；

节奏信息中包含音频文件中的各个节奏卡点；

根据节奏卡点将音频文件切分成多个音频片段，每两个相邻的节奏卡点之间为一段音频片段，每段音频片段分别具有对应的音频标签；

则步骤S2具体如图4中所示，包括：

步骤S21a，针对每个音频片段的音频标签，匹配得到至少一个对应的视频属性的视频片段；

步骤S22a，对匹配得到的所有视频片段进行剪辑拼接；

步骤S22a中，剪辑拼接的剪辑切点包括：

于单个音频片段所在的时间段内，单个视频片段自然结束的时刻；以及

音频文件的节奏卡点所在的时刻。

本实施例中，上述音频片段的音频标签中可以包括上文中所述的节奏信息，即节奏卡点和节奏间隔，也可以进一步包括该音频片段的节拍类型、节奏速度、情感特征以及出现的乐器/人声等特征。

上述视频片段的视频属性可以根据上文中的视频标签和视觉特征获得，即保存在视频数据库中的AI视频片段，其视频属性可以由视频标签和视觉特征来决定，而对于视频标签和视觉特征的分类，尽量保证其与音频片段的音频标签相匹配，例如1/4节拍的音频片段应当匹配于某个特定的视频标签/视觉特征的视频片段，又例如节奏速度快的音频片段应当匹配于某个特定的视频标签/视觉特征的视频片段等。

本实施例中，所谓的节奏卡点，实际上并非严格意义上的时刻，而是一个较短的时间段，为了便于找到视频剪辑的剪辑切点，可以将节奏卡点所在的时间段的中心时刻作为该节奏卡点所在的时刻。又或者，分析节奏卡点所在时间段内频谱能量的变化，将频谱能量呈现下降趋势的变化时刻作为该节奏卡点所在的时刻。

则本实施例中，将上一个节奏卡点所在的时刻至下一个节奏卡点所在的时刻之间的音频段落作为一个音频片段。

本实施例中，对于单个音频片段来说，首先将其音频标签和视觉特征进行组合形成该音频片段的音频特征向量，采用该音频特征向量于视频数据库中对视频片段进行匹配，根据匹配度得到至少一个视频片段。进一步地，将节奏卡点所在的时刻作为视频剪辑的剪辑切点，将该剪辑切点前后的视频剪辑在一起，从而形成连贯的视频内容。

本发明的另一个较佳的实施例中，视频数据库中的各个视频片段具有对应的视频属性；

节奏信息中包含音频文件中的各个节奏卡点；

则步骤S2具体如图5中所示，包括：

步骤S21b，将多个相邻的且情感特征相同的音频片段整合成一个音频片段；

步骤S22b，针对每个音频片段的音频标签，匹配得到至少一个对应的视频属性的视频片段；

步骤S23b，对匹配得到的所有视频片段进行剪辑拼接；

步骤S22b中，剪辑拼接的剪辑切点包括：

音频文件的节奏卡点所在的时刻。

本实施例与上一个实施例之间的区别在于：本实施例中，不再针对每个节奏卡点设定剪辑切点，而是综合考虑音乐整体的情感特征，确保不打断音乐的情感表达。则具体的实现方式为：

首先，确定被划分的每个音频片段的情感特征。

其次，对于一些情感特征例如抒情、悲伤等，其不宜被频繁打断情感表达，因此将相邻且情感特征相同的多个音频片段组合到一起形成新的音频片段，相应地丢弃这些音频片段中间的所有节奏卡点，只保留组合后形成的新的音频片段两端的节奏卡点，随后再执行上文中所述的剪辑拼接的步骤。

本发明的较佳的实施例中，在理想状态下，一个音频片段可以匹配得到最优选的一个视频片段，则剪辑切点应当与节奏卡点一一对应。但是在实际情况下，单个视频片段所持续的时长可能无法完全覆盖对应的音频片段所持续的时长，因此一个音频片段往往需要匹配多个对应的视频片段，其具体的匹配方式存在以下两种实现方法：

1)可以将各个视频片段的匹配度归一化到一个统一的范围内，例如归一化到[0,1]的区间范围内，则在该区间范围内，选取匹配度靠前的N个视频片段作为匹配得到的视频片段。

2)可以设定一个匹配度的阈值，将匹配度高于阈值的所有视频片段均作为匹配得到的视频片段。

进一步地，一些特定的视频片段内可能存在场景内容，例如自然风光、城市风景、特定的室内场景等，不同的场景内容可以对应不同的视频属性，例如对于悠扬的音乐来说，配合自然风光会更合适；而对于轻快的音乐来说，配合教室内的场景会更合适。则在上述两种实现方法的基础上，在匹配度符合要求的视频片段中，进一步挑选存在场景内容且与音频片段的音频标签相匹配的视频片段作为匹配得到的视频片段。

本实施例中，在匹配得到单个音频片段中的多个视频片段后，根据该音频片段的总时长对匹配得到的多个视频片段进行剪辑组合的选择，优先选择多个视频片段组合后的时长最接近音频片段的组合来进行剪辑，并根据视频片段的匹配度由高至低排列视频片段的剪辑顺序，或者根据视频片段之间视频属性的差异来排列视频片段的剪辑顺序，或者根据视频片段之间的关联关系来排列视频片段的剪辑顺序，以使得相邻的两个视频片段之间转换不至于太突兀。例如：

对于单个音频片段，在确定匹配得到的多个视频片段后，直接根据视频片段相对于音频片段的整体匹配度由高至低来排列视频片段的剪辑顺序。

又例如：

对于单个音频片段，在确定匹配得到的多个视频片段后，根据视频片段的某个或者某几个视频属性之间的差异来排列视频片段的剪辑顺序，例如根据视频片段与音频片段的情感特征的匹配度由高至低排列视频片段的剪辑顺序，或者将视频片段与音频片段的情感特征的匹配度和与音频片段的节拍类型的匹配度进行加权计算后再由高至低排列视频片段的剪辑顺序。

又例如：

在视频数据库中保存的多个视频片段之间具有一定的关联关系，该关联关系用于表示多个视频片段先后播放，在播放内容上不会过于突兀。该关联关系同样可以通过预先训练得到的关联关系处理模型来计算得到，可以采用数值方式进行表示。则对于单个音频片段，在确定匹配得到的多个视频片段后，根据视频片段之间的关联关系对视频片段进行排列。具体来说，可以根据表示关联关系的数值，在该数值表示两个视频片段之间的关联关系越高时，将该两个视频片段之间的剪辑距离(该两个视频片段之间相隔多少其他的视频片段)排列越近；在该数值表示两个视频片段之间的关联关系越低时，将该两个视频片段之间的剪辑距离排列越远，最终排列得到该音频片段所对应的所有视频片段的剪辑顺序。

因此，实际情况下，最终得到的剪辑切点通常会多于节奏卡点，其中包括分别对应于节奏卡点的部分剪辑切点，以及其余需要在单个音频片段中进行剪辑切换的剪辑切点。

本发明的较佳的实施例中，在确定单个音频片段所匹配的视频片段的过程中，还需要考虑单个音频片段的节奏速度，节奏速度决定了该音频片段下的视频片段的播放速度，而播放速度决定了匹配得到的所有视频片段的总时长，因此在计算匹配得到的视频片段的总时长时，需要考虑音频片段的节奏速度给视频片段的播放速度带来的影响。具体的实现方式可以为：

预先为节奏速度设定一个标准值，该标准值对应了视频片段的标准播放速度(例如正常播放速度)。以及

预先为节奏速度设定多个偏离范围，每个偏离范围对应了视频片段的一个播放速度。例如，若节奏速度小于标准值，且偏差值在某个预设的偏离范围内时，将视频片段的播放速度调整慢于标准播放速度，且对应于该偏离范围的播放速度，例如调整为0.75倍速。若节奏速度大于标准值，且偏差值在另一个预设的偏离范围内时，将视频片段的播放速度调整快于标准播放速度，且对应于该偏离范围的播放速度，例如调整为1.5倍速。

本发明的较佳的实施例中，由于上文中已经对音频片段内的乐器进行了识别，得到了音频片段中包含的乐器类型，则在对应单个音频片段匹配得到多个视频片段后，可以在视频片段中加入该乐器类型所对应的乐器特效。进一步地，为了避免视频画面元素过多导致用户体验降低，则在视频片段中加入的乐器特效对应的应当为音频片段中包含的主要乐器类型/主要人声。例如，单个音频片段中包含有主音钢琴，则在相应时间段内的视频片段中加入钢琴的特效。又例如，单个音频片段中包含有节奏鼓点，则在相应时间段内的视频片段中可以加入动感和节奏感强的视觉元素。换言之，上述乐器特效并不仅指加入虚拟乐器本身，还可以加入与乐器类型所对应的视觉元素的特效，在此不再一一列举。

又例如，单个音频片段中包含有主要人声演唱的声音，则在相应时间段内的视频片段中加入歌唱者的特效。当然，在加入主要人声的特效时，需要区分男女声、童声、老人声、美声、通俗声等人声类型，其可以根据预先设定的识别模型识别得到，并根据区分的人声类型加入不同的歌唱者特效。

本发明的较佳的实施例中，对于音频片段和视频片段的匹配算法，可以采用向量相似度度量方法进行，例如采用余弦相似度或者欧氏距离相似度算法等，在此不再赘述。

本发明的较佳的实施例中，于两个相邻的视频片段之间，在剪辑切点所在的时刻添加对应的转场效果。

具体地，若在剪辑切点直接切换下一个视频片段，则会给用户造成过于突兀的观感，因此本实施例中，在每个剪辑切点都设置相应的转场特效，以使得用户的观感更加顺滑，具体实现方式如下：

转场效果可以包括但不限于以下几种效果：淡入淡出、切换、幻灯片、模糊、闪光、旋转、缩放等，其与现有技术中幻灯片之间的切换特效、视频剪辑之间的切换特效相类似，在此不再一一列举。

转场效果的选择同样可以根据剪辑切点之后的音频片段的音频标签匹配得到。具体地，转场效果的选择匹配于剪辑切点之后的视频片段所对应的音频片段的音频标签。例如，剪辑切点之后的视频片段所对应的音频片段为抒情类型的，则选择淡入淡出的转场效果。剪辑切点之后的视频片段所对应的音频片段的节奏速度加快，则选择跳跃式的转场效果。

本发明的较佳的实施例中，上述转场效果可以根据音频片段的音频标签实时生成，也可以生成转场效果后进行保存，以供后续使用。

本实施例中，可以采用计算机图形学和视频处理技术来生成转场效果，例如采用FFmpeg的视频滤镜功能来实现各种转场效果，或者采用OpenCV所提供农的图像处理和计算机视觉功能来生成和处理转场效果，或者采用基于FFmpeg和ImageMagick库的Python库MoviePy来生成转场效果等。

本发明的较佳的实施例中，还可以在转场效果上再添加特效，例如对生成的转场效果进行颜色调整、滤镜效果、图形叠加、运动模糊、几何变换、滤波等，其可以匹配音频片段的音频标签执行，也可以随机进行。特效的添加同样可以采用OpenCV或者基于FFmpeg和ImageMagick库的Python库MoviePy进行处理。

本发明的较佳的实施例中，转场效果还具有自带的参数属性，例如转场效果的持续时间、播放速度、颜色调整的强度等，则同样可以根据剪辑切点之后的音频片段的音频标签来确定转场效果的较为优选的参数属性/参数属性的组合。当然，确定转场效果的参数属性/参数属性的组合的方式可以通过预先训练得到的神经网络模型进行处理得到，在此不再赘述。

本发明的较佳的实施例中，上述转场效果、转场效果的特效以及参数属性等都可以根据用户对视觉效果的平湖和反馈来进行不断迭代和参数调优。

本发明的较佳的实施例中，由于转场效果本身也占用了一定的持续时间，因此在对多个匹配得到的视频片段的总时长进行计算时，还需要考虑每两个相邻的视频片段之间转场效果的持续时长。为了简化计算过程，可以预先设置一个转场效果的标准时长，其可以根据多个历史转场效果的平均时长进行设置，保证实际的转场效果的持续时长与该标准时长的差距较小，随后在对视频片段的总时长进行计算时，直接代入该标准时长即可，无需针对每个转场效果计算其持续时长。

本发明的较佳的实施例中，对于一些比较复杂(渲染程度较高、计算复杂度较高、应用次数较多等)的转场效果，可以采用预先渲染并缓存的方式进行，以减少实时处理的负担。例如，对于整体音乐风格、节奏等都比较统一的音频文件而言，预先形成一个统一的转场效果，并将其保存为中间文件。后续剪辑时直接套用该中间文件即可以在每两个相邻的视频片段之间直接使用已渲染的转场效果，而不需要每次都重新进行处理。

当然，对于一些重复使用的转场效果(非整个音频文件统一使用)，在第一次生成该转场效果时进行缓存，并在后续使用时直接调用即可。或者在后续使用时直接调用，并进行特效和参数上的微调，以形成相似但不相同的视觉效果，提升用户的视觉体验。

本发明的较佳的实施例中，为了提升计算效率，可以将多个转场效果分解为独立的任务并进行并行处理。

另外，还可以通过硬件加速库和图像处理框架等手段来提高转场效果的处理效率和处理性能。例如，采用GPU加速库CUDNN、OpenGL或者Vulkan，以及采用图像处理框架比如OpenCV的GPU模块来提高转场效果的处理效率和处理性能。

本发明的较佳的实施例中，在匹配得到音频文件的所有视频片段以及每两个相邻的视频片段之间的转场效果后，完成视频内容的剪辑拼接。在剪辑拼接之前，需要先对音频文件进行时间轴的建立，最终剪辑拼接的各个视频片段、剪辑切点、转场效果等，都需要根据该音频文件的时间轴，对应到相应的时间戳上，从而实现音频文件和视频内容的同步播放。

本发明的较佳的实施例中，上述步骤S1中，获取音频文件后先对音频文件进行预加载，通过语音识别获得音频文件对应的字幕信息；

则步骤S3中，将多个视频片段所对应的时刻内的字幕信息添加至视频片段中，以制作生成视频内容。

具体地，对于一些歌曲类的音频文件，其需要添加对应的字幕信息。本实施例中，预先构建用于添加字幕信息的字幕数据库，该字幕数据库的构建方式具体如图6中所示，包括：

步骤B1，收集包含有字幕内容的视频素材；

步骤B2，提取视频素材中的字幕内容以形成字幕文本，对字幕文本进行预处理；

步骤B3，将预处理后的字幕文本与对应的视频片段进行关联保存，以形成字幕数据库。

本实施例中，上述步骤B2中，可以采用自然语言处理技术和文本处理工具来对字幕文本进行预处理，其中包括去除噪音、去除标点符号和多余空格等，以确保字幕的清晰和可读性，还可以包括对字幕文本中的字体、大小、颜色、描边和阴影等进行处理，根据视频片段的视频属性进行样式设计，已提高用户进行视觉欣赏的体验。

本实施例中，将预处理后的字幕文本与对应的视频片段进行关联保存后，将该视频片段同样作为上述视频数据库的训练样本进行训练。在训练过程中，对作为训练数据的视频片段的标签中添加一项其与字幕文本之间关联关系的标签信息，则后续生成的AI视频片段中，同样会关联到对应的字幕文本。

则本实施例中，在构建字幕数据库之后，将实际的音频文件进行预先缓存，并通过语音识别API或者语音识别库的方式将其转换为文本文件，通过语音识别转换成文本文件的实现方式在现有技术中已经非常成熟，在此不再详细阐述。

转换成文本文件后，将该文本文件与字幕数据库中的字幕文件进行匹配，选择最匹配的字幕文件作为该音频文件的字幕信息，并将字幕信息分别添加到对应的视频片段的某些特定的时间段中，该时间段为上述文本文件中各句歌词在音频文件中所出现的时间段。上述字幕文件的匹配处理方式可以使用文本匹配算法和相似度度量方法进行，例如基于TF-IDF的文本相似度算法或者余弦相似度算法等。

进一步地，本实施例中，可以根据各个音频片段的音频标签，对字幕信息做进一步的处理，例如：

调整字幕信息的出现和消失的时刻以及特效，比如使字幕在进入和退出时逐渐显现或者逐渐消失的渐入渐出特效，或者使字幕在进入和退出时逐渐深化或者逐渐淡化的淡入淡出特效。

调整字幕信息持续过程中的特效，比如调整字幕的显示位置或者使字幕在显示时移动其位置，或者给字幕信息添加微小的抖动或者颤动效果，或者给字幕添加描边或阴影效果，或者给字幕添加颜色渐变的效果，或者给字幕添加各类文字效果，例如模糊、扭曲、闪烁等。

同样地，上述字幕信息的特效调整也可以使用图形处理库或者视频编辑库的相关调整工具，例如OpenCV、Ffmpeg、MoviePy等。

则本实施例中，在对字幕信息进行确定和调整后，将其嵌入到相应的视频片段中，并对视频片段和转场效果进行剪辑拼接来形成最终的视频内容，输出视频内容至内容输出装置，以供用户查看。

综上所述，本发明技术方案中，在音乐节奏卡点的识别、视频数据库的构建、视频片段的匹配和剪辑、转场特效以及视频特效的生成以及字幕的处理等各方面均应用到了人工智能的思想，采用各自不同的神经网络模型，应用不同的处理标准对不同的数据分别进行处理，并且实现了各个处理环节的智能融合，从而将人工智能的数据处理理念完美应用到音频文件的处理过程中，达到将音频文件“可视化”的发明目的，实现视频内容和音频节奏的强关联性，提供内容输出装置以供用户能够“看见”音频的节奏变化和歌曲特效，提升用户的视听体验。

本发明的较佳的实施例中，还提供一种基于音乐的视频生成系统，其应用上文中所述的基于音乐的视频生成方法，其结构如图7中所示，包括内容输出装置1和计算机设备2，内容输出装置1连接计算机设备2。

计算机设备2进一步包括：

第一处理单元21，用于根据外部输入的音频文件确定音频文件的节奏信息；

视频数据库22，用于保存多个视频片段；

第二处理单元23，分别连接第一处理单元21和视频数据库22，用于根据音频文件的节奏信息，于视频数据库中匹配得到多个视频片段；

自动剪辑单元24，连接第二处理单元23，用于根据匹配得到的多个视频片段剪辑生成相应的视频内容并输出至内容输出装置，以供内容输出装置同步播放音频文件和视频内容。

以上所述仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种基于音乐的视频生成方法，其特征在于，设置内容输出装置以及计算机设备，所述内容输出装置连接所述计算机设备，所述计算机设备中预先构建包含有多个视频片段的视频数据库；

所述视频生成方法包括：

2.如权利要求1所述的基于音乐的视频生成方法，其特征在于，所述步骤S1包括：

步骤S12，将所述频谱文件划分为多个频段；

3.如权利要求2所述的基于音乐的视频生成方法，其特征在于，所述步骤S12中，基于所述音频文件中的主要乐器，将所述频谱文件划分为多个所述频段，每个所述频段对应于一个所述主要乐器。

4.如权利要求1所述的基于音乐的视频生成方法，其特征在于，所述视频数据库中的各个所述视频片段具有对应的视频属性；

所述节奏信息中包含所述音频文件中的各个节奏卡点；

则所述步骤S2包括：

步骤S22a，对匹配得到的所有所述视频片段进行剪辑拼接；

所述步骤S22a中，剪辑拼接的剪辑切点包括：

所述音频文件的节奏卡点所在的时刻。

5.如权利要求1所述的基于音乐的视频生成方法，其特征在于，所述视频数据库中的各个所述视频片段具有对应的视频属性；

所述节奏信息中包含所述音频文件中的各个节奏卡点；

则所述步骤S2包括：

步骤S23b，对匹配得到的所有所述视频片段进行剪辑拼接；

所述步骤S22b中，剪辑拼接的剪辑切点包括：

所述音频文件的节奏卡点所在的时刻。

6.如权利要求4或5所述的基于音乐的视频生成方法，其特征在于，于两个相邻的所述视频片段之间，在所述剪辑切点所在的时刻添加对应的转场效果。

7.如权利要求4或5所述的基于音乐的视频生成方法，其特征在于，通过对所述音频文件进行乐器识别，得到每个所述音频片段中包含的乐器类型；

8.如权利要求1所述的基于音乐的视频生成方法，其特征在于，所述步骤S1中，获取所述音频文件后先对所述音频文件进行预加载，通过语音识别获得所述音频文件对应的字幕信息；

9.如权利要求1所述的基于音乐的视频生成方法，其特征在于，所述内容输出装置为带有音频输出装置的显示屏。

10.一种基于音乐的视频生成系统，其特征在于，应用如权利要求1-9中任意一项所述的基于音乐的视频生成方法，并包括内容输出装置和计算机设备，所述内容输出装置连接所述计算机设备；

所述计算机设备包括：

视频数据库，用于保存多个视频片段；